VFP Benchmark Log 計測結果まとめ
VFP Benchmark の実行結果
結果一覧
Device | Clock | Thread | Single Thread | Multi Thread | ||||
---|---|---|---|---|---|---|---|---|
Half-p | Single-p | Double-p | Half-p | Single-p | Double-p | |||
AMD Ryzen 9 3950X 16-Core Processor | 3.493 GHz | 16/32 | – | 128.305 | 63.384 | – | 1888.789 | 938.944 |
AMD Ryzen 7 PRO 4750G with Radeon Graphics | 3.593 GHz | 8/16 | – | 141.717 | 70.860 | – | 1119.103 | 558.094 |
Intel(R) Core(TM) i7-4790K CPU @ 4.00GHz | 4.400 GHz | 4/8 | – | 140.704 | 70.256 | – | 539.429 | 268.944 |
Intel(R) Core(TM) i7-6700K CPU @ 4.00GHz | 4.200 GHz | 4/8 | – | 135.532 | 67.709 | – | 537.822 | 271.106 |
AMD Ryzen 7 1800X Eight-Core Processor | 3.600 GHz | 8/16 | – | 62.298 | 30.845 | – | 465.706 | 228.360 |
Apple M1 arm64 MacBook Air Late 2020_macOS | 3.200 GHz | 8/8 | 153.108 | 76.576 | 38.314 | 838.481 | 418.500 | 209.847 |
Intel(R) Core(TM) i5-1030NG7 CPU @ 1.10GHz_macOS | 1.100 GHz | 4/8 | – | 111.310 | 55.593 | – | 413.685 | 204.351 |
AMD Ryzen 5 3400G with Radeon Vega Graphics_cTDP35W | 3.700 GHz | 4/8 | – | 64.323 | 32.149 | – | 239.429 | 119.606 |
Apple A11 iPhone X | 2.390 GHz | 6/6 | – | 50.968 | 25.414 | – | 236.143 | 116.185 |
Intel(R) Core(TM) i7-3615QM CPU @ 2.30GHz | 2.301 GHz | 4/8 | – | 51.748 | 26.067 | – | 193.427 | 96.951 |
Apple M1 Rosetta x86_64 MacBook Air Late 2020_macOS | 2.400 GHz | 8/8 | – | 34.142 | 17.064 | – | 192.912 | 96.515 |
Qualcomm Technologies, Inc SDM845 Pixel3 | 2.803 GHz | 8/8 | 44.356 | 22.274 | 11.150 | 278.633 | 139.238 | 69.642 |
Qualcomm Technologies, Inc MSM8998 835 EssentialPhone | 2.458 GHz | 8/8 | – | 19.547 | 9.776 | – | 134.506 | 67.276 |
MT8183 FireHD10(2019) | 1.989 GHz | 8/8 | – | 15.868 | 7.305 | – | 125.541 | 57.218 |
AMD A10-7870K Radeon R7, 12 Compute Cores 4C+8G | 3.900 GHz | 2/4 | – | 62.240 | 31.120 | – | 124.508 | 62.259 |
Hisilicon Kirin710 P30Lite | 2.189 GHz | 8/8 | – | 17.423 | 8.709 | – | 117.542 | 58.569 |
Apple A10 iPad 7 | 2.340 GHz | 2/2 | – | 54.102 | 26.972 | – | 103.423 | 50.847 |
Intel(R) Core(TM) i5-3210M CPU @ 2.50GHz | 2.501 GHz | 2/4 | – | 48.911 | 24.474 | – | 89.003 | 42.626 |
Apple A9 iPad 5 | 1.850 GHz | 2/2 | – | 42.569 | 14.718 | – | 85.180 | 29.387 |
RK3399 ChromebookFlipC101PA | 2.016 GHz | 6/6 | – | 16.062 | 8.030 | – | 79.036 | 37.760 |
Qualcomm Technologies, Inc MSM8937_430_ZenFone3MaxZC553KL | 1.401 GHz | 8/8 | – | 10.959 | 5.497 | – | 78.350 | 39.069 |
Qualcomm Technologies, Inc MSM8992 808 Nexus5X | 1.824 GHz | 6/6 | – | 14.524 | 7.261 | – | 73.978 | 37.008 |
Apple A9 iPhone SE | 1.850 GHz | 2/2 | – | 42.370 | 14.597 | – | 73.316 | 27.426 |
Apple A8X iPad Air2 | 1.500 GHz | 3/3 | – | 23.997 | 11.971 | – | 71.878 | 35.941 |
Qualcomm MSM 8974 HAMMERHEAD (Flattened Device Tree) 800 Nexus5 | 2.266 GHz | 4/4 | – | 16.454 | 3.385 | – | 65.470 | 13.868 |
Intel(R) Celeron(R) CPU J1900 @ 1.99GHz | 2.416 GHz | 4/4 | – | 14.477 | 3.619 | – | 57.778 | 14.438 |
Intel(R) Atom(TM) x7-Z8700 CPU @ 1.60GHz_GPDWIN | 1.601 GHz | 4/4 | – | 14.259 | 3.585 | – | 57.101 | 14.184 |
NVIDIA Tegra4 tegratab TegraNote7 | 1.810 GHz | 4/4 | – | 14.090 | 2.610 | – | 50.955 | 9.795 |
BCM2711 Raspberry Pi 4 Model B Rev 1.11 | 1.500 GHz | 4/4 | – | 11.972 | 5.984 | – | 47.921 | 23.960 |
NVIDIA_TegraX1_JetsonNano | 1.428 GHz | 4/4 | – | 11.401 | 5.702 | – | 45.510 | 22.763 |
Apple A8 Apple TV HD | 1.500 GHz | 2/2 | – | 22.204 | 11.107 | – | 44.145 | 21.667 |
QCT APQ8064 FLO Snapdragon S4 Pro Nexus7(2013) | 1.512 GHz | 4/4 | – | 10.950 | 2.297 | – | 43.660 | 9.229 |
Apple A7 iPad mini 2 | 1.300 GHz | 2/2 | – | 20.415 | 10.231 | – | 40.904 | 20.443 |
Apple A7 iPhone 5S | 1.300 GHz | 2/2 | – | 20.086 | 9.990 | – | 40.146 | 20.237 |
BCM2837 Raspberry Pi 3 Model B Rev 1.2 | 1.200 GHz | 4/4 | – | 9.400 | 4.299 | – | 37.230 | 17.211 |
NVIDIA TegraK1 Nexus9 | 2.499 GHz | 2/2 | – | 18.122 | 9.089 | – | 36.290 | 18.101 |
Apple A8 iPod touch 6 | 1.100 GHz | 2/2 | – | 17.958 | 8.973 | – | 35.796 | 17.899 |
Intel(R) Atom(TM) CPU Z3745 @ 1.33GHz_MeMOPad7ME176C | 1.862 GHz | 4/4 | – | 8.927 | 2.783 | – | 35.631 | 11.140 |
MT8135 FireHD6(2014) | 1.508 GHz | 4/4 | – | 12.001 | 2.400 | – | 28.816 | 7.135 |
Apple S6 Watch Series 6 | 1.500 GHz | 2/2 | 25.256 | 12.629 | 6.314 | 50.421 | 25.223 | 12.600 |
Intel(R) Atom(TM) CPU Z2560 @ 1.60GHz_Fonepad7ME372CL | 1.600 GHz | 2/4 | – | 7.588 | 1.544 | – | 18.566 | 3.241 |
Intel(R) Celeron(R) 2957U @ 1.40GHz | 1.400 GHz | 2/2 | – | 8.927 | 4.464 | – | 17.850 | 8.928 |
Apple A6 iPhone 5 | 1.300 GHz | 2/2 | – | 9.873 | 1.379 | – | 17.146 | 3.142 |
BCM2836 Raspberry Pi 2 Model B Rev 1.1 | 0.900 GHz | 4/4 | – | 1.777 | 0.871 | – | 7.023 | 3.444 |
Apple S2 Watch Series 2 | 0.520 GHz | 2/2 | – | 1.023 | 0.502 | – | 1.841 | 0.899 |
BCM2835 Raspberry Pi Model B | 0.700 GHz | 1/1 | – | 0.637 | 0.637 | – | 0.637 | 0.629 |
- Half-p, Single-p, Dobule-p の単位は GFLOPS
- Multi Thread Single-p が大きい順に並んでいます。
- Apple M1/A10~ など Apple OS 上の big.LITTLE CPU では LITTLE core の正しい計測ができていません。Multi Thread のスコアは不正確で実際より大きな値が出ています。Single Thread の値だけ見るようにしてください。
旧リスト
Device | OS | SoC | CPU | FPU | clock | Single-SP | Single-DP | Multi-SP | Multi-DP | ||
---|---|---|---|---|---|---|---|---|---|---|---|
PC AMD Ryzen 9 3950X | Win10 | AMD Ryzen 9 3950X | Zen2 | x64 | SSE4.2/AVX2/FMA3 | 16 | 3.5GHz | 132.173 | 66.092 | 1904.671 | 949.919 |
PC Intel Core i7-6700K | Win10 | Intel Core i7-6700K | Skylake | x64 | SSE4.2/AVX2/FMA3 | 4 | 4.0GHz | 135.577 | 67.698 | 542.267 | 271.127 |
PC Intel Core i7-4790K | Ubuntu | Intel Core i7-4790K | Haswell | x64 | SSE4.2/AVX2/FMA3 | 4 | 4.0GHz | 140.339 | 46.722 | 537.865 | 268.264 |
PC AMD Ryzen 7 1800X | Win10 | AMD Ryzen 7 1800X | Zen | x64 | SSE4.2/AVX2/FMA3 | 8 | 3.6GHz | 62.467 | 30.860 | 474.832 | 237.482 |
Apple Mac mini Late 2012 | OSX.10 | Intel Core i7-3615QM | Ivy Birdge | x64 | SSE4.2/AVX | 4 | 2.3GHz | 51.427 | 25.693 | 194.698 | 96.913 |
Apple MacBook Pro Late 2011 | OSX.10 | Intel Core i7-2720QM | Sandy Bridge | x64 | SSE4.2/AVX | 4 | 2.2GHz | 52.260 | 26.137 | 162.316 | 74.049 |
Google Pixel 3 | A10 | Snapdragon 845 | Kryo 385(A75/55) | ARMv8.2A | AArch64 | 8 | 2.8GHz | 22.274 | 11.150 | 139.238 | 69.642 |
Essential Phone PH-1 | A10 | Snapdragon 835 | Kryo (A73/53) | ARMv8A | AArch64 | 8 | 2.45GHz | 19.547 | 9.776 | 134.506 | 67.276 |
Amazon Fire HD 10 2019 | A9.0 | Mediatek MT8183 | A73/A53 | ARMv8A | AArch64 | 8 | 2.0GHz | 15.868 | 7.305 | 125.541 | 57.218 |
PC AMD A10-7870K | Win10 | AMD A10-7870K | Steamroller | x64 | SSE4.2/AVX/FMA3 | 2 | 3.9GHz | 64.743 | 32.400 | 124.500 | 62.247 |
Apple MacBook Pro Late 2013 | OSX.10 | Intel Core i5-3210M | Ivy Birdge | x64 | SSE4.2/AVX | 2 | 2.5GHz | 48.604 | 24.317 | 90.247 | 45.223 |
iPhone SE | iOS9.3 | Apple A9 | Twister | ARMv8A | AArch64 | 2 | 1.85GHz | 41.857 | 14.545 | 81.071 | 28.333 |
Chromebook Flip C101PA | Chrome | RockChip RK3399 | A72 + A53 | ARMv8A | AArch64 | 6 | 2.0GHz | 16.062 | 8.030 | 79.036 | 37.760 |
NVIDIA SHIELD Tablet | A4.4 | NVIDIA Tegra K1 | Cortex-A15 | ARMv7A | VFPv4 NEON | 4 | 2.2GHz | 17.136 | 3.431 | 70.174 | 14.036 |
Apple iPad A8X | i8.0 | Apple A8X | Typhoon | ARMv8A | AArch64 | 3 | 1.5GHz | 23.568 | 11.751 | 68.591 | 33.968 |
NVIDIA SHIELD Android TV | A5.1 | NVIDIA Tegra X1 | Cortex-A57 | ARMv8A | AArch64 | 4 | 2.1GHz | 17.041 | 8.554 | 67.588 | 33.730 |
Amazon Fire HDX 7 2013 | A4.4 | Qualcomm 800 MSM8974 | Krait 400 | ARMv7A | VFPv4 NEON | 4 | 2.2GHz | 17.128 | 4.289 | 67.539 | 16.874 |
Motorola Nexus 6 | A5.0 | Qualcomm 805 APQ8084 | Krait 450 | ARMv7A | VFPv4 NEON | 4 | 2.7GHz | 15.575 | 4.547 | 64.316 | 20.393 |
PC AMD Athlon 5350 Kabini | Ubuntu | AMD Athlon 5350 | Jaguar | x64 | SSE4.2/AVX | 4 | 2.0GHz | 15.943 | 6.127 | 63.737 | 24.504 |
PC Intel J1900 BayTrail-D | Ubuntu | Intel Celeron J1900 | Silvermont | x64 | SSE4.2 | 4 | 2.0GHz | 14.477 | 3.619 | 57.902 | 14.471 |
NVIDIA Tegra Note 7 | A4.4 | NVIDIA Tegra 4 | Cortex-A15 | ARMv7A | VFPv4 NEON | 4 | 1.8GHz | 13.371 | 2.655 | 51.345 | 9.860 |
PC Intel N3150 Braswell | Ubuntu | Intel Celeron N3150 | Airmont | x64 | SSE4.2 | 4 | 1.6GHz | 12.468 | 3.117 | 49.679 | 12.469 |
Raspberry Pi 4 | Ubuntu | Broadcomm BCM2711 | Cortex-A72 | ARMv8A | AArch64 | 4 | 1.5GHz | 11.973 | 5.987 | 47.925 | 23.962 |
ASUS Nexus 7 2013 | A4.4 | Qualcomm S4 APQ8064 | Krait | ARMv7A | VFPv4 NEON | 4 | 1.5GHz | 11.947 | 3.005 | 47.808 | 11.751 |
HTC J butterfly HTL21 | A4.1 | Qualcomm S4 APQ8064 | Krait | ARMv7A | VFPv4 NEON | 4 | 1.5GHz | 11.883 | 2.967 | 46.954 | 11.778 |
NVIDIA Jetson nano | Ubuntu | NVIDIA Tegra X1 | Cortex-A57 | ARMv8A | AArch64 | 4 | 1.43GHz | 11.404 | 5.702 | 45.454 | 22.727 |
Apple TV (2015) | tv9.0 | Apple A8 | Typhoon | ARMv8A | AArch64 | 2 | 1.4GHz | 22.197 | 11.105 | 44.331 | 22.084 |
Apple iPhone 5s | i8.0 | Apple A7 | Cyclone | ARMv8A | AArch64 | 2 | 1.3GHz | 20.621 | 10.313 | 40.871 | 20.480 |
Apple iPad mini 2 | i8.0 | Apple A7 | Cyclone | ARMv8A | AArch64 | 2 | 1.3GHz | 20.373 | 10.223 | 40.616 | 20.238 |
Dragonboard 410c | Debian | Snapdragon 410 MSM8916 | Cortex-A53 | ARMv8A | AArch64 | 4 | 1.2GHz | 9.498 | 4.749 | 37.965 | 18.603 |
Raspberry Pi 3 | Debian | Broadcomm BCM2837 | Cortex-A53 | ARMv8A | VFPv4 NEON | 4 | 1.2GHz | 9.431 | 2.477 | 37.442 | 9.994 |
Apple iPod touch 6 | i8.4 | Apple A8 | Typhoon | ARMv8A | AArch64 | 2 | 1.1GHz | 17.964 | 8.899 | 35.530 | 17.775 |
ASUS MeMO Pad 7 ME176 | A5.0 | Intel Atom Z3745 | Silvermont | x86 | SSE4.2 | 4 | 1.83GHz | 8.946 | 2.797 | 35.473 | 11.060 |
HTC Nexus 9 | A5.0 | NVIDIA Tegra K1 | Denver | ARMv8A | AArch64 | 2 | 2.5GHz | 17.906 | 8.762 | 34.888 | 17.601 |
ASUS Nexus Player | A5.0 | Intel Atom Z3560 | Silvermont | x86 | SSE4.2 | 4 | 1.8GHz | 8.733 | 2.733 | 33.852 | 10.655 |
Amazon Fire TV 2015 | A5.1 | MediaTek MT8173C | Cortex-A72 | ARMv8A | AArch64 | 2 | 2.0GHz | 15.864 | 7.934 | 31.771 | 15.885 |
Apple Mac mini Early 2009 | OSX.10 | Intel Core 2 Duo P7350 | Penryn | x64 | SSE4.1 | 2 | 2.0GHz | 15.916 | 6.365 | 31.662 | 12.724 |
Dragonboard 410c | A5.1 | Snapdragon 410 MSM8916 | Cortex-A53 | ARMv8A | AArch64 | 4 | 1.2GHz | 9.377 | 4.737 | 30.817 | 15.063 |
Samsung Nexus 10 | A4.4 | Samsung Exynos 5250 | Cortex-A15 | ARMv7A | VFPv4 NEON | 2 | 1.7GHz | 13.483 | 2.686 | 26.724 | 5.314 |
ASUS MeMO Pad 7 ME176 (BT) | A5.0 | Intel Atom Z3745 | Silvermont | ARMv7A | VFPv3/NEON | 4 | 1.83GHz | 6.144 | 1.476 | 24.329 | 5.905 |
Apple iPad 4 | i8.0 | Apple A6X | Swift | ARMv7A | VFPv4 NEON | 2 | 1.4GHz | 10.855 | 1.818 | 21.502 | 3.573 |
Apple iPhone 5 | i9.0 | Apple A6 | Swift | ARMv7A | VFPv4 NEON | 2 | 1.3GHz | 10.094 | 1.710 | 20.029 | 3.398 |
ASUS Nexus 7 2012 | A4.4 | NVIDIA Tegra 3 | Cortex-A9 | ARMv7A | VFPv3 NEON | 4 | 1.2GHz | 4.783 | 1.196 | 18.905 | 4.724 |
ASUS Fonepad 7 ME372CL | A4.4 | Intel Atom Z2560 | Saltwell | x86 | SSSE3 | 2 | 1.6GHz | 7.540 | 1.523 | 18.630 | 3.504 |
Acer Chromebook c720 | Ubuntu | Intel Celeron 2955U | Haswell | x64 | SSE4.2 | 2 | 1.4GHz | 8.898 | 4.448 | 17.339 | 8.784 |
HTC EVO 3d | A4.0 | Qualcomm S3 MSM8660 | Scorpion | ARMv7A | VFPv3 NEON | 2 | 1.2GHz | 8.898 | 1.112 | 16.560 | 1.266 |
Sony VAIO Type P | Ubuntu | Intel Atom Z540 | Bonnell | x86 | SSSE3 | 1 | 1.86GHz | 8.918 | 1.810 | 10.927 | 1.852 |
Lenovo Yoga Tablet 8 | A4.2 | MediaTek MT8125 | Cortex-A7 | ARMv7A | VFPv4 NEON | 4 | 1.2GHz | 2.374 | 1.165 | 9.474 | 4.653 |
SHARP Mebius Note PCPJ1 | Ubuntu | Intel Atom N270 | Bonnell | x86 | SSSE3 | 1 | 1.6GHz | 5.597 | 1.548 | 9.277 | 1.570 |
NEC Medias N-06C | A2.3 | Qualcomm S2 MSM8255 | Scorpion | ARMv7A | VFPv3 NEON | 1 | 1.0GHz | 7.786 | 0.977 | 7.835 | 0.981 |
Apple iPad 2 | i8.0 | Apple A5 | Cortex-A9 | ARMv7A | VFPv3 NEON | 2 | 1.0GHz | 3.960 | 0.989 | 7.830 | 1.961 |
Apple iPad mini | i8.0 | Apple A5 | Cortex-A9 | ARMv7A | VFPv3 NEON | 2 | 1.0GHz | 3.846 | 0.983 | 7.800 | 1.941 |
Fire TV Stick 2015 | A5.1 | Broadcom 28155 | Cortex-A9 | ARMv7A | VFPv3 NEON | 2 | 1.0GHz | 3.968 | 0.992 | 7.761 | 1.946 |
Apple iPad 3 | i8.0 | Apple A5X | Cortex-A9 | ARMv7A | VFPv3 NEON | 2 | 1.0GHz | 3.394 | 0.983 | 7.752 | 1.954 |
Sony Xperia IS11S | A2.3 | Qualcomm S2 MSM8255 | Scorpion | ARMv7A | VFPv3 NEON | 1 | 1.0GHz | 7.681 | 0.960 | 7.623 | 0.960 |
Raspberry Pi 2 | Debian | Broadcomm BCM2836 | Cortex-A7 | ARMv7A | VFPv4 NEON | 4 | 0.9GHz | 1.791 | 0.877 | 7.087 | 3.472 |
HTC Desire | A2.2 | Qualcomm S1 QSD8250 | Scorpion | ARMv7A | VFPv3 NEON | 1 | 1.0GHz | 7.098 | 0.886 | 7.058 | 0.886 |
Apple iPod touch 5 | i8.0 | Apple A5 | Cortex-A9 | ARMv7A | VFPv3 NEON | 2 | 0.8GHz | 3.161 | 0.790 | 6.203 | 1.565 |
Sony SmartWatch 3 SWR50 | A4.4W | Qualcomm 400 MSM8226 | Cortex-A7 | ARMv7A | VFPv4 NEON | 4 | 1.2GHz | 2.257 | 1.144 | 4.946 | 2.278 |
NEC LifeTcouhNote | A2.3 | NVIDIA Tegra 2 | Cortex-A9 | ARMv7A | VFPv3 | 2 | 1.0GHz | 1.993 | 0.999 | 3.908 | 1.962 |
LG OptimusPad L-06C | A3.1 | NVIDIA Tegra 2 | Cortex-A9 | ARMv7A | VFPv3 | 2 | 1.0GHz | 1.983 | 0.997 | 3.853 | 1.965 |
Motorola Moto 360 | A5.0 | TI OMAP3 | Cortex-A8 | ARMv7A | VFPv3 NEON | 1 | 1.0GHz | 3.739 | 0.126 | 3.376 | 0.125 |
Apple iPod touch 4 | i6.0 | Apple A4 | Cortex-A8 | ARMv7A | VFPv3 NEON | 1 | 0.8GHz | 3.139 | 0.112 | 3.139 | 0.112 |
Creative Ziio 7 | A2.2 | Creative ZMS-08 | Cortex-A8 | ARMv7A | VFPv3 NEON | 1 | 1.0GHz | 2.781 | 0.100 | 2.792 | 0.099 |
Apple Watch S2 | W3.1 | Apple S2 | Cortex-A7 | ARMv7A | VFPv4 NEON | 2 | 0.5GHz | 0.986 | 0.483 | 1.807 | 0.879 |
LG G Watch | A4.4W | Qualcomm 400 MSM8226 | Cortex-A7 | ARMv7A | VFPv4 NEON | 4 | 1.2GHz | 1.419 | 0.742 | 1.367 | 0.676 |
Apple Watch | W2.0 | Apple S1 | Cortex-A7 | ARMv7A | VFPv4 NEON | 1 | 0.5GHz | 0.951 | 0.470 | 0.945 | 0.469 |
Raspberry Pi | Debian | Boradcom BCM2835 | ARM1176JZF-S | ARMv6 | VFPv2 | 1 | 0.7GHz | 0.674 | 0.674 | 0.674 | 0.674 |
SmartQ ZWatch | A4.4 | Ingenic JZ4775 | XBurst | MIPS32 | FPU | 1 | 1.0GHz | 0.117 | 0.116 | 0.117 | 0.117 |
Mobile CPU 32bit
ARM ARM11 (ARMv6) VFPv2
Raspberry Pi ARM1176JZF-S 700MHz
ARM11 700MHz ARM1176JZF-S Single core ARCH: ARMv6 FPU: VFPv2-D16 SingleT SP max: 0.674 GFLOPS SingleT DP max: 0.674 GFLOPS MultiT SP max: 0.674 GFLOPS MultiT DP max: 0.674 GFLOPS CPU core: 1 NEON: no FMA: no * VFP/NEON (single fp) VFP fmuls (32bit x1) n8 : 11.876 336.8 336.8 VFP fadds (32bit x1) n8 : 11.873 336.9 336.9 VFP fmacs (32bit x1) n8 : 11.874 673.7 673.7 VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : - - - NEON vadd.f32 (32bit x2) n8 : - - - NEON vmla.f32 (32bit x2) n8 : - - - NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : - - - NEON vadd.f32 (32bit x4) n8 : - - - NEON vmla.f32 (32bit x4) n8 : - - - NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : 11.874 336.9 336.9 VFP fadds (32bit x1) ns4 : 11.875 336.8 336.8 VFP fmacs (32bit x1) ns4 : 11.873 673.8 673.8 VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : - - - NEON vadd.f32 (32bit x2) ns4 : - - - NEON vmla.f32 (32bit x2) ns4 : - - - NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : - - - NEON vadd.f32 (32bit x4) ns4 : - - - NEON vmla.f32 (32bit x4) ns4 : - - - NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : 46.333 86.3 86.3 VFP fadds (32bit x1) n1 : 46.341 86.3 86.3 VFP fmacs (32bit x1) n1 : 46.542 171.9 171.9 VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : - - - NEON vadd.f32 (32bit x2) n1 : - - - NEON vmla.f32 (32bit x2) n1 : - - - NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : - - - NEON vadd.f32 (32bit x4) n1 : - - - NEON vmla.f32 (32bit x4) n1 : - - - NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : - - - NEON vadd.f32 (32bit x4) n12 : - - - NEON vmla.f32 (32bit x4) n12 : - - - NEON vfma.f32 (32bit x4) n12 : - - - Average : 23.384 337.7 337.7 Highest : 11.873 673.8 673.8 * VFP/NEON (double fp) VFP fmuld (64bit x1) n8 : 11.874 336.9 336.9 VFP faddd (64bit x1) n8 : 11.873 336.9 336.9 VFP fmacd (64bit x1) n8 : 11.873 673.8 673.8 VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : 13.177 303.6 303.6 VFP faddd (64bit x1) ns4 : 11.877 336.8 336.8 VFP fmacd (64bit x1) ns4 : 13.178 607.1 607.1 VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : 52.124 76.7 76.7 VFP faddd (64bit x1) n1 : 46.330 86.3 86.3 VFP fmacd (64bit x1) n1 : 52.124 153.5 153.5 VFP vfma.f64 (64bit x1) n1 : - - - Average : 24.937 323.5 323.5 Highest : 11.873 673.8 673.8 * Matrix 4x4 C++ code : 7.938 451.5 451.5 NEON vmla 128bit A : - - - NEON vmla 64bit A : - - - NEON vfma 128bit A : - - - NEON vmla 128bit B : - - - NEON vmla 64bit B : - - - NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - Average : 7.938 451.5 451.5 Highest : 7.938 451.5 451.5 * VFP/NEON (single fp) multi-thread VFP fmuls (32bit x1) n8 : 11.874 336.9 336.9 VFP fadds (32bit x1) n8 : 11.871 337.0 337.0 VFP fmacs (32bit x1) n8 : 11.875 673.7 673.7 VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : - - - NEON vadd.f32 (32bit x2) n8 : - - - NEON vmla.f32 (32bit x2) n8 : - - - NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : - - - NEON vadd.f32 (32bit x4) n8 : - - - NEON vmla.f32 (32bit x4) n8 : - - - NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : 11.873 336.9 336.9 VFP fadds (32bit x1) ns4 : 11.874 336.9 336.9 VFP fmacs (32bit x1) ns4 : 11.872 673.8 673.8 VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : - - - NEON vadd.f32 (32bit x2) ns4 : - - - NEON vmla.f32 (32bit x2) ns4 : - - - NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : - - - NEON vadd.f32 (32bit x4) ns4 : - - - NEON vmla.f32 (32bit x4) ns4 : - - - NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : 46.333 86.3 86.3 VFP fadds (32bit x1) n1 : 46.384 86.2 86.2 VFP fmacs (32bit x1) n1 : 46.435 172.3 172.3 VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : - - - NEON vadd.f32 (32bit x2) n1 : - - - NEON vmla.f32 (32bit x2) n1 : - - - NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : - - - NEON vadd.f32 (32bit x4) n1 : - - - NEON vmla.f32 (32bit x4) n1 : - - - NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : - - - NEON vadd.f32 (32bit x4) n12 : - - - NEON vmla.f32 (32bit x4) n12 : - - - NEON vfma.f32 (32bit x4) n12 : - - - Average : 23.377 337.8 337.8 Highest : 11.871 673.8 673.8 * VFP/NEON (double fp) multi-thread VFP fmuld (64bit x1) n8 : 11.875 336.9 336.9 VFP faddd (64bit x1) n8 : 11.872 336.9 336.9 VFP fmacd (64bit x1) n8 : 11.874 673.8 673.8 VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : 13.176 303.6 303.6 VFP faddd (64bit x1) ns4 : 11.875 336.8 336.8 VFP fmacd (64bit x1) ns4 : 13.177 607.1 607.1 VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : 52.133 76.7 76.7 VFP faddd (64bit x1) n1 : 46.439 86.1 86.1 VFP fmacd (64bit x1) n1 : 52.127 153.5 153.5 VFP vfma.f64 (64bit x1) n1 : - - - Average : 24.950 323.5 323.5 Highest : 11.872 673.8 673.8 * Matrix 4x4 multi-thread C++ code : 7.937 451.5 451.5 NEON vmla 128bit A : - - - NEON vmla 64bit A : - - - NEON vfma 128bit A : - - - NEON vmla 128bit B : - - - NEON vmla 64bit B : - - - NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - Average : 7.937 451.5 451.5 Highest : 7.937 451.5 451.5
MSM7225 ARM11 528MHz Single core ARCH: ARMv5TE CPU core: 1 <none> Result SingleT SP max: - SingleT DP max: - MultiT SP max: - MultiT DP max: - * VFP/NEON (単精度 fp) single-thread VFP fmuls (32bit x1) n8 : - - - VFP fadds (32bit x1) n8 : - - - VFP fmacs (32bit x1) n8 : - - - VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : - - - NEON vadd.f32 (32bit x2) n8 : - - - NEON vmla.f32 (32bit x2) n8 : - - - NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : - - - NEON vadd.f32 (32bit x4) n8 : - - - NEON vmla.f32 (32bit x4) n8 : - - - NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : - - - VFP fadds (32bit x1) ns4 : - - - VFP fmacs (32bit x1) ns4 : - - - VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : - - - NEON vadd.f32 (32bit x2) ns4 : - - - NEON vmla.f32 (32bit x2) ns4 : - - - NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : - - - NEON vadd.f32 (32bit x4) ns4 : - - - NEON vmla.f32 (32bit x4) ns4 : - - - NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : - - - VFP fadds (32bit x1) n1 : - - - VFP fmacs (32bit x1) n1 : - - - VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : - - - NEON vadd.f32 (32bit x2) n1 : - - - NEON vmla.f32 (32bit x2) n1 : - - - NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : - - - NEON vadd.f32 (32bit x4) n1 : - - - NEON vmla.f32 (32bit x4) n1 : - - - NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : - - - NEON vadd.f32 (32bit x4) n12 : - - - NEON vmla.f32 (32bit x4) n12 : - - - NEON vfma.f32 (32bit x4) n12 : - - - 平均 : - - - 最大 : - - - * VFP/NEON (倍精度 fp) single-thread VFP fmuld (64bit x1) n8 : - - - VFP faddd (64bit x1) n8 : - - - VFP fmacd (64bit x1) n8 : - - - VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : - - - VFP faddd (64bit x1) ns4 : - - - VFP fmacd (64bit x1) ns4 : - - - VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : - - - VFP faddd (64bit x1) n1 : - - - VFP fmacd (64bit x1) n1 : - - - VFP vfma.f64 (64bit x1) n1 : - - - 平均 : - - - 最大 : - - - * Matrix 4x4 (単精度 fp) single-thread C++ code : 170.655 10.5 10.5 NEON vmla 128bit A : - - - NEON vmla 64bit A : - - - NEON vfma 128bit A : - - - NEON vmla 128bit B : - - - NEON vmla 64bit B : - - - NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - 平均 : 170.655 10.5 10.5 最大 : 170.655 10.5 10.5 * VFP/NEON (単精度 fp) multi-thread VFP fmuls (32bit x1) n8 : - - - VFP fadds (32bit x1) n8 : - - - VFP fmacs (32bit x1) n8 : - - - VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : - - - NEON vadd.f32 (32bit x2) n8 : - - - NEON vmla.f32 (32bit x2) n8 : - - - NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : - - - NEON vadd.f32 (32bit x4) n8 : - - - NEON vmla.f32 (32bit x4) n8 : - - - NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : - - - VFP fadds (32bit x1) ns4 : - - - VFP fmacs (32bit x1) ns4 : - - - VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : - - - NEON vadd.f32 (32bit x2) ns4 : - - - NEON vmla.f32 (32bit x2) ns4 : - - - NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : - - - NEON vadd.f32 (32bit x4) ns4 : - - - NEON vmla.f32 (32bit x4) ns4 : - - - NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : - - - VFP fadds (32bit x1) n1 : - - - VFP fmacs (32bit x1) n1 : - - - VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : - - - NEON vadd.f32 (32bit x2) n1 : - - - NEON vmla.f32 (32bit x2) n1 : - - - NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : - - - NEON vadd.f32 (32bit x4) n1 : - - - NEON vmla.f32 (32bit x4) n1 : - - - NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : - - - NEON vadd.f32 (32bit x4) n12 : - - - NEON vmla.f32 (32bit x4) n12 : - - - NEON vfma.f32 (32bit x4) n12 : - - - 平均 : - - - 最大 : - - - * VFP/NEON (倍精度 fp) multi-thread VFP fmuld (64bit x1) n8 : - - - VFP faddd (64bit x1) n8 : - - - VFP fmacd (64bit x1) n8 : - - - VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : - - - VFP faddd (64bit x1) ns4 : - - - VFP fmacd (64bit x1) ns4 : - - - VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : - - - VFP faddd (64bit x1) n1 : - - - VFP fmacd (64bit x1) n1 : - - - VFP vfma.f64 (64bit x1) n1 : - - - 平均 : - - - 最大 : - - - * Matrix 4x4 (単精度 fp) multi-thread C++ code : 169.808 10.6 10.6 NEON vmla 128bit A : - - - NEON vmla 64bit A : - - - NEON vfma 128bit A : - - - NEON vmla 128bit B : - - - NEON vmla 64bit B : - - - NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - 平均 : 169.808 10.6 10.6 最大 : 169.808 10.6 10.6
ARM Cortex-A8 (ARMv7A) VFPv3+NEON
Creative ZiiO7 MZS-08 Cortex-A8 1.0GHz single core
Creative ZiiO7 MZS-08 Cortex-A8 1.0GHz single core ARCH: ARMv7A CPU core: 1 VFP: VFPv3-D32 NEON FMA: No NEON: Yes Result SingleT SP max: 2.781 GFLOPS SingleT DP max: 0.100 GFLOPS MultiT SP max: 2.792 GFLOPS MultiT DP max: 0.099 GFLOPS * VFP/NEON (単精度 fp) single-thread VFP fmuls (32bit x1) n8 : 17.880 67.1 67.1 VFP fadds (32bit x1) n8 : 15.614 76.9 76.9 VFP fmacs (32bit x1) n8 : 31.084 77.2 77.2 VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : 1.724 1392.4 1392.4 NEON vadd.f32 (32bit x2) n8 : 1.721 1394.7 1394.7 NEON vmla.f32 (32bit x2) n8 : 1.953 2457.5 2457.5 NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : 3.495 1373.3 1373.3 NEON vadd.f32 (32bit x4) n8 : 3.466 1384.8 1384.8 NEON vmla.f32 (32bit x4) n8 : 3.475 2762.4 2762.4 NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : 12.135 98.9 98.9 VFP fadds (32bit x1) ns4 : 15.527 77.3 77.3 VFP fmacs (32bit x1) ns4 : 25.934 92.5 92.5 VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : 1.725 1391.3 1391.3 NEON vadd.f32 (32bit x2) ns4 : 1.733 1385.2 1385.2 NEON vmla.f32 (32bit x2) ns4 : 3.880 1237.0 1237.0 NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : 3.474 1381.8 1381.8 NEON vadd.f32 (32bit x4) ns4 : 3.499 1371.8 1371.8 NEON vmla.f32 (32bit x4) ns4 : 3.884 2471.4 2471.4 NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : 17.274 69.5 69.5 VFP fadds (32bit x1) n1 : 15.518 77.3 77.3 VFP fmacs (32bit x1) n1 : 31.117 77.1 77.1 VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : 1.733 1384.5 1384.5 NEON vadd.f32 (32bit x2) n1 : 1.725 1391.5 1391.5 NEON vmla.f32 (32bit x2) n1 : 15.584 308.0 308.0 NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : 3.450 1391.3 1391.3 NEON vadd.f32 (32bit x4) n1 : 3.461 1386.8 1386.8 NEON vmla.f32 (32bit x4) n1 : 15.546 617.5 617.5 NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : 5.178 1390.6 1390.6 NEON vadd.f32 (32bit x4) n12 : 5.240 1374.2 1374.2 NEON vmla.f32 (32bit x4) n12 : 5.178 2780.7 2780.7 NEON vfma.f32 (32bit x4) n12 : - - - 平均 : 9.107 1091.4 1091.4 最大 : 1.721 2780.7 2780.7 * VFP/NEON (倍精度 fp) single-thread VFP fmuld (64bit x1) n8 : 19.361 62.0 62.0 VFP faddd (64bit x1) n8 : 15.531 77.3 77.3 VFP fmacd (64bit x1) n8 : 32.806 73.2 73.2 VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : 12.041 99.7 99.7 VFP faddd (64bit x1) ns4 : 15.538 77.2 77.2 VFP fmacd (64bit x1) ns4 : 25.906 92.6 92.6 VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : 18.977 63.2 63.2 VFP faddd (64bit x1) n1 : 15.487 77.5 77.5 VFP fmacd (64bit x1) n1 : 32.883 73.0 73.0 VFP vfma.f64 (64bit x1) n1 : - - - 平均 : 20.948 77.3 77.3 最大 : 12.041 99.7 99.7 * Matrix 4x4 (単精度 fp) single-thread C++ code : 2.707 661.9 661.9 NEON vmla 128bit A : 3.900 459.5 459.5 NEON vmla 64bit A : 3.839 466.8 466.8 NEON vfma 128bit A : - - - NEON vmla 128bit B : 2.339 766.1 766.1 NEON vmla 64bit B : 2.331 768.7 768.7 NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - 平均 : 3.023 624.6 624.6 最大 : 2.331 768.7 768.7 * VFP/NEON (単精度 fp) multi-thread VFP fmuls (32bit x1) n8 : 17.639 68.0 68.0 VFP fadds (32bit x1) n8 : 15.553 77.2 77.2 VFP fmacs (32bit x1) n8 : 31.038 77.3 77.3 VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : 1.723 1393.0 1393.0 NEON vadd.f32 (32bit x2) n8 : 1.730 1387.0 1387.0 NEON vmla.f32 (32bit x2) n8 : 1.945 2467.2 2467.2 NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : 3.443 1393.9 1393.9 NEON vadd.f32 (32bit x4) n8 : 3.446 1393.0 1393.0 NEON vmla.f32 (32bit x4) n8 : 3.445 2786.4 2786.4 NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : 12.122 99.0 99.0 VFP fadds (32bit x1) ns4 : 15.517 77.3 77.3 VFP fmacs (32bit x1) ns4 : 25.855 92.8 92.8 VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : 1.720 1395.2 1395.2 NEON vadd.f32 (32bit x2) ns4 : 1.730 1387.2 1387.2 NEON vmla.f32 (32bit x2) ns4 : 3.876 1238.5 1238.5 NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : 3.486 1377.1 1377.1 NEON vadd.f32 (32bit x4) ns4 : 3.477 1380.5 1380.5 NEON vmla.f32 (32bit x4) ns4 : 3.874 2478.2 2478.2 NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : 17.249 69.6 69.6 VFP fadds (32bit x1) n1 : 15.525 77.3 77.3 VFP fmacs (32bit x1) n1 : 31.007 77.4 77.4 VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : 1.730 1387.0 1387.0 NEON vadd.f32 (32bit x2) n1 : 1.772 1354.3 1354.3 NEON vmla.f32 (32bit x2) n1 : 15.479 310.1 310.1 NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : 3.487 1376.7 1376.7 NEON vadd.f32 (32bit x4) n1 : 3.445 1393.4 1393.4 NEON vmla.f32 (32bit x4) n1 : 15.478 620.2 620.2 NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : 5.223 1378.6 1378.6 NEON vadd.f32 (32bit x4) n12 : 5.201 1384.3 1384.3 NEON vmla.f32 (32bit x4) n12 : 5.157 2792.4 2792.4 NEON vfma.f32 (32bit x4) n12 : - - - 平均 : 9.079 1093.0 1093.0 最大 : 1.720 2792.4 2792.4 * VFP/NEON (倍精度 fp) multi-thread VFP fmuld (64bit x1) n8 : 19.337 62.1 62.1 VFP faddd (64bit x1) n8 : 15.470 77.6 77.6 VFP fmacd (64bit x1) n8 : 32.749 73.3 73.3 VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : 12.062 99.5 99.5 VFP faddd (64bit x1) ns4 : 15.512 77.4 77.4 VFP fmacd (64bit x1) ns4 : 25.837 92.9 92.9 VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : 18.943 63.3 63.3 VFP faddd (64bit x1) n1 : 15.493 77.5 77.5 VFP fmacd (64bit x1) n1 : 32.693 73.4 73.4 VFP vfma.f64 (64bit x1) n1 : - - - 平均 : 20.900 77.4 77.4 最大 : 12.062 99.5 99.5 * Matrix 4x4 (単精度 fp) multi-thread C++ code : 2.705 662.4 662.4 NEON vmla 128bit A : 3.825 468.6 468.6 NEON vmla 64bit A : 3.817 469.5 469.5 NEON vfma 128bit A : - - - NEON vmla 128bit B : 2.325 770.7 770.7 NEON vmla 64bit B : 2.332 768.5 768.5 NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - 平均 : 3.001 627.9 627.9 最大 : 2.325 770.7 770.7
iPod touch 4 Apple A4 Cortex-A8 0.8GHz
iPod touch 4 Apple A4 Cortex-A8 0.8GHz ARCH: ARMv7A FPU: VFPv3-D32 NEON SingleT SP max: 3.139 GFLOPS SingleT DP max: 0.112 GFLOPS MultiT SP max: - MultiT DP max: - CPU core: 1 NEON: yes FMA: no * VFP/NEON (single fp) VFP fmuls (32bit x1) n8 : 35.877 111.5 111.5 VFP fadds (32bit x1) n8 : 35.732 111.9 111.9 VFP fmacs (32bit x1) n8 : 56.042 142.8 142.8 VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : 5.108 1566.3 1566.3 NEON vadd.f32 (32bit x2) n8 : 5.111 1565.2 1567.3 NEON vmla.f32 (32bit x2) n8 : 5.769 2773.6 2778.3 NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : 10.174 1572.6 1572.6 NEON vadd.f32 (32bit x4) n8 : 10.179 1571.9 1571.9 NEON vmla.f32 (32bit x4) n8 : 10.204 3136.2 3138.9 NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : 35.712 112.0 112.0 VFP fadds (32bit x1) ns4 : 35.606 112.3 112.4 VFP fmacs (32bit x1) ns4 : 56.070 142.7 142.7 VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : 5.093 1570.7 1570.7 NEON vadd.f32 (32bit x2) ns4 : 5.097 1569.7 1569.7 NEON vmla.f32 (32bit x2) ns4 : 11.555 1384.7 1384.7 NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : 10.224 1564.9 1567.1 NEON vadd.f32 (32bit x4) ns4 : 10.190 1570.2 1570.2 NEON vmla.f32 (32bit x4) ns4 : 11.464 2791.4 2793.5 NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : 35.689 112.1 112.1 VFP fadds (32bit x1) n1 : 35.630 112.3 112.3 VFP fmacs (32bit x1) n1 : 56.402 141.8 142.6 VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : 5.097 1569.6 1569.6 NEON vadd.f32 (32bit x2) n1 : 5.103 1567.6 1569.4 NEON vmla.f32 (32bit x2) n1 : 45.964 348.1 348.6 NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : 10.200 1568.6 1571.3 NEON vadd.f32 (32bit x4) n1 : 10.194 1569.5 1569.5 NEON vmla.f32 (32bit x4) n1 : 45.873 697.6 697.6 NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : 15.279 1570.8 1570.8 NEON vadd.f32 (32bit x4) n12 : 15.282 1570.5 1571.5 NEON vmla.f32 (32bit x4) n12 : 15.362 3124.6 3132.3 NEON vfma.f32 (32bit x4) n12 : - - - Average : 21.709 1244.1 1245.1 Highest : 5.093 3136.2 3138.9 * VFP/NEON (double fp) VFP fmuld (64bit x1) n8 : 56.247 71.1 71.1 VFP faddd (64bit x1) n8 : 45.937 87.1 87.1 VFP fmacd (64bit x1) n8 : 96.916 82.5 82.5 VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : 35.769 111.8 111.8 VFP faddd (64bit x1) ns4 : 45.782 87.4 87.4 VFP fmacd (64bit x1) ns4 : 76.484 104.6 104.6 VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : 56.085 71.3 71.3 VFP faddd (64bit x1) n1 : 45.893 87.2 87.2 VFP fmacd (64bit x1) n1 : 97.130 82.4 82.4 VFP vfma.f64 (64bit x1) n1 : - - - Average : 61.805 87.3 87.3 Highest : 35.769 111.8 111.8 * Matrix 4x4 C++ code : 22.930 156.3 156.3 NEON vmla 128bit A : 6.935 516.8 516.8 NEON vmla 64bit A : 7.018 510.7 510.7 NEON vfma 128bit A : - - - NEON vmla 128bit B : 4.050 885.0 885.0 NEON vmla 64bit B : 4.038 887.5 887.5 NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - Average : 8.994 591.3 591.3 Highest : 4.038 887.5 887.5 * VFP/NEON (single fp) multi-thread VFP fmuls (32bit x1) n8 : - - - VFP fadds (32bit x1) n8 : - - - VFP fmacs (32bit x1) n8 : - - - VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : - - - NEON vadd.f32 (32bit x2) n8 : - - - NEON vmla.f32 (32bit x2) n8 : - - - NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : - - - NEON vadd.f32 (32bit x4) n8 : - - - NEON vmla.f32 (32bit x4) n8 : - - - NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : - - - VFP fadds (32bit x1) ns4 : - - - VFP fmacs (32bit x1) ns4 : - - - VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : - - - NEON vadd.f32 (32bit x2) ns4 : - - - NEON vmla.f32 (32bit x2) ns4 : - - - NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : - - - NEON vadd.f32 (32bit x4) ns4 : - - - NEON vmla.f32 (32bit x4) ns4 : - - - NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : - - - VFP fadds (32bit x1) n1 : - - - VFP fmacs (32bit x1) n1 : - - - VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : - - - NEON vadd.f32 (32bit x2) n1 : - - - NEON vmla.f32 (32bit x2) n1 : - - - NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : - - - NEON vadd.f32 (32bit x4) n1 : - - - NEON vmla.f32 (32bit x4) n1 : - - - NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : - - - NEON vadd.f32 (32bit x4) n12 : - - - NEON vmla.f32 (32bit x4) n12 : - - - NEON vfma.f32 (32bit x4) n12 : - - - Average : - - - Highest : - - - * VFP/NEON (double fp) multi-thread VFP fmuld (64bit x1) n8 : - - - VFP faddd (64bit x1) n8 : - - - VFP fmacd (64bit x1) n8 : - - - VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : - - - VFP faddd (64bit x1) ns4 : - - - VFP fmacd (64bit x1) ns4 : - - - VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : - - - VFP faddd (64bit x1) n1 : - - - VFP fmacd (64bit x1) n1 : - - - VFP vfma.f64 (64bit x1) n1 : - - - Average : - - - Highest : - - - * Matrix 4x4 multi-thread C++ code : - - - NEON vmla 128bit A : - - - NEON vmla 64bit A : - - - NEON vfma 128bit A : - - - NEON vmla 128bit B : - - - NEON vmla 64bit B : - - - NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - Average : - - - Highest : - - -
Qualcomm Scorpion (ARMv7A) VFPv3+NEON
HTC Desire Snapdragon QSD8250 Scorpion 1.0GHz single core
HTC Desire Snapdragon QSD8250 Scorpion 1.0GHz single core ARCH: ARMv7-A CPU core: 1 VFP: VFPv3-D32 NEON FMA: No NEON: Yes SingleT SP max: 7.098 GFLOPS SingleT DP max: 0.886 GFLOPS MultiT SP max: 7.058 GFLOPS MultiT DP max: 0.886 GFLOPS * VFP/NEON (single fp) VFP fmuls (32bit x1) n8 : 4.986 802.3 802.3 VFP fadds (32bit x1) n8 : 4.543 880.4 880.4 VFP fmacs (32bit x1) n8 : 4.538 1762.8 1762.8 VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : 4.491 1781.1 1781.1 NEON vadd.f32 (32bit x2) n8 : 4.547 1759.6 1759.6 NEON vmla.f32 (32bit x2) n8 : 4.489 3563.9 3563.9 NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : 4.494 3560.6 3560.6 NEON vadd.f32 (32bit x4) n8 : 4.482 3570.2 3570.2 NEON vmla.f32 (32bit x4) n8 : 4.508 7097.8 7097.8 NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : 7.856 509.1 509.1 VFP fadds (32bit x1) ns4 : 7.910 505.7 505.7 VFP fmacs (32bit x1) ns4 : 11.257 710.7 710.7 VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : 6.715 1191.4 1191.4 NEON vadd.f32 (32bit x2) ns4 : 7.881 1015.1 1015.1 NEON vmla.f32 (32bit x2) ns4 : 11.269 1419.8 1419.8 NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : 6.788 2357.1 2357.1 NEON vadd.f32 (32bit x4) ns4 : 7.939 2015.3 2015.3 NEON vmla.f32 (32bit x4) ns4 : 11.365 2815.8 2815.8 NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : 4.507 887.5 887.5 VFP fadds (32bit x1) n1 : 4.513 886.4 886.4 VFP fmacs (32bit x1) n1 : 22.541 354.9 354.9 VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : 4.593 1741.7 1741.7 NEON vadd.f32 (32bit x2) n1 : 4.514 1772.1 1772.1 NEON vmla.f32 (32bit x2) n1 : 22.632 707.0 707.0 NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : 4.511 3547.0 3547.0 NEON vadd.f32 (32bit x4) n1 : 4.511 3547.0 3547.0 NEON vmla.f32 (32bit x4) n1 : 22.718 1408.6 1408.6 NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : 6.783 3538.2 3538.2 NEON vadd.f32 (32bit x4) n12 : 6.803 3528.0 3528.0 NEON vmla.f32 (32bit x4) n12 : 6.832 7025.7 7025.7 NEON vfma.f32 (32bit x4) n12 : - - - 平均 : 7.851 2208.8 2208.8 最大 : 4.482 7097.8 7097.8 * VFP/NEON (double fp) VFP fmuld (64bit x1) n8 : 9.304 429.9 429.9 VFP faddd (64bit x1) n8 : 4.556 877.9 877.9 VFP fmacd (64bit x1) n8 : 9.088 880.3 880.3 VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : 9.003 444.3 444.3 VFP faddd (64bit x1) ns4 : 7.893 506.8 506.8 VFP fmacd (64bit x1) ns4 : 12.468 641.7 641.7 VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : 9.067 441.2 441.2 VFP faddd (64bit x1) n1 : 4.514 886.1 886.1 VFP fmacd (64bit x1) n1 : 45.343 176.4 176.4 VFP vfma.f64 (64bit x1) n1 : - - - 平均 : 12.360 587.2 587.2 最大 : 4.514 886.1 886.1 * Matrix 4x4 (single fp) C++ code : - - - NEON vmla 128bit A : - - - NEON vmla 64bit A : - - - NEON vfma 128bit A : - - - NEON vmla 128bit B : - - - NEON vmla 64bit B : - - - NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - 平均 : - - - 最大 : - - - * VFP/NEON (single fp) multi-thread VFP fmuls (32bit x1) n8 : 4.737 844.5 844.5 VFP fadds (32bit x1) n8 : 4.600 869.5 869.5 VFP fmacs (32bit x1) n8 : 4.586 1744.6 1744.6 VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : 4.540 1762.0 1762.0 NEON vadd.f32 (32bit x2) n8 : 4.515 1772.0 1772.0 NEON vmla.f32 (32bit x2) n8 : 4.522 3538.4 3538.4 NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : 4.562 3507.1 3507.1 NEON vadd.f32 (32bit x4) n8 : 4.559 3509.6 3509.6 NEON vmla.f32 (32bit x4) n8 : 4.551 7032.0 7032.0 NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : 7.901 506.3 506.3 VFP fadds (32bit x1) ns4 : 7.929 504.5 504.5 VFP fmacs (32bit x1) ns4 : 11.325 706.4 706.4 VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : 6.819 1173.2 1173.2 NEON vadd.f32 (32bit x2) ns4 : 7.850 1019.1 1019.1 NEON vmla.f32 (32bit x2) ns4 : 11.334 1411.7 1411.7 NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : 6.721 2380.6 2380.6 NEON vadd.f32 (32bit x4) ns4 : 7.843 2040.0 2040.0 NEON vmla.f32 (32bit x4) ns4 : 11.234 2848.4 2848.4 NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : 4.504 888.0 888.0 VFP fadds (32bit x1) n1 : 4.505 887.9 887.9 VFP fmacs (32bit x1) n1 : 22.605 353.9 353.9 VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : 4.526 1767.5 1767.5 NEON vadd.f32 (32bit x2) n1 : 4.525 1767.8 1767.8 NEON vmla.f32 (32bit x2) n1 : 22.508 710.9 710.9 NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : 4.561 3508.1 3508.1 NEON vadd.f32 (32bit x4) n1 : 4.521 3539.2 3539.2 NEON vmla.f32 (32bit x4) n1 : 22.565 1418.1 1418.1 NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : 6.766 3546.9 3546.9 NEON vadd.f32 (32bit x4) n12 : 6.752 3554.5 3554.5 NEON vmla.f32 (32bit x4) n12 : 6.801 7057.9 7057.9 NEON vfma.f32 (32bit x4) n12 : - - - 平均 : 7.842 2205.7 2205.7 最大 : 4.504 7057.9 7057.9 * VFP/NEON (double fp) multi-thread VFP fmuld (64bit x1) n8 : 9.354 427.6 429.8 VFP faddd (64bit x1) n8 : 4.517 885.6 885.6 VFP fmacd (64bit x1) n8 : 9.078 881.2 885.5 VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : 9.096 439.8 443.1 VFP faddd (64bit x1) ns4 : 7.955 502.8 502.9 VFP fmacd (64bit x1) ns4 : 12.461 642.0 643.3 VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : 9.172 436.1 442.5 VFP faddd (64bit x1) n1 : 4.532 882.6 882.6 VFP fmacd (64bit x1) n1 : 45.101 177.4 177.4 VFP vfma.f64 (64bit x1) n1 : - - - 平均 : 12.363 586.1 588.1 最大 : 4.517 885.6 885.6 * Matrix 4x4 (single fp) multi-thread C++ code : - - - NEON vmla 128bit A : - - - NEON vmla 64bit A : - - - NEON vfma 128bit A : - - - NEON vmla 128bit B : - - - NEON vmla 64bit B : - - - NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - 平均 : - - - 最大 : - - -
Sony Xperia IS11S Snapdragon MSM8655 Scorpion 1.0GHz single core
Sony Xperia IS11S Snapdragon MSM8655 Scorpion 1.0GHz single core ARCH: ARMv7A CPU core: 1 VFP: VFPv3-D32 NEON FMA: No NEON: Yes Result SingleT SP max: 7.681 GFLOPS SingleT DP max: 0.960 GFLOPS MultiT SP max: 7.623 GFLOPS MultiT DP max: 0.960 GFLOPS * VFP/NEON (単精度 fp) single-thread VFP fmuls (32bit x1) n8 : 1.567 765.7 765.7 VFP fadds (32bit x1) n8 : 1.323 906.8 906.8 VFP fmacs (32bit x1) n8 : 1.259 1906.6 1906.6 VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : 1.335 1797.7 1797.7 NEON vadd.f32 (32bit x2) n8 : 1.302 1843.1 1843.1 NEON vmla.f32 (32bit x2) n8 : 1.267 3788.8 3788.8 NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : 1.426 3366.9 3366.9 NEON vadd.f32 (32bit x4) n8 : 1.273 3771.0 3771.0 NEON vmla.f32 (32bit x4) n8 : 1.377 6970.7 6970.7 NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : 2.213 542.3 542.3 VFP fadds (32bit x1) ns4 : 2.236 536.6 536.6 VFP fmacs (32bit x1) ns4 : 3.242 740.3 740.3 VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : 1.891 1269.3 1269.3 NEON vadd.f32 (32bit x2) ns4 : 2.195 1093.6 1093.6 NEON vmla.f32 (32bit x2) ns4 : 3.138 1529.7 1529.7 NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : 1.876 2558.4 2558.4 NEON vadd.f32 (32bit x4) ns4 : 2.196 2185.5 2185.5 NEON vmla.f32 (32bit x4) ns4 : 3.161 3036.8 3036.8 NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : 1.313 913.9 913.9 VFP fadds (32bit x1) n1 : 1.248 961.3 961.3 VFP fmacs (32bit x1) n1 : 6.354 377.7 377.7 VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : 1.250 1919.5 1919.5 NEON vadd.f32 (32bit x2) n1 : 1.252 1916.8 1916.8 NEON vmla.f32 (32bit x2) n1 : 6.349 756.1 756.1 NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : 1.249 3842.5 3842.5 NEON vadd.f32 (32bit x4) n1 : 1.271 3775.7 3775.7 NEON vmla.f32 (32bit x4) n1 : 6.267 1531.9 1531.9 NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : 1.875 3840.1 3840.1 NEON vadd.f32 (32bit x4) n12 : 1.934 3721.9 3721.9 NEON vmla.f32 (32bit x4) n12 : 1.875 7681.0 7681.0 NEON vfma.f32 (32bit x4) n12 : - - - 平均 : 2.217 2328.3 2328.3 最大 : 1.248 7681.0 7681.0 * VFP/NEON (倍精度 fp) single-thread VFP fmuld (64bit x1) n8 : 2.735 438.8 438.8 VFP faddd (64bit x1) n8 : 1.250 959.7 959.7 VFP fmacd (64bit x1) n8 : 2.539 945.3 945.3 VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : 2.509 478.2 478.2 VFP faddd (64bit x1) ns4 : 2.246 534.2 534.2 VFP fmacd (64bit x1) ns4 : 3.437 698.2 698.2 VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : 2.519 476.4 476.4 VFP faddd (64bit x1) n1 : 1.251 958.9 958.9 VFP fmacd (64bit x1) n1 : 12.579 190.8 190.8 VFP vfma.f64 (64bit x1) n1 : - - - 平均 : 3.452 631.2 631.2 最大 : 1.250 959.7 959.7 * Matrix 4x4 (単精度 fp) single-thread C++ code : 0.866 2070.4 2070.4 NEON vmla 128bit A : 1.818 985.7 985.7 NEON vmla 64bit A : 1.978 906.2 906.2 NEON vfma 128bit A : - - - NEON vmla 128bit B : 0.696 2575.8 2575.8 NEON vmla 64bit B : 0.896 1999.3 1999.3 NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - 平均 : 1.251 1707.5 1707.5 最大 : 0.696 2575.8 2575.8 * VFP/NEON (単精度 fp) multi-thread VFP fmuls (32bit x1) n8 : 1.526 786.1 786.1 VFP fadds (32bit x1) n8 : 1.250 959.9 959.9 VFP fmacs (32bit x1) n8 : 1.264 1899.4 1899.4 VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : 1.262 1901.0 1901.0 NEON vadd.f32 (32bit x2) n8 : 1.264 1898.9 1898.9 NEON vmla.f32 (32bit x2) n8 : 1.260 3809.2 3809.2 NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : 1.251 3836.3 3836.3 NEON vadd.f32 (32bit x4) n8 : 1.251 3838.2 3838.2 NEON vmla.f32 (32bit x4) n8 : 1.261 7613.3 7613.3 NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : 2.193 547.1 547.1 VFP fadds (32bit x1) ns4 : 2.254 532.5 532.5 VFP fmacs (32bit x1) ns4 : 3.121 769.0 769.0 VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : 1.897 1264.8 1264.8 NEON vadd.f32 (32bit x2) ns4 : 2.193 1094.2 1094.2 NEON vmla.f32 (32bit x2) ns4 : 3.124 1536.5 1536.5 NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : 1.950 2461.1 2461.1 NEON vadd.f32 (32bit x4) ns4 : 2.282 2103.8 2103.8 NEON vmla.f32 (32bit x4) ns4 : 3.136 3061.6 3061.6 NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : 1.274 941.8 941.8 VFP fadds (32bit x1) n1 : 1.258 953.8 953.8 VFP fmacs (32bit x1) n1 : 6.355 377.7 377.7 VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : 1.253 1915.0 1915.0 NEON vadd.f32 (32bit x2) n1 : 1.302 1842.7 1842.7 NEON vmla.f32 (32bit x2) n1 : 6.270 765.6 765.6 NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : 1.250 3841.1 3841.1 NEON vadd.f32 (32bit x4) n1 : 1.249 3842.6 3842.6 NEON vmla.f32 (32bit x4) n1 : 7.121 1348.1 1348.1 NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : 1.873 3843.9 3843.9 NEON vadd.f32 (32bit x4) n12 : 1.900 3790.0 3790.0 NEON vmla.f32 (32bit x4) n12 : 1.889 7622.7 7622.7 NEON vfma.f32 (32bit x4) n12 : - - - 平均 : 2.224 2366.6 2366.6 最大 : 1.249 7622.7 7622.7 * VFP/NEON (倍精度 fp) multi-thread VFP fmuld (64bit x1) n8 : 2.713 442.3 442.3 VFP faddd (64bit x1) n8 : 1.250 960.4 960.4 VFP fmacd (64bit x1) n8 : 2.568 934.4 934.4 VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : 2.508 478.4 478.4 VFP faddd (64bit x1) ns4 : 2.203 544.6 544.6 VFP fmacd (64bit x1) ns4 : 3.444 696.9 696.9 VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : 2.489 482.2 482.2 VFP faddd (64bit x1) n1 : 1.286 933.1 933.1 VFP fmacd (64bit x1) n1 : 12.713 188.8 188.8 VFP vfma.f64 (64bit x1) n1 : - - - 平均 : 3.464 629.0 629.0 最大 : 1.250 960.4 960.4 * Matrix 4x4 (単精度 fp) multi-thread C++ code : 0.905 1979.4 1979.4 NEON vmla 128bit A : 1.868 959.3 959.3 NEON vmla 64bit A : 1.907 939.7 939.7 NEON vfma 128bit A : - - - NEON vmla 128bit B : 0.706 2536.6 2536.6 NEON vmla 64bit B : 0.894 2004.7 2004.7 NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - 平均 : 1.256 1683.9 1683.9 最大 : 0.706 2536.6 2536.6
NEC Medias N-06C Snapdragon MSM8255 Scorpion 1.0GHz single core
NEC Medias N-06C Snapdragon MSM8255 Scorpion 1.0GHz single core ARCH: ARMv7A CPU core: 1 VFP: VFPv3-D32 NEON FMA: No NEON: Yes Result SingleT SP max: 7.786 GFLOPS SingleT DP max: 0.977 GFLOPS MultiT SP max: 7.835 GFLOPS MultiT DP max: 0.981 GFLOPS * VFP/NEON (単精度 fp) single-thread VFP fmuls (32bit x1) n8 : 1.522 788.2 788.2 VFP fadds (32bit x1) n8 : 1.231 974.5 974.5 VFP fmacs (32bit x1) n8 : 1.303 1842.1 1842.1 VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : 1.253 1915.9 1915.9 NEON vadd.f32 (32bit x2) n8 : 1.234 1945.1 1945.1 NEON vmla.f32 (32bit x2) n8 : 1.235 3887.2 3887.2 NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : 1.281 3746.6 3746.6 NEON vadd.f32 (32bit x4) n8 : 1.237 3880.8 3880.8 NEON vmla.f32 (32bit x4) n8 : 1.233 7785.7 7785.7 NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : 2.189 548.1 548.1 VFP fadds (32bit x1) ns4 : 2.151 557.9 557.9 VFP fmacs (32bit x1) ns4 : 3.090 776.7 776.7 VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : 1.840 1304.4 1304.4 NEON vadd.f32 (32bit x2) ns4 : 2.150 1116.1 1116.1 NEON vmla.f32 (32bit x2) ns4 : 3.112 1542.6 1542.6 NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : 1.845 2602.0 2602.0 NEON vadd.f32 (32bit x4) ns4 : 2.176 2206.4 2206.4 NEON vmla.f32 (32bit x4) ns4 : 3.070 3127.4 3127.4 NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : 1.239 968.8 968.8 VFP fadds (32bit x1) n1 : 1.226 978.7 978.7 VFP fmacs (32bit x1) n1 : 6.122 392.0 392.0 VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : 1.226 1957.4 1957.4 NEON vadd.f32 (32bit x2) n1 : 1.234 1944.2 1944.2 NEON vmla.f32 (32bit x2) n1 : 6.124 783.8 783.8 NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : 1.227 3913.5 3913.5 NEON vadd.f32 (32bit x4) n1 : 1.229 3904.1 3904.1 NEON vmla.f32 (32bit x4) n1 : 6.162 1557.9 1557.9 NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : 1.837 3919.4 3919.4 NEON vadd.f32 (32bit x4) n12 : 1.841 3910.7 3910.7 NEON vmla.f32 (32bit x4) n12 : 1.887 7629.3 7629.3 NEON vfma.f32 (32bit x4) n12 : - - - 平均 : 2.150 2413.6 2413.6 最大 : 1.226 7785.7 7785.7 * VFP/NEON (倍精度 fp) single-thread VFP fmuld (64bit x1) n8 : 2.732 439.2 439.2 VFP faddd (64bit x1) n8 : 1.239 968.4 968.4 VFP fmacd (64bit x1) n8 : 2.457 976.9 976.9 VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : 2.457 488.4 488.4 VFP faddd (64bit x1) ns4 : 2.146 559.2 559.2 VFP fmacd (64bit x1) ns4 : 3.364 713.5 713.5 VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : 2.454 489.0 489.0 VFP faddd (64bit x1) n1 : 1.228 976.9 976.9 VFP fmacd (64bit x1) n1 : 12.312 194.9 194.9 VFP vfma.f64 (64bit x1) n1 : - - - 平均 : 3.377 645.2 645.2 最大 : 1.228 976.9 976.9 * Matrix 4x4 (単精度 fp) single-thread C++ code : 0.903 1984.6 1984.6 NEON vmla 128bit A : 1.807 991.4 991.4 NEON vmla 64bit A : 1.856 965.7 965.7 NEON vfma 128bit A : - - - NEON vmla 128bit B : 0.685 2614.3 2614.3 NEON vmla 64bit B : 0.886 2023.1 2023.1 NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - 平均 : 1.227 1715.8 1715.8 最大 : 0.685 2614.3 2614.3 * VFP/NEON (単精度 fp) multi-thread VFP fmuls (32bit x1) n8 : 1.476 813.2 813.2 VFP fadds (32bit x1) n8 : 1.237 969.8 969.8 VFP fmacs (32bit x1) n8 : 1.229 1952.5 1952.5 VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : 1.234 1944.7 1944.7 NEON vadd.f32 (32bit x2) n8 : 1.227 1956.1 1956.1 NEON vmla.f32 (32bit x2) n8 : 1.232 3896.5 3896.5 NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : 1.230 3902.1 3902.1 NEON vadd.f32 (32bit x4) n8 : 1.228 3908.0 3908.0 NEON vmla.f32 (32bit x4) n8 : 1.229 7809.5 7809.5 NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : 2.167 553.8 553.8 VFP fadds (32bit x1) ns4 : 2.140 560.7 560.7 VFP fmacs (32bit x1) ns4 : 3.092 776.2 776.2 VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : 1.840 1304.3 1304.3 NEON vadd.f32 (32bit x2) ns4 : 2.191 1095.4 1095.4 NEON vmla.f32 (32bit x2) ns4 : 3.102 1547.2 1547.2 NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : 1.868 2570.0 2570.0 NEON vadd.f32 (32bit x4) ns4 : 2.140 2243.3 2243.3 NEON vmla.f32 (32bit x4) ns4 : 3.078 3119.0 3119.0 NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : 1.230 975.9 975.9 VFP fadds (32bit x1) n1 : 1.228 977.4 977.4 VFP fmacs (32bit x1) n1 : 6.128 391.6 391.6 VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : 1.249 1920.9 1920.9 NEON vadd.f32 (32bit x2) n1 : 1.227 1956.4 1956.4 NEON vmla.f32 (32bit x2) n1 : 6.131 782.9 782.9 NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : 1.230 3903.5 3903.5 NEON vadd.f32 (32bit x4) n1 : 1.225 3919.1 3919.1 NEON vmla.f32 (32bit x4) n1 : 6.118 1569.1 1569.1 NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : 1.840 3913.7 3913.7 NEON vadd.f32 (32bit x4) n12 : 1.845 3902.5 3902.5 NEON vmla.f32 (32bit x4) n12 : 1.838 7834.8 7834.8 NEON vfma.f32 (32bit x4) n12 : - - - 平均 : 2.141 2432.4 2432.4 最大 : 1.225 7834.8 7834.8 * VFP/NEON (倍精度 fp) multi-thread VFP fmuld (64bit x1) n8 : 2.706 443.5 443.5 VFP faddd (64bit x1) n8 : 1.227 977.7 977.7 VFP fmacd (64bit x1) n8 : 2.447 980.7 980.7 VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : 2.482 483.4 483.4 VFP faddd (64bit x1) ns4 : 2.140 560.7 560.7 VFP fmacd (64bit x1) ns4 : 3.393 707.4 707.4 VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : 2.455 488.8 488.8 VFP faddd (64bit x1) n1 : 1.270 944.7 944.7 VFP fmacd (64bit x1) n1 : 12.243 196.0 196.0 VFP vfma.f64 (64bit x1) n1 : - - - 平均 : 3.374 642.5 642.5 最大 : 1.227 980.7 980.7 * Matrix 4x4 (単精度 fp) multi-thread C++ code : 0.913 1963.6 1963.6 NEON vmla 128bit A : 1.787 1002.7 1002.7 NEON vmla 64bit A : 1.881 952.7 952.7 NEON vfma 128bit A : - - - NEON vmla 128bit B : 0.689 2601.6 2601.6 NEON vmla 64bit B : 0.868 2063.8 2063.8 NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - 平均 : 1.228 1716.9 1716.9 最大 : 0.689 2601.6 2601.6
HTC EVO 3D Snapdragon MSM8660 Scorpion 1.2GHz dual core
HTC EVO 3D Snapdragon MSM8660 Scorpion 1.2GHz dual core ARCH: ARMv7-A CPU core: 2 VFP: VFPv3-D32 NEON FMA: No NEON: Yes SingleT SP max: 8.898 GFLOPS SingleT DP max: 1.112 GFLOPS MultiT SP max: 16.560 GFLOPS MultiT DP max: 1.266 GFLOPS * VFP/NEON (single fp) VFP fmuls (32bit x1) n8 : 3.903 1024.8 1024.8 VFP fadds (32bit x1) n8 : 3.600 1111.0 1111.0 VFP fmacs (32bit x1) n8 : 3.687 2169.7 2172.2 VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : 3.611 2215.8 2215.8 NEON vadd.f32 (32bit x2) n8 : 3.595 2225.5 2225.5 NEON vmla.f32 (32bit x2) n8 : 3.601 4443.0 4452.6 NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : 3.602 4441.4 4444.2 NEON vadd.f32 (32bit x4) n8 : 3.597 4448.7 4448.7 NEON vmla.f32 (32bit x4) n8 : 3.644 8781.5 8898.1 NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : 6.307 634.2 636.0 VFP fadds (32bit x1) ns4 : 6.321 632.8 632.8 VFP fmacs (32bit x1) ns4 : 10.145 788.6 886.5 VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : 5.521 1449.0 1483.4 NEON vadd.f32 (32bit x2) ns4 : 6.311 1267.7 1267.7 NEON vmla.f32 (32bit x2) ns4 : 8.973 1783.1 1783.1 NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : 5.384 2971.5 2971.5 NEON vadd.f32 (32bit x4) ns4 : 6.282 2547.0 2547.0 NEON vmla.f32 (32bit x4) ns4 : 9.011 3551.2 3551.2 NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : 3.612 1107.4 1107.4 VFP fadds (32bit x1) n1 : 3.590 1114.2 1114.2 VFP fmacs (32bit x1) n1 : 17.952 445.6 445.6 VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : 3.658 2187.3 2202.2 NEON vadd.f32 (32bit x2) n1 : 3.672 2178.7 2211.1 NEON vmla.f32 (32bit x2) n1 : 17.988 889.5 889.5 NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : 3.603 4440.3 4440.3 NEON vadd.f32 (32bit x4) n1 : 3.624 4414.6 4422.8 NEON vmla.f32 (32bit x4) n1 : 17.997 1778.1 1778.1 NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : 5.396 4447.4 4447.4 NEON vadd.f32 (32bit x4) n12 : 5.451 4402.5 4434.4 NEON vmla.f32 (32bit x4) n12 : 5.434 8833.0 8864.5 NEON vfma.f32 (32bit x4) n12 : - - - Average : 6.302 2757.5 2770.3 Highest : 3.590 8833.0 8898.1 * VFP/NEON (double fp) VFP fmuld (64bit x1) n8 : 7.600 526.3 526.3 VFP faddd (64bit x1) n8 : 3.626 1103.3 1103.3 VFP fmacd (64bit x1) n8 : 7.195 1111.8 1111.8 VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : 7.301 547.8 547.8 VFP faddd (64bit x1) ns4 : 6.318 633.1 633.1 VFP fmacd (64bit x1) ns4 : 9.892 808.7 808.7 VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : 7.212 554.6 554.6 VFP faddd (64bit x1) n1 : 3.640 1099.0 1099.0 VFP fmacd (64bit x1) n1 : 35.894 222.9 222.9 VFP vfma.f64 (64bit x1) n1 : - - - Average : 9.853 734.2 734.2 Highest : 3.626 1111.8 1111.8 * Matrix 4x4 (single fp) C++ code : - - - NEON vmla 128bit A : - - - NEON vmla 64bit A : - - - NEON vfma 128bit A : - - - NEON vmla 128bit B : - - - NEON vmla 64bit B : - - - NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - Average : - - - Highest : - - - * VFP/NEON (single fp) multi-thread VFP fmuls (32bit x1) n8 : 3.999 2000.4 2000.4 VFP fadds (32bit x1) n8 : 3.649 2192.4 2192.4 VFP fmacs (32bit x1) n8 : 3.591 4455.0 4455.0 VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : 3.486 4589.4 4589.4 NEON vadd.f32 (32bit x2) n8 : 6.794 2355.2 2355.2 NEON vmla.f32 (32bit x2) n8 : 6.876 4654.1 4654.1 NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : 7.137 4483.9 4483.9 NEON vadd.f32 (32bit x4) n8 : 5.931 5395.6 5395.6 NEON vmla.f32 (32bit x4) n8 : 3.865 16559.6 16559.6 NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : 12.573 636.3 636.3 VFP fadds (32bit x1) ns4 : 12.616 634.1 634.1 VFP fmacs (32bit x1) ns4 : 18.023 887.8 887.8 VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : 10.800 1481.5 1481.5 NEON vadd.f32 (32bit x2) ns4 : 12.531 1276.9 1276.9 NEON vmla.f32 (32bit x2) ns4 : 17.969 1780.9 1780.9 NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : 10.753 2976.0 2976.0 NEON vadd.f32 (32bit x4) ns4 : 12.621 2535.5 2535.5 NEON vmla.f32 (32bit x4) ns4 : 17.946 3566.2 3566.2 NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : 7.196 1111.7 1111.7 VFP fadds (32bit x1) n1 : 7.279 1099.1 1099.1 VFP fmacs (32bit x1) n1 : 29.957 534.1 534.1 VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : 3.564 4489.0 4489.0 NEON vadd.f32 (32bit x2) n1 : 4.447 3598.2 3598.2 NEON vmla.f32 (32bit x2) n1 : 35.992 889.1 889.1 NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : 7.192 4449.1 4449.1 NEON vadd.f32 (32bit x4) n1 : 4.501 7108.9 7108.9 NEON vmla.f32 (32bit x4) n1 : 17.459 3665.8 3665.8 NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : 5.232 9175.1 9175.1 NEON vadd.f32 (32bit x4) n12 : 5.411 8871.4 8871.4 NEON vmla.f32 (32bit x4) n12 : 8.509 11281.9 11281.9 NEON vfma.f32 (32bit x4) n12 : - - - Average : 10.263 3957.8 3957.8 Highest : 3.486 16559.6 16559.6 * VFP/NEON (double fp) multi-thread VFP fmuld (64bit x1) n8 : 12.994 615.7 1107.5 VFP faddd (64bit x1) n8 : 7.206 1110.2 1266.4 VFP fmacd (64bit x1) n8 : 14.380 1112.7 1112.7 VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : 14.432 554.3 555.1 VFP faddd (64bit x1) ns4 : 12.598 635.0 635.0 VFP fmacd (64bit x1) ns4 : 19.200 833.3 833.3 VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : 14.390 555.9 555.9 VFP faddd (64bit x1) n1 : 7.235 1105.7 1110.5 VFP fmacd (64bit x1) n1 : 71.746 223.0 223.2 VFP vfma.f64 (64bit x1) n1 : - - - Average : 19.354 749.5 822.2 Highest : 7.206 1112.7 1266.4 * Matrix 4x4 (single fp) multi-thread C++ code : - - - NEON vmla 128bit A : - - - NEON vmla 64bit A : - - - NEON vfma 128bit A : - - - NEON vmla 128bit B : - - - NEON vmla 64bit B : - - - NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - Average : - - - Highest : - - -
ARM Cortex-A7 (ARMv7A) VFPv4+NEON
Yoga Tablet 8 MT8125 Cortex-A7 1.2GHz Quad core
Yoga Tablet 8 MT8125 Cortex-A7 1.2GHz Quad core ARCH: ARMv7A CPU core: 4 VFP: VFPv4-D32 NEON FMA: Yes NEON: Yes SingleT SP max: 2.374 GFLOPS SingleT DP max: 1.165 GFLOPS MultiT SP max: 9.474 GFLOPS MultiT DP max: 4.653 GFLOPS * VFP/NEON (single fp) VFP fmuls (32bit x1) n8 : 3.634 1100.7 1100.7 VFP fadds (32bit x1) n8 : 3.450 1159.3 1159.3 VFP fmacs (32bit x1) n8 : 3.451 2318.1 2318.1 VFP vfma.f32 (32bit x1) n8 : 3.448 2319.9 2319.9 NEON vmul.f32 (32bit x2) n8 : 6.795 1177.3 1177.3 NEON vadd.f32 (32bit x2) n8 : 6.828 1171.7 1171.7 NEON vmla.f32 (32bit x2) n8 : 6.810 2349.6 2349.6 NEON vfma.f32 (32bit x2) n8 : 6.797 2354.1 2354.1 NEON vmul.f32 (32bit x4) n8 : 13.529 1182.7 1182.7 NEON vadd.f32 (32bit x4) n8 : 13.511 1184.2 1184.2 NEON vmla.f32 (32bit x4) n8 : 13.498 2370.7 2370.7 NEON vfma.f32 (32bit x4) n8 : 13.549 2361.8 2361.8 VFP fmuls (32bit x1) ns4 : 3.454 1158.2 1158.2 VFP fadds (32bit x1) ns4 : 3.435 1164.6 1164.6 VFP fmacs (32bit x1) ns4 : 6.717 1190.9 1190.9 VFP vfma.f32 (32bit x1) ns4 : 6.705 1193.2 1193.2 NEON vmul.f32 (32bit x2) ns4 : 6.811 1174.6 1174.6 NEON vadd.f32 (32bit x2) ns4 : 6.793 1177.7 1177.7 NEON vmla.f32 (32bit x2) ns4 : 6.809 2349.9 2349.9 NEON vfma.f32 (32bit x2) ns4 : 6.792 2355.7 2355.7 NEON vmul.f32 (32bit x4) ns4 : 13.519 1183.5 1183.5 NEON vadd.f32 (32bit x4) ns4 : 13.544 1181.3 1181.3 NEON vmla.f32 (32bit x4) ns4 : 13.511 2368.5 2368.5 NEON vfma.f32 (32bit x4) ns4 : 13.522 2366.4 2366.4 VFP fmuls (32bit x1) n1 : 3.444 1161.3 1161.3 VFP fadds (32bit x1) n1 : 3.438 1163.5 1163.5 VFP fmacs (32bit x1) n1 : 16.813 475.8 475.8 VFP vfma.f32 (32bit x1) n1 : 16.779 476.8 476.8 NEON vmul.f32 (32bit x2) n1 : 6.785 1179.2 1179.2 NEON vadd.f32 (32bit x2) n1 : 6.793 1177.6 1177.6 NEON vmla.f32 (32bit x2) n1 : 16.813 951.6 951.6 NEON vfma.f32 (32bit x2) n1 : 16.807 952.0 952.0 NEON vmul.f32 (32bit x4) n1 : 13.508 1184.4 1184.4 NEON vadd.f32 (32bit x4) n1 : 13.510 1184.3 1184.3 NEON vmla.f32 (32bit x4) n1 : 16.820 1902.5 1902.5 NEON vfma.f32 (32bit x4) n1 : 16.758 1909.6 1909.6 NEON vmul.f32 (32bit x4) n12 : 20.196 1188.4 1188.4 NEON vadd.f32 (32bit x4) n12 : 20.196 1188.3 1188.3 NEON vmla.f32 (32bit x4) n12 : 20.258 2369.4 2369.4 NEON vfma.f32 (32bit x4) n12 : 20.219 2374.0 2374.0 平均 : 10.651 1518.8 1518.8 最大 : 3.435 2374.0 2374.0 * VFP/NEON (double fp) VFP fmuld (64bit x1) n8 : 13.628 293.5 293.5 VFP faddd (64bit x1) n8 : 3.439 1163.0 1163.0 VFP fmacd (64bit x1) n8 : 13.508 592.2 592.2 VFP vfma.f64 (64bit x1) n8 : 16.895 473.5 473.5 VFP fmuld (64bit x1) ns4 : 13.434 297.8 297.8 VFP faddd (64bit x1) ns4 : 3.435 1164.6 1164.6 VFP fmacd (64bit x1) ns4 : 13.430 595.7 595.7 VFP vfma.f64 (64bit x1) ns4 : 16.823 475.5 475.5 VFP fmuld (64bit x1) n1 : 13.439 297.6 297.6 VFP faddd (64bit x1) n1 : 3.447 1160.6 1160.6 VFP fmacd (64bit x1) n1 : 26.856 297.9 297.9 VFP vfma.f64 (64bit x1) n1 : 26.860 297.8 297.8 平均 : 13.766 592.5 592.5 最大 : 3.435 1164.6 1164.6 * Matrix 4x4 (single fp) C++ code : - - - NEON vmla 128bit A : - - - NEON vmla 64bit A : - - - NEON vfma 128bit A : - - - NEON vmla 128bit B : - - - NEON vmla 64bit B : - - - NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - 平均 : - - - 最大 : - - - * VFP/NEON (single fp) multi-thread VFP fmuls (32bit x1) n8 : 3.992 4008.1 4008.1 VFP fadds (32bit x1) n8 : 3.446 4643.6 4643.6 VFP fmacs (32bit x1) n8 : 3.442 9297.5 9297.5 VFP vfma.f32 (32bit x1) n8 : 3.461 9246.8 9246.8 NEON vmul.f32 (32bit x2) n8 : 6.805 4702.7 4702.7 NEON vadd.f32 (32bit x2) n8 : 6.815 4695.7 4695.7 NEON vmla.f32 (32bit x2) n8 : 6.820 9383.7 9383.7 NEON vfma.f32 (32bit x2) n8 : 6.798 9414.8 9414.8 NEON vmul.f32 (32bit x4) n8 : 13.553 4722.1 4722.1 NEON vadd.f32 (32bit x4) n8 : 13.592 4708.7 4708.7 NEON vmla.f32 (32bit x4) n8 : 13.525 9463.7 9463.7 NEON vfma.f32 (32bit x4) n8 : 13.556 9442.2 9442.2 VFP fmuls (32bit x1) ns4 : 3.448 4640.8 4640.8 VFP fadds (32bit x1) ns4 : 3.439 4652.9 4652.9 VFP fmacs (32bit x1) ns4 : 6.739 4748.3 4748.3 VFP vfma.f32 (32bit x1) ns4 : 6.742 4746.0 4746.0 NEON vmul.f32 (32bit x2) ns4 : 6.843 4676.2 4676.2 NEON vadd.f32 (32bit x2) ns4 : 6.805 4702.3 4702.3 NEON vmla.f32 (32bit x2) ns4 : 6.818 9386.8 9386.8 NEON vfma.f32 (32bit x2) ns4 : 6.813 9394.1 9394.1 NEON vmul.f32 (32bit x4) ns4 : 13.533 4729.3 4729.3 NEON vadd.f32 (32bit x4) ns4 : 13.531 4729.9 4729.9 NEON vmla.f32 (32bit x4) ns4 : 13.604 9409.2 9409.2 NEON vfma.f32 (32bit x4) ns4 : 13.534 9457.5 9457.5 VFP fmuls (32bit x1) n1 : 3.440 4651.1 4651.1 VFP fadds (32bit x1) n1 : 3.460 4624.5 4624.5 VFP fmacs (32bit x1) n1 : 17.220 1858.3 1858.3 VFP vfma.f32 (32bit x1) n1 : 16.890 1894.6 1894.6 NEON vmul.f32 (32bit x2) n1 : 6.846 4674.0 4674.0 NEON vadd.f32 (32bit x2) n1 : 6.809 4699.4 4699.4 NEON vmla.f32 (32bit x2) n1 : 16.822 3804.6 3804.6 NEON vfma.f32 (32bit x2) n1 : 16.890 3789.1 3789.1 NEON vmul.f32 (32bit x4) n1 : 13.636 4693.6 4693.6 NEON vadd.f32 (32bit x4) n1 : 13.594 4708.0 4708.0 NEON vmla.f32 (32bit x4) n1 : 16.889 7579.1 7579.1 NEON vfma.f32 (32bit x4) n1 : 16.852 7595.4 7595.4 NEON vmul.f32 (32bit x4) n12 : 20.332 4721.6 4721.6 NEON vadd.f32 (32bit x4) n12 : 20.264 4737.4 4737.4 NEON vmla.f32 (32bit x4) n12 : 20.266 9474.1 9474.1 NEON vfma.f32 (32bit x4) n12 : 20.362 9429.2 9429.2 平均 : 10.706 6048.4 6048.4 最大 : 3.439 9474.1 9474.1 * VFP/NEON (double fp) multi-thread VFP fmuld (64bit x1) n8 : - - - VFP faddd (64bit x1) n8 : - - - VFP fmacd (64bit x1) n8 : - - - VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : - - - VFP faddd (64bit x1) ns4 : - - - VFP fmacd (64bit x1) ns4 : - - - VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : - - - VFP faddd (64bit x1) n1 : - - - VFP fmacd (64bit x1) n1 : - - - VFP vfma.f64 (64bit x1) n1 : - - - 平均 : - - - 最大 : - - - * Matrix 4x4 (single fp) multi-thread C++ code : - - - NEON vmla 128bit A : - - - NEON vmla 64bit A : - - - NEON vfma 128bit A : - - - NEON vmla 128bit B : - - - NEON vmla 64bit B : - - - NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - 平均 : - - - 最大 : - - - * VFP/NEON (double fp) multi-thread VFP fmuld (64bit x1) n8 : 14.086 1135.9 1135.9 VFP faddd (64bit x1) n8 : 3.448 4639.8 4639.8 VFP fmacd (64bit x1) n8 : 13.541 2363.1 2363.1 VFP vfma.f64 (64bit x1) n8 : 16.835 1900.8 1900.8 VFP fmuld (64bit x1) ns4 : 13.453 1189.3 1189.3 VFP faddd (64bit x1) ns4 : 3.458 4627.5 4627.5 VFP fmacd (64bit x1) ns4 : 13.455 2378.3 2378.3 VFP vfma.f64 (64bit x1) ns4 : 16.874 1896.4 1896.4 VFP fmuld (64bit x1) n1 : 13.456 1189.1 1189.1 VFP faddd (64bit x1) n1 : 3.439 4652.8 4652.8 VFP fmacd (64bit x1) n1 : 26.915 1188.9 1188.9 VFP vfma.f64 (64bit x1) n1 : 27.030 1183.9 1183.9 平均 : 13.833 2362.1 2362.1 最大 : 3.439 4652.8 4652.8 * Matrix 4x4 (single fp) multi-thread C++ code : - - - NEON vmla 128bit A : - - - NEON vmla 64bit A : - - - NEON vfma 128bit A : - - - NEON vmla 128bit B : - - - NEON vmla 64bit B : - - - NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - 平均 : - - - 最大 : - - -
Raspberry Pi 2 BCM2836 Cortex-A7 0.9GHz quad core
Raspberry Pi 2 BCM2836 Cortex-A7 0.9GHz quad core ARCH: ARMv7A FPU: VFPv4-D32 NEON SingleT SP max: 1.791 GFLOPS SingleT DP max: 0.877 GFLOPS MultiT SP max: 7.087 GFLOPS MultiT DP max: 3.472 GFLOPS CPU core: 4 NEON: yes FMA: yes * VFP/NEON (single fp) VFP fmuls (32bit x1) n8 : 1.368 877.0 877.0 VFP fadds (32bit x1) n8 : 1.368 877.1 877.1 VFP fmacs (32bit x1) n8 : 1.368 1754.0 1754.0 VFP vfma.f32 (32bit x1) n8 : 1.368 1754.1 1754.1 NEON vmul.f32 (32bit x2) n8 : 2.703 887.9 887.9 NEON vadd.f32 (32bit x2) n8 : 2.703 887.9 887.9 NEON vmla.f32 (32bit x2) n8 : 2.703 1775.8 1775.8 NEON vfma.f32 (32bit x2) n8 : 2.703 1775.8 1775.8 NEON vmul.f32 (32bit x4) n8 : 5.373 893.4 893.4 NEON vadd.f32 (32bit x4) n8 : 5.373 893.4 893.4 NEON vmla.f32 (32bit x4) n8 : 5.373 1786.8 1786.8 NEON vfma.f32 (32bit x4) n8 : 5.373 1786.8 1786.8 VFP fmuls (32bit x1) ns4 : 1.368 877.0 877.0 VFP fadds (32bit x1) ns4 : 1.368 877.1 877.1 VFP fmacs (32bit x1) ns4 : 2.670 899.0 899.0 VFP vfma.f32 (32bit x1) ns4 : 2.670 899.0 899.0 NEON vmul.f32 (32bit x2) ns4 : 2.703 887.9 887.9 NEON vadd.f32 (32bit x2) ns4 : 2.703 887.9 887.9 NEON vmla.f32 (32bit x2) ns4 : 2.703 1775.8 1775.8 NEON vfma.f32 (32bit x2) ns4 : 2.703 1775.8 1775.8 NEON vmul.f32 (32bit x4) ns4 : 5.373 893.4 893.4 NEON vadd.f32 (32bit x4) ns4 : 5.373 893.4 893.4 NEON vmla.f32 (32bit x4) ns4 : 5.373 1786.8 1786.8 NEON vfma.f32 (32bit x4) ns4 : 5.373 1786.8 1786.8 VFP fmuls (32bit x1) n1 : 1.368 877.1 877.1 VFP fadds (32bit x1) n1 : 1.368 877.1 877.1 VFP fmacs (32bit x1) n1 : 6.674 359.6 359.6 VFP vfma.f32 (32bit x1) n1 : 6.674 359.6 359.6 NEON vmul.f32 (32bit x2) n1 : 2.703 887.9 887.9 NEON vadd.f32 (32bit x2) n1 : 2.703 887.9 887.9 NEON vmla.f32 (32bit x2) n1 : 6.674 719.2 719.2 NEON vfma.f32 (32bit x2) n1 : 6.674 719.2 719.2 NEON vmul.f32 (32bit x4) n1 : 5.373 893.4 893.4 NEON vadd.f32 (32bit x4) n1 : 5.373 893.4 893.4 NEON vmla.f32 (32bit x4) n1 : 6.674 1438.4 1438.4 NEON vfma.f32 (32bit x4) n1 : 6.674 1438.4 1438.4 NEON vmul.f32 (32bit x4) n12 : 8.042 895.2 895.2 NEON vadd.f32 (32bit x4) n12 : 8.042 895.2 895.2 NEON vmla.f32 (32bit x4) n12 : 8.042 1790.5 1790.5 NEON vfma.f32 (32bit x4) n12 : 8.042 1790.5 1790.5 Average : 4.231 1147.8 1147.8 Highest : 1.368 1790.5 1790.5 * VFP/NEON (double fp) VFP fmuld (64bit x1) n8 : 5.340 224.7 224.7 VFP faddd (64bit x1) n8 : 1.368 877.0 877.0 VFP fmacd (64bit x1) n8 : 5.339 449.5 449.5 VFP vfma.f64 (64bit x1) n8 : 6.674 359.6 359.6 VFP fmuld (64bit x1) ns4 : 5.339 224.7 224.7 VFP faddd (64bit x1) ns4 : 1.368 877.1 877.1 VFP fmacd (64bit x1) ns4 : 5.339 449.5 449.5 VFP vfma.f64 (64bit x1) ns4 : 6.674 359.6 359.6 VFP fmuld (64bit x1) n1 : 5.339 224.7 224.7 VFP faddd (64bit x1) n1 : 1.368 877.0 877.0 VFP fmacd (64bit x1) n1 : 10.679 224.7 224.7 VFP vfma.f64 (64bit x1) n1 : 10.679 224.7 224.7 Average : 5.459 447.8 447.8 Highest : 1.368 877.1 877.1 * Matrix 4x4 C++ code : 1.659 1080.3 1080.3 NEON vmla 128bit A : 2.049 874.6 874.6 NEON vmla 64bit A : 2.049 874.5 874.5 NEON vfma 128bit A : 3.330 538.1 538.1 NEON vmla 128bit B : 1.672 1071.5 1071.5 NEON vmla 64bit B : 1.657 1081.2 1081.2 NEON vfma 128bit B : 2.227 804.7 804.7 NEON vfma 128bit C : 3.330 538.1 538.1 Average : 2.247 857.8 857.8 Highest : 1.657 1081.2 1081.2 * VFP/NEON (single fp) multi-thread VFP fmuls (32bit x1) n8 : 1.383 3471.4 3471.4 VFP fadds (32bit x1) n8 : 1.383 3471.2 3471.2 VFP fmacs (32bit x1) n8 : 1.383 6942.1 6942.1 VFP vfma.f32 (32bit x1) n8 : 1.383 6943.0 6943.0 NEON vmul.f32 (32bit x2) n8 : 2.732 3514.1 3514.1 NEON vadd.f32 (32bit x2) n8 : 2.732 3514.2 3514.2 NEON vmla.f32 (32bit x2) n8 : 2.732 7027.8 7027.8 NEON vfma.f32 (32bit x2) n8 : 2.732 7028.8 7028.8 NEON vmul.f32 (32bit x4) n8 : 5.430 3535.8 3535.8 NEON vadd.f32 (32bit x4) n8 : 5.430 3536.1 3536.1 NEON vmla.f32 (32bit x4) n8 : 5.430 7072.1 7072.1 NEON vfma.f32 (32bit x4) n8 : 5.430 7072.3 7072.3 VFP fmuls (32bit x1) ns4 : 1.383 3471.2 3471.2 VFP fadds (32bit x1) ns4 : 1.383 3471.1 3471.1 VFP fmacs (32bit x1) ns4 : 2.698 3558.0 3558.0 VFP vfma.f32 (32bit x1) ns4 : 2.698 3558.1 3558.1 NEON vmul.f32 (32bit x2) ns4 : 2.732 3514.1 3514.1 NEON vadd.f32 (32bit x2) ns4 : 2.731 3514.6 3514.6 NEON vmla.f32 (32bit x2) ns4 : 2.732 7028.2 7028.2 NEON vfma.f32 (32bit x2) ns4 : 2.732 7028.4 7028.4 NEON vmul.f32 (32bit x4) ns4 : 5.430 3536.1 3536.1 NEON vadd.f32 (32bit x4) ns4 : 5.430 3536.1 3536.1 NEON vmla.f32 (32bit x4) ns4 : 5.430 7072.2 7072.2 NEON vfma.f32 (32bit x4) ns4 : 5.430 7072.1 7072.1 VFP fmuls (32bit x1) n1 : 1.383 3471.7 3471.7 VFP fadds (32bit x1) n1 : 1.383 3471.1 3471.1 VFP fmacs (32bit x1) n1 : 6.745 1423.2 1423.2 VFP vfma.f32 (32bit x1) n1 : 6.745 1423.3 1423.3 NEON vmul.f32 (32bit x2) n1 : 2.732 3514.2 3514.2 NEON vadd.f32 (32bit x2) n1 : 2.732 3514.0 3514.0 NEON vmla.f32 (32bit x2) n1 : 6.745 2846.5 2846.5 NEON vfma.f32 (32bit x2) n1 : 6.745 2846.6 2846.6 NEON vmul.f32 (32bit x4) n1 : 5.430 3536.0 3536.0 NEON vadd.f32 (32bit x4) n1 : 5.430 3535.8 3535.8 NEON vmla.f32 (32bit x4) n1 : 6.745 5692.9 5692.9 NEON vfma.f32 (32bit x4) n1 : 6.745 5693.1 5693.1 NEON vmul.f32 (32bit x4) n12 : 8.128 3543.3 3543.3 NEON vadd.f32 (32bit x4) n12 : 8.128 3543.4 3543.4 NEON vmla.f32 (32bit x4) n12 : 8.128 7086.7 7086.7 NEON vfma.f32 (32bit x4) n12 : 8.128 7086.4 7086.4 Average : 4.276 4542.9 4542.9 Highest : 1.383 7086.7 7086.7 * VFP/NEON (double fp) multi-thread VFP fmuld (64bit x1) n8 : 5.396 889.5 889.5 VFP faddd (64bit x1) n8 : 1.383 3471.7 3471.7 VFP fmacd (64bit x1) n8 : 5.396 1779.1 1779.1 VFP vfma.f64 (64bit x1) n8 : 6.746 1423.2 1423.2 VFP fmuld (64bit x1) ns4 : 5.396 889.6 889.6 VFP faddd (64bit x1) ns4 : 1.383 3471.5 3471.5 VFP fmacd (64bit x1) ns4 : 5.396 1779.1 1779.1 VFP vfma.f64 (64bit x1) ns4 : 6.745 1423.3 1423.3 VFP fmuld (64bit x1) n1 : 5.396 889.6 889.6 VFP faddd (64bit x1) n1 : 1.383 3471.0 3471.0 VFP fmacd (64bit x1) n1 : 10.792 889.6 889.6 VFP vfma.f64 (64bit x1) n1 : 10.792 889.6 889.6 Average : 5.517 1772.2 1772.2 Highest : 1.383 3471.7 3471.7 * Matrix 4x4 multi-thread C++ code : 1.638 4376.1 4376.1 NEON vmla 128bit A : 2.071 3461.3 3461.3 NEON vmla 64bit A : 2.071 3460.9 3460.9 NEON vfma 128bit A : 3.367 2129.1 2129.1 NEON vmla 128bit B : 1.675 4279.1 4279.1 NEON vmla 64bit B : 1.675 4279.1 4279.1 NEON vfma 128bit B : 2.251 3184.4 3184.4 NEON vfma 128bit C : 3.366 2129.3 2129.3 Average : 2.264 3412.4 3412.4 Highest : 1.638 4376.1 4376.1
ARM Cortex-A9 (ARMv7A) VFPv3 (+NEON)
OptimusPad L-06C Tegra2 Cortex-A9 1.0GHz dual core VFPv3-D16
ARCH: ARMv7A CPU core: 2 VFP: VFPv3-D16 FMA: No NEON: No Result SingleT SP max: 1.983 GFLOPS SingleT DP max: 0.997 GFLOPS MultiT SP max: 3.853 GFLOPS MultiT DP max: 1.965 GFLOPS * VFP/NEON (単精度 fp) single-thread VFP fmuls (32bit x1) n8 : 1.285 933.9 933.9 VFP fadds (32bit x1) n8 : 1.242 966.1 966.1 VFP fmacs (32bit x1) n8 : 1.210 1983.0 1983.0 VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : - - - NEON vadd.f32 (32bit x2) n8 : - - - NEON vmla.f32 (32bit x2) n8 : - - - NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : - - - NEON vadd.f32 (32bit x4) n8 : - - - NEON vmla.f32 (32bit x4) n8 : - - - NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : 1.512 793.6 793.6 VFP fadds (32bit x1) ns4 : 1.227 977.7 977.7 VFP fmacs (32bit x1) ns4 : 2.447 980.9 980.9 VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : - - - NEON vadd.f32 (32bit x2) ns4 : - - - NEON vmla.f32 (32bit x2) ns4 : - - - NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : - - - NEON vadd.f32 (32bit x4) ns4 : - - - NEON vmla.f32 (32bit x4) ns4 : - - - NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : 7.263 165.2 165.2 VFP fadds (32bit x1) n1 : 6.029 199.0 199.0 VFP fmacs (32bit x1) n1 : 6.028 398.2 398.2 VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : - - - NEON vadd.f32 (32bit x2) n1 : - - - NEON vmla.f32 (32bit x2) n1 : - - - NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : - - - NEON vadd.f32 (32bit x4) n1 : - - - NEON vmla.f32 (32bit x4) n1 : - - - NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : - - - NEON vadd.f32 (32bit x4) n12 : - - - NEON vmla.f32 (32bit x4) n12 : - - - NEON vfma.f32 (32bit x4) n12 : - - - 平均 : 3.138 822.0 822.0 最大 : 1.210 1983.0 1983.0 * VFP/NEON (倍精度 fp) single-thread VFP fmuld (64bit x1) n8 : 2.458 488.2 488.2 VFP faddd (64bit x1) n8 : 1.207 994.2 994.2 VFP fmacd (64bit x1) n8 : 2.407 996.9 996.9 VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : 2.409 498.1 498.1 VFP faddd (64bit x1) ns4 : 1.206 995.2 995.2 VFP fmacd (64bit x1) ns4 : 2.710 885.6 885.6 VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : 8.442 142.1 142.1 VFP faddd (64bit x1) n1 : 6.045 198.5 198.5 VFP fmacd (64bit x1) n1 : 7.239 331.6 331.6 VFP vfma.f64 (64bit x1) n1 : - - - 平均 : 3.791 614.5 614.5 最大 : 1.206 996.9 996.9 * Matrix 4x4 (単精度 fp) single-thread C++ code : 4.602 389.4 389.4 NEON vmla 128bit A : - - - NEON vmla 64bit A : - - - NEON vfma 128bit A : - - - NEON vmla 128bit B : - - - NEON vmla 64bit B : - - - NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - 平均 : 4.602 389.4 389.4 最大 : 4.602 389.4 389.4 * VFP/NEON (単精度 fp) multi-thread VFP fmuls (32bit x1) n8 : 1.325 1811.6 1811.6 VFP fadds (32bit x1) n8 : 1.232 1948.4 1948.4 VFP fmacs (32bit x1) n8 : 1.246 3853.2 3853.2 VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : - - - NEON vadd.f32 (32bit x2) n8 : - - - NEON vmla.f32 (32bit x2) n8 : - - - NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : - - - NEON vadd.f32 (32bit x4) n8 : - - - NEON vmla.f32 (32bit x4) n8 : - - - NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : 1.547 1551.5 1551.5 VFP fadds (32bit x1) ns4 : 1.228 1955.0 1955.0 VFP fmacs (32bit x1) ns4 : 2.448 1960.5 1960.5 VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : - - - NEON vadd.f32 (32bit x2) ns4 : - - - NEON vmla.f32 (32bit x2) ns4 : - - - NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : - - - NEON vadd.f32 (32bit x4) ns4 : - - - NEON vmla.f32 (32bit x4) ns4 : - - - NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : 7.343 326.8 326.8 VFP fadds (32bit x1) n1 : 6.122 392.0 392.0 VFP fmacs (32bit x1) n1 : 6.159 779.3 779.3 VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : - - - NEON vadd.f32 (32bit x2) n1 : - - - NEON vmla.f32 (32bit x2) n1 : - - - NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : - - - NEON vadd.f32 (32bit x4) n1 : - - - NEON vmla.f32 (32bit x4) n1 : - - - NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : - - - NEON vadd.f32 (32bit x4) n12 : - - - NEON vmla.f32 (32bit x4) n12 : - - - NEON vfma.f32 (32bit x4) n12 : - - - 平均 : 3.183 1619.8 1619.8 最大 : 1.228 3853.2 3853.2 * VFP/NEON (倍精度 fp) multi-thread VFP fmuld (64bit x1) n8 : 2.583 929.3 929.3 VFP faddd (64bit x1) n8 : 1.222 1964.0 1964.0 VFP fmacd (64bit x1) n8 : 2.457 1953.9 1953.9 VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : 2.449 980.2 980.2 VFP faddd (64bit x1) ns4 : 1.221 1965.1 1965.1 VFP fmacd (64bit x1) ns4 : 2.772 1731.9 1731.9 VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : 8.600 279.1 279.1 VFP faddd (64bit x1) n1 : 6.143 390.7 390.7 VFP fmacd (64bit x1) n1 : 7.366 651.6 651.6 VFP vfma.f64 (64bit x1) n1 : - - - 平均 : 3.868 1205.1 1205.1 最大 : 1.221 1965.1 1965.1 * Matrix 4x4 (単精度 fp) multi-thread C++ code : 4.679 765.9 765.9 NEON vmla 128bit A : - - - NEON vmla 64bit A : - - - NEON vfma 128bit A : - - - NEON vmla 128bit B : - - - NEON vmla 64bit B : - - - NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - 平均 : 4.679 765.9 765.9 最大 : 4.679 765.9 765.9
NEC LifeTouchNote Tegra2 Cortex-A9 1.0GHz dual core VFPv3-D16
ARCH: ARMv7A CPU core: 2 VFP: VFPv3-D16 FMA: No NEON: No Result SingleT SP max: 1.993 GFLOPS SingleT DP max: 0.999 GFLOPS MultiT SP max: 3.908 GFLOPS MultiT DP max: 1.962 GFLOPS * VFP/NEON (単精度 fp) single-thread VFP fmuls (32bit x1) n8 : 1.215 987.4 987.4 VFP fadds (32bit x1) n8 : 1.204 996.6 996.6 VFP fmacs (32bit x1) n8 : 1.204 1993.2 1993.2 VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : - - - NEON vadd.f32 (32bit x2) n8 : - - - NEON vmla.f32 (32bit x2) n8 : - - - NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : - - - NEON vadd.f32 (32bit x4) n8 : - - - NEON vmla.f32 (32bit x4) n8 : - - - NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : 1.502 799.0 799.0 VFP fadds (32bit x1) ns4 : 1.210 991.4 991.4 VFP fmacs (32bit x1) ns4 : 2.403 998.9 998.9 VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : - - - NEON vadd.f32 (32bit x2) ns4 : - - - NEON vmla.f32 (32bit x2) ns4 : - - - NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : - - - NEON vadd.f32 (32bit x4) ns4 : - - - NEON vmla.f32 (32bit x4) ns4 : - - - NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : 7.208 166.5 166.5 VFP fadds (32bit x1) n1 : 6.011 199.6 199.6 VFP fmacs (32bit x1) n1 : 6.016 398.9 398.9 VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : - - - NEON vadd.f32 (32bit x2) n1 : - - - NEON vmla.f32 (32bit x2) n1 : - - - NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : - - - NEON vadd.f32 (32bit x4) n1 : - - - NEON vmla.f32 (32bit x4) n1 : - - - NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : - - - NEON vadd.f32 (32bit x4) n12 : - - - NEON vmla.f32 (32bit x4) n12 : - - - NEON vfma.f32 (32bit x4) n12 : - - - 平均 : 3.108 836.8 836.8 最大 : 1.204 1993.2 1993.2 * VFP/NEON (倍精度 fp) single-thread VFP fmuld (64bit x1) n8 : 2.417 496.4 496.4 VFP faddd (64bit x1) n8 : 1.201 998.9 998.9 VFP fmacd (64bit x1) n8 : 2.403 998.7 998.7 VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : 2.404 499.3 499.3 VFP faddd (64bit x1) ns4 : 1.201 998.9 998.9 VFP fmacd (64bit x1) ns4 : 2.705 887.4 887.4 VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : 8.422 142.5 142.5 VFP faddd (64bit x1) n1 : 6.009 199.7 199.7 VFP fmacd (64bit x1) n1 : 7.211 332.8 332.8 VFP vfma.f64 (64bit x1) n1 : - - - 平均 : 3.775 617.2 617.2 最大 : 1.201 998.9 998.9 * Matrix 4x4 (単精度 fp) single-thread C++ code : 4.773 375.5 375.5 NEON vmla 128bit A : - - - NEON vmla 64bit A : - - - NEON vfma 128bit A : - - - NEON vmla 128bit B : - - - NEON vmla 64bit B : - - - NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - 平均 : 4.773 375.5 375.5 最大 : 4.773 375.5 375.5 * VFP/NEON (単精度 fp) multi-thread VFP fmuls (32bit x1) n8 : 1.416 1695.3 1695.3 VFP fadds (32bit x1) n8 : 1.230 1951.9 1951.9 VFP fmacs (32bit x1) n8 : 1.228 3908.3 3908.3 VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : - - - NEON vadd.f32 (32bit x2) n8 : - - - NEON vmla.f32 (32bit x2) n8 : - - - NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : - - - NEON vadd.f32 (32bit x4) n8 : - - - NEON vmla.f32 (32bit x4) n8 : - - - NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : 1.551 1547.7 1547.7 VFP fadds (32bit x1) ns4 : 1.226 1958.0 1958.0 VFP fmacs (32bit x1) ns4 : 2.450 1959.4 1959.4 VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : - - - NEON vadd.f32 (32bit x2) ns4 : - - - NEON vmla.f32 (32bit x2) ns4 : - - - NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : - - - NEON vadd.f32 (32bit x4) ns4 : - - - NEON vmla.f32 (32bit x4) ns4 : - - - NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : 7.364 325.9 325.9 VFP fadds (32bit x1) n1 : 6.269 382.9 382.9 VFP fmacs (32bit x1) n1 : 6.119 784.4 784.4 VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : - - - NEON vadd.f32 (32bit x2) n1 : - - - NEON vmla.f32 (32bit x2) n1 : - - - NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : - - - NEON vadd.f32 (32bit x4) n1 : - - - NEON vmla.f32 (32bit x4) n1 : - - - NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : - - - NEON vadd.f32 (32bit x4) n12 : - - - NEON vmla.f32 (32bit x4) n12 : - - - NEON vfma.f32 (32bit x4) n12 : - - - 平均 : 3.206 1612.6 1612.6 最大 : 1.226 3908.3 3908.3 * VFP/NEON (倍精度 fp) multi-thread VFP fmuld (64bit x1) n8 : 2.550 941.0 941.0 VFP faddd (64bit x1) n8 : 1.223 1961.6 1961.6 VFP fmacd (64bit x1) n8 : 2.465 1947.0 1947.0 VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : 2.445 981.5 981.5 VFP faddd (64bit x1) ns4 : 1.226 1956.9 1956.9 VFP fmacd (64bit x1) ns4 : 2.773 1730.7 1730.7 VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : 8.673 276.7 276.7 VFP faddd (64bit x1) n1 : 6.125 391.9 391.9 VFP fmacd (64bit x1) n1 : 7.400 648.7 648.7 VFP vfma.f64 (64bit x1) n1 : - - - 平均 : 3.876 1204.0 1204.0 最大 : 1.223 1961.6 1961.6 * Matrix 4x4 (単精度 fp) multi-thread C++ code : 4.849 739.1 739.1 NEON vmla 128bit A : - - - NEON vmla 64bit A : - - - NEON vfma 128bit A : - - - NEON vmla 128bit B : - - - NEON vmla 64bit B : - - - NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - 平均 : 4.849 739.1 739.1 最大 : 4.849 739.1 739.1
iPad 2 Apple A5 Cortex-A9 1.0GHz dual core
iPad 2 Apple A5 Cortex-A9 1.0GHz dual core ARCH: ARMv7A VFP: VFPv3-D32 NEON SingleT SP max: 3.969 GFLOPS SingleT DP max: 0.989 GFLOPS MultiT SP max: 7.830 GFLOPS MultiT DP max: 1.961 GFLOPS CPU core: 2 FMA: No NEON: Yes * VFP/NEON (single fp) VFP fmuls (32bit x1) n8 : 4.164 960.7 963.5 VFP fadds (32bit x1) n8 : 4.085 979.2 980.1 VFP fmacs (32bit x1) n8 : 4.053 1974.0 1976.4 VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : 4.128 1937.9 1937.9 NEON vadd.f32 (32bit x2) n8 : 4.149 1928.2 1928.2 NEON vmla.f32 (32bit x2) n8 : 4.546 3519.4 3519.4 NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : 8.098 1975.8 1978.8 NEON vadd.f32 (32bit x4) n8 : 8.103 1974.6 1976.6 NEON vmla.f32 (32bit x4) n8 : 8.063 3968.8 3968.8 NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : 5.058 790.8 791.0 VFP fadds (32bit x1) ns4 : 4.046 988.6 988.6 VFP fmacs (32bit x1) ns4 : 8.086 989.4 989.4 VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : 4.139 1932.9 1932.9 NEON vadd.f32 (32bit x2) ns4 : 4.155 1925.2 1928.3 NEON vmla.f32 (32bit x2) ns4 : 9.105 1757.2 1758.3 NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : 8.088 1978.3 1978.3 NEON vadd.f32 (32bit x4) ns4 : 8.105 1974.0 1975.2 NEON vmla.f32 (32bit x4) ns4 : 9.106 3514.1 3515.9 NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : 24.290 164.7 164.8 VFP fadds (32bit x1) n1 : 20.236 197.7 198.2 VFP fmacs (32bit x1) n1 : 20.222 395.6 395.6 VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : 4.147 1929.1 1929.1 NEON vadd.f32 (32bit x2) n1 : 4.148 1928.8 1929.9 NEON vmla.f32 (32bit x2) n1 : 36.436 439.1 439.7 NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : 8.091 1977.5 1977.5 NEON vadd.f32 (32bit x4) n1 : 8.099 1975.5 1975.5 NEON vmla.f32 (32bit x4) n1 : 36.403 879.1 879.4 NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : 12.146 1976.0 1984.3 NEON vadd.f32 (32bit x4) n12 : 12.146 1975.9 1977.0 NEON vmla.f32 (32bit x4) n12 : 12.131 3956.9 3956.9 NEON vfma.f32 (32bit x4) n12 : - - - 平均 : 10.259 1762.2 1763.2 最大 : 4.046 3968.8 3968.8 * VFP/NEON (double fp) VFP fmuld (64bit x1) n8 : 8.256 484.5 484.5 VFP faddd (64bit x1) n8 : 4.047 988.3 988.3 VFP fmacd (64bit x1) n8 : 8.090 988.8 988.8 VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : 8.105 493.6 493.6 VFP faddd (64bit x1) ns4 : 4.043 989.4 989.4 VFP fmacd (64bit x1) ns4 : 9.107 878.4 878.4 VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : 28.323 141.2 141.2 VFP faddd (64bit x1) n1 : 20.229 197.7 197.7 VFP fmacd (64bit x1) n1 : 24.276 329.5 329.5 VFP vfma.f64 (64bit x1) n1 : - - - 平均 : 12.720 610.2 610.2 最大 : 4.043 989.4 989.4 * Matrix 4x4 C++ code : - - - NEON vmla 128bit A : - - - NEON vmla 64bit A : - - - NEON vfma 128bit A : - - - NEON vmla 128bit B : - - - NEON vmla 64bit B : - - - NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - 平均 : - - - 最大 : - - - * VFP/NEON (single fp) multi-thread VFP fmuls (32bit x1) n8 : 4.414 1812.3 1815.3 VFP fadds (32bit x1) n8 : 4.209 1900.7 1927.6 VFP fmacs (32bit x1) n8 : 4.168 3839.2 3911.7 VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : 4.189 3819.2 3820.9 NEON vadd.f32 (32bit x2) n8 : 4.184 3824.3 3824.3 NEON vmla.f32 (32bit x2) n8 : 4.631 6910.0 6910.0 NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : 8.163 3920.0 3922.9 NEON vadd.f32 (32bit x4) n8 : 8.184 3910.0 3911.4 NEON vmla.f32 (32bit x4) n8 : 8.174 7829.7 7829.7 NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : 5.122 1562.0 1566.7 VFP fadds (32bit x1) ns4 : 4.086 1958.0 1958.6 VFP fmacs (32bit x1) ns4 : 8.192 1953.1 1953.1 VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : 4.188 3820.1 3820.1 NEON vadd.f32 (32bit x2) ns4 : 4.212 3798.8 3824.1 NEON vmla.f32 (32bit x2) ns4 : 9.207 3475.7 3475.7 NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : 8.168 3917.8 3918.7 NEON vadd.f32 (32bit x4) ns4 : 8.165 3919.0 3920.4 NEON vmla.f32 (32bit x4) ns4 : 9.219 6942.2 6942.2 NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : 24.530 326.1 326.1 VFP fadds (32bit x1) n1 : 20.468 390.9 391.3 VFP fmacs (32bit x1) n1 : 20.454 782.3 782.3 VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : 4.188 3820.1 3823.0 NEON vadd.f32 (32bit x2) n1 : 4.215 3796.4 3796.4 NEON vmla.f32 (32bit x2) n1 : 36.766 870.4 870.4 NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : 8.220 3892.9 3904.9 NEON vadd.f32 (32bit x4) n1 : 8.194 3905.2 3913.4 NEON vmla.f32 (32bit x4) n1 : 36.849 1736.8 1738.1 NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : 12.279 3909.1 3909.1 NEON vadd.f32 (32bit x4) n12 : 12.258 3915.8 3920.3 NEON vmla.f32 (32bit x4) n12 : 12.270 7824.1 7824.1 NEON vfma.f32 (32bit x4) n12 : - - - 平均 : 10.385 3476.1 3481.8 最大 : 4.086 7829.7 7829.7 * VFP/NEON (double fp) multi-thread VFP fmuld (64bit x1) n8 : 8.540 936.8 936.8 VFP faddd (64bit x1) n8 : 4.096 1953.2 1953.2 VFP fmacd (64bit x1) n8 : 8.159 1961.0 1961.0 VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : 8.189 976.9 976.9 VFP faddd (64bit x1) ns4 : 4.084 1958.7 1958.7 VFP fmacd (64bit x1) ns4 : 9.190 1741.0 1741.0 VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : 28.690 278.8 278.8 VFP faddd (64bit x1) n1 : 20.443 391.3 391.3 VFP fmacd (64bit x1) n1 : 24.566 651.3 651.3 VFP vfma.f64 (64bit x1) n1 : - - - 平均 : 12.884 1205.4 1205.4 最大 : 4.084 1961.0 1961.0 * Matrix 4x4 multi thread C++ code : - - - NEON vmla 128bit A : - - - NEON vmla 64bit A : - - - NEON vfma 128bit A : - - - NEON vmla 128bit B : - - - NEON vmla 64bit B : - - - NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - 平均 : - - - 最大 : - - -
iPad mini Apple A5 Cortex-A9 1.0GHz dual core
iPad mini Apple A5 Cortex-A9 1.0GHz dual core ARCH: ARMv7A VFP: VFPv3-D32 NEON SingleT SP max: 3.846 GFLOPS SingleT DP max: 0.983 GFLOPS MultiT SP max: 7.800 GFLOPS MultiT DP max: 1.941 GFLOPS CPU core: 2 FMA: No NEON: Yes * VFP/NEON (single fp) VFP fmuls (32bit x1) n8 : 4.821 829.7 829.7 VFP fadds (32bit x1) n8 : 4.367 915.9 915.9 VFP fmacs (32bit x1) n8 : 4.172 1917.6 1917.6 VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : 4.295 1862.8 1862.8 NEON vadd.f32 (32bit x2) n8 : 4.322 1851.0 1851.0 NEON vmla.f32 (32bit x2) n8 : 4.705 3401.0 3401.0 NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : 8.758 1827.0 1827.0 NEON vadd.f32 (32bit x4) n8 : 8.674 1844.7 1844.7 NEON vmla.f32 (32bit x4) n8 : 8.748 3657.9 3657.9 NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : 5.478 730.2 730.2 VFP fadds (32bit x1) ns4 : 4.436 901.8 901.8 VFP fmacs (32bit x1) ns4 : 8.639 926.0 926.0 VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : 4.478 1786.5 1786.5 NEON vadd.f32 (32bit x2) ns4 : 4.454 1796.0 1796.0 NEON vmla.f32 (32bit x2) ns4 : 9.841 1625.9 1625.9 NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : 8.693 1840.5 1840.5 NEON vadd.f32 (32bit x4) ns4 : 8.655 1848.7 1848.7 NEON vmla.f32 (32bit x4) ns4 : 9.764 3277.4 3277.4 NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : 25.055 159.7 159.7 VFP fadds (32bit x1) n1 : 20.813 192.2 192.2 VFP fmacs (32bit x1) n1 : 20.766 385.3 385.3 VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : 4.292 1863.9 1863.9 NEON vadd.f32 (32bit x2) n1 : 4.244 1885.1 1885.1 NEON vmla.f32 (32bit x2) n1 : 37.287 429.1 429.1 NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : 8.283 1931.6 1931.6 NEON vadd.f32 (32bit x4) n1 : 8.369 1911.9 1911.9 NEON vmla.f32 (32bit x4) n1 : 37.123 862.0 862.0 NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : 12.441 1929.1 1929.1 NEON vadd.f32 (32bit x4) n12 : 12.329 1946.7 1946.7 NEON vmla.f32 (32bit x4) n12 : 12.479 3846.3 3846.3 NEON vfma.f32 (32bit x4) n12 : - - - 平均 : 10.693 1672.8 1672.8 最大 : 4.172 3846.3 3846.3 * VFP/NEON (double fp) VFP fmuld (64bit x1) n8 : 8.681 460.8 460.8 VFP faddd (64bit x1) n8 : 4.130 968.5 968.5 VFP fmacd (64bit x1) n8 : 8.137 983.1 983.1 VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : 8.210 487.2 487.2 VFP faddd (64bit x1) ns4 : 4.136 967.1 967.1 VFP fmacd (64bit x1) ns4 : 9.179 871.6 871.6 VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : 28.480 140.4 140.4 VFP faddd (64bit x1) n1 : 20.379 196.3 196.3 VFP fmacd (64bit x1) n1 : 24.443 327.3 327.3 VFP vfma.f64 (64bit x1) n1 : - - - 平均 : 12.864 600.2 600.2 最大 : 4.130 983.1 983.1 * Matrix 4x4 C++ code : 15.029 238.5 238.5 NEON vmla 128bit A : 4.927 727.4 727.4 NEON vmla 64bit A : 4.852 738.7 738.7 NEON vfma 128bit A : - - - NEON vmla 128bit B : 2.444 1466.7 1466.7 NEON vmla 64bit B : 2.442 1467.5 1467.5 NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - 平均 : 5.939 927.8 927.8 最大 : 2.442 1467.5 1467.5 * VFP/NEON (single fp) multi-thread VFP fmuls (32bit x1) n8 : 4.725 1693.2 1693.2 VFP fadds (32bit x1) n8 : 4.300 1860.4 1860.4 VFP fmacs (32bit x1) n8 : 4.265 3751.1 3751.1 VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : 4.327 3698.1 3698.1 NEON vadd.f32 (32bit x2) n8 : 4.216 3795.2 3795.2 NEON vmla.f32 (32bit x2) n8 : 4.649 6883.5 6883.5 NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : 8.223 3891.5 3891.5 NEON vadd.f32 (32bit x4) n8 : 8.235 3885.6 3885.6 NEON vmla.f32 (32bit x4) n8 : 8.206 7799.5 7799.5 NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : 5.136 1557.7 1557.7 VFP fadds (32bit x1) ns4 : 4.110 1946.5 1946.5 VFP fmacs (32bit x1) ns4 : 8.272 1934.2 1934.2 VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : 4.218 3792.9 3792.9 NEON vadd.f32 (32bit x2) ns4 : 4.210 3800.4 3800.4 NEON vmla.f32 (32bit x2) ns4 : 9.297 3442.1 3442.1 NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : 8.222 3892.1 3892.1 NEON vadd.f32 (32bit x4) ns4 : 8.214 3895.7 3895.7 NEON vmla.f32 (32bit x4) ns4 : 9.254 6916.3 6916.3 NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : 25.099 318.7 318.7 VFP fadds (32bit x1) n1 : 20.659 387.2 387.2 VFP fmacs (32bit x1) n1 : 21.625 739.9 739.9 VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : 4.340 3686.2 3686.2 NEON vadd.f32 (32bit x2) n1 : 4.283 3736.1 3736.1 NEON vmla.f32 (32bit x2) n1 : 36.925 866.6 866.6 NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : 8.237 3884.7 3884.7 NEON vadd.f32 (32bit x4) n1 : 8.201 3901.8 3901.8 NEON vmla.f32 (32bit x4) n1 : 36.989 1730.2 1730.2 NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : 12.322 3895.4 3895.4 NEON vadd.f32 (32bit x4) n12 : 12.339 3890.1 3890.1 NEON vmla.f32 (32bit x4) n12 : 12.368 7762.0 7762.0 NEON vfma.f32 (32bit x4) n12 : - - - 平均 : 10.516 3441.2 3441.2 最大 : 4.110 7799.5 7799.5 * VFP/NEON (double fp) multi-thread VFP fmuld (64bit x1) n8 : 8.910 897.8 897.8 VFP faddd (64bit x1) n8 : 4.147 1929.1 1929.1 VFP fmacd (64bit x1) n8 : 8.244 1940.8 1940.8 VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : 8.203 975.2 975.2 VFP faddd (64bit x1) ns4 : 4.139 1932.7 1932.7 VFP fmacd (64bit x1) ns4 : 9.265 1727.0 1727.0 VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : 28.724 278.5 278.5 VFP faddd (64bit x1) n1 : 20.550 389.3 389.3 VFP fmacd (64bit x1) n1 : 24.671 648.5 648.5 VFP vfma.f64 (64bit x1) n1 : - - - 平均 : 12.984 1191.0 1191.0 最大 : 4.139 1940.8 1940.8 * Matrix 4x4 multi thread C++ code : 15.116 474.2 474.2 NEON vmla 128bit A : 4.901 1462.7 1462.7 NEON vmla 64bit A : 4.895 1464.2 1464.2 NEON vfma 128bit A : - - - NEON vmla 128bit B : 2.463 2910.0 2910.0 NEON vmla 64bit B : 2.486 2883.1 2883.1 NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - 平均 : 5.972 1838.8 1838.8 最大 : 2.463 2910.0 2910.0
iPad 3 Apple A5X Cortex-A9 1.0GHz dual core
iPad 3 Apple A5X Cortex-A9 1.0GHz dual core ARCH: ARMv7A VFP: VFPv3-D32 NEON SingleT SP max: 3.934 GFLOPS SingleT DP max: 0.983 GFLOPS MultiT SP max: 7.752 GFLOPS MultiT DP max: 1.954 GFLOPS CPU core: 2 FMA: No NEON: Yes * VFP/NEON (single fp) VFP fmuls (32bit x1) n8 : 4.525 884.0 884.0 VFP fadds (32bit x1) n8 : 4.235 944.5 944.5 VFP fmacs (32bit x1) n8 : 4.181 1913.2 1913.2 VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : 4.228 1891.9 1891.9 NEON vadd.f32 (32bit x2) n8 : 4.168 1919.5 1919.5 NEON vmla.f32 (32bit x2) n8 : 4.572 3499.3 3499.3 NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : 8.139 1965.8 1965.8 NEON vadd.f32 (32bit x4) n8 : 8.194 1952.8 1952.8 NEON vmla.f32 (32bit x4) n8 : 8.344 3834.9 3834.9 NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : 5.102 784.1 784.1 VFP fadds (32bit x1) ns4 : 4.066 983.8 983.8 VFP fmacs (32bit x1) ns4 : 8.130 984.0 984.0 VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : 4.177 1915.3 1915.3 NEON vadd.f32 (32bit x2) ns4 : 4.167 1920.1 1920.1 NEON vmla.f32 (32bit x2) ns4 : 9.143 1750.0 1750.0 NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : 8.140 1965.5 1965.5 NEON vadd.f32 (32bit x4) ns4 : 8.175 1957.1 1957.1 NEON vmla.f32 (32bit x4) ns4 : 9.322 3432.8 3432.8 NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : 24.404 163.9 163.9 VFP fadds (32bit x1) n1 : 20.318 196.9 196.9 VFP fmacs (32bit x1) n1 : 20.424 391.7 391.7 VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : 4.222 1894.7 1894.7 NEON vadd.f32 (32bit x2) n1 : 4.168 1919.2 1919.2 NEON vmla.f32 (32bit x2) n1 : 36.602 437.1 437.1 NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : 8.130 1968.1 1968.1 NEON vadd.f32 (32bit x4) n1 : 8.274 1933.7 1933.7 NEON vmla.f32 (32bit x4) n1 : 36.715 871.6 871.6 NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : 12.212 1965.3 1965.3 NEON vadd.f32 (32bit x4) n12 : 12.203 1966.7 1966.7 NEON vmla.f32 (32bit x4) n12 : 12.203 3933.5 3933.5 NEON vfma.f32 (32bit x4) n12 : - - - 平均 : 10.363 1738.0 1738.0 最大 : 4.066 3933.5 3933.5 * VFP/NEON (double fp) VFP fmuld (64bit x1) n8 : 8.599 465.2 465.2 VFP faddd (64bit x1) n8 : 4.113 972.5 972.5 VFP fmacd (64bit x1) n8 : 8.140 982.8 982.8 VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : 9.050 442.0 442.0 VFP faddd (64bit x1) ns4 : 4.067 983.4 983.4 VFP fmacd (64bit x1) ns4 : 9.146 874.7 874.7 VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : 28.612 139.8 139.8 VFP faddd (64bit x1) n1 : 20.345 196.6 196.6 VFP fmacd (64bit x1) n1 : 24.410 327.7 327.7 VFP vfma.f64 (64bit x1) n1 : - - - 平均 : 12.943 598.3 598.3 最大 : 4.067 983.4 983.4 * Matrix 4x4 C++ code : 14.697 243.9 243.9 NEON vmla 128bit A : 4.847 739.4 739.4 NEON vmla 64bit A : 4.846 739.6 739.6 NEON vfma 128bit A : - - - NEON vmla 128bit B : 2.441 1468.5 1468.5 NEON vmla 64bit B : 2.439 1469.5 1469.5 NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - 平均 : 5.854 932.1 932.1 最大 : 2.439 1469.5 1469.5 * VFP/NEON (single fp) multi-thread VFP fmuls (32bit x1) n8 : 4.692 1705.0 1705.0 VFP fadds (32bit x1) n8 : 4.255 1880.1 1880.1 VFP fmacs (32bit x1) n8 : 4.329 3695.8 3695.8 VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : 4.338 3688.3 3688.3 NEON vadd.f32 (32bit x2) n8 : 4.238 3775.3 3775.3 NEON vmla.f32 (32bit x2) n8 : 4.615 6934.0 6934.0 NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : 8.468 3779.1 3779.1 NEON vadd.f32 (32bit x4) n8 : 8.200 3902.3 3902.3 NEON vmla.f32 (32bit x4) n8 : 8.256 7751.7 7751.7 NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : 5.129 1559.9 1559.9 VFP fadds (32bit x1) ns4 : 4.104 1949.4 1949.4 VFP fmacs (32bit x1) ns4 : 8.448 1894.0 1894.0 VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : 4.339 3687.3 3687.3 NEON vadd.f32 (32bit x2) ns4 : 4.232 3780.3 3780.3 NEON vmla.f32 (32bit x2) ns4 : 9.485 3373.7 3373.7 NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : 8.368 3824.0 3824.0 NEON vadd.f32 (32bit x4) ns4 : 8.194 3905.5 3905.5 NEON vmla.f32 (32bit x4) ns4 : 9.272 6902.6 6902.6 NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : 24.930 320.9 320.9 VFP fadds (32bit x1) n1 : 20.490 390.4 390.4 VFP fmacs (32bit x1) n1 : 20.518 779.8 779.8 VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : 4.211 3800.0 3800.0 NEON vadd.f32 (32bit x2) n1 : 4.207 3802.8 3802.8 NEON vmla.f32 (32bit x2) n1 : 36.891 867.4 867.4 NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : 8.233 3886.7 3886.7 NEON vadd.f32 (32bit x4) n1 : 8.424 3798.8 3798.8 NEON vmla.f32 (32bit x4) n1 : 36.951 1732.0 1732.0 NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : 12.323 3895.0 3895.0 NEON vadd.f32 (32bit x4) n12 : 12.311 3899.1 3899.1 NEON vmla.f32 (32bit x4) n12 : 12.652 7587.9 7587.9 NEON vfma.f32 (32bit x4) n12 : - - - 平均 : 10.503 3425.0 3425.0 最大 : 4.104 7751.7 7751.7 * VFP/NEON (double fp) multi-thread VFP fmuld (64bit x1) n8 : 8.941 894.8 894.8 VFP faddd (64bit x1) n8 : 4.148 1928.4 1928.4 VFP fmacd (64bit x1) n8 : 8.189 1953.8 1953.8 VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : 8.248 970.0 970.0 VFP faddd (64bit x1) ns4 : 4.107 1947.7 1947.7 VFP fmacd (64bit x1) ns4 : 9.221 1735.3 1735.3 VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : 29.211 273.9 273.9 VFP faddd (64bit x1) n1 : 20.881 383.1 383.1 VFP fmacd (64bit x1) n1 : 25.050 638.7 638.7 VFP vfma.f64 (64bit x1) n1 : - - - 平均 : 13.111 1191.7 1191.7 最大 : 4.107 1953.8 1953.8 * Matrix 4x4 multi thread C++ code : 15.518 461.9 461.9 NEON vmla 128bit A : 5.034 1423.9 1423.9 NEON vmla 64bit A : 4.913 1459.0 1459.0 NEON vfma 128bit A : - - - NEON vmla 128bit B : 2.494 2874.1 2874.1 NEON vmla 64bit B : 2.469 2903.7 2903.7 NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - 平均 : 6.085 1824.5 1824.5 最大 : 2.469 2903.7 2903.7
iPod touch 5 Apple A5 Cortex-A9 0.8GHz dual core
iPod touch 5 Apple A5 Cortex-A9 0.8GHz dual core ARCH: ARMv7A VFP: VFPv3-D32 NEON SingleT SP max: 3.161 GFLOPS SingleT DP max: 0.790 GFLOPS MultiT SP max: 6.203 GFLOPS MultiT DP max: 1.565 GFLOPS CPU core: 2 FMA: No NEON: Yes * VFP/NEON (single fp) VFP fmuls (32bit x1) n8 : 5.828 686.3 686.3 VFP fadds (32bit x1) n8 : 5.226 765.5 765.5 VFP fmacs (32bit x1) n8 : 5.443 1469.9 1469.9 VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : 5.516 1450.4 1450.4 NEON vadd.f32 (32bit x2) n8 : 5.416 1477.1 1477.1 NEON vmla.f32 (32bit x2) n8 : 6.033 2652.3 2652.3 NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : 11.523 1388.5 1388.5 NEON vadd.f32 (32bit x4) n8 : 10.962 1459.6 1459.6 NEON vmla.f32 (32bit x4) n8 : 10.450 3062.3 3062.3 NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : 6.409 624.1 624.1 VFP fadds (32bit x1) ns4 : 5.066 789.6 789.6 VFP fmacs (32bit x1) ns4 : 10.126 790.1 790.1 VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : 5.194 1540.2 1540.2 NEON vadd.f32 (32bit x2) ns4 : 5.190 1541.5 1541.5 NEON vmla.f32 (32bit x2) ns4 : 11.443 1398.3 1398.3 NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : 10.125 1580.2 1580.2 NEON vadd.f32 (32bit x4) ns4 : 10.122 1580.7 1580.7 NEON vmla.f32 (32bit x4) ns4 : 11.414 2803.5 2803.5 NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : 30.477 131.2 131.2 VFP fadds (32bit x1) n1 : 25.327 157.9 157.9 VFP fmacs (32bit x1) n1 : 25.311 316.1 316.1 VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : 5.243 1526.0 1526.0 NEON vadd.f32 (32bit x2) n1 : 5.191 1541.1 1541.1 NEON vmla.f32 (32bit x2) n1 : 45.571 351.1 351.1 NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : 10.175 1572.5 1572.5 NEON vadd.f32 (32bit x4) n1 : 10.122 1580.7 1580.7 NEON vmla.f32 (32bit x4) n1 : 45.921 696.9 696.9 NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : 15.231 1575.7 1575.7 NEON vadd.f32 (32bit x4) n12 : 15.207 1578.2 1578.2 NEON vmla.f32 (32bit x4) n12 : 15.183 3161.4 3161.4 NEON vfma.f32 (32bit x4) n12 : - - - 平均 : 13.015 1375.0 1375.0 最大 : 5.066 3161.4 3161.4 * VFP/NEON (double fp) VFP fmuld (64bit x1) n8 : 10.739 372.5 372.5 VFP faddd (64bit x1) n8 : 5.101 784.1 784.1 VFP fmacd (64bit x1) n8 : 10.131 789.7 789.7 VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : 10.126 395.0 395.0 VFP faddd (64bit x1) ns4 : 5.072 788.7 788.7 VFP fmacd (64bit x1) ns4 : 11.386 702.6 702.6 VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : 35.444 112.9 112.9 VFP faddd (64bit x1) n1 : 25.318 158.0 158.0 VFP fmacd (64bit x1) n1 : 30.385 263.3 263.3 VFP vfma.f64 (64bit x1) n1 : - - - 平均 : 15.967 485.2 485.2 最大 : 5.072 789.7 789.7 * Matrix 4x4 C++ code : 18.403 194.7 194.7 NEON vmla 128bit A : 6.259 572.6 572.6 NEON vmla 64bit A : 6.202 577.8 577.8 NEON vfma 128bit A : - - - NEON vmla 128bit B : 3.218 1113.7 1113.7 NEON vmla 64bit B : 3.147 1139.0 1139.0 NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - 平均 : 7.446 719.6 719.6 最大 : 3.147 1139.0 1139.0 * VFP/NEON (single fp) multi-thread VFP fmuls (32bit x1) n8 : 5.796 1380.3 1380.3 VFP fadds (32bit x1) n8 : 5.258 1521.5 1521.5 VFP fmacs (32bit x1) n8 : 5.431 2945.8 2945.8 VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : 5.680 2816.9 2816.9 NEON vadd.f32 (32bit x2) n8 : 5.762 2776.8 2776.8 NEON vmla.f32 (32bit x2) n8 : 6.342 5046.0 5046.0 NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : 10.880 2941.1 2941.1 NEON vadd.f32 (32bit x4) n8 : 10.670 2999.1 2999.1 NEON vmla.f32 (32bit x4) n8 : 10.421 6141.4 6141.4 NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : 6.911 1157.5 1157.5 VFP fadds (32bit x1) ns4 : 5.381 1486.6 1486.6 VFP fmacs (32bit x1) ns4 : 10.492 1524.9 1524.9 VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : 5.258 3043.2 3043.2 NEON vadd.f32 (32bit x2) ns4 : 5.380 2974.1 2974.1 NEON vmla.f32 (32bit x2) ns4 : 11.975 2672.1 2672.1 NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : 10.474 3055.2 3055.2 NEON vadd.f32 (32bit x4) ns4 : 10.301 3106.4 3106.4 NEON vmla.f32 (32bit x4) ns4 : 11.818 5415.6 5415.6 NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : 31.441 254.4 254.4 VFP fadds (32bit x1) n1 : 26.192 305.4 305.4 VFP fmacs (32bit x1) n1 : 26.103 612.9 612.9 VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : 5.438 2942.0 2942.0 NEON vadd.f32 (32bit x2) n1 : 5.369 2980.3 2980.3 NEON vmla.f32 (32bit x2) n1 : 46.528 687.8 687.8 NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : 10.726 2983.3 2983.3 NEON vadd.f32 (32bit x4) n1 : 10.287 3110.7 3110.7 NEON vmla.f32 (32bit x4) n1 : 46.682 1371.0 1371.0 NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : 15.692 3058.8 3058.8 NEON vadd.f32 (32bit x4) n12 : 15.417 3113.3 3113.3 NEON vmla.f32 (32bit x4) n12 : 15.476 6203.0 6203.0 NEON vfma.f32 (32bit x4) n12 : - - - 平均 : 13.319 2687.6 2687.6 最大 : 5.258 6203.0 6203.0 * VFP/NEON (double fp) multi-thread VFP fmuld (64bit x1) n8 : 11.019 726.0 726.0 VFP faddd (64bit x1) n8 : 5.314 1505.3 1505.3 VFP fmacd (64bit x1) n8 : 10.549 1516.7 1516.7 VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : 10.280 778.2 778.2 VFP faddd (64bit x1) ns4 : 5.112 1564.9 1564.9 VFP fmacd (64bit x1) ns4 : 11.569 1383.0 1383.0 VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : 37.140 215.4 215.4 VFP faddd (64bit x1) n1 : 26.372 303.3 303.3 VFP fmacd (64bit x1) n1 : 32.114 498.2 498.2 VFP vfma.f64 (64bit x1) n1 : - - - 平均 : 16.608 943.5 943.5 最大 : 5.112 1564.9 1564.9 * Matrix 4x4 multi thread C++ code : 18.659 384.2 384.2 NEON vmla 128bit A : 6.082 1178.5 1178.5 NEON vmla 64bit A : 6.075 1179.8 1179.8 NEON vfma 128bit A : - - - NEON vmla 128bit B : 3.084 2324.0 2324.0 NEON vmla 64bit B : 3.078 2328.7 2328.7 NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - 平均 : 7.396 1479.0 1479.0 最大 : 3.078 2328.7 2328.7
Nexus 7 (2012) Tegra 3 1.2GHz Cortex-A9 Quad core
Nexus 7 (2012) Tegra 3 1.2GHz Cortex-A9 Quad core ARCH: ARMv7-A CPU core: 4 VFP: VFPv3-D32 NEON FMA: No NEON: Yes SingleT SP max: 4.783 GFLOPS SingleT DP max: 1.196 GFLOPS MultiT SP max: 18.905 GFLOPS MultiT DP max: 4.724 GFLOPS * VFP/NEON (single fp) VFP fmuls (32bit x1) n8 : 3.426 1167.7 1167.7 VFP fadds (32bit x1) n8 : 3.412 1172.4 1172.4 VFP fmacs (32bit x1) n8 : 3.395 2356.7 2356.7 VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : 3.460 2311.8 2311.8 NEON vadd.f32 (32bit x2) n8 : 3.443 2323.3 2323.3 NEON vmla.f32 (32bit x2) n8 : 3.800 4210.2 4210.2 NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : 6.769 2363.7 2363.7 NEON vadd.f32 (32bit x4) n8 : 6.715 2382.6 2382.6 NEON vmla.f32 (32bit x4) n8 : 6.690 4782.9 4782.9 NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : 4.187 955.4 955.4 VFP fadds (32bit x1) ns4 : 3.355 1192.4 1192.4 VFP fmacs (32bit x1) ns4 : 6.693 1195.3 1195.3 VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : 3.424 2336.6 2336.6 NEON vadd.f32 (32bit x2) ns4 : 3.425 2335.6 2335.6 NEON vmla.f32 (32bit x2) ns4 : 7.519 2127.8 2127.8 NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : 6.695 2389.8 2389.8 NEON vadd.f32 (32bit x4) ns4 : 6.705 2386.1 2386.1 NEON vmla.f32 (32bit x4) ns4 : 7.542 4243.0 4243.0 NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : 20.099 199.0 199.0 VFP fadds (32bit x1) n1 : 16.728 239.1 239.1 VFP fmacs (32bit x1) n1 : 16.740 477.9 477.9 VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : 3.432 2331.3 2331.3 NEON vadd.f32 (32bit x2) n1 : 3.430 2332.5 2332.5 NEON vmla.f32 (32bit x2) n1 : 30.112 531.3 531.3 NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : 6.691 2391.3 2391.3 NEON vadd.f32 (32bit x4) n1 : 6.679 2395.5 2395.5 NEON vmla.f32 (32bit x4) n1 : 30.120 1062.4 1062.4 NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : 10.039 2390.8 2390.8 NEON vadd.f32 (32bit x4) n12 : 10.043 2389.7 2389.7 NEON vmla.f32 (32bit x4) n12 : 10.038 4781.6 4781.6 NEON vfma.f32 (32bit x4) n12 : - - - 平均 : 8.494 2125.2 2125.2 最大 : 3.355 4782.9 4782.9 * VFP/NEON (double fp) VFP fmuld (64bit x1) n8 : 6.860 583.1 583.1 VFP faddd (64bit x1) n8 : 3.345 1195.7 1195.7 VFP fmacd (64bit x1) n8 : 6.694 1195.1 1195.1 VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : 6.691 597.8 597.8 VFP faddd (64bit x1) ns4 : 3.345 1195.7 1195.7 VFP fmacd (64bit x1) ns4 : 7.527 1062.9 1063.9 VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : 23.419 170.8 170.9 VFP faddd (64bit x1) n1 : 16.733 239.0 239.0 VFP fmacd (64bit x1) n1 : 20.073 398.6 398.6 VFP vfma.f64 (64bit x1) n1 : - - - 平均 : 10.521 737.6 737.8 最大 : 3.345 1195.7 1195.7 * Matrix 4x4 (single fp) C++ code : - - - NEON vmla 128bit A : - - - NEON vmla 64bit A : - - - NEON vfma 128bit A : - - - NEON vmla 128bit B : - - - NEON vmla 64bit B : - - - NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - 平均 : - - - 最大 : - - - * VFP/NEON (single fp) multi-thread VFP fmuls (32bit x1) n8 : 4.864 3289.8 4432.0 VFP fadds (32bit x1) n8 : 3.394 4714.3 4714.3 VFP fmacs (32bit x1) n8 : 3.407 9391.8 9391.8 VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : 3.490 9167.8 9167.8 NEON vadd.f32 (32bit x2) n8 : 3.486 9178.7 9178.7 NEON vmla.f32 (32bit x2) n8 : 3.811 16791.4 16791.4 NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : 6.797 9416.2 9424.3 NEON vadd.f32 (32bit x4) n8 : 6.785 9432.3 9432.3 NEON vmla.f32 (32bit x4) n8 : 6.775 18892.4 18892.4 NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : 4.232 3780.4 3780.4 VFP fadds (32bit x1) ns4 : 3.388 4723.0 4723.0 VFP fmacs (32bit x1) ns4 : 6.770 4726.6 4726.6 VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : 3.477 9202.2 9217.6 NEON vadd.f32 (32bit x2) ns4 : 3.478 9199.7 9219.0 NEON vmla.f32 (32bit x2) ns4 : 7.619 8400.4 8400.4 NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : 6.795 9419.2 9446.3 NEON vadd.f32 (32bit x4) ns4 : 6.772 9450.5 9450.5 NEON vmla.f32 (32bit x4) ns4 : 7.634 16767.6 16793.3 NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : 20.322 787.3 787.3 VFP fadds (32bit x1) n1 : 16.932 944.9 944.9 VFP fmacs (32bit x1) n1 : 16.939 1889.2 1889.2 VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : 3.477 9204.0 9215.5 NEON vadd.f32 (32bit x2) n1 : 3.478 9200.3 9210.2 NEON vmla.f32 (32bit x2) n1 : 30.487 2099.3 2099.3 NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : 6.770 9454.0 9454.0 NEON vadd.f32 (32bit x4) n1 : 6.779 9440.7 9440.7 NEON vmla.f32 (32bit x4) n1 : 30.488 4198.4 4198.4 NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : 10.168 9441.8 9444.7 NEON vadd.f32 (32bit x4) n12 : 10.223 9391.0 9441.3 NEON vmla.f32 (32bit x4) n12 : 10.156 18905.2 18905.2 NEON vfma.f32 (32bit x4) n12 : - - - 平均 : 8.640 8363.4 8407.1 最大 : 3.388 18905.2 18905.2 * VFP/NEON (double fp) multi-thread VFP fmuld (64bit x1) n8 : 6.962 2298.0 2298.0 VFP faddd (64bit x1) n8 : 3.396 4711.2 4711.2 VFP fmacd (64bit x1) n8 : 6.776 4722.4 4722.4 VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : 6.791 2356.2 2356.2 VFP faddd (64bit x1) ns4 : 3.387 4724.5 4724.5 VFP fmacd (64bit x1) ns4 : 7.621 4198.8 4198.8 VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : 23.721 674.5 674.5 VFP faddd (64bit x1) n1 : 16.982 942.2 942.2 VFP fmacd (64bit x1) n1 : 20.552 1557.0 1557.0 VFP vfma.f64 (64bit x1) n1 : - - - 平均 : 10.688 2909.4 2909.4 最大 : 3.387 4724.5 4724.5 * Matrix 4x4 (single fp) multi-thread C++ code : - - - NEON vmla 128bit A : - - - NEON vmla 64bit A : - - - NEON vfma 128bit A : - - - NEON vmla 128bit B : - - - NEON vmla 64bit B : - - - NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - 平均 : - - - 最大 : - - -
Amazon Fire TV Stick (2015) Boradcom 28155 Cortex-A9 1.0GHz Dual core
Amazon Fire TV Stick (2015) Boradcom 28155 Cortex-A9 1.0GHz Dual core ARCH: ARMv7A CPU core: 2 VFP: VFPv3-D32 NEON FMA: No NEON: Yes Result SingleT SP max: 3.968 GFLOPS SingleT DP max: 0.992 GFLOPS MultiT SP max: 7.761 GFLOPS MultiT DP max: 1.946 GFLOPS * VFP/NEON (単精度 fp) single-thread VFP fmuls (32bit x1) n8 : 1.260 952.2 952.2 VFP fadds (32bit x1) n8 : 1.210 992.0 992.0 VFP fmacs (32bit x1) n8 : 1.213 1977.9 1977.9 VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : 1.241 1933.8 1933.8 NEON vadd.f32 (32bit x2) n8 : 1.238 1938.6 1938.6 NEON vmla.f32 (32bit x2) n8 : 1.366 3512.7 3512.7 NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : 2.425 1979.6 1979.6 NEON vadd.f32 (32bit x4) n8 : 2.436 1970.0 1970.0 NEON vmla.f32 (32bit x4) n8 : 2.425 3958.7 3958.7 NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : 1.513 793.1 793.1 VFP fadds (32bit x1) ns4 : 1.216 986.8 986.8 VFP fmacs (32bit x1) ns4 : 2.421 991.3 991.3 VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : 1.243 1931.1 1931.1 NEON vadd.f32 (32bit x2) ns4 : 1.241 1934.5 1934.5 NEON vmla.f32 (32bit x2) ns4 : 2.723 1762.7 1762.7 NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : 2.424 1980.0 1980.0 NEON vadd.f32 (32bit x4) ns4 : 2.417 1985.8 1985.8 NEON vmla.f32 (32bit x4) ns4 : 2.724 3524.1 3524.1 NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : 7.257 165.4 165.4 VFP fadds (32bit x1) n1 : 6.042 198.6 198.6 VFP fmacs (32bit x1) n1 : 6.041 397.3 397.3 VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : 1.244 1928.6 1928.6 NEON vadd.f32 (32bit x2) n1 : 1.244 1928.9 1928.9 NEON vmla.f32 (32bit x2) n1 : 10.873 441.5 441.5 NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : 2.417 1985.8 1985.8 NEON vadd.f32 (32bit x4) n1 : 2.417 1985.8 1985.8 NEON vmla.f32 (32bit x4) n1 : 10.893 881.3 881.3 NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : 3.625 1986.1 1986.1 NEON vadd.f32 (32bit x4) n12 : 3.625 1986.0 1986.0 NEON vmla.f32 (32bit x4) n12 : 3.629 3968.2 3968.2 NEON vfma.f32 (32bit x4) n12 : - - - 平均 : 3.068 1765.3 1765.3 最大 : 1.210 3968.2 3968.2 * VFP/NEON (倍精度 fp) single-thread VFP fmuld (64bit x1) n8 : 2.446 490.6 490.6 VFP faddd (64bit x1) n8 : 1.210 991.8 991.8 VFP fmacd (64bit x1) n8 : 2.420 991.9 991.9 VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : 2.420 495.9 495.9 VFP faddd (64bit x1) ns4 : 1.210 992.0 992.0 VFP fmacd (64bit x1) ns4 : 2.724 881.0 881.0 VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : 8.470 141.7 141.7 VFP faddd (64bit x1) n1 : 6.047 198.4 198.4 VFP fmacd (64bit x1) n1 : 7.250 331.0 331.0 VFP vfma.f64 (64bit x1) n1 : - - - 平均 : 3.800 612.7 612.7 最大 : 1.210 992.0 992.0 * Matrix 4x4 (単精度 fp) single-thread C++ code : 1.243 1441.3 1441.3 NEON vmla 128bit A : 2.405 745.2 745.2 NEON vmla 64bit A : 2.410 743.6 743.6 NEON vfma 128bit A : - - - NEON vmla 128bit B : 1.211 1479.2 1479.2 NEON vmla 64bit B : 1.212 1478.3 1478.3 NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - 平均 : 1.696 1177.5 1177.5 最大 : 1.211 1479.2 1479.2 * VFP/NEON (単精度 fp) multi-thread VFP fmuls (32bit x1) n8 : 1.316 1823.6 1823.6 VFP fadds (32bit x1) n8 : 1.235 1942.9 1942.9 VFP fmacs (32bit x1) n8 : 1.237 3879.9 3879.9 VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : 1.265 3794.6 3794.6 NEON vadd.f32 (32bit x2) n8 : 1.274 3768.1 3768.1 NEON vmla.f32 (32bit x2) n8 : 1.384 6938.6 6938.6 NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : 2.467 3891.8 3891.8 NEON vadd.f32 (32bit x4) n8 : 2.508 3827.2 3827.2 NEON vmla.f32 (32bit x4) n8 : 2.474 7761.3 7761.3 NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : 1.552 1546.3 1546.3 VFP fadds (32bit x1) ns4 : 1.235 1942.6 1942.6 VFP fmacs (32bit x1) ns4 : 2.478 1937.0 1937.0 VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : 1.269 3781.2 3781.2 NEON vadd.f32 (32bit x2) ns4 : 1.274 3768.0 3768.0 NEON vmla.f32 (32bit x2) ns4 : 2.775 3460.0 3460.0 NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : 2.477 3875.1 3875.1 NEON vadd.f32 (32bit x4) ns4 : 2.468 3889.1 3889.1 NEON vmla.f32 (32bit x4) ns4 : 2.787 6889.6 6889.6 NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : 7.483 320.7 320.7 VFP fadds (32bit x1) n1 : 6.219 385.9 385.9 VFP fmacs (32bit x1) n1 : 6.180 776.7 776.7 VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : 1.265 3793.2 3793.2 NEON vadd.f32 (32bit x2) n1 : 1.266 3791.6 3791.6 NEON vmla.f32 (32bit x2) n1 : 11.883 807.9 807.9 NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : 2.514 3817.9 3817.9 NEON vadd.f32 (32bit x4) n1 : 2.482 3868.0 3868.0 NEON vmla.f32 (32bit x4) n1 : 11.296 1699.7 1699.7 NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : 3.705 3886.1 3886.1 NEON vadd.f32 (32bit x4) n12 : 3.702 3890.3 3890.3 NEON vmla.f32 (32bit x4) n12 : 3.731 7719.1 7719.1 NEON vfma.f32 (32bit x4) n12 : - - - 平均 : 3.173 3449.1 3449.1 最大 : 1.235 7761.3 7761.3 * VFP/NEON (倍精度 fp) multi-thread VFP fmuld (64bit x1) n8 : 2.550 941.3 941.3 VFP faddd (64bit x1) n8 : 1.244 1930.0 1930.0 VFP fmacd (64bit x1) n8 : 2.470 1943.1 1943.1 VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : 2.479 968.1 968.1 VFP faddd (64bit x1) ns4 : 1.233 1946.5 1946.5 VFP fmacd (64bit x1) ns4 : 2.805 1711.3 1711.3 VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : 8.655 277.3 277.3 VFP faddd (64bit x1) n1 : 6.289 381.6 381.6 VFP fmacd (64bit x1) n1 : 7.464 643.1 643.1 VFP vfma.f64 (64bit x1) n1 : - - - 平均 : 3.910 1193.6 1193.6 最大 : 1.233 1946.5 1946.5 * Matrix 4x4 (単精度 fp) multi-thread C++ code : 1.310 2736.7 2736.7 NEON vmla 128bit A : 2.460 1457.1 1457.1 NEON vmla 64bit A : 2.459 1457.7 1457.7 NEON vfma 128bit A : - - - NEON vmla 128bit B : 1.239 2892.1 2892.1 NEON vmla 64bit B : 1.243 2884.5 2884.5 NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - 平均 : 1.742 2285.6 2285.6 最大 : 1.239 2892.1 2892.1
ARM Cortex-A15 (ARMv7A) VFPv4+NEON
Nexus 10 Exynos 5 Dual (5250) Cortex-A15 1.7GHz dual core
Nexus 10 Exynos 5 Dual (5250) Cortex-A15 1.7GHz dual core ARCH: ARMv7-A CPU core: 2 VFP: VFPv4-D32 NEON FMA: Yes NEON: Yes SingleT SP max: 13.483 GFLOPS SingleT DP max: 2.686 GFLOPS MultiT SP max: 26.724 GFLOPS MultiT DP max: 5.314 GFLOPS * VFP/NEON (single fp) VFP fmuls (32bit x1) n8 : 2.675 1495.4 1555.9 VFP fadds (32bit x1) n8 : 2.392 1672.1 1672.1 VFP fmacs (32bit x1) n8 : 3.171 2523.2 2523.2 VFP vfma.f32 (32bit x1) n8 : 2.985 2679.9 2679.9 NEON vmul.f32 (32bit x2) n8 : 1.187 6740.5 6740.5 NEON vadd.f32 (32bit x2) n8 : 1.187 6740.7 6740.7 NEON vmla.f32 (32bit x2) n8 : 1.187 13480.8 13480.8 NEON vfma.f32 (32bit x2) n8 : 1.187 13480.3 13480.3 NEON vmul.f32 (32bit x4) n8 : 2.373 6741.8 6741.8 NEON vadd.f32 (32bit x4) n8 : 2.374 6740.7 6740.7 NEON vmla.f32 (32bit x4) n8 : 2.373 13482.7 13482.7 NEON vfma.f32 (32bit x4) n8 : 2.373 13482.3 13482.3 VFP fmuls (32bit x1) ns4 : 3.558 1124.2 1124.2 VFP fadds (32bit x1) ns4 : 2.964 1349.3 1349.3 VFP fmacs (32bit x1) ns4 : 5.927 1349.8 1349.8 VFP vfma.f32 (32bit x1) ns4 : 5.923 1350.6 1350.6 NEON vmul.f32 (32bit x2) ns4 : 2.368 3378.2 3378.2 NEON vadd.f32 (32bit x2) ns4 : 2.956 2706.5 2706.5 NEON vmla.f32 (32bit x2) ns4 : 4.731 3382.2 3382.2 NEON vfma.f32 (32bit x2) ns4 : 4.728 3383.8 3383.8 NEON vmul.f32 (32bit x4) ns4 : 2.365 6766.1 6766.1 NEON vadd.f32 (32bit x4) ns4 : 2.955 5414.2 5414.2 NEON vmla.f32 (32bit x4) ns4 : 4.730 6765.4 6765.4 NEON vfma.f32 (32bit x4) ns4 : 4.736 6757.1 6757.1 VFP fmuls (32bit x1) n1 : 2.364 1691.9 1691.9 VFP fadds (32bit x1) n1 : 2.364 1691.9 1691.9 VFP fmacs (32bit x1) n1 : 9.457 846.0 846.0 VFP vfma.f32 (32bit x1) n1 : 9.456 846.0 846.0 NEON vmul.f32 (32bit x2) n1 : 2.364 3383.8 3383.8 NEON vadd.f32 (32bit x2) n1 : 1.182 6767.7 6767.7 NEON vmla.f32 (32bit x2) n1 : 9.456 1692.0 1692.0 NEON vfma.f32 (32bit x2) n1 : 9.459 1691.5 1691.5 NEON vmul.f32 (32bit x4) n1 : 2.364 6768.0 6768.0 NEON vadd.f32 (32bit x4) n1 : 2.364 6767.9 6767.9 NEON vmla.f32 (32bit x4) n1 : 9.807 3263.1 3263.1 NEON vfma.f32 (32bit x4) n1 : 9.919 3226.1 3226.1 NEON vmul.f32 (32bit x4) n12 : 3.718 6454.5 6477.2 NEON vadd.f32 (32bit x4) n12 : 3.717 6457.6 6457.6 NEON vmla.f32 (32bit x4) n12 : 3.877 12380.5 13180.8 NEON vfma.f32 (32bit x4) n12 : 3.728 12875.6 12875.6 Average : 3.975 5244.8 5266.9 Highest : 1.182 13482.7 13482.7 * VFP/NEON (double fp) VFP fmuld (64bit x1) n8 : 2.739 1460.4 1629.6 VFP faddd (64bit x1) n8 : 2.456 1628.7 1628.7 VFP fmacd (64bit x1) n8 : 2.998 2668.0 2684.7 VFP vfma.f64 (64bit x1) n8 : 2.981 2683.3 2685.8 VFP fmuld (64bit x1) ns4 : 3.577 1118.4 1118.4 VFP faddd (64bit x1) ns4 : 2.980 1342.2 1342.2 VFP fmacd (64bit x1) ns4 : 5.956 1343.1 1343.1 VFP vfma.f64 (64bit x1) ns4 : 5.951 1344.3 1344.3 VFP fmuld (64bit x1) n1 : 2.378 1681.9 1681.9 VFP faddd (64bit x1) n1 : 2.378 1682.0 1682.0 VFP fmacd (64bit x1) n1 : 9.509 841.3 841.3 VFP vfma.f64 (64bit x1) n1 : 9.511 841.2 841.2 Average : 4.451 1552.9 1568.6 Highest : 2.378 2683.3 2685.8 * Matrix 4x4 (single fp) C++ code : - - - NEON vmla 128bit A : - - - NEON vmla 64bit A : - - - NEON vfma 128bit A : - - - NEON vmla 128bit B : - - - NEON vmla 64bit B : - - - NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - Average : - - - Highest : - - - * VFP/NEON (single fp) multi-thread VFP fmuls (32bit x1) n8 : 2.567 3116.7 3116.7 VFP fadds (32bit x1) n8 : 2.416 3310.9 3310.9 VFP fmacs (32bit x1) n8 : 3.035 5271.7 5308.7 VFP vfma.f32 (32bit x1) n8 : 3.017 5303.7 5303.7 NEON vmul.f32 (32bit x2) n8 : 1.206 13269.7 13269.7 NEON vadd.f32 (32bit x2) n8 : 1.207 13260.6 13276.9 NEON vmla.f32 (32bit x2) n8 : 1.214 26361.6 26552.6 NEON vfma.f32 (32bit x2) n8 : 1.206 26530.9 26555.3 NEON vmul.f32 (32bit x4) n8 : 2.409 13284.5 13287.9 NEON vadd.f32 (32bit x4) n8 : 2.412 13265.7 13284.8 NEON vmla.f32 (32bit x4) n8 : 2.415 26501.6 26501.6 NEON vfma.f32 (32bit x4) n8 : 2.413 26521.0 26564.8 VFP fmuls (32bit x1) ns4 : 3.630 2204.1 2214.6 VFP fadds (32bit x1) ns4 : 3.011 2656.7 2659.4 VFP fmacs (32bit x1) ns4 : 6.022 2656.7 2656.7 VFP vfma.f32 (32bit x1) ns4 : 6.019 2658.1 2658.1 NEON vmul.f32 (32bit x2) ns4 : 2.415 6625.5 6645.7 NEON vadd.f32 (32bit x2) ns4 : 3.013 5310.9 5312.4 NEON vmla.f32 (32bit x2) ns4 : 4.817 6642.9 6642.9 NEON vfma.f32 (32bit x2) ns4 : 4.822 6635.8 6645.0 NEON vmul.f32 (32bit x4) ns4 : 2.408 13290.1 13290.1 NEON vadd.f32 (32bit x4) ns4 : 3.009 10634.8 10634.8 NEON vmla.f32 (32bit x4) ns4 : 4.814 13295.9 13295.9 NEON vfma.f32 (32bit x4) ns4 : 4.815 13292.6 13306.2 VFP fmuls (32bit x1) n1 : 2.412 3316.4 3319.2 VFP fadds (32bit x1) n1 : 2.411 3317.7 3317.7 VFP fmacs (32bit x1) n1 : 9.648 1658.3 1658.3 VFP vfma.f32 (32bit x1) n1 : 9.632 1661.2 1661.2 NEON vmul.f32 (32bit x2) n1 : 2.417 6619.4 6649.7 NEON vadd.f32 (32bit x2) n1 : 1.204 13286.7 13286.7 NEON vmla.f32 (32bit x2) n1 : 9.629 3323.3 3323.3 NEON vfma.f32 (32bit x2) n1 : 9.615 3328.3 3328.3 NEON vmul.f32 (32bit x4) n1 : 2.433 13153.5 13268.3 NEON vadd.f32 (32bit x4) n1 : 2.418 13235.1 13289.6 NEON vmla.f32 (32bit x4) n1 : 9.635 6642.5 6644.3 NEON vfma.f32 (32bit x4) n1 : 9.655 6628.9 6639.7 NEON vmul.f32 (32bit x4) n12 : 3.616 13275.2 13275.2 NEON vadd.f32 (32bit x4) n12 : 3.618 13266.9 13295.2 NEON vmla.f32 (32bit x4) n12 : 3.612 26578.2 26578.2 NEON vfma.f32 (32bit x4) n12 : 3.592 26723.9 26723.9 Average : 3.996 10448.0 10463.9 Highest : 1.204 26723.9 26723.9 * VFP/NEON (double fp) multi-thread VFP fmuld (64bit x1) n8 : 2.583 3097.3 3097.3 VFP faddd (64bit x1) n8 : 2.418 3308.3 3308.3 VFP fmacd (64bit x1) n8 : 3.011 5313.9 5313.9 VFP vfma.f64 (64bit x1) n8 : 3.030 5280.9 5280.9 VFP fmuld (64bit x1) ns4 : 3.617 2211.5 2211.5 VFP faddd (64bit x1) ns4 : 3.010 2657.7 2657.7 VFP fmacd (64bit x1) ns4 : 6.031 2652.9 2652.9 VFP vfma.f64 (64bit x1) ns4 : 6.016 2659.4 2659.4 VFP fmuld (64bit x1) n1 : 2.409 3321.6 3321.6 VFP faddd (64bit x1) n1 : 2.408 3322.0 3322.0 VFP fmacd (64bit x1) n1 : 9.813 1630.4 1630.4 VFP vfma.f64 (64bit x1) n1 : 9.821 1629.1 1629.1 Average : 4.514 3090.4 3090.4 Highest : 2.408 5313.9 5313.9 * Matrix 4x4 (single fp) multi-thread C++ code : - - - NEON vmla 128bit A : - - - NEON vmla 64bit A : - - - NEON vfma 128bit A : - - - NEON vmla 128bit B : - - - NEON vmla 64bit B : - - - NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - Average : - - - Highest : - - -
Tegra Note 7 Tegra4 Cortex-A15 1.8GHz Quad core
Tegra Note 7 Tegra4 Cortex-A15 1.8GHz Quad core ARCH: ARMv7-A CPU core: 4 VFP: VFPv4-D32 NEON FMA: Yes NEON: Yes SingleT SP max: 13.371 GFLOPS SingleT DP max: 2.655 GFLOPS MultiT SP max: 51.345 GFLOPS MultiT DP max: 9.860 GFLOPS * VFP/NEON (single fp) VFP fmuls (32bit x1) n8 : 2.807 1424.9 1652.4 VFP fadds (32bit x1) n8 : 2.856 1400.5 1656.7 VFP fmacs (32bit x1) n8 : 3.595 2225.5 2714.1 VFP vfma.f32 (32bit x1) n8 : 3.146 2543.1 2665.8 NEON vmul.f32 (32bit x2) n8 : 1.217 6575.7 6645.7 NEON vadd.f32 (32bit x2) n8 : 1.217 6573.6 6619.2 NEON vmla.f32 (32bit x2) n8 : 1.214 13177.7 13314.9 NEON vfma.f32 (32bit x2) n8 : 1.216 13156.2 13275.2 NEON vmul.f32 (32bit x4) n8 : 2.477 6459.0 6661.5 NEON vadd.f32 (32bit x4) n8 : 2.426 6596.4 6634.5 NEON vmla.f32 (32bit x4) n8 : 2.453 13047.3 13370.9 NEON vfma.f32 (32bit x4) n8 : 2.477 12921.3 13341.9 VFP fmuls (32bit x1) ns4 : 3.639 1099.3 1099.3 VFP fadds (32bit x1) ns4 : 3.088 1295.3 1327.4 VFP fmacs (32bit x1) ns4 : 6.080 1315.8 1315.8 VFP vfma.f32 (32bit x1) ns4 : 6.095 1312.5 1331.6 NEON vmul.f32 (32bit x2) ns4 : 2.456 3257.2 3333.9 NEON vadd.f32 (32bit x2) ns4 : 3.052 2621.1 2668.9 NEON vmla.f32 (32bit x2) ns4 : 4.848 3300.2 3326.4 NEON vfma.f32 (32bit x2) ns4 : 4.848 3300.5 3309.0 NEON vmul.f32 (32bit x4) ns4 : 2.404 6655.8 6775.2 NEON vadd.f32 (32bit x4) ns4 : 3.044 5255.8 5372.2 NEON vmla.f32 (32bit x4) ns4 : 4.835 6618.6 6628.2 NEON vfma.f32 (32bit x4) ns4 : 4.904 6525.5 6640.6 VFP fmuls (32bit x1) n1 : 2.425 1649.2 1673.6 VFP fadds (32bit x1) n1 : 2.437 1641.4 1657.0 VFP fmacs (32bit x1) n1 : 9.697 825.0 835.6 VFP vfma.f32 (32bit x1) n1 : 9.710 823.9 835.0 NEON vmul.f32 (32bit x2) n1 : 2.444 3273.8 3343.5 NEON vadd.f32 (32bit x2) n1 : 1.216 6581.1 6696.6 NEON vmla.f32 (32bit x2) n1 : 9.758 1639.7 1661.4 NEON vfma.f32 (32bit x2) n1 : 9.760 1639.3 1654.1 NEON vmul.f32 (32bit x4) n1 : 2.420 6612.7 6630.1 NEON vadd.f32 (32bit x4) n1 : 2.419 6614.4 6661.7 NEON vmla.f32 (32bit x4) n1 : 9.673 3308.3 3311.4 NEON vfma.f32 (32bit x4) n1 : 9.697 3300.1 3321.9 NEON vmul.f32 (32bit x4) n12 : 3.636 6600.1 6669.1 NEON vadd.f32 (32bit x4) n12 : 3.781 6347.4 6635.8 NEON vmla.f32 (32bit x4) n12 : 3.669 13083.2 13314.4 NEON vfma.f32 (32bit x4) n12 : 3.648 13157.5 13311.5 Average : 4.070 5143.9 5247.4 Highest : 1.214 13177.7 13370.9 * VFP/NEON (double fp) VFP fmuld (64bit x1) n8 : 2.429 1646.9 1670.6 VFP faddd (64bit x1) n8 : 2.356 1697.5 1718.3 VFP fmacd (64bit x1) n8 : 3.014 2654.7 2654.7 VFP vfma.f64 (64bit x1) n8 : 3.046 2626.5 2626.5 VFP fmuld (64bit x1) ns4 : 3.628 1102.5 1107.9 VFP faddd (64bit x1) ns4 : 3.030 1320.2 1334.1 VFP fmacd (64bit x1) ns4 : 6.038 1324.9 1331.2 VFP vfma.f64 (64bit x1) ns4 : 6.078 1316.2 1321.4 VFP fmuld (64bit x1) n1 : 2.425 1649.4 1664.2 VFP faddd (64bit x1) n1 : 2.407 1661.6 1665.9 VFP fmacd (64bit x1) n1 : 9.672 827.1 829.8 VFP vfma.f64 (64bit x1) n1 : 9.733 821.9 828.4 Average : 4.488 1554.1 1562.7 Highest : 2.356 2654.7 2654.7 * Matrix 4x4 (single fp) C++ code : - - - NEON vmla 128bit A : - - - NEON vmla 64bit A : - - - NEON vfma 128bit A : - - - NEON vmla 128bit B : - - - NEON vmla 64bit B : - - - NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - Average : - - - Highest : - - - * VFP/NEON (single fp) multi-thread VFP fmuls (32bit x1) n8 : 2.928 5463.5 5503.0 VFP fadds (32bit x1) n8 : 2.772 5772.8 5788.2 VFP fmacs (32bit x1) n8 : 3.436 9314.5 9375.1 VFP vfma.f32 (32bit x1) n8 : 3.240 9876.6 9931.6 NEON vmul.f32 (32bit x2) n8 : 1.283 24944.7 25004.3 NEON vadd.f32 (32bit x2) n8 : 1.288 24843.7 24891.7 NEON vmla.f32 (32bit x2) n8 : 1.287 49717.5 50275.7 NEON vfma.f32 (32bit x2) n8 : 1.293 49487.0 49836.7 NEON vmul.f32 (32bit x4) n8 : 2.594 24670.4 24783.7 NEON vadd.f32 (32bit x4) n8 : 2.576 24843.6 24888.7 NEON vmla.f32 (32bit x4) n8 : 2.589 49449.0 49802.5 NEON vfma.f32 (32bit x4) n8 : 2.568 49848.7 49866.1 VFP fmuls (32bit x1) ns4 : 3.851 4155.3 4155.3 VFP fadds (32bit x1) ns4 : 3.222 4966.3 4986.9 VFP fmacs (32bit x1) ns4 : 6.424 4981.0 4981.0 VFP vfma.f32 (32bit x1) ns4 : 6.419 4985.3 4985.3 NEON vmul.f32 (32bit x2) ns4 : 2.572 12440.5 12493.0 NEON vadd.f32 (32bit x2) ns4 : 3.213 9959.3 9997.8 NEON vmla.f32 (32bit x2) ns4 : 5.161 12400.4 12459.7 NEON vfma.f32 (32bit x2) ns4 : 5.171 12375.9 12444.9 NEON vmul.f32 (32bit x4) ns4 : 2.578 24821.1 25158.4 NEON vadd.f32 (32bit x4) ns4 : 3.289 19460.8 19921.3 NEON vmla.f32 (32bit x4) ns4 : 5.132 24942.1 25020.3 NEON vfma.f32 (32bit x4) ns4 : 5.153 24841.3 24908.3 VFP fmuls (32bit x1) n1 : 2.558 6254.9 6254.9 VFP fadds (32bit x1) n1 : 2.564 6240.0 6280.9 VFP fmacs (32bit x1) n1 : 10.295 3108.2 3122.7 VFP vfma.f32 (32bit x1) n1 : 10.306 3105.1 3117.2 NEON vmul.f32 (32bit x2) n1 : 2.590 12356.4 12440.4 NEON vadd.f32 (32bit x2) n1 : 1.286 24883.7 24980.9 NEON vmla.f32 (32bit x2) n1 : 10.292 6218.3 6238.0 NEON vfma.f32 (32bit x2) n1 : 10.334 6193.3 6241.5 NEON vmul.f32 (32bit x4) n1 : 2.575 24849.7 25024.0 NEON vadd.f32 (32bit x4) n1 : 2.570 24903.3 24952.9 NEON vmla.f32 (32bit x4) n1 : 10.300 12427.2 12491.7 NEON vfma.f32 (32bit x4) n1 : 10.302 12425.0 12440.0 NEON vmul.f32 (32bit x4) n12 : 3.863 24853.0 24902.1 NEON vadd.f32 (32bit x4) n12 : 3.866 24830.1 24997.5 NEON vmla.f32 (32bit x4) n12 : 3.842 49976.2 50269.1 NEON vfma.f32 (32bit x4) n12 : 3.739 51344.8 51344.8 Average : 4.283 19563.3 19664.0 Highest : 1.283 51344.8 51344.8 * VFP/NEON (double fp) multi-thread VFP fmuld (64bit x1) n8 : 2.856 5602.9 5602.9 VFP faddd (64bit x1) n8 : 2.733 5854.4 5854.4 VFP fmacd (64bit x1) n8 : 3.445 9290.0 9290.0 VFP vfma.f64 (64bit x1) n8 : 3.245 9860.1 9860.1 VFP fmuld (64bit x1) ns4 : 3.867 4137.5 4137.5 VFP faddd (64bit x1) ns4 : 3.210 4983.8 4983.8 VFP fmacd (64bit x1) ns4 : 6.416 4987.3 4987.3 VFP vfma.f64 (64bit x1) ns4 : 6.428 4978.0 4978.0 VFP fmuld (64bit x1) n1 : 2.571 6222.1 6222.1 VFP faddd (64bit x1) n1 : 2.570 6224.7 6224.7 VFP fmacd (64bit x1) n1 : 10.320 3100.7 3100.7 VFP vfma.f64 (64bit x1) n1 : 10.259 3119.3 3119.3 Average : 4.827 5696.8 5696.8 Highest : 2.570 9860.1 9860.1 * Matrix 4x4 (single fp) multi-thread C++ code : - - - NEON vmla 128bit A : - - - NEON vmla 64bit A : - - - NEON vfma 128bit A : - - - NEON vmla 128bit B : - - - NEON vmla 64bit B : - - - NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - Average : - - - Highest : - - -
NVIDIA SHIELD Tablet Tegra K1 Cortex-A15 2.2GHz Quad core
NVIDIA SHIELD Tablet Tegra K1 Cortex-A15 2.2GHz Quad core ARCH: ARMv7A CPU core: 4 VFP: VFPv4-D32 NEON FMA: Yes NEON: Yes Result SingleT SP max: 17.136 GFLOPS SingleT DP max: 3.431 GFLOPS MultiT SP max: 70.174 GFLOPS MultiT DP max: 14.036 GFLOPS * VFP/NEON (単精度 fp) single-thread VFP fmuls (32bit x1) n8 : 2.080 1922.9 1922.9 VFP fadds (32bit x1) n8 : 2.199 1818.9 1818.9 VFP fmacs (32bit x1) n8 : 2.356 3396.2 3396.2 VFP vfma.f32 (32bit x1) n8 : 2.514 3182.3 3182.3 NEON vmul.f32 (32bit x2) n8 : 0.945 8462.3 8462.3 NEON vadd.f32 (32bit x2) n8 : 0.938 8526.0 8526.0 NEON vmla.f32 (32bit x2) n8 : 0.938 17063.9 17063.9 NEON vfma.f32 (32bit x2) n8 : 1.110 14419.1 14419.1 NEON vmul.f32 (32bit x4) n8 : 1.868 8563.6 8563.6 NEON vadd.f32 (32bit x4) n8 : 2.036 7858.3 7858.3 NEON vmla.f32 (32bit x4) n8 : 2.039 15695.3 15695.3 NEON vfma.f32 (32bit x4) n8 : 2.068 15476.9 15476.9 VFP fmuls (32bit x1) ns4 : 3.002 1332.6 1332.6 VFP fadds (32bit x1) ns4 : 2.556 1564.8 1564.8 VFP fmacs (32bit x1) ns4 : 4.676 1710.7 1710.7 VFP vfma.f32 (32bit x1) ns4 : 4.643 1723.1 1723.1 NEON vmul.f32 (32bit x2) ns4 : 1.859 4304.5 4304.5 NEON vadd.f32 (32bit x2) ns4 : 2.331 3431.4 3431.4 NEON vmla.f32 (32bit x2) ns4 : 3.881 4122.2 4122.2 NEON vfma.f32 (32bit x2) ns4 : 3.715 4307.2 4307.2 NEON vmul.f32 (32bit x4) ns4 : 2.047 7818.1 7818.1 NEON vadd.f32 (32bit x4) ns4 : 2.340 6837.4 6837.4 NEON vmla.f32 (32bit x4) ns4 : 3.913 8177.1 8177.1 NEON vfma.f32 (32bit x4) ns4 : 3.735 8568.2 8568.2 VFP fmuls (32bit x1) n1 : 1.868 2141.1 2141.1 VFP fadds (32bit x1) n1 : 1.870 2139.6 2139.6 VFP fmacs (32bit x1) n1 : 7.662 1044.2 1044.2 VFP vfma.f32 (32bit x1) n1 : 7.649 1045.9 1045.9 NEON vmul.f32 (32bit x2) n1 : 1.880 4255.7 4255.7 NEON vadd.f32 (32bit x2) n1 : 1.134 7052.4 7052.4 NEON vmla.f32 (32bit x2) n1 : 7.476 2140.3 2140.3 NEON vfma.f32 (32bit x2) n1 : 7.433 2152.5 2152.5 NEON vmul.f32 (32bit x4) n1 : 2.064 7751.9 7751.9 NEON vadd.f32 (32bit x4) n1 : 2.062 7760.0 7760.0 NEON vmla.f32 (32bit x4) n1 : 7.849 4076.9 4076.9 NEON vfma.f32 (32bit x4) n1 : 7.663 4176.1 4176.1 NEON vmul.f32 (32bit x4) n12 : 2.801 8569.7 8569.7 NEON vadd.f32 (32bit x4) n12 : 2.798 8578.7 8578.7 NEON vmla.f32 (32bit x4) n12 : 2.801 17136.0 17136.0 NEON vfma.f32 (32bit x4) n12 : 2.973 16143.2 16143.2 平均 : 3.194 6411.2 6411.2 最大 : 0.938 17136.0 17136.0 * VFP/NEON (倍精度 fp) single-thread VFP fmuld (64bit x1) n8 : 1.965 2035.5 2035.5 VFP faddd (64bit x1) n8 : 2.153 1858.0 1858.0 VFP fmacd (64bit x1) n8 : 2.334 3427.2 3427.2 VFP vfma.f64 (64bit x1) n8 : 2.331 3431.3 3431.3 VFP fmuld (64bit x1) ns4 : 2.826 1415.5 1415.5 VFP faddd (64bit x1) ns4 : 2.515 1590.4 1590.4 VFP fmacd (64bit x1) ns4 : 4.661 1716.5 1716.5 VFP vfma.f64 (64bit x1) ns4 : 4.644 1722.8 1722.8 VFP fmuld (64bit x1) n1 : 1.859 2152.2 2152.2 VFP faddd (64bit x1) n1 : 1.855 2155.8 2155.8 VFP fmacd (64bit x1) n1 : 7.610 1051.3 1051.3 VFP vfma.f64 (64bit x1) n1 : 7.464 1071.9 1071.9 平均 : 3.518 1969.0 1969.0 最大 : 1.855 3431.3 3431.3 * Matrix 4x4 (単精度 fp) single-thread C++ code : 0.472 7593.8 7593.8 NEON vmla 128bit A : 0.528 6787.3 6787.3 NEON vmla 64bit A : 0.519 6900.9 6900.9 NEON vfma 128bit A : 0.711 5041.8 5041.8 NEON vmla 128bit B : 0.494 7250.5 7250.5 NEON vmla 64bit B : 0.641 5591.9 5591.9 NEON vfma 128bit B : 0.620 5783.3 5783.3 NEON vfma 128bit C : 0.707 5066.7 5066.7 平均 : 0.587 6252.0 6252.0 最大 : 0.472 7593.8 7593.8 * VFP/NEON (単精度 fp) multi-thread VFP fmuls (32bit x1) n8 : 1.895 8445.2 8445.2 VFP fadds (32bit x1) n8 : 2.055 7787.1 7787.1 VFP fmacs (32bit x1) n8 : 2.280 14033.9 14033.9 VFP vfma.f32 (32bit x1) n8 : 2.281 14028.1 14028.1 NEON vmul.f32 (32bit x2) n8 : 0.912 35083.0 35083.0 NEON vadd.f32 (32bit x2) n8 : 0.913 35039.7 35039.7 NEON vmla.f32 (32bit x2) n8 : 0.913 70067.1 70067.1 NEON vfma.f32 (32bit x2) n8 : 0.912 70173.7 70173.7 NEON vmul.f32 (32bit x4) n8 : 1.824 35080.2 35080.2 NEON vadd.f32 (32bit x4) n8 : 2.010 31846.2 31846.2 NEON vmla.f32 (32bit x4) n8 : 2.041 62712.8 62712.8 NEON vfma.f32 (32bit x4) n8 : 1.867 68548.0 68548.0 VFP fmuls (32bit x1) ns4 : 2.909 5499.5 5499.5 VFP fadds (32bit x1) ns4 : 2.326 6879.5 6879.5 VFP fmacs (32bit x1) ns4 : 4.685 6829.9 6829.9 VFP vfma.f32 (32bit x1) ns4 : 4.555 7025.6 7025.6 NEON vmul.f32 (32bit x2) ns4 : 1.867 17144.2 17144.2 NEON vadd.f32 (32bit x2) ns4 : 2.407 13292.8 13292.8 NEON vmla.f32 (32bit x2) ns4 : 3.652 17525.9 17525.9 NEON vfma.f32 (32bit x2) ns4 : 3.648 17543.0 17543.0 NEON vmul.f32 (32bit x4) ns4 : 1.874 34160.0 34160.0 NEON vadd.f32 (32bit x4) ns4 : 2.426 26379.2 26379.2 NEON vmla.f32 (32bit x4) ns4 : 3.871 33069.3 33069.3 NEON vfma.f32 (32bit x4) ns4 : 3.658 34994.1 34994.1 VFP fmuls (32bit x1) n1 : 1.824 8770.6 8770.6 VFP fadds (32bit x1) n1 : 1.824 8770.1 8770.1 VFP fmacs (32bit x1) n1 : 7.296 4386.2 4386.2 VFP vfma.f32 (32bit x1) n1 : 7.519 4255.8 4255.8 NEON vmul.f32 (32bit x2) n1 : 2.022 15825.2 15825.2 NEON vadd.f32 (32bit x2) n1 : 1.051 30447.0 30447.0 NEON vmla.f32 (32bit x2) n1 : 7.320 8743.5 8743.5 NEON vfma.f32 (32bit x2) n1 : 7.289 8780.5 8780.5 NEON vmul.f32 (32bit x4) n1 : 1.822 35135.7 35135.7 NEON vadd.f32 (32bit x4) n1 : 1.822 35122.6 35122.6 NEON vmla.f32 (32bit x4) n1 : 7.295 17545.2 17545.2 NEON vfma.f32 (32bit x4) n1 : 7.308 17514.1 17514.1 NEON vmul.f32 (32bit x4) n12 : 2.806 34212.6 34212.6 NEON vadd.f32 (32bit x4) n12 : 2.930 32768.7 32768.7 NEON vmla.f32 (32bit x4) n12 : 2.928 65571.1 65571.1 NEON vfma.f32 (32bit x4) n12 : 2.928 65566.0 65566.0 平均 : 3.094 26665.1 26665.1 最大 : 0.912 70173.7 70173.7 * VFP/NEON (倍精度 fp) multi-thread VFP fmuld (64bit x1) n8 : 2.182 7334.2 7334.2 VFP faddd (64bit x1) n8 : 1.825 8767.6 8767.6 VFP fmacd (64bit x1) n8 : 2.477 12917.0 12917.0 VFP vfma.f64 (64bit x1) n8 : 2.280 14035.9 14035.9 VFP fmuld (64bit x1) ns4 : 2.737 5846.5 5846.5 VFP faddd (64bit x1) ns4 : 2.279 7022.0 7022.0 VFP fmacd (64bit x1) ns4 : 4.567 7006.7 7006.7 VFP vfma.f64 (64bit x1) ns4 : 4.558 7021.3 7021.3 VFP fmuld (64bit x1) n1 : 1.824 8770.9 8770.9 VFP faddd (64bit x1) n1 : 1.822 8780.3 8780.3 VFP fmacd (64bit x1) n1 : 7.292 4388.5 4388.5 VFP vfma.f64 (64bit x1) n1 : 7.300 4383.6 4383.6 平均 : 3.428 8022.9 8022.9 最大 : 1.822 14035.9 14035.9 * Matrix 4x4 (単精度 fp) multi-thread C++ code : 0.516 27772.7 27772.7 NEON vmla 128bit A : 0.511 28062.0 28062.0 NEON vmla 64bit A : 0.502 28555.4 28555.4 NEON vfma 128bit A : 0.685 20922.8 20922.8 NEON vmla 128bit B : 0.469 30553.7 30553.7 NEON vmla 64bit B : 0.454 31579.1 31579.1 NEON vfma 128bit B : 0.599 23928.7 23928.7 NEON vfma 128bit C : 0.826 17365.8 17365.8 平均 : 0.570 26092.5 26092.5 最大 : 0.454 31579.1 31579.1
ARM Cortex-A53 (AArch32) VFPv4+NEON
Dragonboard 410c Snapdragon 410 Cortex-A53 1.2GHz quad core
ARCH: ARMv7A CPU core: 4 VFP: VFPv4-D32 NEON FMA: Yes NEON: Yes Result SingleT SP max: 9.442 GFLOPS SingleT DP max: 2.558 GFLOPS MultiT SP max: 29.290 GFLOPS MultiT DP max: 7.753 GFLOPS * VFP/NEON (single fp) single-thread VFP fmuls (32bit x1) n8 : 0.659 1822.0 1822.0 VFP fadds (32bit x1) n8 : 0.585 2050.2 2050.2 VFP fmacs (32bit x1) n8 : 0.788 3044.2 3044.2 VFP vfma.f32 (32bit x1) n8 : 0.898 2671.7 2671.7 NEON vmul.f32 (32bit x2) n8 : 0.526 4558.5 4558.5 NEON vadd.f32 (32bit x2) n8 : 0.551 4355.3 4355.3 NEON vmla.f32 (32bit x2) n8 : 0.925 5190.1 5190.1 NEON vfma.f32 (32bit x2) n8 : 0.675 7110.2 7110.2 NEON vmul.f32 (32bit x4) n8 : 1.022 4695.3 4695.3 NEON vadd.f32 (32bit x4) n8 : 1.026 4679.5 4679.5 NEON vmla.f32 (32bit x4) n8 : 1.024 9379.1 9379.1 NEON vfma.f32 (32bit x4) n8 : 1.036 9268.0 9268.0 VFP fmuls (32bit x1) ns4 : 0.998 1202.7 1202.7 VFP fadds (32bit x1) ns4 : 1.004 1195.0 1195.0 VFP fmacs (32bit x1) ns4 : 2.022 1186.9 1186.9 VFP vfma.f32 (32bit x1) ns4 : 2.012 1193.0 1193.0 NEON vmul.f32 (32bit x2) ns4 : 0.998 2405.0 2405.0 NEON vadd.f32 (32bit x2) ns4 : 1.009 2378.0 2378.0 NEON vmla.f32 (32bit x2) ns4 : 2.023 2372.9 2372.9 NEON vfma.f32 (32bit x2) ns4 : 2.018 2378.1 2378.1 NEON vmul.f32 (32bit x4) ns4 : 1.037 4630.7 4630.7 NEON vadd.f32 (32bit x4) ns4 : 1.027 4675.0 4675.0 NEON vmla.f32 (32bit x4) ns4 : 2.026 4739.5 4739.5 NEON vfma.f32 (32bit x4) ns4 : 1.998 4804.5 4804.5 VFP fmuls (32bit x1) n1 : 0.999 1200.9 1200.9 VFP fadds (32bit x1) n1 : 0.998 1202.5 1202.5 VFP fmacs (32bit x1) n1 : 4.993 480.7 480.7 VFP vfma.f32 (32bit x1) n1 : 5.000 480.0 480.0 NEON vmul.f32 (32bit x2) n1 : 1.001 2398.4 2398.4 NEON vadd.f32 (32bit x2) n1 : 1.015 2364.8 2364.8 NEON vmla.f32 (32bit x2) n1 : 4.992 961.5 961.5 NEON vfma.f32 (32bit x2) n1 : 5.018 956.6 956.6 NEON vmul.f32 (32bit x4) n1 : 1.025 4680.9 4680.9 NEON vadd.f32 (32bit x4) n1 : 1.032 4650.9 4650.9 NEON vmla.f32 (32bit x4) n1 : 4.995 1921.9 1921.9 NEON vfma.f32 (32bit x4) n1 : 5.114 1877.1 1877.1 NEON vmul.f32 (32bit x4) n12 : 1.564 4603.3 4603.3 NEON vadd.f32 (32bit x4) n12 : 1.543 4666.2 4666.2 NEON vmla.f32 (32bit x4) n12 : 1.525 9441.8 9441.8 NEON vfma.f32 (32bit x4) n12 : 1.549 9296.0 9296.0 Average : 1.756 3579.2 3579.2 Highest : 0.526 9441.8 9441.8 * VFP/NEON (double fp) single-thread VFP fmuld (64bit x1) n8 : 0.574 2091.6 2091.6 VFP faddd (64bit x1) n8 : 0.538 2229.7 2229.7 VFP fmacd (64bit x1) n8 : 0.986 2434.8 2434.8 VFP vfma.f64 (64bit x1) n8 : 0.938 2558.1 2558.1 VFP fmuld (64bit x1) ns4 : 1.003 1197.0 1197.0 VFP faddd (64bit x1) ns4 : 1.004 1195.6 1195.6 VFP fmacd (64bit x1) ns4 : 2.094 1146.0 1146.0 VFP vfma.f64 (64bit x1) ns4 : 2.065 1162.5 1162.5 VFP fmuld (64bit x1) n1 : 1.008 1190.5 1190.5 VFP faddd (64bit x1) n1 : 1.003 1196.5 1196.5 VFP fmacd (64bit x1) n1 : 5.004 479.6 479.6 VFP vfma.f64 (64bit x1) n1 : 5.068 473.6 473.6 Average : 1.774 1446.3 1446.3 Highest : 0.538 2558.1 2558.1 * Matrix 4x4 (single fp) single-thread C++ code : 0.597 3002.4 3002.4 NEON vmla 128bit A : 1.290 1389.3 1389.3 NEON vmla 64bit A : 1.575 1137.6 1137.6 NEON vfma 128bit A : 1.409 1271.9 1271.9 NEON vmla 128bit B : 0.628 2855.2 2855.2 NEON vmla 64bit B : 0.987 1815.3 1815.3 NEON vfma 128bit B : 0.868 2065.2 2065.2 NEON vfma 128bit C : 1.387 1291.7 1291.7 Average : 1.093 1853.6 1853.6 Highest : 0.597 3002.4 3002.4 * VFP/NEON (single fp) multi-thread VFP fmuls (32bit x1) n8 : 0.851 5638.6 5638.6 VFP fadds (32bit x1) n8 : 0.790 6075.6 6075.6 VFP fmacs (32bit x1) n8 : 1.031 9313.4 9313.4 VFP vfma.f32 (32bit x1) n8 : 1.175 8168.2 8168.2 NEON vmul.f32 (32bit x2) n8 : 0.707 13583.5 13583.5 NEON vadd.f32 (32bit x2) n8 : 0.741 12954.9 12954.9 NEON vmla.f32 (32bit x2) n8 : 1.240 15480.2 15480.2 NEON vfma.f32 (32bit x2) n8 : 0.887 21657.6 21657.6 NEON vmul.f32 (32bit x4) n8 : 1.383 13884.6 13884.6 NEON vadd.f32 (32bit x4) n8 : 1.334 14387.6 14387.6 NEON vmla.f32 (32bit x4) n8 : 1.405 27332.4 27332.4 NEON vfma.f32 (32bit x4) n8 : 1.448 26522.3 26522.3 VFP fmuls (32bit x1) ns4 : 1.383 3471.7 3471.7 VFP fadds (32bit x1) ns4 : 1.416 3389.2 3389.2 VFP fmacs (32bit x1) ns4 : 2.675 3588.7 3588.7 VFP vfma.f32 (32bit x1) ns4 : 2.740 3503.2 3503.2 NEON vmul.f32 (32bit x2) ns4 : 1.389 6909.3 6909.3 NEON vadd.f32 (32bit x2) ns4 : 1.344 7141.1 7141.1 NEON vmla.f32 (32bit x2) ns4 : 2.760 6956.3 6956.3 NEON vfma.f32 (32bit x2) ns4 : 2.732 7028.8 7028.8 NEON vmul.f32 (32bit x4) ns4 : 1.363 14086.9 14086.9 NEON vadd.f32 (32bit x4) ns4 : 1.384 13876.4 13876.4 NEON vmla.f32 (32bit x4) ns4 : 2.667 14396.6 14396.6 NEON vfma.f32 (32bit x4) ns4 : 2.653 14472.9 14472.9 VFP fmuls (32bit x1) n1 : 1.379 3481.1 3481.1 VFP fadds (32bit x1) n1 : 1.321 3633.0 3633.0 VFP fmacs (32bit x1) n1 : 6.581 1458.8 1458.8 VFP vfma.f32 (32bit x1) n1 : 6.795 1412.8 1412.8 NEON vmul.f32 (32bit x2) n1 : 1.309 7332.1 7332.1 NEON vadd.f32 (32bit x2) n1 : 1.310 7326.2 7326.2 NEON vmla.f32 (32bit x2) n1 : 6.871 2794.4 2794.4 NEON vfma.f32 (32bit x2) n1 : 6.630 2895.9 2895.9 NEON vmul.f32 (32bit x4) n1 : 1.396 13748.8 13748.8 NEON vadd.f32 (32bit x4) n1 : 1.416 13558.5 13558.5 NEON vmla.f32 (32bit x4) n1 : 6.841 5613.5 5613.5 NEON vfma.f32 (32bit x4) n1 : 6.711 5722.1 5722.1 NEON vmul.f32 (32bit x4) n12 : 2.104 13685.6 13685.6 NEON vadd.f32 (32bit x4) n12 : 1.977 14564.0 14564.0 NEON vmla.f32 (32bit x4) n12 : 1.991 28931.3 28931.3 NEON vfma.f32 (32bit x4) n12 : 1.967 29290.3 29290.3 Average : 2.352 10731.7 10731.7 Highest : 0.707 29290.3 29290.3 * VFP/NEON (double fp) multi-thread VFP fmuld (64bit x1) n8 : 0.801 5990.8 5990.8 VFP faddd (64bit x1) n8 : 0.762 6301.4 6301.4 VFP fmacd (64bit x1) n8 : 1.259 7625.8 7625.8 VFP vfma.f64 (64bit x1) n8 : 1.238 7753.4 7753.4 VFP fmuld (64bit x1) ns4 : 1.337 3590.8 3590.8 VFP faddd (64bit x1) ns4 : 1.366 3512.7 3512.7 VFP fmacd (64bit x1) ns4 : 2.708 3545.2 3545.2 VFP vfma.f64 (64bit x1) ns4 : 2.709 3543.3 3543.3 VFP fmuld (64bit x1) n1 : 1.323 3627.3 3627.3 VFP faddd (64bit x1) n1 : 1.379 3480.6 3480.6 VFP fmacd (64bit x1) n1 : 6.676 1438.1 1438.1 VFP vfma.f64 (64bit x1) n1 : 6.504 1476.0 1476.0 Average : 2.339 4323.8 4323.8 Highest : 0.762 7753.4 7753.4 * Matrix 4x4 (single fp) multi-thread C++ code : 0.866 8273.1 8273.1 NEON vmla 128bit A : 1.815 3949.8 3949.8 NEON vmla 64bit A : 2.063 3474.9 3474.9 NEON vfma 128bit A : 1.916 3741.2 3741.2 NEON vmla 128bit B : 0.828 8658.1 8658.1 NEON vmla 64bit B : 1.338 5355.5 5355.5 NEON vfma 128bit B : 1.170 6127.2 6127.2 NEON vfma 128bit C : 1.860 3852.9 3852.9 Average : 1.482 5429.1 5429.1 Highest : 0.828 8658.1 8658.1
Raspberry Pi 3 BCM2837 Cortex-A53 1.2GHz debian 8.0
ARCH: ARMv7A FPU: VFPv4-D32 NEON SingleT SP max: 9.431 GFLOPS SingleT DP max: 2.477 GFLOPS MultiT SP max: 37.442 GFLOPS MultiT DP max: 9.994 GFLOPS CPU core: 4 NEON: yes FMA: yes * VFP/NEON (single fp) VFP fmuls (32bit x1) n8 : 0.526 2282.7 2282.7 VFP fadds (32bit x1) n8 : 0.551 2179.1 2179.1 VFP fmacs (32bit x1) n8 : 0.776 3092.9 3092.9 VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : 0.526 4565.5 4565.5 NEON vadd.f32 (32bit x2) n8 : 0.551 4358.2 4358.2 NEON vmla.f32 (32bit x2) n8 : 0.915 5245.3 5245.3 NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : 1.026 4677.2 4677.2 NEON vadd.f32 (32bit x4) n8 : 1.026 4676.9 4676.9 NEON vmla.f32 (32bit x4) n8 : 1.026 9354.3 9354.3 NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : 1.001 1198.5 1198.5 VFP fadds (32bit x1) ns4 : 1.001 1198.5 1198.5 VFP fmacs (32bit x1) ns4 : 2.015 1191.2 1191.2 VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : 1.001 2397.0 2397.0 NEON vadd.f32 (32bit x2) ns4 : 1.001 2397.0 2397.0 NEON vmla.f32 (32bit x2) ns4 : 2.024 2372.0 2372.0 NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : 1.026 4676.9 4676.9 NEON vadd.f32 (32bit x4) ns4 : 1.026 4677.1 4677.1 NEON vmla.f32 (32bit x4) ns4 : 2.003 4794.0 4794.0 NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : 1.001 1198.5 1198.5 VFP fadds (32bit x1) n1 : 1.001 1198.5 1198.5 VFP fmacs (32bit x1) n1 : 4.125 581.8 581.8 VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : 1.001 2397.0 2397.0 NEON vadd.f32 (32bit x2) n1 : 1.002 2396.1 2396.1 NEON vmla.f32 (32bit x2) n1 : 4.005 1198.5 1198.5 NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : 1.026 4677.0 4677.0 NEON vadd.f32 (32bit x4) n1 : 1.026 4677.1 4677.1 NEON vmla.f32 (32bit x4) n1 : 4.005 2397.0 2397.0 NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : 1.527 4715.4 4715.4 NEON vadd.f32 (32bit x4) n12 : 1.527 4715.4 4715.4 NEON vmla.f32 (32bit x4) n12 : 1.527 9430.9 9430.9 NEON vfma.f32 (32bit x4) n12 : - - - Average : 1.393 3497.3 3497.3 Highest : 0.526 9430.9 9430.9 * VFP/NEON (double fp) VFP fmuld (64bit x1) n8 : 0.526 2282.3 2282.3 VFP faddd (64bit x1) n8 : 0.526 2282.8 2282.8 VFP fmacd (64bit x1) n8 : 0.969 2476.7 2476.7 VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : 1.001 1198.5 1198.5 VFP faddd (64bit x1) ns4 : 1.001 1198.5 1198.5 VFP fmacd (64bit x1) ns4 : 2.024 1185.9 1185.9 VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : 0.615 1950.1 1950.1 VFP faddd (64bit x1) n1 : 1.001 1199.0 1199.0 VFP fmacd (64bit x1) n1 : 4.003 599.5 599.5 VFP vfma.f64 (64bit x1) n1 : - - - Average : 1.296 1597.0 1597.0 Highest : 0.526 2476.7 2476.7 * Matrix 4x4 C++ code : 0.625 2867.3 2867.3 NEON vmla 128bit A : 1.176 1524.3 1524.3 NEON vmla 64bit A : 1.282 1397.3 1397.3 NEON vfma 128bit A : - - - NEON vmla 128bit B : 0.602 2978.6 2978.6 NEON vmla 64bit B : 0.788 2272.7 2272.7 NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - Average : 0.895 2208.1 2208.1 Highest : 0.602 2978.6 2978.6 * VFP/NEON (single fp) multi-thread VFP fmuls (32bit x1) n8 : 0.543 8846.1 8846.1 VFP fadds (32bit x1) n8 : 0.567 8461.8 8461.8 VFP fmacs (32bit x1) n8 : 0.785 12229.1 12229.1 VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : 0.529 18161.2 18161.2 NEON vadd.f32 (32bit x2) n8 : 0.553 17365.9 17365.9 NEON vmla.f32 (32bit x2) n8 : 0.958 20037.7 20037.7 NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : 1.039 18472.4 18472.4 NEON vadd.f32 (32bit x4) n8 : 1.030 18634.4 18634.4 NEON vmla.f32 (32bit x4) n8 : 1.059 36275.5 36275.5 NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : 1.012 4741.5 4741.5 VFP fadds (32bit x1) ns4 : 1.005 4776.4 4776.4 VFP fmacs (32bit x1) ns4 : 2.063 4653.2 4653.2 VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : 1.007 9536.9 9536.9 NEON vadd.f32 (32bit x2) ns4 : 1.032 9299.2 9299.2 NEON vmla.f32 (32bit x2) ns4 : 2.040 9412.6 9412.6 NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : 1.056 18174.5 18174.5 NEON vadd.f32 (32bit x4) ns4 : 1.036 18530.6 18530.6 NEON vmla.f32 (32bit x4) ns4 : 2.040 18822.7 18822.7 NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : 1.011 4750.0 4750.0 VFP fadds (32bit x1) n1 : 1.012 4742.4 4742.4 VFP fmacs (32bit x1) n1 : 4.079 2353.3 2353.3 VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : 1.010 9504.9 9504.9 NEON vadd.f32 (32bit x2) n1 : 1.014 9463.0 9463.0 NEON vmla.f32 (32bit x2) n1 : 4.077 4708.8 4708.8 NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : 1.035 18559.3 18559.3 NEON vadd.f32 (32bit x4) n1 : 1.043 18410.2 18410.2 NEON vmla.f32 (32bit x4) n1 : 4.075 9423.6 9423.6 NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : 1.537 18743.5 18743.5 NEON vadd.f32 (32bit x4) n12 : 1.565 18403.8 18403.8 NEON vmla.f32 (32bit x4) n12 : 1.538 37442.0 37442.0 NEON vfma.f32 (32bit x4) n12 : - - - Average : 1.412 13764.6 13764.6 Highest : 0.529 37442.0 37442.0 * VFP/NEON (double fp) multi-thread VFP fmuld (64bit x1) n8 : 0.536 8948.6 8948.6 VFP faddd (64bit x1) n8 : 0.532 9027.8 9027.8 VFP fmacd (64bit x1) n8 : 0.961 9993.6 9993.6 VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : 1.029 4664.3 4664.3 VFP faddd (64bit x1) ns4 : 1.016 4725.4 4725.4 VFP fmacd (64bit x1) ns4 : 2.058 4664.0 4664.0 VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : 1.014 4731.7 4731.7 VFP faddd (64bit x1) n1 : 1.005 4774.0 4774.0 VFP fmacd (64bit x1) n1 : 4.082 2351.6 2351.6 VFP vfma.f64 (64bit x1) n1 : - - - Average : 1.359 5986.8 5986.8 Highest : 0.532 9993.6 9993.6 * Matrix 4x4 multi-thread C++ code : 0.570 12582.5 12582.5 NEON vmla 128bit A : 1.182 6064.5 6064.5 NEON vmla 64bit A : 1.308 5482.1 5482.1 NEON vfma 128bit A : - - - NEON vmla 128bit B : 0.619 11585.4 11585.4 NEON vmla 64bit B : 0.793 9043.1 9043.1 NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - Average : 0.894 8951.5 8951.5 Highest : 0.570 12582.5 12582.5
ARM Cortex-A72 (AArch32) VFPv4+NEON
Amazon Fire TV MT8173C Cortex-A72 2.0GHz dual core
ARCH: ARMv7A CPU core: 2 VFP: VFPv4-D32 NEON FMA: Yes NEON: Yes Result SingleT SP max: 15.875 GFLOPS SingleT DP max: 7.946 GFLOPS MultiT SP max: 31.756 GFLOPS MultiT DP max: 15.882 GFLOPS * VFP/NEON (単精度 fp) single-thread VFP fmuls (32bit x1) n8 : 0.425 2823.3 2823.3 VFP fadds (32bit x1) n8 : 0.303 3958.8 3958.8 VFP fmacs (32bit x1) n8 : 0.303 7919.0 7919.0 VFP vfma.f32 (32bit x1) n8 : 0.303 7912.9 7912.9 NEON vmul.f32 (32bit x2) n8 : 0.303 7915.2 7915.2 NEON vadd.f32 (32bit x2) n8 : 0.304 7898.6 7898.6 NEON vmla.f32 (32bit x2) n8 : 0.303 15837.5 15837.5 NEON vfma.f32 (32bit x2) n8 : 0.304 15800.1 15800.1 NEON vmul.f32 (32bit x4) n8 : 0.606 7915.5 7915.5 NEON vadd.f32 (32bit x4) n8 : 0.606 7914.7 7914.7 NEON vmla.f32 (32bit x4) n8 : 0.607 15810.0 15810.0 NEON vfma.f32 (32bit x4) n8 : 0.605 15875.0 15875.0 VFP fmuls (32bit x1) ns4 : 0.604 1986.5 1986.5 VFP fadds (32bit x1) ns4 : 0.604 1986.4 1986.4 VFP fmacs (32bit x1) ns4 : 1.131 2122.4 2122.4 VFP vfma.f32 (32bit x1) ns4 : 1.058 2268.6 2268.6 NEON vmul.f32 (32bit x2) ns4 : 0.604 3973.1 3973.1 NEON vadd.f32 (32bit x2) ns4 : 0.604 3972.9 3972.9 NEON vmla.f32 (32bit x2) ns4 : 1.129 4252.7 4252.7 NEON vfma.f32 (32bit x2) ns4 : 1.058 4538.0 4538.0 NEON vmul.f32 (32bit x4) ns4 : 0.606 7924.2 7924.2 NEON vadd.f32 (32bit x4) ns4 : 0.606 7919.8 7919.8 NEON vmla.f32 (32bit x4) ns4 : 1.066 9007.0 9007.0 NEON vfma.f32 (32bit x4) ns4 : 1.086 8841.5 8841.5 VFP fmuls (32bit x1) n1 : 0.385 3115.2 3115.2 VFP fadds (32bit x1) n1 : 0.302 3968.8 3968.8 VFP fmacs (32bit x1) n1 : 1.816 1321.6 1321.6 VFP vfma.f32 (32bit x1) n1 : 1.817 1321.1 1321.1 NEON vmul.f32 (32bit x2) n1 : 0.306 7832.0 7832.0 NEON vadd.f32 (32bit x2) n1 : 0.304 7902.7 7902.7 NEON vmla.f32 (32bit x2) n1 : 1.823 2632.4 2632.4 NEON vfma.f32 (32bit x2) n1 : 1.821 2635.7 2635.7 NEON vmul.f32 (32bit x4) n1 : 0.609 7886.4 7886.4 NEON vadd.f32 (32bit x4) n1 : 0.608 7898.8 7898.8 NEON vmla.f32 (32bit x4) n1 : 1.818 5280.7 5280.7 NEON vfma.f32 (32bit x4) n1 : 1.813 5293.9 5293.9 NEON vmul.f32 (32bit x4) n12 : 0.958 7517.7 7517.7 NEON vadd.f32 (32bit x4) n12 : 0.906 7945.1 7945.1 NEON vmla.f32 (32bit x4) n12 : 0.908 15857.3 15857.3 NEON vfma.f32 (32bit x4) n12 : 0.908 15855.1 15855.1 平均 : 0.806 7016.0 7016.0 最大 : 0.302 15875.0 15875.0 * VFP/NEON (倍精度 fp) single-thread VFP fmuld (64bit x1) n8 : 0.330 3641.7 3641.7 VFP faddd (64bit x1) n8 : 0.302 3973.2 3973.2 VFP fmacd (64bit x1) n8 : 0.302 7946.2 7946.2 VFP vfma.f64 (64bit x1) n8 : 0.302 7945.3 7945.3 VFP fmuld (64bit x1) ns4 : 0.662 1813.9 1813.9 VFP faddd (64bit x1) ns4 : 0.605 1984.5 1984.5 VFP fmacd (64bit x1) ns4 : 1.058 2268.1 2268.1 VFP vfma.f64 (64bit x1) ns4 : 1.060 2265.2 2265.2 VFP fmuld (64bit x1) n1 : 0.303 3965.5 3965.5 VFP faddd (64bit x1) n1 : 0.304 3952.7 3952.7 VFP fmacd (64bit x1) n1 : 1.826 1314.1 1314.1 VFP vfma.f64 (64bit x1) n1 : 1.827 1313.6 1313.6 平均 : 0.740 3532.0 3532.0 最大 : 0.302 7946.2 7946.2 * Matrix 4x4 (単精度 fp) single-thread C++ code : 0.322 5560.9 5560.9 NEON vmla 128bit A : 0.211 8503.3 8503.3 NEON vmla 64bit A : 0.274 6530.0 6530.0 NEON vfma 128bit A : 0.297 6030.6 6030.6 NEON vmla 128bit B : 0.218 8207.0 8207.0 NEON vmla 64bit B : 0.299 6002.1 6002.1 NEON vfma 128bit B : 0.315 5689.6 5689.6 NEON vfma 128bit C : 0.288 6213.3 6213.3 平均 : 0.278 6592.1 6592.1 最大 : 0.211 8503.3 8503.3 * VFP/NEON (単精度 fp) multi-thread VFP fmuls (32bit x1) n8 : 0.336 7140.1 7140.1 VFP fadds (32bit x1) n8 : 0.303 7926.4 7926.4 VFP fmacs (32bit x1) n8 : 0.302 15874.2 15874.2 VFP vfma.f32 (32bit x1) n8 : 0.302 15874.7 15874.7 NEON vmul.f32 (32bit x2) n8 : 0.302 15873.6 15873.6 NEON vadd.f32 (32bit x2) n8 : 0.302 15873.5 15873.5 NEON vmla.f32 (32bit x2) n8 : 0.302 31749.3 31749.3 NEON vfma.f32 (32bit x2) n8 : 0.302 31748.3 31748.3 NEON vmul.f32 (32bit x4) n8 : 0.605 15866.4 15866.4 NEON vadd.f32 (32bit x4) n8 : 0.605 15874.0 15874.0 NEON vmla.f32 (32bit x4) n8 : 0.605 31748.2 31748.2 NEON vfma.f32 (32bit x4) n8 : 0.605 31748.1 31748.1 VFP fmuls (32bit x1) ns4 : 0.605 3966.1 3966.1 VFP fadds (32bit x1) ns4 : 0.605 3968.7 3968.7 VFP fmacs (32bit x1) ns4 : 1.059 4533.9 4533.9 VFP vfma.f32 (32bit x1) ns4 : 1.058 4535.3 4535.3 NEON vmul.f32 (32bit x2) ns4 : 0.605 7937.1 7937.1 NEON vadd.f32 (32bit x2) ns4 : 0.605 7932.8 7932.8 NEON vmla.f32 (32bit x2) ns4 : 1.058 9070.7 9070.7 NEON vfma.f32 (32bit x2) ns4 : 1.058 9070.2 9070.2 NEON vmul.f32 (32bit x4) ns4 : 0.605 15878.7 15878.7 NEON vadd.f32 (32bit x4) ns4 : 0.605 15878.1 15878.1 NEON vmla.f32 (32bit x4) ns4 : 1.058 18145.1 18145.1 NEON vfma.f32 (32bit x4) ns4 : 1.058 18145.7 18145.7 VFP fmuls (32bit x1) n1 : 0.302 7938.3 7938.3 VFP fadds (32bit x1) n1 : 0.302 7939.1 7939.1 VFP fmacs (32bit x1) n1 : 1.815 2645.3 2645.3 VFP vfma.f32 (32bit x1) n1 : 1.814 2646.3 2646.3 NEON vmul.f32 (32bit x2) n1 : 0.302 15872.9 15872.9 NEON vadd.f32 (32bit x2) n1 : 0.302 15883.3 15883.3 NEON vmla.f32 (32bit x2) n1 : 1.814 5292.1 5292.1 NEON vfma.f32 (32bit x2) n1 : 1.814 5292.7 5292.7 NEON vmul.f32 (32bit x4) n1 : 0.605 15877.9 15877.9 NEON vadd.f32 (32bit x4) n1 : 0.605 15878.7 15878.7 NEON vmla.f32 (32bit x4) n1 : 1.814 10585.1 10585.1 NEON vfma.f32 (32bit x4) n1 : 1.814 10585.2 10585.2 NEON vmul.f32 (32bit x4) n12 : 0.907 15878.5 15878.5 NEON vadd.f32 (32bit x4) n12 : 0.907 15879.7 15879.7 NEON vmla.f32 (32bit x4) n12 : 0.907 31751.7 31751.7 NEON vfma.f32 (32bit x4) n12 : 0.907 31756.4 31756.4 平均 : 0.795 14201.6 14201.6 最大 : 0.302 31756.4 31756.4 * VFP/NEON (倍精度 fp) multi-thread VFP fmuld (64bit x1) n8 : 0.351 6828.9 6828.9 VFP faddd (64bit x1) n8 : 0.302 7940.0 7940.0 VFP fmacd (64bit x1) n8 : 0.302 15882.3 15882.3 VFP vfma.f64 (64bit x1) n8 : 0.302 15879.8 15879.8 VFP fmuld (64bit x1) ns4 : 0.605 3970.0 3970.0 VFP faddd (64bit x1) ns4 : 0.605 3969.6 3969.6 VFP fmacd (64bit x1) ns4 : 1.058 4537.5 4537.5 VFP vfma.f64 (64bit x1) ns4 : 1.058 4537.7 4537.7 VFP fmuld (64bit x1) n1 : 0.302 7940.4 7940.4 VFP faddd (64bit x1) n1 : 0.302 7941.1 7941.1 VFP fmacd (64bit x1) n1 : 1.813 2647.4 2647.4 VFP vfma.f64 (64bit x1) n1 : 1.813 2647.0 2647.0 平均 : 0.734 7060.1 7060.1 最大 : 0.302 15882.3 15882.3 * Matrix 4x4 (単精度 fp) multi-thread C++ code : 0.223 16061.2 16061.2 NEON vmla 128bit A : 0.210 17055.8 17055.8 NEON vmla 64bit A : 0.274 13059.0 13059.0 NEON vfma 128bit A : 0.297 12057.1 12057.1 NEON vmla 128bit B : 0.218 16414.2 16414.2 NEON vmla 64bit B : 0.299 12001.6 12001.6 NEON vfma 128bit B : 0.316 11341.3 11341.3 NEON vfma 128bit C : 0.289 12422.7 12422.7 平均 : 0.266 13801.6 13801.6 最大 : 0.210 17055.8 17055.8
Qualcomm Krait (ARMv7A) VFPv4+NEON
HTC J butterfly HTL21 Snapdragon S4 Pro APQ8064 Krait 1.5GHz Quad core
HTC J butterfly HTL21 Snapdragon S4 Pro APQ8064 Krait 1.5GHz Quad core ARCH: ARMv7A CPU core: 4 VFP: VFPv4-D32 NEON FMA: Yes NEON: Yes Result SingleT SP max: 11.883 GFLOPS SingleT DP max: 2.967 GFLOPS MultiT SP max: 46.954 GFLOPS MultiT DP max: 11.778 GFLOPS * VFP/NEON (単精度 fp) single-thread VFP fmuls (32bit x1) n8 : 1.030 1164.9 1164.9 VFP fadds (32bit x1) n8 : 0.823 1458.2 1458.2 VFP fmacs (32bit x1) n8 : 1.904 1260.4 1260.4 VFP vfma.f32 (32bit x1) n8 : 0.817 2938.8 2938.8 NEON vmul.f32 (32bit x2) n8 : 0.869 2762.2 2762.2 NEON vadd.f32 (32bit x2) n8 : 0.816 2940.5 2940.5 NEON vmla.f32 (32bit x2) n8 : 1.641 2925.2 2925.2 NEON vfma.f32 (32bit x2) n8 : 0.823 5832.9 5832.9 NEON vmul.f32 (32bit x4) n8 : 0.808 5942.6 5942.6 NEON vadd.f32 (32bit x4) n8 : 0.809 5936.1 5936.1 NEON vmla.f32 (32bit x4) n8 : 1.625 5909.3 5909.3 NEON vfma.f32 (32bit x4) n8 : 0.808 11883.5 11883.5 VFP fmuls (32bit x1) ns4 : 1.016 1181.4 1181.4 VFP fadds (32bit x1) ns4 : 1.010 1188.1 1188.1 VFP fmacs (32bit x1) ns4 : 1.863 1288.1 1288.1 VFP vfma.f32 (32bit x1) ns4 : 1.096 2189.2 2189.2 NEON vmul.f32 (32bit x2) ns4 : 1.060 2263.4 2263.4 NEON vadd.f32 (32bit x2) ns4 : 1.041 2306.2 2306.2 NEON vmla.f32 (32bit x2) ns4 : 1.975 2430.3 2430.3 NEON vfma.f32 (32bit x2) ns4 : 1.019 4712.3 4712.3 NEON vmul.f32 (32bit x4) ns4 : 1.111 4319.8 4319.8 NEON vadd.f32 (32bit x4) ns4 : 1.010 4751.4 4751.4 NEON vmla.f32 (32bit x4) ns4 : 1.870 5133.7 5133.7 NEON vfma.f32 (32bit x4) ns4 : 1.028 9341.1 9341.1 VFP fmuls (32bit x1) n1 : 0.845 1420.0 1420.0 VFP fadds (32bit x1) n1 : 0.881 1361.9 1361.9 VFP fmacs (32bit x1) n1 : 4.360 550.5 550.5 VFP vfma.f32 (32bit x1) n1 : 3.417 702.4 702.4 NEON vmul.f32 (32bit x2) n1 : 0.873 2750.0 2750.0 NEON vadd.f32 (32bit x2) n1 : 0.870 2757.8 2757.8 NEON vmla.f32 (32bit x2) n1 : 4.269 1124.3 1124.3 NEON vfma.f32 (32bit x2) n1 : 3.428 1400.3 1400.3 NEON vmul.f32 (32bit x4) n1 : 0.817 5877.8 5877.8 NEON vadd.f32 (32bit x4) n1 : 0.818 5867.7 5867.7 NEON vmla.f32 (32bit x4) n1 : 4.385 2189.3 2189.3 NEON vfma.f32 (32bit x4) n1 : 3.515 2731.2 2731.2 NEON vmul.f32 (32bit x4) n12 : 1.281 5621.8 5621.8 NEON vadd.f32 (32bit x4) n12 : 1.240 5807.3 5807.3 NEON vmla.f32 (32bit x4) n12 : 2.530 5690.7 5690.7 NEON vfma.f32 (32bit x4) n12 : 1.245 11563.3 11563.3 平均 : 1.566 3736.9 3736.9 最大 : 0.808 11883.5 11883.5 * VFP/NEON (倍精度 fp) single-thread VFP fmuld (64bit x1) n8 : 1.073 1118.1 1118.1 VFP faddd (64bit x1) n8 : 0.920 1304.1 1304.1 VFP fmacd (64bit x1) n8 : 1.702 1410.3 1410.3 VFP vfma.f64 (64bit x1) n8 : 0.809 2967.4 2967.4 VFP fmuld (64bit x1) ns4 : 1.485 808.1 808.1 VFP faddd (64bit x1) ns4 : 1.446 829.8 829.8 VFP fmacd (64bit x1) ns4 : 2.832 847.5 847.5 VFP vfma.f64 (64bit x1) ns4 : 1.603 1496.9 1496.9 VFP fmuld (64bit x1) n1 : 0.822 1459.3 1459.3 VFP faddd (64bit x1) n1 : 0.818 1467.0 1467.0 VFP fmacd (64bit x1) n1 : 5.841 410.9 410.9 VFP vfma.f64 (64bit x1) n1 : 5.000 480.0 480.0 平均 : 2.029 1216.6 1216.6 最大 : 0.809 2967.4 2967.4 * Matrix 4x4 (単精度 fp) single-thread C++ code : 0.609 2940.3 2940.3 NEON vmla 128bit A : 0.637 2815.3 2815.3 NEON vmla 64bit A : 0.974 1839.6 1839.6 NEON vfma 128bit A : 0.999 1794.2 1794.2 NEON vmla 128bit B : 0.475 3773.0 3773.0 NEON vmla 64bit B : 0.816 2196.1 2196.1 NEON vfma 128bit B : 0.348 5152.2 5152.2 NEON vfma 128bit C : 0.941 1905.2 1905.2 平均 : 0.725 2802.0 2802.0 最大 : 0.348 5152.2 5152.2 * VFP/NEON (単精度 fp) multi-thread VFP fmuls (32bit x1) n8 : 0.948 5062.5 5062.5 VFP fadds (32bit x1) n8 : 0.830 5782.9 5782.9 VFP fmacs (32bit x1) n8 : 1.635 5872.9 5872.9 VFP vfma.f32 (32bit x1) n8 : 0.818 11729.3 11729.3 NEON vmul.f32 (32bit x2) n8 : 0.819 11727.3 11727.3 NEON vadd.f32 (32bit x2) n8 : 0.820 11713.3 11713.3 NEON vmla.f32 (32bit x2) n8 : 1.633 11759.6 11759.6 NEON vfma.f32 (32bit x2) n8 : 0.817 23500.9 23500.9 NEON vmul.f32 (32bit x4) n8 : 0.815 23565.3 23565.3 NEON vadd.f32 (32bit x4) n8 : 0.819 23430.6 23430.6 NEON vmla.f32 (32bit x4) n8 : 1.637 23463.1 23463.1 NEON vfma.f32 (32bit x4) n8 : 0.818 46954.3 46954.3 VFP fmuls (32bit x1) ns4 : 1.024 4685.7 4685.7 VFP fadds (32bit x1) ns4 : 1.020 4704.3 4704.3 VFP fmacs (32bit x1) ns4 : 1.841 5215.2 5215.2 VFP vfma.f32 (32bit x1) ns4 : 1.024 9372.7 9372.7 NEON vmul.f32 (32bit x2) ns4 : 1.017 9437.1 9437.1 NEON vadd.f32 (32bit x2) ns4 : 1.036 9267.1 9267.1 NEON vmla.f32 (32bit x2) ns4 : 1.844 10414.9 10414.9 NEON vfma.f32 (32bit x2) ns4 : 1.028 18671.2 18671.2 NEON vmul.f32 (32bit x4) ns4 : 1.021 18813.7 18813.7 NEON vadd.f32 (32bit x4) ns4 : 1.020 18830.2 18830.2 NEON vmla.f32 (32bit x4) ns4 : 1.841 20856.5 20856.5 NEON vfma.f32 (32bit x4) ns4 : 1.019 37682.9 37682.9 VFP fmuls (32bit x1) n1 : 0.822 5838.7 5838.7 VFP fadds (32bit x1) n1 : 0.812 5911.3 5911.3 VFP fmacs (32bit x1) n1 : 4.089 2347.9 2347.9 VFP vfma.f32 (32bit x1) n1 : 3.270 2935.5 2935.5 NEON vmul.f32 (32bit x2) n1 : 0.818 11737.0 11737.0 NEON vadd.f32 (32bit x2) n1 : 0.816 11766.8 11766.8 NEON vmla.f32 (32bit x2) n1 : 4.113 4667.6 4667.6 NEON vfma.f32 (32bit x2) n1 : 3.277 5859.6 5859.6 NEON vmul.f32 (32bit x4) n1 : 0.817 23492.3 23492.3 NEON vadd.f32 (32bit x4) n1 : 0.821 23390.3 23390.3 NEON vmla.f32 (32bit x4) n1 : 4.102 9361.0 9361.0 NEON vfma.f32 (32bit x4) n1 : 3.273 11730.8 11730.8 NEON vmul.f32 (32bit x4) n12 : 1.228 23453.0 23453.0 NEON vadd.f32 (32bit x4) n12 : 1.230 23419.4 23419.4 NEON vmla.f32 (32bit x4) n12 : 2.451 23497.0 23497.0 NEON vfma.f32 (32bit x4) n12 : 1.245 46270.9 46270.9 平均 : 1.508 15204.8 15204.8 最大 : 0.812 46954.3 46954.3 * VFP/NEON (倍精度 fp) multi-thread VFP fmuld (64bit x1) n8 : 1.028 4669.3 4669.3 VFP faddd (64bit x1) n8 : 0.834 5753.2 5753.2 VFP fmacd (64bit x1) n8 : 1.633 5879.2 5879.2 VFP vfma.f64 (64bit x1) n8 : 0.815 11777.9 11777.9 VFP fmuld (64bit x1) ns4 : 1.430 3357.6 3357.6 VFP faddd (64bit x1) ns4 : 1.432 3351.9 3351.9 VFP fmacd (64bit x1) ns4 : 2.659 3610.1 3610.1 VFP vfma.f64 (64bit x1) ns4 : 1.430 6712.4 6712.4 VFP fmuld (64bit x1) n1 : 0.821 5849.3 5849.3 VFP faddd (64bit x1) n1 : 0.812 5908.9 5908.9 VFP fmacd (64bit x1) n1 : 5.739 1672.7 1672.7 VFP vfma.f64 (64bit x1) n1 : 4.949 1939.7 1939.7 平均 : 1.965 5040.2 5040.2 最大 : 0.812 11777.9 11777.9 * Matrix 4x4 (単精度 fp) multi-thread C++ code : 0.605 11854.4 11854.4 NEON vmla 128bit A : 0.638 11240.0 11240.0 NEON vmla 64bit A : 0.903 7935.9 7935.9 NEON vfma 128bit A : 0.942 7609.5 7609.5 NEON vmla 128bit B : 0.479 14978.3 14978.3 NEON vmla 64bit B : 0.758 9456.1 9456.1 NEON vfma 128bit B : 0.350 20507.3 20507.3 NEON vfma 128bit C : 0.943 7605.2 7605.2 平均 : 0.702 11398.4 11398.4 最大 : 0.350 20507.3 20507.3
Nexus 7 (2013) Snapdragon S4 Pro APQ8064 Krait 1.5GHz Quad core
Nexus 7 (2013) Snapdragon S4 Pro APQ8064 Krait 1.5GHz Quad core ARCH: ARMv7-A CPU core: 4 VFP: VFPv4-D32 NEON FMA: Yes NEON: Yes SingleT SP max: 11.947 GFLOPS SingleT DP max: 3.005 GFLOPS MultiT SP max: 47.808 GFLOPS MultiT DP max: 11.751 GFLOPS * VFP/NEON (single fp) VFP fmuls (32bit x1) n8 : 1.427 1401.7 1401.7 VFP fadds (32bit x1) n8 : 1.366 1464.5 1470.9 VFP fmacs (32bit x1) n8 : 1.482 2698.2 2698.2 VFP vfma.f32 (32bit x1) n8 : 1.342 2979.8 2979.8 NEON vmul.f32 (32bit x2) n8 : 1.341 2981.8 2981.8 NEON vadd.f32 (32bit x2) n8 : 1.342 2981.6 2981.6 NEON vmla.f32 (32bit x2) n8 : 1.474 5427.5 5427.5 NEON vfma.f32 (32bit x2) n8 : 1.340 5971.1 5971.1 NEON vmul.f32 (32bit x4) n8 : 1.337 5983.7 5983.7 NEON vadd.f32 (32bit x4) n8 : 1.338 5980.8 5980.8 NEON vmla.f32 (32bit x4) n8 : 1.472 10869.5 10869.5 NEON vfma.f32 (32bit x4) n8 : 1.339 11946.6 11946.6 VFP fmuls (32bit x1) ns4 : 1.674 1194.4 1194.4 VFP fadds (32bit x1) ns4 : 1.338 1495.0 1495.0 VFP fmacs (32bit x1) ns4 : 2.678 1493.8 1493.8 VFP vfma.f32 (32bit x1) ns4 : 1.686 2372.1 2389.4 NEON vmul.f32 (32bit x2) ns4 : 1.692 2363.9 2390.4 NEON vadd.f32 (32bit x2) ns4 : 1.345 2974.7 2980.4 NEON vmla.f32 (32bit x2) ns4 : 2.686 2978.1 2981.7 NEON vfma.f32 (32bit x2) ns4 : 1.668 4797.3 4797.3 NEON vmul.f32 (32bit x4) ns4 : 1.665 4804.6 4804.6 NEON vadd.f32 (32bit x4) ns4 : 1.335 5994.7 5994.7 NEON vmla.f32 (32bit x4) ns4 : 2.686 5956.3 5956.7 NEON vfma.f32 (32bit x4) ns4 : 1.664 9618.0 9618.0 VFP fmuls (32bit x1) n1 : 1.353 1477.8 1492.7 VFP fadds (32bit x1) n1 : 1.342 1490.8 1493.3 VFP fmacs (32bit x1) n1 : 4.015 996.2 996.2 VFP vfma.f32 (32bit x1) n1 : 5.396 741.3 744.7 NEON vmul.f32 (32bit x2) n1 : 1.352 2957.7 2986.7 NEON vadd.f32 (32bit x2) n1 : 1.359 2942.6 2986.2 NEON vmla.f32 (32bit x2) n1 : 4.007 1996.6 1996.6 NEON vfma.f32 (32bit x2) n1 : 5.322 1503.2 1503.2 NEON vmul.f32 (32bit x4) n1 : 1.330 6014.1 6014.1 NEON vadd.f32 (32bit x4) n1 : 1.330 6015.1 6015.1 NEON vmla.f32 (32bit x4) n1 : 3.993 4006.7 4006.7 NEON vfma.f32 (32bit x4) n1 : 5.314 3011.0 3011.0 NEON vmul.f32 (32bit x4) n12 : 2.020 5941.3 5975.1 NEON vadd.f32 (32bit x4) n12 : 2.014 5957.5 5976.0 NEON vmla.f32 (32bit x4) n12 : 2.239 10720.3 10867.7 NEON vfma.f32 (32bit x4) n12 : 2.018 11894.2 11946.9 平均 : 2.078 4359.9 4370.0 最大 : 1.330 11946.6 11946.9 * VFP/NEON (double fp) VFP fmuld (64bit x1) n8 : 1.442 1386.9 1396.2 VFP faddd (64bit x1) n8 : 1.395 1433.4 1484.3 VFP fmacd (64bit x1) n8 : 1.750 2285.2 2305.8 VFP vfma.f64 (64bit x1) n8 : 1.344 2976.6 3005.1 VFP fmuld (64bit x1) ns4 : 2.016 991.8 993.1 VFP faddd (64bit x1) ns4 : 1.346 1486.1 1507.2 VFP fmacd (64bit x1) ns4 : 3.349 1194.3 1204.6 VFP vfma.f64 (64bit x1) ns4 : 2.008 1992.4 2007.5 VFP fmuld (64bit x1) n1 : 1.359 1471.5 1505.1 VFP faddd (64bit x1) n1 : 1.338 1495.1 1506.6 VFP fmacd (64bit x1) n1 : 4.006 998.5 1002.7 VFP vfma.f64 (64bit x1) n1 : 8.013 499.2 501.8 平均 : 2.447 1517.6 1535.0 最大 : 1.338 2976.6 3005.1 * Matrix 4x4 (single fp) C++ code : - - - NEON vmla 128bit A : - - - NEON vmla 64bit A : - - - NEON vfma 128bit A : - - - NEON vmla 128bit B : - - - NEON vmla 64bit B : - - - NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - 平均 : - - - 最大 : - - - * VFP/NEON (single fp) multi-thread VFP fmuls (32bit x1) n8 : 1.492 5362.2 5408.2 VFP fadds (32bit x1) n8 : 1.376 5814.9 5853.1 VFP fmacs (32bit x1) n8 : 1.511 10590.0 10671.8 VFP vfma.f32 (32bit x1) n8 : 1.398 11448.9 11737.7 NEON vmul.f32 (32bit x2) n8 : 1.392 11498.2 11745.9 NEON vadd.f32 (32bit x2) n8 : 1.366 11709.8 11744.6 NEON vmla.f32 (32bit x2) n8 : 1.498 21364.2 21364.2 NEON vfma.f32 (32bit x2) n8 : 1.364 23453.8 23475.5 NEON vmul.f32 (32bit x4) n8 : 1.362 23495.7 23495.7 NEON vadd.f32 (32bit x4) n8 : 1.359 23546.0 23546.0 NEON vmla.f32 (32bit x4) n8 : 1.501 42637.6 42821.7 NEON vfma.f32 (32bit x4) n8 : 1.364 46929.6 47113.2 VFP fmuls (32bit x1) ns4 : 1.703 4697.2 4698.8 VFP fadds (32bit x1) ns4 : 1.364 5866.8 5872.4 VFP fmacs (32bit x1) ns4 : 2.720 5881.7 5886.1 VFP vfma.f32 (32bit x1) ns4 : 1.703 9397.4 9399.2 NEON vmul.f32 (32bit x2) ns4 : 1.706 9376.4 9376.4 NEON vadd.f32 (32bit x2) ns4 : 1.361 11754.6 11812.0 NEON vmla.f32 (32bit x2) ns4 : 2.717 11779.3 11779.3 NEON vfma.f32 (32bit x2) ns4 : 1.706 18758.0 18806.6 NEON vmul.f32 (32bit x4) ns4 : 1.708 18732.0 18794.0 NEON vadd.f32 (32bit x4) ns4 : 1.363 23469.1 23534.9 NEON vmla.f32 (32bit x4) ns4 : 2.719 23539.2 23539.2 NEON vfma.f32 (32bit x4) ns4 : 1.704 37566.9 37566.9 VFP fmuls (32bit x1) n1 : 1.363 5870.1 5870.6 VFP fadds (32bit x1) n1 : 1.372 5832.7 5837.8 VFP fmacs (32bit x1) n1 : 4.069 3932.0 3932.0 VFP vfma.f32 (32bit x1) n1 : 5.455 2933.3 2940.9 NEON vmul.f32 (32bit x2) n1 : 1.364 11728.3 11765.0 NEON vadd.f32 (32bit x2) n1 : 1.366 11711.7 11764.3 NEON vmla.f32 (32bit x2) n1 : 4.082 7839.4 7856.3 NEON vfma.f32 (32bit x2) n1 : 5.489 5830.3 5875.7 NEON vmul.f32 (32bit x4) n1 : 1.377 23237.3 23442.3 NEON vadd.f32 (32bit x4) n1 : 1.387 23065.4 23570.1 NEON vmla.f32 (32bit x4) n1 : 4.145 15441.5 15661.5 NEON vfma.f32 (32bit x4) n1 : 5.453 11736.4 11780.6 NEON vmul.f32 (32bit x4) n12 : 2.055 23357.0 23478.6 NEON vadd.f32 (32bit x4) n12 : 2.049 23431.6 23506.6 NEON vmla.f32 (32bit x4) n12 : 2.251 42643.0 43352.0 NEON vfma.f32 (32bit x4) n12 : 2.025 47413.8 47807.6 平均 : 2.119 17116.8 17212.1 最大 : 1.359 47413.8 47807.6 * VFP/NEON (double fp) multi-thread VFP fmuld (64bit x1) n8 : 1.505 5315.8 5315.8 VFP faddd (64bit x1) n8 : 1.369 5844.3 5844.3 VFP fmacd (64bit x1) n8 : 1.772 9031.8 9031.8 VFP vfma.f64 (64bit x1) n8 : 1.362 11751.1 11751.1 VFP fmuld (64bit x1) ns4 : 2.040 3921.7 3921.7 VFP faddd (64bit x1) ns4 : 1.367 5853.2 5853.2 VFP fmacd (64bit x1) ns4 : 3.403 4701.8 4701.8 VFP vfma.f64 (64bit x1) ns4 : 2.042 7833.9 7833.9 VFP fmuld (64bit x1) n1 : 1.362 5875.5 5875.5 VFP faddd (64bit x1) n1 : 1.360 5880.3 5880.3 VFP fmacd (64bit x1) n1 : 4.078 3923.5 3923.5 VFP vfma.f64 (64bit x1) n1 : 8.146 1964.1 1964.1 平均 : 2.484 5991.4 5991.4 最大 : 1.360 11751.1 11751.1 * Matrix 4x4 (single fp) multi-thread C++ code : - - - NEON vmla 128bit A : - - - NEON vmla 64bit A : - - - NEON vfma 128bit A : - - - NEON vmla 128bit B : - - - NEON vmla 64bit B : - - - NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - 平均 : - - - 最大 : - - -
Kindle Fire HDX7 Snapdragon 800 MSM8974 Krait 400 2.2GHz Quad core
Kindle Fire HDX7 Snapdragon 800 MSM8974 Krait 400 2.2GHz Quad core ARCH: ARMv7A CPU core: 4 VFP: VFPv4-D32 NEON FMA: Yes NEON: Yes SingleT SP max: 17.128 GFLOPS SingleT DP max: 4.289 GFLOPS MultiT SP max: 67.539 GFLOPS MultiT DP max: 16.874 GFLOPS * VFP/NEON (single fp) VFP fmuls (32bit x1) n8 : 1.955 2045.7 2045.7 VFP fadds (32bit x1) n8 : 1.873 2135.6 2135.6 VFP fmacs (32bit x1) n8 : 2.060 3884.2 3884.2 VFP vfma.f32 (32bit x1) n8 : 1.871 4276.0 4276.0 NEON vmul.f32 (32bit x2) n8 : 1.871 4275.7 4275.7 NEON vadd.f32 (32bit x2) n8 : 1.878 4259.8 4259.8 NEON vmla.f32 (32bit x2) n8 : 2.126 7525.2 7525.2 NEON vfma.f32 (32bit x2) n8 : 1.933 8275.7 8275.7 NEON vmul.f32 (32bit x4) n8 : 1.896 8438.3 8438.3 NEON vadd.f32 (32bit x4) n8 : 1.869 8560.7 8560.7 NEON vmla.f32 (32bit x4) n8 : 2.114 15138.8 15138.8 NEON vfma.f32 (32bit x4) n8 : 1.900 16843.9 16843.9 VFP fmuls (32bit x1) ns4 : 2.414 1657.0 1657.0 VFP fadds (32bit x1) ns4 : 1.867 2143.0 2143.0 VFP fmacs (32bit x1) ns4 : 3.736 2141.3 2141.3 VFP vfma.f32 (32bit x1) ns4 : 2.410 3319.0 3319.0 NEON vmul.f32 (32bit x2) ns4 : 2.395 3340.4 3340.4 NEON vadd.f32 (32bit x2) ns4 : 1.891 4229.8 4229.8 NEON vmla.f32 (32bit x2) ns4 : 3.817 4191.5 4191.5 NEON vfma.f32 (32bit x2) ns4 : 2.351 6807.0 6807.0 NEON vmul.f32 (32bit x4) ns4 : 2.387 6702.4 6702.4 NEON vadd.f32 (32bit x4) ns4 : 1.887 8477.9 8477.9 NEON vmla.f32 (32bit x4) ns4 : 3.838 8337.0 8337.0 NEON vfma.f32 (32bit x4) ns4 : 2.360 13559.9 13559.9 VFP fmuls (32bit x1) n1 : 1.883 2124.7 2124.7 VFP fadds (32bit x1) n1 : 1.868 2140.8 2140.8 VFP fmacs (32bit x1) n1 : 5.722 1398.0 1398.0 VFP vfma.f32 (32bit x1) n1 : 7.529 1062.6 1062.6 NEON vmul.f32 (32bit x2) n1 : 1.900 4210.0 4210.0 NEON vadd.f32 (32bit x2) n1 : 1.939 4126.9 4126.9 NEON vmla.f32 (32bit x2) n1 : 5.626 2843.8 2843.8 NEON vfma.f32 (32bit x2) n1 : 7.472 2141.3 2141.3 NEON vmul.f32 (32bit x4) n1 : 1.871 8549.3 8549.3 NEON vadd.f32 (32bit x4) n1 : 1.869 8559.9 8559.9 NEON vmla.f32 (32bit x4) n1 : 5.663 5650.8 5650.8 NEON vfma.f32 (32bit x4) n1 : 7.559 4233.4 4233.4 NEON vmul.f32 (32bit x4) n12 : 2.833 8471.3 8471.3 NEON vadd.f32 (32bit x4) n12 : 2.869 8365.3 8365.3 NEON vmla.f32 (32bit x4) n12 : 3.140 15285.2 15285.2 NEON vfma.f32 (32bit x4) n12 : 2.802 17128.0 17128.0 平均 : 2.931 6171.4 6171.4 最大 : 1.867 17128.0 17128.0 * VFP/NEON (double fp) VFP fmuld (64bit x1) n8 : 2.037 1963.6 1963.6 VFP faddd (64bit x1) n8 : 1.920 2082.8 2082.8 VFP fmacd (64bit x1) n8 : 2.454 3260.5 3260.5 VFP vfma.f64 (64bit x1) n8 : 1.865 4289.4 4289.4 VFP fmuld (64bit x1) ns4 : 2.822 1417.2 1417.2 VFP faddd (64bit x1) ns4 : 1.866 2143.7 2143.7 VFP fmacd (64bit x1) ns4 : 4.664 1715.3 1715.3 VFP vfma.f64 (64bit x1) ns4 : 2.798 2859.3 2859.3 VFP fmuld (64bit x1) n1 : 1.867 2142.5 2142.5 VFP faddd (64bit x1) n1 : 1.866 2143.6 2143.6 VFP fmacd (64bit x1) n1 : 5.624 1422.6 1422.6 VFP vfma.f64 (64bit x1) n1 : 11.416 700.8 700.8 平均 : 3.433 2178.4 2178.4 最大 : 1.865 4289.4 4289.4 * Matrix 4x4 (single fp) C++ code : - - - NEON vmla 128bit A : - - - NEON vmla 64bit A : - - - NEON vfma 128bit A : - - - NEON vmla 128bit B : - - - NEON vmla 64bit B : - - - NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - 平均 : - - - 最大 : - - - * VFP/NEON (single fp) multi-thread VFP fmuls (32bit x1) n8 : 1.966 8138.7 8138.7 VFP fadds (32bit x1) n8 : 1.907 8390.7 8413.0 VFP fmacs (32bit x1) n8 : 2.089 15317.8 15324.0 VFP vfma.f32 (32bit x1) n8 : 1.896 16873.4 16890.0 NEON vmul.f32 (32bit x2) n8 : 1.898 16856.6 16856.6 NEON vadd.f32 (32bit x2) n8 : 1.901 16835.3 16903.2 NEON vmla.f32 (32bit x2) n8 : 2.090 30621.3 30655.0 NEON vfma.f32 (32bit x2) n8 : 1.910 33510.2 33769.1 NEON vmul.f32 (32bit x4) n8 : 1.900 33683.4 33745.6 NEON vadd.f32 (32bit x4) n8 : 1.897 33746.1 33746.1 NEON vmla.f32 (32bit x4) n8 : 2.085 61387.1 61387.1 NEON vfma.f32 (32bit x4) n8 : 1.901 67348.8 67539.0 VFP fmuls (32bit x1) ns4 : 2.369 6753.2 6753.2 VFP fadds (32bit x1) ns4 : 1.902 8410.8 8440.4 VFP fmacs (32bit x1) ns4 : 3.792 8438.2 8438.2 VFP vfma.f32 (32bit x1) ns4 : 2.376 13466.8 13466.8 NEON vmul.f32 (32bit x2) ns4 : 2.372 13491.1 13491.1 NEON vadd.f32 (32bit x2) ns4 : 1.883 16992.2 16992.2 NEON vmla.f32 (32bit x2) ns4 : 3.808 16807.5 16876.2 NEON vfma.f32 (32bit x2) ns4 : 2.372 26985.8 26985.8 NEON vmul.f32 (32bit x4) ns4 : 2.373 26975.5 26999.5 NEON vadd.f32 (32bit x4) ns4 : 1.897 33736.3 33741.2 NEON vmla.f32 (32bit x4) ns4 : 3.792 33751.1 33751.1 NEON vfma.f32 (32bit x4) ns4 : 2.384 53698.8 53938.5 VFP fmuls (32bit x1) n1 : 1.894 8446.0 8446.0 VFP fadds (32bit x1) n1 : 1.897 8435.5 8435.5 VFP fmacs (32bit x1) n1 : 5.689 5624.8 5629.3 VFP vfma.f32 (32bit x1) n1 : 7.588 4217.3 4234.9 NEON vmul.f32 (32bit x2) n1 : 1.897 16865.2 16865.2 NEON vadd.f32 (32bit x2) n1 : 1.897 16872.7 16872.7 NEON vmla.f32 (32bit x2) n1 : 5.689 11250.3 11268.6 NEON vfma.f32 (32bit x2) n1 : 7.584 8438.9 8438.9 NEON vmul.f32 (32bit x4) n1 : 1.909 33517.0 33723.8 NEON vadd.f32 (32bit x4) n1 : 1.899 33708.2 33735.9 NEON vmla.f32 (32bit x4) n1 : 5.653 22642.2 22642.2 NEON vfma.f32 (32bit x4) n1 : 7.583 16879.9 16879.9 NEON vmul.f32 (32bit x4) n12 : 2.846 33735.1 33735.1 NEON vadd.f32 (32bit x4) n12 : 2.846 33736.7 33736.7 NEON vmla.f32 (32bit x4) n12 : 3.143 61093.9 61325.7 NEON vfma.f32 (32bit x4) n12 : 2.883 66598.4 67505.6 平均 : 2.941 24607.0 24667.9 最大 : 1.883 67348.8 67539.0 * VFP/NEON (double fp) multi-thread VFP fmuld (64bit x1) n8 : 1.995 8019.2 8019.2 VFP faddd (64bit x1) n8 : 1.900 8420.7 8420.7 VFP fmacd (64bit x1) n8 : 2.463 12991.2 12991.2 VFP vfma.f64 (64bit x1) n8 : 1.896 16874.0 16874.0 VFP fmuld (64bit x1) ns4 : 2.854 5606.7 5606.7 VFP faddd (64bit x1) ns4 : 1.908 8384.5 8384.5 VFP fmacd (64bit x1) ns4 : 4.859 6585.5 6585.5 VFP vfma.f64 (64bit x1) ns4 : 2.856 11204.4 11204.4 VFP fmuld (64bit x1) n1 : 1.897 8435.4 8435.4 VFP faddd (64bit x1) n1 : 1.909 8381.4 8381.4 VFP fmacd (64bit x1) n1 : 5.685 5628.7 5628.7 VFP vfma.f64 (64bit x1) n1 : 11.388 2810.0 2810.0 平均 : 3.468 8611.8 8611.8 最大 : 1.896 16874.0 16874.0 * Matrix 4x4 (single fp) multi-thread C++ code : - - - NEON vmla 128bit A : - - - NEON vmla 64bit A : - - - NEON vfma 128bit A : - - - NEON vmla 128bit B : - - - NEON vmla 64bit B : - - - NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - 平均 : - - - 最大 : - - -
Nexus 6 Snapdragon 805 APQ8084 Krait 2.7GHz Quad core
Nexus 6 Snapdragon 805 APQ8084 Krait 2.7GHz Quad core ARCH: ARMv7A CPU core: 4 VFP: VFPv4-D32 NEON FMA: Yes NEON: Yes Result SingleT SP max: 15.575 GFLOPS SingleT DP max: 4.547 GFLOPS MultiT SP max: 64.316 GFLOPS MultiT DP max: 20.393 GFLOPS * VFP/NEON (単精度 fp) single-thread VFP fmuls (32bit x1) n8 : 0.573 2092.5 2092.5 VFP fadds (32bit x1) n8 : 0.483 2485.8 2485.8 VFP fmacs (32bit x1) n8 : 0.531 4521.5 4521.5 VFP vfma.f32 (32bit x1) n8 : 0.494 4854.6 4854.6 NEON vmul.f32 (32bit x2) n8 : 0.479 5011.3 5011.3 NEON vadd.f32 (32bit x2) n8 : 0.488 4915.4 4915.4 NEON vmla.f32 (32bit x2) n8 : 0.576 8338.8 8338.8 NEON vfma.f32 (32bit x2) n8 : 0.498 9644.3 9644.3 NEON vmul.f32 (32bit x4) n8 : 0.671 7149.2 7149.2 NEON vadd.f32 (32bit x4) n8 : 0.495 9698.8 9698.8 NEON vmla.f32 (32bit x4) n8 : 0.669 14344.9 14344.9 NEON vfma.f32 (32bit x4) n8 : 0.616 15574.8 15574.8 VFP fmuls (32bit x1) ns4 : 0.646 1859.0 1859.0 VFP fadds (32bit x1) ns4 : 0.479 2504.6 2504.6 VFP fmacs (32bit x1) ns4 : 1.034 2321.5 2321.5 VFP vfma.f32 (32bit x1) ns4 : 0.607 3954.4 3954.4 NEON vmul.f32 (32bit x2) ns4 : 0.634 3784.6 3784.6 NEON vadd.f32 (32bit x2) ns4 : 0.549 4372.7 4372.7 NEON vmla.f32 (32bit x2) ns4 : 0.964 4980.9 4980.9 NEON vfma.f32 (32bit x2) ns4 : 0.655 7327.5 7327.5 NEON vmul.f32 (32bit x4) ns4 : 0.647 7413.9 7413.9 NEON vadd.f32 (32bit x4) ns4 : 0.490 9795.6 9795.6 NEON vmla.f32 (32bit x4) ns4 : 1.030 9324.4 9324.4 NEON vfma.f32 (32bit x4) ns4 : 0.672 14287.2 14287.2 VFP fmuls (32bit x1) n1 : 0.490 2449.0 2449.0 VFP fadds (32bit x1) n1 : 0.528 2273.1 2273.1 VFP fmacs (32bit x1) n1 : 1.482 1619.3 1619.3 VFP vfma.f32 (32bit x1) n1 : 2.028 1183.4 1183.4 NEON vmul.f32 (32bit x2) n1 : 0.524 4581.1 4581.1 NEON vadd.f32 (32bit x2) n1 : 0.528 4548.6 4548.6 NEON vmla.f32 (32bit x2) n1 : 1.516 3166.1 3166.1 NEON vfma.f32 (32bit x2) n1 : 2.028 2367.2 2367.2 NEON vmul.f32 (32bit x4) n1 : 0.638 7521.1 7521.1 NEON vadd.f32 (32bit x4) n1 : 0.545 8802.4 8802.4 NEON vmla.f32 (32bit x4) n1 : 1.536 6251.1 6251.1 NEON vfma.f32 (32bit x4) n1 : 1.946 4932.9 4932.9 NEON vmul.f32 (32bit x4) n12 : 0.935 7698.8 7698.8 NEON vadd.f32 (32bit x4) n12 : 0.790 9117.0 9117.0 NEON vmla.f32 (32bit x4) n12 : 0.932 15453.5 15453.5 NEON vfma.f32 (32bit x4) n12 : 0.935 15402.7 15402.7 平均 : 0.809 6448.1 6448.1 最大 : 0.479 15574.8 15574.8 * VFP/NEON (倍精度 fp) single-thread VFP fmuld (64bit x1) n8 : 0.517 2320.3 2320.3 VFP faddd (64bit x1) n8 : 0.487 2466.0 2466.0 VFP fmacd (64bit x1) n8 : 0.688 3490.4 3490.4 VFP vfma.f64 (64bit x1) n8 : 0.528 4546.6 4546.6 VFP fmuld (64bit x1) ns4 : 0.793 1513.4 1513.4 VFP faddd (64bit x1) ns4 : 0.505 2375.5 2375.5 VFP fmacd (64bit x1) ns4 : 1.279 1876.8 1876.8 VFP vfma.f64 (64bit x1) ns4 : 0.743 3229.2 3229.2 VFP fmuld (64bit x1) n1 : 0.468 2562.6 2562.6 VFP faddd (64bit x1) n1 : 0.484 2480.8 2480.8 VFP fmacd (64bit x1) n1 : 1.482 1619.6 1619.6 VFP vfma.f64 (64bit x1) n1 : 3.036 790.5 790.5 平均 : 0.917 2439.3 2439.3 最大 : 0.468 4546.6 4546.6 * Matrix 4x4 (単精度 fp) single-thread C++ code : 0.279 6432.9 6432.9 NEON vmla 128bit A : 0.294 6094.5 6094.5 NEON vmla 64bit A : 0.370 4848.3 4848.3 NEON vfma 128bit A : 0.546 3283.1 3283.1 NEON vmla 128bit B : 0.250 7161.8 7161.8 NEON vmla 64bit B : 0.445 4026.6 4026.6 NEON vfma 128bit B : 0.269 6653.8 6653.8 NEON vfma 128bit C : 0.551 3253.0 3253.0 平均 : 0.375 5219.2 5219.2 最大 : 0.250 7161.8 7161.8 * VFP/NEON (単精度 fp) multi-thread VFP fmuls (32bit x1) n8 : 0.564 8513.7 8513.7 VFP fadds (32bit x1) n8 : 0.478 10034.0 10034.0 VFP fmacs (32bit x1) n8 : 0.581 16534.0 16534.0 VFP vfma.f32 (32bit x1) n8 : 0.495 19405.8 19405.8 NEON vmul.f32 (32bit x2) n8 : 0.473 20295.4 20295.4 NEON vadd.f32 (32bit x2) n8 : 0.490 19590.8 19590.8 NEON vmla.f32 (32bit x2) n8 : 0.542 35416.3 35416.3 NEON vfma.f32 (32bit x2) n8 : 0.488 39348.2 39348.2 NEON vmul.f32 (32bit x4) n8 : 0.608 31566.8 31566.8 NEON vadd.f32 (32bit x4) n8 : 0.475 40385.7 40385.7 NEON vmla.f32 (32bit x4) n8 : 0.601 63845.2 63845.2 NEON vfma.f32 (32bit x4) n8 : 0.598 64207.6 64207.6 VFP fmuls (32bit x1) ns4 : 0.597 8041.7 8041.7 VFP fadds (32bit x1) ns4 : 0.479 10017.9 10017.9 VFP fmacs (32bit x1) ns4 : 1.002 9577.7 9577.7 VFP vfma.f32 (32bit x1) ns4 : 0.598 16047.9 16047.9 NEON vmul.f32 (32bit x2) ns4 : 0.596 16106.9 16106.9 NEON vadd.f32 (32bit x2) ns4 : 0.488 19665.4 19665.4 NEON vmla.f32 (32bit x2) ns4 : 0.959 20026.6 20026.6 NEON vfma.f32 (32bit x2) ns4 : 0.601 31924.0 31924.0 NEON vmul.f32 (32bit x4) ns4 : 0.603 31853.7 31853.7 NEON vadd.f32 (32bit x4) ns4 : 0.478 40201.6 40201.6 NEON vmla.f32 (32bit x4) ns4 : 0.979 39216.0 39216.0 NEON vfma.f32 (32bit x4) ns4 : 0.597 64316.3 64316.3 VFP fmuls (32bit x1) n1 : 0.478 10031.7 10031.7 VFP fadds (32bit x1) n1 : 0.473 10148.8 10148.8 VFP fmacs (32bit x1) n1 : 1.451 6614.6 6614.6 VFP vfma.f32 (32bit x1) n1 : 1.951 4919.8 4919.8 NEON vmul.f32 (32bit x2) n1 : 0.480 20000.1 20000.1 NEON vadd.f32 (32bit x2) n1 : 0.478 20079.3 20079.3 NEON vmla.f32 (32bit x2) n1 : 1.421 13513.8 13513.8 NEON vfma.f32 (32bit x2) n1 : 1.916 10023.4 10023.4 NEON vmul.f32 (32bit x4) n1 : 0.612 31358.4 31358.4 NEON vadd.f32 (32bit x4) n1 : 0.477 40250.5 40250.5 NEON vmla.f32 (32bit x4) n1 : 1.446 26564.1 26564.1 NEON vfma.f32 (32bit x4) n1 : 1.903 20180.7 20180.7 NEON vmul.f32 (32bit x4) n12 : 0.908 31726.8 31726.8 NEON vadd.f32 (32bit x4) n12 : 0.718 40127.7 40127.7 NEON vmla.f32 (32bit x4) n12 : 0.896 64287.6 64287.6 NEON vfma.f32 (32bit x4) n12 : 0.899 64087.7 64087.7 平均 : 0.772 27251.3 27251.3 最大 : 0.473 64316.3 64316.3 * VFP/NEON (倍精度 fp) multi-thread VFP fmuld (64bit x1) n8 : 0.573 8380.2 8380.2 VFP faddd (64bit x1) n8 : 0.478 10051.2 10051.2 VFP fmacd (64bit x1) n8 : 0.641 14975.0 14975.0 VFP vfma.f64 (64bit x1) n8 : 0.471 20392.6 20392.6 VFP fmuld (64bit x1) ns4 : 0.742 6472.2 6472.2 VFP faddd (64bit x1) ns4 : 0.489 9814.2 9814.2 VFP fmacd (64bit x1) ns4 : 1.193 8047.4 8047.4 VFP vfma.f64 (64bit x1) ns4 : 0.741 12953.9 12953.9 VFP fmuld (64bit x1) n1 : 0.476 10075.3 10075.3 VFP faddd (64bit x1) n1 : 0.489 9806.7 9806.7 VFP fmacd (64bit x1) n1 : 1.467 6542.2 6542.2 VFP vfma.f64 (64bit x1) n1 : 2.907 3301.8 3301.8 平均 : 0.889 10067.7 10067.7 最大 : 0.471 20392.6 20392.6 * Matrix 4x4 (単精度 fp) multi-thread C++ code : 0.313 22903.2 22903.2 NEON vmla 128bit A : 0.262 27307.0 27307.0 NEON vmla 64bit A : 0.372 19287.7 19287.7 NEON vfma 128bit A : 0.505 14185.2 14185.2 NEON vmla 128bit B : 0.276 25943.6 25943.6 NEON vmla 64bit B : 0.386 18563.1 18563.1 NEON vfma 128bit B : 0.245 29247.6 29247.6 NEON vfma 128bit C : 0.497 14414.5 14414.5 平均 : 0.357 21481.5 21481.5 最大 : 0.245 29247.6 29247.6
Apple Swift (ARMv7A) VFPv4+NEON
iPad 4 Apple A6 Swift 1.4GHz dual core
iPad 4 Apple A6 Swift 1.4GHz dual core ARCH: ARMv7A VFP: VFPv4-D32 NEON SingleT SP max: 10.855 GFLOPS SingleT DP max: 1.818 GFLOPS MultiT SP max: 21.502 GFLOPS MultiT DP max: 3.573 GFLOPS CPU core: 2 FMA: Yes NEON: Yes * VFP/NEON (single fp) VFP fmuls (32bit x1) n8 : 0.389 1029.2 1029.2 VFP fadds (32bit x1) n8 : 0.325 1229.2 1229.2 VFP fmacs (32bit x1) n8 : 0.591 1353.8 1354.9 VFP vfma.f32 (32bit x1) n8 : 0.585 1367.0 1367.0 NEON vmul.f32 (32bit x2) n8 : 0.299 2672.0 2672.0 NEON vadd.f32 (32bit x2) n8 : 0.293 2732.4 2732.4 NEON vmla.f32 (32bit x2) n8 : 0.302 5293.3 5326.4 NEON vfma.f32 (32bit x2) n8 : 0.312 5131.6 5321.1 NEON vmul.f32 (32bit x4) n8 : 0.300 5325.3 5325.3 NEON vadd.f32 (32bit x4) n8 : 0.293 5460.2 5460.2 NEON vmla.f32 (32bit x4) n8 : 0.301 10627.8 10640.6 NEON vfma.f32 (32bit x4) n8 : 0.301 10646.1 10646.1 VFP fmuls (32bit x1) ns4 : 0.587 681.9 681.9 VFP fadds (32bit x1) ns4 : 0.587 681.4 682.2 VFP fmacs (32bit x1) ns4 : 1.174 681.5 681.7 VFP vfma.f32 (32bit x1) ns4 : 1.167 685.3 685.3 NEON vmul.f32 (32bit x2) ns4 : 0.298 2682.3 2687.2 NEON vadd.f32 (32bit x2) ns4 : 0.291 2752.5 2754.9 NEON vmla.f32 (32bit x2) ns4 : 0.580 2760.6 2760.6 NEON vfma.f32 (32bit x2) ns4 : 0.581 2754.4 2756.7 NEON vmul.f32 (32bit x4) ns4 : 0.297 5379.1 5379.1 NEON vadd.f32 (32bit x4) ns4 : 0.291 5502.7 5514.2 NEON vmla.f32 (32bit x4) ns4 : 0.580 5520.1 5520.1 NEON vfma.f32 (32bit x4) ns4 : 0.581 5508.7 5516.2 VFP fmuls (32bit x1) n1 : 1.159 345.0 345.0 VFP fadds (32bit x1) n1 : 1.158 345.3 345.3 VFP fmacs (32bit x1) n1 : 2.318 345.1 345.1 VFP vfma.f32 (32bit x1) n1 : 2.317 345.2 345.2 NEON vmul.f32 (32bit x2) n1 : 0.297 2694.1 2694.1 NEON vadd.f32 (32bit x2) n1 : 0.290 2755.8 2757.2 NEON vmla.f32 (32bit x2) n1 : 2.321 689.5 689.5 NEON vfma.f32 (32bit x2) n1 : 2.322 688.9 690.7 NEON vmul.f32 (32bit x4) n1 : 0.297 5384.6 5384.8 NEON vadd.f32 (32bit x4) n1 : 0.291 5495.1 5513.0 NEON vmla.f32 (32bit x4) n1 : 2.319 1379.9 1379.9 NEON vfma.f32 (32bit x4) n1 : 2.319 1380.0 1380.0 NEON vmul.f32 (32bit x4) n12 : 0.443 5423.6 5433.7 NEON vadd.f32 (32bit x4) n12 : 0.435 5521.4 5521.4 NEON vmla.f32 (32bit x4) n12 : 0.443 10825.3 10840.8 NEON vfma.f32 (32bit x4) n12 : 0.442 10855.1 10855.1 Average : 0.762 3573.3 3581.1 Highest : 0.290 10855.1 10855.1 * VFP/NEON (double fp) VFP fmuld (64bit x1) n8 : 0.379 1056.1 1056.1 VFP faddd (64bit x1) n8 : 0.316 1265.6 1265.6 VFP fmacd (64bit x1) n8 : 0.441 1815.6 1815.6 VFP vfma.f64 (64bit x1) n8 : 0.440 1818.2 1818.2 VFP fmuld (64bit x1) ns4 : 0.439 910.7 910.7 VFP faddd (64bit x1) ns4 : 0.440 909.6 909.6 VFP fmacd (64bit x1) ns4 : 0.878 911.7 911.7 VFP vfma.f64 (64bit x1) ns4 : 0.877 911.9 911.9 VFP fmuld (64bit x1) n1 : 0.300 1333.2 1333.2 VFP faddd (64bit x1) n1 : 0.293 1363.6 1363.6 VFP fmacd (64bit x1) n1 : 3.507 228.1 228.1 VFP vfma.f64 (64bit x1) n1 : 3.479 229.9 229.9 Average : 0.982 1062.8 1062.8 Highest : 0.293 1818.2 1818.2 * Matrix 4x4 C++ code : - - - NEON vmla 128bit A : - - - NEON vmla 64bit A : - - - NEON vfma 128bit A : - - - NEON vmla 128bit B : - - - NEON vmla 64bit B : - - - NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - Average : - - - Highest : - - - * VFP/NEON (single fp) multi-thread VFP fmuls (32bit x1) n8 : 0.500 1600.5 1600.5 VFP fadds (32bit x1) n8 : 0.362 2209.1 2209.1 VFP fmacs (32bit x1) n8 : 0.606 2638.7 2638.7 VFP vfma.f32 (32bit x1) n8 : 0.599 2672.7 2672.7 NEON vmul.f32 (32bit x2) n8 : 0.309 5184.7 5184.7 NEON vadd.f32 (32bit x2) n8 : 0.298 5361.0 5361.0 NEON vmla.f32 (32bit x2) n8 : 0.313 10223.1 10223.1 NEON vfma.f32 (32bit x2) n8 : 0.306 10441.8 10441.8 NEON vmul.f32 (32bit x4) n8 : 0.308 10402.9 10402.9 NEON vadd.f32 (32bit x4) n8 : 0.302 10583.3 10583.3 NEON vmla.f32 (32bit x4) n8 : 0.308 20751.2 20751.2 NEON vfma.f32 (32bit x4) n8 : 0.324 19766.2 19766.2 VFP fmuls (32bit x1) ns4 : 0.609 1313.2 1313.2 VFP fadds (32bit x1) ns4 : 0.599 1336.2 1336.2 VFP fmacs (32bit x1) ns4 : 1.189 1345.6 1345.6 VFP vfma.f32 (32bit x1) ns4 : 1.183 1353.0 1353.0 NEON vmul.f32 (32bit x2) ns4 : 0.303 5282.9 5282.9 NEON vadd.f32 (32bit x2) ns4 : 0.294 5444.8 5444.8 NEON vmla.f32 (32bit x2) ns4 : 0.588 5443.6 5443.6 NEON vfma.f32 (32bit x2) ns4 : 0.590 5422.0 5422.0 NEON vmul.f32 (32bit x4) ns4 : 0.305 10479.9 10479.9 NEON vadd.f32 (32bit x4) ns4 : 0.298 10741.7 10741.7 NEON vmla.f32 (32bit x4) ns4 : 0.588 10883.4 10883.4 NEON vfma.f32 (32bit x4) ns4 : 0.586 10925.6 10925.6 VFP fmuls (32bit x1) n1 : 1.175 681.0 681.0 VFP fadds (32bit x1) n1 : 1.172 682.3 682.3 VFP fmacs (32bit x1) n1 : 2.345 682.4 682.4 VFP vfma.f32 (32bit x1) n1 : 2.342 683.2 683.2 NEON vmul.f32 (32bit x2) n1 : 0.303 5275.7 5275.7 NEON vadd.f32 (32bit x2) n1 : 0.294 5447.8 5447.8 NEON vmla.f32 (32bit x2) n1 : 2.344 1365.4 1365.4 NEON vfma.f32 (32bit x2) n1 : 2.341 1367.2 1367.2 NEON vmul.f32 (32bit x4) n1 : 0.302 10593.8 10593.8 NEON vadd.f32 (32bit x4) n1 : 0.316 10113.7 10113.7 NEON vmla.f32 (32bit x4) n1 : 2.350 2723.5 2723.5 NEON vfma.f32 (32bit x4) n1 : 2.339 2736.0 2736.0 NEON vmul.f32 (32bit x4) n12 : 0.450 10668.8 10668.8 NEON vadd.f32 (32bit x4) n12 : 0.446 10751.5 10751.5 NEON vmla.f32 (32bit x4) n12 : 0.446 21502.3 21502.3 NEON vfma.f32 (32bit x4) n12 : 0.449 21384.8 21384.8 Average : 0.777 6961.7 6961.7 Highest : 0.294 21502.3 21502.3 * VFP/NEON (double fp) multi-thread VFP fmuld (64bit x1) n8 : 0.470 1702.7 1702.7 VFP faddd (64bit x1) n8 : 0.362 2212.9 2212.9 VFP fmacd (64bit x1) n8 : 0.458 3495.9 3495.9 VFP vfma.f64 (64bit x1) n8 : 0.448 3572.8 3572.8 VFP fmuld (64bit x1) ns4 : 0.455 1759.2 1759.2 VFP faddd (64bit x1) ns4 : 0.471 1698.6 1698.6 VFP fmacd (64bit x1) ns4 : 0.894 1790.5 1790.5 VFP vfma.f64 (64bit x1) ns4 : 0.895 1787.8 1787.8 VFP fmuld (64bit x1) n1 : 0.307 2606.6 2606.6 VFP faddd (64bit x1) n1 : 0.300 2671.0 2671.0 VFP fmacd (64bit x1) n1 : 3.551 450.6 450.6 VFP vfma.f64 (64bit x1) n1 : 3.515 455.2 455.2 Average : 1.010 2017.0 2017.0 Highest : 0.300 3572.8 3572.8 * Matrix 4x4 multi thread C++ code : 1.203 1489.3 1489.3 NEON vmla 128bit A : 0.316 5668.5 5668.5 NEON vmla 64bit A : 0.405 4428.2 4428.2 NEON vfma 128bit A : 0.396 4526.7 4526.7 NEON vmla 128bit B : 0.333 5381.6 5381.6 NEON vmla 64bit B : 0.353 5077.5 5077.5 NEON vfma 128bit B : 0.406 4416.0 4416.0 NEON vfma 128bit C : 0.401 4464.6 4464.6 Average : 0.477 4431.5 4431.5 Highest : 0.316 5668.5 5668.5
iPhone 5 Apple A6 Swift 1.3GHz dual core
iPhone 5 Apple A6 Swift 1.3GHz dual core ARCH: ARMv7A VFP: VFPv4-D32 NEON SingleT SP max: 10.094 GFLOPS SingleT DP max: 1.710 GFLOPS MultiT SP max: 20.029 GFLOPS MultiT DP max: 3.398 GFLOPS CPU core: 2 FMA: Yes NEON: Yes * VFP/NEON (single fp) VFP fmuls (32bit x1) n8 : 3.275 1221.3 1226.4 VFP fadds (32bit x1) n8 : 3.128 1278.8 1279.7 VFP fmacs (32bit x1) n8 : 6.244 1281.1 1281.6 VFP vfma.f32 (32bit x1) n8 : 6.249 1280.1 1280.1 NEON vmul.f32 (32bit x2) n8 : 3.198 2501.5 2501.5 NEON vadd.f32 (32bit x2) n8 : 3.120 2564.0 2564.0 NEON vmla.f32 (32bit x2) n8 : 3.200 4999.9 4999.9 NEON vfma.f32 (32bit x2) n8 : 3.198 5003.9 5003.9 NEON vmul.f32 (32bit x4) n8 : 3.209 4986.5 5005.0 NEON vadd.f32 (32bit x4) n8 : 3.125 5120.0 5120.0 NEON vmla.f32 (32bit x4) n8 : 3.198 10006.8 10006.8 NEON vfma.f32 (32bit x4) n8 : 3.197 10009.8 10009.8 VFP fmuls (32bit x1) ns4 : 6.247 640.3 640.3 VFP fadds (32bit x1) ns4 : 6.250 640.0 640.0 VFP fmacs (32bit x1) ns4 : 12.489 640.6 640.6 VFP vfma.f32 (32bit x1) ns4 : 12.486 640.7 640.7 NEON vmul.f32 (32bit x2) ns4 : 3.196 2503.4 2503.4 NEON vadd.f32 (32bit x2) ns4 : 3.122 2562.3 2562.3 NEON vmla.f32 (32bit x2) ns4 : 6.236 2565.7 2565.9 NEON vfma.f32 (32bit x2) ns4 : 6.272 2551.0 2564.6 NEON vmul.f32 (32bit x4) ns4 : 3.245 4930.0 4941.3 NEON vadd.f32 (32bit x4) ns4 : 3.126 5118.1 5118.1 NEON vmla.f32 (32bit x4) ns4 : 6.248 5121.9 5127.9 NEON vfma.f32 (32bit x4) ns4 : 6.251 5119.0 5121.7 VFP fmuls (32bit x1) n1 : 12.487 320.3 320.3 VFP fadds (32bit x1) n1 : 12.482 320.5 320.5 VFP fmacs (32bit x1) n1 : 24.978 320.3 320.3 VFP vfma.f32 (32bit x1) n1 : 24.965 320.4 320.4 NEON vmul.f32 (32bit x2) n1 : 3.209 2492.7 2494.5 NEON vadd.f32 (32bit x2) n1 : 3.122 2562.7 2565.7 NEON vmla.f32 (32bit x2) n1 : 24.966 640.9 640.9 NEON vfma.f32 (32bit x2) n1 : 25.107 637.3 640.7 NEON vmul.f32 (32bit x4) n1 : 3.197 5004.7 5004.7 NEON vadd.f32 (32bit x4) n1 : 3.120 5128.2 5128.2 NEON vmla.f32 (32bit x4) n1 : 24.970 1281.5 1281.5 NEON vfma.f32 (32bit x4) n1 : 24.971 1281.5 1281.5 NEON vmul.f32 (32bit x4) n12 : 4.761 5041.1 5041.1 NEON vadd.f32 (32bit x4) n12 : 4.679 5129.6 5129.6 NEON vmla.f32 (32bit x4) n12 : 4.789 10023.4 10023.4 NEON vfma.f32 (32bit x4) n12 : 4.755 10093.9 10093.9 平均 : 8.152 3347.1 3348.8 最大 : 3.120 10093.9 10093.9 * VFP/NEON (double fp) VFP fmuld (64bit x1) n8 : 3.264 1225.3 1225.3 VFP faddd (64bit x1) n8 : 3.123 1280.7 1280.7 VFP fmacd (64bit x1) n8 : 4.691 1705.5 1705.5 VFP vfma.f64 (64bit x1) n8 : 4.678 1710.1 1710.1 VFP fmuld (64bit x1) ns4 : 4.685 853.9 853.9 VFP faddd (64bit x1) ns4 : 4.699 851.2 851.2 VFP fmacd (64bit x1) ns4 : 9.362 854.5 854.5 VFP vfma.f64 (64bit x1) ns4 : 9.369 853.9 853.9 VFP fmuld (64bit x1) n1 : 3.206 1247.8 1247.8 VFP faddd (64bit x1) n1 : 3.122 1281.2 1281.2 VFP fmacd (64bit x1) n1 : 37.453 213.6 213.6 VFP vfma.f64 (64bit x1) n1 : 37.443 213.7 213.7 平均 : 10.425 1024.3 1024.3 最大 : 3.122 1710.1 1710.1 * Matrix 4x4 C++ code : 4.230 847.2 847.2 NEON vmla 128bit A : 1.315 2724.6 2724.6 NEON vmla 64bit A : 1.703 2103.9 2103.9 NEON vfma 128bit A : 1.648 2174.3 2174.3 NEON vmla 128bit B : 1.373 2609.5 2609.5 NEON vmla 64bit B : 1.484 2415.7 2415.7 NEON vfma 128bit B : 1.610 2225.8 2225.8 NEON vfma 128bit C : 1.648 2175.2 2175.2 平均 : 1.877 2159.5 2159.5 最大 : 1.315 2724.6 2724.6 * VFP/NEON (single fp) multi-thread VFP fmuls (32bit x1) n8 : 3.380 2367.2 2367.2 VFP fadds (32bit x1) n8 : 3.150 2539.9 2539.9 VFP fmacs (32bit x1) n8 : 6.298 2540.4 2540.4 VFP vfma.f32 (32bit x1) n8 : 6.278 2548.7 2548.7 NEON vmul.f32 (32bit x2) n8 : 3.224 4962.7 4962.7 NEON vadd.f32 (32bit x2) n8 : 3.144 5089.0 5089.0 NEON vmla.f32 (32bit x2) n8 : 3.223 9927.2 9927.2 NEON vfma.f32 (32bit x2) n8 : 3.263 9805.6 9805.6 NEON vmul.f32 (32bit x4) n8 : 3.254 9835.5 9835.5 NEON vadd.f32 (32bit x4) n8 : 3.150 10157.6 10157.6 NEON vmla.f32 (32bit x4) n8 : 3.228 19824.8 19824.8 NEON vfma.f32 (32bit x4) n8 : 3.221 19871.7 19871.7 VFP fmuls (32bit x1) ns4 : 6.295 1270.8 1270.8 VFP fadds (32bit x1) ns4 : 6.298 1270.2 1270.2 VFP fmacs (32bit x1) ns4 : 12.540 1275.9 1275.9 VFP vfma.f32 (32bit x1) ns4 : 12.565 1273.3 1273.3 NEON vmul.f32 (32bit x2) ns4 : 3.220 4968.9 4968.9 NEON vadd.f32 (32bit x2) ns4 : 3.146 5085.1 5085.1 NEON vmla.f32 (32bit x2) ns4 : 6.308 5073.0 5073.0 NEON vfma.f32 (32bit x2) ns4 : 6.412 4990.5 4990.5 NEON vmul.f32 (32bit x4) ns4 : 3.221 9933.6 9933.6 NEON vadd.f32 (32bit x4) ns4 : 3.150 10158.9 10158.9 NEON vmla.f32 (32bit x4) ns4 : 6.332 10107.9 10107.9 NEON vfma.f32 (32bit x4) ns4 : 6.284 10185.1 10185.1 VFP fmuls (32bit x1) n1 : 12.548 637.6 637.6 VFP fadds (32bit x1) n1 : 12.564 636.8 636.8 VFP fmacs (32bit x1) n1 : 25.166 635.8 635.8 VFP vfma.f32 (32bit x1) n1 : 25.169 635.7 635.7 NEON vmul.f32 (32bit x2) n1 : 3.228 4957.4 4957.4 NEON vadd.f32 (32bit x2) n1 : 3.147 5084.3 5084.3 NEON vmla.f32 (32bit x2) n1 : 25.116 1274.1 1274.1 NEON vfma.f32 (32bit x2) n1 : 25.116 1274.1 1274.1 NEON vmul.f32 (32bit x4) n1 : 3.220 9938.0 9938.0 NEON vadd.f32 (32bit x4) n1 : 3.166 10108.3 10108.3 NEON vmla.f32 (32bit x4) n1 : 25.122 2547.6 2547.6 NEON vfma.f32 (32bit x4) n1 : 25.122 2547.6 2547.6 NEON vmul.f32 (32bit x4) n12 : 4.797 10006.1 10006.1 NEON vadd.f32 (32bit x4) n12 : 4.712 10185.9 10185.9 NEON vmla.f32 (32bit x4) n12 : 4.807 19969.1 19969.1 NEON vfma.f32 (32bit x4) n12 : 4.793 20029.4 20029.4 平均 : 8.209 6638.3 6638.3 最大 : 3.144 20029.4 20029.4 * VFP/NEON (double fp) multi-thread VFP fmuld (64bit x1) n8 : 3.361 2380.4 2380.4 VFP faddd (64bit x1) n8 : 3.144 2544.5 2544.5 VFP fmacd (64bit x1) n8 : 4.715 3393.7 3393.7 VFP vfma.f64 (64bit x1) n8 : 4.709 3398.0 3398.0 VFP fmuld (64bit x1) ns4 : 4.737 1689.0 1689.0 VFP faddd (64bit x1) ns4 : 4.709 1698.7 1698.7 VFP fmacd (64bit x1) ns4 : 9.427 1697.2 1697.2 VFP vfma.f64 (64bit x1) ns4 : 9.448 1693.4 1693.4 VFP fmuld (64bit x1) n1 : 3.227 2479.0 2479.0 VFP faddd (64bit x1) n1 : 3.141 2547.2 2547.2 VFP fmacd (64bit x1) n1 : 37.663 424.8 424.8 VFP vfma.f64 (64bit x1) n1 : 37.675 424.7 424.7 平均 : 10.496 2030.9 2030.9 最大 : 3.141 3398.0 3398.0 * Matrix 4x4 multi thread C++ code : 4.357 1645.1 1645.1 NEON vmla 128bit A : 1.308 5479.2 5479.2 NEON vmla 64bit A : 1.701 4215.1 4215.1 NEON vfma 128bit A : 1.671 4290.3 4290.3 NEON vmla 128bit B : 1.395 5139.1 5139.1 NEON vmla 64bit B : 1.465 4891.8 4891.8 NEON vfma 128bit B : 1.626 4409.6 4409.6 NEON vfma 128bit C : 1.687 4250.0 4250.0 平均 : 1.901 4290.0 4290.0 最大 : 1.308 5479.2 5479.2
Apple Typhoon (AArch32) VFPv4+NEON
iPod touch 6 Apple A8 Typhoon 1.1GHz dual core
iPod touch 6 Apple A8 Typhoon 1.1GHz dual core ARCH: ARMv8A VFP: AArch64 NEON SingleT SP max: 17.987 GFLOPS SingleT DP max: 8.994 GFLOPS MultiT SP max: 35.795 GFLOPS MultiT DP max: 17.916 GFLOPS CPU core: 2 FMA: Yes NEON: Yes * VFP/NEON (single fp) VFP fmul (32bit x1) n8 : 1.825 2192.0 2192.0 VFP fadd (32bit x1) n8 : 1.190 3362.2 3362.2 VFP fmadd (32bit x1) n8 : 1.785 4481.4 4481.4 NEON fmul.2s (32bit x2) n8 : 1.783 4487.5 4487.5 NEON fadd.2s (32bit x2) n8 : 1.188 6732.5 6732.5 NEON fmla.2s (32bit x2) n8 : 1.791 8935.1 8935.1 NEON fmul.4s (32bit x4) n8 : 1.781 8983.2 8983.2 NEON fadd.4s (32bit x4) n8 : 1.190 13446.2 13446.2 NEON fmla.4s (32bit x4) n8 : 1.781 17969.6 17969.6 VFP fmul (32bit x1) ns4 : 3.570 1120.4 1120.4 VFP fadd (32bit x1) ns4 : 3.329 1201.4 1201.4 VFP fmadd (32bit x1) ns4 : 3.565 2243.9 2243.9 NEON fmul.2s (32bit x2) ns4 : 3.571 2240.4 2240.4 NEON fadd.2s (32bit x2) ns4 : 3.331 2401.8 2401.8 NEON fmla.2s (32bit x2) ns4 : 3.568 4483.8 4483.8 NEON fmul.4s (32bit x4) ns4 : 3.583 4465.3 4465.3 NEON fadd.4s (32bit x4) ns4 : 3.331 4803.9 4803.9 NEON fmla.4s (32bit x4) ns4 : 3.568 8969.4 8969.4 VFP fmul (32bit x1) n1 : 1.783 2243.5 2243.5 VFP fadd (32bit x1) n1 : 1.188 3366.0 3366.0 VFP fmadd (32bit x1) n1 : 17.791 449.7 449.7 NEON fmul.2s (32bit x2) n1 : 1.778 4499.1 4499.1 NEON fadd.2s (32bit x2) n1 : 1.195 6694.6 6694.6 NEON fmla.2s (32bit x2) n1 : 17.796 899.1 899.1 NEON fmul.4s (32bit x4) n1 : 1.779 8992.9 8992.9 NEON fadd.4s (32bit x4) n1 : 1.194 13396.0 13396.0 NEON fmla.4s (32bit x4) n1 : 17.796 1798.2 1798.2 NEON fmul.4s (32bit x4) n12 : 2.675 8971.5 8971.5 NEON fadd.4s (32bit x4) n12 : 1.781 13477.4 13477.4 NEON fmla.4s (32bit x4) n12 : 2.669 17986.7 17986.7 平均 : 3.839 6176.5 6176.5 最大 : 1.188 17986.7 17986.7 * VFP/NEON (double fp) VFP fmul (64bit x1) n8 : 1.817 2201.8 2201.8 VFP fadd (64bit x1) n8 : 1.195 3346.6 3346.6 VFP fmadd (64bit x1) n8 : 2.263 3535.2 3535.2 NEON fmul.2d (64bit x2) n8 : 1.780 4494.4 4494.4 NEON fadd.2d (64bit x2) n8 : 1.188 6733.4 6733.4 NEON fmla.2d (64bit x2) n8 : 2.259 7081.7 7081.7 VFP fmul (64bit x1) ns4 : 4.456 897.7 897.7 VFP fadd (64bit x1) ns4 : 3.322 1204.3 1204.3 VFP fmadd (64bit x1) ns4 : 4.456 1795.2 1795.2 NEON fmul.2d (64bit x2) ns4 : 4.454 1796.0 1796.0 NEON fadd.2d (64bit x2) ns4 : 3.321 2409.2 2409.2 NEON fmla.2d (64bit x2) ns4 : 4.454 3592.1 3592.1 VFP fmul (64bit x1) n1 : 1.780 2246.7 2246.7 VFP fadd (64bit x1) n1 : 1.189 3363.5 3363.5 VFP fmadd (64bit x1) n1 : 21.340 374.9 374.9 NEON fmul.2d (64bit x2) n1 : 1.779 4496.4 4496.4 NEON fadd.2d (64bit x2) n1 : 1.188 6735.5 6735.5 NEON fmla.2d (64bit x2) n1 : 21.350 749.4 749.4 NEON fmul.2d (64bit x2) n12 : 2.667 4499.6 4499.6 NEON fadd.2d (64bit x2) n12 : 1.786 6720.1 6720.1 NEON fmla.2d (64bit x2) n12 : 2.668 8994.3 8994.3 平均 : 4.320 3679.4 3679.4 最大 : 1.188 8994.3 8994.3 * Matrix 4x4 C++ code : 1.327 2701.6 2701.6 NEON fmla.4s 128bit A : 0.746 4803.4 4803.4 NEON ---- 64bit A : - - - NEON ---- 128bit A : - - - NEON fmla.4s 128bit B : 0.739 4847.0 4847.0 NEON ---- 64bit B : - - - NEON ---- 128bit B : - - - NEON ---- 128bit C : - - - 平均 : 0.937 4117.3 4117.3 最大 : 0.739 4847.0 4847.0 * VFP/NEON (single fp) multi-thread VFP fmul (32bit x1) n8 : 1.838 4351.9 4351.9 VFP fadd (32bit x1) n8 : 1.193 6704.6 6704.6 VFP fmadd (32bit x1) n8 : 1.789 8946.0 8946.0 NEON fmul.2s (32bit x2) n8 : 1.796 8907.2 8907.2 NEON fadd.2s (32bit x2) n8 : 1.193 13415.8 13415.8 NEON fmla.2s (32bit x2) n8 : 1.789 17887.7 17887.7 NEON fmul.4s (32bit x4) n8 : 1.789 17885.9 17885.9 NEON fadd.4s (32bit x4) n8 : 1.190 26897.9 26897.9 NEON fmla.4s (32bit x4) n8 : 1.788 35795.0 35795.0 VFP fmul (32bit x1) ns4 : 3.590 2228.3 2228.3 VFP fadd (32bit x1) ns4 : 3.334 2399.5 2399.5 VFP fmadd (32bit x1) ns4 : 3.577 4473.4 4473.4 NEON fmul.2s (32bit x2) ns4 : 3.590 4457.4 4457.4 NEON fadd.2s (32bit x2) ns4 : 3.330 4805.1 4805.1 NEON fmla.2s (32bit x2) ns4 : 3.588 8918.1 8918.1 NEON fmul.4s (32bit x4) ns4 : 3.579 8940.3 8940.3 NEON fadd.4s (32bit x4) ns4 : 3.335 9596.6 9596.6 NEON fmla.4s (32bit x4) ns4 : 3.589 17832.7 17832.7 VFP fmul (32bit x1) n1 : 1.786 4478.5 4478.5 VFP fadd (32bit x1) n1 : 1.193 6706.0 6706.0 VFP fmadd (32bit x1) n1 : 17.838 896.9 896.9 NEON fmul.2s (32bit x2) n1 : 1.786 8960.8 8960.8 NEON fadd.2s (32bit x2) n1 : 1.195 13391.2 13391.2 NEON fmla.2s (32bit x2) n1 : 17.826 1795.1 1795.1 NEON fmul.4s (32bit x4) n1 : 1.786 17921.6 17921.6 NEON fadd.4s (32bit x4) n1 : 1.195 26771.4 26771.4 NEON fmla.4s (32bit x4) n1 : 17.830 3589.4 3589.4 NEON fmul.4s (32bit x4) n12 : 2.686 17872.1 17872.1 NEON fadd.4s (32bit x4) n12 : 1.787 26860.4 26860.4 NEON fmla.4s (32bit x4) n12 : 2.689 35702.0 35702.0 平均 : 3.849 12313.0 12313.0 最大 : 1.190 35795.0 35795.0 * VFP/NEON (double fp) multi-thread VFP fmul (64bit x1) n8 : 1.852 4320.4 4320.4 VFP fadd (64bit x1) n8 : 1.198 6680.1 6680.1 VFP fmadd (64bit x1) n8 : 2.278 7024.5 7024.5 NEON fmul.2d (64bit x2) n8 : 1.791 8936.0 8936.0 NEON fadd.2d (64bit x2) n8 : 1.194 13397.7 13397.7 NEON fmla.2d (64bit x2) n8 : 2.272 14081.6 14081.6 VFP fmul (64bit x1) ns4 : 4.468 1790.6 1790.6 VFP fadd (64bit x1) ns4 : 3.333 2400.0 2400.0 VFP fmadd (64bit x1) ns4 : 4.467 3581.7 3581.7 NEON fmul.2d (64bit x2) ns4 : 4.468 3580.7 3580.7 NEON fadd.2d (64bit x2) ns4 : 3.332 4801.7 4801.7 NEON fmla.2d (64bit x2) ns4 : 4.469 7161.0 7161.0 VFP fmul (64bit x1) n1 : 1.789 4471.7 4471.7 VFP fadd (64bit x1) n1 : 1.194 6698.4 6698.4 VFP fmadd (64bit x1) n1 : 21.384 748.2 748.2 NEON fmul.2d (64bit x2) n1 : 1.786 8957.3 8957.3 NEON fadd.2d (64bit x2) n1 : 1.195 13388.2 13388.2 NEON fmla.2d (64bit x2) n1 : 21.417 1494.1 1494.1 NEON fmul.2d (64bit x2) n12 : 2.679 8957.0 8957.0 NEON fadd.2d (64bit x2) n12 : 1.791 13403.5 13403.5 NEON fmla.2d (64bit x2) n12 : 2.679 17915.6 17915.6 平均 : 4.335 7323.3 7323.3 最大 : 1.194 17915.6 17915.6 * Matrix 4x4 multi thread C++ code : 1.354 5294.2 5294.2 NEON fmla.4s 128bit A : 0.767 9345.7 9345.7 NEON ---- 64bit A : - - - NEON ---- 128bit A : - - - NEON fmla.4s 128bit B : 0.745 9619.8 9619.8 NEON ---- 64bit B : - - - NEON ---- 128bit B : - - - NEON ---- 128bit C : - - - 平均 : 0.955 8086.6 8086.6 最大 : 0.745 9619.8 9619.8
Intel Atom Saltwell (IA32 x86) SSSE3
ASUS Fonepad 7 LTE ME372CL Z2560 Dual core 1.6GHz (Clover Trail+ / Saltwell)
ASUS Fonepad 7 LTE ME372CL Atom Z2560 1.6GHz Dual Core + HT ARCH: x86 CPU core: 4 FPU: SSE SSE2 SSSE3 Result SingleT SP max: 7.540 GFLOPS SingleT DP max: 1.523 GFLOPS MultiT SP max: 18.630 GFLOPS MultiT DP max: 3.504 GFLOPS * SSE/AVX (単精度 fp) single-thread SSE mulss (32bit x1) n8 : 0.794 1511.0 1511.0 SSE addss (32bit x1) n8 : 0.792 1515.7 1515.7 SSE mulps (32bit x4) n8 : 1.514 3171.3 3171.3 SSE addps (32bit x4) n8 : 0.786 6104.4 6104.4 SSE mul+addps (32bit x4) n8 : 0.759 6321.2 6321.2 SSE ml+ad+addps (32bit x4) n6 : 0.668 7540.1 7540.1 SSE mulss (32bit x1) ns4 : 0.766 1566.5 1566.5 SSE addss (32bit x1) ns4 : 0.949 1265.1 1265.1 SSE mulps (32bit x4) ns4 : 1.525 3146.6 3146.6 SSE addps (32bit x4) ns4 : 0.941 5101.1 5101.1 AVX vmulps (32bit x8) n8 : - - - AVX vaddps (32bit x8) n8 : - - - AVX vmul+addps (32bit x8) n8 : - - - AVX vml+ad+adps (32bit x8) n6 : - - - 平均 : 0.949 3724.3 3724.3 最大 : 0.668 7540.1 7540.1 * SSE/AVX (倍精度 fp) single-thread SSE2 mulsd (64bit x1) n8 : 1.529 784.7 784.7 SSE2 addsd (64bit x1) n8 : 0.788 1522.7 1522.7 SSE2 mulpd (64bit x2) n8 : 6.844 350.7 350.7 SSE2 addpd (64bit x2) n8 : 4.668 514.1 514.1 SSE2 mul+addpd (64bit x2) n8 : 5.049 475.3 475.3 SSE2 ml+ad+dpd (64bit x2) n6 : 5.084 495.7 495.7 SSE2 mulsd (64bit x1) ns4 : 1.517 790.9 790.9 SSE2 addsd (64bit x1) ns4 : 0.949 1264.5 1264.5 SSE2 mulpd (64bit x2) ns4 : 6.871 349.3 349.3 SSE2 addpd (64bit x2) ns4 : 4.611 520.5 520.5 AVX vmulpd (64bit x4) n8 : - - - AVX vaddpd (64bit x4) n8 : - - - AVX vmul+addpd (64bit x4) n8 : - - - AVX vml_ad_adpd (64bit x4) n6 : - - - 平均 : 3.791 706.9 706.9 最大 : 0.788 1522.7 1522.7 * Matrix 4x4 (単精度 fp) single-thread C++ code : 4.167 430.1 430.1 C++ Intrinsic SSE 128bit : 0.953 1879.6 1879.6 SSE mul/addps 128bit A : 1.359 1318.9 1318.9 AVX vmul/addps 256bit A : - - - 平均 : 2.160 1209.5 1209.5 最大 : 0.953 1879.6 1879.6 * SSE/AVX (単精度 fp) multi-thread SSE mulss (32bit x1) n8 : 1.555 3086.7 3086.7 SSE addss (32bit x1) n8 : 1.530 3137.3 3137.3 SSE mulps (32bit x4) n8 : 2.963 6480.1 6480.1 SSE addps (32bit x4) n8 : 1.518 12650.4 12650.4 SSE mul+addps (32bit x4) n8 : 1.394 13773.6 13773.6 SSE ml+ad+addps (32bit x4) n6 : 1.082 18630.3 18630.3 SSE mulss (32bit x1) ns4 : 1.501 3198.5 3198.5 SSE addss (32bit x1) ns4 : 1.488 3225.4 3225.4 SSE mulps (32bit x4) ns4 : 2.828 6788.9 6788.9 SSE addps (32bit x4) ns4 : 1.391 13800.9 13800.9 AVX vmulps (32bit x8) n8 : - - - AVX vaddps (32bit x8) n8 : - - - AVX vmul+addps (32bit x8) n8 : - - - AVX vml+ad+adps (32bit x8) n6 : - - - 平均 : 1.725 8477.2 8477.2 最大 : 1.082 18630.3 18630.3 * SSE/AVX (倍精度 fp) multi-thread SSE2 mulsd (64bit x1) n8 : 2.964 1619.5 1619.5 SSE2 addsd (64bit x1) n8 : 1.370 3503.6 3503.6 SSE2 mulpd (64bit x2) n8 : 7.833 1225.6 1225.6 SSE2 addpd (64bit x2) n8 : 6.292 1525.7 1525.7 SSE2 mul+addpd (64bit x2) n8 : 6.990 1373.3 1373.3 SSE2 ml+ad+dpd (64bit x2) n6 : 7.053 1429.2 1429.2 SSE2 mulsd (64bit x1) ns4 : 2.946 1629.2 1629.2 SSE2 addsd (64bit x1) ns4 : 1.475 3255.3 3255.3 SSE2 mulpd (64bit x2) ns4 : 7.823 1227.2 1227.2 SSE2 addpd (64bit x2) ns4 : 6.103 1572.9 1572.9 AVX vmulpd (64bit x4) n8 : - - - AVX vaddpd (64bit x4) n8 : - - - AVX vmul+addpd (64bit x4) n8 : - - - AVX vml_ad_adpd (64bit x4) n6 : - - - 平均 : 5.085 1836.2 1836.2 最大 : 1.370 3503.6 3503.6 * Matrix 4x4 (単精度 fp) multi-thread C++ code : 5.038 1422.8 1422.8 C++ Intrinsic SSE 128bit : 1.110 6458.9 6458.9 SSE mul/addps 128bit A : 1.666 4303.4 4303.4 AVX vmul/addps 256bit A : - - - 平均 : 2.605 4061.7 4061.7 最大 : 1.110 6458.9 6458.9
Intel Atom Silvermont (IA32 x86) SSE4.2
ASUS MeMO Pad 7 ME176 BayTrail-T Atom Z3745 Silvermont 1.83GHz Quad core (x86)
ASUS MeMO Pad 7 ME176 BayTrail-T Atom Z3745 Silvermont 1.83GHz Quad core ARCH: x86 CPU core: 4 FPU: SSE SSE2 SSSE3 SSE4.1 SSE4.2 Result SingleT SP max: 8.946 GFLOPS SingleT DP max: 2.797 GFLOPS MultiT SP max: 35.473 GFLOPS MultiT DP max: 11.060 GFLOPS * SSE/AVX (単精度 fp) single-thread SSE mulss (32bit x1) n8 : 2.163 1848.9 1859.9 SSE addss (32bit x1) n8 : 2.153 1858.1 1864.1 SSE mulps (32bit x4) n8 : 4.324 3700.3 3729.4 SSE addps (32bit x4) n8 : 2.148 7447.3 7455.5 SSE mul+addps (32bit x4) n8 : 2.152 7434.8 7456.2 SSE ml+ad+addps (32bit x4) n6 : 1.879 8943.1 8945.8 SSE mulss (32bit x1) ns4 : 2.147 1863.3 1864.2 SSE addss (32bit x1) ns4 : 2.146 1863.7 1864.4 SSE mulps (32bit x4) ns4 : 4.290 3729.5 3729.5 SSE addps (32bit x4) ns4 : 2.145 7458.8 7458.8 AVX vmulps (32bit x8) n8 : - - - AVX vaddps (32bit x8) n8 : - - - AVX vmul+addps (32bit x8) n8 : - - - AVX vml+ad+adps (32bit x8) n6 : - - - 平均 : 2.555 4614.8 4622.8 最大 : 1.879 8943.1 8945.8 * SSE/AVX (倍精度 fp) single-thread SSE2 mulsd (64bit x1) n8 : 4.297 930.8 930.8 SSE2 addsd (64bit x1) n8 : 2.145 1864.7 1864.7 SSE2 mulpd (64bit x2) n8 : 8.581 932.3 932.3 SSE2 addpd (64bit x2) n8 : 4.291 1864.4 1864.4 SSE2 mul+addpd (64bit x2) n8 : 4.291 1864.4 1864.4 SSE2 ml+ad+dpd (64bit x2) n6 : 3.003 2796.9 2796.9 SSE2 mulsd (64bit x1) ns4 : 4.290 932.3 932.3 SSE2 addsd (64bit x1) ns4 : 2.145 1864.6 1864.6 SSE2 mulpd (64bit x2) ns4 : 8.661 923.7 923.7 SSE2 addpd (64bit x2) ns4 : 4.354 1837.4 1837.4 AVX vmulpd (64bit x4) n8 : - - - AVX vaddpd (64bit x4) n8 : - - - AVX vmul+addpd (64bit x4) n8 : - - - AVX vml_ad_adpd (64bit x4) n6 : - - - 平均 : 4.606 1581.2 1581.2 最大 : 2.145 2796.9 2796.9 * Matrix 4x4 (単精度 fp) single-thread C++ code : 4.253 842.7 842.7 C++ Intrinsic SSE 128bit : 1.155 3102.8 3102.8 SSE mul/addps 128bit A : 1.237 2898.1 2898.1 AVX vmul/addps 256bit A : - - - 平均 : 2.215 2281.2 2281.2 最大 : 1.155 3102.8 3102.8 * SSE/AVX (単精度 fp) multi-thread SSE mulss (32bit x1) n8 : 2.265 7064.9 7064.9 SSE addss (32bit x1) n8 : 2.171 7370.1 7370.1 SSE mulps (32bit x4) n8 : 4.342 14739.6 14739.6 SSE addps (32bit x4) n8 : 2.195 29154.9 29154.9 SSE mul+addps (32bit x4) n8 : 2.167 29533.8 29533.8 SSE ml+ad+addps (32bit x4) n6 : 1.894 35473.1 35473.1 SSE mulss (32bit x1) ns4 : 2.180 7340.8 7340.8 SSE addss (32bit x1) ns4 : 2.173 7362.1 7362.1 SSE mulps (32bit x4) ns4 : 4.353 14702.0 14702.0 SSE addps (32bit x4) ns4 : 2.166 29542.2 29542.2 AVX vmulps (32bit x8) n8 : - - - AVX vaddps (32bit x8) n8 : - - - AVX vmul+addps (32bit x8) n8 : - - - AVX vml+ad+adps (32bit x8) n6 : - - - 平均 : 2.591 18228.4 18228.4 最大 : 1.894 35473.1 35473.1 * SSE/AVX (倍精度 fp) multi-thread SSE2 mulsd (64bit x1) n8 : 4.444 3600.4 3600.4 SSE2 addsd (64bit x1) n8 : 2.167 7382.1 7382.1 SSE2 mulpd (64bit x2) n8 : 8.709 3674.5 3674.5 SSE2 addpd (64bit x2) n8 : 4.335 7382.3 7382.3 SSE2 mul+addpd (64bit x2) n8 : 4.372 7319.6 7319.6 SSE2 ml+ad+dpd (64bit x2) n6 : 3.038 11059.9 11059.9 SSE2 mulsd (64bit x1) ns4 : 4.473 3576.6 3576.6 SSE2 addsd (64bit x1) ns4 : 2.176 7353.6 7353.6 SSE2 mulpd (64bit x2) ns4 : 8.693 3681.1 3681.1 SSE2 addpd (64bit x2) ns4 : 4.323 7403.0 7403.0 AVX vmulpd (64bit x4) n8 : - - - AVX vaddpd (64bit x4) n8 : - - - AVX vmul+addpd (64bit x4) n8 : - - - AVX vml_ad_adpd (64bit x4) n6 : - - - 平均 : 4.673 6243.3 6243.3 最大 : 2.167 11059.9 11059.9 * Matrix 4x4 (単精度 fp) multi-thread C++ code : 4.379 3273.9 3273.9 C++ Intrinsic SSE 128bit : 1.168 12275.6 12275.6 SSE mul/addps 128bit A : 1.249 11477.7 11477.7 AVX vmul/addps 256bit A : - - - 平均 : 2.265 9009.0 9009.0 最大 : 1.168 12275.6 12275.6
ASUS MeMO Pad 7 ME176 BayTrail-T Atom Z3745 Silvermont 1.83GHz Quad core (ARMv7A Binary Translator)
ASUS MeMO Pad 7 ME176 BayTrail-T Atom Z3745 Silvermont 1.83GHz Quad core (ARMv7A Binary Translator) ARCH: ARMv7A CPU core: 4 VFP: VFPv3-D32 NEON FMA: No NEON: Yes Result SingleT SP max: 6.144 GFLOPS SingleT DP max: 1.476 GFLOPS MultiT SP max: 24.329 GFLOPS MultiT DP max: 5.905 GFLOPS * VFP/NEON (単精度 fp) single-thread VFP fmuls (32bit x1) n8 : 3.954 1011.6 1011.6 VFP fadds (32bit x1) n8 : 3.332 1200.6 1200.6 VFP fmacs (32bit x1) n8 : 8.371 955.7 955.7 VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : 6.009 1331.4 1331.4 NEON vadd.f32 (32bit x2) n8 : 3.816 2096.6 2096.6 NEON vmla.f32 (32bit x2) n8 : 22.824 701.0 701.0 NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : 6.012 2661.2 2661.2 NEON vadd.f32 (32bit x4) n8 : 3.347 4780.6 4780.6 NEON vmla.f32 (32bit x4) n8 : 16.516 1937.5 1937.5 NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : 7.303 547.7 547.7 VFP fadds (32bit x1) ns4 : 6.496 615.8 615.8 VFP fmacs (32bit x1) ns4 : 8.916 897.3 897.3 VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : 12.358 647.3 647.3 NEON vadd.f32 (32bit x2) ns4 : 8.641 925.8 925.8 NEON vmla.f32 (32bit x2) ns4 : 21.905 730.4 730.4 NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : 6.015 2660.2 2660.2 NEON vadd.f32 (32bit x4) ns4 : 3.730 4289.5 4289.5 NEON vmla.f32 (32bit x4) ns4 : 16.386 1952.9 1952.9 NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : 2.363 1692.9 1692.9 VFP fadds (32bit x1) n1 : 2.680 1492.6 1492.6 VFP fmacs (32bit x1) n1 : 6.792 1177.9 1177.9 VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : 4.510 1773.8 1773.8 NEON vadd.f32 (32bit x2) n1 : 3.331 2401.9 2401.9 NEON vmla.f32 (32bit x2) n1 : 20.547 778.7 778.7 NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : 4.512 3546.3 3546.3 NEON vadd.f32 (32bit x4) n1 : 2.604 6143.8 6143.8 NEON vmla.f32 (32bit x4) n1 : 10.445 3063.7 3063.7 NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : 9.027 2658.6 2658.6 NEON vadd.f32 (32bit x4) n12 : 4.983 4816.3 4816.3 NEON vmla.f32 (32bit x4) n12 : 26.321 1823.6 1823.6 NEON vfma.f32 (32bit x4) n12 : - - - 平均 : 8.801 2043.8 2043.8 最大 : 2.363 6143.8 6143.8 * VFP/NEON (倍精度 fp) single-thread VFP fmuld (64bit x1) n8 : 6.089 656.9 656.9 VFP faddd (64bit x1) n8 : 3.307 1209.6 1209.6 VFP fmacd (64bit x1) n8 : 10.420 767.7 767.7 VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : 6.150 650.4 650.4 VFP faddd (64bit x1) ns4 : 3.522 1135.7 1135.7 VFP fmacd (64bit x1) ns4 : 10.408 768.6 768.6 VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : 4.565 876.2 876.2 VFP faddd (64bit x1) n1 : 2.711 1475.6 1475.6 VFP fmacd (64bit x1) n1 : 6.881 1162.7 1162.7 VFP vfma.f64 (64bit x1) n1 : - - - 平均 : 6.006 967.0 967.0 最大 : 2.711 1475.6 1475.6 * Matrix 4x4 (単精度 fp) single-thread C++ code : 2.126 1685.7 1685.7 NEON vmla 128bit A : 1.999 1792.6 1792.6 NEON vmla 64bit A : 4.732 757.4 757.4 NEON vfma 128bit A : - - - NEON vmla 128bit B : 2.043 1754.0 1754.0 NEON vmla 64bit B : 5.945 602.8 602.8 NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - 平均 : 3.369 1318.5 1318.5 最大 : 1.999 1792.6 1792.6 * VFP/NEON (単精度 fp) multi-thread VFP fmuls (32bit x1) n8 : 3.962 4038.3 4038.3 VFP fadds (32bit x1) n8 : 3.309 4835.9 4835.9 VFP fmacs (32bit x1) n8 : 8.525 3753.8 3753.8 VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : 6.072 5270.1 5270.1 NEON vadd.f32 (32bit x2) n8 : 3.848 8316.1 8316.1 NEON vmla.f32 (32bit x2) n8 : 23.154 2764.1 2764.1 NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : 6.081 10524.4 10524.4 NEON vadd.f32 (32bit x4) n8 : 3.383 18919.6 18919.6 NEON vmla.f32 (32bit x4) n8 : 16.714 7658.5 7658.5 NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : 7.372 2170.4 2170.4 VFP fadds (32bit x1) ns4 : 6.560 2438.9 2438.9 VFP fmacs (32bit x1) ns4 : 9.002 3554.7 3554.7 VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : 12.510 2558.0 2558.0 NEON vadd.f32 (32bit x2) ns4 : 8.758 3653.6 3653.6 NEON vmla.f32 (32bit x2) ns4 : 22.163 2887.7 2887.7 NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : 6.073 10537.7 10537.7 NEON vadd.f32 (32bit x4) ns4 : 3.767 16990.8 16990.8 NEON vmla.f32 (32bit x4) ns4 : 16.539 7739.3 7739.3 NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : 2.384 6711.7 6711.7 VFP fadds (32bit x1) n1 : 2.709 5906.8 5906.8 VFP fmacs (32bit x1) n1 : 6.869 4658.8 4658.8 VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : 4.562 7014.7 7014.7 NEON vadd.f32 (32bit x2) n1 : 3.365 9508.3 9508.3 NEON vmla.f32 (32bit x2) n1 : 20.787 3078.8 3078.8 NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : 4.571 14002.6 14002.6 NEON vadd.f32 (32bit x4) n1 : 2.631 24328.7 24328.7 NEON vmla.f32 (32bit x4) n1 : 10.568 12111.7 12111.7 NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : 9.117 10529.4 10529.4 NEON vadd.f32 (32bit x4) n12 : 5.038 19054.4 19054.4 NEON vmla.f32 (32bit x4) n12 : 26.594 7219.7 7219.7 NEON vfma.f32 (32bit x4) n12 : - - - 平均 : 8.900 8091.2 8091.2 最大 : 2.384 24328.7 24328.7 * VFP/NEON (倍精度 fp) multi-thread VFP fmuld (64bit x1) n8 : 6.124 2612.5 2612.5 VFP faddd (64bit x1) n8 : 3.310 4834.4 4834.4 VFP fmacd (64bit x1) n8 : 10.452 3061.7 3061.7 VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : 6.080 2631.8 2631.8 VFP faddd (64bit x1) ns4 : 3.529 4533.8 4533.8 VFP fmacd (64bit x1) ns4 : 10.422 3070.5 3070.5 VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : 4.587 3487.9 3487.9 VFP faddd (64bit x1) n1 : 2.709 5905.2 5905.2 VFP fmacd (64bit x1) n1 : 6.855 4668.3 4668.3 VFP vfma.f64 (64bit x1) n1 : - - - 平均 : 6.008 3867.3 3867.3 最大 : 2.709 5905.2 5905.2 * Matrix 4x4 (単精度 fp) multi-thread C++ code : 2.138 6706.5 6706.5 NEON vmla 128bit A : 1.982 7232.8 7232.8 NEON vmla 64bit A : 4.765 3008.5 3008.5 NEON vfma 128bit A : - - - NEON vmla 128bit B : 2.058 6965.9 6965.9 NEON vmla 64bit B : 5.970 2401.3 2401.3 NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - 平均 : 3.383 5263.0 5263.0 最大 : 1.982 7232.8 7232.8
Nexus Player BayTrail-T Atom Z35xx Silvermont 1.8GHz Quad core (x86)
Nexus Player BayTrail-T Atom Z35xx Silvermont 1.8GHz Quad core (x86) ARCH: x86 CPU core: 4 FPU: SSE SSE2 SSSE3 SSE4.1 SSE4.2 Result SingleT SP max: 8.733 GFLOPS SingleT DP max: 2.733 GFLOPS MultiT SP max: 33.852 GFLOPS MultiT DP max: 10.655 GFLOPS * SSE/AVX (単精度 fp) single-thread SSE mulss (32bit x1) n8 : 0.665 1804.0 1804.0 SSE addss (32bit x1) n8 : 0.663 1811.1 1811.1 SSE mulps (32bit x4) n8 : 1.334 3599.5 3599.5 SSE addps (32bit x4) n8 : 0.663 7238.5 7238.5 SSE mul+addps (32bit x4) n8 : 0.658 7292.9 7292.9 SSE ml+ad+addps (32bit x4) n6 : 0.577 8732.6 8732.6 SSE mulss (32bit x1) ns4 : 0.659 1822.3 1822.3 SSE addss (32bit x1) ns4 : 0.659 1821.7 1821.7 SSE mulps (32bit x4) ns4 : 1.372 3498.8 3498.8 SSE addps (32bit x4) ns4 : 0.684 7013.7 7013.7 AVX vmulps (32bit x8) n8 : - - - AVX vaddps (32bit x8) n8 : - - - AVX vmul+addps (32bit x8) n8 : - - - AVX vml+ad+adps (32bit x8) n6 : - - - 平均 : 0.793 4463.5 4463.5 最大 : 0.577 8732.6 8732.6 * SSE/AVX (倍精度 fp) single-thread SSE2 mulsd (64bit x1) n8 : 1.361 881.6 881.6 SSE2 addsd (64bit x1) n8 : 0.659 1820.3 1820.3 SSE2 mulpd (64bit x2) n8 : 2.632 912.0 912.0 SSE2 addpd (64bit x2) n8 : 1.315 1825.6 1825.6 SSE2 mul+addpd (64bit x2) n8 : 1.315 1824.7 1824.7 SSE2 ml+ad+dpd (64bit x2) n6 : 0.922 2733.4 2733.4 SSE2 mulsd (64bit x1) ns4 : 1.337 897.4 897.4 SSE2 addsd (64bit x1) ns4 : 0.658 1824.5 1824.5 SSE2 mulpd (64bit x2) ns4 : 2.694 890.9 890.9 SSE2 addpd (64bit x2) ns4 : 1.372 1748.6 1748.6 AVX vmulpd (64bit x4) n8 : - - - AVX vaddpd (64bit x4) n8 : - - - AVX vmul+addpd (64bit x4) n8 : - - - AVX vml_ad_adpd (64bit x4) n6 : - - - 平均 : 1.427 1535.9 1535.9 最大 : 0.658 2733.4 2733.4 * Matrix 4x4 (単精度 fp) single-thread C++ code : 2.418 741.0 741.0 C++ Intrinsic SSE 128bit : 0.473 3785.9 3785.9 SSE mul/addps 128bit A : 0.643 2788.7 2788.7 AVX vmul/addps 256bit A : - - - 平均 : 1.178 2438.5 2438.5 最大 : 0.473 3785.9 3785.9 * SSE/AVX (単精度 fp) multi-thread SSE mulss (32bit x1) n8 : 0.711 6753.9 6753.9 SSE addss (32bit x1) n8 : 0.697 6887.0 6887.0 SSE mulps (32bit x4) n8 : 1.354 14183.1 14183.1 SSE addps (32bit x4) n8 : 0.677 28367.5 28367.5 SSE mul+addps (32bit x4) n8 : 0.684 28061.3 28061.3 SSE ml+ad+addps (32bit x4) n6 : 0.596 33851.9 33851.9 SSE mulss (32bit x1) ns4 : 0.676 7104.5 7104.5 SSE addss (32bit x1) ns4 : 0.675 7114.6 7114.6 SSE mulps (32bit x4) ns4 : 1.351 14208.1 14208.1 SSE addps (32bit x4) ns4 : 0.667 28767.1 28767.1 AVX vmulps (32bit x8) n8 : - - - AVX vaddps (32bit x8) n8 : - - - AVX vmul+addps (32bit x8) n8 : - - - AVX vml+ad+adps (32bit x8) n6 : - - - 平均 : 0.809 17529.9 17529.9 最大 : 0.596 33851.9 33851.9 * SSE/AVX (倍精度 fp) multi-thread SSE2 mulsd (64bit x1) n8 : 1.402 3424.7 3424.7 SSE2 addsd (64bit x1) n8 : 0.682 7034.1 7034.1 SSE2 mulpd (64bit x2) n8 : 2.697 3559.9 3559.9 SSE2 addpd (64bit x2) n8 : 1.347 7128.9 7128.9 SSE2 mul+addpd (64bit x2) n8 : 1.355 7086.7 7086.7 SSE2 ml+ad+dpd (64bit x2) n6 : 0.946 10655.0 10655.0 SSE2 mulsd (64bit x1) ns4 : 1.350 3554.8 3554.8 SSE2 addsd (64bit x1) ns4 : 0.673 7135.1 7135.1 SSE2 mulpd (64bit x2) ns4 : 2.703 3551.2 3551.2 SSE2 addpd (64bit x2) ns4 : 1.348 7122.7 7122.7 AVX vmulpd (64bit x4) n8 : - - - AVX vaddpd (64bit x4) n8 : - - - AVX vmul+addpd (64bit x4) n8 : - - - AVX vml_ad_adpd (64bit x4) n6 : - - - 平均 : 1.450 6025.3 6025.3 最大 : 0.673 10655.0 10655.0 * Matrix 4x4 (単精度 fp) multi-thread C++ code : 2.472 2899.9 2899.9 C++ Intrinsic SSE 128bit : 0.485 14772.1 14772.1 SSE mul/addps 128bit A : 0.657 10908.3 10908.3 AVX vmul/addps 256bit A : - - - 平均 : 1.205 9526.8 9526.8 最大 : 0.485 14772.1 14772.1
Smartwatch 32bit
ARM Cortex-A8 (ARMv7A) VFPv3+NEON
Motorola moto 360 Android Wear TI OMAP3 Cortex-A8 1.0GHz single core
Motorola moto 360 Android Wear TI OMAP3 Cortex-A8 1.0GHz single core Cortex-A8 1.0GHz ARCH: ARMv7A CPU core: 1 VFP: VFPv3-D32 NEON FMA: No NEON: Yes Result SingleT SP max: 3.739 GFLOPS SingleT DP max: 0.126 GFLOPS MultiT SP max: 3.376 GFLOPS MultiT DP max: 0.125 GFLOPS * VFP/NEON (単精度 fp) single-thread VFP fmuls (32bit x1) n8 : 1.116 71.7 71.7 VFP fadds (32bit x1) n8 : 0.931 85.9 85.9 VFP fmacs (32bit x1) n8 : 1.636 97.8 97.8 VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : 0.113 1421.2 1421.2 NEON vadd.f32 (32bit x2) n8 : 0.081 1980.7 1980.7 NEON vmla.f32 (32bit x2) n8 : 0.123 2609.1 2609.1 NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : 0.192 1666.3 1666.3 NEON vadd.f32 (32bit x4) n8 : 0.189 1689.3 1689.3 NEON vmla.f32 (32bit x4) n8 : 0.171 3738.9 3738.9 NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : 0.681 117.4 117.4 VFP fadds (32bit x1) ns4 : 0.827 96.8 96.8 VFP fmacs (32bit x1) ns4 : 1.367 117.1 117.1 VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : 0.080 1990.5 1990.5 NEON vadd.f32 (32bit x2) ns4 : 0.113 1413.9 1413.9 NEON vmla.f32 (32bit x2) ns4 : 0.218 1464.9 1464.9 NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : 0.210 1523.4 1523.4 NEON vadd.f32 (32bit x4) ns4 : 0.208 1541.6 1541.6 NEON vmla.f32 (32bit x4) ns4 : 0.213 3006.7 3006.7 NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : 0.925 86.5 86.5 VFP fadds (32bit x1) n1 : 0.823 97.2 97.2 VFP fmacs (32bit x1) n1 : 1.643 97.4 97.4 VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : 0.081 1982.2 1982.2 NEON vadd.f32 (32bit x2) n1 : 0.112 1428.2 1428.2 NEON vmla.f32 (32bit x2) n1 : 0.817 391.6 391.6 NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : 0.196 1635.1 1635.1 NEON vadd.f32 (32bit x4) n1 : 0.194 1647.7 1647.7 NEON vmla.f32 (32bit x4) n1 : 0.819 781.5 781.5 NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : 0.274 1753.3 1753.3 NEON vadd.f32 (32bit x4) n12 : 0.294 1630.4 1630.4 NEON vmla.f32 (32bit x4) n12 : 0.274 3509.3 3509.3 NEON vfma.f32 (32bit x4) n12 : - - - 平均 : 0.497 1322.4 1322.4 最大 : 0.080 3738.9 3738.9 * VFP/NEON (倍精度 fp) single-thread VFP fmuld (64bit x1) n8 : 1.196 66.9 66.9 VFP faddd (64bit x1) n8 : 0.948 84.4 84.4 VFP fmacd (64bit x1) n8 : 1.730 92.5 92.5 VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : 0.637 125.6 125.6 VFP faddd (64bit x1) ns4 : 0.830 96.4 96.4 VFP fmacd (64bit x1) ns4 : 1.370 116.8 116.8 VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : 1.003 79.8 79.8 VFP faddd (64bit x1) n1 : 0.898 89.1 89.1 VFP fmacd (64bit x1) n1 : 1.914 83.6 83.6 VFP vfma.f64 (64bit x1) n1 : - - - 平均 : 1.170 92.8 92.8 最大 : 0.637 125.6 125.6 * Matrix 4x4 (単精度 fp) single-thread C++ code : 0.529 338.6 338.6 NEON vmla 128bit A : 0.332 540.5 540.5 NEON vmla 64bit A : 0.372 481.1 481.1 NEON vfma 128bit A : - - - NEON vmla 128bit B : 0.190 940.7 940.7 NEON vmla 64bit B : 0.226 791.4 791.4 NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - 平均 : 0.330 618.5 618.5 最大 : 0.190 940.7 940.7 * VFP/NEON (単精度 fp) multi-thread VFP fmuls (32bit x1) n8 : 1.144 69.9 69.9 VFP fadds (32bit x1) n8 : 0.914 87.6 87.6 VFP fmacs (32bit x1) n8 : 1.735 92.2 92.2 VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : 0.087 1842.8 1842.8 NEON vadd.f32 (32bit x2) n8 : 0.105 1529.4 1529.4 NEON vmla.f32 (32bit x2) n8 : 0.098 3252.4 3252.4 NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : 0.193 1662.3 1662.3 NEON vadd.f32 (32bit x4) n8 : 0.186 1718.1 1718.1 NEON vmla.f32 (32bit x4) n8 : 0.190 3376.0 3376.0 NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : 0.670 119.3 119.3 VFP fadds (32bit x1) ns4 : 0.817 97.9 97.9 VFP fmacs (32bit x1) ns4 : 1.349 118.6 118.6 VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : 0.099 1619.2 1619.2 NEON vadd.f32 (32bit x2) ns4 : 0.080 1998.0 1998.0 NEON vmla.f32 (32bit x2) ns4 : 0.215 1485.9 1485.9 NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : 0.181 1768.6 1768.6 NEON vadd.f32 (32bit x4) ns4 : 0.193 1654.7 1654.7 NEON vmla.f32 (32bit x4) ns4 : 0.226 2837.8 2837.8 NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : 0.932 85.8 85.8 VFP fadds (32bit x1) n1 : 0.818 97.8 97.8 VFP fmacs (32bit x1) n1 : 1.634 97.9 97.9 VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : 0.111 1437.6 1437.6 NEON vadd.f32 (32bit x2) n1 : 0.081 1968.0 1968.0 NEON vmla.f32 (32bit x2) n1 : 0.817 391.6 391.6 NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : 0.192 1665.5 1665.5 NEON vadd.f32 (32bit x4) n1 : 0.192 1667.6 1667.6 NEON vmla.f32 (32bit x4) n1 : 0.832 768.8 768.8 NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : 0.294 1631.9 1631.9 NEON vadd.f32 (32bit x4) n12 : 0.270 1775.6 1775.6 NEON vmla.f32 (32bit x4) n12 : 0.290 3312.3 3312.3 NEON vfma.f32 (32bit x4) n12 : - - - 平均 : 0.498 1341.0 1341.0 最大 : 0.080 3376.0 3376.0 * VFP/NEON (倍精度 fp) multi-thread VFP fmuld (64bit x1) n8 : 1.291 62.0 62.0 VFP faddd (64bit x1) n8 : 0.907 88.2 88.2 VFP fmacd (64bit x1) n8 : 1.730 92.5 92.5 VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : 0.639 125.3 125.3 VFP faddd (64bit x1) ns4 : 0.825 97.0 97.0 VFP fmacd (64bit x1) ns4 : 1.373 116.5 116.5 VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : 0.999 80.1 80.1 VFP faddd (64bit x1) n1 : 0.819 97.7 97.7 VFP fmacd (64bit x1) n1 : 1.722 92.9 92.9 VFP vfma.f64 (64bit x1) n1 : - - - 平均 : 1.145 94.7 94.7 最大 : 0.639 125.3 125.3 * Matrix 4x4 (単精度 fp) multi-thread C++ code : 0.358 500.4 500.4 NEON vmla 128bit A : 0.347 516.5 516.5 NEON vmla 64bit A : 0.302 593.7 593.7 NEON vfma 128bit A : - - - NEON vmla 128bit B : 0.188 954.0 954.0 NEON vmla 64bit B : 0.238 754.2 754.2 NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - 平均 : 0.286 663.8 663.8 最大 : 0.188 954.0 954.0
ARM Cortex-A7 (ARMv7A) VFPv4+NEON
LG G Watch Android Wear Snapdragon 400 0.8GHz quad core (single core)
LG G Watch Android Wear Snapdragon 400 0.8GHz quad core (single core) Cortex-A7 x4 1.2GHz (x1 0.8GHz) ARCH: ARMv7A CPU core: 4 VFP: VFPv4-D32 NEON FMA: Yes NEON: Yes Result SingleT SP max: 1.419 GFLOPS SingleT DP max: 0.742 GFLOPS MultiT SP max: 1.367 GFLOPS MultiT DP max: 0.676 GFLOPS * VFP/NEON (単精度 fp) single-thread VFP fmuls (32bit x1) n8 : 0.196 407.8 407.8 VFP fadds (32bit x1) n8 : 0.151 529.9 529.9 VFP fmacs (32bit x1) n8 : 0.135 1184.8 1184.8 VFP vfma.f32 (32bit x1) n8 : 0.113 1418.7 1418.7 NEON vmul.f32 (32bit x2) n8 : 0.255 626.2 626.2 NEON vadd.f32 (32bit x2) n8 : 0.240 667.7 667.7 NEON vmla.f32 (32bit x2) n8 : 0.308 1038.4 1038.4 NEON vfma.f32 (32bit x2) n8 : 0.285 1121.8 1121.8 NEON vmul.f32 (32bit x4) n8 : 0.466 686.0 686.0 NEON vadd.f32 (32bit x4) n8 : 0.475 673.2 673.2 NEON vmla.f32 (32bit x4) n8 : 0.484 1322.7 1322.7 NEON vfma.f32 (32bit x4) n8 : 0.466 1372.9 1372.9 VFP fmuls (32bit x1) ns4 : 0.134 597.9 597.9 VFP fadds (32bit x1) ns4 : 0.108 739.8 739.8 VFP fmacs (32bit x1) ns4 : 0.259 617.7 617.7 VFP vfma.f32 (32bit x1) ns4 : 0.232 690.3 690.3 NEON vmul.f32 (32bit x2) ns4 : 0.240 667.0 667.0 NEON vadd.f32 (32bit x2) ns4 : 0.239 668.6 668.6 NEON vmla.f32 (32bit x2) ns4 : 0.235 1359.2 1359.2 NEON vfma.f32 (32bit x2) ns4 : 0.256 1251.7 1251.7 NEON vmul.f32 (32bit x4) ns4 : 0.471 679.7 679.7 NEON vadd.f32 (32bit x4) ns4 : 0.468 684.2 684.2 NEON vmla.f32 (32bit x4) ns4 : 0.491 1302.8 1302.8 NEON vfma.f32 (32bit x4) ns4 : 0.460 1390.5 1390.5 VFP fmuls (32bit x1) n1 : 0.128 626.3 626.3 VFP fadds (32bit x1) n1 : 0.108 742.3 742.3 VFP fmacs (32bit x1) n1 : 0.590 271.1 271.1 VFP vfma.f32 (32bit x1) n1 : 0.593 269.8 269.8 NEON vmul.f32 (32bit x2) n1 : 0.238 671.0 671.0 NEON vadd.f32 (32bit x2) n1 : 0.256 623.8 623.8 NEON vmla.f32 (32bit x2) n1 : 0.588 544.6 544.6 NEON vfma.f32 (32bit x2) n1 : 0.612 522.6 522.6 NEON vmul.f32 (32bit x4) n1 : 0.486 658.7 658.7 NEON vadd.f32 (32bit x4) n1 : 0.465 687.7 687.7 NEON vmla.f32 (32bit x4) n1 : 0.594 1076.8 1076.8 NEON vfma.f32 (32bit x4) n1 : 0.589 1086.2 1086.2 NEON vmul.f32 (32bit x4) n12 : 0.718 668.2 668.2 NEON vadd.f32 (32bit x4) n12 : 0.700 685.5 685.5 NEON vmla.f32 (32bit x4) n12 : 0.723 1327.2 1327.2 NEON vfma.f32 (32bit x4) n12 : 0.714 1343.6 1343.6 平均 : 0.382 837.6 837.6 最大 : 0.108 1418.7 1418.7 * VFP/NEON (倍精度 fp) single-thread VFP fmuld (64bit x1) n8 : 0.593 134.8 134.8 VFP faddd (64bit x1) n8 : 0.133 600.3 600.3 VFP fmacd (64bit x1) n8 : 0.463 345.7 345.7 VFP vfma.f64 (64bit x1) n8 : 0.644 248.4 248.4 VFP fmuld (64bit x1) ns4 : 0.483 165.6 165.6 VFP faddd (64bit x1) ns4 : 0.108 742.3 742.3 VFP fmacd (64bit x1) ns4 : 0.488 328.0 328.0 VFP vfma.f64 (64bit x1) ns4 : 0.612 261.6 261.6 VFP fmuld (64bit x1) n1 : 0.463 172.6 172.6 VFP faddd (64bit x1) n1 : 0.135 591.4 591.4 VFP fmacd (64bit x1) n1 : 0.939 170.3 170.3 VFP vfma.f64 (64bit x1) n1 : 0.928 172.4 172.4 平均 : 0.499 327.8 327.8 最大 : 0.108 742.3 742.3 * Matrix 4x4 (単精度 fp) single-thread C++ code : 0.322 556.6 556.6 NEON vmla 128bit A : 0.273 657.4 657.4 NEON vmla 64bit A : 0.288 622.1 622.1 NEON vfma 128bit A : 0.460 389.6 389.6 NEON vmla 128bit B : 0.218 821.9 821.9 NEON vmla 64bit B : 0.248 723.7 723.7 NEON vfma 128bit B : 0.308 581.4 581.4 NEON vfma 128bit C : 0.440 407.4 407.4 平均 : 0.320 595.0 595.0 最大 : 0.218 821.9 821.9 * VFP/NEON (単精度 fp) multi-thread VFP fmuls (32bit x1) n8 : 0.619 517.4 517.4 VFP fadds (32bit x1) n8 : 0.489 654.9 654.9 VFP fmacs (32bit x1) n8 : 0.530 1206.7 1206.7 VFP vfma.f32 (32bit x1) n8 : 0.474 1351.0 1351.0 NEON vmul.f32 (32bit x2) n8 : 0.939 681.8 681.8 NEON vadd.f32 (32bit x2) n8 : 0.939 681.8 681.8 NEON vmla.f32 (32bit x2) n8 : 0.980 1305.8 1305.8 NEON vfma.f32 (32bit x2) n8 : 0.969 1321.6 1321.6 NEON vmul.f32 (32bit x4) n8 : 1.910 670.1 670.1 NEON vadd.f32 (32bit x4) n8 : 1.905 671.9 671.9 NEON vmla.f32 (32bit x4) n8 : 1.898 1348.6 1348.6 NEON vfma.f32 (32bit x4) n8 : 1.890 1354.6 1354.6 VFP fmuls (32bit x1) ns4 : 0.497 644.2 644.2 VFP fadds (32bit x1) ns4 : 0.472 678.4 678.4 VFP fmacs (32bit x1) ns4 : 0.952 672.5 672.5 VFP vfma.f32 (32bit x1) ns4 : 0.957 668.7 668.7 NEON vmul.f32 (32bit x2) ns4 : 0.960 666.9 666.9 NEON vadd.f32 (32bit x2) ns4 : 0.932 686.8 686.8 NEON vmla.f32 (32bit x2) ns4 : 0.965 1326.6 1326.6 NEON vfma.f32 (32bit x2) ns4 : 0.955 1340.8 1340.8 NEON vmul.f32 (32bit x4) ns4 : 1.882 680.2 680.2 NEON vadd.f32 (32bit x4) ns4 : 1.888 678.0 678.0 NEON vmla.f32 (32bit x4) ns4 : 1.878 1363.3 1363.3 NEON vfma.f32 (32bit x4) ns4 : 1.873 1366.8 1366.8 VFP fmuls (32bit x1) n1 : 0.489 654.1 654.1 VFP fadds (32bit x1) n1 : 0.474 675.5 675.5 VFP fmacs (32bit x1) n1 : 2.378 269.1 269.1 VFP vfma.f32 (32bit x1) n1 : 2.359 271.3 271.3 NEON vmul.f32 (32bit x2) n1 : 0.958 667.8 667.8 NEON vadd.f32 (32bit x2) n1 : 0.937 683.2 683.2 NEON vmla.f32 (32bit x2) n1 : 2.379 538.0 538.0 NEON vfma.f32 (32bit x2) n1 : 2.323 551.0 551.0 NEON vmul.f32 (32bit x4) n1 : 1.874 683.0 683.0 NEON vadd.f32 (32bit x4) n1 : 1.870 684.7 684.7 NEON vmla.f32 (32bit x4) n1 : 2.342 1093.0 1093.0 NEON vfma.f32 (32bit x4) n1 : 2.349 1089.8 1089.8 NEON vmul.f32 (32bit x4) n12 : 2.813 682.5 682.5 NEON vadd.f32 (32bit x4) n12 : 2.846 674.6 674.6 NEON vmla.f32 (32bit x4) n12 : 2.861 1342.1 1342.1 NEON vfma.f32 (32bit x4) n12 : 2.820 1361.6 1361.6 平均 : 1.496 861.5 861.5 最大 : 0.472 1366.8 1366.8 * VFP/NEON (倍精度 fp) multi-thread VFP fmuld (64bit x1) n8 : 2.034 157.3 157.3 VFP faddd (64bit x1) n8 : 0.493 649.3 649.3 VFP fmacd (64bit x1) n8 : 1.879 340.5 340.5 VFP vfma.f64 (64bit x1) n8 : 2.342 273.3 273.3 VFP fmuld (64bit x1) ns4 : 1.866 171.5 171.5 VFP faddd (64bit x1) ns4 : 0.489 653.7 653.7 VFP fmacd (64bit x1) ns4 : 1.855 344.9 344.9 VFP vfma.f64 (64bit x1) ns4 : 2.338 273.7 273.7 VFP fmuld (64bit x1) n1 : 1.865 171.6 171.6 VFP faddd (64bit x1) n1 : 0.473 675.9 675.9 VFP fmacd (64bit x1) n1 : 3.740 171.1 171.1 VFP vfma.f64 (64bit x1) n1 : 3.702 172.9 172.9 平均 : 1.923 338.0 338.0 最大 : 0.473 675.9 675.9 * Matrix 4x4 (単精度 fp) multi-thread C++ code : 1.004 713.6 713.6 NEON vmla 128bit A : 1.105 648.8 648.8 NEON vmla 64bit A : 1.074 667.2 667.2 NEON vfma 128bit A : 1.759 407.5 407.5 NEON vmla 128bit B : 0.890 805.7 805.7 NEON vmla 64bit B : 0.872 821.8 821.8 NEON vfma 128bit B : 1.179 608.1 608.1 NEON vfma 128bit C : 1.772 404.4 404.4 平均 : 1.207 634.6 634.6 最大 : 0.872 821.8 821.8
Sony SmartWatch 3 SWR50 Android Wear Snapdragon 400 1.2GHz quad core
Sony SmartWatch 3 SWR50 Android Wear Snapdragon 400 1.2GHz quad core Cortex-A7 x4 1.2GHz (x2) ARCH: ARMv7A CPU core: 4 VFP: VFPv4-D32 NEON FMA: Yes NEON: Yes Result SingleT SP max: 2.257 GFLOPS SingleT DP max: 1.144 GFLOPS MultiT SP max: 4.946 GFLOPS MultiT DP max: 2.278 GFLOPS * VFP/NEON (単精度 fp) single-thread VFP fmuls (32bit x1) n8 : 0.101 791.0 791.0 VFP fadds (32bit x1) n8 : 0.086 933.9 933.9 VFP fmacs (32bit x1) n8 : 0.104 1540.2 1540.2 VFP vfma.f32 (32bit x1) n8 : 0.081 1974.7 1974.7 NEON vmul.f32 (32bit x2) n8 : 0.169 945.3 945.3 NEON vadd.f32 (32bit x2) n8 : 0.169 946.9 946.9 NEON vmla.f32 (32bit x2) n8 : 0.157 2041.6 2041.6 NEON vfma.f32 (32bit x2) n8 : 0.149 2149.2 2149.2 NEON vmul.f32 (32bit x4) n8 : 0.333 961.4 961.4 NEON vadd.f32 (32bit x4) n8 : 0.358 892.7 892.7 NEON vmla.f32 (32bit x4) n8 : 0.291 2202.2 2202.2 NEON vfma.f32 (32bit x4) n8 : 0.312 2050.0 2050.0 VFP fmuls (32bit x1) ns4 : 0.069 1153.3 1153.3 VFP fadds (32bit x1) ns4 : 0.073 1095.0 1095.0 VFP fmacs (32bit x1) ns4 : 0.141 1135.3 1135.3 VFP vfma.f32 (32bit x1) ns4 : 0.153 1045.4 1045.4 NEON vmul.f32 (32bit x2) ns4 : 0.155 1030.8 1030.8 NEON vadd.f32 (32bit x2) ns4 : 0.150 1065.8 1065.8 NEON vmla.f32 (32bit x2) ns4 : 0.156 2057.6 2057.6 NEON vfma.f32 (32bit x2) ns4 : 0.169 1895.1 1895.1 NEON vmul.f32 (32bit x4) ns4 : 0.309 1036.0 1036.0 NEON vadd.f32 (32bit x4) ns4 : 0.297 1076.3 1076.3 NEON vmla.f32 (32bit x4) ns4 : 0.303 2114.7 2114.7 NEON vfma.f32 (32bit x4) ns4 : 0.284 2256.9 2256.9 VFP fmuls (32bit x1) n1 : 0.071 1122.7 1122.7 VFP fadds (32bit x1) n1 : 0.078 1027.2 1027.2 VFP fmacs (32bit x1) n1 : 0.374 427.8 427.8 VFP vfma.f32 (32bit x1) n1 : 0.375 426.2 426.2 NEON vmul.f32 (32bit x2) n1 : 0.147 1092.0 1092.0 NEON vadd.f32 (32bit x2) n1 : 0.157 1021.8 1021.8 NEON vmla.f32 (32bit x2) n1 : 0.383 836.0 836.0 NEON vfma.f32 (32bit x2) n1 : 0.383 835.1 835.1 NEON vmul.f32 (32bit x4) n1 : 0.286 1119.3 1119.3 NEON vadd.f32 (32bit x4) n1 : 0.292 1096.4 1096.4 NEON vmla.f32 (32bit x4) n1 : 0.344 1858.2 1858.2 NEON vfma.f32 (32bit x4) n1 : 0.343 1865.3 1865.3 NEON vmul.f32 (32bit x4) n12 : 0.413 1161.1 1161.1 NEON vadd.f32 (32bit x4) n12 : 0.413 1161.8 1161.8 NEON vmla.f32 (32bit x4) n12 : 0.447 2146.1 2146.1 NEON vfma.f32 (32bit x4) n12 : 0.462 2079.3 2079.3 平均 : 0.238 1341.7 1341.7 最大 : 0.069 2256.9 2256.9 * VFP/NEON (倍精度 fp) single-thread VFP fmuld (64bit x1) n8 : 0.398 201.2 201.2 VFP faddd (64bit x1) n8 : 0.082 972.7 972.7 VFP fmacd (64bit x1) n8 : 0.298 537.8 537.8 VFP vfma.f64 (64bit x1) n8 : 0.390 410.2 410.2 VFP fmuld (64bit x1) ns4 : 0.355 225.2 225.2 VFP faddd (64bit x1) ns4 : 0.073 1089.1 1089.1 VFP fmacd (64bit x1) ns4 : 0.311 514.9 514.9 VFP vfma.f64 (64bit x1) ns4 : 0.351 455.7 455.7 VFP fmuld (64bit x1) n1 : 0.280 285.8 285.8 VFP faddd (64bit x1) n1 : 0.070 1144.2 1144.2 VFP fmacd (64bit x1) n1 : 0.561 285.4 285.4 VFP vfma.f64 (64bit x1) n1 : 0.559 286.2 286.2 平均 : 0.311 534.0 534.0 最大 : 0.070 1144.2 1144.2 * Matrix 4x4 (単精度 fp) single-thread C++ code : 0.181 987.4 987.4 NEON vmla 128bit A : 0.215 833.4 833.4 NEON vmla 64bit A : 0.186 965.3 965.3 NEON vfma 128bit A : 0.292 613.7 613.7 NEON vmla 128bit B : 0.147 1215.2 1215.2 NEON vmla 64bit B : 0.158 1137.8 1137.8 NEON vfma 128bit B : 0.216 828.2 828.2 NEON vfma 128bit C : 0.280 640.8 640.8 平均 : 0.209 902.7 902.7 最大 : 0.147 1215.2 1215.2 * VFP/NEON (単精度 fp) multi-thread VFP fmuls (32bit x1) n8 : 0.257 1245.6 1245.6 VFP fadds (32bit x1) n8 : 0.196 1629.7 1629.7 VFP fmacs (32bit x1) n8 : 0.139 4590.0 4590.0 VFP vfma.f32 (32bit x1) n8 : 0.131 4879.4 4879.4 NEON vmul.f32 (32bit x2) n8 : 0.284 2251.2 2251.2 NEON vadd.f32 (32bit x2) n8 : 0.333 1920.1 1920.1 NEON vmla.f32 (32bit x2) n8 : 0.320 3996.3 3996.3 NEON vfma.f32 (32bit x2) n8 : 0.306 4186.0 4186.0 NEON vmul.f32 (32bit x4) n8 : 0.579 2210.5 2210.5 NEON vadd.f32 (32bit x4) n8 : 0.579 2212.5 2212.5 NEON vmla.f32 (32bit x4) n8 : 0.578 4427.2 4427.2 NEON vfma.f32 (32bit x4) n8 : 0.574 4461.4 4461.4 VFP fmuls (32bit x1) ns4 : 0.140 2292.2 2292.2 VFP fadds (32bit x1) ns4 : 0.147 2169.7 2169.7 VFP fmacs (32bit x1) ns4 : 0.290 2208.9 2208.9 VFP vfma.f32 (32bit x1) ns4 : 0.292 2191.6 2191.6 NEON vmul.f32 (32bit x2) ns4 : 0.290 2208.6 2208.6 NEON vadd.f32 (32bit x2) ns4 : 0.291 2202.4 2202.4 NEON vmla.f32 (32bit x2) ns4 : 0.290 4416.1 4416.1 NEON vfma.f32 (32bit x2) ns4 : 0.300 4265.9 4265.9 NEON vmul.f32 (32bit x4) ns4 : 0.577 2218.4 2218.4 NEON vadd.f32 (32bit x4) ns4 : 0.579 2210.6 2210.6 NEON vmla.f32 (32bit x4) ns4 : 0.606 4227.2 4227.2 NEON vfma.f32 (32bit x4) ns4 : 0.585 4372.4 4372.4 VFP fmuls (32bit x1) n1 : 0.144 2227.5 2227.5 VFP fadds (32bit x1) n1 : 0.156 2052.2 2052.2 VFP fmacs (32bit x1) n1 : 0.731 875.0 875.0 VFP vfma.f32 (32bit x1) n1 : 0.719 890.1 890.1 NEON vmul.f32 (32bit x2) n1 : 0.295 2168.2 2168.2 NEON vadd.f32 (32bit x2) n1 : 0.292 2190.4 2190.4 NEON vmla.f32 (32bit x2) n1 : 0.709 1806.6 1806.6 NEON vfma.f32 (32bit x2) n1 : 0.728 1758.7 1758.7 NEON vmul.f32 (32bit x4) n1 : 0.581 2204.7 2204.7 NEON vadd.f32 (32bit x4) n1 : 0.577 2217.5 2217.5 NEON vmla.f32 (32bit x4) n1 : 0.715 3580.6 3580.6 NEON vfma.f32 (32bit x4) n1 : 0.718 3565.4 3565.4 NEON vmul.f32 (32bit x4) n12 : 0.856 2243.0 2243.0 NEON vadd.f32 (32bit x4) n12 : 0.857 2239.5 2239.5 NEON vmla.f32 (32bit x4) n12 : 0.863 4449.6 4449.6 NEON vfma.f32 (32bit x4) n12 : 0.776 4945.9 4945.9 平均 : 0.460 2810.2 2810.2 最大 : 0.131 4945.9 4945.9 * VFP/NEON (倍精度 fp) multi-thread VFP fmuld (64bit x1) n8 : 0.693 461.9 461.9 VFP faddd (64bit x1) n8 : 0.144 2220.4 2220.4 VFP fmacd (64bit x1) n8 : 0.651 983.2 983.2 VFP vfma.f64 (64bit x1) n8 : 0.723 885.8 885.8 VFP fmuld (64bit x1) ns4 : 0.572 559.8 559.8 VFP faddd (64bit x1) ns4 : 0.152 2098.5 2098.5 VFP fmacd (64bit x1) ns4 : 0.569 1125.5 1125.5 VFP vfma.f64 (64bit x1) ns4 : 0.720 888.6 888.6 VFP fmuld (64bit x1) n1 : 0.577 554.7 554.7 VFP faddd (64bit x1) n1 : 0.140 2277.8 2277.8 VFP fmacd (64bit x1) n1 : 1.152 555.7 555.7 VFP vfma.f64 (64bit x1) n1 : 1.061 603.5 603.5 平均 : 0.596 1101.3 1101.3 最大 : 0.140 2277.8 2277.8 * Matrix 4x4 (単精度 fp) multi-thread C++ code : 0.423 1693.8 1693.8 NEON vmla 128bit A : 0.298 2406.4 2406.4 NEON vmla 64bit A : 0.359 1998.3 1998.3 NEON vfma 128bit A : 0.534 1342.7 1342.7 NEON vmla 128bit B : 0.275 2608.3 2608.3 NEON vmla 64bit B : 0.331 2166.5 2166.5 NEON vfma 128bit B : 0.353 2029.9 2029.9 NEON vfma 128bit C : 0.527 1359.1 1359.1 平均 : 0.387 1950.6 1950.6 最大 : 0.275 2608.3 2608.3
Fossil Q-Marshal Snapdragon 400 quad core (dual core)
Fossil Q-Marshal Snapdragon 400 quad core (dual core) Fossil Q-Marshal Snapdragon 400 quad core (dual core) Cortex-A7 x4 1.2GHz (x2 0.8GHz) RAM 0.5GB ARCH: ARMv7A CPU core: 4 VFP: VFPv4-D32 NEON FMA: Yes NEON: Yes Result SingleT SP max: 1.504 GFLOPS SingleT DP max: 0.755 GFLOPS MultiT SP max: 2.821 GFLOPS MultiT DP max: 1.369 GFLOPS * VFP/NEON (単精度 fp) single-thread VFP fmuls (32bit x1) n8 : 0.173 462.9 462.9 VFP fadds (32bit x1) n8 : 0.145 552.9 552.9 VFP fmacs (32bit x1) n8 : 0.112 1424.8 1424.8 VFP vfma.f32 (32bit x1) n8 : 0.121 1317.6 1317.6 NEON vmul.f32 (32bit x2) n8 : 0.220 727.5 727.5 NEON vadd.f32 (32bit x2) n8 : 0.250 638.8 638.8 NEON vmla.f32 (32bit x2) n8 : 0.243 1318.1 1318.1 NEON vfma.f32 (32bit x2) n8 : 0.219 1461.3 1461.3 NEON vmul.f32 (32bit x4) n8 : 0.492 650.8 650.8 NEON vadd.f32 (32bit x4) n8 : 0.427 749.9 749.9 NEON vmla.f32 (32bit x4) n8 : 0.433 1478.7 1478.7 NEON vfma.f32 (32bit x4) n8 : 0.431 1484.1 1484.1 VFP fmuls (32bit x1) ns4 : 0.110 728.2 728.2 VFP fadds (32bit x1) ns4 : 0.116 688.3 688.3 VFP fmacs (32bit x1) ns4 : 0.221 722.7 722.7 VFP vfma.f32 (32bit x1) ns4 : 0.218 733.7 733.7 NEON vmul.f32 (32bit x2) ns4 : 0.220 725.7 725.7 NEON vadd.f32 (32bit x2) ns4 : 0.219 729.0 729.0 NEON vmla.f32 (32bit x2) ns4 : 0.215 1490.8 1490.8 NEON vfma.f32 (32bit x2) ns4 : 0.220 1457.6 1457.6 NEON vmul.f32 (32bit x4) ns4 : 0.433 738.6 738.6 NEON vadd.f32 (32bit x4) ns4 : 0.442 724.7 724.7 NEON vmla.f32 (32bit x4) ns4 : 0.434 1476.1 1476.1 NEON vfma.f32 (32bit x4) ns4 : 0.429 1492.4 1492.4 VFP fmuls (32bit x1) n1 : 0.104 769.2 769.2 VFP fadds (32bit x1) n1 : 0.115 694.2 694.2 VFP fmacs (32bit x1) n1 : 0.539 296.7 296.7 VFP vfma.f32 (32bit x1) n1 : 0.533 300.5 300.5 NEON vmul.f32 (32bit x2) n1 : 0.221 723.3 723.3 NEON vadd.f32 (32bit x2) n1 : 0.220 726.4 726.4 NEON vmla.f32 (32bit x2) n1 : 0.534 599.4 599.4 NEON vfma.f32 (32bit x2) n1 : 0.539 593.9 593.9 NEON vmul.f32 (32bit x4) n1 : 0.443 721.8 721.8 NEON vadd.f32 (32bit x4) n1 : 0.433 739.4 739.4 NEON vmla.f32 (32bit x4) n1 : 0.551 1160.7 1160.7 NEON vfma.f32 (32bit x4) n1 : 0.541 1183.7 1183.7 NEON vmul.f32 (32bit x4) n12 : 0.646 743.1 743.1 NEON vadd.f32 (32bit x4) n12 : 0.633 758.2 758.2 NEON vmla.f32 (32bit x4) n12 : 0.645 1487.6 1487.6 NEON vfma.f32 (32bit x4) n12 : 0.638 1504.3 1504.3 平均 : 0.347 924.4 924.4 最大 : 0.104 1504.3 1504.3 * VFP/NEON (倍精度 fp) single-thread VFP fmuld (64bit x1) n8 : 0.568 140.9 140.9 VFP faddd (64bit x1) n8 : 0.118 675.3 675.3 VFP fmacd (64bit x1) n8 : 0.433 369.4 369.4 VFP vfma.f64 (64bit x1) n8 : 0.557 287.0 287.0 VFP fmuld (64bit x1) ns4 : 0.469 170.6 170.6 VFP faddd (64bit x1) ns4 : 0.109 731.4 731.4 VFP fmacd (64bit x1) ns4 : 0.436 366.9 366.9 VFP vfma.f64 (64bit x1) ns4 : 0.535 298.8 298.8 VFP fmuld (64bit x1) n1 : 0.429 186.7 186.7 VFP faddd (64bit x1) n1 : 0.106 755.2 755.2 VFP fmacd (64bit x1) n1 : 0.859 186.3 186.3 VFP vfma.f64 (64bit x1) n1 : 0.849 188.5 188.5 平均 : 0.456 363.1 363.1 最大 : 0.106 755.2 755.2 * Matrix 4x4 (単精度 fp) single-thread C++ code : 0.244 734.9 734.9 NEON vmla 128bit A : 0.259 692.2 692.2 NEON vmla 64bit A : 0.247 725.8 725.8 NEON vfma 128bit A : 0.404 443.1 443.1 NEON vmla 128bit B : 0.200 896.7 896.7 NEON vmla 64bit B : 0.204 878.0 878.0 NEON vfma 128bit B : 0.338 529.5 529.5 NEON vfma 128bit C : 0.405 442.1 442.1 平均 : 0.288 667.8 667.8 最大 : 0.200 896.7 896.7 * VFP/NEON (単精度 fp) multi-thread VFP fmuls (32bit x1) n8 : 0.353 906.8 906.8 VFP fadds (32bit x1) n8 : 0.238 1344.3 1344.3 VFP fmacs (32bit x1) n8 : 0.240 2665.6 2665.6 VFP vfma.f32 (32bit x1) n8 : 0.244 2620.8 2620.8 NEON vmul.f32 (32bit x2) n8 : 0.455 1407.2 1407.2 NEON vadd.f32 (32bit x2) n8 : 0.533 1201.3 1201.3 NEON vmla.f32 (32bit x2) n8 : 0.461 2774.6 2774.6 NEON vfma.f32 (32bit x2) n8 : 0.457 2801.9 2801.9 NEON vmul.f32 (32bit x4) n8 : 0.915 1399.1 1399.1 NEON vadd.f32 (32bit x4) n8 : 0.911 1405.2 1405.2 NEON vmla.f32 (32bit x4) n8 : 0.913 2804.8 2804.8 NEON vfma.f32 (32bit x4) n8 : 0.922 2777.1 2777.1 VFP fmuls (32bit x1) ns4 : 0.233 1373.3 1373.3 VFP fadds (32bit x1) ns4 : 0.230 1392.7 1392.7 VFP fmacs (32bit x1) ns4 : 0.451 1417.9 1417.9 VFP vfma.f32 (32bit x1) ns4 : 0.461 1387.3 1387.3 NEON vmul.f32 (32bit x2) ns4 : 0.463 1383.6 1383.6 NEON vadd.f32 (32bit x2) ns4 : 0.462 1385.9 1385.9 NEON vmla.f32 (32bit x2) ns4 : 0.463 2762.4 2762.4 NEON vfma.f32 (32bit x2) ns4 : 0.464 2757.6 2757.6 NEON vmul.f32 (32bit x4) ns4 : 0.901 1421.0 1421.0 NEON vadd.f32 (32bit x4) ns4 : 0.921 1389.6 1389.6 NEON vmla.f32 (32bit x4) ns4 : 0.907 2821.4 2821.4 NEON vfma.f32 (32bit x4) ns4 : 0.910 2813.8 2813.8 VFP fmuls (32bit x1) n1 : 0.238 1345.2 1345.2 VFP fadds (32bit x1) n1 : 0.235 1362.8 1362.8 VFP fmacs (32bit x1) n1 : 1.133 564.7 564.7 VFP vfma.f32 (32bit x1) n1 : 1.130 566.2 566.2 NEON vmul.f32 (32bit x2) n1 : 0.462 1385.7 1385.7 NEON vadd.f32 (32bit x2) n1 : 0.459 1395.2 1395.2 NEON vmla.f32 (32bit x2) n1 : 1.446 884.9 884.9 NEON vfma.f32 (32bit x2) n1 : 1.416 904.0 904.0 NEON vmul.f32 (32bit x4) n1 : 1.141 1121.5 1121.5 NEON vadd.f32 (32bit x4) n1 : 1.095 1168.8 1168.8 NEON vmla.f32 (32bit x4) n1 : 1.254 2040.8 2040.8 NEON vfma.f32 (32bit x4) n1 : 1.233 2076.8 2076.8 NEON vmul.f32 (32bit x4) n12 : 1.449 1325.2 1325.2 NEON vadd.f32 (32bit x4) n12 : 1.411 1360.6 1360.6 NEON vmla.f32 (32bit x4) n12 : 1.396 2751.3 2751.3 NEON vfma.f32 (32bit x4) n12 : 1.363 2817.3 2817.3 平均 : 0.759 1737.2 1737.2 最大 : 0.230 2821.4 2821.4 * VFP/NEON (倍精度 fp) multi-thread VFP fmuld (64bit x1) n8 : 1.075 297.7 297.7 VFP faddd (64bit x1) n8 : 0.238 1346.1 1346.1 VFP fmacd (64bit x1) n8 : 1.009 634.4 634.4 VFP vfma.f64 (64bit x1) n8 : 1.174 545.4 545.4 VFP fmuld (64bit x1) ns4 : 0.892 358.7 358.7 VFP faddd (64bit x1) ns4 : 0.234 1369.2 1369.2 VFP fmacd (64bit x1) ns4 : 0.919 696.8 696.8 VFP vfma.f64 (64bit x1) ns4 : 1.128 567.2 567.2 VFP fmuld (64bit x1) n1 : 0.899 356.1 356.1 VFP faddd (64bit x1) n1 : 0.237 1350.0 1350.0 VFP fmacd (64bit x1) n1 : 1.824 351.0 351.0 VFP vfma.f64 (64bit x1) n1 : 1.773 361.0 361.0 平均 : 0.950 686.1 686.1 最大 : 0.234 1369.2 1369.2 * Matrix 4x4 (単精度 fp) multi-thread C++ code : 0.518 1384.6 1384.6 NEON vmla 128bit A : 0.524 1367.4 1367.4 NEON vmla 64bit A : 0.610 1174.5 1174.5 NEON vfma 128bit A : 0.851 842.4 842.4 NEON vmla 128bit B : 0.428 1674.9 1674.9 NEON vmla 64bit B : 0.419 1712.4 1712.4 NEON vfma 128bit B : 0.563 1273.6 1273.6 NEON vfma 128bit C : 0.664 1080.0 1080.0 平均 : 0.572 1313.7 1313.7 最大 : 0.419 1712.4 1712.4
Intel Atom (IA32 x86) SSS4.2
Fossil Q Founder Android Wear Atom T1000 1.0GHz dual core
Android Wear Fossil Q Founder Atom T1000 1.0GHz dual core RAM 512MB ARCH: x86 CPU core: 2 FPU: SSE SSE2 SSSE3 SSE4.1 SSE4.2 Result SingleT SP max: 2.015 GFLOPS SingleT DP max: 0.688 GFLOPS MultiT SP max: 3.862 GFLOPS MultiT DP max: 1.221 GFLOPS * SSE/AVX (単精度 fp) single-thread SSE mulss (32bit x1) n8 : 0.248 323.1 323.1 SSE addss (32bit x1) n8 : 0.243 328.6 328.6 SSE mulps (32bit x4) n8 : 0.356 897.7 897.7 SSE addps (32bit x4) n8 : 0.174 1842.9 1842.9 SSE mul+addps (32bit x4) n8 : 0.170 1877.1 1877.1 SSE ml+ad+addps (32bit x4) n6 : 0.167 2014.8 2014.8 SSE mulss (32bit x1) ns4 : 0.190 421.2 421.2 SSE addss (32bit x1) ns4 : 0.172 464.6 464.6 SSE mulps (32bit x4) ns4 : 0.343 933.3 933.3 SSE addps (32bit x4) ns4 : 0.166 1931.6 1931.6 AVX vmulps (32bit x8) n8 : - - - AVX vaddps (32bit x8) n8 : - - - AVX vmul+addps (32bit x8) n8 : - - - AVX vml+ad+adps (32bit x8) n6 : - - - 平均 : 0.223 1103.5 1103.5 最大 : 0.166 2014.8 2014.8 * SSE/AVX (倍精度 fp) single-thread SSE2 mulsd (64bit x1) n8 : 0.491 163.0 163.0 SSE2 addsd (64bit x1) n8 : 0.175 456.7 456.7 SSE2 mulpd (64bit x2) n8 : 0.680 235.4 235.4 SSE2 addpd (64bit x2) n8 : 0.357 448.5 448.5 SSE2 mul+addpd (64bit x2) n8 : 0.330 485.5 485.5 SSE2 ml+ad+dpd (64bit x2) n6 : 0.244 688.4 688.4 SSE2 mulsd (64bit x1) ns4 : 0.331 241.8 241.8 SSE2 addsd (64bit x1) ns4 : 0.173 463.2 463.2 SSE2 mulpd (64bit x2) ns4 : 0.673 237.6 237.6 SSE2 addpd (64bit x2) ns4 : 0.333 479.9 479.9 AVX vmulpd (64bit x4) n8 : - - - AVX vaddpd (64bit x4) n8 : - - - AVX vmul+addpd (64bit x4) n8 : - - - AVX vml_ad_adpd (64bit x4) n6 : - - - 平均 : 0.379 390.0 390.0 最大 : 0.173 688.4 688.4 * Matrix 4x4 (単精度 fp) single-thread C++ code : 0.931 192.4 192.4 C++ Intrinsic SSE 128bit : 0.229 782.3 782.3 SSE mul/addps 128bit A : 0.302 593.2 593.2 AVX vmul/addps 256bit A : - - - 平均 : 0.488 522.6 522.6 最大 : 0.229 782.3 782.3 * SSE/AVX (単精度 fp) multi-thread SSE mulss (32bit x1) n8 : 0.316 505.6 505.6 SSE addss (32bit x1) n8 : 0.210 763.4 763.4 SSE mulps (32bit x4) n8 : 0.357 1793.6 1793.6 SSE addps (32bit x4) n8 : 0.177 3606.3 3606.3 SSE mul+addps (32bit x4) n8 : 0.198 3238.9 3238.9 SSE ml+ad+addps (32bit x4) n6 : 0.203 3310.0 3310.0 SSE mulss (32bit x1) ns4 : 0.201 794.3 794.3 SSE addss (32bit x1) ns4 : 0.184 870.4 870.4 SSE mulps (32bit x4) ns4 : 0.348 1840.1 1840.1 SSE addps (32bit x4) ns4 : 0.166 3862.2 3862.2 AVX vmulps (32bit x8) n8 : - - - AVX vaddps (32bit x8) n8 : - - - AVX vmul+addps (32bit x8) n8 : - - - AVX vml+ad+adps (32bit x8) n6 : - - - 平均 : 0.236 2058.5 2058.5 最大 : 0.166 3862.2 3862.2 * SSE/AVX (倍精度 fp) multi-thread SSE2 mulsd (64bit x1) n8 : 0.569 281.3 281.3 SSE2 addsd (64bit x1) n8 : 0.235 681.1 681.1 SSE2 mulpd (64bit x2) n8 : 0.887 361.0 361.0 SSE2 addpd (64bit x2) n8 : 0.372 860.9 860.9 SSE2 mul+addpd (64bit x2) n8 : 0.357 895.4 895.4 SSE2 ml+ad+dpd (64bit x2) n6 : 0.275 1221.0 1221.0 SSE2 mulsd (64bit x1) ns4 : 0.534 299.7 299.7 SSE2 addsd (64bit x1) ns4 : 0.189 845.3 845.3 SSE2 mulpd (64bit x2) ns4 : 0.747 428.4 428.4 SSE2 addpd (64bit x2) ns4 : 0.374 854.6 854.6 AVX vmulpd (64bit x4) n8 : - - - AVX vaddpd (64bit x4) n8 : - - - AVX vmul+addpd (64bit x4) n8 : - - - AVX vml_ad_adpd (64bit x4) n6 : - - - 平均 : 0.454 672.8 672.8 最大 : 0.189 1221.0 1221.0 * Matrix 4x4 (単精度 fp) multi-thread C++ code : 1.252 286.1 286.1 C++ Intrinsic SSE 128bit : 0.344 1042.3 1042.3 SSE mul/addps 128bit A : 0.276 1298.3 1298.3 AVX vmul/addps 256bit A : - - - 平均 : 0.624 875.6 875.6 最大 : 0.276 1298.3 1298.3
Ingenic JZ4775 XBurst (MIPS32-R2) FPU
SmartQ ZWatch JZ4775 XBurst 1.0GHz (MIPS32-R2)
Ingenic JZ4775 mips32 XBurst 1.0GHz single core ARCH: MIPS32 CPU core: 1 FPU: FPU Result SingleT SP max: 0.117 GFLOPS SingleT DP max: 0.116 GFLOPS MultiT SP max: 0.117 GFLOPS MultiT DP max: 0.117 GFLOPS * FPU (single fp) single-thread FPU mul.s (32bit x1) n8 : 13.098 91.6 91.6 FPU add.s (32bit x1) n8 : 10.428 115.1 115.1 FPU madd.s (32bit x1) n8 : 32.977 72.8 72.8 FPU mul.s (32bit x1) n1 : 12.362 97.1 97.1 FPU add.s (32bit x1) n1 : 10.272 116.8 116.8 FPU madd.s (32bit x1) n1 : 32.531 73.8 73.8 Average : 18.611 94.5 94.5 Highest : 10.272 116.8 116.8 * FPU (double fp) single-thread FPU mul.d (64bit x1) n8 : 21.607 55.5 55.5 FPU add.d (64bit x1) n8 : 10.324 116.2 116.2 FPU madd.d (64bit x1) n8 : 40.805 58.8 58.8 FPU mul.d (64bit x1) n1 : 20.391 58.9 58.9 FPU add.d (64bit x1) n1 : 10.393 115.5 115.5 FPU madd.d (64bit x1) n1 : 40.870 58.7 58.7 Average : 24.065 77.3 77.3 Highest : 10.324 116.2 116.2 * Matrix 4x4 (single fp) single-thread C++ code : 37.353 48.0 48.0 SIMD reserved 128bit A : - - - SIMD reserved 64bit A : - - - SIMD reserved 128bit A : - - - SIMD reserved 128bit B : - - - SIMD reserved 64bit B : - - - SIMD reserved 128bit B : - - - SIMD reserved 128bit C : - - - Average : 37.353 48.0 48.0 Highest : 37.353 48.0 48.0 * FPU (single fp) multi-thread FPU mul.s (32bit x1) n8 : 13.016 92.2 92.2 FPU add.s (32bit x1) n8 : 10.288 116.6 116.6 FPU madd.s (32bit x1) n8 : 32.506 73.8 73.8 FPU mul.s (32bit x1) n1 : 12.737 94.2 94.2 FPU add.s (32bit x1) n1 : 10.255 117.0 117.0 FPU madd.s (32bit x1) n1 : 32.507 73.8 73.8 Average : 18.552 94.6 94.6 Highest : 10.255 117.0 117.0 * FPU (double fp) multi-thread FPU mul.d (64bit x1) n8 : 21.245 56.5 56.5 FPU add.d (64bit x1) n8 : 10.255 117.0 117.0 FPU madd.d (64bit x1) n8 : 40.923 58.6 58.6 FPU mul.d (64bit x1) n1 : 20.312 59.1 59.1 FPU add.d (64bit x1) n1 : 10.294 116.6 116.6 FPU madd.d (64bit x1) n1 : 40.791 58.8 58.8 Average : 23.970 77.8 77.8 Highest : 10.255 117.0 117.0 * Matrix 4x4 (single fp) multi-thread C++ code : 37.167 48.2 48.2 SIMD reserved 128bit A : - - - SIMD reserved 64bit A : - - - SIMD reserved 128bit A : - - - SIMD reserved 128bit B : - - - SIMD reserved 64bit B : - - - SIMD reserved 128bit B : - - - SIMD reserved 128bit C : - - - Average : 37.167 48.2 48.2 Highest : 37.167 48.2 48.2
Apple S1 Apple Watch (ARMv7A)
HW INFO: Machine = Watch1,2 HW INFO: Model = N28aAP HW INFO: Arch = N28aAP HW INFO: ByteOrder = 1234 HW INFO: NCPU = 1 HW INFO: MemSize = 529530880 HW INFO: UserMem = 455229440 HW INFO: PageSize = 16384 HW INFO: VectorUnit = 0 HW INFO: Float = 0 CPU Feature: ARM_NEON ARM_VFPV4 CPU Core:1 Thread:1 ARCH: ARMv7A FPU: VFPv4-D32 NEON SingleT SP max: 0.951 GFLOPS SingleT DP max: 0.470 GFLOPS MultiT SP max: 0.945 GFLOPS MultiT DP max: 0.469 GFLOPS CPU core: 1 NEON: yes FMA: yes * VFP/NEON (single fp) VFP fmuls (32bit x1) n8 : 2.649 453.0 453.0 VFP fadds (32bit x1) n8 : 2.557 469.3 469.3 VFP fmacs (32bit x1) n8 : 2.586 928.2 928.2 VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : 5.160 465.1 465.1 NEON vadd.f32 (32bit x2) n8 : 5.096 470.9 470.9 NEON vmla.f32 (32bit x2) n8 : 5.077 945.4 945.4 NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : 10.097 475.4 475.4 NEON vadd.f32 (32bit x4) n8 : 10.182 471.4 471.4 NEON vmla.f32 (32bit x4) n8 : 10.165 944.4 944.4 NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : 2.686 446.8 446.8 VFP fadds (32bit x1) ns4 : 2.557 469.2 469.2 VFP fmacs (32bit x1) ns4 : 5.011 479.0 479.0 VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : 5.088 471.7 471.7 NEON vadd.f32 (32bit x2) ns4 : 6.157 389.8 389.8 NEON vmla.f32 (32bit x2) ns4 : 5.104 940.5 940.5 NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : 10.107 474.9 474.9 NEON vadd.f32 (32bit x4) ns4 : 10.995 436.5 436.5 NEON vmla.f32 (32bit x4) ns4 : 10.090 951.4 951.4 NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : 2.555 469.7 469.7 VFP fadds (32bit x1) n1 : 2.794 429.6 429.6 VFP fmacs (32bit x1) n1 : 12.516 191.8 191.8 VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : 5.076 472.8 472.8 NEON vadd.f32 (32bit x2) n1 : 5.174 463.9 463.9 NEON vmla.f32 (32bit x2) n1 : 12.531 383.1 383.1 NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : 10.201 470.6 470.6 NEON vadd.f32 (32bit x4) n1 : 10.088 475.8 475.8 NEON vmla.f32 (32bit x4) n1 : 12.606 761.5 761.5 NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : 15.209 473.4 473.4 NEON vadd.f32 (32bit x4) n12 : 15.087 477.2 477.2 NEON vmla.f32 (32bit x4) n12 : 15.696 917.5 917.5 NEON vfma.f32 (32bit x4) n12 : - - - Average : 7.696 555.7 555.7 Highest : 2.555 951.4 951.4 * VFP/NEON (double fp) VFP fmuld (64bit x1) n8 : 10.164 118.1 118.1 VFP faddd (64bit x1) n8 : 2.554 469.8 469.8 VFP fmacd (64bit x1) n8 : 10.746 223.3 223.3 VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : 10.242 117.2 117.2 VFP faddd (64bit x1) ns4 : 2.724 440.6 440.6 VFP fmacd (64bit x1) ns4 : 10.096 237.7 237.7 VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : 10.222 117.4 117.4 VFP faddd (64bit x1) n1 : 2.718 441.5 441.5 VFP fmacd (64bit x1) n1 : 20.298 118.2 118.2 VFP vfma.f64 (64bit x1) n1 : - - - Average : 8.863 253.8 253.8 Highest : 2.554 469.8 469.8 * Matrix 4x4 C++ code : 3.115 575.4 575.4 NEON vmla 128bit A : 3.872 462.8 462.8 NEON vmla 64bit A : 3.928 456.2 456.2 NEON vfma 128bit A : - - - NEON vmla 128bit B : 3.158 567.5 567.5 NEON vmla 64bit B : 3.151 568.8 568.8 NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - Average : 3.445 526.1 526.1 Highest : 3.115 575.4 575.4 * VFP/NEON (single fp) multi-thread VFP fmuls (32bit x1) n8 : 3.803 315.6 315.6 VFP fadds (32bit x1) n8 : 2.611 459.6 459.6 VFP fmacs (32bit x1) n8 : 2.633 911.6 911.6 VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : 5.214 460.3 460.3 NEON vadd.f32 (32bit x2) n8 : 5.114 469.3 469.3 NEON vmla.f32 (32bit x2) n8 : 5.124 936.8 936.8 NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : 10.271 467.3 467.3 NEON vadd.f32 (32bit x4) n8 : 10.186 471.2 471.2 NEON vmla.f32 (32bit x4) n8 : 10.276 934.2 934.2 NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : 2.566 467.7 467.7 VFP fadds (32bit x1) ns4 : 2.605 460.7 460.7 VFP fmacs (32bit x1) ns4 : 5.056 474.7 474.7 VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : 5.140 466.9 466.9 NEON vadd.f32 (32bit x2) ns4 : 5.207 460.9 460.9 NEON vmla.f32 (32bit x2) ns4 : 5.118 937.9 937.9 NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : 10.169 472.0 472.0 NEON vadd.f32 (32bit x4) ns4 : 10.265 467.6 467.6 NEON vmla.f32 (32bit x4) ns4 : 10.173 943.7 943.7 NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : 2.608 460.1 460.1 VFP fadds (32bit x1) n1 : 2.791 429.9 429.9 VFP fmacs (32bit x1) n1 : 12.652 189.7 189.7 VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : 5.118 469.0 469.0 NEON vadd.f32 (32bit x2) n1 : 5.202 461.3 461.3 NEON vmla.f32 (32bit x2) n1 : 12.618 380.4 380.4 NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : 10.264 467.6 467.6 NEON vadd.f32 (32bit x4) n1 : 11.020 435.6 435.6 NEON vmla.f32 (32bit x4) n1 : 13.373 717.9 717.9 NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : 15.233 472.7 472.7 NEON vadd.f32 (32bit x4) n12 : 15.106 476.6 476.6 NEON vmla.f32 (32bit x4) n12 : 15.239 944.9 944.9 NEON vfma.f32 (32bit x4) n12 : - - - Average : 7.758 549.5 549.5 Highest : 2.566 944.9 944.9 * VFP/NEON (double fp) multi-thread VFP fmuld (64bit x1) n8 : 10.108 118.7 118.7 VFP faddd (64bit x1) n8 : 2.556 469.4 469.4 VFP fmacd (64bit x1) n8 : 10.042 239.0 239.0 VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : 10.194 117.7 117.7 VFP faddd (64bit x1) ns4 : 2.700 444.5 444.5 VFP fmacd (64bit x1) ns4 : 10.016 239.6 239.6 VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : 10.125 118.5 118.5 VFP faddd (64bit x1) n1 : 2.707 443.3 443.3 VFP fmacd (64bit x1) n1 : 20.144 119.1 119.1 VFP vfma.f64 (64bit x1) n1 : - - - Average : 8.733 256.6 256.6 Highest : 2.556 469.4 469.4 * Matrix 4x4 multi-thread C++ code : 3.105 577.1 577.1 NEON vmla 128bit A : 3.874 462.6 462.6 NEON vmla 64bit A : 3.979 450.4 450.4 NEON vfma 128bit A : - - - NEON vmla 128bit B : 3.160 567.0 567.0 NEON vmla 64bit B : 3.137 571.3 571.3 NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - Average : 3.451 525.7 525.7 Highest : 3.105 577.1 577.1
Apple S1 Apple Watch (ARMv7A) watchOS 3.1
2016/11/19 Apple Watch OS 3.1 Apple Watch 1 / Apple S1 HW INFO: Machine = Watch1,2 HW INFO: Model = N28aAP HW INFO: Arch = N28aAP HW INFO: ByteOrder = 1234 HW INFO: NCPU = 1 HW INFO: MemSize = 529530880 HW INFO: UserMem = 447381504 HW INFO: PageSize = 16384 HW INFO: VectorUnit = 0 HW INFO: Float = 0 CPU Feature: ARM_NEON ARM_VFPV4 CPU Core:1 Thread:1 ******* ARCH: ARMv7A FPU: VFPv4-D32 NEON SingleT SP max: 0.850 GFLOPS SingleT DP max: 0.416 GFLOPS MultiT SP max: 0.849 GFLOPS MultiT DP max: 0.416 GFLOPS CPU core: 1 NEON: yes FMA: yes * VFP/NEON (single fp) VFP fmuls (32bit x1) n8 : 2.888 415.5 415.5 VFP fadds (32bit x1) n8 : 2.894 414.6 414.6 VFP fmacs (32bit x1) n8 : 3.340 718.5 718.5 VFP vfma.f32 (32bit x1) n8 : 2.900 827.7 827.7 NEON vmul.f32 (32bit x2) n8 : 5.789 414.5 414.5 NEON vadd.f32 (32bit x2) n8 : 5.672 423.1 423.1 NEON vmla.f32 (32bit x2) n8 : 5.681 844.9 844.9 NEON vfma.f32 (32bit x2) n8 : 5.667 847.0 847.0 NEON vmul.f32 (32bit x4) n8 : 11.421 420.3 420.3 NEON vadd.f32 (32bit x4) n8 : 11.413 420.6 420.6 NEON vmla.f32 (32bit x4) n8 : 12.018 798.8 798.8 NEON vfma.f32 (32bit x4) n8 : 11.386 843.1 843.1 VFP fmuls (32bit x1) ns4 : 3.032 395.7 395.7 VFP fadds (32bit x1) ns4 : 2.858 419.9 419.9 VFP fmacs (32bit x1) ns4 : 5.592 429.2 429.2 VFP vfma.f32 (32bit x1) ns4 : 5.730 418.9 418.9 NEON vmul.f32 (32bit x2) ns4 : 5.732 418.7 418.7 NEON vadd.f32 (32bit x2) ns4 : 5.704 420.7 420.7 NEON vmla.f32 (32bit x2) ns4 : 5.693 843.2 843.2 NEON vfma.f32 (32bit x2) ns4 : 5.817 825.1 825.1 NEON vmul.f32 (32bit x4) ns4 : 11.288 425.2 425.2 NEON vadd.f32 (32bit x4) ns4 : 11.403 420.9 420.9 NEON vmla.f32 (32bit x4) ns4 : 11.289 850.4 850.4 NEON vfma.f32 (32bit x4) ns4 : 11.833 811.3 811.3 VFP fmuls (32bit x1) n1 : 3.103 386.8 386.8 VFP fadds (32bit x1) n1 : 2.862 419.3 419.3 VFP fmacs (32bit x1) n1 : 14.141 169.7 169.7 VFP vfma.f32 (32bit x1) n1 : 14.117 170.0 170.0 NEON vmul.f32 (32bit x2) n1 : 5.692 421.6 421.6 NEON vadd.f32 (32bit x2) n1 : 5.670 423.3 423.3 NEON vmla.f32 (32bit x2) n1 : 14.155 339.1 339.1 NEON vfma.f32 (32bit x2) n1 : 14.042 341.8 341.8 NEON vmul.f32 (32bit x4) n1 : 11.398 421.1 421.1 NEON vadd.f32 (32bit x4) n1 : 11.398 421.1 421.1 NEON vmla.f32 (32bit x4) n1 : 13.982 686.6 686.6 NEON vfma.f32 (32bit x4) n1 : 14.183 676.9 676.9 NEON vmul.f32 (32bit x4) n12 : 17.045 422.4 422.4 NEON vadd.f32 (32bit x4) n12 : 17.042 422.5 422.5 NEON vmla.f32 (32bit x4) n12 : 16.945 849.8 849.8 NEON vfma.f32 (32bit x4) n12 : 17.063 843.9 843.9 Average : 8.997 537.1 537.1 Highest : 2.858 850.4 850.4 * VFP/NEON (double fp) VFP fmuld (64bit x1) n8 : 11.315 106.1 106.1 VFP faddd (64bit x1) n8 : 2.887 415.6 415.6 VFP fmacd (64bit x1) n8 : 11.275 212.9 212.9 VFP vfma.f64 (64bit x1) n8 : 14.009 171.3 171.3 VFP fmuld (64bit x1) ns4 : 11.340 105.8 105.8 VFP faddd (64bit x1) ns4 : 3.049 393.5 393.5 VFP fmacd (64bit x1) ns4 : 11.295 212.5 212.5 VFP vfma.f64 (64bit x1) ns4 : 14.006 171.4 171.4 VFP fmuld (64bit x1) n1 : 11.303 106.2 106.2 VFP faddd (64bit x1) n1 : 3.042 394.4 394.4 VFP fmacd (64bit x1) n1 : 22.562 106.4 106.4 VFP vfma.f64 (64bit x1) n1 : 22.529 106.5 106.5 Average : 11.551 208.5 208.5 Highest : 2.887 415.6 415.6 * Matrix 4x4 C++ code : 3.737 479.6 479.6 NEON vmla 128bit A : 4.341 412.8 412.8 NEON vmla 64bit A : 4.412 406.1 406.1 NEON vfma 128bit A : 7.048 254.3 254.3 NEON vmla 128bit B : 3.616 495.6 495.6 NEON vmla 64bit B : 3.521 508.9 508.9 NEON vfma 128bit B : 4.696 381.6 381.6 NEON vfma 128bit C : 7.132 251.3 251.3 Average : 4.813 398.8 398.8 Highest : 3.521 508.9 508.9 * VFP/NEON (single fp) multi-thread VFP fmuls (32bit x1) n8 : 2.870 418.2 418.2 VFP fadds (32bit x1) n8 : 2.897 414.2 414.2 VFP fmacs (32bit x1) n8 : 3.136 765.2 765.2 VFP vfma.f32 (32bit x1) n8 : 2.895 829.1 829.1 NEON vmul.f32 (32bit x2) n8 : 5.691 421.7 421.7 NEON vadd.f32 (32bit x2) n8 : 5.664 423.7 423.7 NEON vmla.f32 (32bit x2) n8 : 5.672 846.2 846.2 NEON vfma.f32 (32bit x2) n8 : 5.785 829.7 829.7 NEON vmul.f32 (32bit x4) n8 : 11.295 424.9 424.9 NEON vadd.f32 (32bit x4) n8 : 11.427 420.1 420.1 NEON vmla.f32 (32bit x4) n8 : 11.305 849.2 849.2 NEON vfma.f32 (32bit x4) n8 : 11.410 841.3 841.3 VFP fmuls (32bit x1) ns4 : 3.024 396.8 396.8 VFP fadds (32bit x1) ns4 : 2.867 418.6 418.6 VFP fmacs (32bit x1) ns4 : 5.718 419.7 419.7 VFP vfma.f32 (32bit x1) ns4 : 5.630 426.3 426.3 NEON vmul.f32 (32bit x2) ns4 : 5.718 419.7 419.7 NEON vadd.f32 (32bit x2) ns4 : 5.679 422.6 422.6 NEON vmla.f32 (32bit x2) ns4 : 5.815 825.5 825.5 NEON vfma.f32 (32bit x2) ns4 : 5.664 847.5 847.5 NEON vmul.f32 (32bit x4) ns4 : 11.292 425.1 425.1 NEON vadd.f32 (32bit x4) ns4 : 11.373 422.0 422.0 NEON vmla.f32 (32bit x4) ns4 : 11.361 845.0 845.0 NEON vfma.f32 (32bit x4) ns4 : 11.345 846.2 846.2 VFP fmuls (32bit x1) n1 : 3.109 385.9 385.9 VFP fadds (32bit x1) n1 : 2.881 416.6 416.6 VFP fmacs (32bit x1) n1 : 14.131 169.8 169.8 VFP vfma.f32 (32bit x1) n1 : 15.419 155.6 155.6 NEON vmul.f32 (32bit x2) n1 : 5.674 422.9 422.9 NEON vadd.f32 (32bit x2) n1 : 5.681 422.4 422.4 NEON vmla.f32 (32bit x2) n1 : 15.500 309.7 309.7 NEON vfma.f32 (32bit x2) n1 : 14.152 339.2 339.2 NEON vmul.f32 (32bit x4) n1 : 11.940 402.0 402.0 NEON vadd.f32 (32bit x4) n1 : 11.539 416.0 416.0 NEON vmla.f32 (32bit x4) n1 : 14.179 677.0 677.0 NEON vfma.f32 (32bit x4) n1 : 14.066 682.5 682.5 NEON vmul.f32 (32bit x4) n12 : 16.971 424.3 424.3 NEON vadd.f32 (32bit x4) n12 : 17.003 423.5 423.5 NEON vmla.f32 (32bit x4) n12 : 17.147 839.8 839.8 NEON vfma.f32 (32bit x4) n12 : 17.022 846.0 846.0 Average : 9.049 538.3 538.3 Highest : 2.867 849.2 849.2 * VFP/NEON (double fp) multi-thread VFP fmuld (64bit x1) n8 : 12.762 94.0 94.0 VFP faddd (64bit x1) n8 : 2.886 415.8 415.8 VFP fmacd (64bit x1) n8 : 11.262 213.1 213.1 VFP vfma.f64 (64bit x1) n8 : 14.177 169.3 169.3 VFP fmuld (64bit x1) ns4 : 11.272 106.5 106.5 VFP faddd (64bit x1) ns4 : 3.008 399.0 399.0 VFP fmacd (64bit x1) ns4 : 11.935 201.1 201.1 VFP vfma.f64 (64bit x1) ns4 : 14.136 169.8 169.8 VFP fmuld (64bit x1) n1 : 11.255 106.6 106.6 VFP faddd (64bit x1) n1 : 3.003 399.7 399.7 VFP fmacd (64bit x1) n1 : 22.705 105.7 105.7 VFP vfma.f64 (64bit x1) n1 : 22.454 106.9 106.9 Average : 11.738 207.3 207.3 Highest : 2.886 415.8 415.8 * Matrix 4x4 multi-thread C++ code : 3.436 521.6 521.6 NEON vmla 128bit A : 4.337 413.1 413.1 NEON vmla 64bit A : 4.335 413.4 413.4 NEON vfma 128bit A : 7.029 254.9 254.9 NEON vmla 128bit B : 3.582 500.2 500.2 NEON vmla 64bit B : 3.607 496.8 496.8 NEON vfma 128bit B : 4.834 370.7 370.7 NEON vfma 128bit C : 7.040 254.5 254.5 Average : 4.775 403.2 403.2 Highest : 3.436 521.6 521.6 *******
Apple S2 Apple Watch (ARMv7A)
2016/11/19 Apple Watch OS 3.1 Apple Watch S2 / Apple S2 HW INFO: Machine = Watch2,4 HW INFO: Model = N75AP HW INFO: Arch = N75AP HW INFO: ByteOrder = 1234 HW INFO: NCPU = 2 HW INFO: MemSize = 520093696 HW INFO: UserMem = 410390528 HW INFO: PageSize = 16384 HW INFO: VectorUnit = 0 HW INFO: Float = 0 CPU Feature: ARM_NEON ARM_VFPV4 CPU Core:2 Thread:2 ******* ARCH: ARMv7A FPU: VFPv4-D32 NEON SingleT SP max: 0.986 GFLOPS SingleT DP max: 0.483 GFLOPS MultiT SP max: 1.807 GFLOPS MultiT DP max: 0.879 GFLOPS CPU core: 2 NEON: yes FMA: yes * VFP/NEON (single fp) VFP fmuls (32bit x1) n8 : 2.485 482.8 482.8 VFP fadds (32bit x1) n8 : 2.481 483.6 483.6 VFP fmacs (32bit x1) n8 : 2.602 922.3 922.3 VFP vfma.f32 (32bit x1) n8 : 2.488 964.8 964.8 NEON vmul.f32 (32bit x2) n8 : 4.944 485.5 485.5 NEON vadd.f32 (32bit x2) n8 : 4.896 490.2 490.2 NEON vmla.f32 (32bit x2) n8 : 4.909 977.9 977.9 NEON vfma.f32 (32bit x2) n8 : 4.900 979.6 979.6 NEON vmul.f32 (32bit x4) n8 : 9.785 490.5 490.5 NEON vadd.f32 (32bit x4) n8 : 9.734 493.1 493.1 NEON vmla.f32 (32bit x4) n8 : 10.296 932.4 932.4 NEON vfma.f32 (32bit x4) n8 : 9.748 984.8 984.8 VFP fmuls (32bit x1) ns4 : 2.602 461.2 461.2 VFP fadds (32bit x1) ns4 : 2.598 461.9 461.9 VFP fmacs (32bit x1) ns4 : 4.839 495.9 495.9 VFP vfma.f32 (32bit x1) ns4 : 4.840 495.9 495.9 NEON vmul.f32 (32bit x2) ns4 : 4.911 488.7 488.7 NEON vadd.f32 (32bit x2) ns4 : 4.959 484.0 484.0 NEON vmla.f32 (32bit x2) ns4 : 5.129 935.9 935.9 NEON vfma.f32 (32bit x2) ns4 : 4.904 978.8 978.8 NEON vmul.f32 (32bit x4) ns4 : 10.033 478.4 478.4 NEON vadd.f32 (32bit x4) ns4 : 9.742 492.7 492.7 NEON vmla.f32 (32bit x4) ns4 : 9.779 981.7 981.7 NEON vfma.f32 (32bit x4) ns4 : 9.777 981.9 981.9 VFP fmuls (32bit x1) n1 : 2.637 455.1 455.1 VFP fadds (32bit x1) n1 : 2.475 484.9 484.9 VFP fmacs (32bit x1) n1 : 12.126 197.9 197.9 VFP vfma.f32 (32bit x1) n1 : 12.433 193.0 193.0 NEON vmul.f32 (32bit x2) n1 : 4.915 488.3 488.3 NEON vadd.f32 (32bit x2) n1 : 4.901 489.7 489.7 NEON vmla.f32 (32bit x2) n1 : 12.108 396.4 396.4 NEON vfma.f32 (32bit x2) n1 : 12.109 396.4 396.4 NEON vmul.f32 (32bit x4) n1 : 9.797 489.9 489.9 NEON vadd.f32 (32bit x4) n1 : 9.749 492.4 492.4 NEON vmla.f32 (32bit x4) n1 : 12.107 792.9 792.9 NEON vfma.f32 (32bit x4) n1 : 12.100 793.4 793.4 NEON vmul.f32 (32bit x4) n12 : 14.592 493.4 493.4 NEON vadd.f32 (32bit x4) n12 : 14.591 493.5 493.5 NEON vmla.f32 (32bit x4) n12 : 14.612 985.5 985.5 NEON vfma.f32 (32bit x4) n12 : 14.661 982.2 982.2 Average : 7.732 626.2 626.2 Highest : 2.475 985.5 985.5 * VFP/NEON (double fp) VFP fmuld (64bit x1) n8 : 9.688 123.9 123.9 VFP faddd (64bit x1) n8 : 2.487 482.5 482.5 VFP fmacd (64bit x1) n8 : 9.671 248.2 248.2 VFP vfma.f64 (64bit x1) n8 : 12.139 197.7 197.7 VFP fmuld (64bit x1) ns4 : 9.661 124.2 124.2 VFP faddd (64bit x1) ns4 : 2.607 460.3 460.3 VFP fmacd (64bit x1) ns4 : 9.694 247.6 247.6 VFP vfma.f64 (64bit x1) ns4 : 12.129 197.9 197.9 VFP fmuld (64bit x1) n1 : 9.672 124.1 124.1 VFP faddd (64bit x1) n1 : 2.610 459.8 459.8 VFP fmacd (64bit x1) n1 : 19.459 123.3 123.3 VFP vfma.f64 (64bit x1) n1 : 19.365 123.9 123.9 Average : 9.932 242.8 242.8 Highest : 2.487 482.5 482.5 * Matrix 4x4 C++ code : 3.016 594.2 594.2 NEON vmla 128bit A : 3.748 478.1 478.1 NEON vmla 64bit A : 3.747 478.2 478.2 NEON vfma 128bit A : 6.049 296.2 296.2 NEON vmla 128bit B : 3.037 590.0 590.0 NEON vmla 64bit B : 3.030 591.3 591.3 NEON vfma 128bit B : 4.132 433.7 433.7 NEON vfma 128bit C : 6.089 294.3 294.3 Average : 4.106 469.5 469.5 Highest : 3.016 594.2 594.2 * VFP/NEON (single fp) multi-thread VFP fmuls (32bit x1) n8 : 2.700 888.8 888.8 VFP fadds (32bit x1) n8 : 2.736 877.3 877.3 VFP fmacs (32bit x1) n8 : 2.861 1678.0 1678.0 VFP vfma.f32 (32bit x1) n8 : 2.701 1777.0 1777.0 NEON vmul.f32 (32bit x2) n8 : 5.427 884.4 884.4 NEON vadd.f32 (32bit x2) n8 : 5.362 895.2 895.2 NEON vmla.f32 (32bit x2) n8 : 5.362 1790.5 1790.5 NEON vfma.f32 (32bit x2) n8 : 5.354 1793.1 1793.1 NEON vmul.f32 (32bit x4) n8 : 10.647 901.7 901.7 NEON vadd.f32 (32bit x4) n8 : 10.666 900.1 900.1 NEON vmla.f32 (32bit x4) n8 : 11.123 1726.2 1726.2 NEON vfma.f32 (32bit x4) n8 : 10.708 1793.0 1793.0 VFP fmuls (32bit x1) ns4 : 2.860 839.1 839.1 VFP fadds (32bit x1) ns4 : 2.708 886.1 886.1 VFP fmacs (32bit x1) ns4 : 5.287 908.0 908.0 VFP vfma.f32 (32bit x1) ns4 : 5.285 908.3 908.3 NEON vmul.f32 (32bit x2) ns4 : 5.379 892.4 892.4 NEON vadd.f32 (32bit x2) ns4 : 5.342 898.5 898.5 NEON vmla.f32 (32bit x2) ns4 : 5.366 1789.0 1789.0 NEON vfma.f32 (32bit x2) ns4 : 5.363 1790.1 1790.1 NEON vmul.f32 (32bit x4) ns4 : 10.632 902.9 902.9 NEON vadd.f32 (32bit x4) ns4 : 10.687 898.3 898.3 NEON vmla.f32 (32bit x4) ns4 : 10.700 1794.3 1794.3 NEON vfma.f32 (32bit x4) ns4 : 10.641 1804.4 1804.4 VFP fmuls (32bit x1) n1 : 2.934 818.1 818.1 VFP fadds (32bit x1) n1 : 2.710 885.5 885.5 VFP fmacs (32bit x1) n1 : 13.232 362.7 362.7 VFP vfma.f32 (32bit x1) n1 : 13.327 360.2 360.2 NEON vmul.f32 (32bit x2) n1 : 5.418 885.9 885.9 NEON vadd.f32 (32bit x2) n1 : 5.421 885.5 885.5 NEON vmla.f32 (32bit x2) n1 : 13.207 726.9 726.9 NEON vfma.f32 (32bit x2) n1 : 13.264 723.7 723.7 NEON vmul.f32 (32bit x4) n1 : 10.642 902.1 902.1 NEON vadd.f32 (32bit x4) n1 : 10.680 898.9 898.9 NEON vmla.f32 (32bit x4) n1 : 13.255 1448.5 1448.5 NEON vfma.f32 (32bit x4) n1 : 13.204 1454.1 1454.1 NEON vmul.f32 (32bit x4) n12 : 15.986 900.8 900.8 NEON vadd.f32 (32bit x4) n12 : 15.971 901.6 901.6 NEON vmla.f32 (32bit x4) n12 : 16.768 1717.5 1717.5 NEON vfma.f32 (32bit x4) n12 : 15.935 1807.3 1807.3 Average : 8.446 1147.4 1147.4 Highest : 2.700 1807.3 1807.3 * VFP/NEON (double fp) multi-thread VFP fmuld (64bit x1) n8 : 10.661 225.1 225.1 VFP faddd (64bit x1) n8 : 2.730 879.1 879.1 VFP fmacd (64bit x1) n8 : 10.611 452.3 452.3 VFP vfma.f64 (64bit x1) n8 : 13.247 362.4 362.4 VFP fmuld (64bit x1) ns4 : 10.647 225.4 225.4 VFP faddd (64bit x1) ns4 : 2.841 844.8 844.8 VFP fmacd (64bit x1) ns4 : 10.587 453.4 453.4 VFP vfma.f64 (64bit x1) ns4 : 13.329 360.1 360.1 VFP fmuld (64bit x1) n1 : 10.757 223.1 223.1 VFP faddd (64bit x1) n1 : 2.863 838.2 838.2 VFP fmacd (64bit x1) n1 : 21.191 226.5 226.5 VFP vfma.f64 (64bit x1) n1 : 21.197 226.4 226.4 Average : 10.888 443.1 443.1 Highest : 2.730 879.1 879.1 * Matrix 4x4 multi-thread C++ code : 3.208 1117.2 1117.2 NEON vmla 128bit A : 4.070 880.5 880.5 NEON vmla 64bit A : 4.056 883.6 883.6 NEON vfma 128bit A : 6.623 541.1 541.1 NEON vmla 128bit B : 3.335 1074.5 1074.5 NEON vmla 64bit B : 3.299 1086.3 1086.3 NEON vfma 128bit B : 4.414 812.0 812.0 NEON vfma 128bit C : 6.694 535.4 535.4 Average : 4.463 866.3 866.3 Highest : 3.208 1117.2 1117.2 ******* </cdoe> ++++ ==== NVIDIA Denver (ARMv8A AArch32 armv7k) FPU+NEON ==== ++++NVIDIA Denver (ARMv8A AArch32 armv7k) FPU+NEON| <code> Nexus 9 Tegra K1 Denver 2.3GHz Dual core ARMv7A (AArch32) Android 6.0 ARCH: ARMv7A CPU core: 2 VFP: VFPv4-D32 NEON FMA: Yes NEON: Yes Result SingleT SP max: 18.043 GFLOPS SingleT DP max: 4.297 GFLOPS MultiT SP max: 34.177 GFLOPS MultiT DP max: 8.702 GFLOPS * VFP/NEON (単精度 fp) single-thread VFP fmuls (32bit x1) n8 : 0.757 1585.4 1585.4 VFP fadds (32bit x1) n8 : 0.310 3868.2 3868.2 VFP fmacs (32bit x1) n8 : 0.685 3502.6 3502.6 VFP vfma.f32 (32bit x1) n8 : 0.602 3988.3 3988.3 NEON vmul.f32 (32bit x2) n8 : 0.602 3986.3 3986.3 NEON vadd.f32 (32bit x2) n8 : 0.325 7393.7 7393.7 NEON vmla.f32 (32bit x2) n8 : 0.837 5738.0 5738.0 NEON vfma.f32 (32bit x2) n8 : 0.591 8119.3 8119.3 NEON vmul.f32 (32bit x4) n8 : 0.563 8519.6 8519.6 NEON vadd.f32 (32bit x4) n8 : 0.278 17255.3 17255.3 NEON vmla.f32 (32bit x4) n8 : 0.787 12202.5 12202.5 NEON vfma.f32 (32bit x4) n8 : 0.581 16517.9 16517.9 VFP fmuls (32bit x1) ns4 : 0.891 1347.3 1347.3 VFP fadds (32bit x1) ns4 : 0.494 2427.2 2427.2 VFP fmacs (32bit x1) ns4 : 1.257 1909.5 1909.5 VFP vfma.f32 (32bit x1) ns4 : 0.915 2623.9 2623.9 NEON vmul.f32 (32bit x2) ns4 : 0.859 2793.2 2793.2 NEON vadd.f32 (32bit x2) ns4 : 0.419 5732.3 5732.3 NEON vmla.f32 (32bit x2) ns4 : 1.304 3681.7 3681.7 NEON vfma.f32 (32bit x2) ns4 : 0.823 5829.2 5829.2 NEON vmul.f32 (32bit x4) ns4 : 0.834 5755.7 5755.7 NEON vadd.f32 (32bit x4) ns4 : 0.430 11159.8 11159.8 NEON vmla.f32 (32bit x4) ns4 : 1.322 7259.1 7259.1 NEON vfma.f32 (32bit x4) ns4 : 0.846 11345.8 11345.8 VFP fmuls (32bit x1) n1 : 0.577 2079.8 2079.8 VFP fadds (32bit x1) n1 : 0.281 4268.9 4268.9 VFP fmacs (32bit x1) n1 : 1.701 1410.8 1410.8 VFP vfma.f32 (32bit x1) n1 : 3.379 710.2 710.2 NEON vmul.f32 (32bit x2) n1 : 0.576 4164.2 4164.2 NEON vadd.f32 (32bit x2) n1 : 0.306 7850.1 7850.1 NEON vmla.f32 (32bit x2) n1 : 1.675 2866.1 2866.1 NEON vfma.f32 (32bit x2) n1 : 3.286 1460.9 1460.9 NEON vmul.f32 (32bit x4) n1 : 0.531 9042.5 9042.5 NEON vadd.f32 (32bit x4) n1 : 0.266 18043.5 18043.5 NEON vmla.f32 (32bit x4) n1 : 1.646 5830.9 5830.9 NEON vfma.f32 (32bit x4) n1 : 3.351 2865.1 2865.1 NEON vmul.f32 (32bit x4) n12 : 0.798 9024.8 9024.8 NEON vadd.f32 (32bit x4) n12 : 0.404 17842.4 17842.4 NEON vmla.f32 (32bit x4) n12 : 1.117 12894.0 12894.0 NEON vfma.f32 (32bit x4) n12 : 0.932 15450.7 15450.7 平均 : 0.953 6758.7 6758.7 最大 : 0.266 18043.5 18043.5 * VFP/NEON (倍精度 fp) single-thread VFP fmuld (64bit x1) n8 : 0.653 1838.1 1838.1 VFP faddd (64bit x1) n8 : 0.280 4292.4 4292.4 VFP fmacd (64bit x1) n8 : 0.558 4297.5 4297.5 VFP vfma.f64 (64bit x1) n8 : 0.623 3854.3 3854.3 VFP fmuld (64bit x1) ns4 : 0.802 1495.8 1495.8 VFP faddd (64bit x1) ns4 : 0.434 2763.3 2763.3 VFP fmacd (64bit x1) ns4 : 1.222 1963.6 1963.6 VFP vfma.f64 (64bit x1) ns4 : 0.911 2635.7 2635.7 VFP fmuld (64bit x1) n1 : 0.599 2003.0 2003.0 VFP faddd (64bit x1) n1 : 0.298 4033.3 4033.3 VFP fmacd (64bit x1) n1 : 1.654 1451.4 1451.4 VFP vfma.f64 (64bit x1) n1 : 3.370 712.1 712.1 平均 : 0.950 2611.7 2611.7 最大 : 0.280 4297.5 4297.5 * Matrix 4x4 (単精度 fp) single-thread C++ code : 0.380 4712.4 4712.4 NEON vmla 128bit A : 0.348 5142.7 5142.7 NEON vmla 64bit A : 0.488 3674.9 3674.9 NEON vfma 128bit A : 0.300 5971.1 5971.1 NEON vmla 128bit B : 0.318 5635.2 5635.2 NEON vmla 64bit B : 0.486 3685.9 3685.9 NEON vfma 128bit B : 0.209 8573.3 8573.3 NEON vfma 128bit C : 0.331 5417.4 5417.4 平均 : 0.358 5351.6 5351.6 最大 : 0.209 8573.3 8573.3 * VFP/NEON (単精度 fp) multi-thread VFP fmuls (32bit x1) n8 : 0.633 3791.2 3791.2 VFP fadds (32bit x1) n8 : 0.282 8512.9 8512.9 VFP fmacs (32bit x1) n8 : 0.650 7389.6 7389.6 VFP vfma.f32 (32bit x1) n8 : 0.637 7537.5 7537.5 NEON vmul.f32 (32bit x2) n8 : 0.562 8536.9 8536.9 NEON vadd.f32 (32bit x2) n8 : 0.306 15700.4 15700.4 NEON vmla.f32 (32bit x2) n8 : 0.864 11105.1 11105.1 NEON vfma.f32 (32bit x2) n8 : 0.577 16627.7 16627.7 NEON vmul.f32 (32bit x4) n8 : 0.563 17038.9 17038.9 NEON vadd.f32 (32bit x4) n8 : 0.297 32322.3 32322.3 NEON vmla.f32 (32bit x4) n8 : 0.778 24690.8 24690.8 NEON vfma.f32 (32bit x4) n8 : 0.578 33232.6 33232.6 VFP fmuls (32bit x1) ns4 : 0.898 2671.3 2671.3 VFP fadds (32bit x1) ns4 : 0.472 5087.1 5087.1 VFP fmacs (32bit x1) ns4 : 1.300 3693.2 3693.2 VFP vfma.f32 (32bit x1) ns4 : 0.869 5526.1 5526.1 NEON vmul.f32 (32bit x2) ns4 : 0.859 5590.5 5590.5 NEON vadd.f32 (32bit x2) ns4 : 0.442 10848.0 10848.0 NEON vmla.f32 (32bit x2) ns4 : 1.315 7299.2 7299.2 NEON vfma.f32 (32bit x2) ns4 : 0.860 11161.5 11161.5 NEON vmul.f32 (32bit x4) ns4 : 0.865 11097.7 11097.7 NEON vadd.f32 (32bit x4) ns4 : 0.444 21624.4 21624.4 NEON vmla.f32 (32bit x4) ns4 : 1.312 14637.6 14637.6 NEON vfma.f32 (32bit x4) ns4 : 0.836 22959.9 22959.9 VFP fmuls (32bit x1) n1 : 0.563 4262.6 4262.6 VFP fadds (32bit x1) n1 : 0.302 7942.6 7942.6 VFP fmacs (32bit x1) n1 : 1.702 2820.5 2820.5 VFP vfma.f32 (32bit x1) n1 : 3.374 1422.8 1422.8 NEON vmul.f32 (32bit x2) n1 : 0.569 8429.6 8429.6 NEON vadd.f32 (32bit x2) n1 : 0.279 17200.0 17200.0 NEON vmla.f32 (32bit x2) n1 : 1.707 5623.6 5623.6 NEON vfma.f32 (32bit x2) n1 : 3.396 2827.2 2827.2 NEON vmul.f32 (32bit x4) n1 : 0.569 16864.4 16864.4 NEON vadd.f32 (32bit x4) n1 : 0.287 33496.9 33496.9 NEON vmla.f32 (32bit x4) n1 : 1.710 11229.9 11229.9 NEON vfma.f32 (32bit x4) n1 : 3.370 5696.8 5696.8 NEON vmul.f32 (32bit x4) n12 : 0.880 16365.4 16365.4 NEON vadd.f32 (32bit x4) n12 : 0.445 32328.2 32328.2 NEON vmla.f32 (32bit x4) n12 : 1.165 24714.6 24714.6 NEON vfma.f32 (32bit x4) n12 : 0.843 34177.0 34177.0 平均 : 0.959 13352.1 13352.1 最大 : 0.279 34177.0 34177.0 * VFP/NEON (倍精度 fp) multi-thread VFP fmuld (64bit x1) n8 : 0.612 3924.4 3924.4 VFP faddd (64bit x1) n8 : 0.276 8701.7 8701.7 VFP fmacd (64bit x1) n8 : 0.572 8387.8 8387.8 VFP vfma.f64 (64bit x1) n8 : 0.621 7724.5 7724.5 VFP fmuld (64bit x1) ns4 : 0.861 2785.9 2785.9 VFP faddd (64bit x1) ns4 : 0.423 5678.4 5678.4 VFP fmacd (64bit x1) ns4 : 1.293 3712.4 3712.4 VFP vfma.f64 (64bit x1) ns4 : 0.839 5723.6 5723.6 VFP fmuld (64bit x1) n1 : 0.558 4297.5 4297.5 VFP faddd (64bit x1) n1 : 0.300 7993.5 7993.5 VFP fmacd (64bit x1) n1 : 1.704 2816.8 2816.8 VFP vfma.f64 (64bit x1) n1 : 3.382 1419.1 1419.1 平均 : 0.954 5263.8 5263.8 最大 : 0.276 8701.7 8701.7 * Matrix 4x4 (単精度 fp) multi-thread C++ code : 0.385 9312.2 9312.2 NEON vmla 128bit A : 0.383 9366.8 9366.8 NEON vmla 64bit A : 0.489 7328.8 7328.8 NEON vfma 128bit A : 0.269 13310.7 13310.7 NEON vmla 128bit B : 0.341 10495.5 10495.5 NEON vmla 64bit B : 0.488 7338.2 7338.2 NEON vfma 128bit B : 0.197 18212.0 18212.0 NEON vfma 128bit C : 0.333 10775.0 10775.0 平均 : 0.361 10767.4 10767.4 最大 : 0.197 18212.0 18212.0
Mobile CPU 64bit
Apple Cyclone (ARMv8A AArch64 arm64) FPU+NEON
iPhone 5s Apple A7 Cyclone 1.3GHz Dual core ARM64 (AArch64)
iPhone 5s Apple A7 Cyclone 1.3GHz Dual core ARM64 (AArch64) ARCH: ARMv8A FPU: AArch64 NEON SingleT SP max: 20.621 GFLOPS SingleT DP max: 10.313 GFLOPS MultiT SP max: 40.871 GFLOPS MultiT DP max: 20.480 GFLOPS CPU core: 2 NEON: yes FMA: no * FPU/NEON (single fp) FPU fmul (32bit x1) n8 : 1.630 2454.1 2454.1 FPU fadd (32bit x1) n8 : 1.053 3798.2 3798.2 FPU fmadd (32bit x1) n8 : 3.135 2551.8 2551.8 NEON fmul.2s (32bit x2) n8 : 1.563 5117.2 5117.2 NEON fadd.2s (32bit x2) n8 : 1.039 7701.8 7701.8 NEON fmla.2s (32bit x2) n8 : 1.569 10194.9 10194.9 NEON fmul.4s (32bit x4) n8 : 1.552 10306.0 10306.0 NEON fadd.4s (32bit x4) n8 : 1.035 15462.0 15462.0 NEON fmla.4s (32bit x4) n8 : 1.570 20381.5 20381.5 FPU fmul (32bit x1) ns4 : 3.110 1286.3 1286.3 FPU fadd (32bit x1) ns4 : 3.674 1088.8 1088.8 FPU fmadd (32bit x1) ns4 : 3.111 2571.4 2571.4 NEON fmul.2s (32bit x2) ns4 : 3.113 2570.1 2570.1 NEON fadd.2s (32bit x2) ns4 : 3.677 2175.5 2175.5 NEON fmla.2s (32bit x2) ns4 : 6.210 2576.5 2576.5 NEON fmul.4s (32bit x4) ns4 : 3.112 5142.1 5142.1 NEON fadd.4s (32bit x4) ns4 : 3.673 4355.8 4355.8 NEON fmla.4s (32bit x4) ns4 : 6.214 5150.0 5150.0 FPU fmul (32bit x1) n1 : 1.552 2576.6 2576.6 FPU fadd (32bit x1) n1 : 1.035 3866.3 3866.3 FPU fmadd (32bit x1) n1 : 27.931 286.4 286.4 NEON fmul.2s (32bit x2) n1 : 1.554 5149.5 5149.5 NEON fadd.2s (32bit x2) n1 : 1.036 7724.9 7724.9 NEON fmla.2s (32bit x2) n1 : 15.523 1030.7 1030.7 NEON fmul.4s (32bit x4) n1 : 1.552 10309.1 10319.2 NEON fadd.4s (32bit x4) n1 : 1.036 15440.5 15440.5 NEON fmla.4s (32bit x4) n1 : 15.515 2062.6 2062.6 NEON fmul.4s (32bit x4) n12 : 2.328 10308.9 10308.9 NEON fadd.4s (32bit x4) n12 : 1.554 15440.9 15461.7 NEON fmla.4s (32bit x4) n12 : 2.328 20621.0 20621.0 Average : 4.099 6656.7 6657.8 Highest : 1.035 20621.0 20621.0 * FPU/NEON (double fp) FPU fmul (64bit x1) n8 : 1.642 2436.1 2436.1 FPU fadd (64bit x1) n8 : 1.045 3827.0 3827.0 FPU fmadd (64bit x1) n8 : 3.915 2043.6 2043.6 NEON fmul.2d (64bit x2) n8 : 1.567 5105.1 5105.1 NEON fadd.2d (64bit x2) n8 : 1.034 7736.5 7736.5 NEON fmla.2d (64bit x2) n8 : 1.958 8172.1 8172.1 FPU fmul (64bit x1) ns4 : 3.886 1029.3 1029.3 FPU fadd (64bit x1) ns4 : 4.466 895.6 895.6 FPU fmadd (64bit x1) ns4 : 3.884 2059.8 2059.8 NEON fmul.2d (64bit x2) ns4 : 3.890 2056.7 2056.7 NEON fadd.2d (64bit x2) ns4 : 4.466 1791.2 1791.2 NEON fmla.2d (64bit x2) ns4 : 7.760 2061.9 2061.9 FPU fmul (64bit x1) n1 : 1.554 2574.5 2574.5 FPU fadd (64bit x1) n1 : 1.036 3860.8 3860.8 FPU fmadd (64bit x1) n1 : 34.162 234.2 234.2 NEON fmul.2d (64bit x2) n1 : 1.565 5111.3 5111.3 NEON fadd.2d (64bit x2) n1 : 1.041 7684.7 7684.7 NEON fmla.2d (64bit x2) n1 : 18.628 858.9 858.9 NEON fmul.2d (64bit x2) n12 : 2.328 5155.4 5155.4 NEON fadd.2d (64bit x2) n12 : 1.555 7714.6 7714.6 NEON fmla.2d (64bit x2) n12 : 2.327 10313.2 10313.2 Average : 4.939 3939.2 3939.2 Highest : 1.034 10313.2 10313.2 * Matrix 4x4 C++ code : 1.299 2759.5 2759.5 NEON fmla.4s 128bit A : 0.700 5117.5 5117.5 NEON fmla.4s 128bit B : 0.701 5110.9 5110.9 Average : 0.900 4329.3 4329.3 Highest : 0.700 5117.5 5117.5 * FPU/NEON (single fp) multi-thread FPU fmul (32bit x1) n8 : 1.725 4637.5 4637.5 FPU fadd (32bit x1) n8 : 1.065 7511.4 7511.4 FPU fmadd (32bit x1) n8 : 3.165 5055.3 5055.3 NEON fmul.2s (32bit x2) n8 : 1.588 10073.9 10073.9 NEON fadd.2s (32bit x2) n8 : 1.045 15308.6 15308.6 NEON fmla.2s (32bit x2) n8 : 1.591 20114.0 20114.0 NEON fmul.4s (32bit x4) n8 : 1.564 20461.6 20461.6 NEON fadd.4s (32bit x4) n8 : 1.048 30541.3 30541.3 NEON fmla.4s (32bit x4) n8 : 1.593 40164.4 40164.4 FPU fmul (32bit x1) ns4 : 3.127 2558.1 2558.1 FPU fadd (32bit x1) ns4 : 3.713 2154.5 2154.5 FPU fmadd (32bit x1) ns4 : 3.137 5100.0 5100.0 NEON fmul.2s (32bit x2) ns4 : 3.131 5109.8 5109.8 NEON fadd.2s (32bit x2) ns4 : 3.702 4322.3 4322.3 NEON fmla.2s (32bit x2) ns4 : 6.255 5115.9 5115.9 NEON fmul.4s (32bit x4) ns4 : 3.163 10117.8 10117.8 NEON fadd.4s (32bit x4) ns4 : 3.707 8631.2 8631.2 NEON fmla.4s (32bit x4) ns4 : 6.244 10249.8 10249.8 FPU fmul (32bit x1) n1 : 1.568 5102.1 5102.1 FPU fadd (32bit x1) n1 : 1.048 7634.5 7634.5 FPU fmadd (32bit x1) n1 : 28.126 568.9 568.9 NEON fmul.2s (32bit x2) n1 : 1.569 10196.5 10196.5 NEON fadd.2s (32bit x2) n1 : 1.044 15322.7 15322.7 NEON fmla.2s (32bit x2) n1 : 15.606 2050.5 2050.5 NEON fmul.4s (32bit x4) n1 : 1.576 20308.3 20308.3 NEON fadd.4s (32bit x4) n1 : 1.043 30688.9 30688.9 NEON fmla.4s (32bit x4) n1 : 15.612 4099.5 4099.5 NEON fmul.4s (32bit x4) n12 : 2.342 20492.6 20492.6 NEON fadd.4s (32bit x4) n12 : 1.581 30359.8 30359.8 NEON fmla.4s (32bit x4) n12 : 2.349 40871.0 40871.0 Average : 4.134 13164.1 13164.1 Highest : 1.043 40871.0 40871.0 * FPU/NEON (double fp) multi-thread FPU fmul (64bit x1) n8 : 1.730 4623.6 4623.6 FPU fadd (64bit x1) n8 : 1.061 7541.1 7541.1 FPU fmadd (64bit x1) n8 : 3.958 4042.3 4042.3 NEON fmul.2d (64bit x2) n8 : 1.575 10161.5 10161.5 NEON fadd.2d (64bit x2) n8 : 1.044 15325.5 15325.5 NEON fmla.2d (64bit x2) n8 : 1.992 16061.4 16061.4 FPU fmul (64bit x1) ns4 : 3.917 2042.3 2042.3 FPU fadd (64bit x1) ns4 : 4.495 1779.8 1779.8 FPU fmadd (64bit x1) ns4 : 3.909 4092.7 4092.7 NEON fmul.2d (64bit x2) ns4 : 3.908 4093.7 4093.7 NEON fadd.2d (64bit x2) ns4 : 4.516 3542.6 3542.6 NEON fmla.2d (64bit x2) ns4 : 7.811 4096.6 4096.6 FPU fmul (64bit x1) n1 : 1.568 5101.4 5101.4 FPU fadd (64bit x1) n1 : 1.048 7635.0 7635.0 FPU fmadd (64bit x1) n1 : 34.414 464.9 464.9 NEON fmul.2d (64bit x2) n1 : 1.583 10107.5 10107.5 NEON fadd.2d (64bit x2) n1 : 1.054 15186.2 15186.2 NEON fmla.2d (64bit x2) n1 : 18.754 1706.3 1706.3 NEON fmul.2d (64bit x2) n12 : 2.339 10259.5 10259.5 NEON fadd.2d (64bit x2) n12 : 1.571 15277.4 15277.4 NEON fmla.2d (64bit x2) n12 : 2.344 20479.6 20479.6 Average : 4.981 7791.5 7791.5 Highest : 1.044 20479.6 20479.6 * Matrix 4x4 multi-thread C++ code : 1.362 5260.9 5260.9 NEON fmla.4s 128bit A : 0.733 9785.0 9785.0 NEON fmla.4s 128bit B : 0.711 10081.2 10081.2 Average : 0.935 8375.7 8375.7 Highest : 0.711 10081.2 10081.2
iPad mini retina (mini2) Apple A7 Cyclone 1.3GHz dual core
iPad mini retina (mini2) Apple A7 Cyclone 1.3GHz dual core ARCH: ARMv8A VFP: AArch64 NEON SingleT SP max: 20.373 GFLOPS SingleT DP max: 10.223 GFLOPS MultiT SP max: 40.616 GFLOPS MultiT DP max: 20.238 GFLOPS CPU core: 2 FMA: Yes NEON: Yes * VFP/NEON (single fp) VFP fmul (32bit x1) n8 : 1.614 2478.8 2478.8 VFP fadd (32bit x1) n8 : 1.055 3791.3 3791.3 VFP fmadd (32bit x1) n8 : 3.142 2545.8 2545.8 NEON fmul.2s (32bit x2) n8 : 1.569 5100.3 5100.3 NEON fadd.2s (32bit x2) n8 : 1.043 7672.1 7672.1 NEON fmla.2s (32bit x2) n8 : 1.583 10104.8 10104.8 NEON fmul.4s (32bit x4) n8 : 1.567 10211.8 10211.8 NEON fadd.4s (32bit x4) n8 : 1.048 15273.2 15273.2 NEON fmla.4s (32bit x4) n8 : 1.584 20197.0 20197.0 VFP fmul (32bit x1) ns4 : 3.132 1276.9 1276.9 VFP fadd (32bit x1) ns4 : 3.707 1079.0 1079.0 VFP fmadd (32bit x1) ns4 : 3.159 2532.3 2532.3 NEON fmul.2s (32bit x2) ns4 : 3.133 2553.7 2553.7 NEON fadd.2s (32bit x2) ns4 : 3.712 2155.2 2155.2 NEON fmla.2s (32bit x2) ns4 : 6.260 2556.0 2556.0 NEON fmul.4s (32bit x4) ns4 : 3.137 5100.5 5100.5 NEON fadd.4s (32bit x4) ns4 : 3.712 4310.7 4310.7 NEON fmla.4s (32bit x4) ns4 : 6.258 5113.7 5113.7 VFP fmul (32bit x1) n1 : 1.567 2553.1 2553.1 VFP fadd (32bit x1) n1 : 1.044 3830.9 3830.9 VFP fmadd (32bit x1) n1 : 28.148 284.2 284.2 NEON fmul.2s (32bit x2) n1 : 1.577 5072.1 5072.1 NEON fadd.2s (32bit x2) n1 : 1.048 7634.4 7634.4 NEON fmla.2s (32bit x2) n1 : 15.631 1023.6 1023.6 NEON fmul.4s (32bit x4) n1 : 1.564 10227.8 10227.8 NEON fadd.4s (32bit x4) n1 : 1.042 15348.4 15348.4 NEON fmla.4s (32bit x4) n1 : 15.649 2044.9 2044.9 NEON fmul.4s (32bit x4) n12 : 2.348 10223.0 10223.0 NEON fadd.4s (32bit x4) n12 : 1.566 15321.7 15321.7 NEON fmla.4s (32bit x4) n12 : 2.356 20373.3 20373.3 平均 : 4.132 6599.7 6599.7 最大 : 1.042 20373.3 20373.3 * VFP/NEON (double fp) VFP fmul (64bit x1) n8 : 1.606 2491.0 2491.0 VFP fadd (64bit x1) n8 : 1.051 3806.2 3806.2 VFP fmadd (64bit x1) n8 : 3.925 2038.2 2038.2 NEON fmul.2d (64bit x2) n8 : 1.565 5112.9 5112.9 NEON fadd.2d (64bit x2) n8 : 1.048 7636.9 7636.9 NEON fmla.2d (64bit x2) n8 : 1.989 8046.0 8046.0 VFP fmul (64bit x1) ns4 : 3.920 1020.5 1020.5 VFP fadd (64bit x1) ns4 : 4.511 886.7 886.7 VFP fmadd (64bit x1) ns4 : 3.918 2041.8 2041.8 NEON fmul.2d (64bit x2) ns4 : 3.926 2037.5 2037.5 NEON fadd.2d (64bit x2) ns4 : 4.512 1773.1 1773.1 NEON fmla.2d (64bit x2) ns4 : 7.821 2045.7 2045.7 VFP fmul (64bit x1) n1 : 1.565 2556.2 2556.2 VFP fadd (64bit x1) n1 : 1.044 3831.8 3831.8 VFP fmadd (64bit x1) n1 : 34.430 232.4 232.4 NEON fmul.2d (64bit x2) n1 : 1.563 5119.0 5119.0 NEON fadd.2d (64bit x2) n1 : 1.046 7647.2 7647.2 NEON fmla.2d (64bit x2) n1 : 18.759 852.9 852.9 NEON fmul.2d (64bit x2) n12 : 2.349 5107.6 5107.6 NEON fadd.2d (64bit x2) n12 : 1.571 7636.9 7636.9 NEON fmla.2d (64bit x2) n12 : 2.348 10222.9 10222.9 平均 : 4.975 3911.6 3911.6 最大 : 1.044 10222.9 10222.9 * Matrix 4x4 C++ code : 1.276 2809.4 2809.4 NEON fmla.4s 128bit A : 0.702 5105.9 5105.9 NEON ---- 64bit A : - - - NEON ---- 128bit A : - - - NEON fmla.4s 128bit B : 0.703 5098.3 5098.3 NEON ---- 64bit B : - - - NEON ---- 128bit B : - - - NEON ---- 128bit C : - - - 平均 : 0.894 4337.9 4337.9 最大 : 0.702 5105.9 5105.9 * VFP/NEON (single fp) multi-thread VFP fmul (32bit x1) n8 : 1.654 4837.2 4837.2 VFP fadd (32bit x1) n8 : 1.064 7518.3 7518.3 VFP fmadd (32bit x1) n8 : 3.150 5079.4 5079.4 NEON fmul.2s (32bit x2) n8 : 1.589 10071.7 10071.7 NEON fadd.2s (32bit x2) n8 : 1.052 15206.1 15206.1 NEON fmla.2s (32bit x2) n8 : 1.594 20071.1 20071.1 NEON fmul.4s (32bit x4) n8 : 1.575 20312.7 20312.7 NEON fadd.4s (32bit x4) n8 : 1.053 30398.5 30398.5 NEON fmla.4s (32bit x4) n8 : 1.592 40210.9 40210.9 VFP fmul (32bit x1) ns4 : 3.151 2539.0 2539.0 VFP fadd (32bit x1) ns4 : 3.720 2150.6 2150.6 VFP fmadd (32bit x1) ns4 : 3.158 5066.1 5066.1 NEON fmul.2s (32bit x2) ns4 : 3.157 5068.3 5068.3 NEON fadd.2s (32bit x2) ns4 : 3.728 4291.9 4291.9 NEON fmla.2s (32bit x2) ns4 : 6.279 5096.0 5096.0 NEON fmul.4s (32bit x4) ns4 : 3.158 10134.3 10134.3 NEON fadd.4s (32bit x4) ns4 : 3.718 8606.2 8606.2 NEON fmla.4s (32bit x4) ns4 : 6.296 10165.1 10165.1 VFP fmul (32bit x1) n1 : 1.574 5081.6 5081.6 VFP fadd (32bit x1) n1 : 1.053 7595.9 7595.9 VFP fmadd (32bit x1) n1 : 28.266 566.1 566.1 NEON fmul.2s (32bit x2) n1 : 1.573 10168.6 10168.6 NEON fadd.2s (32bit x2) n1 : 1.060 15098.1 15098.1 NEON fmla.2s (32bit x2) n1 : 15.698 2038.5 2038.5 NEON fmul.4s (32bit x4) n1 : 1.575 20318.1 20318.1 NEON fadd.4s (32bit x4) n1 : 1.052 30424.1 30424.1 NEON fmla.4s (32bit x4) n1 : 15.694 4078.1 4078.1 NEON fmul.4s (32bit x4) n12 : 2.363 20316.3 20316.3 NEON fadd.4s (32bit x4) n12 : 1.586 30259.9 30259.9 NEON fmla.4s (32bit x4) n12 : 2.364 40616.2 40616.2 平均 : 4.151 13112.8 13112.8 最大 : 1.052 40616.2 40616.2 * VFP/NEON (double fp) multi-thread VFP fmul (64bit x1) n8 : 1.649 4850.6 4850.6 VFP fadd (64bit x1) n8 : 1.053 7594.4 7594.4 VFP fmadd (64bit x1) n8 : 3.933 4067.7 4067.7 NEON fmul.2d (64bit x2) n8 : 1.573 10174.3 10174.3 NEON fadd.2d (64bit x2) n8 : 1.059 15110.2 15110.2 NEON fmla.2d (64bit x2) n8 : 1.985 16123.5 16123.5 VFP fmul (64bit x1) ns4 : 3.942 2029.6 2029.6 VFP fadd (64bit x1) ns4 : 4.546 1759.7 1759.7 VFP fmadd (64bit x1) ns4 : 3.940 4060.4 4060.4 NEON fmul.2d (64bit x2) ns4 : 3.928 4073.5 4073.5 NEON fadd.2d (64bit x2) ns4 : 4.521 3539.1 3539.1 NEON fmla.2d (64bit x2) ns4 : 7.872 4065.1 4065.1 VFP fmul (64bit x1) n1 : 1.575 5078.9 5078.9 VFP fadd (64bit x1) n1 : 1.050 7620.2 7620.2 VFP fmadd (64bit x1) n1 : 34.522 463.5 463.5 NEON fmul.2d (64bit x2) n1 : 1.582 10112.8 10112.8 NEON fadd.2d (64bit x2) n1 : 1.066 15009.1 15009.1 NEON fmla.2d (64bit x2) n1 : 18.815 1700.8 1700.8 NEON fmul.2d (64bit x2) n12 : 2.368 10134.3 10134.3 NEON fadd.2d (64bit x2) n12 : 1.572 15262.9 15262.9 NEON fmla.2d (64bit x2) n12 : 2.372 20238.2 20238.2 平均 : 4.996 7765.2 7765.2 最大 : 1.050 20238.2 20238.2 * Matrix 4x4 multi thread C++ code : 1.310 5471.4 5471.4 NEON fmla.4s 128bit A : 0.742 9664.0 9664.0 NEON ---- 64bit A : - - - NEON ---- 128bit A : - - - NEON fmla.4s 128bit B : 0.715 10028.9 10028.9 NEON ---- 64bit B : - - - NEON ---- 128bit B : - - - NEON ---- 128bit C : - - - 平均 : 0.922 8388.1 8388.1 最大 : 0.715 10028.9 10028.9
Apple Typhoon (ARMv8A AArch64 arm64) FPU+NEON
iPad Air 2 Apple A8X Typhoon 1.5GHz Triple core ARM64 (AArch64)
iPad Air 2 A8X Apple A8X Typhoon 1.5GHz Triple core ARM64 (AArch64) ARCH: ARMv8A VFP: AArch64 NEON SingleT SP max: 23.568 GFLOPS SingleT DP max: 11.751 GFLOPS MultiT SP max: 68.591 GFLOPS MultiT DP max: 33.968 GFLOPS CPU core: 3 FMA: Yes NEON: Yes * VFP/NEON (single fp) VFP fmul (32bit x1) n8 : 1.454 2751.8 2751.8 VFP fadd (32bit x1) n8 : 0.931 4295.3 4295.3 VFP fmadd (32bit x1) n8 : 1.392 5746.6 5746.6 NEON fmul.2s (32bit x2) n8 : 1.389 5760.8 5760.8 NEON fadd.2s (32bit x2) n8 : 0.931 8595.5 8595.5 NEON fmla.2s (32bit x2) n8 : 1.380 11594.8 11594.8 NEON fmul.4s (32bit x4) n8 : 1.365 11725.2 11725.2 NEON fadd.4s (32bit x4) n8 : 0.900 17768.8 17768.8 NEON fmla.4s (32bit x4) n8 : 1.358 23568.0 23568.0 VFP fmul (32bit x1) ns4 : 2.757 1451.0 1451.0 VFP fadd (32bit x1) ns4 : 2.547 1570.5 1570.5 VFP fmadd (32bit x1) ns4 : 2.734 2926.0 2926.0 NEON fmul.2s (32bit x2) ns4 : 2.751 2907.8 2907.8 NEON fadd.2s (32bit x2) ns4 : 2.559 3125.8 3125.8 NEON fmla.2s (32bit x2) ns4 : 2.738 5844.1 5844.1 NEON fmul.4s (32bit x4) ns4 : 2.758 5802.3 5802.3 NEON fadd.4s (32bit x4) ns4 : 2.564 6239.0 6239.0 NEON fmla.4s (32bit x4) ns4 : 2.732 11713.4 11713.4 VFP fmul (32bit x1) n1 : 1.368 2923.2 2923.2 VFP fadd (32bit x1) n1 : 0.910 4395.7 4395.7 VFP fmadd (32bit x1) n1 : 13.615 587.6 587.6 NEON fmul.2s (32bit x2) n1 : 1.353 5910.8 5910.8 NEON fadd.2s (32bit x2) n1 : 0.908 8812.6 8812.6 NEON fmla.2s (32bit x2) n1 : 13.581 1178.1 1178.1 NEON fmul.4s (32bit x4) n1 : 1.358 11783.1 11783.1 NEON fadd.4s (32bit x4) n1 : 0.911 17562.0 17562.0 NEON fmla.4s (32bit x4) n1 : 13.637 2346.5 2346.5 NEON fmul.4s (32bit x4) n12 : 2.055 11678.7 11678.7 NEON fadd.4s (32bit x4) n12 : 1.360 17647.1 17647.1 NEON fmla.4s (32bit x4) n12 : 2.048 23435.9 23435.9 平均 : 2.945 8054.9 8054.9 最大 : 0.900 23568.0 23568.0 * VFP/NEON (double fp) VFP fmul (64bit x1) n8 : 1.442 2773.8 2773.8 VFP fadd (64bit x1) n8 : 0.926 4321.2 4321.2 VFP fmadd (64bit x1) n8 : 1.772 4513.6 4513.6 NEON fmul.2d (64bit x2) n8 : 1.408 5681.0 5681.0 NEON fadd.2d (64bit x2) n8 : 0.922 8680.2 8680.2 NEON fmla.2d (64bit x2) n8 : 1.744 9175.5 9175.5 VFP fmul (64bit x1) ns4 : 3.403 1175.5 1175.5 VFP fadd (64bit x1) ns4 : 2.542 1573.7 1573.7 VFP fmadd (64bit x1) ns4 : 3.419 2339.7 2339.7 NEON fmul.2d (64bit x2) ns4 : 3.421 2338.8 2338.8 NEON fadd.2d (64bit x2) ns4 : 2.534 3156.6 3156.6 NEON fmla.2d (64bit x2) ns4 : 3.387 4724.5 4724.5 VFP fmul (64bit x1) n1 : 1.361 2939.9 2939.9 VFP fadd (64bit x1) n1 : 0.913 4378.8 4378.8 VFP fmadd (64bit x1) n1 : 16.539 483.7 483.7 NEON fmul.2d (64bit x2) n1 : 1.364 5863.0 5863.0 NEON fadd.2d (64bit x2) n1 : 0.906 8826.4 8826.4 NEON fmla.2d (64bit x2) n1 : 16.294 981.9 981.9 NEON fmul.2d (64bit x2) n12 : 2.021 5936.3 5936.3 NEON fadd.2d (64bit x2) n12 : 1.366 8787.2 8787.2 NEON fmla.2d (64bit x2) n12 : 2.042 11751.0 11751.0 平均 : 3.320 4781.1 4781.1 最大 : 0.906 11751.0 11751.0 * Matrix 4x4 C++ code : 1.107 3237.3 3237.3 NEON fmla.4s 128bit A : 0.580 6177.7 6177.7 NEON ---- 64bit A : - - - NEON ---- 128bit A : - - - NEON fmla.4s 128bit B : 0.573 6256.6 6256.6 NEON ---- 64bit B : - - - NEON ---- 128bit B : - - - NEON ---- 128bit C : - - - 平均 : 0.753 5223.9 5223.9 最大 : 0.573 6256.6 6256.6 * VFP/NEON (single fp) multi-thread VFP fmul (32bit x1) n8 : 1.532 7835.4 7835.4 VFP fadd (32bit x1) n8 : 0.955 12562.0 12562.0 VFP fmadd (32bit x1) n8 : 1.431 16766.2 16766.2 NEON fmul.2s (32bit x2) n8 : 1.433 16746.7 16746.7 NEON fadd.2s (32bit x2) n8 : 0.923 26009.9 26009.9 NEON fmla.2s (32bit x2) n8 : 1.377 34846.5 34846.5 NEON fmul.4s (32bit x4) n8 : 1.411 34011.7 34011.7 NEON fadd.4s (32bit x4) n8 : 0.974 49279.2 51527.6 NEON fmla.4s (32bit x4) n8 : 1.468 65381.5 66159.0 VFP fmul (32bit x1) ns4 : 2.921 4107.5 4107.5 VFP fadd (32bit x1) ns4 : 2.689 4463.2 4463.2 VFP fmadd (32bit x1) ns4 : 2.901 8271.8 8271.8 NEON fmul.2s (32bit x2) ns4 : 2.884 8321.0 8321.0 NEON fadd.2s (32bit x2) ns4 : 2.697 8900.0 8900.0 NEON fmla.2s (32bit x2) ns4 : 2.957 16230.4 16362.5 NEON fmul.4s (32bit x4) ns4 : 2.910 16492.3 16656.3 NEON fadd.4s (32bit x4) ns4 : 2.703 17758.6 17758.6 NEON fmla.4s (32bit x4) ns4 : 2.905 33046.1 33304.7 VFP fmul (32bit x1) n1 : 1.460 8219.8 8219.8 VFP fadd (32bit x1) n1 : 0.955 12571.1 12571.1 VFP fmadd (32bit x1) n1 : 14.476 1657.9 1657.9 NEON fmul.2s (32bit x2) n1 : 1.454 16504.2 16504.2 NEON fadd.2s (32bit x2) n1 : 0.969 24762.2 24762.2 NEON fmla.2s (32bit x2) n1 : 14.380 3338.0 3338.0 NEON fmul.4s (32bit x4) n1 : 1.414 33957.4 33957.4 NEON fadd.4s (32bit x4) n1 : 0.962 49890.4 49890.4 NEON fmla.4s (32bit x4) n1 : 14.215 6753.6 6786.4 NEON fmul.4s (32bit x4) n12 : 2.154 33421.7 33421.7 NEON fadd.4s (32bit x4) n12 : 1.409 51116.7 51116.7 NEON fmla.4s (32bit x4) n12 : 2.134 67485.2 68591.4 平均 : 3.102 23023.6 23180.9 最大 : 0.923 67485.2 68591.4 * VFP/NEON (double fp) multi-thread VFP fmul (64bit x1) n8 : 1.463 8205.1 8205.1 VFP fadd (64bit x1) n8 : 0.924 12985.0 12985.0 VFP fmadd (64bit x1) n8 : 1.742 13779.4 13779.4 NEON fmul.2d (64bit x2) n8 : 1.379 17401.1 17401.1 NEON fadd.2d (64bit x2) n8 : 0.934 25704.5 25704.5 NEON fmla.2d (64bit x2) n8 : 1.772 27086.7 27086.7 VFP fmul (64bit x1) ns4 : 3.514 3415.4 3415.4 VFP fadd (64bit x1) ns4 : 2.643 4539.9 4542.1 VFP fmadd (64bit x1) ns4 : 3.591 6682.9 6684.1 NEON fmul.2d (64bit x2) ns4 : 3.572 6718.2 6834.7 NEON fadd.2d (64bit x2) ns4 : 2.587 9277.9 9277.9 NEON fmla.2d (64bit x2) ns4 : 3.554 13507.1 13507.1 VFP fmul (64bit x1) n1 : 1.410 8513.2 8536.7 VFP fadd (64bit x1) n1 : 0.959 12515.6 12682.8 VFP fmadd (64bit x1) n1 : 17.012 1410.8 1410.8 NEON fmul.2d (64bit x2) n1 : 1.432 16761.0 17106.7 NEON fadd.2d (64bit x2) n1 : 0.932 25743.6 25743.6 NEON fmla.2d (64bit x2) n1 : 16.964 2829.5 2829.5 NEON fmul.2d (64bit x2) n12 : 2.123 16958.1 16958.1 NEON fadd.2d (64bit x2) n12 : 1.423 25303.2 25303.2 NEON fmla.2d (64bit x2) n12 : 2.120 33968.2 33968.2 平均 : 3.431 13967.0 13998.2 最大 : 0.924 33968.2 33968.2 * Matrix 4x4 multi thread C++ code : 1.073 10023.9 10023.9 NEON fmla.4s 128bit A : 0.585 18389.4 18389.4 NEON ---- 64bit A : - - - NEON ---- 128bit A : - - - NEON fmla.4s 128bit B : 0.570 18851.3 18851.3 NEON ---- 64bit B : - - - NEON ---- 128bit B : - - - NEON ---- 128bit C : - - - 平均 : 0.743 15754.9 15754.9 最大 : 0.570 18851.3 18851.3
iPod touch 6 A8 Typhoon 1.1GHz Dual core ARM64 (AArch64)
iPod touch 6 Apple A8 Typhoon 1.1GHz Dual core ARM64 (AArch64) ARCH: ARMv8A VFP: AArch64 NEON SingleT SP max: 17.948 GFLOPS SingleT DP max: 8.899 GFLOPS MultiT SP max: 35.530 GFLOPS MultiT DP max: 17.775 GFLOPS CPU core: 2 FMA: Yes NEON: Yes * VFP/NEON (single fp) VFP fmul (32bit x1) n8 : 1.952 2048.8 2048.8 VFP fadd (32bit x1) n8 : 1.296 3085.7 3227.7 VFP fmadd (32bit x1) n8 : 1.912 4183.6 4183.6 NEON fmul.2s (32bit x2) n8 : 1.903 4202.8 4202.8 NEON fadd.2s (32bit x2) n8 : 1.219 6563.9 6563.9 NEON fmla.2s (32bit x2) n8 : 1.818 8800.1 8800.1 NEON fmul.4s (32bit x4) n8 : 1.820 8789.2 8789.2 NEON fadd.4s (32bit x4) n8 : 1.219 13127.9 13127.9 NEON fmla.4s (32bit x4) n8 : 1.815 17634.0 17634.0 VFP fmul (32bit x1) ns4 : 3.606 1109.3 1109.3 VFP fadd (32bit x1) ns4 : 3.359 1190.9 1190.9 VFP fmadd (32bit x1) ns4 : 3.630 2203.9 2211.3 NEON fmul.2s (32bit x2) ns4 : 3.631 2203.2 2224.1 NEON fadd.2s (32bit x2) ns4 : 3.381 2366.4 2384.3 NEON fmla.2s (32bit x2) ns4 : 3.591 4455.3 4455.3 NEON fmul.4s (32bit x4) ns4 : 3.595 4451.0 4451.0 NEON fadd.4s (32bit x4) ns4 : 3.353 4772.1 4772.1 NEON fmla.4s (32bit x4) ns4 : 3.593 8905.2 8905.2 VFP fmul (32bit x1) n1 : 1.796 2227.0 2227.0 VFP fadd (32bit x1) n1 : 1.200 3334.0 3339.2 VFP fmadd (32bit x1) n1 : 17.944 445.8 445.8 NEON fmul.2s (32bit x2) n1 : 1.794 4459.2 4459.2 NEON fadd.2s (32bit x2) n1 : 1.198 6676.4 6676.4 NEON fmla.2s (32bit x2) n1 : 17.949 891.4 891.4 NEON fmul.4s (32bit x4) n1 : 1.794 8920.3 8920.3 NEON fadd.4s (32bit x4) n1 : 1.199 13346.4 13373.2 NEON fmla.4s (32bit x4) n1 : 17.938 1784.0 1784.0 NEON fmul.4s (32bit x4) n12 : 2.698 8894.7 8982.7 NEON fadd.4s (32bit x4) n12 : 1.799 13343.4 13479.7 NEON fmla.4s (32bit x4) n12 : 2.690 17841.0 17948.3 平均 : 3.890 6075.2 6093.6 最大 : 1.198 17841.0 17948.3 * VFP/NEON (double fp) VFP fmul (64bit x1) n8 : 1.885 2121.6 2121.6 VFP fadd (64bit x1) n8 : 1.213 3297.2 3297.2 VFP fmadd (64bit x1) n8 : 2.300 3477.7 3477.7 NEON fmul.2d (64bit x2) n8 : 1.818 4401.0 4401.0 NEON fadd.2d (64bit x2) n8 : 1.229 6511.2 6511.2 NEON fmla.2d (64bit x2) n8 : 2.286 6999.7 6999.7 VFP fmul (64bit x1) ns4 : 4.487 891.5 891.5 VFP fadd (64bit x1) ns4 : 3.357 1191.7 1191.7 VFP fmadd (64bit x1) ns4 : 4.498 1778.5 1778.5 NEON fmul.2d (64bit x2) ns4 : 4.487 1782.9 1782.9 NEON fadd.2d (64bit x2) ns4 : 3.346 2391.2 2391.2 NEON fmla.2d (64bit x2) ns4 : 4.487 3565.6 3565.6 VFP fmul (64bit x1) n1 : 1.795 2228.4 2228.4 VFP fadd (64bit x1) n1 : 1.196 3343.4 3343.4 VFP fmadd (64bit x1) n1 : 21.544 371.3 371.3 NEON fmul.2d (64bit x2) n1 : 1.793 4460.9 4460.9 NEON fadd.2d (64bit x2) n1 : 1.198 6679.2 6679.2 NEON fmla.2d (64bit x2) n1 : 21.537 742.9 742.9 NEON fmul.2d (64bit x2) n12 : 2.691 4459.0 4459.0 NEON fadd.2d (64bit x2) n12 : 1.798 6672.5 6672.5 NEON fmla.2d (64bit x2) n12 : 2.697 8898.6 8898.6 平均 : 4.364 3631.7 3631.7 最大 : 1.196 8898.6 8898.6 * Matrix 4x4 C++ code : 1.399 2562.5 2562.5 NEON fmla.4s 128bit A : 0.758 4726.9 4726.9 NEON ---- 64bit A : - - - NEON ---- 128bit A : - - - NEON fmla.4s 128bit B : 0.752 4764.0 4764.0 NEON ---- 64bit B : - - - NEON ---- 128bit B : - - - NEON ---- 128bit C : - - - 平均 : 0.970 4017.8 4017.8 最大 : 0.752 4764.0 4764.0 * VFP/NEON (single fp) multi-thread VFP fmul (32bit x1) n8 : 1.988 4024.8 4024.8 VFP fadd (32bit x1) n8 : 1.218 6567.8 6567.8 VFP fmadd (32bit x1) n8 : 1.824 8770.0 8770.0 NEON fmul.2s (32bit x2) n8 : 1.828 8750.7 8750.7 NEON fadd.2s (32bit x2) n8 : 1.209 13231.8 13231.8 NEON fmla.2s (32bit x2) n8 : 1.821 17569.2 17569.2 NEON fmul.4s (32bit x4) n8 : 1.814 17641.6 17641.6 NEON fadd.4s (32bit x4) n8 : 1.203 26593.5 26593.5 NEON fmla.4s (32bit x4) n8 : 1.802 35506.3 35506.3 VFP fmul (32bit x1) ns4 : 3.609 2216.5 2216.5 VFP fadd (32bit x1) ns4 : 3.367 2376.3 2376.3 VFP fmadd (32bit x1) ns4 : 3.604 4440.0 4440.0 NEON fmul.2s (32bit x2) ns4 : 3.611 4430.9 4430.9 NEON fadd.2s (32bit x2) ns4 : 3.381 4732.5 4732.5 NEON fmla.2s (32bit x2) ns4 : 3.604 8879.1 8879.1 NEON fmul.4s (32bit x4) ns4 : 3.611 8862.5 8862.5 NEON fadd.4s (32bit x4) ns4 : 3.377 9476.1 9476.1 NEON fmla.4s (32bit x4) ns4 : 3.612 17717.6 17717.6 VFP fmul (32bit x1) n1 : 1.801 4442.9 4442.9 VFP fadd (32bit x1) n1 : 1.205 6639.9 6639.9 VFP fmadd (32bit x1) n1 : 18.000 888.9 888.9 NEON fmul.2s (32bit x2) n1 : 1.816 8810.5 8810.5 NEON fadd.2s (32bit x2) n1 : 1.204 13288.3 13288.3 NEON fmla.2s (32bit x2) n1 : 17.988 1779.0 1779.0 NEON fmul.4s (32bit x4) n1 : 1.805 17726.1 17726.1 NEON fadd.4s (32bit x4) n1 : 1.207 26516.9 26516.9 NEON fmla.4s (32bit x4) n1 : 17.991 3557.3 3557.3 NEON fmul.4s (32bit x4) n12 : 2.719 17652.1 17652.1 NEON fadd.4s (32bit x4) n12 : 1.804 26600.3 26600.3 NEON fmla.4s (32bit x4) n12 : 2.702 35529.8 35529.8 平均 : 3.891 12174.0 12174.0 最大 : 1.203 35529.8 35529.8 * VFP/NEON (double fp) multi-thread VFP fmul (64bit x1) n8 : 2.034 3933.0 3933.0 VFP fadd (64bit x1) n8 : 1.283 6237.0 6237.0 VFP fmadd (64bit x1) n8 : 2.355 6793.0 6793.0 NEON fmul.2d (64bit x2) n8 : 1.835 8718.0 8718.0 NEON fadd.2d (64bit x2) n8 : 1.229 13014.1 13014.1 NEON fmla.2d (64bit x2) n8 : 2.322 13784.0 13784.0 VFP fmul (64bit x1) ns4 : 4.521 1769.7 1769.7 VFP fadd (64bit x1) ns4 : 3.387 2361.9 2361.9 VFP fmadd (64bit x1) ns4 : 4.508 3549.5 3549.5 NEON fmul.2d (64bit x2) ns4 : 4.516 3543.3 3543.3 NEON fadd.2d (64bit x2) ns4 : 3.355 4768.4 4768.4 NEON fmla.2d (64bit x2) ns4 : 4.531 7061.9 7061.9 VFP fmul (64bit x1) n1 : 1.808 4424.1 4424.1 VFP fadd (64bit x1) n1 : 1.319 6063.8 6063.8 VFP fmadd (64bit x1) n1 : 21.602 740.7 740.7 NEON fmul.2d (64bit x2) n1 : 1.799 8892.5 8892.5 NEON fadd.2d (64bit x2) n1 : 1.208 13243.8 13243.8 NEON fmla.2d (64bit x2) n1 : 21.610 1480.8 1480.8 NEON fmul.2d (64bit x2) n12 : 2.698 8895.3 8895.3 NEON fadd.2d (64bit x2) n12 : 1.806 13288.9 13288.9 NEON fmla.2d (64bit x2) n12 : 2.700 17775.3 17775.3 平均 : 4.401 7159.0 7159.0 最大 : 1.208 17775.3 17775.3 * Matrix 4x4 multi thread C++ code : 1.502 4771.9 4771.9 NEON fmla.4s 128bit A : 0.777 9219.6 9219.6 NEON ---- 64bit A : - - - NEON ---- 128bit A : - - - NEON fmla.4s 128bit B : 0.766 9358.8 9358.8 NEON ---- 64bit B : - - - NEON ---- 128bit B : - - - NEON ---- 128bit C : - - - 平均 : 1.015 7783.4 7783.4 最大 : 0.766 9358.8 9358.8
Apple TV A8 Typhoon 1.4GHz Dual core ARM64 (AArch64)
Apple TV A8 Typhoon 1.4GHz Dual core ARM64 (AArch64) HW INFO: Machine = AppleTV5,3 HW INFO: Model = J42dAP HW INFO: Arch = J42dAP HW INFO: ByteOrder = 1234 HW INFO: NCPU = 2 HW INFO: MemSize = 2116026368 HW INFO: UserMem = 1923448832 HW INFO: PageSize = 16384 HW INFO: VectorUnit = 0 HW INFO: Float = 0 CPU Feature: ARM_NEON ARM_64 CPU Core:2 Thread:2 ARCH: ARMv8A FPU: AArch64 NEON SingleT SP max: 22.197 GFLOPS SingleT DP max: 11.105 GFLOPS MultiT SP max: 44.331 GFLOPS MultiT DP max: 22.084 GFLOPS CPU core: 2 NEON: yes FMA: no * FPU/NEON (single fp) FPU fmul (32bit x1) n8 : 0.433 2772.7 2772.7 FPU fadd (32bit x1) n8 : 0.288 4160.8 4160.8 FPU fmadd (32bit x1) n8 : 0.433 5540.4 5540.4 NEON fmul.2s (32bit x2) n8 : 0.433 5541.0 5541.0 NEON fadd.2s (32bit x2) n8 : 0.288 8330.7 8330.7 NEON fmla.2s (32bit x2) n8 : 0.432 11102.2 11102.2 NEON fmul.4s (32bit x4) n8 : 0.432 11103.8 11103.8 NEON fadd.4s (32bit x4) n8 : 0.289 16633.6 16633.6 NEON fmla.4s (32bit x4) n8 : 0.434 22138.4 22138.4 FPU fmul (32bit x1) ns4 : 0.867 1384.5 1384.5 FPU fadd (32bit x1) ns4 : 0.808 1486.0 1486.0 FPU fmadd (32bit x1) ns4 : 0.865 2773.1 2773.1 NEON fmul.2s (32bit x2) ns4 : 0.952 2521.0 2521.0 NEON fadd.2s (32bit x2) ns4 : 0.817 2937.7 2937.7 NEON fmla.2s (32bit x2) ns4 : 0.887 5409.7 5409.7 NEON fmul.4s (32bit x4) ns4 : 0.872 5501.8 5501.8 NEON fadd.4s (32bit x4) ns4 : 0.809 5936.5 5936.5 NEON fmla.4s (32bit x4) ns4 : 0.867 11078.4 11078.4 FPU fmul (32bit x1) n1 : 0.432 2778.0 2778.0 FPU fadd (32bit x1) n1 : 0.288 4166.2 4166.2 FPU fmadd (32bit x1) n1 : 4.326 554.8 554.8 NEON fmul.2s (32bit x2) n1 : 0.433 5546.6 5546.6 NEON fadd.2s (32bit x2) n1 : 0.289 8304.2 8304.2 NEON fmla.2s (32bit x2) n1 : 4.350 1103.3 1103.3 NEON fmul.4s (32bit x4) n1 : 0.432 11114.8 11114.8 NEON fadd.4s (32bit x4) n1 : 0.289 16627.3 16627.3 NEON fmla.4s (32bit x4) n1 : 4.324 2220.1 2220.1 NEON fmul.4s (32bit x4) n12 : 0.648 11104.5 11104.5 NEON fadd.4s (32bit x4) n12 : 0.432 16652.2 16652.2 NEON fmla.4s (32bit x4) n12 : 0.649 22197.3 22197.3 Average : 0.937 7624.1 7624.1 Highest : 0.288 22197.3 22197.3 * FPU/NEON (double fp) FPU fmul (64bit x1) n8 : 0.450 2668.1 2668.1 FPU fadd (64bit x1) n8 : 0.288 4169.5 4169.5 FPU fmadd (64bit x1) n8 : 0.553 4336.5 4336.5 NEON fmul.2d (64bit x2) n8 : 0.432 5556.6 5556.6 NEON fadd.2d (64bit x2) n8 : 0.289 8312.0 8312.0 NEON fmla.2d (64bit x2) n8 : 0.555 8653.8 8653.8 FPU fmul (64bit x1) ns4 : 1.084 1107.2 1107.2 FPU fadd (64bit x1) ns4 : 0.810 1480.8 1480.8 FPU fmadd (64bit x1) ns4 : 1.084 2214.4 2214.4 NEON fmul.2d (64bit x2) ns4 : 1.084 2213.6 2213.6 NEON fadd.2d (64bit x2) ns4 : 0.807 2972.7 2972.7 NEON fmla.2d (64bit x2) ns4 : 1.084 4430.0 4430.0 FPU fmul (64bit x1) n1 : 0.433 2773.4 2773.4 FPU fadd (64bit x1) n1 : 0.305 3934.6 3934.6 FPU fmadd (64bit x1) n1 : 5.201 461.4 461.4 NEON fmul.2d (64bit x2) n1 : 0.432 5555.4 5555.4 NEON fadd.2d (64bit x2) n1 : 0.289 8317.2 8317.2 NEON fmla.2d (64bit x2) n1 : 5.214 920.6 920.6 NEON fmul.2d (64bit x2) n12 : 0.648 5551.7 5551.7 NEON fadd.2d (64bit x2) n12 : 0.432 8331.8 8331.8 NEON fmla.2d (64bit x2) n12 : 0.648 11105.1 11105.1 Average : 1.053 4527.0 4527.0 Highest : 0.288 11105.1 11105.1 * Matrix 4x4 C++ code : 0.289 6209.9 6209.9 NEON fmla.4s 128bit A : 0.302 5931.1 5931.1 NEON fmla.4s 128bit B : 0.297 6026.7 6026.7 Average : 0.296 6055.9 6055.9 Highest : 0.289 6209.9 6209.9 * FPU/NEON (single fp) multi-thread FPU fmul (32bit x1) n8 : 0.437 5491.0 5491.0 FPU fadd (32bit x1) n8 : 0.288 8326.2 8326.2 FPU fmadd (32bit x1) n8 : 0.436 11016.4 11016.4 NEON fmul.2s (32bit x2) n8 : 0.433 11097.8 11097.8 NEON fadd.2s (32bit x2) n8 : 0.288 16640.7 16640.7 NEON fmla.2s (32bit x2) n8 : 0.435 22056.8 22056.8 NEON fmul.4s (32bit x4) n8 : 0.432 22206.9 22206.9 NEON fadd.4s (32bit x4) n8 : 0.291 32940.4 32940.4 NEON fmla.4s (32bit x4) n8 : 0.433 44331.3 44331.3 FPU fmul (32bit x1) ns4 : 0.870 2759.6 2759.6 FPU fadd (32bit x1) ns4 : 0.839 2859.1 2859.1 FPU fmadd (32bit x1) ns4 : 0.902 5320.5 5320.5 NEON fmul.2s (32bit x2) ns4 : 0.936 5126.6 5126.6 NEON fadd.2s (32bit x2) ns4 : 0.807 5945.1 5945.1 NEON fmla.2s (32bit x2) ns4 : 0.869 11044.9 11044.9 NEON fmul.4s (32bit x4) ns4 : 0.874 10983.5 10983.5 NEON fadd.4s (32bit x4) ns4 : 0.815 11780.7 11780.7 NEON fmla.4s (32bit x4) ns4 : 0.869 22091.3 22091.3 FPU fmul (32bit x1) n1 : 0.432 5550.2 5550.2 FPU fadd (32bit x1) n1 : 0.291 8240.5 8240.5 FPU fmadd (32bit x1) n1 : 4.404 1089.8 1089.8 NEON fmul.2s (32bit x2) n1 : 0.432 11108.4 11108.4 NEON fadd.2s (32bit x2) n1 : 0.292 16465.5 16465.5 NEON fmla.2s (32bit x2) n1 : 4.343 2210.4 2210.4 NEON fmul.4s (32bit x4) n1 : 0.432 22211.3 22211.3 NEON fadd.4s (32bit x4) n1 : 0.292 32912.1 32912.1 NEON fmla.4s (32bit x4) n1 : 4.401 4362.7 4362.7 NEON fmul.4s (32bit x4) n12 : 0.652 22092.6 22092.6 NEON fadd.4s (32bit x4) n12 : 0.432 33297.5 33297.5 NEON fmla.4s (32bit x4) n12 : 0.652 44166.3 44166.3 Average : 0.944 15190.9 15190.9 Highest : 0.288 44331.3 44331.3 * FPU/NEON (double fp) multi-thread FPU fmul (64bit x1) n8 : 0.434 5529.1 5529.1 FPU fadd (64bit x1) n8 : 0.288 8324.9 8324.9 FPU fmadd (64bit x1) n8 : 0.557 8618.1 8618.1 NEON fmul.2d (64bit x2) n8 : 0.435 11041.9 11041.9 NEON fadd.2d (64bit x2) n8 : 0.292 16457.6 16457.6 NEON fmla.2d (64bit x2) n8 : 0.550 17463.7 17463.7 FPU fmul (64bit x1) ns4 : 1.086 2210.2 2210.2 FPU fadd (64bit x1) ns4 : 0.812 2957.4 2957.4 FPU fmadd (64bit x1) ns4 : 1.086 4420.7 4420.7 NEON fmul.2d (64bit x2) ns4 : 1.148 4181.4 4181.4 NEON fadd.2d (64bit x2) ns4 : 0.818 5869.9 5869.9 NEON fmla.2d (64bit x2) ns4 : 1.087 8828.0 8828.0 FPU fmul (64bit x1) n1 : 0.436 5510.4 5510.4 FPU fadd (64bit x1) n1 : 0.288 8327.3 8327.3 FPU fmadd (64bit x1) n1 : 5.211 921.1 921.1 NEON fmul.2d (64bit x2) n1 : 0.435 11029.5 11029.5 NEON fadd.2d (64bit x2) n1 : 0.289 16632.6 16632.6 NEON fmla.2d (64bit x2) n1 : 5.270 1821.6 1821.6 NEON fmul.2d (64bit x2) n12 : 0.652 11039.3 11039.3 NEON fadd.2d (64bit x2) n12 : 0.436 16499.0 16499.0 NEON fmla.2d (64bit x2) n12 : 0.652 22083.9 22083.9 Average : 1.060 9036.6 9036.6 Highest : 0.288 22083.9 22083.9 * Matrix 4x4 multi-thread C++ code : 0.304 11800.1 11800.1 NEON fmla.4s 128bit A : 0.306 11712.1 11712.1 NEON fmla.4s 128bit B : 0.298 12041.6 12041.6 Average : 0.302 11851.3 11851.3 Highest : 0.298 12041.6 12041.6
Apple Twister (ARMv8A AArch64 arm64) FPU+NEON
iPhone SE A9 Twister 1.85 Dual core ARM64 (AArch64)
iPhone SE A9 Twister 1.85 Dual core ARM64 (AArch64) ARCH: ARMv8A VFP: AArch64 NEON SingleT SP max: 41.857 GFLOPS SingleT DP max: 14.545 GFLOPS MultiT SP max: 81.017 GFLOPS MultiT DP max: 28.333 GFLOPS CPU core: 2 FMA: Yes NEON: Yes * VFP/NEON (single fp) VFP fmul (32bit x1) n8 : 0.751 5325.4 5325.4 VFP fadd (32bit x1) n8 : 0.731 5472.5 5472.5 VFP fmadd (32bit x1) n8 : 1.152 6944.8 6944.8 NEON fmul.2s (32bit x2) n8 : 0.725 11038.7 11038.7 NEON fadd.2s (32bit x2) n8 : 0.725 11034.1 11034.1 NEON fmla.2s (32bit x2) n8 : 1.151 13895.9 13895.9 NEON fmul.4s (32bit x4) n8 : 0.727 22008.2 22008.2 NEON fadd.4s (32bit x4) n8 : 0.726 22047.9 22047.9 NEON fmla.4s (32bit x4) n8 : 1.160 27594.7 27594.7 VFP fmul (32bit x1) ns4 : 2.250 1777.9 1777.9 VFP fadd (32bit x1) ns4 : 1.683 2376.2 2376.2 VFP fmadd (32bit x1) ns4 : 2.253 3550.5 3550.5 NEON fmul.2s (32bit x2) ns4 : 2.222 3600.3 3600.3 NEON fadd.2s (32bit x2) ns4 : 1.642 4870.7 4870.7 NEON fmla.2s (32bit x2) ns4 : 2.176 7351.3 7351.3 NEON fmul.4s (32bit x4) ns4 : 2.177 7351.1 7351.1 NEON fadd.4s (32bit x4) ns4 : 1.643 9735.7 9735.7 NEON fmla.4s (32bit x4) ns4 : 2.179 14686.3 14686.3 VFP fmul (32bit x1) n1 : 0.726 5513.2 5513.2 VFP fadd (32bit x1) n1 : 0.726 5506.2 5506.2 VFP fmadd (32bit x1) n1 : 8.724 917.1 917.1 NEON fmul.2s (32bit x2) n1 : 0.727 10997.5 10997.5 NEON fadd.2s (32bit x2) n1 : 0.728 10987.7 10987.7 NEON fmla.2s (32bit x2) n1 : 8.825 1813.0 1813.0 NEON fmul.4s (32bit x4) n1 : 0.749 21357.1 21357.1 NEON fadd.4s (32bit x4) n1 : 0.734 21796.6 21796.6 NEON fmla.4s (32bit x4) n1 : 8.948 3576.1 3576.1 NEON fmul.4s (32bit x4) n12 : 1.113 21567.9 21567.9 NEON fadd.4s (32bit x4) n12 : 1.128 21268.9 21268.9 NEON fmla.4s (32bit x4) n12 : 1.147 41856.8 41856.8 平均 : 2.012 11594.0 11594.0 最大 : 0.725 41856.8 41856.8 * VFP/NEON (double fp) VFP fmul (64bit x1) n8 : 1.162 3442.9 3442.9 VFP fadd (64bit x1) n8 : 0.730 5477.7 5477.7 VFP fmadd (64bit x1) n8 : 1.095 7303.6 7303.6 NEON fmul.2d (64bit x2) n8 : 1.091 7334.9 7334.9 NEON fadd.2d (64bit x2) n8 : 0.728 10987.9 10987.9 NEON fmla.2d (64bit x2) n8 : 1.100 14545.0 14545.0 VFP fmul (64bit x1) ns4 : 2.184 1831.5 1831.5 VFP fadd (64bit x1) ns4 : 1.649 2425.2 2425.2 VFP fmadd (64bit x1) ns4 : 2.192 3649.7 3649.7 NEON fmul.2d (64bit x2) ns4 : 2.191 3651.1 3651.1 NEON fadd.2d (64bit x2) ns4 : 1.648 4853.0 4853.0 NEON fmla.2d (64bit x2) ns4 : 2.183 7330.2 7330.2 VFP fmul (64bit x1) n1 : 1.090 3668.7 3668.7 VFP fadd (64bit x1) n1 : 0.726 5508.7 5508.7 VFP fmadd (64bit x1) n1 : 8.720 917.4 917.4 NEON fmul.2d (64bit x2) n1 : 1.088 7355.3 7355.3 NEON fadd.2d (64bit x2) n1 : 0.725 11029.1 11029.1 NEON fmla.2d (64bit x2) n1 : 8.744 1829.8 1829.8 NEON fmul.2d (64bit x2) n12 : 1.635 7339.8 7339.8 NEON fadd.2d (64bit x2) n12 : 1.091 11004.0 11004.0 NEON fmla.2d (64bit x2) n12 : 1.661 14449.2 14449.2 平均 : 2.068 6473.1 6473.1 最大 : 0.725 14545.0 14545.0 * Matrix 4x4 C++ code : 0.758 4728.1 4728.1 NEON fmla.4s 128bit A : 0.437 8196.2 8196.2 NEON ---- 64bit A : - - - NEON ---- 128bit A : - - - NEON fmla.4s 128bit B : 0.437 8195.8 8195.8 NEON ---- 64bit B : - - - NEON ---- 128bit B : - - - NEON ---- 128bit C : - - - 平均 : 0.544 7040.1 7040.1 最大 : 0.437 8196.2 8196.2 * VFP/NEON (single fp) multi-thread VFP fmul (32bit x1) n8 : 0.793 10090.7 10090.7 VFP fadd (32bit x1) n8 : 0.750 10669.0 10669.0 VFP fmadd (32bit x1) n8 : 1.186 13489.7 13489.7 NEON fmul.2s (32bit x2) n8 : 0.748 21385.2 21385.2 NEON fadd.2s (32bit x2) n8 : 0.749 21358.8 21358.8 NEON fmla.2s (32bit x2) n8 : 1.187 26959.2 26959.2 NEON fmul.4s (32bit x4) n8 : 0.752 42552.5 42552.5 NEON fadd.4s (32bit x4) n8 : 0.752 42541.3 42541.3 NEON fmla.4s (32bit x4) n8 : 1.190 53770.4 53770.4 VFP fmul (32bit x1) ns4 : 2.247 3560.5 3560.5 VFP fadd (32bit x1) ns4 : 1.698 4712.4 4712.4 VFP fmadd (32bit x1) ns4 : 2.255 7093.8 7093.8 NEON fmul.2s (32bit x2) ns4 : 2.320 6897.4 6897.4 NEON fadd.2s (32bit x2) ns4 : 1.705 9382.1 9382.1 NEON fmla.2s (32bit x2) ns4 : 2.253 14203.1 14203.1 NEON fmul.4s (32bit x4) ns4 : 2.289 13979.6 13979.6 NEON fadd.4s (32bit x4) ns4 : 1.707 18743.8 18743.8 NEON fmla.4s (32bit x4) ns4 : 2.246 28497.5 28497.5 VFP fmul (32bit x1) n1 : 0.748 10696.8 10696.8 VFP fadd (32bit x1) n1 : 0.755 10590.9 10590.9 VFP fmadd (32bit x1) n1 : 9.010 1775.7 1775.7 NEON fmul.2s (32bit x2) n1 : 0.749 21351.8 21351.8 NEON fadd.2s (32bit x2) n1 : 0.748 21399.6 21399.6 NEON fmla.2s (32bit x2) n1 : 9.102 3515.5 3515.5 NEON fmul.4s (32bit x4) n1 : 0.784 40803.7 40803.7 NEON fadd.4s (32bit x4) n1 : 0.775 41292.2 41292.2 NEON fmla.4s (32bit x4) n1 : 9.160 6986.9 6986.9 NEON fmul.4s (32bit x4) n12 : 1.124 42722.0 42722.0 NEON fadd.4s (32bit x4) n12 : 1.128 42540.8 42540.8 NEON fmla.4s (32bit x4) n12 : 1.185 81017.2 81017.2 平均 : 2.070 22486.0 22486.0 最大 : 0.748 81017.2 81017.2 * VFP/NEON (double fp) multi-thread VFP fmul (64bit x1) n8 : 1.181 6776.1 6776.1 VFP fadd (64bit x1) n8 : 0.756 10582.8 10582.8 VFP fmadd (64bit x1) n8 : 1.129 14172.1 14172.1 NEON fmul.2d (64bit x2) n8 : 1.129 14169.1 14169.1 NEON fadd.2d (64bit x2) n8 : 0.751 21317.5 21317.5 NEON fmla.2d (64bit x2) n8 : 1.129 28333.5 28333.5 VFP fmul (64bit x1) ns4 : 2.243 3565.9 3565.9 VFP fadd (64bit x1) ns4 : 1.713 4669.4 4669.4 VFP fmadd (64bit x1) ns4 : 2.286 7000.5 7000.5 NEON fmul.2d (64bit x2) ns4 : 2.279 7019.4 7019.4 NEON fadd.2d (64bit x2) ns4 : 1.772 9029.1 9029.1 NEON fmla.2d (64bit x2) ns4 : 2.328 13743.1 13743.1 VFP fmul (64bit x1) n1 : 1.170 6838.4 6838.4 VFP fadd (64bit x1) n1 : 0.785 10194.5 10194.5 VFP fmadd (64bit x1) n1 : 9.054 1767.2 1767.2 NEON fmul.2d (64bit x2) n1 : 1.134 14113.5 14113.5 NEON fadd.2d (64bit x2) n1 : 0.751 21301.4 21301.4 NEON fmla.2d (64bit x2) n1 : 9.213 3473.2 3473.2 NEON fmul.2d (64bit x2) n12 : 1.690 14204.9 14204.9 NEON fadd.2d (64bit x2) n12 : 1.164 20624.3 20624.3 NEON fmla.2d (64bit x2) n12 : 1.750 27427.4 27427.4 平均 : 2.162 12396.3 12396.3 最大 : 0.751 28333.5 28333.5 * Matrix 4x4 multi thread C++ code : 0.822 8722.7 8722.7 NEON fmla.4s 128bit A : 0.471 15208.5 15208.5 NEON ---- 64bit A : - - - NEON ---- 128bit A : - - - NEON fmla.4s 128bit B : 0.471 15231.5 15231.5 NEON ---- 64bit B : - - - NEON ---- 128bit B : - - - NEON ---- 128bit C : - - - 平均 : 0.588 13054.2 13054.2 最大 : 0.471 15231.5 15231.5
NVIDIA Denver (ARMv8A AArch64 arm64) FPU+NEON
Nexus 9 Tegra K1 64 Denver 2.3GHz Dual core ARM64 (AArch64)
Nexus 9 Tegra K1 64 Denver 2.3GHz Dual core ARM64 (AArch64) ARCH: ARMv8A CPU core: 2 VFP: AArch64 NEON FMA: Yes NEON: Yes Result SingleT SP max: 17.906 GFLOPS SingleT DP max: 8.762 GFLOPS MultiT SP max: 34.888 GFLOPS MultiT DP max: 17.601 GFLOPS * VFP/NEON (単精度 fp) single-thread FPU fmul (32bit x1) n8 : 2.049 1952.1 1952.1 FPU fadd (32bit x1) n8 : 1.000 3998.3 3998.3 FPU fmadd (32bit x1) n8 : 1.849 4326.0 4326.0 NEON fmul.2s (32bit x2) n8 : 1.842 4343.8 4343.8 NEON fadd.2s (32bit x2) n8 : 1.259 6356.0 6356.0 NEON fmla.2s (32bit x2) n8 : 1.900 8420.3 8420.3 NEON fmul.4s (32bit x4) n8 : 1.837 8711.7 8711.7 NEON fadd.4s (32bit x4) n8 : 1.179 13570.5 13570.5 NEON fmla.4s (32bit x4) n8 : 1.831 17475.0 17475.0 FPU fmul (32bit x1) ns4 : 2.691 1486.5 1486.5 FPU fadd (32bit x1) ns4 : 1.341 2983.8 2983.8 FPU fmadd (32bit x1) ns4 : 2.778 2879.3 2879.3 NEON fmul.2s (32bit x2) ns4 : 2.784 2873.7 2873.7 NEON fadd.2s (32bit x2) ns4 : 1.393 5744.7 5744.7 NEON fmla.2s (32bit x2) ns4 : 2.679 5972.8 5972.8 NEON fmul.4s (32bit x4) ns4 : 2.771 5773.7 5773.7 NEON fadd.4s (32bit x4) ns4 : 1.344 11901.5 11901.5 NEON fmla.4s (32bit x4) ns4 : 2.731 11717.9 11717.9 FPU fmul (32bit x1) n1 : 1.876 2131.7 2131.7 FPU fadd (32bit x1) n1 : 0.938 4264.5 4264.5 FPU fmadd (32bit x1) n1 : 10.736 745.2 745.2 NEON fmul.2s (32bit x2) n1 : 1.818 4400.1 4400.1 NEON fadd.2s (32bit x2) n1 : 1.359 5887.4 5887.4 NEON fmla.2s (32bit x2) n1 : 10.702 1495.0 1495.0 NEON fmul.4s (32bit x4) n1 : 1.803 8872.9 8872.9 NEON fadd.4s (32bit x4) n1 : 1.330 12025.9 12025.9 NEON fmla.4s (32bit x4) n1 : 10.564 3029.2 3029.2 NEON fmul.4s (32bit x4) n12 : 2.638 9098.3 9098.3 NEON fadd.4s (32bit x4) n12 : 1.581 15179.3 15179.3 NEON fmla.4s (32bit x4) n12 : 2.681 17905.9 17905.9 平均 : 2.776 6850.8 6850.8 最大 : 0.938 17905.9 17905.9 * VFP/NEON (倍精度 fp) single-thread FPU fmul (64bit x1) n8 : 1.930 2072.7 2072.7 FPU fadd (64bit x1) n8 : 0.929 4306.0 4306.0 FPU fmadd (64bit x1) n8 : 1.798 4450.2 4450.2 NEON fmul.2d (64bit x2) n8 : 1.809 4422.6 4422.6 NEON fadd.2d (64bit x2) n8 : 1.195 6695.8 6695.8 NEON fmla.2d (64bit x2) n8 : 1.826 8762.0 8762.0 FPU fmul (64bit x1) ns4 : 2.760 1449.0 1449.0 FPU fadd (64bit x1) ns4 : 1.343 2978.6 2978.6 FPU fmadd (64bit x1) ns4 : 2.729 2931.0 2931.0 NEON fmul.2d (64bit x2) ns4 : 2.719 2941.8 2941.8 NEON fadd.2d (64bit x2) ns4 : 1.331 6012.6 6012.6 NEON fmla.2d (64bit x2) ns4 : 2.689 5950.8 5950.8 FPU fmul (64bit x1) n1 : 1.769 2260.6 2260.6 FPU fadd (64bit x1) n1 : 0.934 4281.0 4281.0 FPU fmadd (64bit x1) n1 : 10.633 752.4 752.4 NEON fmul.2d (64bit x2) n1 : 1.814 4411.2 4411.2 NEON fadd.2d (64bit x2) n1 : 1.339 5976.5 5976.5 NEON fmla.2d (64bit x2) n1 : 10.764 1486.4 1486.4 NEON fmul.2d (64bit x2) n12 : 2.784 4310.8 4310.8 NEON fadd.2d (64bit x2) n12 : 1.608 7463.3 7463.3 NEON fmla.2d (64bit x2) n12 : 2.744 8745.8 8745.8 平均 : 2.736 4412.4 4412.4 最大 : 0.929 8762.0 8762.0 * Matrix 4x4 (単精度 fp) single-thread C++ code : 1.326 2702.8 2702.8 NEON fmla.4s 128bit A : 0.434 8259.5 8259.5 NEON fmla.4s 128bit B : 0.375 9557.1 9557.1 平均 : 0.712 6839.8 6839.8 最大 : 0.375 9557.1 9557.1 * VFP/NEON (単精度 fp) multi-thread FPU fmul (32bit x1) n8 : 1.948 4107.5 4107.5 FPU fadd (32bit x1) n8 : 0.945 8468.4 8468.4 FPU fmadd (32bit x1) n8 : 1.828 8752.4 8752.4 NEON fmul.2s (32bit x2) n8 : 1.841 8689.3 8689.3 NEON fadd.2s (32bit x2) n8 : 1.188 13471.0 13471.0 NEON fmla.2s (32bit x2) n8 : 1.850 17301.6 17301.6 NEON fmul.4s (32bit x4) n8 : 1.843 17360.5 17360.5 NEON fadd.4s (32bit x4) n8 : 1.182 27082.4 27082.4 NEON fmla.4s (32bit x4) n8 : 1.840 34779.3 34779.3 FPU fmul (32bit x1) ns4 : 2.707 2955.1 2955.1 FPU fadd (32bit x1) ns4 : 1.345 5945.9 5945.9 FPU fmadd (32bit x1) ns4 : 2.749 5820.6 5820.6 NEON fmul.2s (32bit x2) ns4 : 2.768 5780.5 5780.5 NEON fadd.2s (32bit x2) ns4 : 1.352 11834.8 11834.8 NEON fmla.2s (32bit x2) ns4 : 2.709 11813.4 11813.4 NEON fmul.4s (32bit x4) ns4 : 2.748 11645.1 11645.1 NEON fadd.4s (32bit x4) ns4 : 1.349 23719.1 23719.1 NEON fmla.4s (32bit x4) ns4 : 2.716 23567.3 23567.3 FPU fmul (32bit x1) n1 : 1.793 4461.2 4461.2 FPU fadd (32bit x1) n1 : 0.947 8445.5 8445.5 FPU fmadd (32bit x1) n1 : 10.836 1476.5 1476.5 NEON fmul.2s (32bit x2) n1 : 1.839 8701.5 8701.5 NEON fadd.2s (32bit x2) n1 : 1.360 11764.2 11764.2 NEON fmla.2s (32bit x2) n1 : 10.789 2966.0 2966.0 NEON fmul.4s (32bit x4) n1 : 1.839 17404.0 17404.0 NEON fadd.4s (32bit x4) n1 : 1.362 23490.9 23490.9 NEON fmla.4s (32bit x4) n1 : 10.783 5935.5 5935.5 NEON fmul.4s (32bit x4) n12 : 2.697 17800.2 17800.2 NEON fadd.4s (32bit x4) n12 : 1.615 29714.6 29714.6 NEON fmla.4s (32bit x4) n12 : 2.752 34887.8 34887.8 平均 : 2.784 13671.4 13671.4 最大 : 0.945 34887.8 34887.8 * VFP/NEON (倍精度 fp) multi-thread FPU fmul (64bit x1) n8 : 1.956 4089.1 4089.1 FPU fadd (64bit x1) n8 : 0.949 8433.5 8433.5 FPU fmadd (64bit x1) n8 : 1.832 8735.5 8735.5 NEON fmul.2d (64bit x2) n8 : 1.840 8695.4 8695.4 NEON fadd.2d (64bit x2) n8 : 1.191 13433.3 13433.3 NEON fmla.2d (64bit x2) n8 : 1.844 17356.2 17356.2 FPU fmul (64bit x1) ns4 : 2.709 2953.3 2953.3 FPU fadd (64bit x1) ns4 : 1.352 5916.9 5916.9 FPU fmadd (64bit x1) ns4 : 2.736 5847.8 5847.8 NEON fmul.2d (64bit x2) ns4 : 2.766 5785.1 5785.1 NEON fadd.2d (64bit x2) ns4 : 1.352 11835.7 11835.7 NEON fmla.2d (64bit x2) ns4 : 2.711 11805.7 11805.7 FPU fmul (64bit x1) n1 : 1.798 4449.0 4449.0 FPU fadd (64bit x1) n1 : 0.949 8432.7 8432.7 FPU fmadd (64bit x1) n1 : 10.755 1487.7 1487.7 NEON fmul.2d (64bit x2) n1 : 1.874 8538.7 8538.7 NEON fadd.2d (64bit x2) n1 : 1.365 11723.5 11723.5 NEON fmla.2d (64bit x2) n1 : 10.780 2968.5 2968.5 NEON fmul.2d (64bit x2) n12 : 2.696 8902.1 8902.1 NEON fadd.2d (64bit x2) n12 : 1.617 14838.2 14838.2 NEON fmla.2d (64bit x2) n12 : 2.727 17601.3 17601.3 平均 : 2.752 8753.8 8753.8 最大 : 0.949 17601.3 17601.3 * Matrix 4x4 (単精度 fp) multi-thread C++ code : 1.321 5426.9 5426.9 NEON fmla.4s 128bit A : 0.446 16077.3 16077.3 NEON fmla.4s 128bit B : 0.372 19289.1 19289.1 平均 : 0.713 13597.8 13597.8 最大 : 0.372 19289.1 19289.1
Qualcomm Kryo (ARMv8A AArch64 arm64) FPU+NEON
ZenFone AR Snapdragon 821 big core Kryo 2.3G4Hz x2 ARM64 (AArch64) Android 7.0
ARCH: ARMv8A 3 FPU: AArch64 NEON SingleT SP max: 18.681 GFLOPS SingleT DP max: 9.263 GFLOPS MultiT SP max: 37.407 GFLOPS MultiT DP max: 18.549 GFLOPS CPU core: 2 FPHP : no SIMDHP: no * FPU/NEON (single fp) TIME(s) MFLOPS MOPS FOP IPC max MFLOPS FPU fmul (32bit x1) n8 : 0.284 4229.4 4229.4 ( 1 1.8) 4229.4 FPU fadd (32bit x1) n8 : 0.141 8492.3 8492.3 ( 1 3.6) 8492.3 FPU fmadd (32bit x1) n8 : 0.321 7471.9 3736.0 ( 2 1.6) 7471.9 NEON fmul.2s (32bit x2) n8 : 0.257 9336.7 4668.4 ( 2 2.0) 9336.7 NEON fadd.2s (32bit x2) n8 : 0.141 16984.7 8492.3 ( 2 3.6) 16984.7 NEON fmla.2s (32bit x2) n8 : 0.257 18681.0 4670.3 ( 4 2.0) 18681.0 NEON fmul.4s (32bit x4) n8 : 0.514 9341.5 2335.4 ( 4 1.0) 9341.5 NEON fadd.4s (32bit x4) n8 : 0.275 17435.6 4358.9 ( 4 1.9) 17435.6 NEON fmla.4s (32bit x4) n8 : 0.520 18448.6 2306.1 ( 8 1.0) 18448.6 FPU fmul (32bit x1) ns4 : 0.644 1864.5 1864.5 ( 1 0.8) 1864.5 FPU fadd (32bit x1) ns4 : 0.387 3103.5 3103.5 ( 1 1.3) 3103.5 FPU fmadd (32bit x1) ns4 : 0.514 4670.5 2335.2 ( 2 1.0) 4670.5 NEON fmul.2s (32bit x2) ns4 : 0.643 3734.4 1867.2 ( 2 0.8) 3734.4 NEON fadd.2s (32bit x2) ns4 : 0.386 6223.7 3111.8 ( 2 1.3) 6223.7 NEON fmla.2s (32bit x2) ns4 : 0.643 7470.0 1867.5 ( 4 0.8) 7470.0 NEON fmul.4s (32bit x4) ns4 : 0.642 7472.9 1868.2 ( 4 0.8) 7472.9 NEON fadd.4s (32bit x4) ns4 : 0.409 11735.6 2933.9 ( 4 1.3) 11735.6 NEON fmla.4s (32bit x4) ns4 : 0.643 14938.8 1867.3 ( 8 0.8) 14938.8 FPU fmul (32bit x1) n1 : 0.257 4671.0 4671.0 ( 1 2.0) 4671.0 FPU fadd (32bit x1) n1 : 0.141 8492.8 8492.8 ( 1 3.6) 8492.8 FPU fmadd (32bit x1) n1 : 2.570 933.9 466.9 ( 2 0.2) 933.9 NEON fmul.2s (32bit x2) n1 : 0.257 9340.9 4670.5 ( 2 2.0) 9340.9 NEON fadd.2s (32bit x2) n1 : 0.141 16986.1 8493.0 ( 2 3.6) 16986.1 NEON fmla.2s (32bit x2) n1 : 2.056 2334.8 583.7 ( 4 0.2) 2334.8 NEON fmul.4s (32bit x4) n1 : 0.514 9330.3 2332.6 ( 4 1.0) 9330.3 NEON fadd.4s (32bit x4) n1 : 0.275 17457.1 4364.3 ( 4 1.9) 17457.1 NEON fmla.4s (32bit x4) n1 : 2.056 4669.4 583.7 ( 8 0.2) 4669.4 NEON fmul.4s (32bit x4) n12 : 0.771 9341.0 2335.3 ( 4 1.0) 9341.0 NEON fadd.4s (32bit x4) n12 : 0.405 17791.8 4448.0 ( 4 1.9) 17791.8 NEON fmla.4s (32bit x4) n12 : 0.777 18521.2 2315.1 ( 8 1.0) 18521.2 Average : 0.595 9716.9 3595.5 ( 3 1.5) 9716.9 Highest : 0.141 18681.0 8493.0 ( 8 3.6) 18681.0 * FPU/NEON (double fp) TIME(s) MFLOPS MOPS FOP IPC max MFLOPS FPU fmul (64bit x1) n8 : 0.278 4313.5 4313.5 ( 1 1.8) 4313.5 FPU fadd (64bit x1) n8 : 0.154 7785.3 7785.3 ( 1 3.3) 7785.3 FPU fmadd (64bit x1) n8 : 0.385 6227.1 3113.6 ( 2 1.3) 6227.1 NEON fmul.2d (64bit x2) n8 : 0.514 4670.4 2335.2 ( 2 1.0) 4670.4 NEON fadd.2d (64bit x2) n8 : 0.275 8727.1 4363.6 ( 2 1.9) 8727.1 NEON fmla.2d (64bit x2) n8 : 0.520 9226.9 2306.7 ( 4 1.0) 9226.9 FPU fmul (64bit x1) ns4 : 0.771 1556.7 1556.7 ( 1 0.7) 1556.7 FPU fadd (64bit x1) ns4 : 0.385 3113.9 3113.9 ( 1 1.3) 3113.9 FPU fmadd (64bit x1) ns4 : 0.514 4670.6 2335.3 ( 2 1.0) 4670.6 NEON fmul.2d (64bit x2) ns4 : 0.771 3112.4 1556.2 ( 2 0.7) 3112.4 NEON fadd.2d (64bit x2) ns4 : 0.409 5868.7 2934.4 ( 2 1.3) 5868.7 NEON fmla.2d (64bit x2) ns4 : 0.771 6226.6 1556.6 ( 4 0.7) 6226.6 FPU fmul (64bit x1) n1 : 0.257 4661.0 4661.0 ( 1 2.0) 4661.0 FPU fadd (64bit x1) n1 : 0.154 7787.3 7787.3 ( 1 3.3) 7787.3 FPU fmadd (64bit x1) n1 : 3.084 778.2 389.1 ( 2 0.2) 778.2 NEON fmul.2d (64bit x2) n1 : 0.514 4667.0 2333.5 ( 2 1.0) 4667.0 NEON fadd.2d (64bit x2) n1 : 0.275 8726.1 4363.0 ( 2 1.9) 8726.1 NEON fmla.2d (64bit x2) n1 : 2.056 2334.9 583.7 ( 4 0.2) 2334.9 NEON fmul.2d (64bit x2) n12 : 0.771 4670.5 2335.3 ( 2 1.0) 4670.5 NEON fadd.2d (64bit x2) n12 : 0.405 8896.4 4448.2 ( 2 1.9) 8896.4 NEON fmla.2d (64bit x2) n12 : 0.777 9262.8 2315.7 ( 4 1.0) 9262.8 Average : 0.669 5584.9 3166.1 ( 2 1.4) 5584.9 Highest : 0.154 9262.8 7787.3 ( 4 3.3) 9262.8 * Matrix 4x4 TIME(s) MFLOPS MOPS FOP IPC max MFLOPS C++ code : 0.192 9316.9 9316.9 ( 1 4.0) 9316.9 NEON fmla.4s 128bit A : 0.181 9884.4 9884.4 ( 1 4.2) 9884.4 NEON fmla.4s 128bit B : 0.160 11189.4 11189.4 ( 1 4.8) 11189.4 Average : 0.178 10130.2 10130.2 ( 1 4.3) 10130.2 Highest : 0.160 11189.4 11189.4 ( 1 4.8) 11189.4 * FPU/NEON (single fp) multi-thread TIME(s) MFLOPS MOPS FOP IPC max MFLOPS FPU fmul (32bit x1) n8 : 0.289 8310.1 4155.1 ( 2 1.8) 8310.1 FPU fadd (32bit x1) n8 : 0.141 17003.7 8501.8 ( 2 3.6) 17003.7 FPU fmadd (32bit x1) n8 : 0.321 14958.0 3739.5 ( 4 1.6) 14958.0 NEON fmul.2s (32bit x2) n8 : 0.257 18702.1 4675.5 ( 4 2.0) 18702.1 NEON fadd.2s (32bit x2) n8 : 0.141 34006.9 8501.7 ( 4 3.6) 34006.9 NEON fmla.2s (32bit x2) n8 : 0.257 37406.9 4675.9 ( 8 2.0) 37406.9 NEON fmul.4s (32bit x4) n8 : 0.514 18694.8 2336.8 ( 8 1.0) 18694.8 NEON fadd.4s (32bit x4) n8 : 0.275 34934.6 4366.8 ( 8 1.9) 34934.6 NEON fmla.4s (32bit x4) n8 : 0.520 36945.7 2309.1 ( 16 1.0) 36945.7 FPU fmul (32bit x1) ns4 : 0.642 3737.5 1868.8 ( 2 0.8) 3737.5 FPU fadd (32bit x1) ns4 : 0.385 6230.9 3115.5 ( 2 1.3) 6230.9 FPU fmadd (32bit x1) ns4 : 0.513 9351.9 2338.0 ( 4 1.0) 9351.9 NEON fmul.2s (32bit x2) ns4 : 0.642 7481.5 1870.4 ( 4 0.8) 7481.5 NEON fadd.2s (32bit x2) ns4 : 0.385 12468.3 3117.1 ( 4 1.3) 12468.3 NEON fmla.2s (32bit x2) ns4 : 0.643 14938.0 1867.3 ( 8 0.8) 14938.0 NEON fmul.4s (32bit x4) ns4 : 0.642 14962.5 1870.3 ( 8 0.8) 14962.5 NEON fadd.4s (32bit x4) ns4 : 0.409 23500.5 2937.6 ( 8 1.3) 23500.5 NEON fmla.4s (32bit x4) ns4 : 0.642 29926.9 1870.4 ( 16 0.8) 29926.9 FPU fmul (32bit x1) n1 : 0.257 9351.7 4675.8 ( 2 2.0) 9351.7 FPU fadd (32bit x1) n1 : 0.141 17001.5 8500.8 ( 2 3.6) 17001.5 FPU fmadd (32bit x1) n1 : 2.567 1870.1 467.5 ( 4 0.2) 1870.1 NEON fmul.2s (32bit x2) n1 : 0.257 18704.8 4676.2 ( 4 2.0) 18704.8 NEON fadd.2s (32bit x2) n1 : 0.141 34007.3 8501.8 ( 4 3.6) 34007.3 NEON fmla.2s (32bit x2) n1 : 2.053 4675.8 584.5 ( 8 0.2) 4675.8 NEON fmul.4s (32bit x4) n1 : 0.513 18695.7 2337.0 ( 8 1.0) 18695.7 NEON fadd.4s (32bit x4) n1 : 0.275 34960.7 4370.1 ( 8 1.9) 34960.7 NEON fmla.4s (32bit x4) n1 : 2.053 9351.2 584.5 ( 16 0.2) 9351.2 NEON fmul.4s (32bit x4) n12 : 0.770 18699.6 2337.5 ( 8 1.0) 18699.6 NEON fadd.4s (32bit x4) n12 : 0.405 35569.9 4446.2 ( 8 1.9) 35569.9 NEON fmla.4s (32bit x4) n12 : 0.776 37094.3 2318.4 ( 16 1.0) 37094.3 Average : 0.594 19451.5 3597.3 ( 7 1.5) 19451.5 Highest : 0.141 37406.9 8501.8 ( 16 3.6) 37406.9 * FPU/NEON (double fp) multi-thread TIME(s) MFLOPS MOPS FOP IPC max MFLOPS FPU fmul (64bit x1) n8 : 0.285 8432.6 4216.3 ( 2 1.8) 8432.6 FPU fadd (64bit x1) n8 : 0.154 15589.2 7794.6 ( 2 3.3) 15589.2 FPU fmadd (64bit x1) n8 : 0.385 12469.0 3117.2 ( 4 1.3) 12469.0 NEON fmul.2d (64bit x2) n8 : 0.513 9352.0 2338.0 ( 4 1.0) 9352.0 NEON fadd.2d (64bit x2) n8 : 0.275 17474.9 4368.7 ( 4 1.9) 17474.9 NEON fmla.2d (64bit x2) n8 : 0.520 18473.3 2309.2 ( 8 1.0) 18473.3 FPU fmul (64bit x1) ns4 : 0.770 3117.4 1558.7 ( 2 0.7) 3117.4 FPU fadd (64bit x1) ns4 : 0.385 6233.7 3116.8 ( 2 1.3) 6233.7 FPU fmadd (64bit x1) ns4 : 0.513 9350.7 2337.7 ( 4 1.0) 9350.7 NEON fmul.2d (64bit x2) ns4 : 0.770 6235.2 1558.8 ( 4 0.7) 6235.2 NEON fadd.2d (64bit x2) ns4 : 0.408 11751.8 2937.9 ( 4 1.3) 11751.8 NEON fmla.2d (64bit x2) ns4 : 0.770 12465.5 1558.2 ( 8 0.7) 12465.5 FPU fmul (64bit x1) n1 : 0.257 9349.4 4674.7 ( 2 2.0) 9349.4 FPU fadd (64bit x1) n1 : 0.154 15584.4 7792.2 ( 2 3.3) 15584.4 FPU fmadd (64bit x1) n1 : 3.080 1558.4 389.6 ( 4 0.2) 1558.4 NEON fmul.2d (64bit x2) n1 : 0.513 9351.1 2337.8 ( 4 1.0) 9351.1 NEON fadd.2d (64bit x2) n1 : 0.275 17467.3 4366.8 ( 4 1.9) 17467.3 NEON fmla.2d (64bit x2) n1 : 2.056 4668.5 583.6 ( 8 0.2) 4668.5 NEON fmul.2d (64bit x2) n12 : 0.770 9352.7 2338.2 ( 4 1.0) 9352.7 NEON fadd.2d (64bit x2) n12 : 0.404 17812.1 4453.0 ( 4 1.9) 17812.1 NEON fmla.2d (64bit x2) n12 : 0.776 18549.1 2318.6 ( 8 1.0) 18549.1 Average : 0.668 11173.2 3165.1 ( 4 1.4) 11173.2 Highest : 0.154 18549.1 7794.6 ( 8 3.3) 18549.1 * Matrix 4x4 multi-thread TIME(s) MFLOPS MOPS FOP IPC max MFLOPS C++ code : 0.202 17703.0 8851.5 ( 2 3.8) 17703.0 NEON fmla.4s 128bit A : 0.181 19749.5 9874.7 ( 2 4.2) 19749.5 NEON fmla.4s 128bit B : 0.160 22370.6 11185.3 ( 2 4.8) 22370.6 Average : 0.181 19941.0 9970.5 ( 2 4.3) 19941.0 Highest : 0.160 22370.6 11185.3 ( 2 4.8) 22370.6 cpu0 2188800 307200 cpu1 2188800 307200 cpu2 2342400 307200 cpu3 2342400 307200 Processor : AArch64 Processor rev 1 (aarch64) processor : 0 BogoMIPS : 38.40 Features : fp asimd evtstrm aes pmull sha1 sha2 crc32 CPU implementer : 0x51 CPU architecture: 8 CPU variant : 0x2 CPU part : 0x201 CPU revision : 1 processor : 1 BogoMIPS : 38.40 Features : fp asimd evtstrm aes pmull sha1 sha2 crc32 CPU implementer : 0x51 CPU architecture: 8 CPU variant : 0x2 CPU part : 0x201 CPU revision : 1 processor : 2 BogoMIPS : 38.40 Features : fp asimd evtstrm aes pmull sha1 sha2 crc32 CPU implementer : 0x51 CPU architecture: 8 CPU variant : 0x2 CPU part : 0x205 CPU revision : 1 processor : 3 BogoMIPS : 38.40 Features : fp asimd evtstrm aes pmull sha1 sha2 crc32 CPU implementer : 0x51 CPU architecture: 8 CPU variant : 0x2 CPU part : 0x205 CPU revision : 1 Hardware : Qualcomm Technologies, Inc MSM8996pro Qualcomm Technologies, Inc MSM8996pro 2019/01/05 16:46:03
ZenFone AR Snapdragon 821 little core Kryo 2.18GHz x2 ARM64 (AArch64) Android 7.0
ARCH: ARMv8A 3 FPU: AArch64 NEON SingleT SP max: 12.599 GFLOPS SingleT DP max: 6.259 GFLOPS MultiT SP max: 25.304 GFLOPS MultiT DP max: 12.507 GFLOPS CPU core: 2 FPHP : no SIMDHP: no * FPU/NEON (single fp) TIME(s) MFLOPS MOPS FOP IPC max MFLOPS FPU fmul (32bit x1) n8 : 0.407 2947.1 2947.1 ( 1 1.3) 2947.1 FPU fadd (32bit x1) n8 : 0.209 5742.0 5742.0 ( 1 2.6) 5742.0 FPU fmadd (32bit x1) n8 : 0.476 5044.2 2522.1 ( 2 1.2) 5044.2 NEON fmul.2s (32bit x2) n8 : 0.380 6311.2 3155.6 ( 2 1.4) 6311.2 NEON fadd.2s (32bit x2) n8 : 0.210 11446.6 5723.3 ( 2 2.6) 11446.6 NEON fmla.2s (32bit x2) n8 : 0.381 12598.8 3149.7 ( 4 1.4) 12598.8 NEON fmul.4s (32bit x4) n8 : 0.765 6276.2 1569.1 ( 4 0.7) 6276.2 NEON fadd.4s (32bit x4) n8 : 0.409 11736.7 2934.2 ( 4 1.3) 11736.7 NEON fmla.4s (32bit x4) n8 : 0.771 12458.3 1557.3 ( 8 0.7) 12458.3 FPU fmul (32bit x1) ns4 : 0.951 1261.9 1261.9 ( 1 0.6) 1261.9 FPU fadd (32bit x1) ns4 : 0.571 2102.6 2102.6 ( 1 1.0) 2102.6 FPU fmadd (32bit x1) ns4 : 0.761 3153.2 1576.6 ( 2 0.7) 3153.2 NEON fmul.2s (32bit x2) ns4 : 0.951 2524.6 1262.3 ( 2 0.6) 2524.6 NEON fadd.2s (32bit x2) ns4 : 0.571 4201.4 2100.7 ( 2 1.0) 4201.4 NEON fmla.2s (32bit x2) ns4 : 0.953 5039.0 1259.8 ( 4 0.6) 5039.0 NEON fmul.4s (32bit x4) ns4 : 0.964 4978.3 1244.6 ( 4 0.6) 4978.3 NEON fadd.4s (32bit x4) ns4 : 0.607 7910.9 1977.7 ( 4 0.9) 7910.9 NEON fmla.4s (32bit x4) ns4 : 0.953 10077.9 1259.7 ( 8 0.6) 10077.9 FPU fmul (32bit x1) n1 : 0.381 3153.2 3153.2 ( 1 1.4) 3153.2 FPU fadd (32bit x1) n1 : 0.209 5731.4 5731.4 ( 1 2.6) 5731.4 FPU fmadd (32bit x1) n1 : 3.812 629.6 314.8 ( 2 0.1) 629.6 NEON fmul.2s (32bit x2) n1 : 0.381 6305.5 3152.8 ( 2 1.4) 6305.5 NEON fadd.2s (32bit x2) n1 : 0.210 11438.4 5719.2 ( 2 2.6) 11438.4 NEON fmla.2s (32bit x2) n1 : 3.046 1575.9 394.0 ( 4 0.2) 1575.9 NEON fmul.4s (32bit x4) n1 : 0.761 6308.5 1577.1 ( 4 0.7) 6308.5 NEON fadd.4s (32bit x4) n1 : 0.408 11771.3 2942.8 ( 4 1.3) 11771.3 NEON fmla.4s (32bit x4) n1 : 3.046 3151.2 393.9 ( 8 0.2) 3151.2 NEON fmul.4s (32bit x4) n12 : 1.144 6296.2 1574.0 ( 4 0.7) 6296.2 NEON fadd.4s (32bit x4) n12 : 0.599 12011.5 3002.9 ( 4 1.4) 12011.5 NEON fmla.4s (32bit x4) n12 : 1.151 12506.4 1563.3 ( 8 0.7) 12506.4 Average : 0.881 6556.3 2428.9 ( 3 1.1) 6556.3 Highest : 0.209 12598.8 5742.0 ( 8 2.6) 12598.8 * FPU/NEON (double fp) TIME(s) MFLOPS MOPS FOP IPC max MFLOPS FPU fmul (64bit x1) n8 : 0.402 2987.9 2987.9 ( 1 1.4) 2987.9 FPU fadd (64bit x1) n8 : 0.230 5218.2 5218.2 ( 1 2.4) 5218.2 FPU fmadd (64bit x1) n8 : 0.575 4172.6 2086.3 ( 2 1.0) 4172.6 NEON fmul.2d (64bit x2) n8 : 0.761 3154.9 1577.4 ( 2 0.7) 3154.9 NEON fadd.2d (64bit x2) n8 : 0.407 5894.4 2947.2 ( 2 1.3) 5894.4 NEON fmla.2d (64bit x2) n8 : 0.771 6223.1 1555.8 ( 4 0.7) 6223.1 FPU fmul (64bit x1) ns4 : 1.142 1051.0 1051.0 ( 1 0.5) 1051.0 FPU fadd (64bit x1) ns4 : 0.571 2101.8 2101.8 ( 1 1.0) 2101.8 FPU fmadd (64bit x1) ns4 : 0.762 3148.9 1574.5 ( 2 0.7) 3148.9 NEON fmul.2d (64bit x2) ns4 : 1.142 2102.4 1051.2 ( 2 0.5) 2102.4 NEON fadd.2d (64bit x2) ns4 : 0.605 3964.0 1982.0 ( 2 0.9) 3964.0 NEON fmla.2d (64bit x2) ns4 : 1.141 4206.5 1051.6 ( 4 0.5) 4206.5 FPU fmul (64bit x1) n1 : 0.383 3129.6 3129.6 ( 1 1.4) 3129.6 FPU fadd (64bit x1) n1 : 0.232 5163.4 5163.4 ( 1 2.4) 5163.4 FPU fmadd (64bit x1) n1 : 4.578 524.2 262.1 ( 2 0.1) 524.2 NEON fmul.2d (64bit x2) n1 : 0.762 3150.2 1575.1 ( 2 0.7) 3150.2 NEON fadd.2d (64bit x2) n1 : 0.407 5895.7 2947.9 ( 2 1.3) 5895.7 NEON fmla.2d (64bit x2) n1 : 3.168 1515.2 378.8 ( 4 0.2) 1515.2 NEON fmul.2d (64bit x2) n12 : 1.143 3150.6 1575.3 ( 2 0.7) 3150.6 NEON fadd.2d (64bit x2) n12 : 0.599 6006.9 3003.4 ( 2 1.4) 6006.9 NEON fmla.2d (64bit x2) n12 : 1.150 6259.4 1564.8 ( 4 0.7) 6259.4 Average : 0.997 3762.9 2132.6 ( 2 1.0) 3762.9 Highest : 0.230 6259.4 5218.2 ( 4 2.4) 6259.4 * Matrix 4x4 TIME(s) MFLOPS MOPS FOP IPC max MFLOPS C++ code : 0.277 6468.7 6468.7 ( 1 3.0) 6468.7 NEON fmla.4s 128bit A : 0.268 6681.9 6681.9 ( 1 3.1) 6681.9 NEON fmla.4s 128bit B : 0.237 7550.2 7550.2 ( 1 3.4) 7550.2 Average : 0.261 6900.3 6900.3 ( 1 3.2) 6900.3 Highest : 0.237 7550.2 7550.2 ( 1 3.4) 7550.2 * FPU/NEON (single fp) multi-thread TIME(s) MFLOPS MOPS FOP IPC max MFLOPS FPU fmul (32bit x1) n8 : 0.396 6065.9 3033.0 ( 2 1.4) 6065.9 FPU fadd (32bit x1) n8 : 0.214 11231.7 5615.8 ( 2 2.6) 11231.7 FPU fmadd (32bit x1) n8 : 0.475 10108.5 2527.1 ( 4 1.2) 10108.5 NEON fmul.2s (32bit x2) n8 : 0.380 12635.4 3158.9 ( 4 1.4) 12635.4 NEON fadd.2s (32bit x2) n8 : 0.209 22995.6 5748.9 ( 4 2.6) 22995.6 NEON fmla.2s (32bit x2) n8 : 0.379 25303.8 3163.0 ( 8 1.4) 25303.8 NEON fmul.4s (32bit x4) n8 : 0.761 12608.9 1576.1 ( 8 0.7) 12608.9 NEON fadd.4s (32bit x4) n8 : 0.409 23474.8 2934.3 ( 8 1.3) 23474.8 NEON fmla.4s (32bit x4) n8 : 0.779 24650.8 1540.7 ( 16 0.7) 24650.8 FPU fmul (32bit x1) ns4 : 0.951 2523.3 1261.6 ( 2 0.6) 2523.3 FPU fadd (32bit x1) ns4 : 0.571 4205.8 2102.9 ( 2 1.0) 4205.8 FPU fmadd (32bit x1) ns4 : 0.763 6289.8 1572.5 ( 4 0.7) 6289.8 NEON fmul.2s (32bit x2) ns4 : 0.954 5029.4 1257.4 ( 4 0.6) 5029.4 NEON fadd.2s (32bit x2) ns4 : 0.574 8359.0 2089.8 ( 4 1.0) 8359.0 NEON fmla.2s (32bit x2) ns4 : 0.952 10082.8 1260.3 ( 8 0.6) 10082.8 NEON fmul.4s (32bit x4) ns4 : 0.957 10031.9 1254.0 ( 8 0.6) 10031.9 NEON fadd.4s (32bit x4) ns4 : 0.602 15951.3 1993.9 ( 8 0.9) 15951.3 NEON fmla.4s (32bit x4) ns4 : 0.946 20305.1 1269.1 ( 16 0.6) 20305.1 FPU fmul (32bit x1) n1 : 0.379 6331.5 3165.7 ( 2 1.4) 6331.5 FPU fadd (32bit x1) n1 : 0.211 11398.3 5699.2 ( 2 2.6) 11398.3 FPU fmadd (32bit x1) n1 : 3.807 1261.0 315.2 ( 4 0.1) 1261.0 NEON fmul.2s (32bit x2) n1 : 0.379 12652.5 3163.1 ( 4 1.4) 12652.5 NEON fadd.2s (32bit x2) n1 : 0.209 23004.2 5751.0 ( 4 2.6) 23004.2 NEON fmla.2s (32bit x2) n1 : 3.044 3153.5 394.2 ( 8 0.2) 3153.5 NEON fmul.4s (32bit x4) n1 : 0.757 12680.9 1585.1 ( 8 0.7) 12680.9 NEON fadd.4s (32bit x4) n1 : 0.407 23604.5 2950.6 ( 8 1.3) 23604.5 NEON fmla.4s (32bit x4) n1 : 3.043 6310.0 394.4 ( 16 0.2) 6310.0 NEON fmul.4s (32bit x4) n12 : 1.145 12575.9 1572.0 ( 8 0.7) 12575.9 NEON fadd.4s (32bit x4) n12 : 0.603 23861.3 2982.7 ( 8 1.4) 23861.3 NEON fmla.4s (32bit x4) n12 : 1.147 25101.3 1568.8 ( 16 0.7) 25101.3 Average : 0.880 13126.3 2430.0 ( 7 1.1) 13126.3 Highest : 0.209 25303.8 5751.0 ( 16 2.6) 25303.8 * FPU/NEON (double fp) multi-thread TIME(s) MFLOPS MOPS FOP IPC max MFLOPS FPU fmul (64bit x1) n8 : 0.414 5800.9 2900.4 ( 2 1.3) 5800.9 FPU fadd (64bit x1) n8 : 0.230 10431.7 5215.9 ( 2 2.4) 10431.7 FPU fmadd (64bit x1) n8 : 0.573 8371.2 2092.8 ( 4 1.0) 8371.2 NEON fmul.2d (64bit x2) n8 : 0.759 6321.9 1580.5 ( 4 0.7) 6321.9 NEON fadd.2d (64bit x2) n8 : 0.407 11797.4 2949.4 ( 4 1.3) 11797.4 NEON fmla.2d (64bit x2) n8 : 0.769 12475.7 1559.5 ( 8 0.7) 12475.7 FPU fmul (64bit x1) ns4 : 1.144 2097.2 1048.6 ( 2 0.5) 2097.2 FPU fadd (64bit x1) ns4 : 0.570 4210.9 2105.4 ( 2 1.0) 4210.9 FPU fmadd (64bit x1) ns4 : 0.764 6279.5 1569.9 ( 4 0.7) 6279.5 NEON fmul.2d (64bit x2) ns4 : 1.139 4212.9 1053.2 ( 4 0.5) 4212.9 NEON fadd.2d (64bit x2) ns4 : 0.606 7926.0 1981.5 ( 4 0.9) 7926.0 NEON fmla.2d (64bit x2) ns4 : 1.140 8424.3 1053.0 ( 8 0.5) 8424.3 FPU fmul (64bit x1) n1 : 0.380 6321.8 3160.9 ( 2 1.4) 6321.8 FPU fadd (64bit x1) n1 : 0.229 10484.1 5242.0 ( 2 2.4) 10484.1 FPU fmadd (64bit x1) n1 : 4.578 1048.6 262.1 ( 4 0.1) 1048.6 NEON fmul.2d (64bit x2) n1 : 0.764 6281.5 1570.4 ( 4 0.7) 6281.5 NEON fadd.2d (64bit x2) n1 : 0.407 11799.8 2949.9 ( 4 1.3) 11799.8 NEON fmla.2d (64bit x2) n1 : 3.050 3147.4 393.4 ( 8 0.2) 3147.4 NEON fmul.2d (64bit x2) n12 : 1.141 6308.4 1577.1 ( 4 0.7) 6308.4 NEON fadd.2d (64bit x2) n12 : 0.600 12008.4 3002.1 ( 4 1.4) 12008.4 NEON fmla.2d (64bit x2) n12 : 1.151 12507.4 1563.4 ( 8 0.7) 12507.4 Average : 0.991 7536.0 2134.8 ( 4 1.0) 7536.0 Highest : 0.229 12507.4 5242.0 ( 8 2.4) 12507.4 * Matrix 4x4 multi-thread TIME(s) MFLOPS MOPS FOP IPC max MFLOPS C++ code : 0.292 12273.5 6136.8 ( 2 2.8) 12273.5 NEON fmla.4s 128bit A : 0.269 13317.3 6658.6 ( 2 3.0) 13317.3 NEON fmla.4s 128bit B : 0.237 15105.5 7552.7 ( 2 3.5) 15105.5 Average : 0.266 13565.4 6782.7 ( 2 3.1) 13565.4 Highest : 0.237 15105.5 7552.7 ( 2 3.5) 15105.5 cpu0 2188800 307200 cpu1 2188800 307200 cpu2 2342400 307200 cpu3 2342400 307200 Processor : AArch64 Processor rev 1 (aarch64) processor : 0 BogoMIPS : 38.40 Features : fp asimd evtstrm aes pmull sha1 sha2 crc32 CPU implementer : 0x51 CPU architecture: 8 CPU variant : 0x2 CPU part : 0x201 CPU revision : 1 processor : 1 BogoMIPS : 38.40 Features : fp asimd evtstrm aes pmull sha1 sha2 crc32 CPU implementer : 0x51 CPU architecture: 8 CPU variant : 0x2 CPU part : 0x201 CPU revision : 1 processor : 2 BogoMIPS : 38.40 Features : fp asimd evtstrm aes pmull sha1 sha2 crc32 CPU implementer : 0x51 CPU architecture: 8 CPU variant : 0x2 CPU part : 0x205 CPU revision : 1 processor : 3 BogoMIPS : 38.40 Features : fp asimd evtstrm aes pmull sha1 sha2 crc32 CPU implementer : 0x51 CPU architecture: 8 CPU variant : 0x2 CPU part : 0x205 CPU revision : 1 Hardware : Qualcomm Technologies, Inc MSM8996pro Qualcomm Technologies, Inc MSM8996pro 2019/01/05 16:44:55
Qualcomm Kryo 280 (Cortex-A73 + A53) (ARMv8A AArch64 arm64) FPU+ASIMD
Essential Phone PH-1 Snapdragon 835 Kryo 280 2.45GHz x4 + 1.9GHz x4 ARM64 (AArch64) Android 9.0
Date: 20200810 123729 ARCH: ARMv8A AArch64 FPU : ASIMD(AArch64 NEON) Name: Qualcomm Technologies, Inc MSM8998 835 EssentialPhone CPU Thread: 8 CPU Core : 8 CPU Group : 2 Group 0: Thread= 4 Clock=1.900800 GHz (mask:f) Group 1: Thread= 4 Clock=2.457600 GHz (mask:f0) NEON : yes FMA : yes FPHP : no SIMDHP : no DotProd: no Total: SingleThread HP max: - SingleThread SP max: 19.547 GFLOPS SingleThread DP max: 9.776 GFLOPS MultiThread HP max: - MultiThread SP max: 134.506 GFLOPS MultiThread DP max: 67.276 GFLOPS Group 0: Thread=4 Clock=1.900800 GHz (mask:f) SingleThread HP max: - SingleThread SP max: 14.783 GFLOPS SingleThread DP max: 7.401 GFLOPS MultiThread HP max: - MultiThread SP max: 59.194 GFLOPS MultiThread DP max: 29.625 GFLOPS Group 1: Thread=4 Clock=2.457600 GHz (mask:f0) SingleThread HP max: - SingleThread SP max: 19.547 GFLOPS SingleThread DP max: 9.776 GFLOPS MultiThread HP max: - MultiThread SP max: 75.312 GFLOPS MultiThread DP max: 37.650 GFLOPS * Group 0: Thread=1 Clock=1.900800 GHz (mask:f) * FPU/NEON (SP fp) TIME(s) MFLOPS MOPS FOP IPC FPU fmul (32bit x1) n8 : 0.335 3407.9 3407.9 ( 1.0 1.8) FPU fadd (32bit x1) n8 : 0.319 3577.4 3577.4 ( 1.0 1.9) FPU fmadd (32bit x1) n8 : 0.609 3747.1 1873.5 ( 2.0 1.0) NEON fmul.2s (32bit x2) n8 : 0.318 7171.4 3585.7 ( 2.0 1.9) NEON fadd.2s (32bit x2) n8 : 0.318 7163.2 3581.6 ( 2.0 1.9) NEON fmla.2s (32bit x2) n8 : 0.318 14338.8 3584.7 ( 4.0 1.9) NEON fmul.4s (32bit x4) n8 : 0.622 7332.1 1833.0 ( 4.0 1.0) NEON fadd.4s (32bit x4) n8 : 0.623 7324.3 1831.1 ( 4.0 1.0) NEON fmla.4s (32bit x4) n8 : 0.621 14685.5 1835.7 ( 8.0 1.0) FPU fmul (32bit x1) ns4 : 0.606 1882.1 1882.1 ( 1.0 1.0) FPU fadd (32bit x1) ns4 : 0.607 1879.2 1879.2 ( 1.0 1.0) FPU fmadd (32bit x1) ns4 : 0.607 3755.0 1877.5 ( 2.0 1.0) NEON fmul.2s (32bit x2) ns4 : 0.608 3753.1 1876.5 ( 2.0 1.0) NEON fadd.2s (32bit x2) ns4 : 0.607 3757.4 1878.7 ( 2.0 1.0) NEON fmla.2s (32bit x2) ns4 : 1.225 3724.4 931.1 ( 4.0 0.5) NEON fmul.4s (32bit x4) ns4 : 0.622 7329.3 1832.3 ( 4.0 1.0) NEON fadd.4s (32bit x4) ns4 : 0.622 7330.0 1832.5 ( 4.0 1.0) NEON fmla.4s (32bit x4) ns4 : 1.215 7511.6 938.9 ( 8.0 0.5) FPU fmul (32bit x1) n1 : 0.607 1877.9 1877.9 ( 1.0 1.0) FPU fadd (32bit x1) n1 : 0.607 1879.1 1879.1 ( 1.0 1.0) FPU fmadd (32bit x1) n1 : 4.855 469.8 234.9 ( 2.0 0.1) NEON fmul.2s (32bit x2) n1 : 0.607 3757.5 1878.8 ( 2.0 1.0) NEON fadd.2s (32bit x2) n1 : 0.607 3756.5 1878.3 ( 2.0 1.0) NEON fmla.2s (32bit x2) n1 : 2.428 1878.8 469.7 ( 4.0 0.2) NEON fmul.4s (32bit x4) n1 : 0.623 7326.7 1831.7 ( 4.0 1.0) NEON fadd.4s (32bit x4) n1 : 0.623 7327.1 1831.8 ( 4.0 1.0) NEON fmla.4s (32bit x4) n1 : 2.429 3756.8 469.6 ( 8.0 0.2) NEON fmul.4s (32bit x4) n12 : 0.926 7392.2 1848.0 ( 4.0 1.0) NEON fadd.4s (32bit x4) n12 : 0.926 7390.4 1847.6 ( 4.0 1.0) NEON fmla.4s (32bit x4) n12 : 0.926 14772.2 1846.5 ( 8.0 1.0) Average : 0.899 5708.5 1931.1 ( 3.3 1.0) Highest : 0.318 14772.2 3585.7 ( 8.0 1.9) * Group 0: Thread=1 Clock=1.900800 GHz (mask:f) * FPU/NEON (DP fp) TIME(s) MFLOPS MOPS FOP IPC FPU fmul (64bit x1) n8 : 0.318 3588.3 3588.3 ( 1.0 1.9) FPU fadd (64bit x1) n8 : 0.333 3420.3 3420.3 ( 1.0 1.8) FPU fmadd (64bit x1) n8 : 0.615 3709.5 1854.8 ( 2.0 1.0) NEON fmul.2d (64bit x2) n8 : 0.622 3668.2 1834.1 ( 2.0 1.0) NEON fadd.2d (64bit x2) n8 : 0.622 3665.6 1832.8 ( 2.0 1.0) NEON fmla.2d (64bit x2) n8 : 0.623 7324.9 1831.2 ( 4.0 1.0) FPU fmul (64bit x1) ns4 : 0.607 1879.1 1879.1 ( 1.0 1.0) FPU fadd (64bit x1) ns4 : 0.607 1878.3 1878.3 ( 1.0 1.0) FPU fmadd (64bit x1) ns4 : 0.684 3335.8 1667.9 ( 2.0 0.9) NEON fmul.2d (64bit x2) ns4 : 0.623 3661.7 1830.8 ( 2.0 1.0) NEON fadd.2d (64bit x2) ns4 : 0.625 3651.3 1825.7 ( 2.0 1.0) NEON fmla.2d (64bit x2) ns4 : 1.213 3761.7 940.4 ( 4.0 0.5) FPU fmul (64bit x1) n1 : 0.606 1880.8 1880.8 ( 1.0 1.0) FPU fadd (64bit x1) n1 : 0.607 1877.3 1877.3 ( 1.0 1.0) FPU fmadd (64bit x1) n1 : 4.851 470.2 235.1 ( 2.0 0.1) NEON fmul.2d (64bit x2) n1 : 0.621 3671.2 1835.6 ( 2.0 1.0) NEON fadd.2d (64bit x2) n1 : 0.621 3671.2 1835.6 ( 2.0 1.0) NEON fmla.2d (64bit x2) n1 : 2.425 1881.0 470.2 ( 4.0 0.2) NEON fmul.2d (64bit x2) n12 : 0.926 3696.1 1848.1 ( 2.0 1.0) NEON fadd.2d (64bit x2) n12 : 0.926 3695.1 1847.5 ( 2.0 1.0) NEON fmla.2d (64bit x2) n12 : 0.925 7398.4 1849.6 ( 4.0 1.0) Average : 0.952 3418.4 1812.5 ( 2.1 1.0) Highest : 0.318 7398.4 3588.3 ( 4.0 1.9) * Group 0: Thread=4 Clock=1.900800 GHz (mask:f) * FPU/NEON (SP fp) multi-thread TIME(s) MFLOPS MOPS FOP IPC FPU fmul (32bit x1) n8 : 0.334 13666.0 3416.5 ( 4.0 1.8) FPU fadd (32bit x1) n8 : 0.320 14246.0 3561.5 ( 4.0 1.9) FPU fmadd (32bit x1) n8 : 0.606 15061.9 1882.7 ( 8.0 1.0) NEON fmul.2s (32bit x2) n8 : 0.319 28609.4 3576.2 ( 8.0 1.9) NEON fadd.2s (32bit x2) n8 : 0.318 28688.6 3586.1 ( 8.0 1.9) NEON fmla.2s (32bit x2) n8 : 0.318 57306.2 3581.6 ( 16.0 1.9) NEON fmul.4s (32bit x4) n8 : 0.623 29292.0 1830.8 ( 16.0 1.0) NEON fadd.4s (32bit x4) n8 : 0.623 29296.3 1831.0 ( 16.0 1.0) NEON fmla.4s (32bit x4) n8 : 0.622 58721.2 1835.0 ( 32.0 1.0) FPU fmul (32bit x1) ns4 : 0.607 7515.9 1879.0 ( 4.0 1.0) FPU fadd (32bit x1) ns4 : 0.607 7521.4 1880.3 ( 4.0 1.0) FPU fmadd (32bit x1) ns4 : 0.609 14992.5 1874.1 ( 8.0 1.0) NEON fmul.2s (32bit x2) ns4 : 0.606 15061.0 1882.6 ( 8.0 1.0) NEON fadd.2s (32bit x2) ns4 : 0.607 15034.9 1879.4 ( 8.0 1.0) NEON fmla.2s (32bit x2) ns4 : 1.227 14876.2 929.8 ( 16.0 0.5) NEON fmul.4s (32bit x4) ns4 : 0.622 29354.4 1834.7 ( 16.0 1.0) NEON fadd.4s (32bit x4) ns4 : 0.621 29381.6 1836.3 ( 16.0 1.0) NEON fmla.4s (32bit x4) ns4 : 1.214 30067.5 939.6 ( 32.0 0.5) FPU fmul (32bit x1) n1 : 0.609 7496.6 1874.2 ( 4.0 1.0) FPU fadd (32bit x1) n1 : 0.621 7340.6 1835.2 ( 4.0 1.0) FPU fmadd (32bit x1) n1 : 4.855 1879.1 234.9 ( 8.0 0.1) NEON fmul.2s (32bit x2) n1 : 0.608 15003.8 1875.5 ( 8.0 1.0) NEON fadd.2s (32bit x2) n1 : 0.607 15024.3 1878.0 ( 8.0 1.0) NEON fmla.2s (32bit x2) n1 : 2.425 7523.4 470.2 ( 16.0 0.2) NEON fmul.4s (32bit x4) n1 : 0.621 29364.2 1835.3 ( 16.0 1.0) NEON fadd.4s (32bit x4) n1 : 0.623 29273.6 1829.6 ( 16.0 1.0) NEON fmla.4s (32bit x4) n1 : 2.431 15015.4 469.2 ( 32.0 0.2) NEON fmul.4s (32bit x4) n12 : 0.925 29578.9 1848.7 ( 16.0 1.0) NEON fadd.4s (32bit x4) n12 : 0.925 29578.3 1848.6 ( 16.0 1.0) NEON fmla.4s (32bit x4) n12 : 0.927 59069.6 1845.9 ( 32.0 1.0) Average : 0.899 22828.0 1929.4 ( 13.3 1.0) Highest : 0.318 59069.6 3586.1 ( 32.0 1.9) * Group 0: Thread=4 Clock=1.900800 GHz (mask:f) * FPU/NEON (DP fp) multi-thread TIME(s) MFLOPS MOPS FOP IPC FPU fmul (64bit x1) n8 : 0.321 14232.9 3558.2 ( 4.0 1.9) FPU fadd (64bit x1) n8 : 0.333 13683.0 3420.8 ( 4.0 1.8) FPU fmadd (64bit x1) n8 : 0.614 14859.9 1857.5 ( 8.0 1.0) NEON fmul.2d (64bit x2) n8 : 0.622 14665.8 1833.2 ( 8.0 1.0) NEON fadd.2d (64bit x2) n8 : 0.622 14673.4 1834.2 ( 8.0 1.0) NEON fmla.2d (64bit x2) n8 : 0.623 29311.8 1832.0 ( 16.0 1.0) FPU fmul (64bit x1) ns4 : 0.618 7378.3 1844.6 ( 4.0 1.0) FPU fadd (64bit x1) ns4 : 0.608 7505.6 1876.4 ( 4.0 1.0) FPU fmadd (64bit x1) ns4 : 0.685 13321.0 1665.1 ( 8.0 0.9) NEON fmul.2d (64bit x2) ns4 : 0.623 14653.8 1831.7 ( 8.0 1.0) NEON fadd.2d (64bit x2) ns4 : 0.623 14636.3 1829.5 ( 8.0 1.0) NEON fmla.2d (64bit x2) ns4 : 1.214 15033.2 939.6 ( 16.0 0.5) FPU fmul (64bit x1) n1 : 0.607 7518.1 1879.5 ( 4.0 1.0) FPU fadd (64bit x1) n1 : 0.608 7508.2 1877.0 ( 4.0 1.0) FPU fmadd (64bit x1) n1 : 4.862 1876.7 234.6 ( 8.0 0.1) NEON fmul.2d (64bit x2) n1 : 0.625 14589.9 1823.7 ( 8.0 1.0) NEON fadd.2d (64bit x2) n1 : 0.621 14682.3 1835.3 ( 8.0 1.0) NEON fmla.2d (64bit x2) n1 : 2.427 7517.2 469.8 ( 16.0 0.2) NEON fmul.2d (64bit x2) n12 : 0.925 14790.9 1848.9 ( 8.0 1.0) NEON fadd.2d (64bit x2) n12 : 0.937 14598.7 1824.8 ( 8.0 1.0) NEON fmla.2d (64bit x2) n12 : 0.924 29625.1 1851.6 ( 16.0 1.0) Average : 0.954 13650.6 1808.0 ( 8.4 1.0) Highest : 0.321 29625.1 3558.2 ( 16.0 1.9) * Group 1: Thread=1 Clock=2.457600 GHz (mask:f0) * FPU/NEON (SP fp) TIME(s) MFLOPS MOPS FOP IPC FPU fmul (32bit x1) n8 : 0.317 4649.7 4649.7 ( 1.0 1.9) FPU fadd (32bit x1) n8 : 0.317 4650.9 4650.9 ( 1.0 1.9) FPU fmadd (32bit x1) n8 : 0.604 4883.4 2441.7 ( 2.0 1.0) NEON fmul.2s (32bit x2) n8 : 0.318 9277.6 4638.8 ( 2.0 1.9) NEON fadd.2s (32bit x2) n8 : 0.317 9308.3 4654.2 ( 2.0 1.9) NEON fmla.2s (32bit x2) n8 : 0.317 18615.9 4654.0 ( 4.0 1.9) NEON fmul.4s (32bit x4) n8 : 0.603 9773.7 2443.4 ( 4.0 1.0) NEON fadd.4s (32bit x4) n8 : 0.604 9772.4 2443.1 ( 4.0 1.0) NEON fmla.4s (32bit x4) n8 : 0.604 19545.9 2443.2 ( 8.0 1.0) FPU fmul (32bit x1) ns4 : 0.603 2443.4 2443.4 ( 1.0 1.0) FPU fadd (32bit x1) ns4 : 0.605 2438.0 2438.0 ( 1.0 1.0) FPU fmadd (32bit x1) ns4 : 0.754 3909.5 1954.8 ( 2.0 0.8) NEON fmul.2s (32bit x2) ns4 : 0.604 4885.9 2442.9 ( 2.0 1.0) NEON fadd.2s (32bit x2) ns4 : 0.603 4887.2 2443.6 ( 2.0 1.0) NEON fmla.2s (32bit x2) ns4 : 1.057 5578.7 1394.7 ( 4.0 0.6) NEON fmul.4s (32bit x4) ns4 : 0.604 9771.5 2442.9 ( 4.0 1.0) NEON fadd.4s (32bit x4) ns4 : 0.604 9771.6 2442.9 ( 4.0 1.0) NEON fmla.4s (32bit x4) ns4 : 1.057 11160.5 1395.1 ( 8.0 0.6) FPU fmul (32bit x1) n1 : 0.317 4653.7 4653.7 ( 1.0 1.9) FPU fadd (32bit x1) n1 : 0.317 4653.3 4653.3 ( 1.0 1.9) FPU fmadd (32bit x1) n1 : 4.225 698.0 349.0 ( 2.0 0.1) NEON fmul.2s (32bit x2) n1 : 0.317 9311.6 4655.8 ( 2.0 1.9) NEON fadd.2s (32bit x2) n1 : 0.317 9309.8 4654.9 ( 2.0 1.9) NEON fmla.2s (32bit x2) n1 : 1.810 3258.4 814.6 ( 4.0 0.3) NEON fmul.4s (32bit x4) n1 : 0.604 9772.2 2443.1 ( 4.0 1.0) NEON fadd.4s (32bit x4) n1 : 0.604 9770.7 2442.7 ( 4.0 1.0) NEON fmla.4s (32bit x4) n1 : 1.811 6514.2 814.3 ( 8.0 0.3) NEON fmul.4s (32bit x4) n12 : 0.905 9775.3 2443.8 ( 4.0 1.0) NEON fadd.4s (32bit x4) n12 : 0.905 9775.1 2443.8 ( 4.0 1.0) NEON fmla.4s (32bit x4) n12 : 0.905 19547.0 2443.4 ( 8.0 1.0) Average : 0.784 8078.8 2841.0 ( 3.3 1.2) Highest : 0.317 19547.0 4655.8 ( 8.0 1.9) * Group 1: Thread=1 Clock=2.457600 GHz (mask:f0) * FPU/NEON (DP fp) TIME(s) MFLOPS MOPS FOP IPC FPU fmul (64bit x1) n8 : 0.317 4650.1 4650.1 ( 1.0 1.9) FPU fadd (64bit x1) n8 : 0.317 4650.3 4650.3 ( 1.0 1.9) FPU fmadd (64bit x1) n8 : 0.604 4885.3 2442.6 ( 2.0 1.0) NEON fmul.2d (64bit x2) n8 : 0.603 4887.2 2443.6 ( 2.0 1.0) NEON fadd.2d (64bit x2) n8 : 0.603 4887.4 2443.7 ( 2.0 1.0) NEON fmla.2d (64bit x2) n8 : 0.603 9774.2 2443.5 ( 4.0 1.0) FPU fmul (64bit x1) ns4 : 0.603 2443.8 2443.8 ( 1.0 1.0) FPU fadd (64bit x1) ns4 : 0.603 2443.4 2443.4 ( 1.0 1.0) FPU fmadd (64bit x1) ns4 : 0.531 5553.1 2776.6 ( 2.0 1.1) NEON fmul.2d (64bit x2) ns4 : 0.603 4886.9 2443.4 ( 2.0 1.0) NEON fadd.2d (64bit x2) ns4 : 0.603 4886.7 2443.4 ( 2.0 1.0) NEON fmla.2d (64bit x2) ns4 : 1.056 5585.0 1396.3 ( 4.0 0.6) FPU fmul (64bit x1) n1 : 0.317 4654.4 4654.4 ( 1.0 1.9) FPU fadd (64bit x1) n1 : 0.317 4653.6 4653.6 ( 1.0 1.9) FPU fmadd (64bit x1) n1 : 4.224 698.1 349.1 ( 2.0 0.1) NEON fmul.2d (64bit x2) n1 : 0.603 4886.7 2443.4 ( 2.0 1.0) NEON fadd.2d (64bit x2) n1 : 0.603 4887.1 2443.6 ( 2.0 1.0) NEON fmla.2d (64bit x2) n1 : 1.810 3258.0 814.5 ( 4.0 0.3) NEON fmul.2d (64bit x2) n12 : 0.905 4887.6 2443.8 ( 2.0 1.0) NEON fadd.2d (64bit x2) n12 : 0.905 4888.0 2444.0 ( 2.0 1.0) NEON fmla.2d (64bit x2) n12 : 0.905 9775.8 2444.0 ( 4.0 1.0) Average : 0.840 4863.0 2652.9 ( 2.1 1.1) Highest : 0.317 9775.8 4654.4 ( 4.0 1.9) * Group 1: Thread=4 Clock=2.457600 GHz (mask:f0) * FPU/NEON (SP fp) multi-thread TIME(s) MFLOPS MOPS FOP IPC FPU fmul (32bit x1) n8 : 0.335 17600.7 4400.2 ( 4.0 1.8) FPU fadd (32bit x1) n8 : 0.329 17915.7 4478.9 ( 4.0 1.8) FPU fmadd (32bit x1) n8 : 0.627 18811.0 2351.4 ( 8.0 1.0) NEON fmul.2s (32bit x2) n8 : 0.329 35832.1 4479.0 ( 8.0 1.8) NEON fadd.2s (32bit x2) n8 : 0.329 35831.5 4478.9 ( 8.0 1.8) NEON fmla.2s (32bit x2) n8 : 0.329 71648.0 4478.0 ( 16.0 1.8) NEON fmul.4s (32bit x4) n8 : 0.627 37622.6 2351.4 ( 16.0 1.0) NEON fadd.4s (32bit x4) n8 : 0.627 37624.2 2351.5 ( 16.0 1.0) NEON fmla.4s (32bit x4) n8 : 0.627 75249.0 2351.5 ( 32.0 1.0) FPU fmul (32bit x1) ns4 : 0.627 9406.6 2351.7 ( 4.0 1.0) FPU fadd (32bit x1) ns4 : 0.627 9406.1 2351.5 ( 4.0 1.0) FPU fmadd (32bit x1) ns4 : 0.784 15047.0 1880.9 ( 8.0 0.8) NEON fmul.2s (32bit x2) ns4 : 0.627 18812.7 2351.6 ( 8.0 1.0) NEON fadd.2s (32bit x2) ns4 : 0.627 18811.6 2351.4 ( 8.0 1.0) NEON fmla.2s (32bit x2) ns4 : 1.097 21498.8 1343.7 ( 16.0 0.5) NEON fmul.4s (32bit x4) ns4 : 0.627 37622.6 2351.4 ( 16.0 1.0) NEON fadd.4s (32bit x4) ns4 : 0.627 37623.8 2351.5 ( 16.0 1.0) NEON fmla.4s (32bit x4) ns4 : 1.097 42998.4 1343.7 ( 32.0 0.5) FPU fmul (32bit x1) n1 : 0.329 17914.3 4478.6 ( 4.0 1.8) FPU fadd (32bit x1) n1 : 0.329 17914.5 4478.6 ( 4.0 1.8) FPU fmadd (32bit x1) n1 : 4.390 2687.4 335.9 ( 8.0 0.1) NEON fmul.2s (32bit x2) n1 : 0.329 35829.5 4478.7 ( 8.0 1.8) NEON fadd.2s (32bit x2) n1 : 0.329 35830.3 4478.8 ( 8.0 1.8) NEON fmla.2s (32bit x2) n1 : 1.881 12541.3 783.8 ( 16.0 0.3) NEON fmul.4s (32bit x4) n1 : 0.627 37625.7 2351.6 ( 16.0 1.0) NEON fadd.4s (32bit x4) n1 : 0.627 37623.9 2351.5 ( 16.0 1.0) NEON fmla.4s (32bit x4) n1 : 1.881 25082.9 783.8 ( 32.0 0.3) NEON fmul.4s (32bit x4) n12 : 0.941 37622.9 2351.4 ( 16.0 1.0) NEON fadd.4s (32bit x4) n12 : 0.941 37622.0 2351.4 ( 16.0 1.0) NEON fmla.4s (32bit x4) n12 : 0.940 75312.2 2353.5 ( 32.0 1.0) Average : 0.815 31099.0 2732.5 ( 13.3 1.1) Highest : 0.329 75312.2 4479.0 ( 32.0 1.8) * Group 1: Thread=4 Clock=2.457600 GHz (mask:f0) * FPU/NEON (DP fp) multi-thread TIME(s) MFLOPS MOPS FOP IPC FPU fmul (64bit x1) n8 : 0.329 17914.1 4478.5 ( 4.0 1.8) FPU fadd (64bit x1) n8 : 0.329 17915.2 4478.8 ( 4.0 1.8) FPU fmadd (64bit x1) n8 : 0.627 18811.1 2351.4 ( 8.0 1.0) NEON fmul.2d (64bit x2) n8 : 0.627 18810.7 2351.3 ( 8.0 1.0) NEON fadd.2d (64bit x2) n8 : 0.627 18813.0 2351.6 ( 8.0 1.0) NEON fmla.2d (64bit x2) n8 : 0.627 37620.8 2351.3 ( 16.0 1.0) FPU fmul (64bit x1) ns4 : 0.627 9406.9 2351.7 ( 4.0 1.0) FPU fadd (64bit x1) ns4 : 0.627 9406.5 2351.6 ( 4.0 1.0) FPU fmadd (64bit x1) ns4 : 0.554 21294.7 2661.8 ( 8.0 1.1) NEON fmul.2d (64bit x2) ns4 : 0.627 18809.6 2351.2 ( 8.0 1.0) NEON fadd.2d (64bit x2) ns4 : 0.627 18809.9 2351.2 ( 8.0 1.0) NEON fmla.2d (64bit x2) ns4 : 1.097 21500.3 1343.8 ( 16.0 0.5) FPU fmul (64bit x1) n1 : 0.329 17915.9 4479.0 ( 4.0 1.8) FPU fadd (64bit x1) n1 : 0.329 17916.5 4479.1 ( 4.0 1.8) FPU fmadd (64bit x1) n1 : 4.389 2687.6 335.9 ( 8.0 0.1) NEON fmul.2d (64bit x2) n1 : 0.627 18812.4 2351.6 ( 8.0 1.0) NEON fadd.2d (64bit x2) n1 : 0.627 18813.0 2351.6 ( 8.0 1.0) NEON fmla.2d (64bit x2) n1 : 1.881 12541.2 783.8 ( 16.0 0.3) NEON fmul.2d (64bit x2) n12 : 0.941 18813.3 2351.7 ( 8.0 1.0) NEON fadd.2d (64bit x2) n12 : 0.941 18813.3 2351.7 ( 8.0 1.0) NEON fmla.2d (64bit x2) n12 : 0.940 37650.4 2353.1 ( 16.0 1.0) Average : 0.873 18717.9 2552.9 ( 8.4 1.0) Highest : 0.329 37650.4 4479.1 ( 16.0 1.8)
Qualcomm Kryo 385 (Cortex-A75 + A55) (ARMv8.2A AArch64 arm64) FPU+ASIMD+HALFFP
Pixel 3 Snapdragon 845 Kryo 385 2.8GHz x4 + 1.77GHz x4 ARM64 (AArch64) Android 9.0
Date: 20200808 162535 ARCH: ARMv8.2A AArch64 FPU : ASIMD(AArch64 NEON) FPHP ASIMDHP Name: Qualcomm Technologies, Inc SDM845 Pixel3 CPU Thread: 8 CPU Core : 8 CPU Group : 2 Group 0: Thread= 4 Clock=1.766400 GHz (mask:f) Group 1: Thread= 4 Clock=2.803200 GHz (mask:f0) NEON : yes FMA : yes FPHP : yes SIMDHP : yes DotProd: no Total: SingleThread HP max: 44.356 GFLOPS SingleThread SP max: 22.274 GFLOPS SingleThread DP max: 11.150 GFLOPS MultiThread HP max: 278.633 GFLOPS MultiThread SP max: 139.238 GFLOPS MultiThread DP max: 69.642 GFLOPS Group 0: Thread=4 Clock=1.766400 GHz (mask:f) SingleThread HP max: 27.433 GFLOPS SingleThread SP max: 13.732 GFLOPS SingleThread DP max: 6.862 GFLOPS MultiThread HP max: 109.853 GFLOPS MultiThread SP max: 54.836 GFLOPS MultiThread DP max: 27.445 GFLOPS Group 1: Thread=4 Clock=2.803200 GHz (mask:f0) SingleThread HP max: 44.356 GFLOPS SingleThread SP max: 22.274 GFLOPS SingleThread DP max: 11.150 GFLOPS MultiThread HP max: 168.780 GFLOPS MultiThread SP max: 84.402 GFLOPS MultiThread DP max: 42.197 GFLOPS * Group 0: Thread=1 Clock=1.766400 GHz (mask:f) * FPU/NEON (HP fp) TIME(s) MFLOPS MOPS FOP IPC FPU fmul (16bit x1) n8 : 0.319 3318.8 3318.8 ( 1.0 1.9) FPU fadd (16bit x1) n8 : 0.334 3175.3 3175.3 ( 1.0 1.8) FPU fmadd (16bit x1) n8 : 0.334 6353.4 3176.7 ( 2.0 1.8) NEON fmul.4h (16bit x4) n8 : 0.319 13302.8 3325.7 ( 4.0 1.9) NEON fadd.4h (16bit x4) n8 : 0.320 13263.4 3315.9 ( 4.0 1.9) NEON fmla.4h (16bit x4) n8 : 0.319 26604.2 3325.5 ( 8.0 1.9) NEON fmul.8h (16bit x8) n8 : 0.623 13616.4 1702.1 ( 8.0 1.0) NEON fadd.8h (16bit x8) n8 : 0.623 13619.7 1702.5 ( 8.0 1.0) NEON fmla.8h (16bit x8) n8 : 0.623 27220.4 1701.3 ( 16.0 1.0) FPU fmul (16bit x1) ns4 : 0.608 1744.6 1744.6 ( 1.0 1.0) FPU fadd (16bit x1) ns4 : 0.608 1744.3 1744.3 ( 1.0 1.0) FPU fmadd (16bit x1) ns4 : 0.608 3488.1 1744.1 ( 2.0 1.0) NEON fmul.4h (16bit x4) ns4 : 0.607 6981.7 1745.4 ( 4.0 1.0) NEON fadd.4h (16bit x4) ns4 : 0.607 6979.8 1744.9 ( 4.0 1.0) NEON fmla.4h (16bit x4) ns4 : 0.607 13971.3 1746.4 ( 8.0 1.0) NEON fmul.8h (16bit x8) ns4 : 0.622 13629.1 1703.6 ( 8.0 1.0) NEON fadd.8h (16bit x8) ns4 : 0.623 13618.0 1702.3 ( 8.0 1.0) NEON fmla.8h (16bit x8) ns4 : 0.625 27146.8 1696.7 ( 16.0 1.0) FPU fmul (16bit x1) n1 : 0.608 1744.1 1744.1 ( 1.0 1.0) FPU fadd (16bit x1) n1 : 0.608 1743.5 1743.5 ( 1.0 1.0) FPU fmadd (16bit x1) n1 : 2.433 871.3 435.7 ( 2.0 0.2) NEON fmul.4h (16bit x4) n1 : 0.608 6978.2 1744.6 ( 4.0 1.0) NEON fadd.4h (16bit x4) n1 : 0.608 6974.7 1743.7 ( 4.0 1.0) NEON fmla.4h (16bit x4) n1 : 2.431 3487.7 436.0 ( 8.0 0.2) NEON fmul.8h (16bit x8) n1 : 0.622 13627.2 1703.4 ( 8.0 1.0) NEON fadd.8h (16bit x8) n1 : 0.623 13601.9 1700.2 ( 8.0 1.0) NEON fmla.8h (16bit x8) n1 : 2.432 6973.9 435.9 ( 16.0 0.2) NEON fmul.8h (16bit x8) n12 : 0.926 13738.3 1717.3 ( 8.0 1.0) NEON fadd.8h (16bit x8) n12 : 0.927 13721.2 1715.1 ( 8.0 1.0) NEON fmla.8h (16bit x8) n12 : 0.927 27432.5 1714.5 ( 16.0 1.0) Average : 0.769 10689.1 1905.0 ( 6.3 1.1) Highest : 0.319 27432.5 3325.7 ( 16.0 1.9) * Group 0: Thread=1 Clock=1.766400 GHz (mask:f) * FPU/NEON (SP fp) TIME(s) MFLOPS MOPS FOP IPC FPU fmul (32bit x1) n8 : 0.335 3167.5 3167.5 ( 1.0 1.8) FPU fadd (32bit x1) n8 : 0.319 3322.8 3322.8 ( 1.0 1.9) FPU fmadd (32bit x1) n8 : 0.320 6631.7 3315.9 ( 2.0 1.9) NEON fmul.2s (32bit x2) n8 : 0.319 6635.3 3317.6 ( 2.0 1.9) NEON fadd.2s (32bit x2) n8 : 0.319 6636.5 3318.3 ( 2.0 1.9) NEON fmla.2s (32bit x2) n8 : 0.320 13261.5 3315.4 ( 4.0 1.9) NEON fmul.4s (32bit x4) n8 : 0.624 6794.9 1698.7 ( 4.0 1.0) NEON fadd.4s (32bit x4) n8 : 0.624 6797.2 1699.3 ( 4.0 1.0) NEON fmla.4s (32bit x4) n8 : 0.623 13610.0 1701.2 ( 8.0 1.0) FPU fmul (32bit x1) ns4 : 0.608 1742.1 1742.1 ( 1.0 1.0) FPU fadd (32bit x1) ns4 : 0.608 1742.7 1742.7 ( 1.0 1.0) FPU fmadd (32bit x1) ns4 : 0.608 3485.2 1742.6 ( 2.0 1.0) NEON fmul.2s (32bit x2) ns4 : 0.608 3485.6 1742.8 ( 2.0 1.0) NEON fadd.2s (32bit x2) ns4 : 0.607 3490.3 1745.1 ( 2.0 1.0) NEON fmla.2s (32bit x2) ns4 : 0.608 6972.8 1743.2 ( 4.0 1.0) NEON fmul.4s (32bit x4) ns4 : 0.622 6810.8 1702.7 ( 4.0 1.0) NEON fadd.4s (32bit x4) ns4 : 0.624 6796.2 1699.0 ( 4.0 1.0) NEON fmla.4s (32bit x4) ns4 : 0.624 13597.0 1699.6 ( 8.0 1.0) FPU fmul (32bit x1) n1 : 0.609 1740.0 1740.0 ( 1.0 1.0) FPU fadd (32bit x1) n1 : 0.607 1745.3 1745.3 ( 1.0 1.0) FPU fmadd (32bit x1) n1 : 2.431 871.8 435.9 ( 2.0 0.2) NEON fmul.2s (32bit x2) n1 : 0.609 3482.7 1741.4 ( 2.0 1.0) NEON fadd.2s (32bit x2) n1 : 0.608 3486.9 1743.4 ( 2.0 1.0) NEON fmla.2s (32bit x2) n1 : 2.432 1743.1 435.8 ( 4.0 0.2) NEON fmul.4s (32bit x4) n1 : 0.623 6800.5 1700.1 ( 4.0 1.0) NEON fadd.4s (32bit x4) n1 : 0.625 6788.1 1697.0 ( 4.0 1.0) NEON fmla.4s (32bit x4) n1 : 2.431 3488.0 436.0 ( 8.0 0.2) NEON fmul.4s (32bit x4) n12 : 0.927 6861.7 1715.4 ( 4.0 1.0) NEON fadd.4s (32bit x4) n12 : 0.927 6858.8 1714.7 ( 4.0 1.0) NEON fmla.4s (32bit x4) n12 : 0.926 13731.7 1716.5 ( 8.0 1.0) Average : 0.769 5752.6 1907.9 ( 3.3 1.1) Highest : 0.319 13731.7 3322.8 ( 8.0 1.9) * Group 0: Thread=1 Clock=1.766400 GHz (mask:f) * FPU/NEON (DP fp) TIME(s) MFLOPS MOPS FOP IPC FPU fmul (64bit x1) n8 : 0.319 3321.5 3321.5 ( 1.0 1.9) FPU fadd (64bit x1) n8 : 0.334 3172.3 3172.3 ( 1.0 1.8) FPU fmadd (64bit x1) n8 : 0.335 6335.7 3167.8 ( 2.0 1.8) NEON fmul.2d (64bit x2) n8 : 0.623 3404.1 1702.1 ( 2.0 1.0) NEON fadd.2d (64bit x2) n8 : 0.623 3401.8 1700.9 ( 2.0 1.0) NEON fmla.2d (64bit x2) n8 : 0.624 6795.5 1698.9 ( 4.0 1.0) FPU fmul (64bit x1) ns4 : 0.607 1745.5 1745.5 ( 1.0 1.0) FPU fadd (64bit x1) ns4 : 0.607 1746.1 1746.1 ( 1.0 1.0) FPU fmadd (64bit x1) ns4 : 0.608 3489.1 1744.5 ( 2.0 1.0) NEON fmul.2d (64bit x2) ns4 : 0.622 3406.3 1703.1 ( 2.0 1.0) NEON fadd.2d (64bit x2) ns4 : 0.625 3390.1 1695.0 ( 2.0 1.0) NEON fmla.2d (64bit x2) ns4 : 0.627 6762.6 1690.7 ( 4.0 1.0) FPU fmul (64bit x1) n1 : 0.610 1738.5 1738.5 ( 1.0 1.0) FPU fadd (64bit x1) n1 : 0.608 1743.9 1743.9 ( 1.0 1.0) FPU fmadd (64bit x1) n1 : 2.432 871.5 435.7 ( 2.0 0.2) NEON fmul.2d (64bit x2) n1 : 0.622 3407.6 1703.8 ( 2.0 1.0) NEON fadd.2d (64bit x2) n1 : 0.623 3402.2 1701.1 ( 2.0 1.0) NEON fmla.2d (64bit x2) n1 : 2.430 1744.9 436.2 ( 4.0 0.2) NEON fmul.2d (64bit x2) n12 : 0.927 3430.7 1715.3 ( 2.0 1.0) NEON fadd.2d (64bit x2) n12 : 0.927 3431.0 1715.5 ( 2.0 1.0) NEON fmla.2d (64bit x2) n12 : 0.927 6861.6 1715.4 ( 4.0 1.0) Average : 0.793 3504.9 1809.2 ( 2.1 1.0) Highest : 0.319 6861.6 3321.5 ( 4.0 1.9) * Group 0: Thread=4 Clock=1.766400 GHz (mask:f) * FPU/NEON (HP fp) multi-thread TIME(s) MFLOPS MOPS FOP IPC FPU fmul (16bit x1) n8 : 0.322 13169.4 3292.4 ( 4.0 1.9) FPU fadd (16bit x1) n8 : 0.339 12507.7 3126.9 ( 4.0 1.8) FPU fmadd (16bit x1) n8 : 0.335 25329.4 3166.2 ( 8.0 1.8) NEON fmul.4h (16bit x4) n8 : 0.320 52913.5 3307.1 ( 16.0 1.9) NEON fadd.4h (16bit x4) n8 : 0.321 52853.6 3303.3 ( 16.0 1.9) NEON fmla.4h (16bit x4) n8 : 0.321 105636.1 3301.1 ( 32.0 1.9) NEON fmul.8h (16bit x8) n8 : 0.625 54302.0 1696.9 ( 32.0 1.0) NEON fadd.8h (16bit x8) n8 : 0.623 54438.4 1701.2 ( 32.0 1.0) NEON fmla.8h (16bit x8) n8 : 0.632 107374.5 1677.7 ( 64.0 0.9) FPU fmul (16bit x1) ns4 : 0.615 6889.2 1722.3 ( 4.0 1.0) FPU fadd (16bit x1) ns4 : 0.609 6959.0 1739.8 ( 4.0 1.0) FPU fmadd (16bit x1) ns4 : 0.607 13962.3 1745.3 ( 8.0 1.0) NEON fmul.4h (16bit x4) ns4 : 0.613 27659.1 1728.7 ( 16.0 1.0) NEON fadd.4h (16bit x4) ns4 : 0.609 27837.4 1739.8 ( 16.0 1.0) NEON fmla.4h (16bit x4) ns4 : 0.609 55659.0 1739.3 ( 32.0 1.0) NEON fmul.8h (16bit x8) ns4 : 0.626 54152.4 1692.3 ( 32.0 1.0) NEON fadd.8h (16bit x8) ns4 : 0.623 54437.2 1701.2 ( 32.0 1.0) NEON fmla.8h (16bit x8) ns4 : 0.623 108907.8 1701.7 ( 64.0 1.0) FPU fmul (16bit x1) n1 : 0.608 6969.2 1742.3 ( 4.0 1.0) FPU fadd (16bit x1) n1 : 0.607 6980.4 1745.1 ( 4.0 1.0) FPU fmadd (16bit x1) n1 : 2.435 3481.5 435.2 ( 8.0 0.2) NEON fmul.4h (16bit x4) n1 : 0.607 27921.8 1745.1 ( 16.0 1.0) NEON fadd.4h (16bit x4) n1 : 0.608 27906.0 1744.1 ( 16.0 1.0) NEON fmla.4h (16bit x4) n1 : 2.433 13938.4 435.6 ( 32.0 0.2) NEON fmul.8h (16bit x8) n1 : 0.627 54113.0 1691.0 ( 32.0 1.0) NEON fadd.8h (16bit x8) n1 : 0.622 54490.1 1702.8 ( 32.0 1.0) NEON fmla.8h (16bit x8) n1 : 2.436 27840.8 435.0 ( 64.0 0.2) NEON fmul.8h (16bit x8) n12 : 0.928 54823.2 1713.2 ( 32.0 1.0) NEON fadd.8h (16bit x8) n12 : 0.935 54405.5 1700.2 ( 32.0 1.0) NEON fmla.8h (16bit x8) n12 : 0.926 109840.3 1716.3 ( 64.0 1.0) Average : 0.772 42589.9 1896.3 ( 25.1 1.1) Highest : 0.320 109840.3 3307.1 ( 64.0 1.9) * Group 0: Thread=4 Clock=1.766400 GHz (mask:f) * FPU/NEON (SP fp) multi-thread TIME(s) MFLOPS MOPS FOP IPC FPU fmul (32bit x1) n8 : 0.336 12617.5 3154.4 ( 4.0 1.8) FPU fadd (32bit x1) n8 : 0.322 13185.6 3296.4 ( 4.0 1.9) FPU fmadd (32bit x1) n8 : 0.322 26347.1 3293.4 ( 8.0 1.9) NEON fmul.2s (32bit x2) n8 : 0.320 26467.9 3308.5 ( 8.0 1.9) NEON fadd.2s (32bit x2) n8 : 0.321 26401.9 3300.2 ( 8.0 1.9) NEON fmla.2s (32bit x2) n8 : 0.323 52475.1 3279.7 ( 16.0 1.9) NEON fmul.4s (32bit x4) n8 : 0.628 26989.3 1686.8 ( 16.0 1.0) NEON fadd.4s (32bit x4) n8 : 0.626 27107.1 1694.2 ( 16.0 1.0) NEON fmla.4s (32bit x4) n8 : 0.628 53977.4 1686.8 ( 32.0 1.0) FPU fmul (32bit x1) ns4 : 0.611 6938.5 1734.6 ( 4.0 1.0) FPU fadd (32bit x1) ns4 : 0.625 6779.9 1695.0 ( 4.0 1.0) FPU fmadd (32bit x1) ns4 : 0.608 13934.5 1741.8 ( 8.0 1.0) NEON fmul.2s (32bit x2) ns4 : 0.608 13953.2 1744.1 ( 8.0 1.0) NEON fadd.2s (32bit x2) ns4 : 0.608 13942.8 1742.8 ( 8.0 1.0) NEON fmla.2s (32bit x2) ns4 : 0.612 27698.3 1731.1 ( 16.0 1.0) NEON fmul.4s (32bit x4) ns4 : 0.628 26990.8 1686.9 ( 16.0 1.0) NEON fadd.4s (32bit x4) ns4 : 0.623 27225.3 1701.6 ( 16.0 1.0) NEON fmla.4s (32bit x4) ns4 : 0.623 54416.4 1700.5 ( 32.0 1.0) FPU fmul (32bit x1) n1 : 0.610 6948.6 1737.1 ( 4.0 1.0) FPU fadd (32bit x1) n1 : 0.608 6967.6 1741.9 ( 4.0 1.0) FPU fmadd (32bit x1) n1 : 2.439 3475.9 434.5 ( 8.0 0.2) NEON fmul.2s (32bit x2) n1 : 0.610 13895.0 1736.9 ( 8.0 1.0) NEON fadd.2s (32bit x2) n1 : 0.608 13944.9 1743.1 ( 8.0 1.0) NEON fmla.2s (32bit x2) n1 : 2.451 6917.9 432.4 ( 16.0 0.2) NEON fmul.4s (32bit x4) n1 : 0.625 27142.9 1696.4 ( 16.0 1.0) NEON fadd.4s (32bit x4) n1 : 0.630 26929.2 1683.1 ( 16.0 1.0) NEON fmla.4s (32bit x4) n1 : 2.445 13872.3 433.5 ( 32.0 0.2) NEON fmul.4s (32bit x4) n12 : 0.943 26971.9 1685.7 ( 16.0 1.0) NEON fadd.4s (32bit x4) n12 : 0.936 27179.3 1698.7 ( 16.0 1.0) NEON fmla.4s (32bit x4) n12 : 0.928 54835.9 1713.6 ( 32.0 1.0) Average : 0.774 22884.3 1897.2 ( 13.3 1.1) Highest : 0.320 54835.9 3308.5 ( 32.0 1.9) * Group 0: Thread=4 Clock=1.766400 GHz (mask:f) * FPU/NEON (DP fp) multi-thread TIME(s) MFLOPS MOPS FOP IPC FPU fmul (64bit x1) n8 : 0.320 13254.5 3313.6 ( 4.0 1.9) FPU fadd (64bit x1) n8 : 0.334 12685.9 3171.5 ( 4.0 1.8) FPU fmadd (64bit x1) n8 : 0.335 25283.7 3160.5 ( 8.0 1.8) NEON fmul.2d (64bit x2) n8 : 0.626 13534.5 1691.8 ( 8.0 1.0) NEON fadd.2d (64bit x2) n8 : 0.628 13500.3 1687.5 ( 8.0 1.0) NEON fmla.2d (64bit x2) n8 : 0.624 27196.3 1699.8 ( 16.0 1.0) FPU fmul (64bit x1) ns4 : 0.609 6962.4 1740.6 ( 4.0 1.0) FPU fadd (64bit x1) ns4 : 0.615 6896.3 1724.1 ( 4.0 1.0) FPU fmadd (64bit x1) ns4 : 0.613 13820.5 1727.6 ( 8.0 1.0) NEON fmul.2d (64bit x2) ns4 : 0.624 13580.9 1697.6 ( 8.0 1.0) NEON fadd.2d (64bit x2) ns4 : 0.633 13393.2 1674.2 ( 8.0 0.9) NEON fmla.2d (64bit x2) ns4 : 0.624 27188.1 1699.3 ( 16.0 1.0) FPU fmul (64bit x1) n1 : 0.609 6963.3 1740.8 ( 4.0 1.0) FPU fadd (64bit x1) n1 : 0.608 6973.8 1743.4 ( 4.0 1.0) FPU fmadd (64bit x1) n1 : 2.442 3472.4 434.1 ( 8.0 0.2) NEON fmul.2d (64bit x2) n1 : 0.627 13531.7 1691.5 ( 8.0 1.0) NEON fadd.2d (64bit x2) n1 : 0.623 13613.9 1701.7 ( 8.0 1.0) NEON fmla.2d (64bit x2) n1 : 2.457 6901.2 431.3 ( 16.0 0.2) NEON fmul.2d (64bit x2) n12 : 0.937 13568.7 1696.1 ( 8.0 1.0) NEON fadd.2d (64bit x2) n12 : 0.957 13285.9 1660.7 ( 8.0 0.9) NEON fmla.2d (64bit x2) n12 : 0.950 26778.5 1673.7 ( 16.0 0.9) Average : 0.800 13923.1 1798.2 ( 8.4 1.0) Highest : 0.320 27196.3 3313.6 ( 16.0 1.9) * Group 1: Thread=1 Clock=2.803200 GHz (mask:f0) * FPU/NEON (HP fp) TIME(s) MFLOPS MOPS FOP IPC FPU fmul (16bit x1) n8 : 0.308 5467.3 5467.3 ( 1.0 2.0) FPU fadd (16bit x1) n8 : 0.307 5474.7 5474.7 ( 1.0 2.0) FPU fmadd (16bit x1) n8 : 0.383 8782.4 4391.2 ( 2.0 1.6) NEON fmul.4h (16bit x4) n8 : 0.305 22089.8 5522.4 ( 4.0 2.0) NEON fadd.4h (16bit x4) n8 : 0.304 22142.5 5535.6 ( 4.0 2.0) NEON fmla.4h (16bit x4) n8 : 0.304 44283.6 5535.5 ( 8.0 2.0) NEON fmul.8h (16bit x8) n8 : 0.608 22145.2 2768.2 ( 8.0 1.0) NEON fadd.8h (16bit x8) n8 : 0.609 22110.9 2763.9 ( 8.0 1.0) NEON fmla.8h (16bit x8) n8 : 0.607 44326.9 2770.4 ( 16.0 1.0) FPU fmul (16bit x1) ns4 : 0.460 3653.0 3653.0 ( 1.0 1.3) FPU fadd (16bit x1) ns4 : 0.464 3626.9 3626.9 ( 1.0 1.3) FPU fmadd (16bit x1) ns4 : 0.476 7070.6 3535.3 ( 2.0 1.3) NEON fmul.4h (16bit x4) ns4 : 0.458 14674.5 3668.6 ( 4.0 1.3) NEON fadd.4h (16bit x4) ns4 : 0.455 14771.6 3692.9 ( 4.0 1.3) NEON fmla.4h (16bit x4) ns4 : 0.754 17843.6 2230.4 ( 8.0 0.8) NEON fmul.8h (16bit x8) ns4 : 0.604 22268.9 2783.6 ( 8.0 1.0) NEON fadd.8h (16bit x8) ns4 : 0.604 22264.3 2783.0 ( 8.0 1.0) NEON fmla.8h (16bit x8) ns4 : 0.757 35564.8 2222.8 ( 16.0 0.8) FPU fmul (16bit x1) n1 : 0.304 5533.7 5533.7 ( 1.0 2.0) FPU fadd (16bit x1) n1 : 0.303 5548.7 5548.7 ( 1.0 2.0) FPU fmadd (16bit x1) n1 : 3.023 1112.7 556.4 ( 2.0 0.2) NEON fmul.4h (16bit x4) n1 : 0.302 22273.0 5568.2 ( 4.0 2.0) NEON fadd.4h (16bit x4) n1 : 0.302 22291.3 5572.8 ( 4.0 2.0) NEON fmla.4h (16bit x4) n1 : 1.819 7397.1 924.6 ( 8.0 0.3) NEON fmul.8h (16bit x8) n1 : 0.606 22201.1 2775.1 ( 8.0 1.0) NEON fadd.8h (16bit x8) n1 : 0.607 22159.7 2770.0 ( 8.0 1.0) NEON fmla.8h (16bit x8) n1 : 1.822 14771.4 923.2 ( 16.0 0.3) NEON fmul.8h (16bit x8) n12 : 0.911 22163.8 2770.5 ( 8.0 1.0) NEON fadd.8h (16bit x8) n12 : 0.911 22148.3 2768.5 ( 8.0 1.0) NEON fmla.8h (16bit x8) n12 : 0.910 44355.9 2772.2 ( 16.0 1.0) Average : 0.686 18350.6 3563.7 ( 6.3 1.3) Highest : 0.302 44355.9 5572.8 ( 16.0 2.0) * Group 1: Thread=1 Clock=2.803200 GHz (mask:f0) * FPU/NEON (SP fp) TIME(s) MFLOPS MOPS FOP IPC FPU fmul (32bit x1) n8 : 0.302 5578.1 5578.1 ( 1.0 2.0) FPU fadd (32bit x1) n8 : 0.301 5580.7 5580.7 ( 1.0 2.0) FPU fmadd (32bit x1) n8 : 0.382 8796.1 4398.0 ( 2.0 1.6) NEON fmul.2s (32bit x2) n8 : 0.302 11156.8 5578.4 ( 2.0 2.0) NEON fadd.2s (32bit x2) n8 : 0.302 11130.7 5565.3 ( 2.0 2.0) NEON fmla.2s (32bit x2) n8 : 0.302 22252.9 5563.2 ( 4.0 2.0) NEON fmul.4s (32bit x4) n8 : 0.603 11156.5 2789.1 ( 4.0 1.0) NEON fadd.4s (32bit x4) n8 : 0.605 11118.1 2779.5 ( 4.0 1.0) NEON fmla.4s (32bit x4) n8 : 0.607 22171.6 2771.5 ( 8.0 1.0) FPU fmul (32bit x1) ns4 : 0.458 3668.8 3668.8 ( 1.0 1.3) FPU fadd (32bit x1) ns4 : 0.464 3622.2 3622.2 ( 1.0 1.3) FPU fmadd (32bit x1) ns4 : 0.470 7159.6 3579.8 ( 2.0 1.3) NEON fmul.2s (32bit x2) ns4 : 0.462 7285.8 3642.9 ( 2.0 1.3) NEON fadd.2s (32bit x2) ns4 : 0.461 7302.5 3651.2 ( 2.0 1.3) NEON fmla.2s (32bit x2) ns4 : 0.758 8877.3 2219.3 ( 4.0 0.8) NEON fmul.4s (32bit x4) ns4 : 0.604 11136.3 2784.1 ( 4.0 1.0) NEON fadd.4s (32bit x4) ns4 : 0.604 11134.5 2783.6 ( 4.0 1.0) NEON fmla.4s (32bit x4) ns4 : 0.760 17711.8 2214.0 ( 8.0 0.8) FPU fmul (32bit x1) n1 : 0.305 5519.3 5519.3 ( 1.0 2.0) FPU fadd (32bit x1) n1 : 0.305 5513.6 5513.6 ( 1.0 2.0) FPU fmadd (32bit x1) n1 : 3.040 1106.7 553.4 ( 2.0 0.2) NEON fmul.2s (32bit x2) n1 : 0.304 11079.4 5539.7 ( 2.0 2.0) NEON fadd.2s (32bit x2) n1 : 0.305 11035.2 5517.6 ( 2.0 2.0) NEON fmla.2s (32bit x2) n1 : 1.816 3703.8 926.0 ( 4.0 0.3) NEON fmul.4s (32bit x4) n1 : 0.609 11055.8 2763.9 ( 4.0 1.0) NEON fadd.4s (32bit x4) n1 : 0.608 11067.4 2766.9 ( 4.0 1.0) NEON fmla.4s (32bit x4) n1 : 1.823 7380.3 922.5 ( 8.0 0.3) NEON fmul.4s (32bit x4) n12 : 0.914 11045.9 2761.5 ( 4.0 1.0) NEON fadd.4s (32bit x4) n12 : 0.913 11051.1 2762.8 ( 4.0 1.0) NEON fmla.4s (32bit x4) n12 : 0.912 22121.2 2765.1 ( 8.0 1.0) Average : 0.687 9950.7 3569.4 ( 3.3 1.3) Highest : 0.301 22252.9 5580.7 ( 8.0 2.0) * Group 1: Thread=1 Clock=2.803200 GHz (mask:f0) * FPU/NEON (DP fp) TIME(s) MFLOPS MOPS FOP IPC FPU fmul (64bit x1) n8 : 0.301 5579.0 5579.0 ( 1.0 2.0) FPU fadd (64bit x1) n8 : 0.301 5579.3 5579.3 ( 1.0 2.0) FPU fmadd (64bit x1) n8 : 0.383 8783.6 4391.8 ( 2.0 1.6) NEON fmul.2d (64bit x2) n8 : 0.604 5571.8 2785.9 ( 2.0 1.0) NEON fadd.2d (64bit x2) n8 : 0.604 5565.9 2782.9 ( 2.0 1.0) NEON fmla.2d (64bit x2) n8 : 0.608 11063.3 2765.8 ( 4.0 1.0) FPU fmul (64bit x1) ns4 : 0.469 3586.5 3586.5 ( 1.0 1.3) FPU fadd (64bit x1) ns4 : 0.466 3611.1 3611.1 ( 1.0 1.3) FPU fmadd (64bit x1) ns4 : 0.476 7061.7 3530.8 ( 2.0 1.3) NEON fmul.2d (64bit x2) ns4 : 0.615 5472.6 2736.3 ( 2.0 1.0) NEON fadd.2d (64bit x2) ns4 : 0.614 5479.7 2739.8 ( 2.0 1.0) NEON fmla.2d (64bit x2) ns4 : 0.768 8764.2 2191.0 ( 4.0 0.8) FPU fmul (64bit x1) n1 : 0.308 5455.8 5455.8 ( 1.0 1.9) FPU fadd (64bit x1) n1 : 0.307 5471.7 5471.7 ( 1.0 2.0) FPU fmadd (64bit x1) n1 : 3.046 1104.3 552.2 ( 2.0 0.2) NEON fmul.2d (64bit x2) n1 : 0.607 5539.4 2769.7 ( 2.0 1.0) NEON fadd.2d (64bit x2) n1 : 0.608 5530.7 2765.3 ( 2.0 1.0) NEON fmla.2d (64bit x2) n1 : 1.828 3679.6 919.9 ( 4.0 0.3) NEON fmul.2d (64bit x2) n12 : 0.922 5471.6 2735.8 ( 2.0 1.0) NEON fadd.2d (64bit x2) n12 : 0.922 5472.4 2736.2 ( 2.0 1.0) NEON fmla.2d (64bit x2) n12 : 0.921 10954.5 2738.6 ( 4.0 1.0) Average : 0.747 5942.8 3258.4 ( 2.1 1.2) Highest : 0.301 11063.3 5579.3 ( 4.0 2.0) * Group 1: Thread=4 Clock=2.803200 GHz (mask:f0) * FPU/NEON (HP fp) multi-thread TIME(s) MFLOPS MOPS FOP IPC FPU fmul (16bit x1) n8 : 0.319 21091.6 5272.9 ( 4.0 1.9) FPU fadd (16bit x1) n8 : 0.319 21094.1 5273.5 ( 4.0 1.9) FPU fmadd (16bit x1) n8 : 0.404 33329.7 4166.2 ( 8.0 1.5) NEON fmul.4h (16bit x4) n8 : 0.319 84394.0 5274.6 ( 16.0 1.9) NEON fadd.4h (16bit x4) n8 : 0.319 84371.8 5273.2 ( 16.0 1.9) NEON fmla.4h (16bit x4) n8 : 0.319 168755.2 5273.6 ( 32.0 1.9) NEON fmul.8h (16bit x8) n8 : 0.638 84391.0 2637.2 ( 32.0 0.9) NEON fadd.8h (16bit x8) n8 : 0.638 84381.8 2636.9 ( 32.0 0.9) NEON fmla.8h (16bit x8) n8 : 0.638 168764.2 2636.9 ( 64.0 0.9) FPU fmul (16bit x1) ns4 : 0.484 13902.3 3475.6 ( 4.0 1.2) FPU fadd (16bit x1) ns4 : 0.487 13826.5 3456.6 ( 4.0 1.2) FPU fmadd (16bit x1) ns4 : 0.505 26643.9 3330.5 ( 8.0 1.2) NEON fmul.4h (16bit x4) ns4 : 0.485 55444.0 3465.2 ( 16.0 1.2) NEON fadd.4h (16bit x4) ns4 : 0.483 55771.9 3485.7 ( 16.0 1.2) NEON fmla.4h (16bit x4) ns4 : 0.798 67472.6 2108.5 ( 32.0 0.8) NEON fmul.8h (16bit x8) ns4 : 0.638 84390.8 2637.2 ( 32.0 0.9) NEON fadd.8h (16bit x8) ns4 : 0.638 84369.3 2636.5 ( 32.0 0.9) NEON fmla.8h (16bit x8) ns4 : 0.797 134981.8 2109.1 ( 64.0 0.8) FPU fmul (16bit x1) n1 : 0.319 21092.1 5273.0 ( 4.0 1.9) FPU fadd (16bit x1) n1 : 0.319 21088.6 5272.2 ( 4.0 1.9) FPU fmadd (16bit x1) n1 : 3.190 4218.2 527.3 ( 8.0 0.2) NEON fmul.4h (16bit x4) n1 : 0.319 84362.3 5272.6 ( 16.0 1.9) NEON fadd.4h (16bit x4) n1 : 0.319 84353.3 5272.1 ( 16.0 1.9) NEON fmla.4h (16bit x4) n1 : 1.914 28120.1 878.8 ( 32.0 0.3) NEON fmul.8h (16bit x8) n1 : 0.638 84355.7 2636.1 ( 32.0 0.9) NEON fadd.8h (16bit x8) n1 : 0.638 84365.0 2636.4 ( 32.0 0.9) NEON fmla.8h (16bit x8) n1 : 1.914 56233.2 878.6 ( 64.0 0.3) NEON fmul.8h (16bit x8) n12 : 0.957 84356.8 2636.2 ( 32.0 0.9) NEON fadd.8h (16bit x8) n12 : 0.957 84360.9 2636.3 ( 32.0 0.9) NEON fmla.8h (16bit x8) n12 : 0.957 168727.4 2636.4 ( 64.0 0.9) Average : 0.722 69767.0 3390.2 ( 25.1 1.2) Highest : 0.319 168764.2 5274.6 ( 64.0 1.9) * Group 1: Thread=4 Clock=2.803200 GHz (mask:f0) * FPU/NEON (SP fp) multi-thread TIME(s) MFLOPS MOPS FOP IPC FPU fmul (32bit x1) n8 : 0.319 21088.7 5272.2 ( 4.0 1.9) FPU fadd (32bit x1) n8 : 0.319 21089.7 5272.4 ( 4.0 1.9) FPU fmadd (32bit x1) n8 : 0.403 33350.9 4168.9 ( 8.0 1.5) NEON fmul.2s (32bit x2) n8 : 0.319 42171.7 5271.5 ( 8.0 1.9) NEON fadd.2s (32bit x2) n8 : 0.319 42178.9 5272.4 ( 8.0 1.9) NEON fmla.2s (32bit x2) n8 : 0.320 84163.3 5260.2 ( 16.0 1.9) NEON fmul.4s (32bit x4) n8 : 0.638 42178.4 2636.2 ( 16.0 0.9) NEON fadd.4s (32bit x4) n8 : 0.638 42176.0 2636.0 ( 16.0 0.9) NEON fmla.4s (32bit x4) n8 : 0.638 84357.5 2636.2 ( 32.0 0.9) FPU fmul (32bit x1) ns4 : 0.483 13918.9 3479.7 ( 4.0 1.2) FPU fadd (32bit x1) ns4 : 0.486 13849.6 3462.4 ( 4.0 1.2) FPU fmadd (32bit x1) ns4 : 0.500 26910.5 3363.8 ( 8.0 1.2) NEON fmul.2s (32bit x2) ns4 : 0.485 27727.5 3465.9 ( 8.0 1.2) NEON fadd.2s (32bit x2) ns4 : 0.484 27787.1 3473.4 ( 8.0 1.2) NEON fmla.2s (32bit x2) ns4 : 0.798 33743.0 2108.9 ( 16.0 0.8) NEON fmul.4s (32bit x4) ns4 : 0.638 42179.4 2636.2 ( 16.0 0.9) NEON fadd.4s (32bit x4) ns4 : 0.638 42176.8 2636.0 ( 16.0 0.9) NEON fmla.4s (32bit x4) ns4 : 0.798 67481.7 2108.8 ( 32.0 0.8) FPU fmul (32bit x1) n1 : 0.319 21088.5 5272.1 ( 4.0 1.9) FPU fadd (32bit x1) n1 : 0.319 21086.2 5271.6 ( 4.0 1.9) FPU fmadd (32bit x1) n1 : 3.190 4217.9 527.2 ( 8.0 0.2) NEON fmul.2s (32bit x2) n1 : 0.319 42178.8 5272.3 ( 8.0 1.9) NEON fadd.2s (32bit x2) n1 : 0.319 42180.9 5272.6 ( 8.0 1.9) NEON fmla.2s (32bit x2) n1 : 1.914 14059.6 878.7 ( 16.0 0.3) NEON fmul.4s (32bit x4) n1 : 0.638 42166.1 2635.4 ( 16.0 0.9) NEON fadd.4s (32bit x4) n1 : 0.638 42179.5 2636.2 ( 16.0 0.9) NEON fmla.4s (32bit x4) n1 : 1.914 28119.1 878.7 ( 32.0 0.3) NEON fmul.4s (32bit x4) n12 : 0.957 42171.1 2635.7 ( 16.0 0.9) NEON fadd.4s (32bit x4) n12 : 0.957 42164.0 2635.3 ( 16.0 0.9) NEON fmla.4s (32bit x4) n12 : 0.957 84401.6 2637.6 ( 32.0 0.9) Average : 0.722 37818.1 3390.5 ( 13.3 1.2) Highest : 0.319 84401.6 5272.6 ( 32.0 1.9) * Group 1: Thread=4 Clock=2.803200 GHz (mask:f0) * FPU/NEON (DP fp) multi-thread TIME(s) MFLOPS MOPS FOP IPC FPU fmul (64bit x1) n8 : 0.319 21090.4 5272.6 ( 4.0 1.9) FPU fadd (64bit x1) n8 : 0.319 21091.1 5272.8 ( 4.0 1.9) FPU fmadd (64bit x1) n8 : 0.405 33247.0 4155.9 ( 8.0 1.5) NEON fmul.2d (64bit x2) n8 : 0.638 21092.3 2636.5 ( 8.0 0.9) NEON fadd.2d (64bit x2) n8 : 0.638 21084.8 2635.6 ( 8.0 0.9) NEON fmla.2d (64bit x2) n8 : 0.638 42165.7 2635.4 ( 16.0 0.9) FPU fmul (64bit x1) ns4 : 0.489 13761.0 3440.3 ( 4.0 1.2) FPU fadd (64bit x1) ns4 : 0.485 13883.6 3470.9 ( 4.0 1.2) FPU fmadd (64bit x1) ns4 : 0.494 27244.1 3405.5 ( 8.0 1.2) NEON fmul.2d (64bit x2) ns4 : 0.638 21091.8 2636.5 ( 8.0 0.9) NEON fadd.2d (64bit x2) ns4 : 0.638 21093.4 2636.7 ( 8.0 0.9) NEON fmla.2d (64bit x2) ns4 : 0.798 33738.5 2108.7 ( 16.0 0.8) FPU fmul (64bit x1) n1 : 0.319 21091.2 5272.8 ( 4.0 1.9) FPU fadd (64bit x1) n1 : 0.319 21090.4 5272.6 ( 4.0 1.9) FPU fmadd (64bit x1) n1 : 3.189 4218.9 527.4 ( 8.0 0.2) NEON fmul.2d (64bit x2) n1 : 0.638 21092.7 2636.6 ( 8.0 0.9) NEON fadd.2d (64bit x2) n1 : 0.638 21092.3 2636.5 ( 8.0 0.9) NEON fmla.2d (64bit x2) n1 : 1.914 14061.5 878.8 ( 16.0 0.3) NEON fmul.2d (64bit x2) n12 : 0.957 21091.7 2636.5 ( 8.0 0.9) NEON fadd.2d (64bit x2) n12 : 0.957 21082.4 2635.3 ( 8.0 0.9) NEON fmla.2d (64bit x2) n12 : 0.957 42196.5 2637.3 ( 16.0 0.9) Average : 0.780 22742.9 3116.2 ( 8.4 1.1) Highest : 0.319 42196.5 5272.8 ( 16.0 1.9)
ARM Cortex-A53 (ARMv8A AArch64 arm64) FPU+NEON
Dragonboard 410c Snapdragon 410 1.2GHz ARM64 (AArch64) android 5.1
Dragonboard 410c Snapdragon 410 1.2GHz ARM64 (AArch64) android 5.1.1 ARCH: ARMv8A CPU core: 4 VFP: AArch64 NEON FMA: Yes NEON: Yes Result SingleT SP max: 9.377 GFLOPS SingleT DP max: 4.737 GFLOPS MultiT SP max: 30.817 GFLOPS MultiT DP max: 15.063 GFLOPS * VFP/NEON (single fp) single-thread FPU fmul (32bit x1) n8 : 0.632 1898.3 1898.3 FPU fadd (32bit x1) n8 : 0.554 2165.6 2165.6 FPU fmadd (32bit x1) n8 : 1.002 2394.8 2394.8 NEON fmul.2s (32bit x2) n8 : 0.568 4228.7 4228.7 NEON fadd.2s (32bit x2) n8 : 0.525 4572.5 4572.5 NEON fmla.2s (32bit x2) n8 : 0.671 7154.7 7154.7 NEON fmul.4s (32bit x4) n8 : 1.035 4636.1 4636.1 NEON fadd.4s (32bit x4) n8 : 1.024 4687.7 4687.7 NEON fmla.4s (32bit x4) n8 : 1.027 9344.1 9344.1 FPU fmul (32bit x1) ns4 : 1.001 1199.3 1199.3 FPU fadd (32bit x1) ns4 : 0.999 1201.6 1201.6 FPU fmadd (32bit x1) ns4 : 1.249 1921.3 1921.3 NEON fmul.2s (32bit x2) ns4 : 0.998 2405.5 2405.5 NEON fadd.2s (32bit x2) ns4 : 0.998 2405.6 2405.6 NEON fmla.2s (32bit x2) ns4 : 2.028 2367.2 2367.2 NEON fmul.4s (32bit x4) ns4 : 1.037 4630.1 4630.1 NEON fadd.4s (32bit x4) ns4 : 1.023 4693.5 4693.5 NEON fmla.4s (32bit x4) ns4 : 2.000 4800.9 4800.9 FPU fmul (32bit x1) n1 : 1.003 1196.3 1196.3 FPU fadd (32bit x1) n1 : 0.999 1201.1 1201.1 FPU fmadd (32bit x1) n1 : 7.989 300.4 300.4 NEON fmul.2s (32bit x2) n1 : 0.997 2406.0 2406.0 NEON fadd.2s (32bit x2) n1 : 1.007 2384.4 2384.4 NEON fmla.2s (32bit x2) n1 : 5.006 958.8 958.8 NEON fmul.4s (32bit x4) n1 : 1.023 4691.8 4691.8 NEON fadd.4s (32bit x4) n1 : 1.025 4684.7 4684.7 NEON fmla.4s (32bit x4) n1 : 5.076 1891.4 1891.4 NEON fmul.4s (32bit x4) n12 : 1.531 4701.9 4701.9 NEON fadd.4s (32bit x4) n12 : 1.532 4698.8 4698.8 NEON fmla.4s (32bit x4) n12 : 1.536 9377.4 9377.4 Average : 1.570 3506.7 3506.7 Highest : 0.525 9377.4 9377.4 * VFP/NEON (double fp) single-thread FPU fmul (64bit x1) n8 : 0.550 2182.7 2182.7 FPU fadd (64bit x1) n8 : 0.549 2185.9 2185.9 FPU fmadd (64bit x1) n8 : 1.021 2351.1 2351.1 NEON fmul.2d (64bit x2) n8 : 1.022 2347.8 2347.8 NEON fadd.2d (64bit x2) n8 : 1.030 2330.5 2330.5 NEON fmla.2d (64bit x2) n8 : 1.025 4682.2 4682.2 FPU fmul (64bit x1) ns4 : 1.000 1200.2 1200.2 FPU fadd (64bit x1) ns4 : 0.996 1205.0 1205.0 FPU fmadd (64bit x1) ns4 : 1.249 1920.9 1920.9 NEON fmul.2d (64bit x2) ns4 : 1.024 2343.9 2343.9 NEON fadd.2d (64bit x2) ns4 : 1.022 2349.4 2349.4 NEON fmla.2d (64bit x2) ns4 : 1.993 2408.2 2408.2 FPU fmul (64bit x1) n1 : 0.996 1204.7 1204.7 FPU fadd (64bit x1) n1 : 0.997 1204.1 1204.1 FPU fmadd (64bit x1) n1 : 8.157 294.2 294.2 NEON fmul.2d (64bit x2) n1 : 1.047 2293.3 2293.3 NEON fadd.2d (64bit x2) n1 : 1.045 2296.6 2296.6 NEON fmla.2d (64bit x2) n1 : 5.057 949.1 949.1 NEON fmul.2d (64bit x2) n12 : 1.521 2366.2 2366.2 NEON fadd.2d (64bit x2) n12 : 1.522 2365.4 2365.4 NEON fmla.2d (64bit x2) n12 : 1.520 4736.8 4736.8 Average : 1.635 2153.2 2153.2 Highest : 0.549 4736.8 4736.8 * Matrix 4x4 (single fp) single-thread C++ code : 2.916 614.6 614.6 NEON fmla.4s 128bit A : 1.301 1377.7 1377.7 NEON fmla.4s 128bit B : 0.602 2977.4 2977.4 Average : 1.606 1656.6 1656.6 Highest : 0.602 2977.4 2977.4 * VFP/NEON (single fp) multi-thread FPU fmul (32bit x1) n8 : 0.797 6025.9 6025.9 FPU fadd (32bit x1) n8 : 0.747 6428.7 6428.7 FPU fmadd (32bit x1) n8 : 1.343 7150.2 7150.2 NEON fmul.2s (32bit x2) n8 : 0.698 13748.1 13748.1 NEON fadd.2s (32bit x2) n8 : 0.766 12534.6 12534.6 NEON fmla.2s (32bit x2) n8 : 0.856 22424.4 22424.4 NEON fmul.4s (32bit x4) n8 : 1.381 13903.8 13903.8 NEON fadd.4s (32bit x4) n8 : 1.440 13334.1 13334.1 NEON fmla.4s (32bit x4) n8 : 1.388 27663.1 27663.1 FPU fmul (32bit x1) ns4 : 1.346 3566.9 3566.9 FPU fadd (32bit x1) ns4 : 1.357 3536.3 3536.3 FPU fmadd (32bit x1) ns4 : 1.675 5732.8 5732.8 NEON fmul.2s (32bit x2) ns4 : 1.375 6983.0 6983.0 NEON fadd.2s (32bit x2) ns4 : 1.333 7199.2 7199.2 NEON fmla.2s (32bit x2) ns4 : 2.725 7045.5 7045.5 NEON fmul.4s (32bit x4) ns4 : 1.377 13942.0 13942.0 NEON fadd.4s (32bit x4) ns4 : 1.369 14023.8 14023.8 NEON fmla.4s (32bit x4) ns4 : 2.679 14332.4 14332.4 FPU fmul (32bit x1) n1 : 1.317 3645.6 3645.6 FPU fadd (32bit x1) n1 : 1.303 3682.7 3682.7 FPU fmadd (32bit x1) n1 : 10.889 881.6 881.6 NEON fmul.2s (32bit x2) n1 : 1.327 7232.6 7232.6 NEON fadd.2s (32bit x2) n1 : 1.336 7187.8 7187.8 NEON fmla.2s (32bit x2) n1 : 6.755 2842.5 2842.5 NEON fmul.4s (32bit x4) n1 : 1.326 14480.3 14480.3 NEON fadd.4s (32bit x4) n1 : 1.389 13822.7 13822.7 NEON fmla.4s (32bit x4) n1 : 6.640 5783.0 5783.0 NEON fmul.4s (32bit x4) n12 : 2.070 13912.5 13912.5 NEON fadd.4s (32bit x4) n12 : 2.129 13528.5 13528.5 NEON fmla.4s (32bit x4) n12 : 1.869 30816.8 30816.8 Average : 2.100 10579.7 10579.7 Highest : 0.698 30816.8 30816.8 * VFP/NEON (double fp) multi-thread FPU fmul (64bit x1) n8 : 0.791 6070.5 6070.5 FPU fadd (64bit x1) n8 : 0.783 6126.7 6126.7 FPU fmadd (64bit x1) n8 : 1.402 6847.9 6847.9 NEON fmul.2d (64bit x2) n8 : 1.346 7134.0 7134.0 NEON fadd.2d (64bit x2) n8 : 1.378 6966.3 6966.3 NEON fmla.2d (64bit x2) n8 : 1.401 13708.2 13708.2 FPU fmul (64bit x1) ns4 : 1.362 3525.1 3525.1 FPU fadd (64bit x1) ns4 : 1.354 3545.5 3545.5 FPU fmadd (64bit x1) ns4 : 1.692 5674.7 5674.7 NEON fmul.2d (64bit x2) ns4 : 1.353 7097.7 7097.7 NEON fadd.2d (64bit x2) ns4 : 1.353 7094.5 7094.5 NEON fmla.2d (64bit x2) ns4 : 2.703 7104.2 7104.2 FPU fmul (64bit x1) n1 : 1.296 3703.2 3703.2 FPU fadd (64bit x1) n1 : 1.353 3547.2 3547.2 FPU fmadd (64bit x1) n1 : 10.773 891.1 891.1 NEON fmul.2d (64bit x2) n1 : 1.444 6649.0 6649.0 NEON fadd.2d (64bit x2) n1 : 1.347 7127.2 7127.2 NEON fmla.2d (64bit x2) n1 : 6.816 2817.1 2817.1 NEON fmul.2d (64bit x2) n12 : 1.992 7227.4 7227.4 NEON fadd.2d (64bit x2) n12 : 2.114 6810.9 6810.9 NEON fmla.2d (64bit x2) n12 : 1.912 15063.3 15063.3 Average : 2.189 6415.8 6415.8 Highest : 0.783 15063.3 15063.3 * Matrix 4x4 (single fp) multi-thread C++ code : 4.048 1770.6 1770.6 NEON fmla.4s 128bit A : 1.763 4064.9 4064.9 NEON fmla.4s 128bit B : 0.762 9400.9 9400.9 Average : 2.191 5078.8 5078.8 Highest : 0.762 9400.9 9400.9
Dragonboard 410c Snapdragon 410 1.2GHz ARM64 (AArch64) debian 8.0
Dragonboard 410c Snapdragon 410 1.2GHz ARM64 (AArch64) debian 8.0 ARCH: ARMv8A FPU: AArch64 NEON SingleT SP max: 9.498 GFLOPS SingleT DP max: 4.749 GFLOPS MultiT SP max: 37.965 GFLOPS MultiT DP max: 18.603 GFLOPS CPU core: 4 NEON: yes FMA: no * FPU/NEON (single fp) FPU fmul (32bit x1) n8 : 0.628 1911.5 1911.5 FPU fadd (32bit x1) n8 : 0.522 2298.9 2298.9 FPU fmadd (32bit x1) n8 : 1.019 2355.4 2355.4 NEON fmul.2s (32bit x2) n8 : 0.547 4389.1 4389.1 NEON fadd.2s (32bit x2) n8 : 0.547 4388.9 4388.9 NEON fmla.2s (32bit x2) n8 : 0.671 7151.5 7151.5 NEON fmul.4s (32bit x4) n8 : 1.019 4710.1 4710.1 NEON fadd.4s (32bit x4) n8 : 1.019 4710.1 4710.1 NEON fmla.4s (32bit x4) n8 : 1.019 9420.1 9420.1 FPU fmul (32bit x1) ns4 : 0.994 1206.9 1206.9 FPU fadd (32bit x1) ns4 : 0.994 1206.9 1206.9 FPU fmadd (32bit x1) ns4 : 1.243 1930.7 1930.7 NEON fmul.2s (32bit x2) ns4 : 0.994 2413.9 2413.9 NEON fadd.2s (32bit x2) ns4 : 0.994 2413.8 2413.8 NEON fmla.2s (32bit x2) ns4 : 1.989 2413.6 2413.6 NEON fmul.4s (32bit x4) ns4 : 1.019 4710.5 4710.5 NEON fadd.4s (32bit x4) ns4 : 1.019 4709.6 4709.6 NEON fmla.4s (32bit x4) ns4 : 1.988 4827.8 4827.8 FPU fmul (32bit x1) n1 : 0.994 1206.9 1206.9 FPU fadd (32bit x1) n1 : 0.994 1206.9 1206.9 FPU fmadd (32bit x1) n1 : 7.954 301.7 301.7 NEON fmul.2s (32bit x2) n1 : 0.994 2413.9 2413.9 NEON fadd.2s (32bit x2) n1 : 0.994 2413.9 2413.9 NEON fmla.2s (32bit x2) n1 : 4.971 965.6 965.6 NEON fmul.4s (32bit x4) n1 : 1.019 4709.8 4709.8 NEON fadd.4s (32bit x4) n1 : 1.019 4710.0 4710.0 NEON fmla.4s (32bit x4) n1 : 4.971 1931.0 1931.0 NEON fmul.4s (32bit x4) n12 : 1.516 4748.6 4748.6 NEON fadd.4s (32bit x4) n12 : 1.516 4748.7 4748.7 NEON fmla.4s (32bit x4) n12 : 1.516 9497.5 9497.5 Average : 1.556 3534.1 3534.1 Highest : 0.522 9497.5 9497.5 * FPU/NEON (double fp) FPU fmul (64bit x1) n8 : 0.683 1756.9 1756.9 FPU fadd (64bit x1) n8 : 0.547 2194.7 2194.7 FPU fmadd (64bit x1) n8 : 1.018 2356.9 2356.9 NEON fmul.2d (64bit x2) n8 : 1.019 2354.5 2354.5 NEON fadd.2d (64bit x2) n8 : 1.019 2354.9 2354.9 NEON fmla.2d (64bit x2) n8 : 1.019 4709.9 4709.9 FPU fmul (64bit x1) ns4 : 0.994 1206.9 1206.9 FPU fadd (64bit x1) ns4 : 0.994 1207.0 1207.0 FPU fmadd (64bit x1) ns4 : 1.243 1931.1 1931.1 NEON fmul.2d (64bit x2) ns4 : 1.019 2355.0 2355.0 NEON fadd.2d (64bit x2) ns4 : 1.019 2355.0 2355.0 NEON fmla.2d (64bit x2) ns4 : 1.989 2413.9 2413.9 FPU fmul (64bit x1) n1 : 0.994 1206.9 1206.9 FPU fadd (64bit x1) n1 : 0.994 1206.9 1206.9 FPU fmadd (64bit x1) n1 : 7.954 301.7 301.7 NEON fmul.2d (64bit x2) n1 : 1.019 2355.0 2355.0 NEON fadd.2d (64bit x2) n1 : 1.019 2354.9 2354.9 NEON fmla.2d (64bit x2) n1 : 4.971 965.5 965.5 NEON fmul.2d (64bit x2) n12 : 1.516 2374.4 2374.4 NEON fadd.2d (64bit x2) n12 : 1.516 2374.2 2374.2 NEON fmla.2d (64bit x2) n12 : 1.516 4748.9 4748.9 Average : 1.622 2146.9 2146.9 Highest : 0.547 4748.9 4748.9 * Matrix 4x4 C++ code : 1.057 1695.9 1695.9 NEON fmla.4s 128bit A : 1.268 1413.6 1413.6 NEON fmla.4s 128bit B : 0.592 3029.1 3029.1 Average : 0.972 2046.2 2046.2 Highest : 0.592 3029.1 3029.1 * FPU/NEON (single fp) multi-thread FPU fmul (32bit x1) n8 : 0.615 7804.0 7804.0 FPU fadd (32bit x1) n8 : 0.523 9183.2 9183.2 FPU fmadd (32bit x1) n8 : 1.018 9426.6 9426.6 NEON fmul.2s (32bit x2) n8 : 0.548 17531.8 17531.8 NEON fadd.2s (32bit x2) n8 : 0.547 17551.7 17551.7 NEON fmla.2s (32bit x2) n8 : 0.671 28611.2 28611.2 NEON fmul.4s (32bit x4) n8 : 1.020 18830.0 18830.0 NEON fadd.4s (32bit x4) n8 : 1.020 18823.9 18823.9 NEON fmla.4s (32bit x4) n8 : 1.020 37660.4 37660.4 FPU fmul (32bit x1) ns4 : 0.994 4828.0 4828.0 FPU fadd (32bit x1) ns4 : 0.995 4824.8 4824.8 FPU fmadd (32bit x1) ns4 : 1.243 7721.2 7721.2 NEON fmul.2s (32bit x2) ns4 : 0.994 9656.2 9656.2 NEON fadd.2s (32bit x2) ns4 : 0.995 9649.0 9649.0 NEON fmla.2s (32bit x2) ns4 : 1.989 9653.2 9653.2 NEON fmul.4s (32bit x4) ns4 : 1.020 18824.1 18824.1 NEON fadd.4s (32bit x4) ns4 : 1.020 18829.1 18829.1 NEON fmla.4s (32bit x4) ns4 : 1.990 19296.5 19296.5 FPU fmul (32bit x1) n1 : 0.995 4825.0 4825.0 FPU fadd (32bit x1) n1 : 0.994 4828.2 4828.2 FPU fmadd (32bit x1) n1 : 7.958 1206.4 1206.4 NEON fmul.2s (32bit x2) n1 : 0.994 9656.6 9656.6 NEON fadd.2s (32bit x2) n1 : 0.995 9649.0 9649.0 NEON fmla.2s (32bit x2) n1 : 4.973 3860.9 3860.9 NEON fmul.4s (32bit x4) n1 : 1.020 18827.5 18827.5 NEON fadd.4s (32bit x4) n1 : 1.020 18830.0 18830.0 NEON fmla.4s (32bit x4) n1 : 4.973 7721.8 7721.8 NEON fmul.4s (32bit x4) n12 : 1.517 18988.4 18988.4 NEON fadd.4s (32bit x4) n12 : 1.517 18983.8 18983.8 NEON fmla.4s (32bit x4) n12 : 1.517 37965.1 37965.1 Average : 1.556 14134.9 14134.9 Highest : 0.523 37965.1 37965.1 * FPU/NEON (double fp) multi-thread FPU fmul (64bit x1) n8 : 0.567 8458.6 8458.6 FPU fadd (64bit x1) n8 : 0.547 8777.6 8777.6 FPU fmadd (64bit x1) n8 : 1.019 9421.6 9421.6 NEON fmul.2d (64bit x2) n8 : 1.019 9421.0 9421.0 NEON fadd.2d (64bit x2) n8 : 1.020 9413.5 9413.5 NEON fmla.2d (64bit x2) n8 : 1.032 18603.0 18603.0 FPU fmul (64bit x1) ns4 : 1.002 4789.7 4789.7 FPU fadd (64bit x1) ns4 : 0.998 4811.2 4811.2 FPU fmadd (64bit x1) ns4 : 1.244 7714.6 7714.6 NEON fmul.2d (64bit x2) ns4 : 1.021 9404.4 9404.4 NEON fadd.2d (64bit x2) ns4 : 1.031 9308.5 9308.5 NEON fmla.2d (64bit x2) ns4 : 1.994 9627.8 9627.8 FPU fmul (64bit x1) n1 : 0.994 4828.1 4828.1 FPU fadd (64bit x1) n1 : 0.995 4824.6 4824.6 FPU fmadd (64bit x1) n1 : 7.957 1206.5 1206.5 NEON fmul.2d (64bit x2) n1 : 1.020 9414.5 9414.5 NEON fadd.2d (64bit x2) n1 : 1.020 9413.9 9413.9 NEON fmla.2d (64bit x2) n1 : 4.973 3861.0 3861.0 NEON fmul.2d (64bit x2) n12 : 1.518 9487.5 9487.5 NEON fadd.2d (64bit x2) n12 : 1.517 9494.1 9494.1 NEON fmla.2d (64bit x2) n12 : 1.558 18486.2 18486.2 Average : 1.621 8608.0 8608.0 Highest : 0.547 18603.0 18603.0 * Matrix 4x4 multi-thread C++ code : 1.033 6941.0 6941.0 NEON fmla.4s 128bit A : 1.268 5654.5 5654.5 NEON fmla.4s 128bit B : 0.592 12101.7 12101.7 Average : 0.964 8232.4 8232.4 Highest : 0.592 12101.7 12101.7
Nexus 5X Snapdragon 808 MSM8992 little core A53 1.44GHz x4 ARM64 (AArch64) android 8.1
ARCH: ARMv8A 3 FPU: AArch64 NEON SingleT SP max: 11.239 GFLOPS SingleT DP max: 5.606 GFLOPS MultiT SP max: 44.899 GFLOPS MultiT DP max: 22.535 GFLOPS CPU core: 4 FPHP : no SIMDHP: no * FPU/NEON (single fp) TIME(s) MFLOPS MOPS FOP IPC max MFLOPS FPU fmul (32bit x1) n8 : 0.487 2465.3 2465.3 ( 1 1.7) 2465.3 FPU fadd (32bit x1) n8 : 0.442 2714.1 2714.1 ( 1 1.9) 2714.1 FPU fmadd (32bit x1) n8 : 0.845 2841.1 1420.5 ( 2 1.0) 2841.1 NEON fmul.2s (32bit x2) n8 : 0.463 5180.9 2590.4 ( 2 1.8) 5180.9 NEON fadd.2s (32bit x2) n8 : 0.440 5452.1 2726.1 ( 2 1.9) 5452.1 NEON fmla.2s (32bit x2) n8 : 0.461 10402.7 2600.7 ( 4 1.8) 10402.7 NEON fmul.4s (32bit x4) n8 : 0.860 5580.5 1395.1 ( 4 1.0) 5580.5 NEON fadd.4s (32bit x4) n8 : 0.860 5583.0 1395.7 ( 4 1.0) 5583.0 NEON fmla.4s (32bit x4) n8 : 0.859 11169.5 1396.2 ( 8 1.0) 11169.5 FPU fmul (32bit x1) ns4 : 0.839 1430.3 1430.3 ( 1 1.0) 1430.3 FPU fadd (32bit x1) ns4 : 0.841 1426.9 1426.9 ( 1 1.0) 1426.9 FPU fmadd (32bit x1) ns4 : 0.943 2543.8 1271.9 ( 2 0.9) 2543.8 NEON fmul.2s (32bit x2) ns4 : 0.839 2862.1 1431.1 ( 2 1.0) 2862.1 NEON fadd.2s (32bit x2) ns4 : 0.840 2857.9 1428.9 ( 2 1.0) 2857.9 NEON fmla.2s (32bit x2) ns4 : 1.683 2851.4 712.8 ( 4 0.5) 2851.4 NEON fmul.4s (32bit x4) ns4 : 0.871 5511.3 1377.8 ( 4 1.0) 5511.3 NEON fadd.4s (32bit x4) ns4 : 0.860 5579.6 1394.9 ( 4 1.0) 5579.6 NEON fmla.4s (32bit x4) ns4 : 1.688 5687.1 710.9 ( 8 0.5) 5687.1 FPU fmul (32bit x1) n1 : 0.848 1415.0 1415.0 ( 1 1.0) 1415.0 FPU fadd (32bit x1) n1 : 0.840 1427.9 1427.9 ( 1 1.0) 1427.9 FPU fmadd (32bit x1) n1 : 6.751 355.5 177.7 ( 2 0.1) 355.5 NEON fmul.2s (32bit x2) n1 : 0.842 2849.5 1424.7 ( 2 1.0) 2849.5 NEON fadd.2s (32bit x2) n1 : 0.839 2859.1 1429.5 ( 2 1.0) 2859.1 NEON fmla.2s (32bit x2) n1 : 3.379 1420.7 355.2 ( 4 0.2) 1420.7 NEON fmul.4s (32bit x4) n1 : 0.860 5581.2 1395.3 ( 4 1.0) 5581.2 NEON fadd.4s (32bit x4) n1 : 0.868 5529.5 1382.4 ( 4 1.0) 5529.5 NEON fmla.4s (32bit x4) n1 : 3.370 2848.4 356.1 ( 8 0.2) 2848.4 NEON fmul.4s (32bit x4) n12 : 1.280 5625.6 1406.4 ( 4 1.0) 5625.6 NEON fadd.4s (32bit x4) n12 : 1.280 5625.0 1406.2 ( 4 1.0) 5625.0 NEON fmla.4s (32bit x4) n12 : 1.281 11239.2 1404.9 ( 8 1.0) 11239.2 Average : 1.252 4297.2 1449.0 ( 3 1.0) 4297.2 Highest : 0.440 11239.2 2726.1 ( 8 1.9) 11239.2 * FPU/NEON (double fp) TIME(s) MFLOPS MOPS FOP IPC max MFLOPS FPU fmul (64bit x1) n8 : 0.474 2532.7 2532.7 ( 1 1.8) 2532.7 FPU fadd (64bit x1) n8 : 0.461 2600.3 2600.3 ( 1 1.8) 2600.3 FPU fmadd (64bit x1) n8 : 0.857 2799.2 1399.6 ( 2 1.0) 2799.2 NEON fmul.2d (64bit x2) n8 : 0.860 2789.4 1394.7 ( 2 1.0) 2789.4 NEON fadd.2d (64bit x2) n8 : 0.860 2790.8 1395.4 ( 2 1.0) 2790.8 NEON fmla.2d (64bit x2) n8 : 0.861 5577.9 1394.5 ( 4 1.0) 5577.9 FPU fmul (64bit x1) ns4 : 0.851 1409.5 1409.5 ( 1 1.0) 1409.5 FPU fadd (64bit x1) ns4 : 0.844 1422.0 1422.0 ( 1 1.0) 1422.0 FPU fmadd (64bit x1) ns4 : 0.943 2543.7 1271.9 ( 2 0.9) 2543.7 NEON fmul.2d (64bit x2) ns4 : 0.860 2791.4 1395.7 ( 2 1.0) 2791.4 NEON fadd.2d (64bit x2) ns4 : 0.862 2782.7 1391.3 ( 2 1.0) 2782.7 NEON fmla.2d (64bit x2) ns4 : 1.678 2860.9 715.2 ( 4 0.5) 2860.9 FPU fmul (64bit x1) n1 : 0.843 1423.0 1423.0 ( 1 1.0) 1423.0 FPU fadd (64bit x1) n1 : 0.839 1429.6 1429.6 ( 1 1.0) 1429.6 FPU fmadd (64bit x1) n1 : 6.714 357.5 178.7 ( 2 0.1) 357.5 NEON fmul.2d (64bit x2) n1 : 0.860 2791.8 1395.9 ( 2 1.0) 2791.8 NEON fadd.2d (64bit x2) n1 : 0.860 2791.2 1395.6 ( 2 1.0) 2791.2 NEON fmla.2d (64bit x2) n1 : 3.357 1429.7 357.4 ( 4 0.2) 1429.7 NEON fmul.2d (64bit x2) n12 : 1.279 2814.3 1407.2 ( 2 1.0) 2814.3 NEON fadd.2d (64bit x2) n12 : 1.279 2814.1 1407.0 ( 2 1.0) 2814.1 NEON fmla.2d (64bit x2) n12 : 1.284 5605.8 1401.4 ( 4 1.0) 5605.8 Average : 1.320 2588.4 1367.6 ( 2 0.9) 2588.4 Highest : 0.461 5605.8 2600.3 ( 4 1.8) 5605.8 * Matrix 4x4 TIME(s) MFLOPS MOPS FOP IPC max MFLOPS C++ code : 0.566 3164.7 3164.7 ( 1 2.2) 3164.7 NEON fmla.4s 128bit A : 0.984 1820.6 1820.6 ( 1 1.3) 1820.6 NEON fmla.4s 128bit B : 0.484 3699.5 3699.5 ( 1 2.6) 3699.5 Average : 0.678 2894.9 2894.9 ( 1 2.0) 2894.9 Highest : 0.484 3699.5 3699.5 ( 1 2.6) 3699.5 * FPU/NEON (single fp) multi-thread TIME(s) MFLOPS MOPS FOP IPC max MFLOPS FPU fmul (32bit x1) n8 : 0.484 9908.4 2477.1 ( 4 1.7) 9908.4 FPU fadd (32bit x1) n8 : 0.442 10866.0 2716.5 ( 4 1.9) 10866.0 FPU fmadd (32bit x1) n8 : 0.840 11431.1 1428.9 ( 8 1.0) 11431.1 NEON fmul.2s (32bit x2) n8 : 0.463 20718.9 2589.9 ( 8 1.8) 20718.9 NEON fadd.2s (32bit x2) n8 : 0.441 21754.3 2719.3 ( 8 1.9) 21754.3 NEON fmla.2s (32bit x2) n8 : 0.466 41244.1 2577.8 ( 16 1.8) 41244.1 NEON fmul.4s (32bit x4) n8 : 0.865 22207.2 1387.9 ( 16 1.0) 22207.2 NEON fadd.4s (32bit x4) n8 : 0.861 22290.2 1393.1 ( 16 1.0) 22290.2 NEON fmla.4s (32bit x4) n8 : 0.863 44513.6 1391.0 ( 32 1.0) 44513.6 FPU fmul (32bit x1) ns4 : 0.839 5721.2 1430.3 ( 4 1.0) 5721.2 FPU fadd (32bit x1) ns4 : 0.842 5701.3 1425.3 ( 4 1.0) 5701.3 FPU fmadd (32bit x1) ns4 : 0.944 10167.9 1271.0 ( 8 0.9) 10167.9 NEON fmul.2s (32bit x2) ns4 : 0.840 11426.1 1428.3 ( 8 1.0) 11426.1 NEON fadd.2s (32bit x2) ns4 : 0.840 11429.3 1428.7 ( 8 1.0) 11429.3 NEON fmla.2s (32bit x2) ns4 : 1.700 11295.3 706.0 ( 16 0.5) 11295.3 NEON fmul.4s (32bit x4) ns4 : 0.862 22271.7 1392.0 ( 16 1.0) 22271.7 NEON fadd.4s (32bit x4) ns4 : 0.859 22342.3 1396.4 ( 16 1.0) 22342.3 NEON fmla.4s (32bit x4) ns4 : 1.678 22883.5 715.1 ( 32 0.5) 22883.5 FPU fmul (32bit x1) n1 : 0.839 5724.2 1431.1 ( 4 1.0) 5724.2 FPU fadd (32bit x1) n1 : 0.839 5719.0 1429.8 ( 4 1.0) 5719.0 FPU fmadd (32bit x1) n1 : 6.714 1429.9 178.7 ( 8 0.1) 1429.9 NEON fmul.2s (32bit x2) n1 : 0.840 11430.3 1428.8 ( 8 1.0) 11430.3 NEON fadd.2s (32bit x2) n1 : 0.838 11458.5 1432.3 ( 8 1.0) 11458.5 NEON fmla.2s (32bit x2) n1 : 3.355 5723.6 357.7 ( 16 0.2) 5723.6 NEON fmul.4s (32bit x4) n1 : 0.859 22355.2 1397.2 ( 16 1.0) 22355.2 NEON fadd.4s (32bit x4) n1 : 0.860 22328.7 1395.5 ( 16 1.0) 22328.7 NEON fmla.4s (32bit x4) n1 : 3.357 11438.4 357.5 ( 32 0.2) 11438.4 NEON fmul.4s (32bit x4) n12 : 1.278 22534.5 1408.4 ( 16 1.0) 22534.5 NEON fadd.4s (32bit x4) n12 : 1.283 22455.5 1403.5 ( 16 1.0) 22455.5 NEON fmla.4s (32bit x4) n12 : 1.283 44899.0 1403.1 ( 32 1.0) 44899.0 Average : 1.249 17189.0 1449.9 ( 13 1.0) 17189.0 Highest : 0.441 44899.0 2719.3 ( 32 1.9) 44899.0 * FPU/NEON (double fp) multi-thread TIME(s) MFLOPS MOPS FOP IPC max MFLOPS FPU fmul (64bit x1) n8 : 0.458 10477.5 2619.4 ( 4 1.8) 10477.5 FPU fadd (64bit x1) n8 : 0.462 10382.0 2595.5 ( 4 1.8) 10382.0 FPU fmadd (64bit x1) n8 : 0.863 11117.6 1389.7 ( 8 1.0) 11117.6 NEON fmul.2d (64bit x2) n8 : 0.860 11160.2 1395.0 ( 8 1.0) 11160.2 NEON fadd.2d (64bit x2) n8 : 0.868 11065.3 1383.2 ( 8 1.0) 11065.3 NEON fmla.2d (64bit x2) n8 : 0.862 22280.0 1392.5 ( 16 1.0) 22280.0 FPU fmul (64bit x1) ns4 : 0.843 5692.5 1423.1 ( 4 1.0) 5692.5 FPU fadd (64bit x1) ns4 : 0.840 5714.2 1428.6 ( 4 1.0) 5714.2 FPU fmadd (64bit x1) ns4 : 0.944 10171.8 1271.5 ( 8 0.9) 10171.8 NEON fmul.2d (64bit x2) ns4 : 0.859 11169.9 1396.2 ( 8 1.0) 11169.9 NEON fadd.2d (64bit x2) ns4 : 0.860 11164.8 1395.6 ( 8 1.0) 11164.8 NEON fmla.2d (64bit x2) ns4 : 1.679 11435.7 714.7 ( 16 0.5) 11435.7 FPU fmul (64bit x1) n1 : 0.838 5725.9 1431.5 ( 4 1.0) 5725.9 FPU fadd (64bit x1) n1 : 0.838 5728.1 1432.0 ( 4 1.0) 5728.1 FPU fmadd (64bit x1) n1 : 6.715 1429.5 178.7 ( 8 0.1) 1429.5 NEON fmul.2d (64bit x2) n1 : 0.861 11147.0 1393.4 ( 8 1.0) 11147.0 NEON fadd.2d (64bit x2) n1 : 0.860 11158.8 1394.9 ( 8 1.0) 11158.8 NEON fmla.2d (64bit x2) n1 : 3.366 5704.1 356.5 ( 16 0.2) 5704.1 NEON fmul.2d (64bit x2) n12 : 1.280 11246.4 1405.8 ( 8 1.0) 11246.4 NEON fadd.2d (64bit x2) n12 : 1.280 11249.7 1406.2 ( 8 1.0) 11249.7 NEON fmla.2d (64bit x2) n12 : 1.278 22534.8 1408.4 ( 16 1.0) 22534.8 Average : 1.320 10369.3 1372.0 ( 8 1.0) 10369.3 Highest : 0.458 22534.8 2619.4 ( 16 1.8) 22534.8 * Matrix 4x4 multi-thread TIME(s) MFLOPS MOPS FOP IPC max MFLOPS C++ code : 0.585 12250.9 3062.7 ( 4 2.1) 12250.9 NEON fmla.4s 128bit A : 0.985 7274.5 1818.6 ( 4 1.3) 7274.5 NEON fmla.4s 128bit B : 0.486 14758.2 3689.6 ( 4 2.6) 14758.2 Average : 0.685 11427.9 2857.0 ( 4 2.0) 11427.9 Highest : 0.486 14758.2 3689.6 ( 4 2.6) 14758.2 cpu0 1440000 384000 cpu1 1440000 384000 cpu2 1440000 384000 cpu3 1440000 384000 cpu4 1824000 384000 cpu5 1824000 384000 processor : 0 Features : fp asimd evtstrm aes pmull sha1 sha2 crc32 CPU implementer : 0x41 CPU architecture: 8 CPU variant : 0x0 CPU part : 0xd03 CPU revision : 3 processor : 1 Features : fp asimd evtstrm aes pmull sha1 sha2 crc32 CPU implementer : 0x41 CPU architecture: 8 CPU variant : 0x0 CPU part : 0xd03 CPU revision : 3 processor : 2 Features : fp asimd evtstrm aes pmull sha1 sha2 crc32 CPU implementer : 0x41 CPU architecture: 8 CPU variant : 0x0 CPU part : 0xd03 CPU revision : 3 processor : 3 Features : fp asimd evtstrm aes pmull sha1 sha2 crc32 CPU implementer : 0x41 CPU architecture: 8 CPU variant : 0x0 CPU part : 0xd03 CPU revision : 3 processor : 4 Features : fp asimd evtstrm aes pmull sha1 sha2 crc32 CPU implementer : 0x41 CPU architecture: 8 CPU variant : 0x1 CPU part : 0xd07 CPU revision : 2 processor : 5 Features : fp asimd evtstrm aes pmull sha1 sha2 crc32 CPU implementer : 0x41 CPU architecture: 8 CPU variant : 0x1 CPU part : 0xd07 CPU revision : 2 Hardware : Qualcomm Technologies, Inc MSM8992 Qualcomm Technologies, Inc MSM8992 2019/01/05 13:55:26
Galxy S6 Edge Exynos 7420 little core 1.5GHz x4 ARM64 (AArch64) android 7.0
ARCH: ARMv8A 3 FPU: AArch64 NEON SingleT SP max: 11.766 GFLOPS SingleT DP max: 5.885 GFLOPS MultiT SP max: 47.103 GFLOPS MultiT DP max: 23.404 GFLOPS CPU core: 4 FPHP : no SIMDHP: no * FPU/NEON (single fp) TIME(s) MFLOPS MOPS FOP IPC max MFLOPS FPU fmul (32bit x1) n8 : 0.482 2491.2 2491.2 ( 1 1.7) 2491.2 FPU fadd (32bit x1) n8 : 0.422 2843.9 2843.9 ( 1 1.9) 2843.9 FPU fmadd (32bit x1) n8 : 0.803 2988.6 1494.3 ( 2 1.0) 2988.6 NEON fmul.2s (32bit x2) n8 : 0.441 5436.4 2718.2 ( 2 1.8) 5436.4 NEON fadd.2s (32bit x2) n8 : 0.421 5696.7 2848.3 ( 2 1.9) 5696.7 NEON fmla.2s (32bit x2) n8 : 0.541 8866.1 2216.5 ( 4 1.5) 8866.1 NEON fmul.4s (32bit x4) n8 : 0.828 5799.0 1449.7 ( 4 1.0) 5799.0 NEON fadd.4s (32bit x4) n8 : 0.822 5837.5 1459.4 ( 4 1.0) 5837.5 NEON fmla.4s (32bit x4) n8 : 0.823 11668.2 1458.5 ( 8 1.0) 11668.2 FPU fmul (32bit x1) ns4 : 0.802 1495.8 1495.8 ( 1 1.0) 1495.8 FPU fadd (32bit x1) ns4 : 0.803 1494.1 1494.1 ( 1 1.0) 1494.1 FPU fmadd (32bit x1) ns4 : 1.003 2392.2 1196.1 ( 2 0.8) 2392.2 NEON fmul.2s (32bit x2) ns4 : 0.802 2991.3 1495.6 ( 2 1.0) 2991.3 NEON fadd.2s (32bit x2) ns4 : 0.802 2992.1 1496.1 ( 2 1.0) 2992.1 NEON fmla.2s (32bit x2) ns4 : 1.605 2990.9 747.7 ( 4 0.5) 2990.9 NEON fmul.4s (32bit x4) ns4 : 0.822 5836.6 1459.2 ( 4 1.0) 5836.6 NEON fadd.4s (32bit x4) ns4 : 0.823 5833.4 1458.3 ( 4 1.0) 5833.4 NEON fmla.4s (32bit x4) ns4 : 1.606 5976.9 747.1 ( 8 0.5) 5976.9 FPU fmul (32bit x1) n1 : 0.803 1494.2 1494.2 ( 1 1.0) 1494.2 FPU fadd (32bit x1) n1 : 0.803 1495.1 1495.1 ( 1 1.0) 1495.1 FPU fmadd (32bit x1) n1 : 6.424 373.6 186.8 ( 2 0.1) 373.6 NEON fmul.2s (32bit x2) n1 : 0.809 2965.5 1482.7 ( 2 1.0) 2965.5 NEON fadd.2s (32bit x2) n1 : 0.802 2990.9 1495.5 ( 2 1.0) 2990.9 NEON fmla.2s (32bit x2) n1 : 4.013 1196.2 299.0 ( 4 0.2) 1196.2 NEON fmul.4s (32bit x4) n1 : 0.823 5834.3 1458.6 ( 4 1.0) 5834.3 NEON fadd.4s (32bit x4) n1 : 0.822 5836.3 1459.1 ( 4 1.0) 5836.3 NEON fmla.4s (32bit x4) n1 : 4.012 2392.8 299.1 ( 8 0.2) 2392.8 NEON fmul.4s (32bit x4) n12 : 1.224 5884.2 1471.1 ( 4 1.0) 5884.2 NEON fadd.4s (32bit x4) n12 : 1.224 5882.4 1470.6 ( 4 1.0) 5882.4 NEON fmla.4s (32bit x4) n12 : 1.224 11766.0 1470.7 ( 8 1.0) 11766.0 Average : 1.255 4391.4 1488.4 ( 3 1.0) 4391.4 Highest : 0.421 11766.0 2848.3 ( 8 1.9) 11766.0 * FPU/NEON (double fp) TIME(s) MFLOPS MOPS FOP IPC max MFLOPS FPU fmul (64bit x1) n8 : 0.465 2579.5 2579.5 ( 1 1.7) 2579.5 FPU fadd (64bit x1) n8 : 0.441 2720.7 2720.7 ( 1 1.8) 2720.7 FPU fmadd (64bit x1) n8 : 0.815 2945.4 1472.7 ( 2 1.0) 2945.4 NEON fmul.2d (64bit x2) n8 : 0.823 2917.6 1458.8 ( 2 1.0) 2917.6 NEON fadd.2d (64bit x2) n8 : 0.822 2918.9 1459.4 ( 2 1.0) 2918.9 NEON fmla.2d (64bit x2) n8 : 0.822 5836.1 1459.0 ( 4 1.0) 5836.1 FPU fmul (64bit x1) ns4 : 0.802 1495.5 1495.5 ( 1 1.0) 1495.5 FPU fadd (64bit x1) ns4 : 0.803 1495.2 1495.2 ( 1 1.0) 1495.2 FPU fmadd (64bit x1) ns4 : 1.003 2392.8 1196.4 ( 2 0.8) 2392.8 NEON fmul.2d (64bit x2) ns4 : 0.822 2917.9 1459.0 ( 2 1.0) 2917.9 NEON fadd.2d (64bit x2) ns4 : 0.823 2917.7 1458.9 ( 2 1.0) 2917.7 NEON fmla.2d (64bit x2) ns4 : 1.605 2990.9 747.7 ( 4 0.5) 2990.9 FPU fmul (64bit x1) n1 : 0.802 1495.8 1495.8 ( 1 1.0) 1495.8 FPU fadd (64bit x1) n1 : 0.802 1495.9 1495.9 ( 1 1.0) 1495.9 FPU fmadd (64bit x1) n1 : 6.423 373.6 186.8 ( 2 0.1) 373.6 NEON fmul.2d (64bit x2) n1 : 0.823 2916.8 1458.4 ( 2 1.0) 2916.8 NEON fadd.2d (64bit x2) n1 : 0.824 2913.7 1456.9 ( 2 1.0) 2913.7 NEON fmla.2d (64bit x2) n1 : 4.012 1196.5 299.1 ( 4 0.2) 1196.5 NEON fmul.2d (64bit x2) n12 : 1.224 2941.2 1470.6 ( 2 1.0) 2941.2 NEON fadd.2d (64bit x2) n12 : 1.224 2940.1 1470.1 ( 2 1.0) 2940.1 NEON fmla.2d (64bit x2) n12 : 1.223 5885.2 1471.3 ( 4 1.0) 5885.2 Average : 1.305 2680.3 1419.4 ( 2 0.9) 2680.3 Highest : 0.441 5885.2 2720.7 ( 4 1.8) 5885.2 * Matrix 4x4 TIME(s) MFLOPS MOPS FOP IPC max MFLOPS C++ code : 0.619 2896.2 2896.2 ( 1 1.9) 2896.2 NEON fmla.4s 128bit A : 1.027 1745.5 1745.5 ( 1 1.2) 1745.5 NEON fmla.4s 128bit B : 0.484 3702.5 3702.5 ( 1 2.5) 3702.5 Average : 0.710 2781.4 2781.4 ( 1 1.9) 2781.4 Highest : 0.484 3702.5 3702.5 ( 1 2.5) 3702.5 * FPU/NEON (single fp) multi-thread TIME(s) MFLOPS MOPS FOP IPC max MFLOPS FPU fmul (32bit x1) n8 : 0.473 10156.1 2539.0 ( 4 1.7) 10156.1 FPU fadd (32bit x1) n8 : 0.421 11396.1 2849.0 ( 4 1.9) 11396.1 FPU fmadd (32bit x1) n8 : 0.803 11958.2 1494.8 ( 8 1.0) 11958.2 NEON fmul.2s (32bit x2) n8 : 0.441 21751.8 2719.0 ( 8 1.8) 21751.8 NEON fadd.2s (32bit x2) n8 : 0.421 22790.3 2848.8 ( 8 1.9) 22790.3 NEON fmla.2s (32bit x2) n8 : 0.540 35573.1 2223.3 ( 16 1.5) 35573.1 NEON fmul.4s (32bit x4) n8 : 0.822 23357.7 1459.9 ( 16 1.0) 23357.7 NEON fadd.4s (32bit x4) n8 : 0.832 23074.2 1442.1 ( 16 1.0) 23074.2 NEON fmla.4s (32bit x4) n8 : 0.828 46369.8 1449.1 ( 32 1.0) 46369.8 FPU fmul (32bit x1) ns4 : 0.806 5957.2 1489.3 ( 4 1.0) 5957.2 FPU fadd (32bit x1) ns4 : 0.809 5931.0 1482.7 ( 4 1.0) 5931.0 FPU fmadd (32bit x1) ns4 : 1.003 9567.1 1195.9 ( 8 0.8) 9567.1 NEON fmul.2s (32bit x2) ns4 : 0.803 11961.4 1495.2 ( 8 1.0) 11961.4 NEON fadd.2s (32bit x2) ns4 : 0.802 11967.9 1496.0 ( 8 1.0) 11967.9 NEON fmla.2s (32bit x2) ns4 : 1.604 11969.8 748.1 ( 16 0.5) 11969.8 NEON fmul.4s (32bit x4) ns4 : 0.823 23337.3 1458.6 ( 16 1.0) 23337.3 NEON fadd.4s (32bit x4) ns4 : 0.822 23353.6 1459.6 ( 16 1.0) 23353.6 NEON fmla.4s (32bit x4) ns4 : 1.611 23837.6 744.9 ( 32 0.5) 23837.6 FPU fmul (32bit x1) n1 : 0.802 5984.2 1496.0 ( 4 1.0) 5984.2 FPU fadd (32bit x1) n1 : 0.803 5978.5 1494.6 ( 4 1.0) 5978.5 FPU fmadd (32bit x1) n1 : 6.416 1496.2 187.0 ( 8 0.1) 1496.2 NEON fmul.2s (32bit x2) n1 : 0.802 11970.3 1496.3 ( 8 1.0) 11970.3 NEON fadd.2s (32bit x2) n1 : 0.802 11972.2 1496.5 ( 8 1.0) 11972.2 NEON fmla.2s (32bit x2) n1 : 4.016 4780.5 298.8 ( 16 0.2) 4780.5 NEON fmul.4s (32bit x4) n1 : 0.822 23356.7 1459.8 ( 16 1.0) 23356.7 NEON fadd.4s (32bit x4) n1 : 0.823 23330.3 1458.1 ( 16 1.0) 23330.3 NEON fmla.4s (32bit x4) n1 : 4.010 9577.1 299.3 ( 32 0.2) 9577.1 NEON fmul.4s (32bit x4) n12 : 1.228 23449.3 1465.6 ( 16 1.0) 23449.3 NEON fadd.4s (32bit x4) n12 : 1.223 23552.5 1472.0 ( 16 1.0) 23552.5 NEON fmla.4s (32bit x4) n12 : 1.223 47103.2 1472.0 ( 32 1.0) 47103.2 Average : 1.254 17562.0 1489.7 ( 13 1.0) 17562.0 Highest : 0.421 47103.2 2849.0 ( 32 1.9) 47103.2 * FPU/NEON (double fp) multi-thread TIME(s) MFLOPS MOPS FOP IPC max MFLOPS FPU fmul (64bit x1) n8 : 0.444 10799.7 2699.9 ( 4 1.8) 10799.7 FPU fadd (64bit x1) n8 : 0.441 10879.3 2719.8 ( 4 1.8) 10879.3 FPU fmadd (64bit x1) n8 : 0.818 11740.7 1467.6 ( 8 1.0) 11740.7 NEON fmul.2d (64bit x2) n8 : 0.822 11677.4 1459.7 ( 8 1.0) 11677.4 NEON fadd.2d (64bit x2) n8 : 0.822 11678.2 1459.8 ( 8 1.0) 11678.2 NEON fmla.2d (64bit x2) n8 : 0.822 23358.5 1459.9 ( 16 1.0) 23358.5 FPU fmul (64bit x1) ns4 : 0.803 5979.0 1494.7 ( 4 1.0) 5979.0 FPU fadd (64bit x1) ns4 : 0.822 5837.6 1459.4 ( 4 1.0) 5837.6 FPU fmadd (64bit x1) ns4 : 1.031 9314.8 1164.3 ( 8 0.8) 9314.8 NEON fmul.2d (64bit x2) ns4 : 0.831 11555.7 1444.5 ( 8 1.0) 11555.7 NEON fadd.2d (64bit x2) ns4 : 0.832 11537.9 1442.2 ( 8 1.0) 11537.9 NEON fmla.2d (64bit x2) ns4 : 1.611 11918.2 744.9 ( 16 0.5) 11918.2 FPU fmul (64bit x1) n1 : 0.803 5977.2 1494.3 ( 4 1.0) 5977.2 FPU fadd (64bit x1) n1 : 0.802 5986.3 1496.6 ( 4 1.0) 5986.3 FPU fmadd (64bit x1) n1 : 6.446 1489.2 186.2 ( 8 0.1) 1489.2 NEON fmul.2d (64bit x2) n1 : 0.832 11540.6 1442.6 ( 8 1.0) 11540.6 NEON fadd.2d (64bit x2) n1 : 0.824 11654.3 1456.8 ( 8 1.0) 11654.3 NEON fmla.2d (64bit x2) n1 : 4.092 4692.2 293.3 ( 16 0.2) 4692.2 NEON fmul.2d (64bit x2) n12 : 1.285 11209.1 1401.1 ( 8 0.9) 11209.1 NEON fadd.2d (64bit x2) n12 : 1.268 11353.1 1419.1 ( 8 0.9) 11353.1 NEON fmla.2d (64bit x2) n12 : 1.231 23404.2 1462.8 ( 16 1.0) 23404.2 Average : 1.318 10646.8 1412.8 ( 8 0.9) 10646.8 Highest : 0.441 23404.2 2719.8 ( 16 1.8) 23404.2 * Matrix 4x4 multi-thread TIME(s) MFLOPS MOPS FOP IPC max MFLOPS C++ code : 0.606 11836.0 2959.0 ( 4 2.0) 11836.0 NEON fmla.4s 128bit A : 1.028 6974.2 1743.6 ( 4 1.2) 6974.2 NEON fmla.4s 128bit B : 0.484 14809.6 3702.4 ( 4 2.5) 14809.6 Average : 0.706 11206.6 2801.6 ( 4 1.9) 11206.6 Highest : 0.484 14809.6 3702.4 ( 4 2.5) 14809.6 cpu0 1500000 400000 cpu1 1500000 400000 cpu2 1500000 400000 cpu3 1500000 400000 cpu4 2100000 800000 cpu5 2100000 800000 cpu6 2100000 800000 cpu7 2100000 800000 Processor : AArch64 Processor rev 0 (aarch64) processor : 0 processor : 1 processor : 2 processor : 3 processor : 4 processor : 5 processor : 6 processor : 7 Features : fp asimd aes pmull sha1 sha2 crc32 CPU implementer : 0x41 CPU architecture: AArch64 CPU variant : 0x1 CPU part : 0xd07 CPU revision : 0 Hardware : SAMSUNG Exynos7420 SAMSUNG Exynos7420 2019/01/05 14:05:12
Chromebook Flip C101PA RK3399 little core 1.5GHz x4 ARM64 (AArch64) android 7.1
ARCH: ARMv7A 2 FPU: VFPv3-D32 NEON SingleT SP max: 11.778 GFLOPS SingleT DP max: 5.460 GFLOPS MultiT SP max: 47.213 GFLOPS MultiT DP max: 21.726 GFLOPS CPU core: 4 NEON: yes FMA : no * VFP/NEON (single fp) TIME(s) MFLOPS MOPS FOP IPC max MFLOPS VFP fmuls (32bit x1) n8 : 0.482 2487.4 2487.4 ( 1 1.6) 2487.4 VFP fadds (32bit x1) n8 : 0.440 2728.9 2728.9 ( 1 1.8) 2728.9 VFP fmacs (32bit x1) n8 : 0.638 3759.7 1879.8 ( 2 1.2) 3759.7 VFP vfma.f32 (32bit x1) n8 : - - - - - NEON vmul.f32 (32bit x2) n8 : 0.439 5462.1 2731.1 ( 2 1.8) 5462.1 NEON vadd.f32 (32bit x2) n8 : 0.419 5722.0 2861.0 ( 2 1.9) 5722.0 NEON vmla.f32 (32bit x2) n8 : 0.440 10914.3 2728.6 ( 4 1.8) 10914.3 NEON vfma.f32 (32bit x2) n8 : - - - - - NEON vmul.f32 (32bit x4) n8 : 0.819 5858.5 1464.6 ( 4 1.0) 5858.5 NEON vadd.f32 (32bit x4) n8 : 0.821 5849.9 1462.5 ( 4 1.0) 5849.9 NEON vmla.f32 (32bit x4) n8 : 0.819 11717.7 1464.7 ( 8 1.0) 11717.7 NEON vfma.f32 (32bit x4) n8 : - - - - - VFP fmuls (32bit x1) ns4 : 0.799 1501.6 1501.6 ( 1 1.0) 1501.6 VFP fadds (32bit x1) ns4 : 0.799 1501.7 1501.7 ( 1 1.0) 1501.7 VFP fmacs (32bit x1) ns4 : 1.607 1493.7 746.9 ( 2 0.5) 1493.7 VFP vfma.f32 (32bit x1) ns4 : - - - - - NEON vmul.f32 (32bit x2) ns4 : 0.805 2979.7 1489.9 ( 2 1.0) 2979.7 NEON vadd.f32 (32bit x2) ns4 : 0.811 2957.8 1478.9 ( 2 1.0) 2957.8 NEON vmla.f32 (32bit x2) ns4 : 1.613 2975.6 743.9 ( 4 0.5) 2975.6 NEON vfma.f32 (32bit x2) ns4 : - - - - - NEON vmul.f32 (32bit x4) ns4 : 0.819 5861.5 1465.4 ( 4 1.0) 5861.5 NEON vadd.f32 (32bit x4) ns4 : 0.819 5862.1 1465.5 ( 4 1.0) 5862.1 NEON vmla.f32 (32bit x4) ns4 : 1.605 5980.8 747.6 ( 8 0.5) 5980.8 NEON vfma.f32 (32bit x4) ns4 : - - - - - VFP fmuls (32bit x1) n1 : 0.799 1501.7 1501.7 ( 1 1.0) 1501.7 VFP fadds (32bit x1) n1 : 0.799 1502.0 1502.0 ( 1 1.0) 1502.0 VFP fmacs (32bit x1) n1 : 3.203 749.4 374.7 ( 2 0.2) 749.4 VFP vfma.f32 (32bit x1) n1 : - - - - - NEON vmul.f32 (32bit x2) n1 : 0.799 3004.1 1502.0 ( 2 1.0) 3004.1 NEON vadd.f32 (32bit x2) n1 : 0.799 3004.5 1502.2 ( 2 1.0) 3004.5 NEON vmla.f32 (32bit x2) n1 : 3.209 1495.8 373.9 ( 4 0.2) 1495.8 NEON vfma.f32 (32bit x2) n1 : - - - - - NEON vmul.f32 (32bit x4) n1 : 0.819 5860.3 1465.1 ( 4 1.0) 5860.3 NEON vadd.f32 (32bit x4) n1 : 0.819 5862.1 1465.5 ( 4 1.0) 5862.1 NEON vmla.f32 (32bit x4) n1 : 3.203 2997.6 374.7 ( 8 0.2) 2997.6 NEON vfma.f32 (32bit x4) n1 : - - - - - NEON vmul.f32 (32bit x4) n12 : 1.219 5908.8 1477.2 ( 4 1.0) 5908.8 NEON vadd.f32 (32bit x4) n12 : 1.221 5895.3 1473.8 ( 4 1.0) 5895.3 NEON vmla.f32 (32bit x4) n12 : 1.223 11778.1 1472.3 ( 8 1.0) 11778.1 NEON vfma.f32 (32bit x4) n12 : - - - - - Average : 1.104 4505.8 1514.5 ( 3 1.0) 4505.8 Highest : 0.419 11778.1 2861.0 ( 8 1.9) 11778.1 * VFP/NEON (double fp) TIME(s) MFLOPS MOPS FOP IPC max MFLOPS VFP fmuld (64bit x1) n8 : 0.434 2762.5 2762.5 ( 1 1.8) 2762.5 VFP faddd (64bit x1) n8 : 0.441 2720.5 2720.5 ( 1 1.8) 2720.5 VFP fmacd (64bit x1) n8 : 0.440 5460.1 2730.0 ( 2 1.8) 5460.1 VFP vfma.f64 (64bit x1) n8 : - - - - - VFP fmuld (64bit x1) ns4 : 0.799 1501.8 1501.8 ( 1 1.0) 1501.8 VFP faddd (64bit x1) ns4 : 0.799 1501.3 1501.3 ( 1 1.0) 1501.3 VFP fmacd (64bit x1) ns4 : 1.615 1486.0 743.0 ( 2 0.5) 1486.0 VFP vfma.f64 (64bit x1) ns4 : - - - - - VFP fmuld (64bit x1) n1 : 0.799 1501.9 1501.9 ( 1 1.0) 1501.9 VFP faddd (64bit x1) n1 : 0.800 1500.8 1500.8 ( 1 1.0) 1500.8 VFP fmacd (64bit x1) n1 : 3.197 750.6 375.3 ( 2 0.2) 750.6 VFP vfma.f64 (64bit x1) n1 : - - - - - Average : 1.036 2131.7 1704.1 ( 1 1.1) 2131.7 Highest : 0.434 5460.1 2762.5 ( 2 1.8) 5460.1 * Matrix 4x4 TIME(s) MFLOPS MOPS FOP IPC max MFLOPS C++ code : 0.930 1927.2 1927.2 ( 1 1.3) 1927.2 NEON vmla 128bit A : 0.943 1899.5 1899.5 ( 1 1.3) 1899.5 NEON vmla 64bit A : 1.028 1742.8 1742.8 ( 1 1.2) 1742.8 NEON vfma 128bit A : - - - - - NEON vmla 128bit B : 0.485 3695.1 3695.1 ( 1 2.4) 3695.1 NEON vmla 64bit B : 0.634 2826.9 2826.9 ( 1 1.9) 2826.9 NEON vfma 128bit B : - - - - - NEON vfma 128bit C : - - - - - Average : 0.804 2418.3 2418.3 ( 1 1.6) 2418.3 Highest : 0.485 3695.1 3695.1 ( 1 2.4) 3695.1 * VFP/NEON (single fp) multi-thread TIME(s) MFLOPS MOPS FOP IPC max MFLOPS VFP fmuls (32bit x1) n8 : 0.483 9932.3 2483.1 ( 4 1.6) 9932.3 VFP fadds (32bit x1) n8 : 0.441 10888.0 2722.0 ( 4 1.8) 10888.0 VFP fmacs (32bit x1) n8 : 0.637 15077.4 1884.7 ( 8 1.2) 15077.4 VFP vfma.f32 (32bit x1) n8 : - - - - - NEON vmul.f32 (32bit x2) n8 : 0.442 21700.5 2712.6 ( 8 1.8) 21700.5 NEON vadd.f32 (32bit x2) n8 : 0.422 22732.1 2841.5 ( 8 1.9) 22732.1 NEON vmla.f32 (32bit x2) n8 : 0.442 43471.2 2716.9 ( 16 1.8) 43471.2 NEON vfma.f32 (32bit x2) n8 : - - - - - NEON vmul.f32 (32bit x4) n8 : 0.822 23351.4 1459.5 ( 16 1.0) 23351.4 NEON vadd.f32 (32bit x4) n8 : 0.820 23400.6 1462.5 ( 16 1.0) 23400.6 NEON vmla.f32 (32bit x4) n8 : 0.822 46723.9 1460.1 ( 32 1.0) 46723.9 NEON vfma.f32 (32bit x4) n8 : - - - - - VFP fmuls (32bit x1) ns4 : 0.801 5991.9 1498.0 ( 4 1.0) 5991.9 VFP fadds (32bit x1) ns4 : 0.800 5998.0 1499.5 ( 4 1.0) 5998.0 VFP fmacs (32bit x1) ns4 : 1.608 5970.4 746.3 ( 8 0.5) 5970.4 VFP vfma.f32 (32bit x1) ns4 : - - - - - NEON vmul.f32 (32bit x2) ns4 : 0.800 11999.7 1500.0 ( 8 1.0) 11999.7 NEON vadd.f32 (32bit x2) ns4 : 0.802 11968.6 1496.1 ( 8 1.0) 11968.6 NEON vmla.f32 (32bit x2) ns4 : 1.616 11882.7 742.7 ( 16 0.5) 11882.7 NEON vfma.f32 (32bit x2) ns4 : - - - - - NEON vmul.f32 (32bit x4) ns4 : 0.820 23406.6 1462.9 ( 16 1.0) 23406.6 NEON vadd.f32 (32bit x4) ns4 : 0.820 23415.0 1463.4 ( 16 1.0) 23415.0 NEON vmla.f32 (32bit x4) ns4 : 1.602 23969.8 749.1 ( 32 0.5) 23969.8 NEON vfma.f32 (32bit x4) ns4 : - - - - - VFP fmuls (32bit x1) n1 : 0.813 5906.8 1476.7 ( 4 1.0) 5906.8 VFP fadds (32bit x1) n1 : 0.803 5975.9 1494.0 ( 4 1.0) 5975.9 VFP fmacs (32bit x1) n1 : 3.205 2995.4 374.4 ( 8 0.2) 2995.4 VFP vfma.f32 (32bit x1) n1 : - - - - - NEON vmul.f32 (32bit x2) n1 : 0.801 11989.8 1498.7 ( 8 1.0) 11989.8 NEON vadd.f32 (32bit x2) n1 : 0.800 12000.9 1500.1 ( 8 1.0) 12000.9 NEON vmla.f32 (32bit x2) n1 : 3.202 5996.0 374.8 ( 16 0.2) 5996.0 NEON vfma.f32 (32bit x2) n1 : - - - - - NEON vmul.f32 (32bit x4) n1 : 0.821 23396.5 1462.3 ( 16 1.0) 23396.5 NEON vadd.f32 (32bit x4) n1 : 0.821 23380.9 1461.3 ( 16 1.0) 23380.9 NEON vmla.f32 (32bit x4) n1 : 3.206 11979.3 374.4 ( 32 0.2) 11979.3 NEON vfma.f32 (32bit x4) n1 : - - - - - NEON vmul.f32 (32bit x4) n12 : 1.222 23571.0 1473.2 ( 16 1.0) 23571.0 NEON vadd.f32 (32bit x4) n12 : 1.220 23611.0 1475.7 ( 16 1.0) 23611.0 NEON vmla.f32 (32bit x4) n12 : 1.220 47213.3 1475.4 ( 32 1.0) 47213.3 NEON vfma.f32 (32bit x4) n12 : - - - - - Average : 1.104 17996.6 1511.4 ( 13 1.0) 17996.6 Highest : 0.422 47213.3 2841.5 ( 32 1.9) 47213.3 * VFP/NEON (double fp) multi-thread TIME(s) MFLOPS MOPS FOP IPC max MFLOPS VFP fmuld (64bit x1) n8 : 0.445 10788.2 2697.0 ( 4 1.8) 10788.2 VFP faddd (64bit x1) n8 : 0.441 10882.6 2720.7 ( 4 1.8) 10882.6 VFP fmacd (64bit x1) n8 : 0.442 21726.5 2715.8 ( 8 1.8) 21726.5 VFP vfma.f64 (64bit x1) n8 : - - - - - VFP fmuld (64bit x1) ns4 : 0.800 6001.8 1500.4 ( 4 1.0) 6001.8 VFP faddd (64bit x1) ns4 : 0.800 6002.3 1500.6 ( 4 1.0) 6002.3 VFP fmacd (64bit x1) ns4 : 1.619 5929.5 741.2 ( 8 0.5) 5929.5 VFP vfma.f64 (64bit x1) ns4 : - - - - - VFP fmuld (64bit x1) n1 : 0.801 5989.1 1497.3 ( 4 1.0) 5989.1 VFP faddd (64bit x1) n1 : 0.800 5996.4 1499.1 ( 4 1.0) 5996.4 VFP fmacd (64bit x1) n1 : 3.200 2999.8 375.0 ( 8 0.2) 2999.8 VFP vfma.f64 (64bit x1) n1 : - - - - - Average : 1.039 8479.6 1694.1 ( 5 1.1) 8479.6 Highest : 0.441 21726.5 2720.7 ( 8 1.8) 21726.5 * Matrix 4x4 multi-thread TIME(s) MFLOPS MOPS FOP IPC max MFLOPS C++ code : 0.952 7532.1 1883.0 ( 4 1.2) 7532.1 NEON vmla 128bit A : 0.944 7591.3 1897.8 ( 4 1.3) 7591.3 NEON vmla 64bit A : 1.032 6948.2 1737.0 ( 4 1.1) 6948.2 NEON vfma 128bit A : - - - - - NEON vmla 128bit B : 0.486 14762.6 3690.7 ( 4 2.4) 14762.6 NEON vmla 64bit B : 0.635 11293.9 2823.5 ( 4 1.9) 11293.9 NEON vfma 128bit B : - - - - - NEON vfma 128bit C : - - - - - Average : 0.810 9625.6 2406.4 ( 4 1.6) 9625.6 Highest : 0.486 14762.6 3690.7 ( 4 2.4) 14762.6 cpu0 1512000 408000 cpu1 1512000 408000 cpu2 1512000 408000 cpu3 1512000 408000 cpu4 2016000 408000 cpu5 2016000 408000 processor : 0 model name : ARMv8 Processor rev 4 (v8l) BogoMIPS : 48.00 Features : half thumb fastmult vfp edsp neon vfpv3 tls vfpv4 idiva idivt lpae evtstrm aes pmull sha1 sha2 crc32 CPU implementer : 0x41 CPU architecture: 8 CPU variant : 0x0 CPU part : 0xd03 CPU revision : 4 processor : 1 model name : ARMv8 Processor rev 4 (v8l) BogoMIPS : 48.00 Features : half thumb fastmult vfp edsp neon vfpv3 tls vfpv4 idiva idivt lpae evtstrm aes pmull sha1 sha2 crc32 CPU implementer : 0x41 CPU architecture: 8 CPU variant : 0x0 CPU part : 0xd03 CPU revision : 4 processor : 2 model name : ARMv8 Processor rev 4 (v8l) BogoMIPS : 48.00 Features : half thumb fastmult vfp edsp neon vfpv3 tls vfpv4 idiva idivt lpae evtstrm aes pmull sha1 sha2 crc32 CPU implementer : 0x41 CPU architecture: 8 CPU variant : 0x0 CPU part : 0xd03 CPU revision : 4 processor : 3 model name : ARMv8 Processor rev 4 (v8l) BogoMIPS : 48.00 Features : half thumb fastmult vfp edsp neon vfpv3 tls vfpv4 idiva idivt lpae evtstrm aes pmull sha1 sha2 crc32 CPU implementer : 0x41 CPU architecture: 8 CPU variant : 0x0 CPU part : 0xd03 CPU revision : 4 processor : 4 model name : ARMv8 Processor rev 2 (v8l) BogoMIPS : 48.00 Features : half thumb fastmult vfp edsp neon vfpv3 tls vfpv4 idiva idivt lpae evtstrm aes pmull sha1 sha2 crc32 CPU implementer : 0x41 CPU architecture: 8 CPU variant : 0x0 CPU part : 0xd08 CPU revision : 2 processor : 5 model name : ARMv8 Processor rev 2 (v8l) BogoMIPS : 48.00 Features : half thumb fastmult vfp edsp neon vfpv3 tls vfpv4 idiva idivt lpae evtstrm aes pmull sha1 sha2 crc32 CPU implementer : 0x41 CPU architecture: 8 CPU variant : 0x0 CPU part : 0xd08 CPU revision : 2 ARMv8 Processor rev 4 (v8l) 2019/01/05 16:05:42
ARM Cortex-A57 (ARMv8A AArch64 arm64) FPU+NEON
SHIELD Android TV Tegra X1 2.1GHz ARM64 (AArch64) android 5.1
ARCH: ARMv8A CPU core: 4 VFP: AArch64 NEON FMA: Yes NEON: Yes Result SingleT SP max: 17.041 GFLOPS SingleT DP max: 8.554 GFLOPS MultiT SP max: 67.588 GFLOPS MultiT DP max: 33.730 GFLOPS * VFP/NEON (単精度 fp) single-thread FPU fmul (32bit x1) n8 : 0.290 4131.7 4131.7 FPU fadd (32bit x1) n8 : 0.281 4277.3 4277.3 FPU fmadd (32bit x1) n8 : 0.703 3414.0 3414.0 NEON fmul.2s (32bit x2) n8 : 0.283 8486.5 8486.5 NEON fadd.2s (32bit x2) n8 : 0.282 8517.0 8517.0 NEON fmla.2s (32bit x2) n8 : 0.282 17003.4 17003.4 NEON fmul.4s (32bit x4) n8 : 0.564 8509.6 8509.6 NEON fadd.4s (32bit x4) n8 : 0.562 8540.2 8540.2 NEON fmla.4s (32bit x4) n8 : 0.700 13721.0 13721.0 FPU fmul (32bit x1) ns4 : 0.840 1429.1 1429.1 FPU fadd (32bit x1) ns4 : 0.700 1713.3 1713.3 FPU fmadd (32bit x1) ns4 : 0.700 3428.6 3428.6 NEON fmul.2s (32bit x2) ns4 : 0.840 2856.8 2856.8 NEON fadd.2s (32bit x2) ns4 : 0.700 3428.9 3428.9 NEON fmla.2s (32bit x2) ns4 : 1.400 3428.2 3428.2 NEON fmul.4s (32bit x4) ns4 : 0.840 5712.7 5712.7 NEON fadd.4s (32bit x4) ns4 : 0.700 6855.0 6855.0 NEON fmla.4s (32bit x4) ns4 : 1.402 6849.0 6849.0 FPU fmul (32bit x1) n1 : 0.578 2077.8 2077.8 FPU fadd (32bit x1) n1 : 0.283 4239.4 4239.4 FPU fmadd (32bit x1) n1 : 5.657 424.2 424.2 NEON fmul.2s (32bit x2) n1 : 0.569 4221.2 4249.2 NEON fadd.2s (32bit x2) n1 : 0.283 8469.6 8519.6 NEON fmla.2s (32bit x2) n1 : 2.278 2107.1 2131.1 NEON fmul.4s (32bit x4) n1 : 0.573 8377.3 8483.6 NEON fadd.4s (32bit x4) n1 : 0.569 8435.0 8512.1 NEON fmla.4s (32bit x4) n1 : 2.280 4211.0 4265.5 NEON fmul.4s (32bit x4) n12 : 0.844 8532.3 8532.3 NEON fadd.4s (32bit x4) n12 : 0.845 8520.8 8540.8 NEON fmla.4s (32bit x4) n12 : 0.879 16373.6 17041.3 平均 : 0.924 6276.4 6310.6 最大 : 0.281 17003.4 17041.3 * VFP/NEON (倍精度 fp) single-thread FPU fmul (64bit x1) n8 : 0.312 3846.8 3846.8 FPU fadd (64bit x1) n8 : 0.282 4254.9 4254.9 FPU fmadd (64bit x1) n8 : 0.708 3389.9 3389.9 NEON fmul.2d (64bit x2) n8 : 0.569 4215.4 4215.4 NEON fadd.2d (64bit x2) n8 : 0.568 4226.6 4226.6 NEON fmla.2d (64bit x2) n8 : 0.706 6799.9 6799.9 FPU fmul (64bit x1) ns4 : 0.859 1397.0 1408.4 FPU fadd (64bit x1) ns4 : 0.712 1686.4 1696.0 FPU fmadd (64bit x1) ns4 : 0.744 3223.9 3382.8 NEON fmul.2d (64bit x2) ns4 : 0.858 2797.4 2801.3 NEON fadd.2d (64bit x2) ns4 : 0.709 3384.9 3384.9 NEON fmla.2d (64bit x2) ns4 : 1.416 3389.0 3389.0 FPU fmul (64bit x1) n1 : 0.566 2120.0 2120.0 FPU fadd (64bit x1) n1 : 0.285 4208.8 4208.8 FPU fmadd (64bit x1) n1 : 5.609 427.9 427.9 NEON fmul.2d (64bit x2) n1 : 0.561 4278.3 4278.3 NEON fadd.2d (64bit x2) n1 : 0.561 4280.9 4280.9 NEON fmla.2d (64bit x2) n1 : 2.244 2138.6 2138.6 NEON fmul.2d (64bit x2) n12 : 0.841 4279.4 4279.4 NEON fadd.2d (64bit x2) n12 : 0.841 4279.7 4279.7 NEON fmla.2d (64bit x2) n12 : 0.842 8554.0 8554.0 平均 : 0.990 3675.2 3684.0 最大 : 0.282 8554.0 8554.0 * Matrix 4x4 (単精度 fp) single-thread C++ code : 0.741 2419.4 2419.4 NEON fmla.4s 128bit A : 0.230 7801.6 7860.9 NEON fmla.4s 128bit B : 0.226 7917.8 7917.8 平均 : 0.399 6046.3 6066.0 最大 : 0.226 7917.8 7917.8 * VFP/NEON (単精度 fp) multi-thread FPU fmul (32bit x1) n8 : 0.333 14393.2 14743.0 FPU fadd (32bit x1) n8 : 0.285 16839.7 16841.8 FPU fmadd (32bit x1) n8 : 0.718 13364.5 13443.8 NEON fmul.2s (32bit x2) n8 : 0.290 33150.2 33150.2 NEON fadd.2s (32bit x2) n8 : 0.287 33442.6 33927.4 NEON fmla.2s (32bit x2) n8 : 0.286 67184.1 67587.5 NEON fmul.4s (32bit x4) n8 : 0.569 33767.7 33833.3 NEON fadd.4s (32bit x4) n8 : 0.568 33811.3 33832.7 NEON fmla.4s (32bit x4) n8 : 0.713 53852.2 54013.8 FPU fmul (32bit x1) ns4 : 0.854 5621.4 5632.9 FPU fadd (32bit x1) ns4 : 0.712 6740.4 6769.2 FPU fmadd (32bit x1) ns4 : 0.712 13481.0 13558.1 NEON fmul.2s (32bit x2) ns4 : 0.853 11253.9 11293.6 NEON fadd.2s (32bit x2) ns4 : 0.711 13502.9 13510.1 NEON fmla.2s (32bit x2) ns4 : 1.422 13499.4 13547.4 NEON fmul.4s (32bit x4) ns4 : 0.854 22470.9 22532.7 NEON fadd.4s (32bit x4) ns4 : 0.713 26920.8 27035.6 NEON fmla.4s (32bit x4) ns4 : 1.423 26993.6 27075.9 FPU fmul (32bit x1) n1 : 0.571 8412.6 8442.1 FPU fadd (32bit x1) n1 : 0.285 16827.0 16844.8 FPU fmadd (32bit x1) n1 : 5.693 1686.4 1693.4 NEON fmul.2s (32bit x2) n1 : 0.570 16834.1 16854.1 NEON fadd.2s (32bit x2) n1 : 0.286 33540.2 33585.9 NEON fmla.2s (32bit x2) n1 : 2.277 8433.7 8440.8 NEON fmul.4s (32bit x4) n1 : 0.570 33674.8 33674.8 NEON fadd.4s (32bit x4) n1 : 0.571 33649.4 33717.9 NEON fmla.4s (32bit x4) n1 : 2.278 16859.1 16860.0 NEON fmul.4s (32bit x4) n12 : 0.858 33552.7 33738.4 NEON fadd.4s (32bit x4) n12 : 0.856 33663.3 33711.0 NEON fmla.4s (32bit x4) n12 : 0.854 67446.6 67446.6 平均 : 0.932 24829.0 24911.3 最大 : 0.285 67446.6 67587.5 * VFP/NEON (倍精度 fp) multi-thread FPU fmul (64bit x1) n8 : 0.327 14662.4 14713.3 FPU fadd (64bit x1) n8 : 0.287 16730.6 16773.1 FPU fmadd (64bit x1) n8 : 0.720 13329.9 13394.6 NEON fmul.2d (64bit x2) n8 : 0.577 16637.4 16637.4 NEON fadd.2d (64bit x2) n8 : 0.571 16813.6 16837.1 NEON fmla.2d (64bit x2) n8 : 0.715 26868.9 26948.6 FPU fmul (64bit x1) ns4 : 0.856 5610.4 5610.4 FPU fadd (64bit x1) ns4 : 0.714 6727.2 6747.8 FPU fmadd (64bit x1) ns4 : 0.715 13432.2 13474.1 NEON fmul.2d (64bit x2) ns4 : 0.856 11209.1 11243.1 NEON fadd.2d (64bit x2) ns4 : 0.715 13426.0 13449.7 NEON fmla.2d (64bit x2) ns4 : 1.425 13469.4 13487.0 FPU fmul (64bit x1) n1 : 0.573 8382.3 8418.5 FPU fadd (64bit x1) n1 : 0.286 16804.1 16839.6 FPU fmadd (64bit x1) n1 : 5.702 1683.6 1688.1 NEON fmul.2d (64bit x2) n1 : 0.571 16798.0 16832.1 NEON fadd.2d (64bit x2) n1 : 0.571 16807.5 16850.1 NEON fmla.2d (64bit x2) n1 : 2.284 8405.3 8430.1 NEON fmul.2d (64bit x2) n12 : 0.857 16794.0 16847.0 NEON fadd.2d (64bit x2) n12 : 0.859 16770.0 16803.3 NEON fmla.2d (64bit x2) n12 : 0.856 33627.0 33729.8 平均 : 1.002 14523.3 14559.7 最大 : 0.286 33627.0 33729.8 * Matrix 4x4 (単精度 fp) multi-thread C++ code : 0.783 9150.1 9369.6 NEON fmla.4s 128bit A : 0.237 30209.5 30386.0 NEON fmla.4s 128bit B : 0.230 31120.2 31829.8 平均 : 0.417 23493.3 23861.8 最大 : 0.230 31120.2 31829.8
Nexus 5X Snapdragon 808 MSM8992 big core A57 1.82GHz x2 ARM64 (AArch64) android 8.1
ARCH: ARMv8A 3 FPU: AArch64 NEON SingleT SP max: 14.526 GFLOPS SingleT DP max: 7.262 GFLOPS MultiT SP max: 29.078 GFLOPS MultiT DP max: 14.344 GFLOPS CPU core: 2 FPHP : no SIMDHP: no * FPU/NEON (single fp) TIME(s) MFLOPS MOPS FOP IPC max MFLOPS FPU fmul (32bit x1) n8 : 0.357 3358.6 3358.6 ( 1 1.8) 3358.6 FPU fadd (32bit x1) n8 : 0.334 3587.5 3587.5 ( 1 2.0) 3587.5 FPU fmadd (32bit x1) n8 : 0.826 2904.4 1452.2 ( 2 0.8) 2904.4 NEON fmul.2s (32bit x2) n8 : 0.330 7262.9 3631.5 ( 2 2.0) 7262.9 NEON fadd.2s (32bit x2) n8 : 0.330 7263.1 3631.6 ( 2 2.0) 7263.1 NEON fmla.2s (32bit x2) n8 : 0.330 14526.4 3631.6 ( 4 2.0) 14526.4 NEON fmul.4s (32bit x4) n8 : 0.661 7261.5 1815.4 ( 4 1.0) 7261.5 NEON fadd.4s (32bit x4) n8 : 0.661 7262.0 1815.5 ( 4 1.0) 7262.0 NEON fmla.4s (32bit x4) n8 : 0.826 11617.9 1452.2 ( 8 0.8) 11617.9 FPU fmul (32bit x1) ns4 : 0.991 1210.4 1210.4 ( 1 0.7) 1210.4 FPU fadd (32bit x1) ns4 : 0.826 1452.2 1452.2 ( 1 0.8) 1452.2 FPU fmadd (32bit x1) ns4 : 0.826 2905.1 1452.6 ( 2 0.8) 2905.1 NEON fmul.2s (32bit x2) ns4 : 0.991 2421.7 1210.8 ( 2 0.7) 2421.7 NEON fadd.2s (32bit x2) ns4 : 0.826 2905.4 1452.7 ( 2 0.8) 2905.4 NEON fmla.2s (32bit x2) ns4 : 1.652 2905.1 726.3 ( 4 0.4) 2905.1 NEON fmul.4s (32bit x4) ns4 : 0.991 4841.9 1210.5 ( 4 0.7) 4841.9 NEON fadd.4s (32bit x4) ns4 : 0.826 5808.0 1452.0 ( 4 0.8) 5808.0 NEON fmla.4s (32bit x4) ns4 : 1.652 5809.9 726.2 ( 8 0.4) 5809.9 FPU fmul (32bit x1) n1 : 0.661 1815.8 1815.8 ( 1 1.0) 1815.8 FPU fadd (32bit x1) n1 : 0.331 3629.2 3629.2 ( 1 2.0) 3629.2 FPU fmadd (32bit x1) n1 : 6.610 363.1 181.6 ( 2 0.1) 363.1 NEON fmul.2s (32bit x2) n1 : 0.661 3630.7 1815.3 ( 2 1.0) 3630.7 NEON fadd.2s (32bit x2) n1 : 0.330 7262.5 3631.3 ( 2 2.0) 7262.5 NEON fmla.2s (32bit x2) n1 : 2.644 1815.4 453.9 ( 4 0.2) 1815.4 NEON fmul.4s (32bit x4) n1 : 0.661 7261.7 1815.4 ( 4 1.0) 7261.7 NEON fadd.4s (32bit x4) n1 : 0.661 7262.0 1815.5 ( 4 1.0) 7262.0 NEON fmla.4s (32bit x4) n1 : 2.644 3631.1 453.9 ( 8 0.2) 3631.1 NEON fmul.4s (32bit x4) n12 : 0.991 7263.0 1815.7 ( 4 1.0) 7263.0 NEON fadd.4s (32bit x4) n12 : 0.992 7261.0 1815.2 ( 4 1.0) 7261.0 NEON fmla.4s (32bit x4) n12 : 0.991 14525.0 1815.6 ( 8 1.0) 14525.0 Average : 1.081 5367.5 1877.6 ( 3 1.0) 5367.5 Highest : 0.330 14526.4 3631.6 ( 8 2.0) 14526.4 * FPU/NEON (double fp) TIME(s) MFLOPS MOPS FOP IPC max MFLOPS FPU fmul (64bit x1) n8 : 0.359 3339.0 3339.0 ( 1 1.8) 3339.0 FPU fadd (64bit x1) n8 : 0.331 3630.8 3630.8 ( 1 2.0) 3630.8 FPU fmadd (64bit x1) n8 : 0.826 2904.9 1452.5 ( 2 0.8) 2904.9 NEON fmul.2d (64bit x2) n8 : 0.665 3608.7 1804.4 ( 2 1.0) 3608.7 NEON fadd.2d (64bit x2) n8 : 0.661 3631.6 1815.8 ( 2 1.0) 3631.6 NEON fmla.2d (64bit x2) n8 : 0.826 5809.8 1452.4 ( 4 0.8) 5809.8 FPU fmul (64bit x1) ns4 : 0.992 1210.2 1210.2 ( 1 0.7) 1210.2 FPU fadd (64bit x1) ns4 : 0.826 1452.5 1452.5 ( 1 0.8) 1452.5 FPU fmadd (64bit x1) ns4 : 0.826 2904.8 1452.4 ( 2 0.8) 2904.8 NEON fmul.2d (64bit x2) ns4 : 0.992 2420.0 1210.0 ( 2 0.7) 2420.0 NEON fadd.2d (64bit x2) ns4 : 0.826 2905.5 1452.7 ( 2 0.8) 2905.5 NEON fmla.2d (64bit x2) ns4 : 1.652 2905.5 726.4 ( 4 0.4) 2905.5 FPU fmul (64bit x1) n1 : 0.661 1815.3 1815.3 ( 1 1.0) 1815.3 FPU fadd (64bit x1) n1 : 0.331 3630.8 3630.8 ( 1 2.0) 3630.8 FPU fmadd (64bit x1) n1 : 6.625 362.3 181.1 ( 2 0.1) 362.3 NEON fmul.2d (64bit x2) n1 : 0.661 3630.7 1815.3 ( 2 1.0) 3630.7 NEON fadd.2d (64bit x2) n1 : 0.661 3631.6 1815.8 ( 2 1.0) 3631.6 NEON fmla.2d (64bit x2) n1 : 2.644 1815.5 453.9 ( 4 0.2) 1815.5 NEON fmul.2d (64bit x2) n12 : 0.992 3630.6 1815.3 ( 2 1.0) 3630.6 NEON fadd.2d (64bit x2) n12 : 0.991 3631.2 1815.6 ( 2 1.0) 3631.2 NEON fmla.2d (64bit x2) n12 : 0.991 7262.4 1815.6 ( 4 1.0) 7262.4 Average : 1.159 3149.2 1721.8 ( 2 0.9) 3149.2 Highest : 0.331 7262.4 3630.8 ( 4 2.0) 7262.4 * Matrix 4x4 TIME(s) MFLOPS MOPS FOP IPC max MFLOPS C++ code : 0.304 5888.8 5888.8 ( 1 3.2) 5888.8 NEON fmla.4s 128bit A : 0.264 6778.2 6778.2 ( 1 3.7) 6778.2 NEON fmla.4s 128bit B : 0.265 6759.9 6759.9 ( 1 3.7) 6759.9 Average : 0.278 6475.6 6475.6 ( 1 3.6) 6475.6 Highest : 0.264 6778.2 6778.2 ( 1 3.7) 6778.2 * FPU/NEON (single fp) multi-thread TIME(s) MFLOPS MOPS FOP IPC max MFLOPS FPU fmul (32bit x1) n8 : 0.355 6764.1 3382.1 ( 2 1.9) 6764.1 FPU fadd (32bit x1) n8 : 0.330 7266.3 3633.2 ( 2 2.0) 7266.3 FPU fmadd (32bit x1) n8 : 0.826 5812.7 1453.2 ( 4 0.8) 5812.7 NEON fmul.2s (32bit x2) n8 : 0.330 14535.4 3633.8 ( 4 2.0) 14535.4 NEON fadd.2s (32bit x2) n8 : 0.330 14534.6 3633.6 ( 4 2.0) 14534.6 NEON fmla.2s (32bit x2) n8 : 0.330 29066.2 3633.3 ( 8 2.0) 29066.2 NEON fmul.4s (32bit x4) n8 : 0.661 14533.3 1816.7 ( 8 1.0) 14533.3 NEON fadd.4s (32bit x4) n8 : 0.660 14535.1 1816.9 ( 8 1.0) 14535.1 NEON fmla.4s (32bit x4) n8 : 0.826 23253.0 1453.3 ( 16 0.8) 23253.0 FPU fmul (32bit x1) ns4 : 0.991 2422.0 1211.0 ( 2 0.7) 2422.0 FPU fadd (32bit x1) ns4 : 0.826 2906.3 1453.1 ( 2 0.8) 2906.3 FPU fmadd (32bit x1) ns4 : 0.826 5813.3 1453.3 ( 4 0.8) 5813.3 NEON fmul.2s (32bit x2) ns4 : 0.991 4844.9 1211.2 ( 4 0.7) 4844.9 NEON fadd.2s (32bit x2) ns4 : 0.826 5813.6 1453.4 ( 4 0.8) 5813.6 NEON fmla.2s (32bit x2) ns4 : 1.651 5813.6 726.7 ( 8 0.4) 5813.6 NEON fmul.4s (32bit x4) ns4 : 0.991 9689.1 1211.1 ( 8 0.7) 9689.1 NEON fadd.4s (32bit x4) ns4 : 0.826 11626.0 1453.2 ( 8 0.8) 11626.0 NEON fmla.4s (32bit x4) ns4 : 1.651 11627.7 726.7 ( 16 0.4) 11627.7 FPU fmul (32bit x1) n1 : 0.661 3633.0 1816.5 ( 2 1.0) 3633.0 FPU fadd (32bit x1) n1 : 0.330 7264.3 3632.2 ( 2 2.0) 7264.3 FPU fmadd (32bit x1) n1 : 6.605 726.7 181.7 ( 4 0.1) 726.7 NEON fmul.2s (32bit x2) n1 : 0.661 7262.1 1815.5 ( 4 1.0) 7262.1 NEON fadd.2s (32bit x2) n1 : 0.331 14504.4 3626.1 ( 4 2.0) 14504.4 NEON fmla.2s (32bit x2) n1 : 2.645 3629.5 453.7 ( 8 0.2) 3629.5 NEON fmul.4s (32bit x4) n1 : 0.661 14531.0 1816.4 ( 8 1.0) 14531.0 NEON fadd.4s (32bit x4) n1 : 0.661 14532.6 1816.6 ( 8 1.0) 14532.6 NEON fmla.4s (32bit x4) n1 : 2.686 7149.4 446.8 ( 16 0.2) 7149.4 NEON fmul.4s (32bit x4) n12 : 0.990 14539.8 1817.5 ( 8 1.0) 14539.8 NEON fadd.4s (32bit x4) n12 : 0.990 14539.1 1817.4 ( 8 1.0) 14539.1 NEON fmla.4s (32bit x4) n12 : 0.990 29078.0 1817.4 ( 16 1.0) 29078.0 Average : 1.081 10741.6 1880.5 ( 7 1.0) 10741.6 Highest : 0.330 29078.0 3633.8 ( 16 2.0) 29078.0 * FPU/NEON (double fp) multi-thread TIME(s) MFLOPS MOPS FOP IPC max MFLOPS FPU fmul (64bit x1) n8 : 0.378 6351.5 3175.8 ( 2 1.7) 6351.5 FPU fadd (64bit x1) n8 : 0.369 6504.0 3252.0 ( 2 1.8) 6504.0 FPU fmadd (64bit x1) n8 : 0.954 5030.8 1257.7 ( 4 0.7) 5030.8 NEON fmul.2d (64bit x2) n8 : 0.806 5958.7 1489.7 ( 4 0.8) 5958.7 NEON fadd.2d (64bit x2) n8 : 0.849 5651.5 1412.9 ( 4 0.8) 5651.5 NEON fmla.2d (64bit x2) n8 : 1.144 8387.9 1048.5 ( 8 0.6) 8387.9 FPU fmul (64bit x1) ns4 : 1.449 1656.3 828.1 ( 2 0.5) 1656.3 FPU fadd (64bit x1) ns4 : 1.208 1987.4 993.7 ( 2 0.5) 1987.4 FPU fmadd (64bit x1) ns4 : 1.625 2954.2 738.6 ( 4 0.4) 2954.2 NEON fmul.2d (64bit x2) ns4 : 2.506 1915.6 478.9 ( 4 0.3) 1915.6 NEON fadd.2d (64bit x2) ns4 : 2.387 2010.7 502.7 ( 4 0.3) 2010.7 NEON fmla.2d (64bit x2) ns4 : 4.774 2010.9 251.4 ( 8 0.1) 2010.9 FPU fmul (64bit x1) n1 : 1.910 1256.8 628.4 ( 2 0.3) 1256.8 FPU fadd (64bit x1) n1 : 0.958 2506.3 1253.2 ( 2 0.7) 2506.3 FPU fmadd (64bit x1) n1 : 18.637 257.6 64.4 ( 4 0.0) 257.6 NEON fmul.2d (64bit x2) n1 : 1.291 3717.5 929.4 ( 4 0.5) 3717.5 NEON fadd.2d (64bit x2) n1 : 0.978 4907.0 1226.8 ( 4 0.7) 4907.0 NEON fmla.2d (64bit x2) n1 : 3.693 2599.4 324.9 ( 8 0.2) 2599.4 NEON fmul.2d (64bit x2) n12 : 1.153 6242.9 1560.7 ( 4 0.9) 6242.9 NEON fadd.2d (64bit x2) n12 : 1.078 6681.3 1670.3 ( 4 0.9) 6681.3 NEON fmla.2d (64bit x2) n12 : 1.004 14343.6 1793.0 ( 8 1.0) 14343.6 Average : 2.340 4425.3 1184.8 ( 4 0.6) 4425.3 Highest : 0.369 14343.6 3252.0 ( 8 1.8) 14343.6 * Matrix 4x4 multi-thread TIME(s) MFLOPS MOPS FOP IPC max MFLOPS C++ code : 0.301 11897.1 5948.5 ( 2 3.3) 11897.1 NEON fmla.4s 128bit A : 0.264 13562.0 6781.0 ( 2 3.7) 13562.0 NEON fmla.4s 128bit B : 0.265 13537.8 6768.9 ( 2 3.7) 13537.8 Average : 0.277 12998.9 6499.5 ( 2 3.6) 12998.9 Highest : 0.264 13562.0 6781.0 ( 2 3.7) 13562.0 cpu0 1440000 384000 cpu1 1440000 384000 cpu2 1440000 384000 cpu3 1440000 384000 cpu4 1824000 384000 cpu5 1824000 384000 processor : 0 Features : fp asimd evtstrm aes pmull sha1 sha2 crc32 CPU implementer : 0x41 CPU architecture: 8 CPU variant : 0x0 CPU part : 0xd03 CPU revision : 3 processor : 1 Features : fp asimd evtstrm aes pmull sha1 sha2 crc32 CPU implementer : 0x41 CPU architecture: 8 CPU variant : 0x0 CPU part : 0xd03 CPU revision : 3 processor : 2 Features : fp asimd evtstrm aes pmull sha1 sha2 crc32 CPU implementer : 0x41 CPU architecture: 8 CPU variant : 0x0 CPU part : 0xd03 CPU revision : 3 processor : 3 Features : fp asimd evtstrm aes pmull sha1 sha2 crc32 CPU implementer : 0x41 CPU architecture: 8 CPU variant : 0x0 CPU part : 0xd03 CPU revision : 3 processor : 4 Features : fp asimd evtstrm aes pmull sha1 sha2 crc32 CPU implementer : 0x41 CPU architecture: 8 CPU variant : 0x1 CPU part : 0xd07 CPU revision : 2 processor : 5 Features : fp asimd evtstrm aes pmull sha1 sha2 crc32 CPU implementer : 0x41 CPU architecture: 8 CPU variant : 0x1 CPU part : 0xd07 CPU revision : 2 Hardware : Qualcomm Technologies, Inc MSM8992 Qualcomm Technologies, Inc MSM8992 2019/01/05 13:57:49
Galxy S6 Edge Exynos 7420 big core 2.1GHz x4 ARM64 (AArch64) android 7.0
ARCH: ARMv8A 3 FPU: AArch64 NEON SingleT SP max: 16.778 GFLOPS SingleT DP max: 8.388 GFLOPS MultiT SP max: 55.438 GFLOPS MultiT DP max: 27.250 GFLOPS CPU core: 4 FPHP : no SIMDHP: no * FPU/NEON (single fp) TIME(s) MFLOPS MOPS FOP IPC max MFLOPS FPU fmul (32bit x1) n8 : 0.340 3533.9 3533.9 ( 1 1.7) 3533.9 FPU fadd (32bit x1) n8 : 0.286 4194.1 4194.1 ( 1 2.0) 4194.1 FPU fmadd (32bit x1) n8 : 0.715 3354.3 1677.2 ( 2 0.8) 3354.3 NEON fmul.2s (32bit x2) n8 : 0.286 8388.9 4194.5 ( 2 2.0) 8388.9 NEON fadd.2s (32bit x2) n8 : 0.287 8369.3 4184.6 ( 2 2.0) 8369.3 NEON fmla.2s (32bit x2) n8 : 0.286 16763.4 4190.9 ( 4 2.0) 16763.4 NEON fmul.4s (32bit x4) n8 : 0.572 8386.8 2096.7 ( 4 1.0) 8386.8 NEON fadd.4s (32bit x4) n8 : 0.572 8385.2 2096.3 ( 4 1.0) 8385.2 NEON fmla.4s (32bit x4) n8 : 0.716 13415.9 1677.0 ( 8 0.8) 13415.9 FPU fmul (32bit x1) ns4 : 0.858 1398.0 1398.0 ( 1 0.7) 1398.0 FPU fadd (32bit x1) ns4 : 0.715 1677.6 1677.6 ( 1 0.8) 1677.6 FPU fmadd (32bit x1) ns4 : 0.715 3355.3 1677.6 ( 2 0.8) 3355.3 NEON fmul.2s (32bit x2) ns4 : 0.860 2791.5 1395.7 ( 2 0.7) 2791.5 NEON fadd.2s (32bit x2) ns4 : 0.715 3355.3 1677.7 ( 2 0.8) 3355.3 NEON fmla.2s (32bit x2) ns4 : 1.430 3355.5 838.9 ( 4 0.4) 3355.5 NEON fmul.4s (32bit x4) ns4 : 0.859 5590.9 1397.7 ( 4 0.7) 5590.9 NEON fadd.4s (32bit x4) ns4 : 0.717 6693.0 1673.3 ( 4 0.8) 6693.0 NEON fmla.4s (32bit x4) ns4 : 1.431 6710.8 838.9 ( 8 0.4) 6710.8 FPU fmul (32bit x1) n1 : 0.572 2096.9 2096.9 ( 1 1.0) 2096.9 FPU fadd (32bit x1) n1 : 0.286 4194.7 4194.7 ( 1 2.0) 4194.7 FPU fmadd (32bit x1) n1 : 5.726 419.2 209.6 ( 2 0.1) 419.2 NEON fmul.2s (32bit x2) n1 : 0.572 4194.1 2097.0 ( 2 1.0) 4194.1 NEON fadd.2s (32bit x2) n1 : 0.286 8388.0 4194.0 ( 2 2.0) 8388.0 NEON fmla.2s (32bit x2) n1 : 2.289 2097.0 524.3 ( 4 0.2) 2097.0 NEON fmul.4s (32bit x4) n1 : 0.572 8388.7 2097.2 ( 4 1.0) 8388.7 NEON fadd.4s (32bit x4) n1 : 0.572 8389.4 2097.3 ( 4 1.0) 8389.4 NEON fmla.4s (32bit x4) n1 : 2.291 4190.6 523.8 ( 8 0.2) 4190.6 NEON fmul.4s (32bit x4) n12 : 0.858 8388.7 2097.2 ( 4 1.0) 8388.7 NEON fadd.4s (32bit x4) n12 : 0.858 8388.3 2097.1 ( 4 1.0) 8388.3 NEON fmla.4s (32bit x4) n12 : 0.858 16777.6 2097.2 ( 8 1.0) 16777.6 Average : 0.937 6187.8 2158.2 ( 3 1.0) 6187.8 Highest : 0.286 16777.6 4194.7 ( 8 2.0) 16777.6 * FPU/NEON (double fp) TIME(s) MFLOPS MOPS FOP IPC max MFLOPS FPU fmul (64bit x1) n8 : 0.335 3587.3 3587.3 ( 1 1.7) 3587.3 FPU fadd (64bit x1) n8 : 0.286 4193.3 4193.3 ( 1 2.0) 4193.3 FPU fmadd (64bit x1) n8 : 0.715 3355.4 1677.7 ( 2 0.8) 3355.4 NEON fmul.2d (64bit x2) n8 : 0.572 4192.1 2096.1 ( 2 1.0) 4192.1 NEON fadd.2d (64bit x2) n8 : 0.572 4194.5 2097.2 ( 2 1.0) 4194.5 NEON fmla.2d (64bit x2) n8 : 0.715 6711.2 1677.8 ( 4 0.8) 6711.2 FPU fmul (64bit x1) ns4 : 0.858 1398.2 1398.2 ( 1 0.7) 1398.2 FPU fadd (64bit x1) ns4 : 0.715 1677.8 1677.8 ( 1 0.8) 1677.8 FPU fmadd (64bit x1) ns4 : 0.715 3355.2 1677.6 ( 2 0.8) 3355.2 NEON fmul.2d (64bit x2) ns4 : 0.858 2796.0 1398.0 ( 2 0.7) 2796.0 NEON fadd.2d (64bit x2) ns4 : 0.715 3354.9 1677.5 ( 2 0.8) 3354.9 NEON fmla.2d (64bit x2) ns4 : 1.431 3355.3 838.8 ( 4 0.4) 3355.3 FPU fmul (64bit x1) n1 : 0.572 2097.2 2097.2 ( 1 1.0) 2097.2 FPU fadd (64bit x1) n1 : 0.286 4193.1 4193.1 ( 1 2.0) 4193.1 FPU fmadd (64bit x1) n1 : 5.722 419.4 209.7 ( 2 0.1) 419.4 NEON fmul.2d (64bit x2) n1 : 0.572 4194.4 2097.2 ( 2 1.0) 4194.4 NEON fadd.2d (64bit x2) n1 : 0.572 4194.7 2097.3 ( 2 1.0) 4194.7 NEON fmla.2d (64bit x2) n1 : 2.289 2096.8 524.2 ( 4 0.2) 2096.8 NEON fmul.2d (64bit x2) n12 : 0.858 4194.4 2097.2 ( 2 1.0) 4194.4 NEON fadd.2d (64bit x2) n12 : 0.858 4193.7 2096.9 ( 2 1.0) 4193.7 NEON fmla.2d (64bit x2) n12 : 0.858 8388.0 2097.0 ( 4 1.0) 8388.0 Average : 1.004 3625.9 1976.5 ( 2 0.9) 3625.9 Highest : 0.286 8388.0 4193.3 ( 4 2.0) 8388.0 * Matrix 4x4 TIME(s) MFLOPS MOPS FOP IPC max MFLOPS C++ code : 0.286 6269.2 6269.2 ( 1 3.0) 6269.2 NEON fmla.4s 128bit A : 0.228 7871.7 7871.7 ( 1 3.7) 7871.7 NEON fmla.4s 128bit B : 0.229 7816.2 7816.2 ( 1 3.7) 7816.2 Average : 0.248 7319.0 7319.0 ( 1 3.5) 7319.0 Highest : 0.228 7871.7 7871.7 ( 1 3.7) 7871.7 * FPU/NEON (single fp) multi-thread TIME(s) MFLOPS MOPS FOP IPC max MFLOPS FPU fmul (32bit x1) n8 : 0.304 15810.0 3952.5 ( 4 1.9) 15810.0 FPU fadd (32bit x1) n8 : 0.286 16774.7 4193.7 ( 4 2.0) 16774.7 FPU fmadd (32bit x1) n8 : 0.715 13420.8 1677.6 ( 8 0.8) 13420.8 NEON fmul.2s (32bit x2) n8 : 0.314 30555.7 3819.5 ( 8 1.8) 30555.7 NEON fadd.2s (32bit x2) n8 : 0.323 29696.3 3712.0 ( 8 1.8) 29696.3 NEON fmla.2s (32bit x2) n8 : 0.346 55438.5 3464.9 ( 16 1.6) 55438.5 NEON fmul.4s (32bit x4) n8 : 0.639 30039.6 1877.5 ( 16 0.9) 30039.6 NEON fadd.4s (32bit x4) n8 : 0.656 29253.4 1828.3 ( 16 0.9) 29253.4 NEON fmla.4s (32bit x4) n8 : 0.855 44924.4 1403.9 ( 32 0.7) 44924.4 FPU fmul (32bit x1) ns4 : 0.890 5393.0 1348.3 ( 4 0.6) 5393.0 FPU fadd (32bit x1) ns4 : 0.773 6205.6 1551.4 ( 4 0.7) 6205.6 FPU fmadd (32bit x1) ns4 : 0.812 11825.2 1478.2 ( 8 0.7) 11825.2 NEON fmul.2s (32bit x2) ns4 : 0.946 10144.7 1268.1 ( 8 0.6) 10144.7 NEON fadd.2s (32bit x2) ns4 : 0.833 11518.6 1439.8 ( 8 0.7) 11518.6 NEON fmla.2s (32bit x2) ns4 : 1.551 12379.1 773.7 ( 16 0.4) 12379.1 NEON fmul.4s (32bit x4) ns4 : 1.025 18730.8 1170.7 ( 16 0.6) 18730.8 NEON fadd.4s (32bit x4) ns4 : 0.872 22017.4 1376.1 ( 16 0.7) 22017.4 NEON fmla.4s (32bit x4) ns4 : 1.658 23165.3 723.9 ( 32 0.3) 23165.3 FPU fmul (32bit x1) n1 : 0.644 7454.8 1863.7 ( 4 0.9) 7454.8 FPU fadd (32bit x1) n1 : 0.337 14239.9 3560.0 ( 4 1.7) 14239.9 FPU fmadd (32bit x1) n1 : 5.746 1670.8 208.8 ( 8 0.1) 1670.8 NEON fmul.2s (32bit x2) n1 : 0.679 14131.9 1766.5 ( 8 0.8) 14131.9 NEON fadd.2s (32bit x2) n1 : 0.349 27469.7 3433.7 ( 8 1.6) 27469.7 NEON fmla.2s (32bit x2) n1 : 2.521 7614.9 475.9 ( 16 0.2) 7614.9 NEON fmul.4s (32bit x4) n1 : 0.700 27446.6 1715.4 ( 16 0.8) 27446.6 NEON fadd.4s (32bit x4) n1 : 0.699 27466.8 1716.7 ( 16 0.8) 27466.8 NEON fmla.4s (32bit x4) n1 : 2.643 14529.7 454.1 ( 32 0.2) 14529.7 NEON fmul.4s (32bit x4) n12 : 1.050 27420.1 1713.8 ( 16 0.8) 27420.1 NEON fadd.4s (32bit x4) n12 : 1.052 27381.3 1711.3 ( 16 0.8) 27381.3 NEON fmla.4s (32bit x4) n12 : 1.050 54853.9 1714.2 ( 32 0.8) 54853.9 Average : 1.042 21299.1 1913.1 ( 13 0.9) 21299.1 Highest : 0.286 55438.5 4193.7 ( 32 2.0) 55438.5 * FPU/NEON (double fp) multi-thread TIME(s) MFLOPS MOPS FOP IPC max MFLOPS FPU fmul (64bit x1) n8 : 0.357 13456.8 3364.2 ( 4 1.6) 13456.8 FPU fadd (64bit x1) n8 : 0.349 13749.9 3437.5 ( 4 1.6) 13749.9 FPU fmadd (64bit x1) n8 : 0.840 11431.5 1428.9 ( 8 0.7) 11431.5 NEON fmul.2d (64bit x2) n8 : 0.695 13806.7 1725.8 ( 8 0.8) 13806.7 NEON fadd.2d (64bit x2) n8 : 0.699 13736.3 1717.0 ( 8 0.8) 13736.3 NEON fmla.2d (64bit x2) n8 : 0.880 21827.8 1364.2 ( 16 0.6) 21827.8 FPU fmul (64bit x1) ns4 : 1.011 4745.7 1186.4 ( 4 0.6) 4745.7 FPU fadd (64bit x1) ns4 : 0.857 5602.9 1400.7 ( 4 0.7) 5602.9 FPU fmadd (64bit x1) ns4 : 0.873 10995.3 1374.4 ( 8 0.7) 10995.3 NEON fmul.2d (64bit x2) ns4 : 1.047 9172.5 1146.6 ( 8 0.5) 9172.5 NEON fadd.2d (64bit x2) ns4 : 0.876 10963.2 1370.4 ( 8 0.7) 10963.2 NEON fmla.2d (64bit x2) ns4 : 1.709 11237.5 702.3 ( 16 0.3) 11237.5 FPU fmul (64bit x1) n1 : 0.675 7108.3 1777.1 ( 4 0.8) 7108.3 FPU fadd (64bit x1) n1 : 0.351 13684.2 3421.1 ( 4 1.6) 13684.2 FPU fmadd (64bit x1) n1 : 6.018 1595.3 199.4 ( 8 0.1) 1595.3 NEON fmul.2d (64bit x2) n1 : 0.699 13731.6 1716.5 ( 8 0.8) 13731.6 NEON fadd.2d (64bit x2) n1 : 0.696 13799.6 1724.9 ( 8 0.8) 13799.6 NEON fmla.2d (64bit x2) n1 : 2.633 7291.0 455.7 ( 16 0.2) 7291.0 NEON fmul.2d (64bit x2) n12 : 1.050 13707.9 1713.5 ( 8 0.8) 13707.9 NEON fadd.2d (64bit x2) n12 : 1.052 13689.0 1711.1 ( 8 0.8) 13689.0 NEON fmla.2d (64bit x2) n12 : 1.057 27249.6 1703.1 ( 16 0.8) 27249.6 Average : 1.163 12027.7 1649.6 ( 8 0.8) 12027.7 Highest : 0.349 27249.6 3437.5 ( 16 1.6) 27249.6 * Matrix 4x4 multi-thread TIME(s) MFLOPS MOPS FOP IPC max MFLOPS C++ code : 0.293 24443.0 6110.7 ( 4 2.9) 24443.0 NEON fmla.4s 128bit A : 0.276 26001.3 6500.3 ( 4 3.1) 26001.3 NEON fmla.4s 128bit B : 0.277 25923.3 6480.8 ( 4 3.1) 25923.3 Average : 0.282 25455.9 6364.0 ( 4 3.0) 25455.9 Highest : 0.276 26001.3 6500.3 ( 4 3.1) 26001.3 cpu0 1500000 400000 cpu1 1500000 400000 cpu2 1500000 400000 cpu3 1500000 400000 cpu4 2100000 800000 cpu5 2100000 800000 cpu6 2100000 800000 cpu7 2100000 800000 Processor : AArch64 Processor rev 2 (aarch64) processor : 0 processor : 1 processor : 2 processor : 3 processor : 4 processor : 5 processor : 6 processor : 7 Features : fp asimd aes pmull sha1 sha2 crc32 CPU implementer : 0x41 CPU architecture: AArch64 CPU variant : 0x0 CPU part : 0xd03 CPU revision : 2 Hardware : SAMSUNG Exynos7420 SAMSUNG Exynos7420 2019/01/05 14:07:03
ARM Cortex-A72 (ARMv8A AArch64 arm64) FPU+NEON
Amazon Fire TV 2015 MT8173C Cortex-A72 2.0GHz (big.LITTLE 2+2) ARM64 (AArch64)
Amazon Fire TV 2015 MT8173C Cortex-A72 2.0GHz (big.LITTLE 2+2) ARM64 (AArch64) ARCH: ARMv8A CPU core: 2 VFP: AArch64 NEON FMA: Yes NEON: Yes Result SingleT SP max: 15.864 GFLOPS SingleT DP max: 7.934 GFLOPS MultiT SP max: 31.771 GFLOPS MultiT DP max: 15.885 GFLOPS * VFP/NEON (単精度 fp) single-thread FPU fmul (32bit x1) n8 : 0.361 3323.2 3323.2 FPU fadd (32bit x1) n8 : 0.304 3944.8 3944.8 FPU fmadd (32bit x1) n8 : 0.529 4540.3 4540.3 NEON fmul.2s (32bit x2) n8 : 0.302 7945.5 7945.5 NEON fadd.2s (32bit x2) n8 : 0.302 7946.8 7946.8 NEON fmla.2s (32bit x2) n8 : 0.337 14226.5 14226.5 NEON fmul.4s (32bit x4) n8 : 0.640 7494.2 7494.2 NEON fadd.4s (32bit x4) n8 : 0.605 7935.8 7935.8 NEON fmla.4s (32bit x4) n8 : 0.605 15864.0 15864.0 FPU fmul (32bit x1) ns4 : 0.606 1980.7 1980.7 FPU fadd (32bit x1) ns4 : 0.605 1983.1 1983.1 FPU fmadd (32bit x1) ns4 : 0.529 4532.6 4532.6 NEON fmul.2s (32bit x2) ns4 : 0.605 3970.1 3970.1 NEON fadd.2s (32bit x2) ns4 : 0.604 3973.2 3973.2 NEON fmla.2s (32bit x2) ns4 : 1.121 4281.2 4281.2 NEON fmul.4s (32bit x4) ns4 : 0.613 7833.2 7833.2 NEON fadd.4s (32bit x4) ns4 : 0.605 7935.8 7935.8 NEON fmla.4s (32bit x4) ns4 : 1.059 9068.9 9068.9 FPU fmul (32bit x1) n1 : 0.302 3973.1 3973.1 FPU fadd (32bit x1) n1 : 0.302 3973.4 3973.4 FPU fmadd (32bit x1) n1 : 4.306 557.4 557.4 NEON fmul.2s (32bit x2) n1 : 0.303 7928.3 7928.3 NEON fadd.2s (32bit x2) n1 : 0.303 7928.5 7928.5 NEON fmla.2s (32bit x2) n1 : 1.812 2648.4 2648.4 NEON fmul.4s (32bit x4) n1 : 0.659 7283.7 7283.7 NEON fadd.4s (32bit x4) n1 : 0.604 7947.2 7947.2 NEON fmla.4s (32bit x4) n1 : 1.816 5286.0 5286.0 NEON fmul.4s (32bit x4) n12 : 0.908 7931.7 7931.7 NEON fadd.4s (32bit x4) n12 : 0.908 7933.0 7933.0 NEON fmla.4s (32bit x4) n12 : 0.909 15844.6 15844.6 平均 : 0.782 6600.5 6600.5 最大 : 0.302 15864.0 15864.0 * VFP/NEON (倍精度 fp) single-thread FPU fmul (64bit x1) n8 : 0.335 3578.0 3578.0 FPU fadd (64bit x1) n8 : 0.303 3965.7 3965.7 FPU fmadd (64bit x1) n8 : 0.530 4530.0 4530.0 NEON fmul.2d (64bit x2) n8 : 0.608 3947.3 3947.3 NEON fadd.2d (64bit x2) n8 : 0.605 3967.7 3967.7 NEON fmla.2d (64bit x2) n8 : 0.605 7933.9 7933.9 FPU fmul (64bit x1) ns4 : 0.610 1967.8 1967.8 FPU fadd (64bit x1) ns4 : 0.605 1983.3 1983.3 FPU fmadd (64bit x1) ns4 : 0.529 4540.7 4540.7 NEON fmul.2d (64bit x2) ns4 : 0.604 3972.8 3972.8 NEON fadd.2d (64bit x2) ns4 : 0.604 3972.3 3972.3 NEON fmla.2d (64bit x2) ns4 : 1.128 4256.9 4256.9 FPU fmul (64bit x1) n1 : 0.302 3968.3 3968.3 FPU fadd (64bit x1) n1 : 0.303 3966.4 3966.4 FPU fmadd (64bit x1) n1 : 4.238 566.3 566.3 NEON fmul.2d (64bit x2) n1 : 0.605 3965.7 3965.7 NEON fadd.2d (64bit x2) n1 : 0.606 3958.0 3958.0 NEON fmla.2d (64bit x2) n1 : 1.816 2643.7 2643.7 NEON fmul.2d (64bit x2) n12 : 0.908 3963.9 3963.9 NEON fadd.2d (64bit x2) n12 : 0.909 3961.2 3961.2 NEON fmla.2d (64bit x2) n12 : 0.909 7920.5 7920.5 平均 : 0.841 3977.6 3977.6 最大 : 0.302 7933.9 7933.9 * Matrix 4x4 (単精度 fp) single-thread C++ code : 0.633 2831.2 2831.2 NEON fmla.4s 128bit A : 0.210 8547.9 8547.9 NEON fmla.4s 128bit B : 0.210 8540.5 8540.5 平均 : 0.351 6639.9 6639.9 最大 : 0.210 8547.9 8547.9 * VFP/NEON (単精度 fp) multi-thread FPU fmul (32bit x1) n8 : 0.361 6653.1 6653.1 FPU fadd (32bit x1) n8 : 0.302 7938.6 7938.6 FPU fmadd (32bit x1) n8 : 0.529 9076.1 9076.1 NEON fmul.2s (32bit x2) n8 : 0.302 15886.9 15886.9 NEON fadd.2s (32bit x2) n8 : 0.303 15861.0 15861.0 NEON fmla.2s (32bit x2) n8 : 0.302 31755.1 31755.1 NEON fmul.4s (32bit x4) n8 : 0.604 15886.1 15886.1 NEON fadd.4s (32bit x4) n8 : 0.605 15880.3 15880.3 NEON fmla.4s (32bit x4) n8 : 0.604 31770.7 31770.7 FPU fmul (32bit x1) ns4 : 0.604 3971.1 3971.1 FPU fadd (32bit x1) ns4 : 0.605 3969.3 3969.3 FPU fmadd (32bit x1) ns4 : 0.529 9076.0 9076.0 NEON fmul.2s (32bit x2) ns4 : 0.604 7941.7 7941.7 NEON fadd.2s (32bit x2) ns4 : 0.604 7943.3 7943.3 NEON fmla.2s (32bit x2) ns4 : 1.058 9075.9 9075.9 NEON fmul.4s (32bit x4) ns4 : 0.605 15869.9 15869.9 NEON fadd.4s (32bit x4) ns4 : 0.605 15876.8 15876.8 NEON fmla.4s (32bit x4) ns4 : 1.058 18154.1 18154.1 FPU fmul (32bit x1) n1 : 0.302 7943.5 7943.5 FPU fadd (32bit x1) n1 : 0.302 7942.7 7942.7 FPU fmadd (32bit x1) n1 : 4.231 1134.4 1134.4 NEON fmul.2s (32bit x2) n1 : 0.302 15883.4 15883.4 NEON fadd.2s (32bit x2) n1 : 0.302 15878.8 15878.8 NEON fmla.2s (32bit x2) n1 : 1.814 5291.5 5291.5 NEON fmul.4s (32bit x4) n1 : 0.605 15876.5 15876.5 NEON fadd.4s (32bit x4) n1 : 0.605 15877.6 15877.6 NEON fmla.4s (32bit x4) n1 : 1.814 10583.1 10583.1 NEON fmul.4s (32bit x4) n12 : 0.907 15871.9 15871.9 NEON fadd.4s (32bit x4) n12 : 0.907 15880.2 15880.2 NEON fmla.4s (32bit x4) n12 : 0.907 31768.8 31768.8 平均 : 0.773 13417.3 13417.3 最大 : 0.302 31770.7 31770.7 * VFP/NEON (倍精度 fp) multi-thread FPU fmul (64bit x1) n8 : 0.345 6948.8 6948.8 FPU fadd (64bit x1) n8 : 0.302 7942.3 7942.3 FPU fmadd (64bit x1) n8 : 0.529 9075.2 9075.2 NEON fmul.2d (64bit x2) n8 : 0.605 7939.6 7939.6 NEON fadd.2d (64bit x2) n8 : 0.605 7936.5 7936.5 NEON fmla.2d (64bit x2) n8 : 0.605 15880.8 15880.8 FPU fmul (64bit x1) ns4 : 0.604 3971.5 3971.5 FPU fadd (64bit x1) ns4 : 0.604 3971.6 3971.6 FPU fmadd (64bit x1) ns4 : 0.529 9077.7 9077.7 NEON fmul.2d (64bit x2) ns4 : 0.604 7943.0 7943.0 NEON fadd.2d (64bit x2) ns4 : 0.604 7942.9 7942.9 NEON fmla.2d (64bit x2) ns4 : 1.057 9078.1 9078.1 FPU fmul (64bit x1) n1 : 0.302 7944.1 7944.1 FPU fadd (64bit x1) n1 : 0.302 7942.5 7942.5 FPU fmadd (64bit x1) n1 : 4.230 1134.7 1134.7 NEON fmul.2d (64bit x2) n1 : 0.605 7940.2 7940.2 NEON fadd.2d (64bit x2) n1 : 0.605 7934.7 7934.7 NEON fmla.2d (64bit x2) n1 : 1.813 5294.7 5294.7 NEON fmul.2d (64bit x2) n12 : 0.907 7941.9 7941.9 NEON fadd.2d (64bit x2) n12 : 0.907 7941.3 7941.3 NEON fmla.2d (64bit x2) n12 : 0.906 15885.3 15885.3 平均 : 0.837 7984.2 7984.2 最大 : 0.302 15885.3 15885.3 * Matrix 4x4 (単精度 fp) multi-thread C++ code : 0.585 6122.0 6122.0 NEON fmla.4s 128bit A : 0.210 17101.4 17101.4 NEON fmla.4s 128bit B : 0.209 17123.9 17123.9 平均 : 0.335 13449.1 13449.1 最大 : 0.209 17123.9 17123.9
Chromebook Flip C101PA RK3399 big core 2.0GHz x2 ARM64 (AArch64) android 7.1
Date: 20200808 172338 ARCH: ARMv7A FPU : VFPv4-D32 NEON Name: RK3399 ChromebookFlipC101PA CPU Thread: 6 CPU Core : 6 CPU Group : 2 Group 0: Thread= 4 Clock=1.512000 GHz (mask:f) Group 1: Thread= 2 Clock=2.016000 GHz (mask:30) NEON : yes FMA : yes FPHP : no SIMDHP : no DotProd: no Total: SingleThread HP max: - SingleThread SP max: 16.062 GFLOPS SingleThread DP max: 8.030 GFLOPS MultiThread HP max: - MultiThread SP max: 79.036 GFLOPS MultiThread DP max: 37.760 GFLOPS Group 0: Thread=4 Clock=1.512000 GHz (mask:f) SingleThread HP max: - SingleThread SP max: 11.801 GFLOPS SingleThread DP max: 5.459 GFLOPS MultiThread HP max: - MultiThread SP max: 46.919 GFLOPS MultiThread DP max: 21.746 GFLOPS Group 1: Thread=2 Clock=2.016000 GHz (mask:30) SingleThread HP max: - SingleThread SP max: 16.062 GFLOPS SingleThread DP max: 8.030 GFLOPS MultiThread HP max: - MultiThread SP max: 32.117 GFLOPS MultiThread DP max: 16.013 GFLOPS * Group 0: Thread=1 Clock=1.512000 GHz (mask:f) * VFP/NEON (SP fp) TIME(s) MFLOPS MOPS FOP IPC VFP fmuls (32bit x1) n8 : 0.364 2490.4 2490.4 ( 1.0 1.6) VFP fadds (32bit x1) n8 : 0.327 2771.8 2771.8 ( 1.0 1.8) VFP fmacs (32bit x1) n8 : 0.522 3475.3 1737.6 ( 2.0 1.1) VFP vfma.f32 (32bit x1) n8 : - - - - - NEON vmul.f32 (32bit x2) n8 : 0.318 5712.4 2856.2 ( 2.0 1.9) NEON vadd.f32 (32bit x2) n8 : 0.326 5558.3 2779.2 ( 2.0 1.8) NEON vmla.f32 (32bit x2) n8 : 0.580 6254.5 1563.6 ( 4.0 1.0) NEON vfma.f32 (32bit x2) n8 : - - - - - NEON vmul.f32 (32bit x4) n8 : 0.621 5841.3 1460.3 ( 4.0 1.0) NEON vadd.f32 (32bit x4) n8 : 0.621 5846.3 1461.6 ( 4.0 1.0) NEON vmla.f32 (32bit x4) n8 : 0.621 11687.8 1461.0 ( 8.0 1.0) NEON vfma.f32 (32bit x4) n8 : - - - - - VFP fmuls (32bit x1) ns4 : 0.606 1496.2 1496.2 ( 1.0 1.0) VFP fadds (32bit x1) ns4 : 0.607 1495.3 1495.3 ( 1.0 1.0) VFP fmacs (32bit x1) ns4 : 1.210 1499.1 749.5 ( 2.0 0.5) VFP vfma.f32 (32bit x1) ns4 : - - - - - NEON vmul.f32 (32bit x2) ns4 : 0.604 3001.9 1500.9 ( 2.0 1.0) NEON vadd.f32 (32bit x2) ns4 : 0.605 3001.0 1500.5 ( 2.0 1.0) NEON vmla.f32 (32bit x2) ns4 : 1.221 2972.8 743.2 ( 4.0 0.5) NEON vfma.f32 (32bit x2) ns4 : - - - - - NEON vmul.f32 (32bit x4) ns4 : 0.620 5852.9 1463.2 ( 4.0 1.0) NEON vadd.f32 (32bit x4) ns4 : 0.619 5857.8 1464.4 ( 4.0 1.0) NEON vmla.f32 (32bit x4) ns4 : 1.209 6004.6 750.6 ( 8.0 0.5) NEON vfma.f32 (32bit x4) ns4 : - - - - - VFP fmuls (32bit x1) n1 : 0.604 1501.2 1501.2 ( 1.0 1.0) VFP fadds (32bit x1) n1 : 0.604 1501.3 1501.3 ( 1.0 1.0) VFP fmacs (32bit x1) n1 : 2.417 750.6 375.3 ( 2.0 0.2) VFP vfma.f32 (32bit x1) n1 : - - - - - NEON vmul.f32 (32bit x2) n1 : 0.604 3002.7 1501.4 ( 2.0 1.0) NEON vadd.f32 (32bit x2) n1 : 0.604 3002.7 1501.4 ( 2.0 1.0) NEON vmla.f32 (32bit x2) n1 : 2.417 1501.4 375.3 ( 4.0 0.2) NEON vfma.f32 (32bit x2) n1 : - - - - - NEON vmul.f32 (32bit x4) n1 : 0.619 5858.7 1464.7 ( 4.0 1.0) NEON vadd.f32 (32bit x4) n1 : 0.619 5858.7 1464.7 ( 4.0 1.0) NEON vmla.f32 (32bit x4) n1 : 2.417 3002.2 375.3 ( 8.0 0.2) NEON vfma.f32 (32bit x4) n1 : - - - - - NEON vmul.f32 (32bit x4) n12 : 0.922 5901.4 1475.3 ( 4.0 1.0) NEON vadd.f32 (32bit x4) n12 : 0.922 5903.3 1475.8 ( 4.0 1.0) NEON vmla.f32 (32bit x4) n12 : 0.923 11800.8 1475.1 ( 8.0 1.0) NEON vfma.f32 (32bit x4) n12 : - - - - - Average : 0.843 4346.8 1474.4 ( 3.3 1.0) Highest : 0.318 11800.8 2856.2 ( 8.0 1.9) * Group 0: Thread=1 Clock=1.512000 GHz (mask:f) * VFP/NEON (DP fp) TIME(s) MFLOPS MOPS FOP IPC VFP fmuld (64bit x1) n8 : 0.345 2629.7 2629.7 ( 1.0 1.7) VFP faddd (64bit x1) n8 : 0.317 2859.4 2859.4 ( 1.0 1.9) VFP fmacd (64bit x1) n8 : 0.332 5459.3 2729.6 ( 2.0 1.8) VFP vfma.f64 (64bit x1) n8 : - - - - - VFP fmuld (64bit x1) ns4 : 0.604 1501.0 1501.0 ( 1.0 1.0) VFP faddd (64bit x1) ns4 : 0.604 1501.2 1501.2 ( 1.0 1.0) VFP fmacd (64bit x1) ns4 : 1.218 1489.6 744.8 ( 2.0 0.5) VFP vfma.f64 (64bit x1) ns4 : - - - - - VFP fmuld (64bit x1) n1 : 0.605 1500.4 1500.4 ( 1.0 1.0) VFP faddd (64bit x1) n1 : 0.604 1501.1 1501.1 ( 1.0 1.0) VFP fmacd (64bit x1) n1 : 2.419 750.1 375.1 ( 2.0 0.2) VFP vfma.f64 (64bit x1) n1 : - - - - - Average : 0.783 2132.4 1704.7 ( 1.3 1.1) Highest : 0.317 5459.3 2859.4 ( 2.0 1.9) * Group 0: Thread=4 Clock=1.512000 GHz (mask:f) * VFP/NEON (SP fp) multi-thread TIME(s) MFLOPS MOPS FOP IPC VFP fmuls (32bit x1) n8 : 0.339 10701.7 2675.4 ( 4.0 1.8) VFP fadds (32bit x1) n8 : 0.323 11245.3 2811.3 ( 4.0 1.9) VFP fmacs (32bit x1) n8 : 0.527 13773.3 1721.7 ( 8.0 1.1) VFP vfma.f32 (32bit x1) n8 : - - - - - NEON vmul.f32 (32bit x2) n8 : 0.322 22549.4 2818.7 ( 8.0 1.9) NEON vadd.f32 (32bit x2) n8 : 0.328 22128.0 2766.0 ( 8.0 1.8) NEON vmla.f32 (32bit x2) n8 : 0.591 24570.6 1535.7 ( 16.0 1.0) NEON vfma.f32 (32bit x2) n8 : - - - - - NEON vmul.f32 (32bit x4) n8 : 0.626 23194.3 1449.6 ( 16.0 1.0) NEON vadd.f32 (32bit x4) n8 : 0.630 23050.2 1440.6 ( 16.0 1.0) NEON vmla.f32 (32bit x4) n8 : 0.630 46066.7 1439.6 ( 32.0 1.0) NEON vfma.f32 (32bit x4) n8 : - - - - - VFP fmuls (32bit x1) ns4 : 0.613 5915.5 1478.9 ( 4.0 1.0) VFP fadds (32bit x1) ns4 : 0.608 5971.0 1492.8 ( 4.0 1.0) VFP fmacs (32bit x1) ns4 : 1.219 5952.8 744.1 ( 8.0 0.5) VFP vfma.f32 (32bit x1) ns4 : - - - - - NEON vmul.f32 (32bit x2) ns4 : 0.609 11918.0 1489.8 ( 8.0 1.0) NEON vadd.f32 (32bit x2) ns4 : 0.607 11947.7 1493.5 ( 8.0 1.0) NEON vmla.f32 (32bit x2) ns4 : 1.227 11827.9 739.2 ( 16.0 0.5) NEON vfma.f32 (32bit x2) ns4 : - - - - - NEON vmul.f32 (32bit x4) ns4 : 0.623 23296.9 1456.1 ( 16.0 1.0) NEON vadd.f32 (32bit x4) ns4 : 0.623 23288.7 1455.5 ( 16.0 1.0) NEON vmla.f32 (32bit x4) ns4 : 1.214 23903.3 747.0 ( 32.0 0.5) NEON vfma.f32 (32bit x4) ns4 : - - - - - VFP fmuls (32bit x1) n1 : 0.612 5934.1 1483.5 ( 4.0 1.0) VFP fadds (32bit x1) n1 : 0.609 5958.9 1489.7 ( 4.0 1.0) VFP fmacs (32bit x1) n1 : 2.438 2977.1 372.1 ( 8.0 0.2) VFP vfma.f32 (32bit x1) n1 : - - - - - NEON vmul.f32 (32bit x2) n1 : 0.609 11916.6 1489.6 ( 8.0 1.0) NEON vadd.f32 (32bit x2) n1 : 0.609 11913.6 1489.2 ( 8.0 1.0) NEON vmla.f32 (32bit x2) n1 : 2.439 5950.3 371.9 ( 16.0 0.2) NEON vfma.f32 (32bit x2) n1 : - - - - - NEON vmul.f32 (32bit x4) n1 : 0.626 23197.0 1449.8 ( 16.0 1.0) NEON vadd.f32 (32bit x4) n1 : 0.626 23180.7 1448.8 ( 16.0 1.0) NEON vmla.f32 (32bit x4) n1 : 2.440 11897.9 371.8 ( 32.0 0.2) NEON vfma.f32 (32bit x4) n1 : - - - - - NEON vmul.f32 (32bit x4) n12 : 0.929 23441.0 1465.1 ( 16.0 1.0) NEON vadd.f32 (32bit x4) n12 : 0.930 23401.3 1462.6 ( 16.0 1.0) NEON vmla.f32 (32bit x4) n12 : 0.928 46918.9 1466.2 ( 32.0 1.0) NEON vfma.f32 (32bit x4) n12 : - - - - - Average : 0.848 17266.3 1470.5 ( 13.3 1.0) Highest : 0.322 46918.9 2818.7 ( 32.0 1.9) * Group 0: Thread=4 Clock=1.512000 GHz (mask:f) * VFP/NEON (DP fp) multi-thread TIME(s) MFLOPS MOPS FOP IPC VFP fmuld (64bit x1) n8 : 0.354 10241.0 2560.2 ( 4.0 1.7) VFP faddd (64bit x1) n8 : 0.320 11325.3 2831.3 ( 4.0 1.9) VFP fmacd (64bit x1) n8 : 0.334 21746.4 2718.3 ( 8.0 1.8) VFP vfma.f64 (64bit x1) n8 : - - - - - VFP fmuld (64bit x1) ns4 : 0.608 5969.4 1492.3 ( 4.0 1.0) VFP faddd (64bit x1) ns4 : 0.608 5965.2 1491.3 ( 4.0 1.0) VFP fmacd (64bit x1) ns4 : 1.224 5930.4 741.3 ( 8.0 0.5) VFP vfma.f64 (64bit x1) ns4 : - - - - - VFP fmuld (64bit x1) n1 : 0.609 5957.9 1489.5 ( 4.0 1.0) VFP faddd (64bit x1) n1 : 0.609 5961.5 1490.4 ( 4.0 1.0) VFP fmacd (64bit x1) n1 : 2.432 2984.7 373.1 ( 8.0 0.2) VFP vfma.f64 (64bit x1) n1 : - - - - - Average : 0.789 8453.5 1687.5 ( 5.3 1.1) Highest : 0.320 21746.4 2831.3 ( 8.0 1.9) * Group 1: Thread=1 Clock=2.016000 GHz (mask:30) * VFP/NEON (SP fp) TIME(s) MFLOPS MOPS FOP IPC VFP fmuls (32bit x1) n8 : 0.340 3559.3 3559.3 ( 1.0 1.8) VFP fadds (32bit x1) n8 : 0.301 4012.0 4012.0 ( 1.0 2.0) VFP fmacs (32bit x1) n8 : 0.301 8027.5 4013.8 ( 2.0 2.0) VFP vfma.f32 (32bit x1) n8 : - - - - - NEON vmul.f32 (32bit x2) n8 : 0.303 7981.7 3990.8 ( 2.0 2.0) NEON vadd.f32 (32bit x2) n8 : 0.301 8027.1 4013.6 ( 2.0 2.0) NEON vmla.f32 (32bit x2) n8 : 0.302 16030.0 4007.5 ( 4.0 2.0) NEON vfma.f32 (32bit x2) n8 : - - - - - NEON vmul.f32 (32bit x4) n8 : 0.603 8028.6 2007.2 ( 4.0 1.0) NEON vadd.f32 (32bit x4) n8 : 0.602 8030.9 2007.7 ( 4.0 1.0) NEON vmla.f32 (32bit x4) n8 : 0.603 16059.9 2007.5 ( 8.0 1.0) NEON vfma.f32 (32bit x4) n8 : - - - - - VFP fmuls (32bit x1) ns4 : 0.602 2007.7 2007.7 ( 1.0 1.0) VFP fadds (32bit x1) ns4 : 0.602 2007.8 2007.8 ( 1.0 1.0) VFP fmacs (32bit x1) ns4 : 1.054 2294.9 1147.5 ( 2.0 0.6) VFP vfma.f32 (32bit x1) ns4 : - - - - - NEON vmul.f32 (32bit x2) ns4 : 0.602 4015.8 2007.9 ( 2.0 1.0) NEON vadd.f32 (32bit x2) ns4 : 0.602 4015.8 2007.9 ( 2.0 1.0) NEON vmla.f32 (32bit x2) ns4 : 1.054 4589.3 1147.3 ( 4.0 0.6) NEON vfma.f32 (32bit x2) ns4 : - - - - - NEON vmul.f32 (32bit x4) ns4 : 0.602 8031.7 2007.9 ( 4.0 1.0) NEON vadd.f32 (32bit x4) ns4 : 0.602 8032.5 2008.1 ( 4.0 1.0) NEON vmla.f32 (32bit x4) ns4 : 1.055 9176.5 1147.1 ( 8.0 0.6) NEON vfma.f32 (32bit x4) ns4 : - - - - - VFP fmuls (32bit x1) n1 : 0.301 4015.6 4015.6 ( 1.0 2.0) VFP fadds (32bit x1) n1 : 0.301 4016.1 4016.1 ( 1.0 2.0) VFP fmacs (32bit x1) n1 : 1.807 1338.5 669.2 ( 2.0 0.3) VFP vfma.f32 (32bit x1) n1 : - - - - - NEON vmul.f32 (32bit x2) n1 : 0.301 8032.3 4016.1 ( 2.0 2.0) NEON vadd.f32 (32bit x2) n1 : 0.301 8032.0 4016.0 ( 2.0 2.0) NEON vmla.f32 (32bit x2) n1 : 1.808 2676.4 669.1 ( 4.0 0.3) NEON vfma.f32 (32bit x2) n1 : - - - - - NEON vmul.f32 (32bit x4) n1 : 0.602 8031.9 2008.0 ( 4.0 1.0) NEON vadd.f32 (32bit x4) n1 : 0.602 8031.2 2007.8 ( 4.0 1.0) NEON vmla.f32 (32bit x4) n1 : 1.807 5354.1 669.3 ( 8.0 0.3) NEON vfma.f32 (32bit x4) n1 : - - - - - NEON vmul.f32 (32bit x4) n12 : 0.904 8031.2 2007.8 ( 4.0 1.0) NEON vadd.f32 (32bit x4) n12 : 0.904 8031.0 2007.8 ( 4.0 1.0) NEON vmla.f32 (32bit x4) n12 : 0.904 16062.4 2007.8 ( 8.0 1.0) NEON vfma.f32 (32bit x4) n12 : - - - - - Average : 0.699 6852.7 2440.6 ( 3.3 1.2) Highest : 0.301 16062.4 4016.1 ( 8.0 2.0) * Group 1: Thread=1 Clock=2.016000 GHz (mask:30) * VFP/NEON (DP fp) TIME(s) MFLOPS MOPS FOP IPC VFP fmuld (64bit x1) n8 : 0.328 3682.8 3682.8 ( 1.0 1.8) VFP faddd (64bit x1) n8 : 0.301 4014.0 4014.0 ( 1.0 2.0) VFP fmacd (64bit x1) n8 : 0.301 8030.1 4015.1 ( 2.0 2.0) VFP vfma.f64 (64bit x1) n8 : - - - - - VFP fmuld (64bit x1) ns4 : 0.602 2008.1 2008.1 ( 1.0 1.0) VFP faddd (64bit x1) ns4 : 0.603 2007.6 2007.6 ( 1.0 1.0) VFP fmacd (64bit x1) ns4 : 1.054 2294.8 1147.4 ( 2.0 0.6) VFP vfma.f64 (64bit x1) ns4 : - - - - - VFP fmuld (64bit x1) n1 : 0.301 4016.3 4016.3 ( 1.0 2.0) VFP faddd (64bit x1) n1 : 0.301 4016.1 4016.1 ( 1.0 2.0) VFP fmacd (64bit x1) n1 : 1.807 1338.6 669.3 ( 2.0 0.3) VFP vfma.f64 (64bit x1) n1 : - - - - - Average : 0.622 3489.8 2841.8 ( 1.3 1.4) Highest : 0.301 8030.1 4016.3 ( 2.0 2.0) * Group 1: Thread=2 Clock=2.016000 GHz (mask:30) * VFP/NEON (SP fp) multi-thread TIME(s) MFLOPS MOPS FOP IPC VFP fmuls (32bit x1) n8 : 0.333 7254.2 3627.1 ( 2.0 1.8) VFP fadds (32bit x1) n8 : 0.302 8015.4 4007.7 ( 2.0 2.0) VFP fmacs (32bit x1) n8 : 0.302 16041.3 4010.3 ( 4.0 2.0) VFP vfma.f32 (32bit x1) n8 : - - - - - NEON vmul.f32 (32bit x2) n8 : 0.302 16035.5 4008.9 ( 4.0 2.0) NEON vadd.f32 (32bit x2) n8 : 0.302 16042.2 4010.5 ( 4.0 2.0) NEON vmla.f32 (32bit x2) n8 : 0.302 32089.1 4011.1 ( 8.0 2.0) NEON vfma.f32 (32bit x2) n8 : - - - - - NEON vmul.f32 (32bit x4) n8 : 0.603 16045.3 2005.7 ( 8.0 1.0) NEON vadd.f32 (32bit x4) n8 : 0.605 16007.0 2000.9 ( 8.0 1.0) NEON vmla.f32 (32bit x4) n8 : 0.605 32014.0 2000.9 ( 16.0 1.0) NEON vfma.f32 (32bit x4) n8 : - - - - - VFP fmuls (32bit x1) ns4 : 0.603 4014.7 2007.3 ( 2.0 1.0) VFP fadds (32bit x1) ns4 : 0.603 4014.0 2007.0 ( 2.0 1.0) VFP fmacs (32bit x1) ns4 : 1.055 4584.5 1146.1 ( 4.0 0.6) VFP vfma.f32 (32bit x1) ns4 : - - - - - NEON vmul.f32 (32bit x2) ns4 : 0.602 8033.0 2008.3 ( 4.0 1.0) NEON vadd.f32 (32bit x2) ns4 : 0.603 8027.9 2007.0 ( 4.0 1.0) NEON vmla.f32 (32bit x2) ns4 : 1.055 9173.4 1146.7 ( 8.0 0.6) NEON vfma.f32 (32bit x2) ns4 : - - - - - NEON vmul.f32 (32bit x4) ns4 : 0.603 16058.0 2007.2 ( 8.0 1.0) NEON vadd.f32 (32bit x4) ns4 : 0.602 16066.4 2008.3 ( 8.0 1.0) NEON vmla.f32 (32bit x4) ns4 : 1.054 18359.9 1147.5 ( 16.0 0.6) NEON vfma.f32 (32bit x4) ns4 : - - - - - VFP fmuls (32bit x1) n1 : 0.301 8028.9 4014.4 ( 2.0 2.0) VFP fadds (32bit x1) n1 : 0.301 8032.6 4016.3 ( 2.0 2.0) VFP fmacs (32bit x1) n1 : 1.808 2675.9 669.0 ( 4.0 0.3) VFP vfma.f32 (32bit x1) n1 : - - - - - NEON vmul.f32 (32bit x2) n1 : 0.302 16018.6 4004.7 ( 4.0 2.0) NEON vadd.f32 (32bit x2) n1 : 0.301 16058.4 4014.6 ( 4.0 2.0) NEON vmla.f32 (32bit x2) n1 : 1.807 5354.2 669.3 ( 8.0 0.3) NEON vfma.f32 (32bit x2) n1 : - - - - - NEON vmul.f32 (32bit x4) n1 : 0.603 16043.5 2005.4 ( 8.0 1.0) NEON vadd.f32 (32bit x4) n1 : 0.603 16041.9 2005.2 ( 8.0 1.0) NEON vmla.f32 (32bit x4) n1 : 1.808 10706.7 669.2 ( 16.0 0.3) NEON vfma.f32 (32bit x4) n1 : - - - - - NEON vmul.f32 (32bit x4) n12 : 0.904 16062.1 2007.8 ( 8.0 1.0) NEON vadd.f32 (32bit x4) n12 : 0.904 16063.5 2007.9 ( 8.0 1.0) NEON vmla.f32 (32bit x4) n12 : 0.904 32117.4 2007.3 ( 16.0 1.0) NEON vfma.f32 (32bit x4) n12 : - - - - - Average : 0.699 13702.7 2442.0 ( 6.7 1.2) Highest : 0.301 32117.4 4016.3 ( 16.0 2.0) * Group 1: Thread=2 Clock=2.016000 GHz (mask:30) * VFP/NEON (DP fp) multi-thread TIME(s) MFLOPS MOPS FOP IPC VFP fmuld (64bit x1) n8 : 0.302 8011.4 4005.7 ( 2.0 2.0) VFP faddd (64bit x1) n8 : 0.301 8032.8 4016.4 ( 2.0 2.0) VFP fmacd (64bit x1) n8 : 0.302 16013.5 4003.4 ( 4.0 2.0) VFP vfma.f64 (64bit x1) n8 : - - - - - VFP fmuld (64bit x1) ns4 : 0.602 4015.5 2007.8 ( 2.0 1.0) VFP faddd (64bit x1) ns4 : 0.603 4013.0 2006.5 ( 2.0 1.0) VFP fmacd (64bit x1) ns4 : 1.063 4552.2 1138.1 ( 4.0 0.6) VFP vfma.f64 (64bit x1) ns4 : - - - - - VFP fmuld (64bit x1) n1 : 0.301 8029.8 4014.9 ( 2.0 2.0) VFP faddd (64bit x1) n1 : 0.302 8014.6 4007.3 ( 2.0 2.0) VFP fmacd (64bit x1) n1 : 1.807 2677.1 669.3 ( 4.0 0.3) VFP vfma.f64 (64bit x1) n1 : - - - - - Average : 0.620 7040.0 2874.4 ( 2.7 1.4) Highest : 0.301 16013.5 4016.4 ( 4.0 2.0)
Desktop CPU
Intel Atom Bonnell (IA32 x86) SSSE3
Atom N270 Single core 1.6GHz (Diamondville / Bonnell)
Atom N270 Diamondville Bonnell Single Core (HT) 1.6GHz ARCH: x86 FPU: SSSE3 SingleT SP max: 7.597 GFLOPS SingleT DP max: 1.548 GFLOPS MultiT SP max: 9.277 GFLOPS MultiT DP max: 1.570 GFLOPS CPU core: 2 SSE: yes AVX: no FMA: no * SSE/AVX (single fp) SSE mulss (32bit x1) n8 : 2.525 1584.1 1584.1 SSE addss (32bit x1) n8 : 2.595 1541.4 1541.4 SSE mulps (32bit x4) n8 : 5.051 3167.9 3167.9 SSE addps (32bit x4) n8 : 2.596 6162.8 6162.8 SSE mul+addps (32bit x4) n8 : 2.522 6345.2 6345.2 SSE ml+ad+addps (32bit x4) n6 : 2.211 7596.9 7596.9 SSE mulss (32bit x1) ns4 : 2.525 1584.1 1584.1 SSE addss (32bit x1) ns4 : 3.152 1268.9 1268.9 SSE mulps (32bit x4) ns4 : 5.042 3173.4 3173.4 SSE addps (32bit x4) ns4 : 3.150 5078.6 5078.6 AVX vmulps (32bit x8) n8 : - - - AVX vaddps (32bit x8) n8 : - - - AVX vmul+addps (32bit x8) n8 : - - - AVX vml+ad+adps (32bit x8) n6 : - - - Average : 3.137 3750.3 3750.3 Highest : 2.211 7596.9 7596.9 * SSE/AVX (double fp) SSE2 mulsd (64bit x1) n8 : 5.048 792.4 792.4 SSE2 addsd (64bit x1) n8 : 2.583 1548.3 1548.3 SSE2 mulpd (64bit x2) n8 : 22.744 351.7 351.7 SSE2 addpd (64bit x2) n8 : 15.292 523.2 523.2 SSE2 mul+addpd (64bit x2) n8 : 16.451 486.3 486.3 SSE2 ml+ad+dpd (64bit x2) n6 : 16.833 499.0 499.0 SSE2 mulsd (64bit x1) ns4 : 5.039 793.8 793.8 SSE2 addsd (64bit x1) ns4 : 3.151 1269.6 1269.6 SSE2 mulpd (64bit x2) ns4 : 22.846 350.2 350.2 SSE2 addpd (64bit x2) ns4 : 15.186 526.8 526.8 AVX vmulpd (64bit x4) n8 : - - - AVX vaddpd (64bit x4) n8 : - - - AVX vmul+addpd (64bit x4) n8 : - - - AVX vml_ad_adpd (64bit x4) n6 : - - - Average : 12.517 714.1 714.1 Highest : 2.583 1548.3 1548.3 * Matrix 4x4 C++ code : 8.430 425.2 425.2 C++ Intrinsic SSE 128bit : 2.115 1694.6 1694.6 SSE mul/addps 128bit A : 2.645 1355.0 1355.0 AVX vmul/addps 256bit A : - - - Average : 4.397 1158.2 1158.2 Highest : 2.115 1694.6 1694.6 * SSE/AVX (single fp) multi-thread SSE mulss (32bit x1) n8 : 5.046 1585.4 1585.4 SSE addss (32bit x1) n8 : 5.157 1551.3 1551.3 SSE mulps (32bit x4) n8 : 10.022 3192.9 3192.9 SSE addps (32bit x4) n8 : 5.115 6255.7 6255.7 SSE mul+addps (32bit x4) n8 : 4.904 6525.5 6525.5 SSE ml+ad+addps (32bit x4) n6 : 3.622 9277.4 9277.4 SSE mulss (32bit x1) ns4 : 5.035 1588.8 1588.8 SSE addss (32bit x1) ns4 : 5.095 1570.2 1570.2 SSE mulps (32bit x4) ns4 : 9.917 3226.6 3226.6 SSE addps (32bit x4) ns4 : 5.036 6353.8 6353.8 AVX vmulps (32bit x8) n8 : - - - AVX vaddps (32bit x8) n8 : - - - AVX vmul+addps (32bit x8) n8 : - - - AVX vml+ad+adps (32bit x8) n6 : - - - Average : 5.895 4112.8 4112.8 Highest : 3.622 9277.4 9277.4 * SSE/AVX (double fp) multi-thread SSE2 mulsd (64bit x1) n8 : 10.063 795.0 795.0 SSE2 addsd (64bit x1) n8 : 5.163 1549.6 1549.6 SSE2 mulpd (64bit x2) n8 : 25.537 626.6 626.6 SSE2 addpd (64bit x2) n8 : 20.332 786.9 786.9 SSE2 mul+addpd (64bit x2) n8 : 22.887 699.1 699.1 SSE2 ml+ad+dpd (64bit x2) n6 : 23.068 728.3 728.3 SSE2 mulsd (64bit x1) ns4 : 9.970 802.4 802.4 SSE2 addsd (64bit x1) ns4 : 5.097 1569.6 1569.6 SSE2 mulpd (64bit x2) ns4 : 25.588 625.3 625.3 SSE2 addpd (64bit x2) ns4 : 20.311 787.7 787.7 AVX vmulpd (64bit x4) n8 : - - - AVX vaddpd (64bit x4) n8 : - - - AVX vmul+addpd (64bit x4) n8 : - - - AVX vml_ad_adpd (64bit x4) n6 : - - - Average : 16.802 897.0 897.0 Highest : 5.097 1569.6 1569.6 * Matrix 4x4 multi-thread C++ code : 9.700 738.9 738.9 C++ Intrinsic SSE 128bit : 2.291 3128.4 3128.4 SSE mul/addps 128bit A : 3.184 2251.6 2251.6 AVX vmul/addps 256bit A : - - - Average : 5.058 2039.7 2039.7 Highest : 2.291 3128.4 3128.4
Atom Z540 Single core 1.86GHz (Menlow / Bonnell)
Atom Z540 1.86GHz (Menlow / Bonnell) Single Core + HT ARCH: x86 FPU: SSSE3 SingleT SP max: 8.918 GFLOPS SingleT DP max: 1.810 GFLOPS MultiT SP max: 10.927 GFLOPS MultiT DP max: 1.852 GFLOPS CPU core: 2 SSE: yes AVX: no FMA: no * SSE/AVX (single fp) SSE mulss (32bit x1) n8 : 2.172 1841.3 1841.3 SSE addss (32bit x1) n8 : 2.207 1812.1 1812.1 SSE mulps (32bit x4) n8 : 4.307 3715.2 3715.2 SSE addps (32bit x4) n8 : 2.207 7248.1 7248.1 SSE mul+addps (32bit x4) n8 : 2.155 7424.2 7424.2 SSE ml+ad+addps (32bit x4) n6 : 1.884 8917.7 8917.7 SSE mulss (32bit x1) ns4 : 2.153 1857.6 1857.6 SSE addss (32bit x1) ns4 : 2.691 1486.4 1486.4 SSE mulps (32bit x4) ns4 : 4.308 3713.7 3713.7 SSE addps (32bit x4) ns4 : 2.692 5943.9 5943.9 AVX vmulps (32bit x8) n8 : - - - AVX vaddps (32bit x8) n8 : - - - AVX vmul+addps (32bit x8) n8 : - - - AVX vml+ad+adps (32bit x8) n6 : - - - Average : 2.678 4396.0 4396.0 Highest : 1.884 8917.7 8917.7 * SSE/AVX (double fp) SSE2 mulsd (64bit x1) n8 : 4.315 927.1 927.1 SSE2 addsd (64bit x1) n8 : 2.210 1810.3 1810.3 SSE2 mulpd (64bit x2) n8 : 19.438 411.6 411.6 SSE2 addpd (64bit x2) n8 : 13.020 614.4 614.4 SSE2 mul+addpd (64bit x2) n8 : 14.063 568.9 568.9 SSE2 ml+ad+dpd (64bit x2) n6 : 14.400 583.3 583.3 SSE2 mulsd (64bit x1) ns4 : 4.307 928.7 928.7 SSE2 addsd (64bit x1) ns4 : 2.693 1485.1 1485.1 SSE2 mulpd (64bit x2) ns4 : 19.450 411.3 411.3 SSE2 addpd (64bit x2) ns4 : 13.043 613.3 613.3 AVX vmulpd (64bit x4) n8 : - - - AVX vaddpd (64bit x4) n8 : - - - AVX vmul+addpd (64bit x4) n8 : - - - AVX vml_ad_adpd (64bit x4) n6 : - - - Average : 10.694 835.4 835.4 Highest : 2.210 1810.3 1810.3 * Matrix 4x4 C++ code : 7.229 495.7 495.7 C++ Intrinsic SSE 128bit : 1.807 1983.7 1983.7 SSE mul/addps 128bit A : 2.268 1580.3 1580.3 AVX vmul/addps 256bit A : - - - Average : 3.768 1353.2 1353.2 Highest : 1.807 1983.7 1983.7 * SSE/AVX (single fp) multi-thread SSE mulss (32bit x1) n8 : 4.302 1859.5 1859.5 SSE addss (32bit x1) n8 : 4.378 1827.1 1827.1 SSE mulps (32bit x4) n8 : 8.517 3757.4 3757.4 SSE addps (32bit x4) n8 : 4.357 7344.3 7344.3 SSE mul+addps (32bit x4) n8 : 4.184 7648.2 7648.2 SSE ml+ad+addps (32bit x4) n6 : 3.075 10926.6 10926.6 SSE mulss (32bit x1) ns4 : 4.281 1868.6 1868.6 SSE addss (32bit x1) ns4 : 4.284 1867.4 1867.4 SSE mulps (32bit x4) ns4 : 8.273 3867.9 3867.9 SSE addps (32bit x4) ns4 : 4.180 7655.5 7655.5 AVX vmulps (32bit x8) n8 : - - - AVX vaddps (32bit x8) n8 : - - - AVX vmul+addps (32bit x8) n8 : - - - AVX vml+ad+adps (32bit x8) n6 : - - - Average : 4.983 4862.3 4862.3 Highest : 3.075 10926.6 10926.6 * SSE/AVX (double fp) multi-thread SSE2 mulsd (64bit x1) n8 : 8.597 930.6 930.6 SSE2 addsd (64bit x1) n8 : 4.382 1825.6 1825.6 SSE2 mulpd (64bit x2) n8 : 21.832 732.9 732.9 SSE2 addpd (64bit x2) n8 : 17.394 919.9 919.9 SSE2 mul+addpd (64bit x2) n8 : 19.559 818.0 818.0 SSE2 ml+ad+dpd (64bit x2) n6 : 19.723 851.8 851.8 SSE2 mulsd (64bit x1) ns4 : 8.418 950.3 950.3 SSE2 addsd (64bit x1) ns4 : 4.319 1852.3 1852.3 SSE2 mulpd (64bit x2) ns4 : 21.811 733.6 733.6 SSE2 addpd (64bit x2) ns4 : 17.341 922.7 922.7 AVX vmulpd (64bit x4) n8 : - - - AVX vaddpd (64bit x4) n8 : - - - AVX vmul+addpd (64bit x4) n8 : - - - AVX vml_ad_adpd (64bit x4) n6 : - - - Average : 14.338 1053.8 1053.8 Highest : 4.319 1852.3 1852.3 * Matrix 4x4 multi-thread C++ code : 8.284 865.3 865.3 C++ Intrinsic SSE 128bit : 1.967 3645.0 3645.0 SSE mul/addps 128bit A : 2.719 2636.1 2636.1 AVX vmul/addps 256bit A : - - - Average : 4.323 2382.1 2382.1 Highest : 1.967 3645.0 3645.0
Intel Atom Silvermont (AMD64 x86_64 x64) SSE4.2
Atom J1900 Quad core 2.0GHz (BayTrail-D / Silvermont)
Atom J1900 BayTrail-D Silvermont x4 core 2.0GHz (TB:2.41GHz) Ubuntu 14.04 x64 ARCH: x64 FPU: SSSE3 SSE4.1 SSE4.2 SingleT SP max: 14.477 GFLOPS SingleT DP max: 3.619 GFLOPS MultiT SP max: 57.902 GFLOPS MultiT DP max: 14.471 GFLOPS CPU core: 4 SSE: yes AVX: no FMA: no * SSE/AVX (single fp) SSE mulss (32bit x1) n8 : 1.663 2405.9 2405.9 SSE addss (32bit x1) n8 : 1.658 2412.7 2412.7 SSE mulps (32bit x4) n8 : 3.316 4825.5 4825.5 SSE addps (32bit x4) n8 : 1.658 9651.1 9651.1 SSE mul+addps (32bit x4) n8 : 1.658 9650.1 9650.1 SSE ml+ad+addps (32bit x4) n6 : 1.243 14476.9 14476.9 SSE mulss (32bit x1) ns4 : 1.658 2412.9 2412.9 SSE addss (32bit x1) ns4 : 1.658 2412.9 2412.9 SSE mulps (32bit x4) ns4 : 3.316 4825.4 4825.4 SSE addps (32bit x4) ns4 : 1.658 9651.7 9651.7 AVX vmulps (32bit x8) n8 : - - - AVX vaddps (32bit x8) n8 : - - - AVX vmul+addps (32bit x8) n8 : - - - AVX vml+ad+adps (32bit x8) n6 : - - - Average : 1.948 6272.5 6272.5 Highest : 1.243 14476.9 14476.9 * SSE/AVX (double fp) SSE2 mulsd (64bit x1) n8 : 3.318 1205.7 1205.7 SSE2 addsd (64bit x1) n8 : 1.658 2412.9 2412.9 SSE2 mulpd (64bit x2) n8 : 6.631 1206.5 1206.5 SSE2 addpd (64bit x2) n8 : 3.316 2412.9 2412.9 SSE2 mul+addpd (64bit x2) n8 : 3.316 2412.7 2412.7 SSE2 ml+ad+dpd (64bit x2) n6 : 2.487 3619.2 3619.2 SSE2 mulsd (64bit x1) ns4 : 3.316 1206.4 1206.4 SSE2 addsd (64bit x1) ns4 : 1.658 2412.9 2412.9 SSE2 mulpd (64bit x2) ns4 : 6.631 1206.4 1206.4 SSE2 addpd (64bit x2) ns4 : 3.315 2412.9 2412.9 AVX vmulpd (64bit x4) n8 : - - - AVX vaddpd (64bit x4) n8 : - - - AVX vmul+addpd (64bit x4) n8 : - - - AVX vml_ad_adpd (64bit x4) n6 : - - - Average : 3.564 2050.9 2050.9 Highest : 1.658 3619.2 3619.2 * Matrix 4x4 C++ code : 3.754 954.7 954.7 C++ Intrinsic SSE 128bit : 0.511 7019.5 7019.5 SSE mul/addps 128bit A : 0.955 3752.6 3752.6 AVX vmul/addps 256bit A : - - - Average : 1.740 3908.9 3908.9 Highest : 0.511 7019.5 7019.5 * SSE/AVX (single fp) multi-thread SSE mulss (32bit x1) n8 : 1.667 9600.8 9600.8 SSE addss (32bit x1) n8 : 1.660 9639.2 9639.2 SSE mulps (32bit x4) n8 : 3.318 19289.8 19289.8 SSE addps (32bit x4) n8 : 1.660 38543.8 38543.8 SSE mul+addps (32bit x4) n8 : 1.659 38581.5 38581.5 SSE ml+ad+addps (32bit x4) n6 : 1.243 57901.7 57901.7 SSE mulss (32bit x1) ns4 : 1.658 9650.5 9650.5 SSE addss (32bit x1) ns4 : 1.658 9649.9 9649.9 SSE mulps (32bit x4) ns4 : 3.320 19276.3 19276.3 SSE addps (32bit x4) ns4 : 1.659 38581.7 38581.7 AVX vmulps (32bit x8) n8 : - - - AVX vaddps (32bit x8) n8 : - - - AVX vmul+addps (32bit x8) n8 : - - - AVX vml+ad+adps (32bit x8) n6 : - - - Average : 1.950 25071.5 25071.5 Highest : 1.243 57901.7 57901.7 * SSE/AVX (double fp) multi-thread SSE2 mulsd (64bit x1) n8 : 3.325 4812.5 4812.5 SSE2 addsd (64bit x1) n8 : 1.658 9649.5 9649.5 SSE2 mulpd (64bit x2) n8 : 6.635 4823.0 4823.0 SSE2 addpd (64bit x2) n8 : 3.323 9628.9 9628.9 SSE2 mul+addpd (64bit x2) n8 : 3.321 9635.9 9635.9 SSE2 ml+ad+dpd (64bit x2) n6 : 2.488 14471.5 14471.5 SSE2 mulsd (64bit x1) ns4 : 3.316 4825.4 4825.4 SSE2 addsd (64bit x1) ns4 : 1.662 9624.5 9624.5 SSE2 mulpd (64bit x2) ns4 : 6.632 4825.1 4825.1 SSE2 addpd (64bit x2) ns4 : 3.317 9647.6 9647.6 AVX vmulpd (64bit x4) n8 : - - - AVX vaddpd (64bit x4) n8 : - - - AVX vmul+addpd (64bit x4) n8 : - - - AVX vml_ad_adpd (64bit x4) n6 : - - - Average : 3.568 8194.4 8194.4 Highest : 1.658 14471.5 14471.5 * Matrix 4x4 multi-thread C++ code : 3.758 3814.3 3814.3 C++ Intrinsic SSE 128bit : 0.511 28065.3 28065.3 SSE mul/addps 128bit A : 0.955 15009.6 15009.6 AVX vmul/addps 256bit A : - - - Average : 1.741 15629.7 15629.7 Highest : 0.511 28065.3 28065.3
AMD Jaguar (AMD64 x86_64 x64) SSE4.2/AVX1
Athlon 5350 Quad core 2.0GHz (Kabini / Jaguar)
AMD Athlon 5350 Jaguar x4 core 2.0GHz Ubuntu 14.04 x64 DDR3-1333 8GB ARCH: x64 FPU: SSSE3 SSE4.1 SSE4.2 AVX SingleT SP max: 15.943 GFLOPS SingleT DP max: 6.127 GFLOPS MultiT SP max: 63.737 GFLOPS MultiT DP max: 24.504 GFLOPS CPU core: 4 SSE: yes AVX: yes FMA: no * SSE/AVX (single fp) SSE mulss (32bit x1) n8 : 1.966 2034.4 2034.4 SSE addss (32bit x1) n8 : 1.959 2042.1 2042.1 SSE mulps (32bit x4) n8 : 1.959 8167.9 8167.9 SSE addps (32bit x4) n8 : 1.959 8167.7 8167.7 SSE mul+addps (32bit x4) n8 : 1.077 14853.1 14853.1 SSE ml+ad+addps (32bit x4) n6 : 1.469 12253.5 12253.5 SSE mulss (32bit x1) ns4 : 1.959 2042.2 2042.2 SSE addss (32bit x1) ns4 : 1.959 2042.2 2042.2 SSE mulps (32bit x4) ns4 : 1.959 8169.3 8169.3 SSE addps (32bit x4) ns4 : 1.959 8169.0 8169.0 AVX vmulps (32bit x8) n8 : 3.916 8170.7 8170.7 AVX vaddps (32bit x8) n8 : 3.916 8170.6 8170.6 AVX vmul+addps (32bit x8) n8 : 2.007 15942.6 15942.6 AVX vml+ad+adps (32bit x8) n6 : 3.182 11312.6 11312.6 Average : 2.232 7967.0 7967.0 Highest : 1.077 15942.6 15942.6 * SSE/AVX (double fp) SSE2 mulsd (64bit x1) n8 : 3.927 1018.7 1018.7 SSE2 addsd (64bit x1) n8 : 1.959 2041.7 2041.7 SSE2 mulpd (64bit x2) n8 : 3.918 2041.8 2041.8 SSE2 addpd (64bit x2) n8 : 1.959 4084.2 4084.2 SSE2 mul+addpd (64bit x2) n8 : 1.959 4084.6 4084.6 SSE2 ml+ad+dpd (64bit x2) n6 : 1.469 6126.9 6126.9 SSE2 mulsd (64bit x1) ns4 : 3.916 1021.3 1021.3 SSE2 addsd (64bit x1) ns4 : 1.958 2042.7 2042.7 SSE2 mulpd (64bit x2) ns4 : 3.916 2042.7 2042.7 SSE2 addpd (64bit x2) ns4 : 1.958 4085.2 4085.2 AVX vmulpd (64bit x4) n8 : 7.833 2042.6 2042.6 AVX vaddpd (64bit x4) n8 : 3.917 4085.2 4085.2 AVX vmul+addpd (64bit x4) n8 : 3.917 4084.7 4084.7 AVX vml_ad_adpd (64bit x4) n6 : 2.938 6126.9 6126.9 Average : 3.253 3209.2 3209.2 Highest : 1.469 6126.9 6126.9 * Matrix 4x4 C++ code : 2.173 1649.2 1649.2 C++ Intrinsic SSE 128bit : 0.422 8490.2 8490.2 SSE mul/addps 128bit A : 0.680 5267.7 5267.7 AVX vmul/addps 256bit A : 0.659 5436.1 5436.1 Average : 0.984 5210.8 5210.8 Highest : 0.422 8490.2 8490.2 * SSE/AVX (single fp) multi-thread SSE mulss (32bit x1) n8 : 1.970 8122.6 8122.6 SSE addss (32bit x1) n8 : 1.962 8154.5 8154.5 SSE mulps (32bit x4) n8 : 1.961 32637.9 32637.9 SSE addps (32bit x4) n8 : 1.965 32577.0 32577.0 SSE mul+addps (32bit x4) n8 : 1.077 59405.4 59405.4 SSE ml+ad+addps (32bit x4) n6 : 1.469 49002.4 49002.4 SSE mulss (32bit x1) ns4 : 1.959 8168.4 8168.4 SSE addss (32bit x1) ns4 : 1.959 8168.3 8168.3 SSE mulps (32bit x4) ns4 : 1.959 32661.5 32661.5 SSE addps (32bit x4) ns4 : 1.958 32678.9 32678.9 AVX vmulps (32bit x8) n8 : 3.917 32676.7 32676.7 AVX vaddps (32bit x8) n8 : 3.917 32675.2 32675.2 AVX vmul+addps (32bit x8) n8 : 2.008 63737.0 63737.0 AVX vml+ad+adps (32bit x8) n6 : 3.183 45245.7 45245.7 Average : 2.233 31850.8 31850.8 Highest : 1.077 63737.0 63737.0 * SSE/AVX (double fp) multi-thread SSE2 mulsd (64bit x1) n8 : 3.933 4068.3 4068.3 SSE2 addsd (64bit x1) n8 : 1.965 8141.6 8141.6 SSE2 mulpd (64bit x2) n8 : 3.923 8156.8 8156.8 SSE2 addpd (64bit x2) n8 : 1.961 16321.3 16321.3 SSE2 mul+addpd (64bit x2) n8 : 1.960 16326.8 16326.8 SSE2 ml+ad+dpd (64bit x2) n6 : 1.469 24503.9 24503.9 SSE2 mulsd (64bit x1) ns4 : 3.921 4081.0 4081.0 SSE2 addsd (64bit x1) ns4 : 1.959 8165.4 8165.4 SSE2 mulpd (64bit x2) ns4 : 3.918 8167.9 8167.9 SSE2 addpd (64bit x2) ns4 : 1.959 16338.4 16338.4 AVX vmulpd (64bit x4) n8 : 7.834 8169.1 8169.1 AVX vaddpd (64bit x4) n8 : 3.921 16320.9 16320.9 AVX vmul+addpd (64bit x4) n8 : 3.917 16337.4 16337.4 AVX vml_ad_adpd (64bit x4) n6 : 2.939 24499.8 24499.8 Average : 3.256 12828.5 12828.5 Highest : 1.469 24503.9 24503.9 * Matrix 4x4 multi-thread C++ code : 2.179 6578.2 6578.2 C++ Intrinsic SSE 128bit : 0.423 33902.8 33902.8 SSE mul/addps 128bit A : 0.681 21057.2 21057.2 AVX vmul/addps 256bit A : 0.660 21717.4 21717.4 Average : 0.986 20813.9 20813.9 Highest : 0.423 33902.8 33902.8
Intel Atom Airmont (AMD64 x86_64 x64) SSE4.2
Atom N3150 Quad core 1.6GHz (Braswell/Airmont)
Atom Celeron N3150 Braswell Airmont x4 core 1.6GHz (TB:2.0GHz) Ubuntu 15.04 x64 ARCH: x64 FPU: SSSE3 SSE4.1 SSE4.2 SingleT SP max: 12.468 GFLOPS SingleT DP max: 3.117 GFLOPS MultiT SP max: 49.679 GFLOPS MultiT DP max: 12.469 GFLOPS CPU core: 4 SSE: yes AVX: no FMA: no * SSE/AVX (single fp) SSE mulss (32bit x1) n8 : 0.758 1584.1 1584.1 SSE addss (32bit x1) n8 : 0.577 2078.0 2078.0 FMA vfmaddss (32bit x1) n8 : - - - SSE mulps (32bit x4) n8 : 1.155 4155.5 4155.5 SSE addps (32bit x4) n8 : 0.578 8311.2 8311.2 SSE mul+addps (32bit x4) n8 : 0.577 8311.8 8311.8 FMA vfmaddss (32bit x4) n8 : - - - SSE ml+ad+addps (32bit x4) n6 : 0.433 12468.3 12468.3 SSE mulss (32bit x1) ns4 : 0.577 2078.0 2078.0 SSE addss (32bit x1) ns4 : 0.578 2077.1 2077.1 SSE mulps (32bit x4) ns4 : 1.155 4156.0 4156.0 SSE addps (32bit x4) ns4 : 0.578 8309.7 8309.7 AVX vmulps (32bit x8) n8 : - - - AVX vaddps (32bit x8) n8 : - - - AVX vmul+addps (32bit x8) n8 : - - - FMA vfmaddps (32bit x8) n8 : - - - AVX vml+ad+adps (32bit x8) n6 : - - - Average : 0.697 5353.0 5353.0 Highest : 0.433 12468.3 12468.3 * SSE/AVX (double fp) SSE2 mulsd (64bit x1) n8 : 1.198 1001.4 1001.4 SSE2 addsd (64bit x1) n8 : 0.578 2077.9 2077.9 FMA vfmaddsd (64bit x1) n8 : - - - SSE2 mulpd (64bit x2) n8 : 2.310 1039.1 1039.1 SSE2 addpd (64bit x2) n8 : 1.155 2078.3 2078.3 SSE2 mul+addpd (64bit x2) n8 : 1.155 2078.3 2078.3 FMA vfmaddsd (64bit x2) n8 : - - - SSE2 ml+ad+dpd (64bit x2) n6 : 0.866 3117.3 3117.3 SSE2 mulsd (64bit x1) ns4 : 1.155 1039.2 1039.2 SSE2 addsd (64bit x1) ns4 : 0.577 2078.2 2078.2 SSE2 mulpd (64bit x2) ns4 : 2.310 1039.1 1039.1 SSE2 addpd (64bit x2) ns4 : 1.155 2078.3 2078.3 AVX vmulpd (64bit x4) n8 : - - - AVX vaddpd (64bit x4) n8 : - - - AVX vmul+addpd (64bit x4) n8 : - - - FMA vfmaddpd (64bit x4) n8 : - - - AVX vml_ad_adpd (64bit x4) n6 : - - - Average : 1.246 1762.7 1762.7 Highest : 0.577 3117.3 3117.3 * Matrix 4x4 C++ code : 0.516 3473.4 3473.4 C++ Intrinsic SSE 128bit : 0.477 3756.7 3756.7 SSE mul/addps 128bit A : 0.335 5341.3 5341.3 AVX vmul/addps 256bit A : - - - Average : 0.443 4190.5 4190.5 Highest : 0.335 5341.3 5341.3 * SSE/AVX (single fp) multi-thread SSE mulss (32bit x1) n8 : 0.673 7129.8 7129.8 SSE addss (32bit x1) n8 : 0.578 8299.9 8299.9 FMA vfmaddss (32bit x1) n8 : - - - SSE mulps (32bit x4) n8 : 1.157 16597.0 16597.0 SSE addps (32bit x4) n8 : 0.578 33196.3 33196.3 SSE mul+addps (32bit x4) n8 : 0.578 33196.9 33196.9 FMA vfmaddss (32bit x4) n8 : - - - SSE ml+ad+addps (32bit x4) n6 : 0.435 49678.9 49678.9 SSE mulss (32bit x1) ns4 : 0.579 8296.1 8296.1 SSE addss (32bit x1) ns4 : 0.579 8296.3 8296.3 SSE mulps (32bit x4) ns4 : 1.156 16609.2 16609.2 SSE addps (32bit x4) ns4 : 0.582 32994.7 32994.7 AVX vmulps (32bit x8) n8 : - - - AVX vaddps (32bit x8) n8 : - - - AVX vmul+addps (32bit x8) n8 : - - - FMA vfmaddps (32bit x8) n8 : - - - AVX vml+ad+adps (32bit x8) n6 : - - - Average : 0.689 21429.5 21429.5 Highest : 0.435 49678.9 49678.9 * SSE/AVX (double fp) multi-thread SSE2 mulsd (64bit x1) n8 : 1.185 4050.0 4050.0 SSE2 addsd (64bit x1) n8 : 0.578 8299.2 8299.2 FMA vfmaddsd (64bit x1) n8 : - - - SSE2 mulpd (64bit x2) n8 : 2.315 4146.3 4146.3 SSE2 addpd (64bit x2) n8 : 1.155 8311.2 8311.2 SSE2 mul+addpd (64bit x2) n8 : 1.155 8311.8 8311.8 FMA vfmaddsd (64bit x2) n8 : - - - SSE2 ml+ad+dpd (64bit x2) n6 : 0.866 12468.7 12468.7 SSE2 mulsd (64bit x1) ns4 : 1.155 4154.9 4154.9 SSE2 addsd (64bit x1) ns4 : 0.577 8311.8 8311.8 SSE2 mulpd (64bit x2) ns4 : 2.310 4155.6 4155.6 SSE2 addpd (64bit x2) ns4 : 1.155 8309.8 8309.8 AVX vmulpd (64bit x4) n8 : - - - AVX vaddpd (64bit x4) n8 : - - - AVX vmul+addpd (64bit x4) n8 : - - - FMA vfmaddpd (64bit x4) n8 : - - - AVX vml_ad_adpd (64bit x4) n6 : - - - Average : 1.245 7051.9 7051.9 Highest : 0.577 12468.7 12468.7 * Matrix 4x4 multi-thread C++ code : 0.464 15435.4 15435.4 C++ Intrinsic SSE 128bit : 0.478 15002.7 15002.7 SSE mul/addps 128bit A : 0.336 21336.6 21336.6 AVX vmul/addps 256bit A : - - - Average : 0.426 17258.2 17258.2 Highest : 0.336 21336.6 21336.6
Intel Core 2 Duo (AMD64 x86_64 x64) SSE4.1
Core2 Duo P7350 2.0GHz Penryn 2.0GHz dual core ARCH: x64 FPU: SSSE3 SSE4.1 SingleT SP max: 15.916 GFLOPS SingleT DP max: 6.365 GFLOPS MultiT SP max: 31.662 GFLOPS MultiT DP max: 12.724 GFLOPS CPU core: 2 SSE: yes AVX: no FMA: no * SSE/AVX (single fp) SSE mulss (32bit x1) n8 : 2.011 1988.7 1988.7 SSE addss (32bit x1) n8 : 2.011 1989.5 1989.5 SSE mulps (32bit x4) n8 : 2.012 7952.7 7952.7 SSE addps (32bit x4) n8 : 2.011 7957.8 7957.8 SSE mul+addps (32bit x4) n8 : 1.005 15916.3 15916.3 SSE ml+ad+addps (32bit x4) n6 : 1.508 11934.1 11934.1 SSE mulss (32bit x1) ns4 : 2.011 1989.1 1989.1 SSE addss (32bit x1) ns4 : 2.011 1988.6 1988.6 SSE mulps (32bit x4) ns4 : 2.011 7956.5 7956.5 SSE addps (32bit x4) ns4 : 2.011 7958.0 7958.0 AVX vmulps (32bit x8) n8 : - - - AVX vaddps (32bit x8) n8 : - - - AVX vmul+addps (32bit x8) n8 : - - - AVX vml+ad+adps (32bit x8) n6 : - - - Average : 1.860 6763.1 6763.1 Highest : 1.005 15916.3 15916.3 * SSE/AVX (double fp) SSE2 mulsd (64bit x1) n8 : 2.011 1988.6 1988.6 SSE2 addsd (64bit x1) n8 : 2.011 1989.5 1989.5 SSE2 mulpd (64bit x2) n8 : 2.011 3979.0 3979.0 SSE2 addpd (64bit x2) n8 : 2.011 3978.5 3978.5 SSE2 mul+addpd (64bit x2) n8 : 1.257 6364.9 6364.9 SSE2 ml+ad+dpd (64bit x2) n6 : 1.508 5967.5 5967.5 SSE2 mulsd (64bit x1) ns4 : 2.514 1591.4 1591.4 SSE2 addsd (64bit x1) ns4 : 2.012 1988.1 1988.1 SSE2 mulpd (64bit x2) ns4 : 2.514 3182.1 3182.1 SSE2 addpd (64bit x2) ns4 : 2.010 3979.5 3979.5 AVX vmulpd (64bit x4) n8 : - - - AVX vaddpd (64bit x4) n8 : - - - AVX vmul+addpd (64bit x4) n8 : - - - AVX vml_ad_adpd (64bit x4) n6 : - - - Average : 1.986 3500.9 3500.9 Highest : 1.257 6364.9 6364.9 * Matrix 4x4 C++ code : 1.574 2277.6 2277.6 C++ Intrinsic SSE 128bit : 0.397 9021.5 9021.5 SSE mul/addps 128bit A : 0.461 7767.5 7767.5 AVX vmul/addps 256bit A : - - - Average : 0.811 6355.5 6355.5 Highest : 0.397 9021.5 9021.5 * SSE/AVX (single fp) multi-thread SSE mulss (32bit x1) n8 : 2.016 3968.0 3968.0 SSE addss (32bit x1) n8 : 2.012 3975.9 3975.9 SSE mulps (32bit x4) n8 : 2.019 15847.9 15847.9 SSE addps (32bit x4) n8 : 2.012 15906.3 15906.3 SSE mul+addps (32bit x4) n8 : 1.011 31661.9 31661.9 SSE ml+ad+addps (32bit x4) n6 : 1.509 23854.6 23854.6 SSE mulss (32bit x1) ns4 : 2.012 3976.9 3976.9 SSE addss (32bit x1) ns4 : 2.012 3975.3 3975.3 SSE mulps (32bit x4) ns4 : 2.026 15794.2 15794.2 SSE addps (32bit x4) ns4 : 2.054 15581.6 15581.6 AVX vmulps (32bit x8) n8 : - - - AVX vaddps (32bit x8) n8 : - - - AVX vmul+addps (32bit x8) n8 : - - - AVX vml+ad+adps (32bit x8) n6 : - - - Average : 1.868 13454.3 13454.3 Highest : 1.011 31661.9 31661.9 * SSE/AVX (double fp) multi-thread SSE2 mulsd (64bit x1) n8 : 2.013 3974.3 3974.3 SSE2 addsd (64bit x1) n8 : 2.019 3963.3 3963.3 SSE2 mulpd (64bit x2) n8 : 2.024 7903.8 7903.8 SSE2 addpd (64bit x2) n8 : 2.012 7950.6 7950.6 SSE2 mul+addpd (64bit x2) n8 : 1.257 12724.2 12724.2 SSE2 ml+ad+dpd (64bit x2) n6 : 1.509 11929.2 11929.2 SSE2 mulsd (64bit x1) ns4 : 2.673 2993.1 2993.1 SSE2 addsd (64bit x1) ns4 : 2.039 3923.0 3923.0 SSE2 mulpd (64bit x2) ns4 : 2.547 6282.6 6282.6 SSE2 addpd (64bit x2) ns4 : 2.012 7952.6 7952.6 AVX vmulpd (64bit x4) n8 : - - - AVX vaddpd (64bit x4) n8 : - - - AVX vmul+addpd (64bit x4) n8 : - - - AVX vml_ad_adpd (64bit x4) n6 : - - - Average : 2.011 6959.7 6959.7 Highest : 1.257 12724.2 12724.2 * Matrix 4x4 multi-thread C++ code : 1.575 4552.3 4552.3 C++ Intrinsic SSE 128bit : 0.398 18004.8 18004.8 SSE mul/addps 128bit A : 0.461 15542.0 15542.0 AVX vmul/addps 256bit A : - - - Average : 0.811 12699.7 12699.7 Highest : 0.398 18004.8 18004.8
Intel Sandy Bridge (AMD64 x86_64 x64) SSE4.2/AVX1
Sandy Bridge Core i7-2720QM 2.2GHz
Sandy Bridge Core i7-2720QM 2.2GHz Quad core ARCH: x64 FPU: SSSE3 SSE4.1 SSE4.2 AVX SingleT SP max: 52.260 GFLOPS SingleT DP max: 26.137 GFLOPS MultiT SP max: 162.316 GFLOPS MultiT DP max: 74.049 GFLOPS CPU core: 8 SSE: yes AVX: yes FMA: no * SSE/AVX (single fp) SSE mulss (32bit x1) n8 : 1.246 3209.1 3209.1 SSE addss (32bit x1) n8 : 1.231 3250.6 3250.6 SSE mulps (32bit x4) n8 : 1.233 12978.1 12978.1 SSE addps (32bit x4) n8 : 1.231 13002.2 13002.2 SSE mul+addps (32bit x4) n8 : 0.760 21049.8 21049.8 SSE ml+ad+addps (32bit x4) n6 : 0.925 19460.7 19460.7 SSE mulss (32bit x1) ns4 : 1.520 2632.3 2632.3 SSE addss (32bit x1) ns4 : 1.231 3250.1 3250.1 SSE mulps (32bit x4) ns4 : 1.518 10536.8 10536.8 SSE addps (32bit x4) ns4 : 1.229 13017.2 13017.2 AVX vmulps (32bit x8) n8 : 1.233 25962.4 25962.4 AVX vaddps (32bit x8) n8 : 1.229 26035.9 26035.9 AVX vmul+addps (32bit x8) n8 : 0.612 52260.3 52260.3 AVX vml+ad+adps (32bit x8) n6 : 1.174 30667.9 30667.9 Average : 1.169 16951.0 16951.0 Highest : 0.612 52260.3 52260.3 * SSE/AVX (double fp) SSE2 mulsd (64bit x1) n8 : 1.240 3225.8 3225.8 SSE2 addsd (64bit x1) n8 : 1.231 3250.1 3250.1 SSE2 mulpd (64bit x2) n8 : 1.234 6484.8 6484.8 SSE2 addpd (64bit x2) n8 : 1.231 6498.8 6498.8 SSE2 mul+addpd (64bit x2) n8 : 0.760 10524.1 10524.1 SSE2 ml+ad+dpd (64bit x2) n6 : 0.922 9760.1 9760.1 SSE2 mulsd (64bit x1) ns4 : 1.523 2626.6 2626.6 SSE2 addsd (64bit x1) ns4 : 1.231 3249.3 3249.3 SSE2 mulpd (64bit x2) ns4 : 1.519 5265.0 5265.0 SSE2 addpd (64bit x2) ns4 : 1.235 6475.1 6475.1 AVX vmulpd (64bit x4) n8 : 1.233 12977.3 12977.3 AVX vaddpd (64bit x4) n8 : 1.229 13015.7 13015.7 AVX vmul+addpd (64bit x4) n8 : 0.612 26137.0 26137.0 AVX vml_ad_adpd (64bit x4) n6 : 0.925 19452.8 19452.8 Average : 1.152 9210.2 9210.2 Highest : 0.612 26137.0 26137.0 * Matrix 4x4 C++ code : 0.861 4164.5 4164.5 C++ Intrinsic SSE 128bit : 0.186 19291.6 19291.6 SSE mul/addps 128bit A : 0.277 12930.5 12930.5 AVX vmul/addps 256bit A : 0.230 15559.4 15559.4 Average : 0.388 12986.5 12986.5 Highest : 0.186 19291.6 19291.6 * SSE/AVX (single fp) multi-thread SSE mulss (32bit x1) n8 : 2.696 11868.5 11868.5 SSE addss (32bit x1) n8 : 2.674 11965.7 11965.7 SSE mulps (32bit x4) n8 : 2.667 47997.0 47997.0 SSE addps (32bit x4) n8 : 2.663 48060.2 48060.2 SSE mul+addps (32bit x4) n8 : 1.365 93798.1 93798.1 SSE ml+ad+addps (32bit x4) n6 : 1.999 72032.3 72032.3 SSE mulss (32bit x1) ns4 : 2.645 12098.8 12098.8 SSE addss (32bit x1) ns4 : 2.562 12492.0 12492.0 SSE mulps (32bit x4) ns4 : 2.609 49067.7 49067.7 SSE addps (32bit x4) ns4 : 2.527 50650.5 50650.5 AVX vmulps (32bit x8) n8 : 2.607 98207.9 98207.9 AVX vaddps (32bit x8) n8 : 2.671 95845.4 95845.4 AVX vmul+addps (32bit x8) n8 : 1.577 162316.3 162316.3 AVX vml+ad+adps (32bit x8) n6 : 2.294 125544.5 125544.5 Average : 2.397 63710.3 63710.3 Highest : 1.365 162316.3 162316.3 * SSE/AVX (double fp) multi-thread SSE2 mulsd (64bit x1) n8 : 2.863 11175.3 11175.3 SSE2 addsd (64bit x1) n8 : 2.867 11162.7 11162.7 SSE2 mulpd (64bit x2) n8 : 2.855 22419.1 22419.1 SSE2 addpd (64bit x2) n8 : 2.854 22423.7 22423.7 SSE2 mul+addpd (64bit x2) n8 : 1.497 42761.1 42761.1 SSE2 ml+ad+dpd (64bit x2) n6 : 2.222 32398.3 32398.3 SSE2 mulsd (64bit x1) ns4 : 2.841 11263.3 11263.3 SSE2 addsd (64bit x1) ns4 : 2.735 11700.3 11700.3 SSE2 mulpd (64bit x2) ns4 : 2.790 22940.2 22940.2 SSE2 addpd (64bit x2) ns4 : 2.694 23758.0 23758.0 AVX vmulpd (64bit x4) n8 : 2.855 44838.4 44838.4 AVX vaddpd (64bit x4) n8 : 2.957 43288.6 43288.6 AVX vmul+addpd (64bit x4) n8 : 1.729 74049.0 74049.0 AVX vml_ad_adpd (64bit x4) n6 : 2.343 61464.1 61464.1 Average : 2.579 31117.3 31117.3 Highest : 1.497 74049.0 74049.0 * Matrix 4x4 multi-thread C++ code : 1.731 16566.2 16566.2 C++ Intrinsic SSE 128bit : 0.368 77826.1 77826.1 SSE mul/addps 128bit A : 0.575 49849.2 49849.2 AVX vmul/addps 256bit A : 0.409 70069.8 70069.8 Average : 0.771 53577.8 53577.8 Highest : 0.368 77826.1 77826.1
Intel Ivy Bridge (AMD64 x86_64 x64) SSE4.2/AVX1
Ivy Bridge Core i5-3210M 2.5GHz
Ivy Bridge Core i5-3210M 2.5GHz Dual core + HT ARCH: x64 FPU: SSSE3 SSE4.1 SSE4.2 AVX SingleT SP max: 48.604 GFLOPS SingleT DP max: 24.317 GFLOPS MultiT SP max: 90.247 GFLOPS MultiT DP max: 45.223 GFLOPS CPU core: 4 SSE: yes AVX: yes FMA: no * SSE/AVX (single fp) SSE mulss (32bit x1) n8 : 1.345 2973.6 2973.6 SSE addss (32bit x1) n8 : 1.322 3026.6 3026.6 SSE mulps (32bit x4) n8 : 1.322 12099.0 12099.0 SSE addps (32bit x4) n8 : 1.320 12124.9 12124.9 SSE mul+addps (32bit x4) n8 : 0.816 19605.1 19605.1 SSE ml+ad+addps (32bit x4) n6 : 0.990 18179.7 18179.7 SSE mulss (32bit x1) ns4 : 1.632 2450.5 2450.5 SSE addss (32bit x1) ns4 : 1.351 2960.3 2960.3 SSE mulps (32bit x4) ns4 : 1.634 9793.0 9793.0 SSE addps (32bit x4) ns4 : 1.329 12040.2 12040.2 AVX vmulps (32bit x8) n8 : 1.322 24205.7 24205.7 AVX vaddps (32bit x8) n8 : 1.319 24256.0 24256.0 AVX vmul+addps (32bit x8) n8 : 0.658 48604.4 48604.4 AVX vml+ad+adps (32bit x8) n6 : 1.273 28275.1 28275.1 Average : 1.260 15756.7 15756.7 Highest : 0.658 48604.4 48604.4 * SSE/AVX (double fp) SSE2 mulsd (64bit x1) n8 : 1.324 3020.1 3020.1 SSE2 addsd (64bit x1) n8 : 1.324 3020.4 3020.4 SSE2 mulpd (64bit x2) n8 : 1.324 6041.0 6041.0 SSE2 addpd (64bit x2) n8 : 1.330 6016.6 6016.6 SSE2 mul+addpd (64bit x2) n8 : 0.814 9823.9 9823.9 SSE2 ml+ad+dpd (64bit x2) n6 : 0.987 9119.3 9119.3 SSE2 mulsd (64bit x1) ns4 : 1.633 2449.2 2449.2 SSE2 addsd (64bit x1) ns4 : 1.319 3031.8 3031.8 SSE2 mulpd (64bit x2) ns4 : 1.623 4930.2 4930.2 SSE2 addpd (64bit x2) ns4 : 1.314 6088.9 6088.9 AVX vmulpd (64bit x4) n8 : 1.323 12092.4 12092.4 AVX vaddpd (64bit x4) n8 : 1.341 11928.6 11928.6 AVX vmul+addpd (64bit x4) n8 : 0.658 24317.2 24317.2 AVX vml_ad_adpd (64bit x4) n6 : 0.987 18231.5 18231.5 Average : 1.236 8579.4 8579.4 Highest : 0.658 24317.2 24317.2 * Matrix 4x4 C++ code : 0.921 3892.0 3892.0 C++ Intrinsic SSE 128bit : 0.223 16060.4 16060.4 SSE mul/addps 128bit A : 0.273 13143.9 13143.9 AVX vmul/addps 256bit A : 0.241 14853.7 14853.7 Average : 0.414 11987.5 11987.5 Highest : 0.223 16060.4 16060.4 * SSE/AVX (single fp) multi-thread SSE mulss (32bit x1) n8 : 2.807 5700.8 5700.8 SSE addss (32bit x1) n8 : 2.797 5721.4 5721.4 SSE mulps (32bit x4) n8 : 2.796 22886.1 22886.1 SSE addps (32bit x4) n8 : 2.787 22964.9 22964.9 SSE mul+addps (32bit x4) n8 : 1.403 45629.8 45629.8 SSE ml+ad+addps (32bit x4) n6 : 2.090 34445.9 34445.9 SSE mulss (32bit x1) ns4 : 2.849 5615.5 5615.5 SSE addss (32bit x1) ns4 : 2.758 5801.0 5801.0 SSE mulps (32bit x4) ns4 : 2.786 22970.2 22970.2 SSE addps (32bit x4) ns4 : 2.741 23352.5 23352.5 AVX vmulps (32bit x8) n8 : 2.727 46934.2 46934.2 AVX vaddps (32bit x8) n8 : 2.740 46720.3 46720.3 AVX vmul+addps (32bit x8) n8 : 1.418 90246.6 90246.6 AVX vml+ad+adps (32bit x8) n6 : 2.099 68602.5 68602.5 Average : 2.486 31970.8 31970.8 Highest : 1.403 90246.6 90246.6 * SSE/AVX (double fp) multi-thread SSE2 mulsd (64bit x1) n8 : 2.805 5703.7 5703.7 SSE2 addsd (64bit x1) n8 : 2.793 5729.4 5729.4 SSE2 mulpd (64bit x2) n8 : 2.796 11445.0 11445.0 SSE2 addpd (64bit x2) n8 : 2.790 11470.9 11470.9 SSE2 mul+addpd (64bit x2) n8 : 1.400 22854.2 22854.2 SSE2 ml+ad+dpd (64bit x2) n6 : 2.092 17210.4 17210.4 SSE2 mulsd (64bit x1) ns4 : 2.859 5596.1 5596.1 SSE2 addsd (64bit x1) ns4 : 2.762 5793.5 5793.5 SSE2 mulpd (64bit x2) ns4 : 2.783 11499.7 11499.7 SSE2 addpd (64bit x2) ns4 : 2.753 11625.1 11625.1 AVX vmulpd (64bit x4) n8 : 2.747 23297.4 23297.4 AVX vaddpd (64bit x4) n8 : 2.751 23263.1 23263.1 AVX vmul+addpd (64bit x4) n8 : 1.415 45222.7 45222.7 AVX vml_ad_adpd (64bit x4) n6 : 2.050 35127.6 35127.6 Average : 2.485 16845.6 16845.6 Highest : 1.400 45222.7 45222.7 * Matrix 4x4 multi-thread C++ code : 1.742 8229.3 8229.3 C++ Intrinsic SSE 128bit : 0.403 35603.5 35603.5 SSE mul/addps 128bit A : 0.570 25139.4 25139.4 AVX vmul/addps 256bit A : 0.377 38072.1 38072.1 Average : 0.773 26761.1 26761.1 Highest : 0.377 38072.1 38072.1
Ivy Bridge Core i7-3615QM 2.3GHz
Ivy Bridge Core i7-3615QM 2.3GHz Quad core + HT ARCH: x64 FPU: SSSE3 SSE4.1 SSE4.2 AVX SingleT SP max: 51.427 GFLOPS SingleT DP max: 25.693 GFLOPS MultiT SP max: 194.698 GFLOPS MultiT DP max: 96.913 GFLOPS CPU core: 8 SSE: yes AVX: yes FMA: no * SSE/AVX (single fp) SSE mulss (32bit x1) n8 : 0.381 3151.4 3151.4 SSE addss (32bit x1) n8 : 0.374 3207.5 3207.5 SSE mulps (32bit x4) n8 : 0.376 12772.8 12772.8 SSE addps (32bit x4) n8 : 0.374 12820.8 12820.8 SSE mul+addps (32bit x4) n8 : 0.231 20751.6 20751.6 SSE ml+ad+addps (32bit x4) n6 : 0.282 19172.8 19172.8 SSE mulss (32bit x1) ns4 : 0.462 2598.4 2598.4 SSE addss (32bit x1) ns4 : 0.375 3197.5 3197.5 SSE mulps (32bit x4) ns4 : 0.462 10378.9 10378.9 SSE addps (32bit x4) ns4 : 0.379 12658.9 12658.9 AVX vmulps (32bit x8) n8 : 0.376 25512.2 25512.2 AVX vaddps (32bit x8) n8 : 0.375 25566.3 25566.3 AVX vmul+addps (32bit x8) n8 : 0.187 51426.6 51426.6 AVX vml+ad+adps (32bit x8) n6 : 0.361 29895.4 29895.4 Average : 0.357 16650.8 16650.8 Highest : 0.187 51426.6 51426.6 * SSE/AVX (double fp) SSE2 mulsd (64bit x1) n8 : 0.381 3150.1 3150.1 SSE2 addsd (64bit x1) n8 : 0.374 3205.9 3205.9 SSE2 mulpd (64bit x2) n8 : 0.381 6300.8 6300.8 SSE2 addpd (64bit x2) n8 : 0.378 6344.7 6344.7 SSE2 mul+addpd (64bit x2) n8 : 0.231 10376.9 10376.9 SSE2 ml+ad+dpd (64bit x2) n6 : 0.281 9611.7 9611.7 SSE2 mulsd (64bit x1) ns4 : 0.463 2591.7 2591.7 SSE2 addsd (64bit x1) ns4 : 0.378 3171.5 3171.5 SSE2 mulpd (64bit x2) ns4 : 0.463 5180.0 5180.0 SSE2 addpd (64bit x2) ns4 : 0.375 6398.8 6398.8 AVX vmulpd (64bit x4) n8 : 0.376 12757.5 12757.5 AVX vaddpd (64bit x4) n8 : 0.376 12773.6 12773.6 AVX vmul+addpd (64bit x4) n8 : 0.187 25693.0 25693.0 AVX vml_ad_adpd (64bit x4) n6 : 0.281 19241.9 19241.9 Average : 0.352 9057.0 9057.0 Highest : 0.187 25693.0 25693.0 * Matrix 4x4 C++ code : 0.431 4162.2 4162.2 C++ Intrinsic SSE 128bit : 0.093 19179.3 19179.3 SSE mul/addps 128bit A : 0.129 13877.5 13877.5 AVX vmul/addps 256bit A : 0.115 15611.8 15611.8 Average : 0.192 13207.7 13207.7 Highest : 0.093 19179.3 19179.3 * SSE/AVX (single fp) multi-thread SSE mulss (32bit x1) n8 : 0.790 12154.8 12154.8 SSE addss (32bit x1) n8 : 0.783 12260.0 12260.0 SSE mulps (32bit x4) n8 : 0.784 48983.3 48983.3 SSE addps (32bit x4) n8 : 0.783 49016.9 49016.9 SSE mul+addps (32bit x4) n8 : 0.393 97627.2 97627.2 SSE ml+ad+addps (32bit x4) n6 : 0.587 73625.3 73625.3 SSE mulss (32bit x1) ns4 : 0.784 12237.2 12237.2 SSE addss (32bit x1) ns4 : 0.777 12350.0 12350.0 SSE mulps (32bit x4) ns4 : 0.784 48984.4 48984.4 SSE addps (32bit x4) ns4 : 0.777 49445.9 49445.9 AVX vmulps (32bit x8) n8 : 0.777 98897.4 98897.4 AVX vaddps (32bit x8) n8 : 0.778 98709.6 98709.6 AVX vmul+addps (32bit x8) n8 : 0.394 194697.5 194697.5 AVX vml+ad+adps (32bit x8) n6 : 0.591 146151.1 146151.1 Average : 0.699 68224.3 68224.3 Highest : 0.393 194697.5 194697.5 * SSE/AVX (double fp) multi-thread SSE2 mulsd (64bit x1) n8 : 0.789 12163.5 12163.5 SSE2 addsd (64bit x1) n8 : 0.781 12284.7 12284.7 SSE2 mulpd (64bit x2) n8 : 0.781 24568.8 24568.8 SSE2 addpd (64bit x2) n8 : 0.782 24563.6 24563.6 SSE2 mul+addpd (64bit x2) n8 : 0.394 48775.8 48775.8 SSE2 ml+ad+dpd (64bit x2) n6 : 0.586 36883.3 36883.3 SSE2 mulsd (64bit x1) ns4 : 0.782 12274.6 12274.6 SSE2 addsd (64bit x1) ns4 : 0.776 12373.0 12373.0 SSE2 mulpd (64bit x2) ns4 : 0.782 24563.4 24563.4 SSE2 addpd (64bit x2) ns4 : 0.776 24729.5 24729.5 AVX vmulpd (64bit x4) n8 : 0.777 49428.8 49428.8 AVX vaddpd (64bit x4) n8 : 0.777 49420.7 49420.7 AVX vmul+addpd (64bit x4) n8 : 0.396 96913.4 96913.4 AVX vml_ad_adpd (64bit x4) n6 : 0.578 74682.6 74682.6 Average : 0.697 35973.3 35973.3 Highest : 0.394 96913.4 96913.4 * Matrix 4x4 multi-thread C++ code : 0.782 18328.3 18328.3 C++ Intrinsic SSE 128bit : 0.168 85172.6 85172.6 SSE mul/addps 128bit A : 0.267 53767.2 53767.2 AVX vmul/addps 256bit A : 0.174 82517.4 82517.4 Average : 0.348 59946.4 59946.4 Highest : 0.168 85172.6 85172.6
Intel Haswell (AMD64 x86_64 x64) SSE4.2/AVX2/FMA3
Haswell Core i7-4790K 4.0GHz Linux
Ubuntu Haswell Core i7-4790K 4.0GHz Quad core + HT ARCH: x64 FPU: SSSE3 SSE4.1 SSE4.2 AVX AVX2 FMA3 SingleT SP max: 85.112 GFLOPS SingleT DP max: 31.917 GFLOPS MultiT SP max: 510.509 GFLOPS MultiT DP max: 128.452 GFLOPS CPU core: 8 SSE: yes AVX: yes FMA: yes * SSE/AVX (single fp) SSE mulss (32bit x1) n8 : 0.172 6984.7 6984.7 SSE addss (32bit x1) n8 : 0.274 4387.3 4387.3 FMA3 fmaddss (32bit x1) n8 : 0.171 14043.5 14043.5 SSE mulps (32bit x4) n8 : 0.171 28084.3 28084.3 SSE addps (32bit x4) n8 : 0.274 17548.0 17548.0 SSE mul+addps (32bit x4) n8 : 0.171 28084.5 28084.5 FMA3 fmaddss (32bit x4) n8 : 0.188 51063.8 51063.8 SSE ml+ad+addps (32bit x4) n6 : 0.206 26158.5 26158.5 SSE mulss (32bit x1) ns4 : 0.342 3508.5 3508.5 SSE addss (32bit x1) ns4 : 0.275 4368.4 4368.4 SSE mulps (32bit x4) ns4 : 0.342 14040.9 14040.9 SSE addps (32bit x4) ns4 : 0.274 17526.3 17526.3 AVX vmulps (32bit x8) n8 : 0.150 63828.1 63828.1 AVX vaddps (32bit x8) n8 : 0.301 31917.0 31917.0 AVX vmul+addps (32bit x8) n8 : 0.150 63833.2 63833.2 FMA3 vfmaddps (32bit x8) n8 : 0.226 85112.0 85112.0 AVX vml+ad+adps (32bit x8) n6 : 0.293 36834.3 36834.3 Average : 0.234 29254.3 29254.3 Highest : 0.150 85112.0 85112.0 * SSE/AVX (double fp) SSE2 mulsd (64bit x1) n8 : 0.172 6970.1 6970.1 SSE2 addsd (64bit x1) n8 : 0.274 4384.8 4384.8 SSE2 mulpd (64bit x2) n8 : 0.171 14042.0 14042.0 SSE2 addpd (64bit x2) n8 : 0.273 8776.8 8776.8 SSE2 mul+addpd (64bit x2) n8 : 0.171 14019.3 14019.3 SSE2 ml+ad+dpd (64bit x2) n6 : 0.205 13165.0 13165.0 SSE2 mulsd (64bit x1) ns4 : 0.342 3507.2 3507.2 SSE2 addsd (64bit x1) ns4 : 0.273 4388.4 4388.4 SSE2 mulpd (64bit x2) ns4 : 0.342 7009.9 7009.9 SSE2 addpd (64bit x2) ns4 : 0.273 8777.4 8777.4 AVX vmulpd (64bit x4) n8 : 0.150 31913.8 31913.8 AVX vaddpd (64bit x4) n8 : 0.301 15958.4 15958.4 AVX vmul+addpd (64bit x4) n8 : 0.150 31917.0 31917.0 AVX vml_ad_adpd (64bit x4) n6 : 0.226 23937.8 23937.8 Average : 0.238 13483.4 13483.4 Highest : 0.150 31917.0 31917.0 * Matrix 4x4 C++ code : 0.176 10188.5 10188.5 C++ Intrinsic SSE 128bit : 0.091 19788.9 19788.9 SSE mul/addps 128bit A : 0.101 17717.5 17717.5 AVX vmul/addps 256bit A : 0.100 17917.1 17917.1 Average : 0.117 16403.0 16403.0 Highest : 0.091 19788.9 19788.9 * SSE/AVX (single fp) multi-thread SSE mulss (32bit x1) n8 : 0.286 33620.2 33620.2 SSE addss (32bit x1) n8 : 0.568 16907.4 16907.4 FMA3 fmaddss (32bit x1) n8 : 0.286 67049.4 67049.4 SSE mulps (32bit x4) n8 : 0.286 134112.4 134112.4 SSE addps (32bit x4) n8 : 0.569 67475.2 67475.2 SSE mul+addps (32bit x4) n8 : 0.289 132740.6 132740.6 FMA3 fmaddss (32bit x4) n8 : 0.301 255297.1 255297.1 SSE ml+ad+addps (32bit x4) n6 : 0.425 101550.8 101550.8 SSE mulss (32bit x1) ns4 : 0.372 25804.4 25804.4 SSE addss (32bit x1) ns4 : 0.552 17390.0 17390.0 SSE mulps (32bit x4) ns4 : 0.372 103292.4 103292.4 SSE addps (32bit x4) ns4 : 0.548 70068.9 70068.9 AVX vmulps (32bit x8) n8 : 0.298 257487.4 257487.4 AVX vaddps (32bit x8) n8 : 0.576 133285.4 133285.4 AVX vmul+addps (32bit x8) n8 : 0.311 246642.4 246642.4 FMA3 vfmaddps (32bit x8) n8 : 0.301 510509.3 510509.3 AVX vml+ad+adps (32bit x8) n6 : 0.441 196082.4 196082.4 Average : 0.399 139371.5 139371.5 Highest : 0.286 510509.3 510509.3 * SSE/AVX (double fp) multi-thread SSE2 mulsd (64bit x1) n8 : 0.286 33596.3 33596.3 SSE2 addsd (64bit x1) n8 : 0.565 16983.5 16983.5 SSE2 mulpd (64bit x2) n8 : 0.286 67149.1 67149.1 SSE2 addpd (64bit x2) n8 : 0.569 33727.5 33727.5 SSE2 mul+addpd (64bit x2) n8 : 0.297 64679.3 64679.3 SSE2 ml+ad+dpd (64bit x2) n6 : 0.425 50806.3 50806.3 SSE2 mulsd (64bit x1) ns4 : 0.372 25783.2 25783.2 SSE2 addsd (64bit x1) ns4 : 0.554 17319.1 17319.1 SSE2 mulpd (64bit x2) ns4 : 0.372 51611.8 51611.8 SSE2 addpd (64bit x2) ns4 : 0.556 34523.1 34523.1 AVX vmulpd (64bit x4) n8 : 0.299 128452.2 128452.2 AVX vaddpd (64bit x4) n8 : 0.581 66091.5 66091.5 AVX vmul+addpd (64bit x4) n8 : 0.311 123425.4 123425.4 AVX vml_ad_adpd (64bit x4) n6 : 0.414 104454.6 104454.6 Average : 0.421 58471.6 58471.6 Highest : 0.286 128452.2 128452.2 * Matrix 4x4 multi-thread C++ code : 0.148 96625.3 96625.3 C++ Intrinsic SSE 128bit : 0.112 128393.2 128393.2 SSE mul/addps 128bit A : 0.176 81462.0 81462.0 AVX vmul/addps 256bit A : 0.133 107465.5 107465.5 Average : 0.142 103486.5 103486.5 Highest : 0.112 128393.2 128393.2
Haswell Celeron 2955U 1.4GHz (SSE4.2)
Acer Chromebook c720 Ubuntu (ChromeOS) Intel Celeron 2955U dual core 1.40GHz RAM 4GB DDR3L ARCH: x64 FPU: SSSE3 SSE4.1 SSE4.2 SingleT SP max: 8.898 GFLOPS SingleT DP max: 4.448 GFLOPS MultiT SP max: 17.339 GFLOPS MultiT DP max: 8.784 GFLOPS CPU core: 2 SSE: yes AVX: no FMA: no * SSE/AVX (single fp) SSE mulss (32bit x1) n8 : 0.543 2208.6 2208.6 SSE addss (32bit x1) n8 : 0.866 1385.7 1385.7 FMA vfmaddss (32bit x1) n8 : - - - SSE mulps (32bit x4) n8 : 0.540 8892.4 8892.4 SSE addps (32bit x4) n8 : 0.863 5559.7 5559.7 SSE mul+addps (32bit x4) n8 : 0.539 8898.2 8898.2 FMA vfmaddss (32bit x4) n8 : - - - SSE ml+ad+addps (32bit x4) n6 : 0.648 8329.2 8329.2 SSE mulss (32bit x1) ns4 : 1.079 1112.0 1112.0 SSE addss (32bit x1) ns4 : 0.864 1389.0 1389.0 SSE mulps (32bit x4) ns4 : 1.081 4438.4 4438.4 SSE addps (32bit x4) ns4 : 0.863 5559.1 5559.1 AVX vmulps (32bit x8) n8 : - - - AVX vaddps (32bit x8) n8 : - - - AVX vmul+addps (32bit x8) n8 : - - - FMA vfmaddps (32bit x8) n8 : - - - AVX vml+ad+adps (32bit x8) n6 : - - - Average : 0.789 4777.2 4777.2 Highest : 0.539 8898.2 8898.2 * SSE/AVX (double fp) SSE2 mulsd (64bit x1) n8 : 0.542 2215.7 2215.7 SSE2 addsd (64bit x1) n8 : 0.864 1389.6 1389.6 FMA vfmaddsd (64bit x1) n8 : - - - SSE2 mulpd (64bit x2) n8 : 0.540 4444.5 4444.5 SSE2 addpd (64bit x2) n8 : 0.864 2779.3 2779.3 SSE2 mul+addpd (64bit x2) n8 : 0.540 4448.0 4448.0 FMA vfmaddsd (64bit x2) n8 : - - - SSE2 ml+ad+dpd (64bit x2) n6 : 0.647 4170.4 4170.4 SSE2 mulsd (64bit x1) ns4 : 1.079 1111.7 1111.7 SSE2 addsd (64bit x1) ns4 : 0.864 1388.8 1388.8 SSE2 mulpd (64bit x2) ns4 : 1.079 2224.0 2224.0 SSE2 addpd (64bit x2) ns4 : 0.864 2778.6 2778.6 AVX vmulpd (64bit x4) n8 : - - - AVX vaddpd (64bit x4) n8 : - - - AVX vmul+addpd (64bit x4) n8 : - - - FMA vfmaddpd (64bit x4) n8 : - - - AVX vml_ad_adpd (64bit x4) n6 : - - - Average : 0.788 2695.1 2695.1 Highest : 0.540 4448.0 4448.0 * Matrix 4x4 C++ code : 0.960 1866.9 1866.9 C++ Intrinsic SSE 128bit : 0.220 8135.2 8135.2 SSE mul/addps 128bit A : 0.316 5669.2 5669.2 AVX vmul/addps 256bit A : - - - Average : 0.499 5223.8 5223.8 Highest : 0.220 8135.2 8135.2 * SSE/AVX (single fp) multi-thread SSE mulss (32bit x1) n8 : 0.566 4240.2 4240.2 SSE addss (32bit x1) n8 : 0.870 2758.0 2758.0 FMA vfmaddss (32bit x1) n8 : - - - SSE mulps (32bit x4) n8 : 0.554 17339.2 17339.2 SSE addps (32bit x4) n8 : 0.880 10910.5 10910.5 SSE mul+addps (32bit x4) n8 : 0.565 16982.1 16982.1 FMA vfmaddss (32bit x4) n8 : - - - SSE ml+ad+addps (32bit x4) n6 : 0.656 16467.2 16467.2 SSE mulss (32bit x1) ns4 : 1.097 2187.9 2187.9 SSE addss (32bit x1) ns4 : 0.872 2751.3 2751.3 SSE mulps (32bit x4) ns4 : 1.096 8759.2 8759.2 SSE addps (32bit x4) ns4 : 0.874 10986.4 10986.4 AVX vmulps (32bit x8) n8 : - - - AVX vaddps (32bit x8) n8 : - - - AVX vmul+addps (32bit x8) n8 : - - - FMA vfmaddps (32bit x8) n8 : - - - AVX vml+ad+adps (32bit x8) n6 : - - - Average : 0.803 9338.2 9338.2 Highest : 0.554 17339.2 17339.2 * SSE/AVX (double fp) multi-thread SSE2 mulsd (64bit x1) n8 : 0.551 4353.2 4353.2 SSE2 addsd (64bit x1) n8 : 0.881 2724.6 2724.6 FMA vfmaddsd (64bit x1) n8 : - - - SSE2 mulpd (64bit x2) n8 : 0.550 8727.8 8727.8 SSE2 addpd (64bit x2) n8 : 0.876 5476.7 5476.7 SSE2 mul+addpd (64bit x2) n8 : 0.546 8783.6 8783.6 FMA vfmaddsd (64bit x2) n8 : - - - SSE2 ml+ad+dpd (64bit x2) n6 : 0.661 8168.9 8168.9 SSE2 mulsd (64bit x1) ns4 : 1.096 2190.2 2190.2 SSE2 addsd (64bit x1) ns4 : 0.875 2741.5 2741.5 SSE2 mulpd (64bit x2) ns4 : 1.102 4354.7 4354.7 SSE2 addpd (64bit x2) ns4 : 0.876 5479.1 5479.1 AVX vmulpd (64bit x4) n8 : - - - AVX vaddpd (64bit x4) n8 : - - - AVX vmul+addpd (64bit x4) n8 : - - - FMA vfmaddpd (64bit x4) n8 : - - - AVX vml_ad_adpd (64bit x4) n6 : - - - Average : 0.802 5300.0 5300.0 Highest : 0.546 8783.6 8783.6 * Matrix 4x4 multi-thread C++ code : 0.971 3689.6 3689.6 C++ Intrinsic SSE 128bit : 0.221 16190.9 16190.9 SSE mul/addps 128bit A : 0.324 11073.4 11073.4 AVX vmul/addps 256bit A : - - - Average : 0.505 10318.0 10318.0 Highest : 0.221 16190.9 16190.9
Haswell Core i7-4790K 4.0GHz (4.4GHz) 4 core 8 thread Windows 10
Windows 10 1703 bash Haswell Core i7-4790K 4.0GHz (4.4GHz) 4 core 8 thread RAM 16GB ARCH: x64 FPU: SSSE3 SSE4.1 SSE4.2 AVX FMA3 SingleT SP max: 85.057 GFLOPS SingleT DP max: 42.425 GFLOPS MultiT SP max: 508.626 GFLOPS MultiT DP max: 254.425 GFLOPS CPU core: 8 SSE: yes AVX: yes FMA: yes * SSE/AVX (single fp) SSE mulss (32bit x1) n8 : 0.175 6849.7 6849.7 SSE addss (32bit x1) n8 : 0.281 4266.1 4266.1 FMA vfmaddss (32bit x1) n8 : 0.176 13668.5 13668.5 SSE mulps (32bit x4) n8 : 0.176 27298.3 27298.3 SSE addps (32bit x4) n8 : 0.281 17053.3 17053.3 SSE mul+addps (32bit x4) n8 : 0.176 27286.1 27286.1 FMA vfmaddss (32bit x4) n8 : 0.188 51037.5 51037.5 SSE ml+ad+addps (32bit x4) n6 : 0.210 25668.1 25668.1 SSE mulss (32bit x1) ns4 : 0.351 3418.4 3418.4 SSE addss (32bit x1) ns4 : 0.281 4265.9 4265.9 SSE mulps (32bit x4) ns4 : 0.352 13655.4 13655.4 SSE addps (32bit x4) ns4 : 0.281 17078.6 17078.6 AVX vmulps (32bit x8) n8 : 0.150 63787.4 63787.4 AVX vaddps (32bit x8) n8 : 0.301 31896.9 31896.9 AVX vmul+addps (32bit x8) n8 : 0.150 63796.3 63796.3 FMA vfmaddps (32bit x8) n8 : 0.226 85056.6 85056.6 AVX vml+ad+adps (32bit x8) n6 : 0.331 32628.7 32628.7 Average : 0.240 28747.7 28747.7 Highest : 0.150 85056.6 85056.6 * SSE/AVX (double fp) SSE2 mulsd (64bit x1) n8 : 0.176 6828.0 6828.0 SSE2 addsd (64bit x1) n8 : 0.282 4257.5 4257.5 FMA vfmaddsd (64bit x1) n8 : 0.176 13646.6 13646.6 SSE2 mulpd (64bit x2) n8 : 0.177 13576.0 13576.0 SSE2 addpd (64bit x2) n8 : 0.282 8524.4 8524.4 SSE2 mul+addpd (64bit x2) n8 : 0.176 13653.1 13653.1 FMA vfmaddsd (64bit x2) n8 : 0.189 25449.7 25449.7 SSE2 ml+ad+dpd (64bit x2) n6 : 0.211 12774.0 12774.0 SSE2 mulsd (64bit x1) ns4 : 0.352 3412.6 3412.6 SSE2 addsd (64bit x1) ns4 : 0.282 4254.5 4254.5 SSE2 mulpd (64bit x2) ns4 : 0.351 6828.3 6828.3 SSE2 addpd (64bit x2) ns4 : 0.282 8516.3 8516.3 AVX vmulpd (64bit x4) n8 : 0.151 31813.8 31813.8 AVX vaddpd (64bit x4) n8 : 0.302 15906.9 15906.9 AVX vmul+addpd (64bit x4) n8 : 0.151 31785.1 31785.1 FMA vfmaddpd (64bit x4) n8 : 0.226 42425.1 42425.1 AVX vml_ad_adpd (64bit x4) n6 : 0.226 23864.1 23864.1 Average : 0.235 15736.2 15736.2 Highest : 0.151 42425.1 42425.1 * Matrix 4x4 C++ code : 0.096 18705.8 18705.8 C++ Intrinsic SSE 128bit : 0.074 24253.6 24253.6 SSE mul/addps 128bit A : 0.100 17956.3 17956.3 AVX vmul/addps 256bit A : 0.100 17908.2 17908.2 Average : 0.092 19706.0 19706.0 Highest : 0.074 24253.6 24253.6 * SSE/AVX (single fp) multi-thread SSE mulss (32bit x1) n8 : 0.287 33446.7 33446.7 SSE addss (32bit x1) n8 : 0.572 16789.5 16789.5 FMA vfmaddss (32bit x1) n8 : 0.287 66875.4 66875.4 SSE mulps (32bit x4) n8 : 0.287 133787.7 133787.7 SSE addps (32bit x4) n8 : 0.571 67251.7 67251.7 SSE mul+addps (32bit x4) n8 : 0.289 132982.4 132982.4 FMA vfmaddss (32bit x4) n8 : 0.302 254571.9 254571.9 SSE ml+ad+addps (32bit x4) n6 : 0.429 100721.8 100721.8 SSE mulss (32bit x1) ns4 : 0.374 25686.2 25686.2 SSE addss (32bit x1) ns4 : 0.566 16971.5 16971.5 SSE mulps (32bit x4) ns4 : 0.374 102793.6 102793.6 SSE addps (32bit x4) ns4 : 0.568 67613.5 67613.5 AVX vmulps (32bit x8) n8 : 0.301 255517.9 255517.9 AVX vaddps (32bit x8) n8 : 0.596 128958.6 128958.6 AVX vmul+addps (32bit x8) n8 : 0.305 251678.7 251678.7 FMA vfmaddps (32bit x8) n8 : 0.302 508626.1 508626.1 AVX vml+ad+adps (32bit x8) n6 : 0.468 184618.9 184618.9 Average : 0.404 138170.1 138170.1 Highest : 0.287 508626.1 508626.1 * SSE/AVX (double fp) multi-thread SSE2 mulsd (64bit x1) n8 : 0.287 33454.6 33454.6 SSE2 addsd (64bit x1) n8 : 0.572 16771.8 16771.8 FMA vfmaddsd (64bit x1) n8 : 0.287 66871.7 66871.7 SSE2 mulpd (64bit x2) n8 : 0.287 66909.9 66909.9 SSE2 addpd (64bit x2) n8 : 0.571 33640.1 33640.1 SSE2 mul+addpd (64bit x2) n8 : 0.289 66512.2 66512.2 FMA vfmaddsd (64bit x2) n8 : 0.302 127348.4 127348.4 SSE2 ml+ad+dpd (64bit x2) n6 : 0.429 50312.2 50312.2 SSE2 mulsd (64bit x1) ns4 : 0.374 25660.1 25660.1 SSE2 addsd (64bit x1) ns4 : 0.570 16848.9 16848.9 SSE2 mulpd (64bit x2) ns4 : 0.374 51338.4 51338.4 SSE2 addpd (64bit x2) ns4 : 0.568 33807.4 33807.4 AVX vmulpd (64bit x4) n8 : 0.301 127689.7 127689.7 AVX vaddpd (64bit x4) n8 : 0.597 64287.9 64287.9 AVX vmul+addpd (64bit x4) n8 : 0.304 126266.8 126266.8 FMA vfmaddpd (64bit x4) n8 : 0.302 254425.1 254425.1 AVX vml_ad_adpd (64bit x4) n6 : 0.445 97027.2 97027.2 Average : 0.403 74069.0 74069.0 Highest : 0.287 254425.1 254425.1 * Matrix 4x4 multi-thread C++ code : 0.154 93245.3 93245.3 C++ Intrinsic SSE 128bit : 0.113 127153.1 127153.1 SSE mul/addps 128bit A : 0.178 80482.4 80482.4 AVX vmul/addps 256bit A : 0.135 106365.1 106365.1 Average : 0.145 101811.5 101811.5 Highest : 0.113 127153.1 127153.1
Intel Skylake (AMD64 x86_64 x64) SSE4.2/AVX2/FMA3
Skylake Core i7-6700K 4.0GHz (4.2GHz) 4 core 8 thread Windows 10
Date: 20200808 132716 ARCH: x64 (x86_64) FPU : SSE SSE2 SSSE3 SSE4.1 SSE4.2 AVX AVX2 FMA3 F16C Name: Intel(R) Core(TM) i7-6700K CPU @ 4.00GHz CPU Thread: 8 CPU Core : 4 CPU Group : 1 Group 0: Thread= 8 Clock=4.200000 GHz (mask:ff) SSE : yes AVX : yes FMA : yes F16C : yes AVX512: no Total: SingleThread HP max: - SingleThread SP max: 135.532 GFLOPS SingleThread DP max: 67.709 GFLOPS MultiThread HP max: - MultiThread SP max: 537.822 GFLOPS MultiThread DP max: 271.106 GFLOPS Group 0: Thread=8 Clock=4.200000 GHz (mask:ff) SingleThread HP max: - SingleThread SP max: 135.532 GFLOPS SingleThread DP max: 67.709 GFLOPS MultiThread HP max: - MultiThread SP max: 537.822 GFLOPS MultiThread DP max: 271.106 GFLOPS * Group 0: Thread=1 Clock=4.200000 GHz (mask:ff) * SSE/AVX (SP fp) TIME(s) MFLOPS MOPS FOP IPC SSE mulss (32bit x1) n8 : 0.314 8036.7 8036.7 ( 1.0 1.9) SSE addss (32bit x1) n8 : 0.299 8435.2 8435.2 ( 1.0 2.0) FMA vfmaddss (32bit x1) n8 : 0.298 16933.9 8466.9 ( 2.0 2.0) FMA vfmaddss (32bit x1) n12 : 0.451 16747.6 8373.8 ( 2.0 2.0) FMA vfma+mlss (32bit x1) n12 : 0.452 12544.3 8362.9 ( 1.5 2.0) FMA vfma+adss (32bit x1) n12 : 0.446 12702.3 8468.2 ( 1.5 2.0) SSE mulps (32bit x4) n8 : 0.299 33723.0 8430.7 ( 4.0 2.0) SSE addps (32bit x4) n8 : 0.298 33872.9 8468.2 ( 4.0 2.0) SSE mul+addps (32bit x4) n8 : 0.298 33872.0 8468.0 ( 4.0 2.0) FMA vfmaddps (32bit x4) n8 : 0.298 67741.0 8467.6 ( 8.0 2.0) FMA vfmaddps (32bit x4) n12 : 0.446 67744.5 8468.1 ( 8.0 2.0) FMA vfma+mlps (32bit x4) n12 : 0.446 50806.3 8467.7 ( 6.0 2.0) FMA vfma+adps (32bit x4) n12 : 0.449 50565.6 8427.6 ( 6.0 2.0) SSE ml+ad+adps (32bit x4) n9 : 0.340 33329.9 8332.5 ( 4.0 2.0) SSE mulss (32bit x1) ns4 : 0.595 4235.6 4235.6 ( 1.0 1.0) SSE addss (32bit x1) ns4 : 0.595 4235.7 4235.7 ( 1.0 1.0) SSE mulps (32bit x4) ns4 : 0.595 16943.0 4235.7 ( 4.0 1.0) SSE addps (32bit x4) ns4 : 0.595 16942.1 4235.5 ( 4.0 1.0) AVX vmulps (32bit x8) n8 : 0.297 67769.0 8471.1 ( 8.0 2.0) AVX vaddps (32bit x8) n8 : 0.297 67770.9 8471.4 ( 8.0 2.0) AVX vmul+addps (32bit x8) n8 : 0.297 67772.0 8471.5 ( 8.0 2.0) FMA vfmaddps (32bit x8) n8 : 0.297 135532.1 8470.8 ( 16.0 2.0) FMA vfmaddps (32bit x8) n12 : 0.446 135460.8 8466.3 ( 16.0 2.0) FMA vfma+mlps (32bit x8) n12 : 0.447 101582.0 8465.2 ( 12.0 2.0) FMA vfma+adps (32bit x8) n12 : 0.451 100600.8 8383.4 ( 12.0 2.0) AVX vml+ad+adps (32bit x8) n9 : 0.572 39625.7 4953.2 ( 8.0 1.2) Average : 0.408 46366.3 7645.0 ( 5.8 1.8) Highest : 0.297 135532.1 8471.5 ( 16.0 2.0) * Group 0: Thread=1 Clock=4.200000 GHz (mask:ff) * SSE/AVX (DP fp) TIME(s) MFLOPS MOPS FOP IPC SSE2 mulsd (64bit x1) n8 : 0.319 7889.1 7889.1 ( 1.0 1.9) SSE2 addsd (64bit x1) n8 : 0.298 8467.0 8467.0 ( 1.0 2.0) FMA vfmaddsd (64bit x1) n8 : 0.298 16935.1 8467.5 ( 2.0 2.0) FMA vfmaddsd (64bit x1) n12 : 0.446 16935.3 8467.6 ( 2.0 2.0) FMA vfma+mlsd (64bit x1) n12 : 0.449 12618.1 8412.1 ( 1.5 2.0) FMA vfma+adsd (64bit x1) n12 : 0.449 12642.0 8428.0 ( 1.5 2.0) SSE2 mulpd (64bit x2) n8 : 0.297 16941.6 8470.8 ( 2.0 2.0) SSE2 addpd (64bit x2) n8 : 0.298 16936.1 8468.0 ( 2.0 2.0) SSE2 mul+addpd (64bit x2) n8 : 0.298 16938.0 8469.0 ( 2.0 2.0) FMA vfmaddpd (64bit x2) n8 : 0.297 33884.5 8471.1 ( 4.0 2.0) FMA vfmaddpd (64bit x2) n12 : 0.446 33874.7 8468.7 ( 4.0 2.0) FMA vfma+mlpd (64bit x2) n12 : 0.446 25399.5 8466.5 ( 3.0 2.0) FMA vfma+adpd (64bit x2) n12 : 0.446 25413.5 8471.2 ( 3.0 2.0) SSE2 ml+ad+dpd (64bit x2) n9 : 0.338 16780.8 8390.4 ( 2.0 2.0) SSE2 mulsd (64bit x1) ns4 : 0.595 4235.5 4235.5 ( 1.0 1.0) SSE2 addsd (64bit x1) ns4 : 0.598 4217.4 4217.4 ( 1.0 1.0) SSE2 mulpd (64bit x2) ns4 : 0.598 8425.7 4212.8 ( 2.0 1.0) SSE2 addpd (64bit x2) ns4 : 0.596 8458.3 4229.1 ( 2.0 1.0) AVX vmulpd (64bit x4) n8 : 0.298 33863.8 8465.9 ( 4.0 2.0) AVX vaddpd (64bit x4) n8 : 0.298 33858.0 8464.5 ( 4.0 2.0) AVX vmul+addpd (64bit x4) n8 : 0.298 33836.1 8459.0 ( 4.0 2.0) FMA vfmaddpd (64bit x4) n8 : 0.298 67611.8 8451.5 ( 8.0 2.0) FMA vfmaddpd (64bit x4) n12 : 0.447 67709.0 8463.6 ( 8.0 2.0) FMA vfma+mlpd (64bit x4) n12 : 0.447 50713.3 8452.2 ( 6.0 2.0) FMA vfma+adpd (64bit x4) n12 : 0.446 50820.7 8470.1 ( 6.0 2.0) AVX vml_ad_adpd (64bit x4) n9 : 0.335 33858.6 8464.7 ( 4.0 2.0) Average : 0.399 25356.3 7784.4 ( 3.1 1.9) Highest : 0.297 67709.0 8471.2 ( 8.0 2.0) * Group 0: Thread=8 Clock=4.200000 GHz (mask:ff) * SSE/AVX (SP fp) multi-thread TIME(s) MFLOPS MOPS FOP IPC SSE mulss (32bit x1) n8 : 0.620 32507.6 4063.5 ( 8.0 1.0) SSE addss (32bit x1) n8 : 0.610 33023.8 4128.0 ( 8.0 1.0) FMA vfmaddss (32bit x1) n8 : 0.608 66343.1 4146.4 ( 16.0 1.0) FMA vfmaddss (32bit x1) n12 : 0.863 70101.2 4381.3 ( 16.0 1.0) FMA vfma+mlss (32bit x1) n12 : 0.928 48899.6 6112.4 ( 8.0 1.5) FMA vfma+adss (32bit x1) n12 : 0.910 49837.6 6229.7 ( 8.0 1.5) SSE mulps (32bit x4) n8 : 0.589 136993.1 4281.0 ( 32.0 1.0) SSE addps (32bit x4) n8 : 0.589 136852.2 4276.6 ( 32.0 1.0) SSE mul+addps (32bit x4) n8 : 0.614 131362.0 4105.1 ( 32.0 1.0) FMA vfmaddps (32bit x4) n8 : 0.599 269163.4 4205.7 ( 64.0 1.0) FMA vfmaddps (32bit x4) n12 : 0.900 268670.1 4198.0 ( 64.0 1.0) FMA vfma+mlps (32bit x4) n12 : 0.898 202043.6 4209.2 ( 48.0 1.0) FMA vfma+adps (32bit x4) n12 : 0.898 201969.6 4207.7 ( 48.0 1.0) SSE ml+ad+adps (32bit x4) n9 : 0.671 135199.8 4225.0 ( 32.0 1.0) SSE mulss (32bit x1) ns4 : 0.705 28580.7 3572.6 ( 8.0 0.9) SSE addss (32bit x1) ns4 : 0.696 28953.7 3619.2 ( 8.0 0.9) SSE mulps (32bit x4) ns4 : 0.620 129990.7 4062.2 ( 32.0 1.0) SSE addps (32bit x4) ns4 : 0.635 127070.8 3971.0 ( 32.0 0.9) AVX vmulps (32bit x8) n8 : 0.622 259114.7 4048.7 ( 64.0 1.0) AVX vaddps (32bit x8) n8 : 0.577 279698.0 4370.3 ( 64.0 1.0) AVX vmul+addps (32bit x8) n8 : 0.594 271449.8 4241.4 ( 64.0 1.0) FMA vfmaddps (32bit x8) n8 : 0.600 537822.3 4201.7 (128.0 1.0) FMA vfmaddps (32bit x8) n12 : 0.902 536249.8 4189.5 (128.0 1.0) FMA vfma+mlps (32bit x8) n12 : 0.892 406643.8 4235.9 ( 96.0 1.0) FMA vfma+adps (32bit x8) n12 : 0.860 421872.1 4394.5 ( 96.0 1.0) AVX vml+ad+adps (32bit x8) n9 : 0.650 279223.9 4362.9 ( 64.0 1.0) Average : 0.717 195755.3 4309.2 ( 46.2 1.0) Highest : 0.577 537822.3 6229.7 (128.0 1.5) * Group 0: Thread=8 Clock=4.200000 GHz (mask:ff) * SSE/AVX (DP fp) multi-thread TIME(s) MFLOPS MOPS FOP IPC SSE2 mulsd (64bit x1) n8 : 0.596 33802.4 4225.3 ( 8.0 1.0) SSE2 addsd (64bit x1) n8 : 0.595 33885.9 4235.7 ( 8.0 1.0) FMA vfmaddsd (64bit x1) n8 : 0.595 67767.2 4235.5 ( 16.0 1.0) FMA vfmaddsd (64bit x1) n12 : 0.893 67747.1 4234.2 ( 16.0 1.0) FMA vfma+mlsd (64bit x1) n12 : 0.892 50829.3 6353.7 ( 8.0 1.5) FMA vfma+adsd (64bit x1) n12 : 0.892 50831.7 6354.0 ( 8.0 1.5) SSE2 mulpd (64bit x2) n8 : 0.595 67767.3 4235.5 ( 16.0 1.0) SSE2 addpd (64bit x2) n8 : 0.595 67771.9 4235.7 ( 16.0 1.0) SSE2 mul+addpd (64bit x2) n8 : 0.595 67772.2 4235.8 ( 16.0 1.0) FMA vfmaddpd (64bit x2) n8 : 0.595 135534.4 4235.5 ( 32.0 1.0) FMA vfmaddpd (64bit x2) n12 : 0.892 135552.5 4236.0 ( 32.0 1.0) FMA vfma+mlpd (64bit x2) n12 : 0.892 101658.3 4235.8 ( 24.0 1.0) FMA vfma+adpd (64bit x2) n12 : 0.892 101663.5 4236.0 ( 24.0 1.0) SSE2 ml+ad+dpd (64bit x2) n9 : 0.668 67866.5 4241.7 ( 16.0 1.0) SSE2 mulsd (64bit x1) ns4 : 0.596 33826.1 4228.3 ( 8.0 1.0) SSE2 addsd (64bit x1) ns4 : 0.595 33881.8 4235.2 ( 8.0 1.0) SSE2 mulpd (64bit x2) ns4 : 0.595 67764.5 4235.3 ( 16.0 1.0) SSE2 addpd (64bit x2) ns4 : 0.597 67507.8 4219.2 ( 16.0 1.0) AVX vmulpd (64bit x4) n8 : 0.594 135789.8 4243.4 ( 32.0 1.0) AVX vaddpd (64bit x4) n8 : 0.595 135544.9 4235.8 ( 32.0 1.0) AVX vmul+addpd (64bit x4) n8 : 0.595 135546.5 4235.8 ( 32.0 1.0) FMA vfmaddpd (64bit x4) n8 : 0.595 271062.5 4235.4 ( 64.0 1.0) FMA vfmaddpd (64bit x4) n12 : 0.892 271105.6 4236.0 ( 64.0 1.0) FMA vfma+mlpd (64bit x4) n12 : 0.892 203317.4 4235.8 ( 48.0 1.0) FMA vfma+adpd (64bit x4) n12 : 0.892 203325.8 4236.0 ( 48.0 1.0) AVX vml_ad_adpd (64bit x4) n9 : 0.661 137169.6 4286.6 ( 32.0 1.0) Average : 0.703 105626.6 4399.7 ( 24.6 1.0) Highest : 0.594 271105.6 6354.0 ( 64.0 1.5)
Intel Ice Lake (AMD64 x86_64 x64) SSE4.2/AVX2/FMA3/AVX512F,CD,VL,BW,DQ,VNNI
Intel Core i5-1030NG7 1.1GHz (3.5GHz) 4 core 8 thread Windows 10
Date: 20200810 185418 ARCH: x64 (x86_64) FPU : SSE SSE2 SSSE3 SSE4.1 SSE4.2 AVX AVX2 FMA3 F16C AVX512F/BW/DQ/VL/VNNI Name: CPU Thread: 8 CPU Core : 4 CPU Group : 1 Group 0: Thread= 8 Clock=1.100000 GHz (mask:0) SSE : yes AVX : yes FMA : yes F16C : yes AVX512: yes Total: SingleThread HP max: - SingleThread SP max: 111.310 GFLOPS SingleThread DP max: 55.593 GFLOPS MultiThread HP max: - MultiThread SP max: 413.685 GFLOPS MultiThread DP max: 204.351 GFLOPS Group 0: Thread=8 Clock=1.100000 GHz (mask:0) SingleThread HP max: - SingleThread SP max: 111.310 GFLOPS SingleThread DP max: 55.593 GFLOPS MultiThread HP max: - MultiThread SP max: 413.685 GFLOPS MultiThread DP max: 204.351 GFLOPS * Group 0: Thread=1 Clock=1.100000 GHz (mask:0) * SSE/AVX (SP fp) TIME(s) MFLOPS MOPS FOP IPC SSE mulss (32bit x1) n8 : 0.104 6337.3 6337.3 ( 1.0 5.8) SSE addss (32bit x1) n8 : 0.101 6505.5 6505.5 ( 1.0 5.9) FMA vfmaddss (32bit x1) n8 : 0.101 13027.6 6513.8 ( 2.0 5.9) FMA vfmaddss (32bit x1) n12 : 0.143 13885.0 6942.5 ( 2.0 6.3) FMA vfma+mlss (32bit x1) n12 : 0.143 10399.8 6933.2 ( 1.5 6.3) FMA vfma+adss (32bit x1) n12 : 0.142 10437.5 6958.3 ( 1.5 6.3) SSE mulps (32bit x4) n8 : 0.101 26090.0 6522.5 ( 4.0 5.9) SSE addps (32bit x4) n8 : 0.101 26027.5 6506.9 ( 4.0 5.9) SSE mul+addps (32bit x4) n8 : 0.102 25995.0 6498.7 ( 4.0 5.9) FMA vfmaddps (32bit x4) n8 : 0.102 51919.4 6489.9 ( 8.0 5.9) FMA vfmaddps (32bit x4) n12 : 0.143 55295.3 6911.9 ( 8.0 6.3) FMA vfma+mlps (32bit x4) n12 : 0.142 41781.8 6963.6 ( 6.0 6.3) FMA vfma+adps (32bit x4) n12 : 0.143 41652.9 6942.2 ( 6.0 6.3) SSE ml+ad+adps (32bit x4) n9 : 0.108 27519.6 6879.9 ( 4.0 6.3) SSE mulss (32bit x1) ns4 : 0.190 3467.6 3467.6 ( 1.0 3.2) SSE addss (32bit x1) ns4 : 0.190 3466.8 3466.8 ( 1.0 3.2) SSE mulps (32bit x4) ns4 : 0.190 13906.4 3476.6 ( 4.0 3.2) SSE addps (32bit x4) ns4 : 0.190 13867.9 3467.0 ( 4.0 3.2) AVX vmulps (32bit x8) n8 : 0.095 55597.1 6949.6 ( 8.0 6.3) AVX vaddps (32bit x8) n8 : 0.095 55388.9 6923.6 ( 8.0 6.3) AVX vmul+addps (32bit x8) n8 : 0.095 55612.9 6951.6 ( 8.0 6.3) FMA vfmaddps (32bit x8) n8 : 0.122 86880.7 5430.0 ( 16.0 4.9) FMA vfmaddps (32bit x8) n12 : 0.143 110981.1 6936.3 ( 16.0 6.3) FMA vfma+mlps (32bit x8) n12 : 0.142 83413.5 6951.1 ( 12.0 6.3) FMA vfma+adps (32bit x8) n12 : 0.144 82441.6 6870.1 ( 12.0 6.2) AVX vml+ad+adps (32bit x8) n9 : 0.202 29339.7 3667.5 ( 8.0 3.3) AVX512 vmulps (32bit x16) n12 : 0.295 53719.7 3357.5 ( 16.0 3.1) AVX512 vaddps (32bit x16) n12 : 0.293 54028.2 3376.8 ( 16.0 3.1) AVX512 vfmaddps (32bit x16) n12 : 0.293 108003.4 3375.1 ( 32.0 3.1) AVX512 vfma+mps (32bit x16) n12 : 0.293 81034.9 3376.5 ( 24.0 3.1) AVX512 vfma+aps (32bit x16) n12 : 0.293 81173.3 3382.2 ( 24.0 3.1) AVX512 vmulps (32bit x8) n12 : 0.144 55154.4 6894.3 ( 8.0 6.3) AVX512 vaddps (32bit x8) n12 : 0.142 55624.6 6953.1 ( 8.0 6.3) AVX512 vfmaddps (32bit x8) n12 : 0.142 111310.2 6956.9 ( 16.0 6.3) Average : 0.158 45626.1 5768.7 ( 8.7 5.2) Highest : 0.095 111310.2 6963.6 ( 32.0 6.3) * Group 0: Thread=1 Clock=1.100000 GHz (mask:0) * SSE/AVX (DP fp) TIME(s) MFLOPS MOPS FOP IPC SSE2 mulsd (64bit x1) n8 : 0.143 4607.0 4607.0 ( 1.0 4.2) SSE2 addsd (64bit x1) n8 : 0.102 6494.8 6494.8 ( 1.0 5.9) FMA vfmaddsd (64bit x1) n8 : 0.102 12997.0 6498.5 ( 2.0 5.9) FMA vfmaddsd (64bit x1) n12 : 0.142 13910.1 6955.0 ( 2.0 6.3) FMA vfma+mlsd (64bit x1) n12 : 0.143 10395.1 6930.1 ( 1.5 6.3) FMA vfma+adsd (64bit x1) n12 : 0.143 10382.1 6921.4 ( 1.5 6.3) SSE2 mulpd (64bit x2) n8 : 0.102 12983.3 6491.7 ( 2.0 5.9) SSE2 addpd (64bit x2) n8 : 0.102 12988.4 6494.2 ( 2.0 5.9) SSE2 mul+addpd (64bit x2) n8 : 0.101 13026.5 6513.2 ( 2.0 5.9) FMA vfmaddpd (64bit x2) n8 : 0.103 25747.8 6437.0 ( 4.0 5.9) FMA vfmaddpd (64bit x2) n12 : 0.143 27767.1 6941.8 ( 4.0 6.3) FMA vfma+mlpd (64bit x2) n12 : 0.142 20892.0 6964.0 ( 3.0 6.3) FMA vfma+adpd (64bit x2) n12 : 0.144 20638.5 6879.5 ( 3.0 6.3) SSE2 ml+ad+dpd (64bit x2) n9 : 0.108 13686.9 6843.4 ( 2.0 6.2) SSE2 mulsd (64bit x1) ns4 : 0.190 3475.3 3475.3 ( 1.0 3.2) SSE2 addsd (64bit x1) ns4 : 0.191 3463.5 3463.5 ( 1.0 3.1) SSE2 mulpd (64bit x2) ns4 : 0.191 6928.2 3464.1 ( 2.0 3.1) SSE2 addpd (64bit x2) ns4 : 0.190 6957.4 3478.7 ( 2.0 3.2) AVX vmulpd (64bit x4) n8 : 0.096 27464.0 6866.0 ( 4.0 6.2) AVX vaddpd (64bit x4) n8 : 0.095 27868.4 6967.1 ( 4.0 6.3) AVX vmul+addpd (64bit x4) n8 : 0.095 27776.9 6944.2 ( 4.0 6.3) FMA vfmaddpd (64bit x4) n8 : 0.101 52105.9 6513.2 ( 8.0 5.9) FMA vfmaddpd (64bit x4) n12 : 0.143 55476.2 6934.5 ( 8.0 6.3) FMA vfma+mlpd (64bit x4) n12 : 0.143 41631.3 6938.6 ( 6.0 6.3) FMA vfma+adpd (64bit x4) n12 : 0.142 41748.7 6958.1 ( 6.0 6.3) AVX vml_ad_adpd (64bit x4) n9 : 0.107 27790.8 6947.7 ( 4.0 6.3) AVX512 vmulpd (64bit x8) n12 : 0.294 26935.4 3366.9 ( 8.0 3.1) AVX512 vaddpd (64bit x8) n12 : 0.294 26918.9 3364.9 ( 8.0 3.1) AVX512 vfmaddpd (64bit x8) n12 : 0.294 53835.4 3364.7 ( 16.0 3.1) AVX512 vfma+mpd (64bit x8) n12 : 0.293 40495.9 3374.7 ( 12.0 3.1) AVX512 vfma+apd (64bit x8) n12 : 0.293 40512.9 3376.1 ( 12.0 3.1) Average : 0.157 23158.1 5734.5 ( 4.4 5.2) Highest : 0.095 55476.2 6967.1 ( 16.0 6.3) * Group 0: Thread=8 Clock=1.100000 GHz (mask:0) * SSE/AVX (SP fp) multi-thread TIME(s) MFLOPS MOPS FOP IPC SSE mulss (32bit x1) n8 : 0.244 21628.1 2703.5 ( 8.0 2.5) SSE addss (32bit x1) n8 : 0.207 25501.0 3187.6 ( 8.0 2.9) FMA vfmaddss (32bit x1) n8 : 0.207 51050.5 3190.7 ( 16.0 2.9) FMA vfmaddss (32bit x1) n12 : 0.310 51031.1 3189.4 ( 16.0 2.9) FMA vfma+mlss (32bit x1) n12 : 0.310 38279.6 4785.0 ( 8.0 4.3) FMA vfma+adss (32bit x1) n12 : 0.310 38294.5 4786.8 ( 8.0 4.4) SSE mulps (32bit x4) n8 : 0.207 102060.0 3189.4 ( 32.0 2.9) SSE addps (32bit x4) n8 : 0.207 101944.3 3185.8 ( 32.0 2.9) SSE mul+addps (32bit x4) n8 : 0.207 101863.1 3183.2 ( 32.0 2.9) FMA vfmaddps (32bit x4) n8 : 0.207 204040.2 3188.1 ( 64.0 2.9) FMA vfmaddps (32bit x4) n12 : 0.310 204328.4 3192.6 ( 64.0 2.9) FMA vfma+mlps (32bit x4) n12 : 0.310 153210.2 3191.9 ( 48.0 2.9) FMA vfma+adps (32bit x4) n12 : 0.310 153202.8 3191.7 ( 48.0 2.9) SSE ml+ad+adps (32bit x4) n9 : 0.233 102156.6 3192.4 ( 32.0 2.9) SSE mulss (32bit x1) ns4 : 0.231 22819.0 2852.4 ( 8.0 2.6) SSE addss (32bit x1) ns4 : 0.232 22796.0 2849.5 ( 8.0 2.6) SSE mulps (32bit x4) ns4 : 0.232 90991.3 2843.5 ( 32.0 2.6) SSE addps (32bit x4) ns4 : 0.232 91226.8 2850.8 ( 32.0 2.6) AVX vmulps (32bit x8) n8 : 0.207 204198.0 3190.6 ( 64.0 2.9) AVX vaddps (32bit x8) n8 : 0.207 204240.5 3191.3 ( 64.0 2.9) AVX vmul+addps (32bit x8) n8 : 0.207 204291.9 3192.1 ( 64.0 2.9) FMA vfmaddps (32bit x8) n8 : 0.207 407368.1 3182.6 (128.0 2.9) FMA vfmaddps (32bit x8) n12 : 0.311 407750.8 3185.6 (128.0 2.9) FMA vfma+mlps (32bit x8) n12 : 0.311 305974.6 3187.2 ( 96.0 2.9) FMA vfma+adps (32bit x8) n12 : 0.310 306219.1 3189.8 ( 96.0 2.9) AVX vml+ad+adps (32bit x8) n9 : 0.262 181174.2 2830.8 ( 64.0 2.6) AVX512 vmulps (32bit x16) n12 : 0.680 186291.0 1455.4 (128.0 1.3) AVX512 vaddps (32bit x16) n12 : 0.682 185795.5 1451.5 (128.0 1.3) AVX512 vfmaddps (32bit x16) n12 : 0.682 371673.9 1451.9 (256.0 1.3) AVX512 vfma+mps (32bit x16) n12 : 0.683 278186.7 1448.9 (192.0 1.3) AVX512 vfma+aps (32bit x16) n12 : 0.683 278194.9 1448.9 (192.0 1.3) AVX512 vmulps (32bit x8) n12 : 0.316 200275.6 3129.3 ( 64.0 2.8) AVX512 vaddps (32bit x8) n12 : 0.310 204165.1 3190.1 ( 64.0 2.9) AVX512 vfmaddps (32bit x8) n12 : 0.306 413685.0 3231.9 (128.0 2.9) Average : 0.320 173997.3 2962.1 ( 69.2 2.7) Highest : 0.207 413685.0 4786.8 (256.0 4.4) * Group 0: Thread=8 Clock=1.100000 GHz (mask:0) * SSE/AVX (DP fp) multi-thread TIME(s) MFLOPS MOPS FOP IPC SSE2 mulsd (64bit x1) n8 : 0.244 21634.6 2704.3 ( 8.0 2.5) SSE2 addsd (64bit x1) n8 : 0.207 25508.6 3188.6 ( 8.0 2.9) FMA vfmaddsd (64bit x1) n8 : 0.207 51001.7 3187.6 ( 16.0 2.9) FMA vfmaddsd (64bit x1) n12 : 0.311 50924.6 3182.8 ( 16.0 2.9) FMA vfma+mlsd (64bit x1) n12 : 0.310 38294.8 4786.8 ( 8.0 4.4) FMA vfma+adsd (64bit x1) n12 : 0.310 38309.1 4788.6 ( 8.0 4.4) SSE2 mulpd (64bit x2) n8 : 0.207 51029.3 3189.3 ( 16.0 2.9) SSE2 addpd (64bit x2) n8 : 0.207 51025.8 3189.1 ( 16.0 2.9) SSE2 mul+addpd (64bit x2) n8 : 0.207 51019.7 3188.7 ( 16.0 2.9) FMA vfmaddpd (64bit x2) n8 : 0.207 101970.4 3186.6 ( 32.0 2.9) FMA vfmaddpd (64bit x2) n12 : 0.311 101845.6 3182.7 ( 32.0 2.9) FMA vfma+mlpd (64bit x2) n12 : 0.311 76450.3 3185.4 ( 24.0 2.9) FMA vfma+adpd (64bit x2) n12 : 0.310 76611.1 3192.1 ( 24.0 2.9) SSE2 ml+ad+dpd (64bit x2) n9 : 0.233 51085.6 3192.8 ( 16.0 2.9) SSE2 mulsd (64bit x1) ns4 : 0.232 22757.1 2844.6 ( 8.0 2.6) SSE2 addsd (64bit x1) ns4 : 0.235 22456.0 2807.0 ( 8.0 2.6) SSE2 mulpd (64bit x2) ns4 : 0.232 45565.8 2847.9 ( 16.0 2.6) SSE2 addpd (64bit x2) ns4 : 0.231 45703.8 2856.5 ( 16.0 2.6) AVX vmulpd (64bit x4) n8 : 0.207 102169.6 3192.8 ( 32.0 2.9) AVX vaddpd (64bit x4) n8 : 0.207 101864.1 3183.3 ( 32.0 2.9) AVX vmul+addpd (64bit x4) n8 : 0.207 102073.9 3189.8 ( 32.0 2.9) FMA vfmaddpd (64bit x4) n8 : 0.207 203845.3 3185.1 ( 64.0 2.9) FMA vfmaddpd (64bit x4) n12 : 0.314 201503.0 3148.5 ( 64.0 2.9) FMA vfma+mlpd (64bit x4) n12 : 0.314 151182.5 3149.6 ( 48.0 2.9) FMA vfma+adpd (64bit x4) n12 : 0.318 149330.6 3111.1 ( 48.0 2.8) AVX vml_ad_adpd (64bit x4) n9 : 0.246 96515.9 3016.1 ( 32.0 2.7) AVX512 vmulpd (64bit x8) n12 : 0.682 92879.9 1451.2 ( 64.0 1.3) AVX512 vaddpd (64bit x8) n12 : 0.682 92855.7 1450.9 ( 64.0 1.3) AVX512 vfmaddpd (64bit x8) n12 : 0.682 185899.7 1452.3 (128.0 1.3) AVX512 vfma+mpd (64bit x8) n12 : 0.682 139318.3 1451.2 ( 96.0 1.3) AVX512 vfma+apd (64bit x8) n12 : 0.682 139338.1 1451.4 ( 96.0 1.3) Average : 0.321 86515.2 2939.8 ( 35.1 2.7) Highest : 0.207 203845.3 4788.6 (128.0 4.4)
AMD Zen (AMD64 x86_64 x64) SSE4.2/AVX2/FMA3
Ryzen 7 1800X 3.6GHz (4.0GHz) 8 core 16 thread Windows 10
Date: 20200624 215250 ARCH: x64 (x86_64) FPU : SSE SSE2 SSSE3 SSE4.1 SSE4.2 AVX AVX2 FMA3 F16C Name: AMD Ryzen 7 1800X Eight-Core Processor CPU Thread: 16 CPU Core : 8 CPU Group : 1 Group 0: Thread=16 Clock=3.600000 GHz (mask:ffff) SSE : yes AVX : yes FMA : yes F16C : yes AVX512: no Total: SingleThread HP max: - SingleThread SP max: 62.298 GFLOPS SingleThread DP max: 30.845 GFLOPS MultiThread HP max: - MultiThread SP max: 465.706 GFLOPS MultiThread DP max: 228.360 GFLOPS Group 0: Thread=16 Clock=3.600000 GHz (mask:ffff) SingleThread HP max: - SingleThread SP max: 62.298 GFLOPS SingleThread DP max: 30.845 GFLOPS MultiThread HP max: - MultiThread SP max: 465.706 GFLOPS MultiThread DP max: 228.360 GFLOPS * Group 0: Thread=1 Clock=3.600000 GHz (mask:ffff) * SSE/AVX (SP fp) TIME(s) MFLOPS MOPS FOP IPC SSE mulss (32bit x1) n8 : 0.293 7364.8 7364.8 ( 1.0 2.0) SSE addss (32bit x1) n8 : 0.292 7402.6 7402.6 ( 1.0 2.1) FMA vfmaddss (32bit x1) n8 : 0.354 12192.9 6096.5 ( 2.0 1.7) FMA vfmaddss (32bit x1) n12 : 0.433 14958.4 7479.2 ( 2.0 2.1) FMA vfma+mlss (32bit x1) n12 : 0.437 11109.7 7406.4 ( 1.5 2.1) FMA vfma+adss (32bit x1) n12 : 0.365 13318.0 8878.7 ( 1.5 2.5) SSE mulps (32bit x4) n8 : 0.286 30206.1 7551.5 ( 4.0 2.1) SSE addps (32bit x4) n8 : 0.290 29800.5 7450.1 ( 4.0 2.1) SSE mul+addps (32bit x4) n8 : 0.216 39986.9 9996.7 ( 4.0 2.8) FMA vfmaddps (32bit x4) n8 : 0.352 49085.7 6135.7 ( 8.0 1.7) FMA vfmaddps (32bit x4) n12 : 0.429 60387.3 7548.4 ( 8.0 2.1) FMA vfma+mlps (32bit x4) n12 : 0.436 44592.1 7432.0 ( 6.0 2.1) FMA vfma+adps (32bit x4) n12 : 0.367 53029.3 8838.2 ( 6.0 2.5) SSE ml+ad+adps (32bit x4) n9 : 0.221 44044.5 11011.1 ( 4.0 3.1) SSE mulss (32bit x1) ns4 : 0.425 5078.3 5078.3 ( 1.0 1.4) SSE addss (32bit x1) ns4 : 0.429 5034.3 5034.3 ( 1.0 1.4) SSE mulps (32bit x4) ns4 : 0.421 20526.6 5131.6 ( 4.0 1.4) SSE addps (32bit x4) ns4 : 0.424 20358.2 5089.6 ( 4.0 1.4) AVX vmulps (32bit x8) n8 : 0.575 30037.4 3754.7 ( 8.0 1.0) AVX vaddps (32bit x8) n8 : 0.562 30733.1 3841.6 ( 8.0 1.1) AVX vmul+addps (32bit x8) n8 : 0.277 62298.1 7787.3 ( 8.0 2.2) FMA vfmaddps (32bit x8) n8 : 0.572 60396.0 3774.8 ( 16.0 1.0) FMA vfmaddps (32bit x8) n12 : 0.857 60509.4 3781.8 ( 16.0 1.1) FMA vfma+mlps (32bit x8) n12 : 0.852 45653.0 3804.4 ( 12.0 1.1) FMA vfma+adps (32bit x8) n12 : 0.646 60217.6 5018.1 ( 12.0 1.4) AVX vml+ad+adps (32bit x8) n9 : 0.563 34543.2 4317.9 ( 8.0 1.2) Average : 0.438 32802.5 6423.3 ( 5.8 1.8) Highest : 0.216 62298.1 11011.1 ( 16.0 3.1) * Group 0: Thread=1 Clock=3.600000 GHz (mask:ffff) * SSE/AVX (DP fp) TIME(s) MFLOPS MOPS FOP IPC SSE2 mulsd (64bit x1) n8 : 0.295 7325.4 7325.4 ( 1.0 2.0) SSE2 addsd (64bit x1) n8 : 0.281 7687.4 7687.4 ( 1.0 2.1) FMA vfmaddsd (64bit x1) n8 : 0.354 12206.7 6103.3 ( 2.0 1.7) FMA vfmaddsd (64bit x1) n12 : 0.429 15103.3 7551.7 ( 2.0 2.1) FMA vfma+mlsd (64bit x1) n12 : 0.460 10566.2 7044.1 ( 1.5 2.0) FMA vfma+adsd (64bit x1) n12 : 0.356 13660.4 9106.9 ( 1.5 2.5) SSE2 mulpd (64bit x2) n8 : 0.286 15127.0 7563.5 ( 2.0 2.1) SSE2 addpd (64bit x2) n8 : 0.283 15291.6 7645.8 ( 2.0 2.1) SSE2 mul+addpd (64bit x2) n8 : 0.283 15257.6 7628.8 ( 2.0 2.1) FMA vfmaddpd (64bit x2) n8 : 0.353 24485.0 6121.3 ( 4.0 1.7) FMA vfmaddpd (64bit x2) n12 : 0.420 30844.8 7711.2 ( 4.0 2.1) FMA vfma+mlpd (64bit x2) n12 : 0.461 21077.2 7025.7 ( 3.0 2.0) FMA vfma+adpd (64bit x2) n12 : 0.354 27446.3 9148.8 ( 3.0 2.5) SSE2 ml+ad+dpd (64bit x2) n9 : 0.277 17524.8 8762.4 ( 2.0 2.4) SSE2 mulsd (64bit x1) ns4 : 0.560 3856.5 3856.5 ( 1.0 1.1) SSE2 addsd (64bit x1) ns4 : 0.433 4987.8 4987.8 ( 1.0 1.4) SSE2 mulpd (64bit x2) ns4 : 0.576 7502.3 3751.1 ( 2.0 1.0) SSE2 addpd (64bit x2) ns4 : 0.434 9959.4 4979.7 ( 2.0 1.4) AVX vmulpd (64bit x4) n8 : 0.570 15147.5 3786.9 ( 4.0 1.1) AVX vaddpd (64bit x4) n8 : 0.566 15274.7 3818.7 ( 4.0 1.1) AVX vmul+addpd (64bit x4) n8 : 0.299 28886.1 7221.5 ( 4.0 2.0) FMA vfmaddpd (64bit x4) n8 : 0.566 30545.4 3818.2 ( 8.0 1.1) FMA vfmaddpd (64bit x4) n12 : 0.862 30056.6 3757.1 ( 8.0 1.0) FMA vfma+mlpd (64bit x4) n12 : 0.850 22877.5 3812.9 ( 6.0 1.1) FMA vfma+adpd (64bit x4) n12 : 0.666 29194.2 4865.7 ( 6.0 1.4) AVX vml_ad_adpd (64bit x4) n9 : 0.437 22232.3 5558.1 ( 4.0 1.5) Average : 0.450 17466.3 6178.5 ( 3.1 1.7) Highest : 0.277 30844.8 9148.8 ( 8.0 2.5) * Group 0: Thread=16 Clock=3.600000 GHz (mask:ffff) * SSE/AVX (SP fp) multi-thread TIME(s) MFLOPS MOPS FOP IPC SSE mulss (32bit x1) n8 : 0.586 58975.6 3686.0 ( 16.0 1.0) SSE addss (32bit x1) n8 : 0.585 59055.5 3691.0 ( 16.0 1.0) FMA vfmaddss (32bit x1) n8 : 0.587 117773.3 3680.4 ( 32.0 1.0) FMA vfmaddss (32bit x1) n12 : 0.899 115318.0 3603.7 ( 32.0 1.0) FMA vfma+mlss (32bit x1) n12 : 0.878 88567.6 5535.5 ( 16.0 1.5) FMA vfma+adss (32bit x1) n12 : 1.009 77086.8 4817.9 ( 16.0 1.3) SSE mulps (32bit x4) n8 : 0.579 238822.1 3731.6 ( 64.0 1.0) SSE addps (32bit x4) n8 : 0.578 239148.0 3736.7 ( 64.0 1.0) SSE mul+addps (32bit x4) n8 : 0.308 449479.1 7023.1 ( 64.0 2.0) FMA vfmaddps (32bit x4) n8 : 0.607 455290.2 3557.0 (128.0 1.0) FMA vfmaddps (32bit x4) n12 : 0.896 462846.3 3616.0 (128.0 1.0) FMA vfma+mlps (32bit x4) n12 : 0.917 339139.4 3532.7 ( 96.0 1.0) FMA vfma+adps (32bit x4) n12 : 1.050 296196.1 3085.4 ( 96.0 0.9) SSE ml+ad+adps (32bit x4) n9 : 0.473 329119.9 5142.5 ( 64.0 1.4) SSE mulss (32bit x1) ns4 : 0.589 58633.9 3664.6 ( 16.0 1.0) SSE addss (32bit x1) ns4 : 0.593 58281.8 3642.6 ( 16.0 1.0) SSE mulps (32bit x4) ns4 : 0.593 233316.5 3645.6 ( 64.0 1.0) SSE addps (32bit x4) ns4 : 0.592 233434.6 3647.4 ( 64.0 1.0) AVX vmulps (32bit x8) n8 : 1.161 238135.4 1860.4 (128.0 0.5) AVX vaddps (32bit x8) n8 : 1.165 237289.3 1853.8 (128.0 0.5) AVX vmul+addps (32bit x8) n8 : 0.638 433097.6 3383.6 (128.0 0.9) FMA vfmaddps (32bit x8) n8 : 1.214 455327.7 1778.6 (256.0 0.5) FMA vfmaddps (32bit x8) n12 : 1.826 454323.9 1774.7 (256.0 0.5) FMA vfma+mlps (32bit x8) n12 : 1.849 336452.6 1752.4 (192.0 0.5) FMA vfma+adps (32bit x8) n12 : 1.525 407849.4 2124.2 (192.0 0.6) AVX vml+ad+adps (32bit x8) n9 : 0.929 334667.9 2614.6 (128.0 0.7) Average : 0.870 261831.9 3468.5 ( 92.3 1.0) Highest : 0.308 462846.3 7023.1 (256.0 2.0) * Group 0: Thread=16 Clock=3.600000 GHz (mask:ffff) * SSE/AVX (DP fp) multi-thread TIME(s) MFLOPS MOPS FOP IPC SSE2 mulsd (64bit x1) n8 : 0.583 59307.2 3706.7 ( 16.0 1.0) SSE2 addsd (64bit x1) n8 : 0.590 58559.5 3660.0 ( 16.0 1.0) FMA vfmaddsd (64bit x1) n8 : 0.612 113029.5 3532.2 ( 32.0 1.0) FMA vfmaddsd (64bit x1) n12 : 0.908 114144.3 3567.0 ( 32.0 1.0) FMA vfma+mlsd (64bit x1) n12 : 0.923 84260.4 5266.3 ( 16.0 1.5) FMA vfma+adsd (64bit x1) n12 : 1.072 72518.0 4532.4 ( 16.0 1.3) SSE2 mulpd (64bit x2) n8 : 0.593 116492.3 3640.4 ( 32.0 1.0) SSE2 addpd (64bit x2) n8 : 0.585 118131.6 3691.6 ( 32.0 1.0) SSE2 mul+addpd (64bit x2) n8 : 0.368 188056.6 5876.8 ( 32.0 1.6) FMA vfmaddpd (64bit x2) n8 : 0.619 223170.8 3487.0 ( 64.0 1.0) FMA vfmaddpd (64bit x2) n12 : 0.921 225205.3 3518.8 ( 64.0 1.0) FMA vfma+mlpd (64bit x2) n12 : 0.923 168557.6 3511.6 ( 48.0 1.0) FMA vfma+adpd (64bit x2) n12 : 1.073 144992.1 3020.7 ( 48.0 0.8) SSE2 ml+ad+dpd (64bit x2) n9 : 0.488 159217.0 4975.5 ( 32.0 1.4) SSE2 mulsd (64bit x1) ns4 : 0.626 55186.6 3449.2 ( 16.0 1.0) SSE2 addsd (64bit x1) ns4 : 0.591 58517.1 3657.3 ( 16.0 1.0) SSE2 mulpd (64bit x2) ns4 : 0.626 110337.6 3448.1 ( 32.0 1.0) SSE2 addpd (64bit x2) ns4 : 0.598 115499.9 3609.4 ( 32.0 1.0) AVX vmulpd (64bit x4) n8 : 1.152 119979.8 1874.7 ( 64.0 0.5) AVX vaddpd (64bit x4) n8 : 1.161 119067.1 1860.4 ( 64.0 0.5) AVX vmul+addpd (64bit x4) n8 : 0.697 198461.0 3101.0 ( 64.0 0.9) FMA vfmaddpd (64bit x4) n8 : 1.218 227047.1 1773.8 (128.0 0.5) FMA vfmaddpd (64bit x4) n12 : 1.847 224553.7 1754.3 (128.0 0.5) FMA vfma+mlpd (64bit x4) n12 : 1.837 169359.6 1764.2 ( 96.0 0.5) FMA vfma+adpd (64bit x4) n12 : 1.534 202816.4 2112.7 ( 96.0 0.6) AVX vml_ad_adpd (64bit x4) n9 : 0.873 178047.2 2782.0 ( 64.0 0.8) Average : 0.885 139404.4 3352.8 ( 49.2 0.9) Highest : 0.368 227047.1 5876.8 (128.0 1.6)
AMD Zen2 (AMD64 x86_64 x64) SSE4.2/AVX2/FMA3
Ryzen 9 3950X 3.5GHz (4.7GHz) 16 core 32 thread Windows 10
Date: 20200808 195918 ARCH: x64 (x86_64) FPU : SSE SSE2 SSSE3 SSE4.1 SSE4.2 AVX AVX2 FMA3 F16C Name: AMD Ryzen 9 3950X 16-Core Processor CPU Thread: 32 CPU Core : 16 CPU Group : 1 Group 0: Thread=32 Clock=3.493000 GHz (mask:ffffffff) SSE : yes AVX : yes FMA : yes F16C : yes AVX512: no Total: SingleThread HP max: - SingleThread SP max: 128.305 GFLOPS SingleThread DP max: 63.384 GFLOPS MultiThread HP max: - MultiThread SP max: 1888.789 GFLOPS MultiThread DP max: 938.944 GFLOPS Group 0: Thread=32 Clock=3.493000 GHz (mask:ffffffff) SingleThread HP max: - SingleThread SP max: 128.305 GFLOPS SingleThread DP max: 63.384 GFLOPS MultiThread HP max: - MultiThread SP max: 1888.789 GFLOPS MultiThread DP max: 938.944 GFLOPS * Group 0: Thread=1 Clock=3.493000 GHz (mask:ffffffff) * SSE/AVX (SP fp) TIME(s) MFLOPS MOPS FOP IPC SSE mulss (32bit x1) n8 : 0.235 8927.2 8927.2 ( 1.0 2.6) SSE addss (32bit x1) n8 : 0.234 8944.2 8944.2 ( 1.0 2.6) FMA vfmaddss (32bit x1) n8 : 0.306 13713.8 6856.9 ( 2.0 2.0) FMA vfmaddss (32bit x1) n12 : 0.351 17894.5 8947.2 ( 2.0 2.6) FMA vfma+mlss (32bit x1) n12 : 0.352 13403.3 8935.5 ( 1.5 2.6) FMA vfma+adss (32bit x1) n12 : 0.294 16051.8 10701.2 ( 1.5 3.1) SSE mulps (32bit x4) n8 : 0.234 35829.9 8957.5 ( 4.0 2.6) SSE addps (32bit x4) n8 : 0.234 35775.8 8943.9 ( 4.0 2.6) SSE mul+addps (32bit x4) n8 : 0.177 47417.4 11854.3 ( 4.0 3.4) FMA vfmaddps (32bit x4) n8 : 0.294 57079.2 7134.9 ( 8.0 2.0) FMA vfmaddps (32bit x4) n12 : 0.352 71522.5 8940.3 ( 8.0 2.6) FMA vfma+mlps (32bit x4) n12 : 0.354 53337.4 8889.6 ( 6.0 2.5) FMA vfma+adps (32bit x4) n12 : 0.296 63794.3 10632.4 ( 6.0 3.0) SSE ml+ad+adps (32bit x4) n9 : 0.211 44684.7 11171.2 ( 4.0 3.2) SSE mulss (32bit x1) ns4 : 0.349 6000.9 6000.9 ( 1.0 1.7) SSE addss (32bit x1) ns4 : 0.350 5993.1 5993.1 ( 1.0 1.7) SSE mulps (32bit x4) ns4 : 0.350 23943.3 5985.8 ( 4.0 1.7) SSE addps (32bit x4) ns4 : 0.349 23994.9 5998.7 ( 4.0 1.7) AVX vmulps (32bit x8) n8 : 0.248 67674.4 8459.3 ( 8.0 2.4) AVX vaddps (32bit x8) n8 : 0.249 67317.9 8414.7 ( 8.0 2.4) AVX vmul+addps (32bit x8) n8 : 0.152 110575.9 13822.0 ( 8.0 4.0) FMA vfmaddps (32bit x8) n8 : 0.306 109502.0 6843.9 ( 16.0 2.0) FMA vfmaddps (32bit x8) n12 : 0.397 126591.7 7912.0 ( 16.0 2.3) FMA vfma+mlps (32bit x8) n12 : 0.391 96466.3 8038.9 ( 12.0 2.3) FMA vfma+adps (32bit x8) n12 : 0.315 119759.2 9979.9 ( 12.0 2.9) AVX vml+ad+adps (32bit x8) n9 : 0.335 56261.1 7032.6 ( 8.0 2.0) Average : 0.297 50094.5 8627.6 ( 5.8 2.5) Highest : 0.152 126591.7 13822.0 ( 16.0 4.0) * Group 0: Thread=1 Clock=3.493000 GHz (mask:ffffffff) * SSE/AVX (DP fp) TIME(s) MFLOPS MOPS FOP IPC SSE2 mulsd (64bit x1) n8 : 0.237 8832.5 8832.5 ( 1.0 2.5) SSE2 addsd (64bit x1) n8 : 0.236 8881.2 8881.2 ( 1.0 2.5) FMA vfmaddsd (64bit x1) n8 : 0.296 14153.0 7076.5 ( 2.0 2.0) FMA vfmaddsd (64bit x1) n12 : 0.354 17776.6 8888.3 ( 2.0 2.5) FMA vfma+mlsd (64bit x1) n12 : 0.357 13220.3 8813.5 ( 1.5 2.5) FMA vfma+adsd (64bit x1) n12 : 0.295 15973.3 10648.9 ( 1.5 3.0) SSE2 mulpd (64bit x2) n8 : 0.236 17749.4 8874.7 ( 2.0 2.5) SSE2 addpd (64bit x2) n8 : 0.237 17707.4 8853.7 ( 2.0 2.5) SSE2 mul+addpd (64bit x2) n8 : 0.177 23667.6 11833.8 ( 2.0 3.4) FMA vfmaddpd (64bit x2) n8 : 0.296 28284.4 7071.1 ( 4.0 2.0) FMA vfmaddpd (64bit x2) n12 : 0.353 35638.1 8909.5 ( 4.0 2.6) FMA vfma+mlpd (64bit x2) n12 : 0.356 26526.1 8842.0 ( 3.0 2.5) FMA vfma+adpd (64bit x2) n12 : 0.296 31889.2 10629.7 ( 3.0 3.0) SSE2 ml+ad+dpd (64bit x2) n9 : 0.213 22149.1 11074.6 ( 2.0 3.2) SSE2 mulsd (64bit x1) ns4 : 0.356 5894.5 5894.5 ( 1.0 1.7) SSE2 addsd (64bit x1) ns4 : 0.355 5909.9 5909.9 ( 1.0 1.7) SSE2 mulpd (64bit x2) ns4 : 0.354 11834.5 5917.2 ( 2.0 1.7) SSE2 addpd (64bit x2) ns4 : 0.352 11918.9 5959.4 ( 2.0 1.7) AVX vmulpd (64bit x4) n8 : 0.250 33522.5 8380.6 ( 4.0 2.4) AVX vaddpd (64bit x4) n8 : 0.250 33518.6 8379.6 ( 4.0 2.4) AVX vmul+addpd (64bit x4) n8 : 0.160 52309.3 13077.3 ( 4.0 3.7) FMA vfmaddpd (64bit x4) n8 : 0.307 54577.4 6822.2 ( 8.0 2.0) FMA vfmaddpd (64bit x4) n12 : 0.397 63384.1 7923.0 ( 8.0 2.3) FMA vfma+mlpd (64bit x4) n12 : 0.394 47859.6 7976.6 ( 6.0 2.3) FMA vfma+adpd (64bit x4) n12 : 0.316 59672.9 9945.5 ( 6.0 2.8) AVX vml_ad_adpd (64bit x4) n9 : 0.188 50150.2 12537.6 ( 4.0 3.6) Average : 0.293 27423.1 8767.4 ( 3.1 2.5) Highest : 0.160 63384.1 13077.3 ( 8.0 3.7) * Group 0: Thread=32 Clock=3.493000 GHz (mask:ffffffff) * SSE/AVX (SP fp) multi-thread TIME(s) MFLOPS MOPS FOP IPC SSE mulss (32bit x1) n8 : 0.501 133984.9 4187.0 ( 32.0 1.2) SSE addss (32bit x1) n8 : 0.503 133342.3 4166.9 ( 32.0 1.2) FMA vfmaddss (32bit x1) n8 : 0.504 266323.0 4161.3 ( 64.0 1.2) FMA vfmaddss (32bit x1) n12 : 0.756 266218.2 4159.7 ( 64.0 1.2) FMA vfma+mlss (32bit x1) n12 : 0.766 196915.8 6153.6 ( 32.0 1.8) FMA vfma+adss (32bit x1) n12 : 0.859 175676.6 5489.9 ( 32.0 1.6) SSE mulps (32bit x4) n8 : 0.501 535702.0 4185.2 (128.0 1.2) SSE addps (32bit x4) n8 : 0.500 537052.2 4195.7 (128.0 1.2) SSE mul+addps (32bit x4) n8 : 0.262 1025605.1 8012.5 (128.0 2.3) FMA vfmaddps (32bit x4) n8 : 0.506 1060612.9 4143.0 (256.0 1.2) FMA vfmaddps (32bit x4) n12 : 0.757 1062707.3 4151.2 (256.0 1.2) FMA vfma+mlps (32bit x4) n12 : 0.770 784237.1 4084.6 (192.0 1.2) FMA vfma+adps (32bit x4) n12 : 0.831 726585.3 3784.3 (192.0 1.1) SSE ml+ad+adps (32bit x4) n9 : 0.386 781589.6 6106.2 (128.0 1.7) SSE mulss (32bit x1) ns4 : 0.499 134495.7 4203.0 ( 32.0 1.2) SSE addss (32bit x1) ns4 : 0.497 135005.8 4218.9 ( 32.0 1.2) SSE mulps (32bit x4) ns4 : 0.498 538516.2 4207.2 (128.0 1.2) SSE addps (32bit x4) ns4 : 0.500 536973.7 4195.1 (128.0 1.2) AVX vmulps (32bit x8) n8 : 0.514 1043773.8 4077.2 (256.0 1.2) AVX vaddps (32bit x8) n8 : 0.518 1035798.2 4046.1 (256.0 1.2) AVX vmul+addps (32bit x8) n8 : 0.354 1513704.0 5912.9 (256.0 1.7) FMA vfmaddps (32bit x8) n8 : 0.568 1888789.4 3689.0 (512.0 1.1) FMA vfmaddps (32bit x8) n12 : 0.871 1847787.5 3609.0 (512.0 1.0) FMA vfma+mlps (32bit x8) n12 : 0.834 1446926.4 3768.0 (384.0 1.1) FMA vfma+adps (32bit x8) n12 : 0.689 1751695.3 4561.7 (384.0 1.3) AVX vml+ad+adps (32bit x8) n9 : 0.456 1323814.1 5171.1 (256.0 1.5) Average : 0.585 803224.3 4563.1 (184.6 1.3) Highest : 0.262 1888789.4 8012.5 (512.0 2.3) * Group 0: Thread=32 Clock=3.493000 GHz (mask:ffffffff) * SSE/AVX (DP fp) multi-thread TIME(s) MFLOPS MOPS FOP IPC SSE2 mulsd (64bit x1) n8 : 0.502 133678.8 4177.5 ( 32.0 1.2) SSE2 addsd (64bit x1) n8 : 0.504 133028.9 4157.2 ( 32.0 1.2) FMA vfmaddsd (64bit x1) n8 : 0.507 264705.8 4136.0 ( 64.0 1.2) FMA vfmaddsd (64bit x1) n12 : 0.761 264410.5 4131.4 ( 64.0 1.2) FMA vfma+mlsd (64bit x1) n12 : 0.768 196535.0 6141.7 ( 32.0 1.8) FMA vfma+adsd (64bit x1) n12 : 0.838 180003.0 5625.1 ( 32.0 1.6) SSE2 mulpd (64bit x2) n8 : 0.497 269617.0 4212.8 ( 64.0 1.2) SSE2 addpd (64bit x2) n8 : 0.494 271369.0 4240.1 ( 64.0 1.2) SSE2 mul+addpd (64bit x2) n8 : 0.278 483345.2 7552.3 ( 64.0 2.2) FMA vfmaddpd (64bit x2) n8 : 0.504 532172.7 4157.6 (128.0 1.2) FMA vfmaddpd (64bit x2) n12 : 0.757 531281.4 4150.6 (128.0 1.2) FMA vfma+mlpd (64bit x2) n12 : 0.768 392747.7 4091.1 ( 96.0 1.2) FMA vfma+adpd (64bit x2) n12 : 0.842 358338.5 3732.7 ( 96.0 1.1) SSE2 ml+ad+dpd (64bit x2) n9 : 0.386 390483.3 6101.3 ( 64.0 1.7) SSE2 mulsd (64bit x1) ns4 : 0.503 133463.3 4170.7 ( 32.0 1.2) SSE2 addsd (64bit x1) ns4 : 0.501 133828.2 4182.1 ( 32.0 1.2) SSE2 mulpd (64bit x2) ns4 : 0.500 268326.3 4192.6 ( 64.0 1.2) SSE2 addpd (64bit x2) ns4 : 0.501 267562.5 4180.7 ( 64.0 1.2) AVX vmulpd (64bit x4) n8 : 0.521 515027.6 4023.7 (128.0 1.2) AVX vaddpd (64bit x4) n8 : 0.527 509168.2 3977.9 (128.0 1.1) AVX vmul+addpd (64bit x4) n8 : 0.366 733490.5 5730.4 (128.0 1.6) FMA vfmaddpd (64bit x4) n8 : 0.571 938944.0 3667.7 (256.0 1.1) FMA vfmaddpd (64bit x4) n12 : 0.875 919685.3 3592.5 (256.0 1.0) FMA vfma+mlpd (64bit x4) n12 : 0.839 719403.6 3746.9 (192.0 1.1) FMA vfma+adpd (64bit x4) n12 : 0.693 870577.3 4534.3 (192.0 1.3) AVX vml_ad_adpd (64bit x4) n9 : 0.370 815114.2 6368.1 (128.0 1.8) Average : 0.584 431781.1 4576.0 ( 98.5 1.3) Highest : 0.278 938944.0 7552.3 (256.0 2.2)