文書の過去の版を表示しています。
VFP Benchmark Log 計測結果まとめ
VFP Benchmark の実行結果
結果一覧
Device | OS | SoC | CPU | FPU | clock | Single-SP | Single-DP | Multi-SP | Multi-DP | ||
---|---|---|---|---|---|---|---|---|---|---|---|
PC AMD Ryzen 7 1800X | Win10 | AMD Ryzen 7 1800X | Ryzen | x64 | SSE4.2/AVX2/FMA3 | 8 | 3.6GHz | 64.943 | 31.178 | 513.464 | 265.291 |
PC Intel Core i7-6700K | Win10 | Intel Core i7-6700K | Skylake | x64 | SSE4.2/AVX2/FMA3 | 4 | 4.0GHz | 132.274 | 62.904 | 511.630 | 255.417 |
PC Intel Core i7-4790K | Ubuntu | Intel Core i7-4790K | Haswell | x64 | SSE4.2/AVX2/FMA3 | 4 | 4.0GHz | 85.112 | 31.917 | 510.509 | 128.452 |
Apple Mac mini Late 2012 | OSX.10 | Intel Core i7-3615QM | Ivy Birdge | x64 | SSE4.2/AVX | 4 | 2.3GHz | 51.427 | 25.693 | 194.698 | 96.913 |
Apple MacBook Pro Late 2011 | OSX.10 | Intel Core i7-2720QM | Sandy Bridge | x64 | SSE4.2/AVX | 4 | 2.2GHz | 52.260 | 26.137 | 162.316 | 74.049 |
Apple MacBook Pro Late 2013 | OSX.10 | Intel Core i5-3210M | Ivy Birdge | x64 | SSE4.2/AVX | 2 | 2.5GHz | 48.604 | 24.317 | 90.247 | 45.223 |
iPhone SE | iOS9.3 | Apple A9 | Twister | ARMv8A | AArch64 | 2 | 1.85GHz | 41.857 | 14.545 | 81.071 | 28.333 |
NVIDIA SHIELD Tablet | A4.4 | NVIDIA Tegra K1 | Cortex-A15 | ARMv7A | VFPv4 NEON | 4 | 2.2GHz | 17.136 | 3.431 | 70.174 | 14.036 |
Apple iPad A8X | i8.0 | Apple A8X | Typhoon | ARMv8A | AArch64 | 3 | 1.5GHz | 23.568 | 11.751 | 68.591 | 33.968 |
NVIDIA SHIELD Android TV | A5.1 | NVIDIA Tegra X1 | Cortex-A57 | ARMv8A | AArch64 | 4 | 2.1GHz | 17.041 | 8.554 | 67.588 | 33.730 |
Amazon Fire HDX 7 2013 | A4.4 | Qualcomm 800 MSM8974 | Krait 400 | ARMv7A | VFPv4 NEON | 4 | 2.2GHz | 17.128 | 4.289 | 67.539 | 16.874 |
Motorola Nexus 6 | A5.0 | Qualcomm 805 APQ8084 | Krait 450 | ARMv7A | VFPv4 NEON | 4 | 2.7GHz | 15.575 | 4.547 | 64.316 | 20.393 |
PC AMD Athlon 5350 Kabini | Ubuntu | AMD Athlon 5350 | Jaguar | x64 | SSE4.2/AVX | 4 | 2.0GHz | 15.943 | 6.127 | 63.737 | 24.504 |
PC Intel J1900 BayTrail-D | Ubuntu | Intel Celeron J1900 | Silvermont | x64 | SSE4.2 | 4 | 2.0GHz | 14.477 | 3.619 | 57.902 | 14.471 |
NVIDIA Tegra Note 7 | A4.4 | NVIDIA Tegra 4 | Cortex-A15 | ARMv7A | VFPv4 NEON | 4 | 1.8GHz | 13.371 | 2.655 | 51.345 | 9.860 |
PC Intel N3150 Braswell | Ubuntu | Intel Celeron N3150 | Airmont | x64 | SSE4.2 | 4 | 1.6GHz | 12.468 | 3.117 | 49.679 | 12.469 |
ASUS Nexus 7 2013 | A4.4 | Qualcomm S4 APQ8064 | Krait | ARMv7A | VFPv4 NEON | 4 | 1.5GHz | 11.947 | 3.005 | 47.808 | 11.751 |
HTC J butterfly HTL21 | A4.1 | Qualcomm S4 APQ8064 | Krait | ARMv7A | VFPv4 NEON | 4 | 1.5GHz | 11.883 | 2.967 | 46.954 | 11.778 |
Apple TV (2015) | tv9.0 | Apple A8 | Typhoon | ARMv8A | AArch64 | 2 | 1.4GHz | 22.197 | 11.105 | 44.331 | 22.084 |
Apple iPhone 5s | i8.0 | Apple A7 | Cyclone | ARMv8A | AArch64 | 2 | 1.3GHz | 20.621 | 10.313 | 40.871 | 20.480 |
Apple iPad mini 2 | i8.0 | Apple A7 | Cyclone | ARMv8A | AArch64 | 2 | 1.3GHz | 20.373 | 10.223 | 40.616 | 20.238 |
Dragonboard 410c | Debian | Snapdragon 410 MSM8916 | Cortex-A53 | ARMv8A | AArch64 | 4 | 1.2GHz | 9.498 | 4.749 | 37.965 | 18.603 |
Raspberry Pi 3 | Debian | Broadcomm BCM2837 | Cortex-A53 | ARMv8A | VFPv4 NEON | 4 | 1.2GHz | 9.431 | 2.477 | 37.442 | 9.994 |
Apple iPod touch 6 | i8.4 | Apple A8 | Typhoon | ARMv8A | AArch64 | 2 | 1.1GHz | 17.964 | 8.899 | 35.530 | 17.775 |
ASUS MeMO Pad 7 ME176 | A5.0 | Intel Atom Z3745 | Silvermont | x86 | SSE4.2 | 4 | 1.83GHz | 8.946 | 2.797 | 35.473 | 11.060 |
HTC Nexus 9 | A5.0 | NVIDIA Tegra K1 | Denver | ARMv8A | AArch64 | 2 | 2.5GHz | 17.906 | 8.762 | 34.888 | 17.601 |
ASUS Nexus Player | A5.0 | Intel Atom Z3560 | Silvermont | x86 | SSE4.2 | 4 | 1.8GHz | 8.733 | 2.733 | 33.852 | 10.655 |
Amazon Fire TV 2015 | A5.1 | MediaTek MT8173C | Cortex-A72 | ARMv8A | AArch64 | 2 | 2.0GHz | 15.864 | 7.934 | 31.771 | 15.885 |
Apple Mac mini Early 2009 | OSX.10 | Intel Core 2 Duo P7350 | Penryn | x64 | SSE4.1 | 2 | 2.0GHz | 15.916 | 6.365 | 31.662 | 12.724 |
Dragonboard 410c | A5.1 | Snapdragon 410 MSM8916 | Cortex-A53 | ARMv8A | AArch64 | 4 | 1.2GHz | 9.377 | 4.737 | 30.817 | 15.063 |
Samsung Nexus 10 | A4.4 | Samsung Exynos 5250 | Cortex-A15 | ARMv7A | VFPv4 NEON | 2 | 1.7GHz | 13.483 | 2.686 | 26.724 | 5.314 |
ASUS MeMO Pad 7 ME176 (BT) | A5.0 | Intel Atom Z3745 | Silvermont | ARMv7A | VFPv3/NEON | 4 | 1.83GHz | 6.144 | 1.476 | 24.329 | 5.905 |
Apple iPad 4 | i8.0 | Apple A6X | Swift | ARMv7A | VFPv4 NEON | 2 | 1.4GHz | 10.855 | 1.818 | 21.502 | 3.573 |
Apple iPhone 5 | i9.0 | Apple A6 | Swift | ARMv7A | VFPv4 NEON | 2 | 1.3GHz | 10.094 | 1.710 | 20.029 | 3.398 |
ASUS Nexus 7 2012 | A4.4 | NVIDIA Tegra 3 | Cortex-A9 | ARMv7A | VFPv3 NEON | 4 | 1.2GHz | 4.783 | 1.196 | 18.905 | 4.724 |
ASUS Fonepad 7 ME372CL | A4.4 | Intel Atom Z2560 | Saltwell | x86 | SSSE3 | 2 | 1.6GHz | 7.540 | 1.523 | 18.630 | 3.504 |
Acer Chromebook c720 | Ubuntu | Intel Celeron 2955U | Haswell | x64 | SSE4.2 | 2 | 1.4GHz | 8.898 | 4.448 | 17.339 | 8.784 |
HTC EVO 3d | A4.0 | Qualcomm S3 MSM8660 | Scorpion | ARMv7A | VFPv3 NEON | 2 | 1.2GHz | 8.898 | 1.112 | 16.560 | 1.266 |
Sony VAIO Type P | Ubuntu | Intel Atom Z540 | Bonnell | x86 | SSSE3 | 1 | 1.86GHz | 8.918 | 1.810 | 10.927 | 1.852 |
Lenovo Yoga Tablet 8 | A4.2 | MediaTek MT8125 | Cortex-A7 | ARMv7A | VFPv4 NEON | 4 | 1.2GHz | 2.374 | 1.165 | 9.474 | 4.653 |
SHARP Mebius Note PCPJ1 | Ubuntu | Intel Atom N270 | Bonnell | x86 | SSSE3 | 1 | 1.6GHz | 5.597 | 1.548 | 9.277 | 1.570 |
NEC Medias N-06C | A2.3 | Qualcomm S2 MSM8255 | Scorpion | ARMv7A | VFPv3 NEON | 1 | 1.0GHz | 7.786 | 0.977 | 7.835 | 0.981 |
Apple iPad 2 | i8.0 | Apple A5 | Cortex-A9 | ARMv7A | VFPv3 NEON | 2 | 1.0GHz | 3.960 | 0.989 | 7.830 | 1.961 |
Apple iPad mini | i8.0 | Apple A5 | Cortex-A9 | ARMv7A | VFPv3 NEON | 2 | 1.0GHz | 3.846 | 0.983 | 7.800 | 1.941 |
Fire TV Stick 2015 | A5.1 | Broadcom 28155 | Cortex-A9 | ARMv7A | VFPv3 NEON | 2 | 1.0GHz | 3.968 | 0.992 | 7.761 | 1.946 |
Apple iPad 3 | i8.0 | Apple A5X | Cortex-A9 | ARMv7A | VFPv3 NEON | 2 | 1.0GHz | 3.394 | 0.983 | 7.752 | 1.954 |
Sony Xperia IS11S | A2.3 | Qualcomm S2 MSM8255 | Scorpion | ARMv7A | VFPv3 NEON | 1 | 1.0GHz | 7.681 | 0.960 | 7.623 | 0.960 |
Raspberry Pi 2 | Debian | Broadcomm BCM2836 | Cortex-A7 | ARMv7A | VFPv4 NEON | 4 | 0.9GHz | 1.791 | 0.877 | 7.087 | 3.472 |
HTC Desire | A2.2 | Qualcomm S1 QSD8250 | Scorpion | ARMv7A | VFPv3 NEON | 1 | 1.0GHz | 7.098 | 0.886 | 7.058 | 0.886 |
Apple iPod touch 5 | i8.0 | Apple A5 | Cortex-A9 | ARMv7A | VFPv3 NEON | 2 | 0.8GHz | 3.161 | 0.790 | 6.203 | 1.565 |
Sony SmartWatch 3 SWR50 | A4.4W | Qualcomm 400 MSM8226 | Cortex-A7 | ARMv7A | VFPv4 NEON | 4 | 1.2GHz | 2.257 | 1.144 | 4.946 | 2.278 |
NEC LifeTcouhNote | A2.3 | NVIDIA Tegra 2 | Cortex-A9 | ARMv7A | VFPv3 | 2 | 1.0GHz | 1.993 | 0.999 | 3.908 | 1.962 |
LG OptimusPad L-06C | A3.1 | NVIDIA Tegra 2 | Cortex-A9 | ARMv7A | VFPv3 | 2 | 1.0GHz | 1.983 | 0.997 | 3.853 | 1.965 |
Motorola Moto 360 | A5.0 | TI OMAP3 | Cortex-A8 | ARMv7A | VFPv3 NEON | 1 | 1.0GHz | 3.739 | 0.126 | 3.376 | 0.125 |
Apple iPod touch 4 | i6.0 | Apple A4 | Cortex-A8 | ARMv7A | VFPv3 NEON | 1 | 0.8GHz | 3.139 | 0.112 | 3.139 | 0.112 |
Creative Ziio 7 | A2.2 | Creative ZMS-08 | Cortex-A8 | ARMv7A | VFPv3 NEON | 1 | 1.0GHz | 2.781 | 0.100 | 2.792 | 0.099 |
Apple Watch S2 | W3.1 | Apple S2 | Cortex-A7 | ARMv7A | VFPv4 NEON | 2 | 0.5GHz | 0.986 | 0.483 | 1.807 | 0.879 |
LG G Watch | A4.4W | Qualcomm 400 MSM8226 | Cortex-A7 | ARMv7A | VFPv4 NEON | 4 | 1.2GHz | 1.419 | 0.742 | 1.367 | 0.676 |
Apple Watch | W2.0 | Apple S1 | Cortex-A7 | ARMv7A | VFPv4 NEON | 1 | 0.5GHz | 0.951 | 0.470 | 0.945 | 0.469 |
Raspberry Pi | Debian | Boradcom BCM2835 | ARM1176JZF-S | ARMv6 | VFPv2 | 1 | 0.7GHz | 0.674 | 0.674 | 0.674 | 0.674 |
SmartQ ZWatch | A4.4 | Ingenic JZ4775 | XBurst | MIPS32 | FPU | 1 | 1.0GHz | 0.117 | 0.116 | 0.117 | 0.117 |
Mobile CPU 32bit
ARM ARM11 (ARMv6) VFPv2
Raspberry Pi ARM1176JZF-S 700MHz
ARM11 700MHz ARM1176JZF-S Single core ARCH: ARMv6 FPU: VFPv2-D16 SingleT SP max: 0.674 GFLOPS SingleT DP max: 0.674 GFLOPS MultiT SP max: 0.674 GFLOPS MultiT DP max: 0.674 GFLOPS CPU core: 1 NEON: no FMA: no * VFP/NEON (single fp) VFP fmuls (32bit x1) n8 : 11.876 336.8 336.8 VFP fadds (32bit x1) n8 : 11.873 336.9 336.9 VFP fmacs (32bit x1) n8 : 11.874 673.7 673.7 VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : - - - NEON vadd.f32 (32bit x2) n8 : - - - NEON vmla.f32 (32bit x2) n8 : - - - NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : - - - NEON vadd.f32 (32bit x4) n8 : - - - NEON vmla.f32 (32bit x4) n8 : - - - NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : 11.874 336.9 336.9 VFP fadds (32bit x1) ns4 : 11.875 336.8 336.8 VFP fmacs (32bit x1) ns4 : 11.873 673.8 673.8 VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : - - - NEON vadd.f32 (32bit x2) ns4 : - - - NEON vmla.f32 (32bit x2) ns4 : - - - NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : - - - NEON vadd.f32 (32bit x4) ns4 : - - - NEON vmla.f32 (32bit x4) ns4 : - - - NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : 46.333 86.3 86.3 VFP fadds (32bit x1) n1 : 46.341 86.3 86.3 VFP fmacs (32bit x1) n1 : 46.542 171.9 171.9 VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : - - - NEON vadd.f32 (32bit x2) n1 : - - - NEON vmla.f32 (32bit x2) n1 : - - - NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : - - - NEON vadd.f32 (32bit x4) n1 : - - - NEON vmla.f32 (32bit x4) n1 : - - - NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : - - - NEON vadd.f32 (32bit x4) n12 : - - - NEON vmla.f32 (32bit x4) n12 : - - - NEON vfma.f32 (32bit x4) n12 : - - - Average : 23.384 337.7 337.7 Highest : 11.873 673.8 673.8 * VFP/NEON (double fp) VFP fmuld (64bit x1) n8 : 11.874 336.9 336.9 VFP faddd (64bit x1) n8 : 11.873 336.9 336.9 VFP fmacd (64bit x1) n8 : 11.873 673.8 673.8 VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : 13.177 303.6 303.6 VFP faddd (64bit x1) ns4 : 11.877 336.8 336.8 VFP fmacd (64bit x1) ns4 : 13.178 607.1 607.1 VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : 52.124 76.7 76.7 VFP faddd (64bit x1) n1 : 46.330 86.3 86.3 VFP fmacd (64bit x1) n1 : 52.124 153.5 153.5 VFP vfma.f64 (64bit x1) n1 : - - - Average : 24.937 323.5 323.5 Highest : 11.873 673.8 673.8 * Matrix 4x4 C++ code : 7.938 451.5 451.5 NEON vmla 128bit A : - - - NEON vmla 64bit A : - - - NEON vfma 128bit A : - - - NEON vmla 128bit B : - - - NEON vmla 64bit B : - - - NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - Average : 7.938 451.5 451.5 Highest : 7.938 451.5 451.5 * VFP/NEON (single fp) multi-thread VFP fmuls (32bit x1) n8 : 11.874 336.9 336.9 VFP fadds (32bit x1) n8 : 11.871 337.0 337.0 VFP fmacs (32bit x1) n8 : 11.875 673.7 673.7 VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : - - - NEON vadd.f32 (32bit x2) n8 : - - - NEON vmla.f32 (32bit x2) n8 : - - - NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : - - - NEON vadd.f32 (32bit x4) n8 : - - - NEON vmla.f32 (32bit x4) n8 : - - - NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : 11.873 336.9 336.9 VFP fadds (32bit x1) ns4 : 11.874 336.9 336.9 VFP fmacs (32bit x1) ns4 : 11.872 673.8 673.8 VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : - - - NEON vadd.f32 (32bit x2) ns4 : - - - NEON vmla.f32 (32bit x2) ns4 : - - - NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : - - - NEON vadd.f32 (32bit x4) ns4 : - - - NEON vmla.f32 (32bit x4) ns4 : - - - NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : 46.333 86.3 86.3 VFP fadds (32bit x1) n1 : 46.384 86.2 86.2 VFP fmacs (32bit x1) n1 : 46.435 172.3 172.3 VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : - - - NEON vadd.f32 (32bit x2) n1 : - - - NEON vmla.f32 (32bit x2) n1 : - - - NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : - - - NEON vadd.f32 (32bit x4) n1 : - - - NEON vmla.f32 (32bit x4) n1 : - - - NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : - - - NEON vadd.f32 (32bit x4) n12 : - - - NEON vmla.f32 (32bit x4) n12 : - - - NEON vfma.f32 (32bit x4) n12 : - - - Average : 23.377 337.8 337.8 Highest : 11.871 673.8 673.8 * VFP/NEON (double fp) multi-thread VFP fmuld (64bit x1) n8 : 11.875 336.9 336.9 VFP faddd (64bit x1) n8 : 11.872 336.9 336.9 VFP fmacd (64bit x1) n8 : 11.874 673.8 673.8 VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : 13.176 303.6 303.6 VFP faddd (64bit x1) ns4 : 11.875 336.8 336.8 VFP fmacd (64bit x1) ns4 : 13.177 607.1 607.1 VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : 52.133 76.7 76.7 VFP faddd (64bit x1) n1 : 46.439 86.1 86.1 VFP fmacd (64bit x1) n1 : 52.127 153.5 153.5 VFP vfma.f64 (64bit x1) n1 : - - - Average : 24.950 323.5 323.5 Highest : 11.872 673.8 673.8 * Matrix 4x4 multi-thread C++ code : 7.937 451.5 451.5 NEON vmla 128bit A : - - - NEON vmla 64bit A : - - - NEON vfma 128bit A : - - - NEON vmla 128bit B : - - - NEON vmla 64bit B : - - - NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - Average : 7.937 451.5 451.5 Highest : 7.937 451.5 451.5
MSM7225 ARM11 528MHz Single core ARCH: ARMv5TE CPU core: 1 <none> Result SingleT SP max: - SingleT DP max: - MultiT SP max: - MultiT DP max: - * VFP/NEON (単精度 fp) single-thread VFP fmuls (32bit x1) n8 : - - - VFP fadds (32bit x1) n8 : - - - VFP fmacs (32bit x1) n8 : - - - VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : - - - NEON vadd.f32 (32bit x2) n8 : - - - NEON vmla.f32 (32bit x2) n8 : - - - NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : - - - NEON vadd.f32 (32bit x4) n8 : - - - NEON vmla.f32 (32bit x4) n8 : - - - NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : - - - VFP fadds (32bit x1) ns4 : - - - VFP fmacs (32bit x1) ns4 : - - - VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : - - - NEON vadd.f32 (32bit x2) ns4 : - - - NEON vmla.f32 (32bit x2) ns4 : - - - NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : - - - NEON vadd.f32 (32bit x4) ns4 : - - - NEON vmla.f32 (32bit x4) ns4 : - - - NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : - - - VFP fadds (32bit x1) n1 : - - - VFP fmacs (32bit x1) n1 : - - - VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : - - - NEON vadd.f32 (32bit x2) n1 : - - - NEON vmla.f32 (32bit x2) n1 : - - - NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : - - - NEON vadd.f32 (32bit x4) n1 : - - - NEON vmla.f32 (32bit x4) n1 : - - - NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : - - - NEON vadd.f32 (32bit x4) n12 : - - - NEON vmla.f32 (32bit x4) n12 : - - - NEON vfma.f32 (32bit x4) n12 : - - - 平均 : - - - 最大 : - - - * VFP/NEON (倍精度 fp) single-thread VFP fmuld (64bit x1) n8 : - - - VFP faddd (64bit x1) n8 : - - - VFP fmacd (64bit x1) n8 : - - - VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : - - - VFP faddd (64bit x1) ns4 : - - - VFP fmacd (64bit x1) ns4 : - - - VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : - - - VFP faddd (64bit x1) n1 : - - - VFP fmacd (64bit x1) n1 : - - - VFP vfma.f64 (64bit x1) n1 : - - - 平均 : - - - 最大 : - - - * Matrix 4x4 (単精度 fp) single-thread C++ code : 170.655 10.5 10.5 NEON vmla 128bit A : - - - NEON vmla 64bit A : - - - NEON vfma 128bit A : - - - NEON vmla 128bit B : - - - NEON vmla 64bit B : - - - NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - 平均 : 170.655 10.5 10.5 最大 : 170.655 10.5 10.5 * VFP/NEON (単精度 fp) multi-thread VFP fmuls (32bit x1) n8 : - - - VFP fadds (32bit x1) n8 : - - - VFP fmacs (32bit x1) n8 : - - - VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : - - - NEON vadd.f32 (32bit x2) n8 : - - - NEON vmla.f32 (32bit x2) n8 : - - - NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : - - - NEON vadd.f32 (32bit x4) n8 : - - - NEON vmla.f32 (32bit x4) n8 : - - - NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : - - - VFP fadds (32bit x1) ns4 : - - - VFP fmacs (32bit x1) ns4 : - - - VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : - - - NEON vadd.f32 (32bit x2) ns4 : - - - NEON vmla.f32 (32bit x2) ns4 : - - - NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : - - - NEON vadd.f32 (32bit x4) ns4 : - - - NEON vmla.f32 (32bit x4) ns4 : - - - NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : - - - VFP fadds (32bit x1) n1 : - - - VFP fmacs (32bit x1) n1 : - - - VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : - - - NEON vadd.f32 (32bit x2) n1 : - - - NEON vmla.f32 (32bit x2) n1 : - - - NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : - - - NEON vadd.f32 (32bit x4) n1 : - - - NEON vmla.f32 (32bit x4) n1 : - - - NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : - - - NEON vadd.f32 (32bit x4) n12 : - - - NEON vmla.f32 (32bit x4) n12 : - - - NEON vfma.f32 (32bit x4) n12 : - - - 平均 : - - - 最大 : - - - * VFP/NEON (倍精度 fp) multi-thread VFP fmuld (64bit x1) n8 : - - - VFP faddd (64bit x1) n8 : - - - VFP fmacd (64bit x1) n8 : - - - VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : - - - VFP faddd (64bit x1) ns4 : - - - VFP fmacd (64bit x1) ns4 : - - - VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : - - - VFP faddd (64bit x1) n1 : - - - VFP fmacd (64bit x1) n1 : - - - VFP vfma.f64 (64bit x1) n1 : - - - 平均 : - - - 最大 : - - - * Matrix 4x4 (単精度 fp) multi-thread C++ code : 169.808 10.6 10.6 NEON vmla 128bit A : - - - NEON vmla 64bit A : - - - NEON vfma 128bit A : - - - NEON vmla 128bit B : - - - NEON vmla 64bit B : - - - NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - 平均 : 169.808 10.6 10.6 最大 : 169.808 10.6 10.6
ARM Cortex-A8 (ARMv7A) VFPv3+NEON
Creative ZiiO7 MZS-08 Cortex-A8 1.0GHz single core
Creative ZiiO7 MZS-08 Cortex-A8 1.0GHz single core ARCH: ARMv7A CPU core: 1 VFP: VFPv3-D32 NEON FMA: No NEON: Yes Result SingleT SP max: 2.781 GFLOPS SingleT DP max: 0.100 GFLOPS MultiT SP max: 2.792 GFLOPS MultiT DP max: 0.099 GFLOPS * VFP/NEON (単精度 fp) single-thread VFP fmuls (32bit x1) n8 : 17.880 67.1 67.1 VFP fadds (32bit x1) n8 : 15.614 76.9 76.9 VFP fmacs (32bit x1) n8 : 31.084 77.2 77.2 VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : 1.724 1392.4 1392.4 NEON vadd.f32 (32bit x2) n8 : 1.721 1394.7 1394.7 NEON vmla.f32 (32bit x2) n8 : 1.953 2457.5 2457.5 NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : 3.495 1373.3 1373.3 NEON vadd.f32 (32bit x4) n8 : 3.466 1384.8 1384.8 NEON vmla.f32 (32bit x4) n8 : 3.475 2762.4 2762.4 NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : 12.135 98.9 98.9 VFP fadds (32bit x1) ns4 : 15.527 77.3 77.3 VFP fmacs (32bit x1) ns4 : 25.934 92.5 92.5 VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : 1.725 1391.3 1391.3 NEON vadd.f32 (32bit x2) ns4 : 1.733 1385.2 1385.2 NEON vmla.f32 (32bit x2) ns4 : 3.880 1237.0 1237.0 NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : 3.474 1381.8 1381.8 NEON vadd.f32 (32bit x4) ns4 : 3.499 1371.8 1371.8 NEON vmla.f32 (32bit x4) ns4 : 3.884 2471.4 2471.4 NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : 17.274 69.5 69.5 VFP fadds (32bit x1) n1 : 15.518 77.3 77.3 VFP fmacs (32bit x1) n1 : 31.117 77.1 77.1 VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : 1.733 1384.5 1384.5 NEON vadd.f32 (32bit x2) n1 : 1.725 1391.5 1391.5 NEON vmla.f32 (32bit x2) n1 : 15.584 308.0 308.0 NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : 3.450 1391.3 1391.3 NEON vadd.f32 (32bit x4) n1 : 3.461 1386.8 1386.8 NEON vmla.f32 (32bit x4) n1 : 15.546 617.5 617.5 NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : 5.178 1390.6 1390.6 NEON vadd.f32 (32bit x4) n12 : 5.240 1374.2 1374.2 NEON vmla.f32 (32bit x4) n12 : 5.178 2780.7 2780.7 NEON vfma.f32 (32bit x4) n12 : - - - 平均 : 9.107 1091.4 1091.4 最大 : 1.721 2780.7 2780.7 * VFP/NEON (倍精度 fp) single-thread VFP fmuld (64bit x1) n8 : 19.361 62.0 62.0 VFP faddd (64bit x1) n8 : 15.531 77.3 77.3 VFP fmacd (64bit x1) n8 : 32.806 73.2 73.2 VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : 12.041 99.7 99.7 VFP faddd (64bit x1) ns4 : 15.538 77.2 77.2 VFP fmacd (64bit x1) ns4 : 25.906 92.6 92.6 VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : 18.977 63.2 63.2 VFP faddd (64bit x1) n1 : 15.487 77.5 77.5 VFP fmacd (64bit x1) n1 : 32.883 73.0 73.0 VFP vfma.f64 (64bit x1) n1 : - - - 平均 : 20.948 77.3 77.3 最大 : 12.041 99.7 99.7 * Matrix 4x4 (単精度 fp) single-thread C++ code : 2.707 661.9 661.9 NEON vmla 128bit A : 3.900 459.5 459.5 NEON vmla 64bit A : 3.839 466.8 466.8 NEON vfma 128bit A : - - - NEON vmla 128bit B : 2.339 766.1 766.1 NEON vmla 64bit B : 2.331 768.7 768.7 NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - 平均 : 3.023 624.6 624.6 最大 : 2.331 768.7 768.7 * VFP/NEON (単精度 fp) multi-thread VFP fmuls (32bit x1) n8 : 17.639 68.0 68.0 VFP fadds (32bit x1) n8 : 15.553 77.2 77.2 VFP fmacs (32bit x1) n8 : 31.038 77.3 77.3 VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : 1.723 1393.0 1393.0 NEON vadd.f32 (32bit x2) n8 : 1.730 1387.0 1387.0 NEON vmla.f32 (32bit x2) n8 : 1.945 2467.2 2467.2 NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : 3.443 1393.9 1393.9 NEON vadd.f32 (32bit x4) n8 : 3.446 1393.0 1393.0 NEON vmla.f32 (32bit x4) n8 : 3.445 2786.4 2786.4 NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : 12.122 99.0 99.0 VFP fadds (32bit x1) ns4 : 15.517 77.3 77.3 VFP fmacs (32bit x1) ns4 : 25.855 92.8 92.8 VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : 1.720 1395.2 1395.2 NEON vadd.f32 (32bit x2) ns4 : 1.730 1387.2 1387.2 NEON vmla.f32 (32bit x2) ns4 : 3.876 1238.5 1238.5 NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : 3.486 1377.1 1377.1 NEON vadd.f32 (32bit x4) ns4 : 3.477 1380.5 1380.5 NEON vmla.f32 (32bit x4) ns4 : 3.874 2478.2 2478.2 NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : 17.249 69.6 69.6 VFP fadds (32bit x1) n1 : 15.525 77.3 77.3 VFP fmacs (32bit x1) n1 : 31.007 77.4 77.4 VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : 1.730 1387.0 1387.0 NEON vadd.f32 (32bit x2) n1 : 1.772 1354.3 1354.3 NEON vmla.f32 (32bit x2) n1 : 15.479 310.1 310.1 NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : 3.487 1376.7 1376.7 NEON vadd.f32 (32bit x4) n1 : 3.445 1393.4 1393.4 NEON vmla.f32 (32bit x4) n1 : 15.478 620.2 620.2 NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : 5.223 1378.6 1378.6 NEON vadd.f32 (32bit x4) n12 : 5.201 1384.3 1384.3 NEON vmla.f32 (32bit x4) n12 : 5.157 2792.4 2792.4 NEON vfma.f32 (32bit x4) n12 : - - - 平均 : 9.079 1093.0 1093.0 最大 : 1.720 2792.4 2792.4 * VFP/NEON (倍精度 fp) multi-thread VFP fmuld (64bit x1) n8 : 19.337 62.1 62.1 VFP faddd (64bit x1) n8 : 15.470 77.6 77.6 VFP fmacd (64bit x1) n8 : 32.749 73.3 73.3 VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : 12.062 99.5 99.5 VFP faddd (64bit x1) ns4 : 15.512 77.4 77.4 VFP fmacd (64bit x1) ns4 : 25.837 92.9 92.9 VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : 18.943 63.3 63.3 VFP faddd (64bit x1) n1 : 15.493 77.5 77.5 VFP fmacd (64bit x1) n1 : 32.693 73.4 73.4 VFP vfma.f64 (64bit x1) n1 : - - - 平均 : 20.900 77.4 77.4 最大 : 12.062 99.5 99.5 * Matrix 4x4 (単精度 fp) multi-thread C++ code : 2.705 662.4 662.4 NEON vmla 128bit A : 3.825 468.6 468.6 NEON vmla 64bit A : 3.817 469.5 469.5 NEON vfma 128bit A : - - - NEON vmla 128bit B : 2.325 770.7 770.7 NEON vmla 64bit B : 2.332 768.5 768.5 NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - 平均 : 3.001 627.9 627.9 最大 : 2.325 770.7 770.7
iPod touch 4 Apple A4 Cortex-A8 0.8GHz
iPod touch 4 Apple A4 Cortex-A8 0.8GHz ARCH: ARMv7A FPU: VFPv3-D32 NEON SingleT SP max: 3.139 GFLOPS SingleT DP max: 0.112 GFLOPS MultiT SP max: - MultiT DP max: - CPU core: 1 NEON: yes FMA: no * VFP/NEON (single fp) VFP fmuls (32bit x1) n8 : 35.877 111.5 111.5 VFP fadds (32bit x1) n8 : 35.732 111.9 111.9 VFP fmacs (32bit x1) n8 : 56.042 142.8 142.8 VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : 5.108 1566.3 1566.3 NEON vadd.f32 (32bit x2) n8 : 5.111 1565.2 1567.3 NEON vmla.f32 (32bit x2) n8 : 5.769 2773.6 2778.3 NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : 10.174 1572.6 1572.6 NEON vadd.f32 (32bit x4) n8 : 10.179 1571.9 1571.9 NEON vmla.f32 (32bit x4) n8 : 10.204 3136.2 3138.9 NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : 35.712 112.0 112.0 VFP fadds (32bit x1) ns4 : 35.606 112.3 112.4 VFP fmacs (32bit x1) ns4 : 56.070 142.7 142.7 VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : 5.093 1570.7 1570.7 NEON vadd.f32 (32bit x2) ns4 : 5.097 1569.7 1569.7 NEON vmla.f32 (32bit x2) ns4 : 11.555 1384.7 1384.7 NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : 10.224 1564.9 1567.1 NEON vadd.f32 (32bit x4) ns4 : 10.190 1570.2 1570.2 NEON vmla.f32 (32bit x4) ns4 : 11.464 2791.4 2793.5 NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : 35.689 112.1 112.1 VFP fadds (32bit x1) n1 : 35.630 112.3 112.3 VFP fmacs (32bit x1) n1 : 56.402 141.8 142.6 VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : 5.097 1569.6 1569.6 NEON vadd.f32 (32bit x2) n1 : 5.103 1567.6 1569.4 NEON vmla.f32 (32bit x2) n1 : 45.964 348.1 348.6 NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : 10.200 1568.6 1571.3 NEON vadd.f32 (32bit x4) n1 : 10.194 1569.5 1569.5 NEON vmla.f32 (32bit x4) n1 : 45.873 697.6 697.6 NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : 15.279 1570.8 1570.8 NEON vadd.f32 (32bit x4) n12 : 15.282 1570.5 1571.5 NEON vmla.f32 (32bit x4) n12 : 15.362 3124.6 3132.3 NEON vfma.f32 (32bit x4) n12 : - - - Average : 21.709 1244.1 1245.1 Highest : 5.093 3136.2 3138.9 * VFP/NEON (double fp) VFP fmuld (64bit x1) n8 : 56.247 71.1 71.1 VFP faddd (64bit x1) n8 : 45.937 87.1 87.1 VFP fmacd (64bit x1) n8 : 96.916 82.5 82.5 VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : 35.769 111.8 111.8 VFP faddd (64bit x1) ns4 : 45.782 87.4 87.4 VFP fmacd (64bit x1) ns4 : 76.484 104.6 104.6 VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : 56.085 71.3 71.3 VFP faddd (64bit x1) n1 : 45.893 87.2 87.2 VFP fmacd (64bit x1) n1 : 97.130 82.4 82.4 VFP vfma.f64 (64bit x1) n1 : - - - Average : 61.805 87.3 87.3 Highest : 35.769 111.8 111.8 * Matrix 4x4 C++ code : 22.930 156.3 156.3 NEON vmla 128bit A : 6.935 516.8 516.8 NEON vmla 64bit A : 7.018 510.7 510.7 NEON vfma 128bit A : - - - NEON vmla 128bit B : 4.050 885.0 885.0 NEON vmla 64bit B : 4.038 887.5 887.5 NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - Average : 8.994 591.3 591.3 Highest : 4.038 887.5 887.5 * VFP/NEON (single fp) multi-thread VFP fmuls (32bit x1) n8 : - - - VFP fadds (32bit x1) n8 : - - - VFP fmacs (32bit x1) n8 : - - - VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : - - - NEON vadd.f32 (32bit x2) n8 : - - - NEON vmla.f32 (32bit x2) n8 : - - - NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : - - - NEON vadd.f32 (32bit x4) n8 : - - - NEON vmla.f32 (32bit x4) n8 : - - - NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : - - - VFP fadds (32bit x1) ns4 : - - - VFP fmacs (32bit x1) ns4 : - - - VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : - - - NEON vadd.f32 (32bit x2) ns4 : - - - NEON vmla.f32 (32bit x2) ns4 : - - - NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : - - - NEON vadd.f32 (32bit x4) ns4 : - - - NEON vmla.f32 (32bit x4) ns4 : - - - NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : - - - VFP fadds (32bit x1) n1 : - - - VFP fmacs (32bit x1) n1 : - - - VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : - - - NEON vadd.f32 (32bit x2) n1 : - - - NEON vmla.f32 (32bit x2) n1 : - - - NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : - - - NEON vadd.f32 (32bit x4) n1 : - - - NEON vmla.f32 (32bit x4) n1 : - - - NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : - - - NEON vadd.f32 (32bit x4) n12 : - - - NEON vmla.f32 (32bit x4) n12 : - - - NEON vfma.f32 (32bit x4) n12 : - - - Average : - - - Highest : - - - * VFP/NEON (double fp) multi-thread VFP fmuld (64bit x1) n8 : - - - VFP faddd (64bit x1) n8 : - - - VFP fmacd (64bit x1) n8 : - - - VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : - - - VFP faddd (64bit x1) ns4 : - - - VFP fmacd (64bit x1) ns4 : - - - VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : - - - VFP faddd (64bit x1) n1 : - - - VFP fmacd (64bit x1) n1 : - - - VFP vfma.f64 (64bit x1) n1 : - - - Average : - - - Highest : - - - * Matrix 4x4 multi-thread C++ code : - - - NEON vmla 128bit A : - - - NEON vmla 64bit A : - - - NEON vfma 128bit A : - - - NEON vmla 128bit B : - - - NEON vmla 64bit B : - - - NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - Average : - - - Highest : - - -
Qualcomm Scorpion (ARMv7A) VFPv3+NEON
HTC Desire Snapdragon QSD8250 Scorpion 1.0GHz single core
HTC Desire Snapdragon QSD8250 Scorpion 1.0GHz single core ARCH: ARMv7-A CPU core: 1 VFP: VFPv3-D32 NEON FMA: No NEON: Yes SingleT SP max: 7.098 GFLOPS SingleT DP max: 0.886 GFLOPS MultiT SP max: 7.058 GFLOPS MultiT DP max: 0.886 GFLOPS * VFP/NEON (single fp) VFP fmuls (32bit x1) n8 : 4.986 802.3 802.3 VFP fadds (32bit x1) n8 : 4.543 880.4 880.4 VFP fmacs (32bit x1) n8 : 4.538 1762.8 1762.8 VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : 4.491 1781.1 1781.1 NEON vadd.f32 (32bit x2) n8 : 4.547 1759.6 1759.6 NEON vmla.f32 (32bit x2) n8 : 4.489 3563.9 3563.9 NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : 4.494 3560.6 3560.6 NEON vadd.f32 (32bit x4) n8 : 4.482 3570.2 3570.2 NEON vmla.f32 (32bit x4) n8 : 4.508 7097.8 7097.8 NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : 7.856 509.1 509.1 VFP fadds (32bit x1) ns4 : 7.910 505.7 505.7 VFP fmacs (32bit x1) ns4 : 11.257 710.7 710.7 VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : 6.715 1191.4 1191.4 NEON vadd.f32 (32bit x2) ns4 : 7.881 1015.1 1015.1 NEON vmla.f32 (32bit x2) ns4 : 11.269 1419.8 1419.8 NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : 6.788 2357.1 2357.1 NEON vadd.f32 (32bit x4) ns4 : 7.939 2015.3 2015.3 NEON vmla.f32 (32bit x4) ns4 : 11.365 2815.8 2815.8 NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : 4.507 887.5 887.5 VFP fadds (32bit x1) n1 : 4.513 886.4 886.4 VFP fmacs (32bit x1) n1 : 22.541 354.9 354.9 VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : 4.593 1741.7 1741.7 NEON vadd.f32 (32bit x2) n1 : 4.514 1772.1 1772.1 NEON vmla.f32 (32bit x2) n1 : 22.632 707.0 707.0 NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : 4.511 3547.0 3547.0 NEON vadd.f32 (32bit x4) n1 : 4.511 3547.0 3547.0 NEON vmla.f32 (32bit x4) n1 : 22.718 1408.6 1408.6 NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : 6.783 3538.2 3538.2 NEON vadd.f32 (32bit x4) n12 : 6.803 3528.0 3528.0 NEON vmla.f32 (32bit x4) n12 : 6.832 7025.7 7025.7 NEON vfma.f32 (32bit x4) n12 : - - - 平均 : 7.851 2208.8 2208.8 最大 : 4.482 7097.8 7097.8 * VFP/NEON (double fp) VFP fmuld (64bit x1) n8 : 9.304 429.9 429.9 VFP faddd (64bit x1) n8 : 4.556 877.9 877.9 VFP fmacd (64bit x1) n8 : 9.088 880.3 880.3 VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : 9.003 444.3 444.3 VFP faddd (64bit x1) ns4 : 7.893 506.8 506.8 VFP fmacd (64bit x1) ns4 : 12.468 641.7 641.7 VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : 9.067 441.2 441.2 VFP faddd (64bit x1) n1 : 4.514 886.1 886.1 VFP fmacd (64bit x1) n1 : 45.343 176.4 176.4 VFP vfma.f64 (64bit x1) n1 : - - - 平均 : 12.360 587.2 587.2 最大 : 4.514 886.1 886.1 * Matrix 4x4 (single fp) C++ code : - - - NEON vmla 128bit A : - - - NEON vmla 64bit A : - - - NEON vfma 128bit A : - - - NEON vmla 128bit B : - - - NEON vmla 64bit B : - - - NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - 平均 : - - - 最大 : - - - * VFP/NEON (single fp) multi-thread VFP fmuls (32bit x1) n8 : 4.737 844.5 844.5 VFP fadds (32bit x1) n8 : 4.600 869.5 869.5 VFP fmacs (32bit x1) n8 : 4.586 1744.6 1744.6 VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : 4.540 1762.0 1762.0 NEON vadd.f32 (32bit x2) n8 : 4.515 1772.0 1772.0 NEON vmla.f32 (32bit x2) n8 : 4.522 3538.4 3538.4 NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : 4.562 3507.1 3507.1 NEON vadd.f32 (32bit x4) n8 : 4.559 3509.6 3509.6 NEON vmla.f32 (32bit x4) n8 : 4.551 7032.0 7032.0 NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : 7.901 506.3 506.3 VFP fadds (32bit x1) ns4 : 7.929 504.5 504.5 VFP fmacs (32bit x1) ns4 : 11.325 706.4 706.4 VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : 6.819 1173.2 1173.2 NEON vadd.f32 (32bit x2) ns4 : 7.850 1019.1 1019.1 NEON vmla.f32 (32bit x2) ns4 : 11.334 1411.7 1411.7 NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : 6.721 2380.6 2380.6 NEON vadd.f32 (32bit x4) ns4 : 7.843 2040.0 2040.0 NEON vmla.f32 (32bit x4) ns4 : 11.234 2848.4 2848.4 NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : 4.504 888.0 888.0 VFP fadds (32bit x1) n1 : 4.505 887.9 887.9 VFP fmacs (32bit x1) n1 : 22.605 353.9 353.9 VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : 4.526 1767.5 1767.5 NEON vadd.f32 (32bit x2) n1 : 4.525 1767.8 1767.8 NEON vmla.f32 (32bit x2) n1 : 22.508 710.9 710.9 NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : 4.561 3508.1 3508.1 NEON vadd.f32 (32bit x4) n1 : 4.521 3539.2 3539.2 NEON vmla.f32 (32bit x4) n1 : 22.565 1418.1 1418.1 NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : 6.766 3546.9 3546.9 NEON vadd.f32 (32bit x4) n12 : 6.752 3554.5 3554.5 NEON vmla.f32 (32bit x4) n12 : 6.801 7057.9 7057.9 NEON vfma.f32 (32bit x4) n12 : - - - 平均 : 7.842 2205.7 2205.7 最大 : 4.504 7057.9 7057.9 * VFP/NEON (double fp) multi-thread VFP fmuld (64bit x1) n8 : 9.354 427.6 429.8 VFP faddd (64bit x1) n8 : 4.517 885.6 885.6 VFP fmacd (64bit x1) n8 : 9.078 881.2 885.5 VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : 9.096 439.8 443.1 VFP faddd (64bit x1) ns4 : 7.955 502.8 502.9 VFP fmacd (64bit x1) ns4 : 12.461 642.0 643.3 VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : 9.172 436.1 442.5 VFP faddd (64bit x1) n1 : 4.532 882.6 882.6 VFP fmacd (64bit x1) n1 : 45.101 177.4 177.4 VFP vfma.f64 (64bit x1) n1 : - - - 平均 : 12.363 586.1 588.1 最大 : 4.517 885.6 885.6 * Matrix 4x4 (single fp) multi-thread C++ code : - - - NEON vmla 128bit A : - - - NEON vmla 64bit A : - - - NEON vfma 128bit A : - - - NEON vmla 128bit B : - - - NEON vmla 64bit B : - - - NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - 平均 : - - - 最大 : - - -
Sony Xperia IS11S Snapdragon MSM8655 Scorpion 1.0GHz single core
Sony Xperia IS11S Snapdragon MSM8655 Scorpion 1.0GHz single core ARCH: ARMv7A CPU core: 1 VFP: VFPv3-D32 NEON FMA: No NEON: Yes Result SingleT SP max: 7.681 GFLOPS SingleT DP max: 0.960 GFLOPS MultiT SP max: 7.623 GFLOPS MultiT DP max: 0.960 GFLOPS * VFP/NEON (単精度 fp) single-thread VFP fmuls (32bit x1) n8 : 1.567 765.7 765.7 VFP fadds (32bit x1) n8 : 1.323 906.8 906.8 VFP fmacs (32bit x1) n8 : 1.259 1906.6 1906.6 VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : 1.335 1797.7 1797.7 NEON vadd.f32 (32bit x2) n8 : 1.302 1843.1 1843.1 NEON vmla.f32 (32bit x2) n8 : 1.267 3788.8 3788.8 NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : 1.426 3366.9 3366.9 NEON vadd.f32 (32bit x4) n8 : 1.273 3771.0 3771.0 NEON vmla.f32 (32bit x4) n8 : 1.377 6970.7 6970.7 NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : 2.213 542.3 542.3 VFP fadds (32bit x1) ns4 : 2.236 536.6 536.6 VFP fmacs (32bit x1) ns4 : 3.242 740.3 740.3 VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : 1.891 1269.3 1269.3 NEON vadd.f32 (32bit x2) ns4 : 2.195 1093.6 1093.6 NEON vmla.f32 (32bit x2) ns4 : 3.138 1529.7 1529.7 NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : 1.876 2558.4 2558.4 NEON vadd.f32 (32bit x4) ns4 : 2.196 2185.5 2185.5 NEON vmla.f32 (32bit x4) ns4 : 3.161 3036.8 3036.8 NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : 1.313 913.9 913.9 VFP fadds (32bit x1) n1 : 1.248 961.3 961.3 VFP fmacs (32bit x1) n1 : 6.354 377.7 377.7 VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : 1.250 1919.5 1919.5 NEON vadd.f32 (32bit x2) n1 : 1.252 1916.8 1916.8 NEON vmla.f32 (32bit x2) n1 : 6.349 756.1 756.1 NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : 1.249 3842.5 3842.5 NEON vadd.f32 (32bit x4) n1 : 1.271 3775.7 3775.7 NEON vmla.f32 (32bit x4) n1 : 6.267 1531.9 1531.9 NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : 1.875 3840.1 3840.1 NEON vadd.f32 (32bit x4) n12 : 1.934 3721.9 3721.9 NEON vmla.f32 (32bit x4) n12 : 1.875 7681.0 7681.0 NEON vfma.f32 (32bit x4) n12 : - - - 平均 : 2.217 2328.3 2328.3 最大 : 1.248 7681.0 7681.0 * VFP/NEON (倍精度 fp) single-thread VFP fmuld (64bit x1) n8 : 2.735 438.8 438.8 VFP faddd (64bit x1) n8 : 1.250 959.7 959.7 VFP fmacd (64bit x1) n8 : 2.539 945.3 945.3 VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : 2.509 478.2 478.2 VFP faddd (64bit x1) ns4 : 2.246 534.2 534.2 VFP fmacd (64bit x1) ns4 : 3.437 698.2 698.2 VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : 2.519 476.4 476.4 VFP faddd (64bit x1) n1 : 1.251 958.9 958.9 VFP fmacd (64bit x1) n1 : 12.579 190.8 190.8 VFP vfma.f64 (64bit x1) n1 : - - - 平均 : 3.452 631.2 631.2 最大 : 1.250 959.7 959.7 * Matrix 4x4 (単精度 fp) single-thread C++ code : 0.866 2070.4 2070.4 NEON vmla 128bit A : 1.818 985.7 985.7 NEON vmla 64bit A : 1.978 906.2 906.2 NEON vfma 128bit A : - - - NEON vmla 128bit B : 0.696 2575.8 2575.8 NEON vmla 64bit B : 0.896 1999.3 1999.3 NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - 平均 : 1.251 1707.5 1707.5 最大 : 0.696 2575.8 2575.8 * VFP/NEON (単精度 fp) multi-thread VFP fmuls (32bit x1) n8 : 1.526 786.1 786.1 VFP fadds (32bit x1) n8 : 1.250 959.9 959.9 VFP fmacs (32bit x1) n8 : 1.264 1899.4 1899.4 VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : 1.262 1901.0 1901.0 NEON vadd.f32 (32bit x2) n8 : 1.264 1898.9 1898.9 NEON vmla.f32 (32bit x2) n8 : 1.260 3809.2 3809.2 NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : 1.251 3836.3 3836.3 NEON vadd.f32 (32bit x4) n8 : 1.251 3838.2 3838.2 NEON vmla.f32 (32bit x4) n8 : 1.261 7613.3 7613.3 NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : 2.193 547.1 547.1 VFP fadds (32bit x1) ns4 : 2.254 532.5 532.5 VFP fmacs (32bit x1) ns4 : 3.121 769.0 769.0 VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : 1.897 1264.8 1264.8 NEON vadd.f32 (32bit x2) ns4 : 2.193 1094.2 1094.2 NEON vmla.f32 (32bit x2) ns4 : 3.124 1536.5 1536.5 NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : 1.950 2461.1 2461.1 NEON vadd.f32 (32bit x4) ns4 : 2.282 2103.8 2103.8 NEON vmla.f32 (32bit x4) ns4 : 3.136 3061.6 3061.6 NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : 1.274 941.8 941.8 VFP fadds (32bit x1) n1 : 1.258 953.8 953.8 VFP fmacs (32bit x1) n1 : 6.355 377.7 377.7 VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : 1.253 1915.0 1915.0 NEON vadd.f32 (32bit x2) n1 : 1.302 1842.7 1842.7 NEON vmla.f32 (32bit x2) n1 : 6.270 765.6 765.6 NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : 1.250 3841.1 3841.1 NEON vadd.f32 (32bit x4) n1 : 1.249 3842.6 3842.6 NEON vmla.f32 (32bit x4) n1 : 7.121 1348.1 1348.1 NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : 1.873 3843.9 3843.9 NEON vadd.f32 (32bit x4) n12 : 1.900 3790.0 3790.0 NEON vmla.f32 (32bit x4) n12 : 1.889 7622.7 7622.7 NEON vfma.f32 (32bit x4) n12 : - - - 平均 : 2.224 2366.6 2366.6 最大 : 1.249 7622.7 7622.7 * VFP/NEON (倍精度 fp) multi-thread VFP fmuld (64bit x1) n8 : 2.713 442.3 442.3 VFP faddd (64bit x1) n8 : 1.250 960.4 960.4 VFP fmacd (64bit x1) n8 : 2.568 934.4 934.4 VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : 2.508 478.4 478.4 VFP faddd (64bit x1) ns4 : 2.203 544.6 544.6 VFP fmacd (64bit x1) ns4 : 3.444 696.9 696.9 VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : 2.489 482.2 482.2 VFP faddd (64bit x1) n1 : 1.286 933.1 933.1 VFP fmacd (64bit x1) n1 : 12.713 188.8 188.8 VFP vfma.f64 (64bit x1) n1 : - - - 平均 : 3.464 629.0 629.0 最大 : 1.250 960.4 960.4 * Matrix 4x4 (単精度 fp) multi-thread C++ code : 0.905 1979.4 1979.4 NEON vmla 128bit A : 1.868 959.3 959.3 NEON vmla 64bit A : 1.907 939.7 939.7 NEON vfma 128bit A : - - - NEON vmla 128bit B : 0.706 2536.6 2536.6 NEON vmla 64bit B : 0.894 2004.7 2004.7 NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - 平均 : 1.256 1683.9 1683.9 最大 : 0.706 2536.6 2536.6
NEC Medias N-06C Snapdragon MSM8255 Scorpion 1.0GHz single core
NEC Medias N-06C Snapdragon MSM8255 Scorpion 1.0GHz single core ARCH: ARMv7A CPU core: 1 VFP: VFPv3-D32 NEON FMA: No NEON: Yes Result SingleT SP max: 7.786 GFLOPS SingleT DP max: 0.977 GFLOPS MultiT SP max: 7.835 GFLOPS MultiT DP max: 0.981 GFLOPS * VFP/NEON (単精度 fp) single-thread VFP fmuls (32bit x1) n8 : 1.522 788.2 788.2 VFP fadds (32bit x1) n8 : 1.231 974.5 974.5 VFP fmacs (32bit x1) n8 : 1.303 1842.1 1842.1 VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : 1.253 1915.9 1915.9 NEON vadd.f32 (32bit x2) n8 : 1.234 1945.1 1945.1 NEON vmla.f32 (32bit x2) n8 : 1.235 3887.2 3887.2 NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : 1.281 3746.6 3746.6 NEON vadd.f32 (32bit x4) n8 : 1.237 3880.8 3880.8 NEON vmla.f32 (32bit x4) n8 : 1.233 7785.7 7785.7 NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : 2.189 548.1 548.1 VFP fadds (32bit x1) ns4 : 2.151 557.9 557.9 VFP fmacs (32bit x1) ns4 : 3.090 776.7 776.7 VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : 1.840 1304.4 1304.4 NEON vadd.f32 (32bit x2) ns4 : 2.150 1116.1 1116.1 NEON vmla.f32 (32bit x2) ns4 : 3.112 1542.6 1542.6 NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : 1.845 2602.0 2602.0 NEON vadd.f32 (32bit x4) ns4 : 2.176 2206.4 2206.4 NEON vmla.f32 (32bit x4) ns4 : 3.070 3127.4 3127.4 NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : 1.239 968.8 968.8 VFP fadds (32bit x1) n1 : 1.226 978.7 978.7 VFP fmacs (32bit x1) n1 : 6.122 392.0 392.0 VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : 1.226 1957.4 1957.4 NEON vadd.f32 (32bit x2) n1 : 1.234 1944.2 1944.2 NEON vmla.f32 (32bit x2) n1 : 6.124 783.8 783.8 NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : 1.227 3913.5 3913.5 NEON vadd.f32 (32bit x4) n1 : 1.229 3904.1 3904.1 NEON vmla.f32 (32bit x4) n1 : 6.162 1557.9 1557.9 NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : 1.837 3919.4 3919.4 NEON vadd.f32 (32bit x4) n12 : 1.841 3910.7 3910.7 NEON vmla.f32 (32bit x4) n12 : 1.887 7629.3 7629.3 NEON vfma.f32 (32bit x4) n12 : - - - 平均 : 2.150 2413.6 2413.6 最大 : 1.226 7785.7 7785.7 * VFP/NEON (倍精度 fp) single-thread VFP fmuld (64bit x1) n8 : 2.732 439.2 439.2 VFP faddd (64bit x1) n8 : 1.239 968.4 968.4 VFP fmacd (64bit x1) n8 : 2.457 976.9 976.9 VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : 2.457 488.4 488.4 VFP faddd (64bit x1) ns4 : 2.146 559.2 559.2 VFP fmacd (64bit x1) ns4 : 3.364 713.5 713.5 VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : 2.454 489.0 489.0 VFP faddd (64bit x1) n1 : 1.228 976.9 976.9 VFP fmacd (64bit x1) n1 : 12.312 194.9 194.9 VFP vfma.f64 (64bit x1) n1 : - - - 平均 : 3.377 645.2 645.2 最大 : 1.228 976.9 976.9 * Matrix 4x4 (単精度 fp) single-thread C++ code : 0.903 1984.6 1984.6 NEON vmla 128bit A : 1.807 991.4 991.4 NEON vmla 64bit A : 1.856 965.7 965.7 NEON vfma 128bit A : - - - NEON vmla 128bit B : 0.685 2614.3 2614.3 NEON vmla 64bit B : 0.886 2023.1 2023.1 NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - 平均 : 1.227 1715.8 1715.8 最大 : 0.685 2614.3 2614.3 * VFP/NEON (単精度 fp) multi-thread VFP fmuls (32bit x1) n8 : 1.476 813.2 813.2 VFP fadds (32bit x1) n8 : 1.237 969.8 969.8 VFP fmacs (32bit x1) n8 : 1.229 1952.5 1952.5 VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : 1.234 1944.7 1944.7 NEON vadd.f32 (32bit x2) n8 : 1.227 1956.1 1956.1 NEON vmla.f32 (32bit x2) n8 : 1.232 3896.5 3896.5 NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : 1.230 3902.1 3902.1 NEON vadd.f32 (32bit x4) n8 : 1.228 3908.0 3908.0 NEON vmla.f32 (32bit x4) n8 : 1.229 7809.5 7809.5 NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : 2.167 553.8 553.8 VFP fadds (32bit x1) ns4 : 2.140 560.7 560.7 VFP fmacs (32bit x1) ns4 : 3.092 776.2 776.2 VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : 1.840 1304.3 1304.3 NEON vadd.f32 (32bit x2) ns4 : 2.191 1095.4 1095.4 NEON vmla.f32 (32bit x2) ns4 : 3.102 1547.2 1547.2 NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : 1.868 2570.0 2570.0 NEON vadd.f32 (32bit x4) ns4 : 2.140 2243.3 2243.3 NEON vmla.f32 (32bit x4) ns4 : 3.078 3119.0 3119.0 NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : 1.230 975.9 975.9 VFP fadds (32bit x1) n1 : 1.228 977.4 977.4 VFP fmacs (32bit x1) n1 : 6.128 391.6 391.6 VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : 1.249 1920.9 1920.9 NEON vadd.f32 (32bit x2) n1 : 1.227 1956.4 1956.4 NEON vmla.f32 (32bit x2) n1 : 6.131 782.9 782.9 NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : 1.230 3903.5 3903.5 NEON vadd.f32 (32bit x4) n1 : 1.225 3919.1 3919.1 NEON vmla.f32 (32bit x4) n1 : 6.118 1569.1 1569.1 NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : 1.840 3913.7 3913.7 NEON vadd.f32 (32bit x4) n12 : 1.845 3902.5 3902.5 NEON vmla.f32 (32bit x4) n12 : 1.838 7834.8 7834.8 NEON vfma.f32 (32bit x4) n12 : - - - 平均 : 2.141 2432.4 2432.4 最大 : 1.225 7834.8 7834.8 * VFP/NEON (倍精度 fp) multi-thread VFP fmuld (64bit x1) n8 : 2.706 443.5 443.5 VFP faddd (64bit x1) n8 : 1.227 977.7 977.7 VFP fmacd (64bit x1) n8 : 2.447 980.7 980.7 VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : 2.482 483.4 483.4 VFP faddd (64bit x1) ns4 : 2.140 560.7 560.7 VFP fmacd (64bit x1) ns4 : 3.393 707.4 707.4 VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : 2.455 488.8 488.8 VFP faddd (64bit x1) n1 : 1.270 944.7 944.7 VFP fmacd (64bit x1) n1 : 12.243 196.0 196.0 VFP vfma.f64 (64bit x1) n1 : - - - 平均 : 3.374 642.5 642.5 最大 : 1.227 980.7 980.7 * Matrix 4x4 (単精度 fp) multi-thread C++ code : 0.913 1963.6 1963.6 NEON vmla 128bit A : 1.787 1002.7 1002.7 NEON vmla 64bit A : 1.881 952.7 952.7 NEON vfma 128bit A : - - - NEON vmla 128bit B : 0.689 2601.6 2601.6 NEON vmla 64bit B : 0.868 2063.8 2063.8 NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - 平均 : 1.228 1716.9 1716.9 最大 : 0.689 2601.6 2601.6
HTC EVO 3D Snapdragon MSM8660 Scorpion 1.2GHz dual core
HTC EVO 3D Snapdragon MSM8660 Scorpion 1.2GHz dual core ARCH: ARMv7-A CPU core: 2 VFP: VFPv3-D32 NEON FMA: No NEON: Yes SingleT SP max: 8.898 GFLOPS SingleT DP max: 1.112 GFLOPS MultiT SP max: 16.560 GFLOPS MultiT DP max: 1.266 GFLOPS * VFP/NEON (single fp) VFP fmuls (32bit x1) n8 : 3.903 1024.8 1024.8 VFP fadds (32bit x1) n8 : 3.600 1111.0 1111.0 VFP fmacs (32bit x1) n8 : 3.687 2169.7 2172.2 VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : 3.611 2215.8 2215.8 NEON vadd.f32 (32bit x2) n8 : 3.595 2225.5 2225.5 NEON vmla.f32 (32bit x2) n8 : 3.601 4443.0 4452.6 NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : 3.602 4441.4 4444.2 NEON vadd.f32 (32bit x4) n8 : 3.597 4448.7 4448.7 NEON vmla.f32 (32bit x4) n8 : 3.644 8781.5 8898.1 NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : 6.307 634.2 636.0 VFP fadds (32bit x1) ns4 : 6.321 632.8 632.8 VFP fmacs (32bit x1) ns4 : 10.145 788.6 886.5 VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : 5.521 1449.0 1483.4 NEON vadd.f32 (32bit x2) ns4 : 6.311 1267.7 1267.7 NEON vmla.f32 (32bit x2) ns4 : 8.973 1783.1 1783.1 NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : 5.384 2971.5 2971.5 NEON vadd.f32 (32bit x4) ns4 : 6.282 2547.0 2547.0 NEON vmla.f32 (32bit x4) ns4 : 9.011 3551.2 3551.2 NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : 3.612 1107.4 1107.4 VFP fadds (32bit x1) n1 : 3.590 1114.2 1114.2 VFP fmacs (32bit x1) n1 : 17.952 445.6 445.6 VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : 3.658 2187.3 2202.2 NEON vadd.f32 (32bit x2) n1 : 3.672 2178.7 2211.1 NEON vmla.f32 (32bit x2) n1 : 17.988 889.5 889.5 NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : 3.603 4440.3 4440.3 NEON vadd.f32 (32bit x4) n1 : 3.624 4414.6 4422.8 NEON vmla.f32 (32bit x4) n1 : 17.997 1778.1 1778.1 NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : 5.396 4447.4 4447.4 NEON vadd.f32 (32bit x4) n12 : 5.451 4402.5 4434.4 NEON vmla.f32 (32bit x4) n12 : 5.434 8833.0 8864.5 NEON vfma.f32 (32bit x4) n12 : - - - Average : 6.302 2757.5 2770.3 Highest : 3.590 8833.0 8898.1 * VFP/NEON (double fp) VFP fmuld (64bit x1) n8 : 7.600 526.3 526.3 VFP faddd (64bit x1) n8 : 3.626 1103.3 1103.3 VFP fmacd (64bit x1) n8 : 7.195 1111.8 1111.8 VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : 7.301 547.8 547.8 VFP faddd (64bit x1) ns4 : 6.318 633.1 633.1 VFP fmacd (64bit x1) ns4 : 9.892 808.7 808.7 VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : 7.212 554.6 554.6 VFP faddd (64bit x1) n1 : 3.640 1099.0 1099.0 VFP fmacd (64bit x1) n1 : 35.894 222.9 222.9 VFP vfma.f64 (64bit x1) n1 : - - - Average : 9.853 734.2 734.2 Highest : 3.626 1111.8 1111.8 * Matrix 4x4 (single fp) C++ code : - - - NEON vmla 128bit A : - - - NEON vmla 64bit A : - - - NEON vfma 128bit A : - - - NEON vmla 128bit B : - - - NEON vmla 64bit B : - - - NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - Average : - - - Highest : - - - * VFP/NEON (single fp) multi-thread VFP fmuls (32bit x1) n8 : 3.999 2000.4 2000.4 VFP fadds (32bit x1) n8 : 3.649 2192.4 2192.4 VFP fmacs (32bit x1) n8 : 3.591 4455.0 4455.0 VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : 3.486 4589.4 4589.4 NEON vadd.f32 (32bit x2) n8 : 6.794 2355.2 2355.2 NEON vmla.f32 (32bit x2) n8 : 6.876 4654.1 4654.1 NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : 7.137 4483.9 4483.9 NEON vadd.f32 (32bit x4) n8 : 5.931 5395.6 5395.6 NEON vmla.f32 (32bit x4) n8 : 3.865 16559.6 16559.6 NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : 12.573 636.3 636.3 VFP fadds (32bit x1) ns4 : 12.616 634.1 634.1 VFP fmacs (32bit x1) ns4 : 18.023 887.8 887.8 VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : 10.800 1481.5 1481.5 NEON vadd.f32 (32bit x2) ns4 : 12.531 1276.9 1276.9 NEON vmla.f32 (32bit x2) ns4 : 17.969 1780.9 1780.9 NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : 10.753 2976.0 2976.0 NEON vadd.f32 (32bit x4) ns4 : 12.621 2535.5 2535.5 NEON vmla.f32 (32bit x4) ns4 : 17.946 3566.2 3566.2 NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : 7.196 1111.7 1111.7 VFP fadds (32bit x1) n1 : 7.279 1099.1 1099.1 VFP fmacs (32bit x1) n1 : 29.957 534.1 534.1 VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : 3.564 4489.0 4489.0 NEON vadd.f32 (32bit x2) n1 : 4.447 3598.2 3598.2 NEON vmla.f32 (32bit x2) n1 : 35.992 889.1 889.1 NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : 7.192 4449.1 4449.1 NEON vadd.f32 (32bit x4) n1 : 4.501 7108.9 7108.9 NEON vmla.f32 (32bit x4) n1 : 17.459 3665.8 3665.8 NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : 5.232 9175.1 9175.1 NEON vadd.f32 (32bit x4) n12 : 5.411 8871.4 8871.4 NEON vmla.f32 (32bit x4) n12 : 8.509 11281.9 11281.9 NEON vfma.f32 (32bit x4) n12 : - - - Average : 10.263 3957.8 3957.8 Highest : 3.486 16559.6 16559.6 * VFP/NEON (double fp) multi-thread VFP fmuld (64bit x1) n8 : 12.994 615.7 1107.5 VFP faddd (64bit x1) n8 : 7.206 1110.2 1266.4 VFP fmacd (64bit x1) n8 : 14.380 1112.7 1112.7 VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : 14.432 554.3 555.1 VFP faddd (64bit x1) ns4 : 12.598 635.0 635.0 VFP fmacd (64bit x1) ns4 : 19.200 833.3 833.3 VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : 14.390 555.9 555.9 VFP faddd (64bit x1) n1 : 7.235 1105.7 1110.5 VFP fmacd (64bit x1) n1 : 71.746 223.0 223.2 VFP vfma.f64 (64bit x1) n1 : - - - Average : 19.354 749.5 822.2 Highest : 7.206 1112.7 1266.4 * Matrix 4x4 (single fp) multi-thread C++ code : - - - NEON vmla 128bit A : - - - NEON vmla 64bit A : - - - NEON vfma 128bit A : - - - NEON vmla 128bit B : - - - NEON vmla 64bit B : - - - NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - Average : - - - Highest : - - -
ARM Cortex-A7 (ARMv7A) VFPv4+NEON
Yoga Tablet 8 MT8125 Cortex-A7 1.2GHz Quad core
Yoga Tablet 8 MT8125 Cortex-A7 1.2GHz Quad core ARCH: ARMv7A CPU core: 4 VFP: VFPv4-D32 NEON FMA: Yes NEON: Yes SingleT SP max: 2.374 GFLOPS SingleT DP max: 1.165 GFLOPS MultiT SP max: 9.474 GFLOPS MultiT DP max: 4.653 GFLOPS * VFP/NEON (single fp) VFP fmuls (32bit x1) n8 : 3.634 1100.7 1100.7 VFP fadds (32bit x1) n8 : 3.450 1159.3 1159.3 VFP fmacs (32bit x1) n8 : 3.451 2318.1 2318.1 VFP vfma.f32 (32bit x1) n8 : 3.448 2319.9 2319.9 NEON vmul.f32 (32bit x2) n8 : 6.795 1177.3 1177.3 NEON vadd.f32 (32bit x2) n8 : 6.828 1171.7 1171.7 NEON vmla.f32 (32bit x2) n8 : 6.810 2349.6 2349.6 NEON vfma.f32 (32bit x2) n8 : 6.797 2354.1 2354.1 NEON vmul.f32 (32bit x4) n8 : 13.529 1182.7 1182.7 NEON vadd.f32 (32bit x4) n8 : 13.511 1184.2 1184.2 NEON vmla.f32 (32bit x4) n8 : 13.498 2370.7 2370.7 NEON vfma.f32 (32bit x4) n8 : 13.549 2361.8 2361.8 VFP fmuls (32bit x1) ns4 : 3.454 1158.2 1158.2 VFP fadds (32bit x1) ns4 : 3.435 1164.6 1164.6 VFP fmacs (32bit x1) ns4 : 6.717 1190.9 1190.9 VFP vfma.f32 (32bit x1) ns4 : 6.705 1193.2 1193.2 NEON vmul.f32 (32bit x2) ns4 : 6.811 1174.6 1174.6 NEON vadd.f32 (32bit x2) ns4 : 6.793 1177.7 1177.7 NEON vmla.f32 (32bit x2) ns4 : 6.809 2349.9 2349.9 NEON vfma.f32 (32bit x2) ns4 : 6.792 2355.7 2355.7 NEON vmul.f32 (32bit x4) ns4 : 13.519 1183.5 1183.5 NEON vadd.f32 (32bit x4) ns4 : 13.544 1181.3 1181.3 NEON vmla.f32 (32bit x4) ns4 : 13.511 2368.5 2368.5 NEON vfma.f32 (32bit x4) ns4 : 13.522 2366.4 2366.4 VFP fmuls (32bit x1) n1 : 3.444 1161.3 1161.3 VFP fadds (32bit x1) n1 : 3.438 1163.5 1163.5 VFP fmacs (32bit x1) n1 : 16.813 475.8 475.8 VFP vfma.f32 (32bit x1) n1 : 16.779 476.8 476.8 NEON vmul.f32 (32bit x2) n1 : 6.785 1179.2 1179.2 NEON vadd.f32 (32bit x2) n1 : 6.793 1177.6 1177.6 NEON vmla.f32 (32bit x2) n1 : 16.813 951.6 951.6 NEON vfma.f32 (32bit x2) n1 : 16.807 952.0 952.0 NEON vmul.f32 (32bit x4) n1 : 13.508 1184.4 1184.4 NEON vadd.f32 (32bit x4) n1 : 13.510 1184.3 1184.3 NEON vmla.f32 (32bit x4) n1 : 16.820 1902.5 1902.5 NEON vfma.f32 (32bit x4) n1 : 16.758 1909.6 1909.6 NEON vmul.f32 (32bit x4) n12 : 20.196 1188.4 1188.4 NEON vadd.f32 (32bit x4) n12 : 20.196 1188.3 1188.3 NEON vmla.f32 (32bit x4) n12 : 20.258 2369.4 2369.4 NEON vfma.f32 (32bit x4) n12 : 20.219 2374.0 2374.0 平均 : 10.651 1518.8 1518.8 最大 : 3.435 2374.0 2374.0 * VFP/NEON (double fp) VFP fmuld (64bit x1) n8 : 13.628 293.5 293.5 VFP faddd (64bit x1) n8 : 3.439 1163.0 1163.0 VFP fmacd (64bit x1) n8 : 13.508 592.2 592.2 VFP vfma.f64 (64bit x1) n8 : 16.895 473.5 473.5 VFP fmuld (64bit x1) ns4 : 13.434 297.8 297.8 VFP faddd (64bit x1) ns4 : 3.435 1164.6 1164.6 VFP fmacd (64bit x1) ns4 : 13.430 595.7 595.7 VFP vfma.f64 (64bit x1) ns4 : 16.823 475.5 475.5 VFP fmuld (64bit x1) n1 : 13.439 297.6 297.6 VFP faddd (64bit x1) n1 : 3.447 1160.6 1160.6 VFP fmacd (64bit x1) n1 : 26.856 297.9 297.9 VFP vfma.f64 (64bit x1) n1 : 26.860 297.8 297.8 平均 : 13.766 592.5 592.5 最大 : 3.435 1164.6 1164.6 * Matrix 4x4 (single fp) C++ code : - - - NEON vmla 128bit A : - - - NEON vmla 64bit A : - - - NEON vfma 128bit A : - - - NEON vmla 128bit B : - - - NEON vmla 64bit B : - - - NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - 平均 : - - - 最大 : - - - * VFP/NEON (single fp) multi-thread VFP fmuls (32bit x1) n8 : 3.992 4008.1 4008.1 VFP fadds (32bit x1) n8 : 3.446 4643.6 4643.6 VFP fmacs (32bit x1) n8 : 3.442 9297.5 9297.5 VFP vfma.f32 (32bit x1) n8 : 3.461 9246.8 9246.8 NEON vmul.f32 (32bit x2) n8 : 6.805 4702.7 4702.7 NEON vadd.f32 (32bit x2) n8 : 6.815 4695.7 4695.7 NEON vmla.f32 (32bit x2) n8 : 6.820 9383.7 9383.7 NEON vfma.f32 (32bit x2) n8 : 6.798 9414.8 9414.8 NEON vmul.f32 (32bit x4) n8 : 13.553 4722.1 4722.1 NEON vadd.f32 (32bit x4) n8 : 13.592 4708.7 4708.7 NEON vmla.f32 (32bit x4) n8 : 13.525 9463.7 9463.7 NEON vfma.f32 (32bit x4) n8 : 13.556 9442.2 9442.2 VFP fmuls (32bit x1) ns4 : 3.448 4640.8 4640.8 VFP fadds (32bit x1) ns4 : 3.439 4652.9 4652.9 VFP fmacs (32bit x1) ns4 : 6.739 4748.3 4748.3 VFP vfma.f32 (32bit x1) ns4 : 6.742 4746.0 4746.0 NEON vmul.f32 (32bit x2) ns4 : 6.843 4676.2 4676.2 NEON vadd.f32 (32bit x2) ns4 : 6.805 4702.3 4702.3 NEON vmla.f32 (32bit x2) ns4 : 6.818 9386.8 9386.8 NEON vfma.f32 (32bit x2) ns4 : 6.813 9394.1 9394.1 NEON vmul.f32 (32bit x4) ns4 : 13.533 4729.3 4729.3 NEON vadd.f32 (32bit x4) ns4 : 13.531 4729.9 4729.9 NEON vmla.f32 (32bit x4) ns4 : 13.604 9409.2 9409.2 NEON vfma.f32 (32bit x4) ns4 : 13.534 9457.5 9457.5 VFP fmuls (32bit x1) n1 : 3.440 4651.1 4651.1 VFP fadds (32bit x1) n1 : 3.460 4624.5 4624.5 VFP fmacs (32bit x1) n1 : 17.220 1858.3 1858.3 VFP vfma.f32 (32bit x1) n1 : 16.890 1894.6 1894.6 NEON vmul.f32 (32bit x2) n1 : 6.846 4674.0 4674.0 NEON vadd.f32 (32bit x2) n1 : 6.809 4699.4 4699.4 NEON vmla.f32 (32bit x2) n1 : 16.822 3804.6 3804.6 NEON vfma.f32 (32bit x2) n1 : 16.890 3789.1 3789.1 NEON vmul.f32 (32bit x4) n1 : 13.636 4693.6 4693.6 NEON vadd.f32 (32bit x4) n1 : 13.594 4708.0 4708.0 NEON vmla.f32 (32bit x4) n1 : 16.889 7579.1 7579.1 NEON vfma.f32 (32bit x4) n1 : 16.852 7595.4 7595.4 NEON vmul.f32 (32bit x4) n12 : 20.332 4721.6 4721.6 NEON vadd.f32 (32bit x4) n12 : 20.264 4737.4 4737.4 NEON vmla.f32 (32bit x4) n12 : 20.266 9474.1 9474.1 NEON vfma.f32 (32bit x4) n12 : 20.362 9429.2 9429.2 平均 : 10.706 6048.4 6048.4 最大 : 3.439 9474.1 9474.1 * VFP/NEON (double fp) multi-thread VFP fmuld (64bit x1) n8 : - - - VFP faddd (64bit x1) n8 : - - - VFP fmacd (64bit x1) n8 : - - - VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : - - - VFP faddd (64bit x1) ns4 : - - - VFP fmacd (64bit x1) ns4 : - - - VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : - - - VFP faddd (64bit x1) n1 : - - - VFP fmacd (64bit x1) n1 : - - - VFP vfma.f64 (64bit x1) n1 : - - - 平均 : - - - 最大 : - - - * Matrix 4x4 (single fp) multi-thread C++ code : - - - NEON vmla 128bit A : - - - NEON vmla 64bit A : - - - NEON vfma 128bit A : - - - NEON vmla 128bit B : - - - NEON vmla 64bit B : - - - NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - 平均 : - - - 最大 : - - - * VFP/NEON (double fp) multi-thread VFP fmuld (64bit x1) n8 : 14.086 1135.9 1135.9 VFP faddd (64bit x1) n8 : 3.448 4639.8 4639.8 VFP fmacd (64bit x1) n8 : 13.541 2363.1 2363.1 VFP vfma.f64 (64bit x1) n8 : 16.835 1900.8 1900.8 VFP fmuld (64bit x1) ns4 : 13.453 1189.3 1189.3 VFP faddd (64bit x1) ns4 : 3.458 4627.5 4627.5 VFP fmacd (64bit x1) ns4 : 13.455 2378.3 2378.3 VFP vfma.f64 (64bit x1) ns4 : 16.874 1896.4 1896.4 VFP fmuld (64bit x1) n1 : 13.456 1189.1 1189.1 VFP faddd (64bit x1) n1 : 3.439 4652.8 4652.8 VFP fmacd (64bit x1) n1 : 26.915 1188.9 1188.9 VFP vfma.f64 (64bit x1) n1 : 27.030 1183.9 1183.9 平均 : 13.833 2362.1 2362.1 最大 : 3.439 4652.8 4652.8 * Matrix 4x4 (single fp) multi-thread C++ code : - - - NEON vmla 128bit A : - - - NEON vmla 64bit A : - - - NEON vfma 128bit A : - - - NEON vmla 128bit B : - - - NEON vmla 64bit B : - - - NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - 平均 : - - - 最大 : - - -
Raspberry Pi 2 BCM2836 Cortex-A7 0.9GHz quad core
Raspberry Pi 2 BCM2836 Cortex-A7 0.9GHz quad core ARCH: ARMv7A FPU: VFPv4-D32 NEON SingleT SP max: 1.791 GFLOPS SingleT DP max: 0.877 GFLOPS MultiT SP max: 7.087 GFLOPS MultiT DP max: 3.472 GFLOPS CPU core: 4 NEON: yes FMA: yes * VFP/NEON (single fp) VFP fmuls (32bit x1) n8 : 1.368 877.0 877.0 VFP fadds (32bit x1) n8 : 1.368 877.1 877.1 VFP fmacs (32bit x1) n8 : 1.368 1754.0 1754.0 VFP vfma.f32 (32bit x1) n8 : 1.368 1754.1 1754.1 NEON vmul.f32 (32bit x2) n8 : 2.703 887.9 887.9 NEON vadd.f32 (32bit x2) n8 : 2.703 887.9 887.9 NEON vmla.f32 (32bit x2) n8 : 2.703 1775.8 1775.8 NEON vfma.f32 (32bit x2) n8 : 2.703 1775.8 1775.8 NEON vmul.f32 (32bit x4) n8 : 5.373 893.4 893.4 NEON vadd.f32 (32bit x4) n8 : 5.373 893.4 893.4 NEON vmla.f32 (32bit x4) n8 : 5.373 1786.8 1786.8 NEON vfma.f32 (32bit x4) n8 : 5.373 1786.8 1786.8 VFP fmuls (32bit x1) ns4 : 1.368 877.0 877.0 VFP fadds (32bit x1) ns4 : 1.368 877.1 877.1 VFP fmacs (32bit x1) ns4 : 2.670 899.0 899.0 VFP vfma.f32 (32bit x1) ns4 : 2.670 899.0 899.0 NEON vmul.f32 (32bit x2) ns4 : 2.703 887.9 887.9 NEON vadd.f32 (32bit x2) ns4 : 2.703 887.9 887.9 NEON vmla.f32 (32bit x2) ns4 : 2.703 1775.8 1775.8 NEON vfma.f32 (32bit x2) ns4 : 2.703 1775.8 1775.8 NEON vmul.f32 (32bit x4) ns4 : 5.373 893.4 893.4 NEON vadd.f32 (32bit x4) ns4 : 5.373 893.4 893.4 NEON vmla.f32 (32bit x4) ns4 : 5.373 1786.8 1786.8 NEON vfma.f32 (32bit x4) ns4 : 5.373 1786.8 1786.8 VFP fmuls (32bit x1) n1 : 1.368 877.1 877.1 VFP fadds (32bit x1) n1 : 1.368 877.1 877.1 VFP fmacs (32bit x1) n1 : 6.674 359.6 359.6 VFP vfma.f32 (32bit x1) n1 : 6.674 359.6 359.6 NEON vmul.f32 (32bit x2) n1 : 2.703 887.9 887.9 NEON vadd.f32 (32bit x2) n1 : 2.703 887.9 887.9 NEON vmla.f32 (32bit x2) n1 : 6.674 719.2 719.2 NEON vfma.f32 (32bit x2) n1 : 6.674 719.2 719.2 NEON vmul.f32 (32bit x4) n1 : 5.373 893.4 893.4 NEON vadd.f32 (32bit x4) n1 : 5.373 893.4 893.4 NEON vmla.f32 (32bit x4) n1 : 6.674 1438.4 1438.4 NEON vfma.f32 (32bit x4) n1 : 6.674 1438.4 1438.4 NEON vmul.f32 (32bit x4) n12 : 8.042 895.2 895.2 NEON vadd.f32 (32bit x4) n12 : 8.042 895.2 895.2 NEON vmla.f32 (32bit x4) n12 : 8.042 1790.5 1790.5 NEON vfma.f32 (32bit x4) n12 : 8.042 1790.5 1790.5 Average : 4.231 1147.8 1147.8 Highest : 1.368 1790.5 1790.5 * VFP/NEON (double fp) VFP fmuld (64bit x1) n8 : 5.340 224.7 224.7 VFP faddd (64bit x1) n8 : 1.368 877.0 877.0 VFP fmacd (64bit x1) n8 : 5.339 449.5 449.5 VFP vfma.f64 (64bit x1) n8 : 6.674 359.6 359.6 VFP fmuld (64bit x1) ns4 : 5.339 224.7 224.7 VFP faddd (64bit x1) ns4 : 1.368 877.1 877.1 VFP fmacd (64bit x1) ns4 : 5.339 449.5 449.5 VFP vfma.f64 (64bit x1) ns4 : 6.674 359.6 359.6 VFP fmuld (64bit x1) n1 : 5.339 224.7 224.7 VFP faddd (64bit x1) n1 : 1.368 877.0 877.0 VFP fmacd (64bit x1) n1 : 10.679 224.7 224.7 VFP vfma.f64 (64bit x1) n1 : 10.679 224.7 224.7 Average : 5.459 447.8 447.8 Highest : 1.368 877.1 877.1 * Matrix 4x4 C++ code : 1.659 1080.3 1080.3 NEON vmla 128bit A : 2.049 874.6 874.6 NEON vmla 64bit A : 2.049 874.5 874.5 NEON vfma 128bit A : 3.330 538.1 538.1 NEON vmla 128bit B : 1.672 1071.5 1071.5 NEON vmla 64bit B : 1.657 1081.2 1081.2 NEON vfma 128bit B : 2.227 804.7 804.7 NEON vfma 128bit C : 3.330 538.1 538.1 Average : 2.247 857.8 857.8 Highest : 1.657 1081.2 1081.2 * VFP/NEON (single fp) multi-thread VFP fmuls (32bit x1) n8 : 1.383 3471.4 3471.4 VFP fadds (32bit x1) n8 : 1.383 3471.2 3471.2 VFP fmacs (32bit x1) n8 : 1.383 6942.1 6942.1 VFP vfma.f32 (32bit x1) n8 : 1.383 6943.0 6943.0 NEON vmul.f32 (32bit x2) n8 : 2.732 3514.1 3514.1 NEON vadd.f32 (32bit x2) n8 : 2.732 3514.2 3514.2 NEON vmla.f32 (32bit x2) n8 : 2.732 7027.8 7027.8 NEON vfma.f32 (32bit x2) n8 : 2.732 7028.8 7028.8 NEON vmul.f32 (32bit x4) n8 : 5.430 3535.8 3535.8 NEON vadd.f32 (32bit x4) n8 : 5.430 3536.1 3536.1 NEON vmla.f32 (32bit x4) n8 : 5.430 7072.1 7072.1 NEON vfma.f32 (32bit x4) n8 : 5.430 7072.3 7072.3 VFP fmuls (32bit x1) ns4 : 1.383 3471.2 3471.2 VFP fadds (32bit x1) ns4 : 1.383 3471.1 3471.1 VFP fmacs (32bit x1) ns4 : 2.698 3558.0 3558.0 VFP vfma.f32 (32bit x1) ns4 : 2.698 3558.1 3558.1 NEON vmul.f32 (32bit x2) ns4 : 2.732 3514.1 3514.1 NEON vadd.f32 (32bit x2) ns4 : 2.731 3514.6 3514.6 NEON vmla.f32 (32bit x2) ns4 : 2.732 7028.2 7028.2 NEON vfma.f32 (32bit x2) ns4 : 2.732 7028.4 7028.4 NEON vmul.f32 (32bit x4) ns4 : 5.430 3536.1 3536.1 NEON vadd.f32 (32bit x4) ns4 : 5.430 3536.1 3536.1 NEON vmla.f32 (32bit x4) ns4 : 5.430 7072.2 7072.2 NEON vfma.f32 (32bit x4) ns4 : 5.430 7072.1 7072.1 VFP fmuls (32bit x1) n1 : 1.383 3471.7 3471.7 VFP fadds (32bit x1) n1 : 1.383 3471.1 3471.1 VFP fmacs (32bit x1) n1 : 6.745 1423.2 1423.2 VFP vfma.f32 (32bit x1) n1 : 6.745 1423.3 1423.3 NEON vmul.f32 (32bit x2) n1 : 2.732 3514.2 3514.2 NEON vadd.f32 (32bit x2) n1 : 2.732 3514.0 3514.0 NEON vmla.f32 (32bit x2) n1 : 6.745 2846.5 2846.5 NEON vfma.f32 (32bit x2) n1 : 6.745 2846.6 2846.6 NEON vmul.f32 (32bit x4) n1 : 5.430 3536.0 3536.0 NEON vadd.f32 (32bit x4) n1 : 5.430 3535.8 3535.8 NEON vmla.f32 (32bit x4) n1 : 6.745 5692.9 5692.9 NEON vfma.f32 (32bit x4) n1 : 6.745 5693.1 5693.1 NEON vmul.f32 (32bit x4) n12 : 8.128 3543.3 3543.3 NEON vadd.f32 (32bit x4) n12 : 8.128 3543.4 3543.4 NEON vmla.f32 (32bit x4) n12 : 8.128 7086.7 7086.7 NEON vfma.f32 (32bit x4) n12 : 8.128 7086.4 7086.4 Average : 4.276 4542.9 4542.9 Highest : 1.383 7086.7 7086.7 * VFP/NEON (double fp) multi-thread VFP fmuld (64bit x1) n8 : 5.396 889.5 889.5 VFP faddd (64bit x1) n8 : 1.383 3471.7 3471.7 VFP fmacd (64bit x1) n8 : 5.396 1779.1 1779.1 VFP vfma.f64 (64bit x1) n8 : 6.746 1423.2 1423.2 VFP fmuld (64bit x1) ns4 : 5.396 889.6 889.6 VFP faddd (64bit x1) ns4 : 1.383 3471.5 3471.5 VFP fmacd (64bit x1) ns4 : 5.396 1779.1 1779.1 VFP vfma.f64 (64bit x1) ns4 : 6.745 1423.3 1423.3 VFP fmuld (64bit x1) n1 : 5.396 889.6 889.6 VFP faddd (64bit x1) n1 : 1.383 3471.0 3471.0 VFP fmacd (64bit x1) n1 : 10.792 889.6 889.6 VFP vfma.f64 (64bit x1) n1 : 10.792 889.6 889.6 Average : 5.517 1772.2 1772.2 Highest : 1.383 3471.7 3471.7 * Matrix 4x4 multi-thread C++ code : 1.638 4376.1 4376.1 NEON vmla 128bit A : 2.071 3461.3 3461.3 NEON vmla 64bit A : 2.071 3460.9 3460.9 NEON vfma 128bit A : 3.367 2129.1 2129.1 NEON vmla 128bit B : 1.675 4279.1 4279.1 NEON vmla 64bit B : 1.675 4279.1 4279.1 NEON vfma 128bit B : 2.251 3184.4 3184.4 NEON vfma 128bit C : 3.366 2129.3 2129.3 Average : 2.264 3412.4 3412.4 Highest : 1.638 4376.1 4376.1
ARM Cortex-A9 (ARMv7A) VFPv3 (+NEON)
OptimusPad L-06C Tegra2 Cortex-A9 1.0GHz dual core VFPv3-D16
ARCH: ARMv7A CPU core: 2 VFP: VFPv3-D16 FMA: No NEON: No Result SingleT SP max: 1.983 GFLOPS SingleT DP max: 0.997 GFLOPS MultiT SP max: 3.853 GFLOPS MultiT DP max: 1.965 GFLOPS * VFP/NEON (単精度 fp) single-thread VFP fmuls (32bit x1) n8 : 1.285 933.9 933.9 VFP fadds (32bit x1) n8 : 1.242 966.1 966.1 VFP fmacs (32bit x1) n8 : 1.210 1983.0 1983.0 VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : - - - NEON vadd.f32 (32bit x2) n8 : - - - NEON vmla.f32 (32bit x2) n8 : - - - NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : - - - NEON vadd.f32 (32bit x4) n8 : - - - NEON vmla.f32 (32bit x4) n8 : - - - NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : 1.512 793.6 793.6 VFP fadds (32bit x1) ns4 : 1.227 977.7 977.7 VFP fmacs (32bit x1) ns4 : 2.447 980.9 980.9 VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : - - - NEON vadd.f32 (32bit x2) ns4 : - - - NEON vmla.f32 (32bit x2) ns4 : - - - NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : - - - NEON vadd.f32 (32bit x4) ns4 : - - - NEON vmla.f32 (32bit x4) ns4 : - - - NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : 7.263 165.2 165.2 VFP fadds (32bit x1) n1 : 6.029 199.0 199.0 VFP fmacs (32bit x1) n1 : 6.028 398.2 398.2 VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : - - - NEON vadd.f32 (32bit x2) n1 : - - - NEON vmla.f32 (32bit x2) n1 : - - - NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : - - - NEON vadd.f32 (32bit x4) n1 : - - - NEON vmla.f32 (32bit x4) n1 : - - - NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : - - - NEON vadd.f32 (32bit x4) n12 : - - - NEON vmla.f32 (32bit x4) n12 : - - - NEON vfma.f32 (32bit x4) n12 : - - - 平均 : 3.138 822.0 822.0 最大 : 1.210 1983.0 1983.0 * VFP/NEON (倍精度 fp) single-thread VFP fmuld (64bit x1) n8 : 2.458 488.2 488.2 VFP faddd (64bit x1) n8 : 1.207 994.2 994.2 VFP fmacd (64bit x1) n8 : 2.407 996.9 996.9 VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : 2.409 498.1 498.1 VFP faddd (64bit x1) ns4 : 1.206 995.2 995.2 VFP fmacd (64bit x1) ns4 : 2.710 885.6 885.6 VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : 8.442 142.1 142.1 VFP faddd (64bit x1) n1 : 6.045 198.5 198.5 VFP fmacd (64bit x1) n1 : 7.239 331.6 331.6 VFP vfma.f64 (64bit x1) n1 : - - - 平均 : 3.791 614.5 614.5 最大 : 1.206 996.9 996.9 * Matrix 4x4 (単精度 fp) single-thread C++ code : 4.602 389.4 389.4 NEON vmla 128bit A : - - - NEON vmla 64bit A : - - - NEON vfma 128bit A : - - - NEON vmla 128bit B : - - - NEON vmla 64bit B : - - - NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - 平均 : 4.602 389.4 389.4 最大 : 4.602 389.4 389.4 * VFP/NEON (単精度 fp) multi-thread VFP fmuls (32bit x1) n8 : 1.325 1811.6 1811.6 VFP fadds (32bit x1) n8 : 1.232 1948.4 1948.4 VFP fmacs (32bit x1) n8 : 1.246 3853.2 3853.2 VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : - - - NEON vadd.f32 (32bit x2) n8 : - - - NEON vmla.f32 (32bit x2) n8 : - - - NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : - - - NEON vadd.f32 (32bit x4) n8 : - - - NEON vmla.f32 (32bit x4) n8 : - - - NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : 1.547 1551.5 1551.5 VFP fadds (32bit x1) ns4 : 1.228 1955.0 1955.0 VFP fmacs (32bit x1) ns4 : 2.448 1960.5 1960.5 VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : - - - NEON vadd.f32 (32bit x2) ns4 : - - - NEON vmla.f32 (32bit x2) ns4 : - - - NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : - - - NEON vadd.f32 (32bit x4) ns4 : - - - NEON vmla.f32 (32bit x4) ns4 : - - - NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : 7.343 326.8 326.8 VFP fadds (32bit x1) n1 : 6.122 392.0 392.0 VFP fmacs (32bit x1) n1 : 6.159 779.3 779.3 VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : - - - NEON vadd.f32 (32bit x2) n1 : - - - NEON vmla.f32 (32bit x2) n1 : - - - NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : - - - NEON vadd.f32 (32bit x4) n1 : - - - NEON vmla.f32 (32bit x4) n1 : - - - NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : - - - NEON vadd.f32 (32bit x4) n12 : - - - NEON vmla.f32 (32bit x4) n12 : - - - NEON vfma.f32 (32bit x4) n12 : - - - 平均 : 3.183 1619.8 1619.8 最大 : 1.228 3853.2 3853.2 * VFP/NEON (倍精度 fp) multi-thread VFP fmuld (64bit x1) n8 : 2.583 929.3 929.3 VFP faddd (64bit x1) n8 : 1.222 1964.0 1964.0 VFP fmacd (64bit x1) n8 : 2.457 1953.9 1953.9 VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : 2.449 980.2 980.2 VFP faddd (64bit x1) ns4 : 1.221 1965.1 1965.1 VFP fmacd (64bit x1) ns4 : 2.772 1731.9 1731.9 VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : 8.600 279.1 279.1 VFP faddd (64bit x1) n1 : 6.143 390.7 390.7 VFP fmacd (64bit x1) n1 : 7.366 651.6 651.6 VFP vfma.f64 (64bit x1) n1 : - - - 平均 : 3.868 1205.1 1205.1 最大 : 1.221 1965.1 1965.1 * Matrix 4x4 (単精度 fp) multi-thread C++ code : 4.679 765.9 765.9 NEON vmla 128bit A : - - - NEON vmla 64bit A : - - - NEON vfma 128bit A : - - - NEON vmla 128bit B : - - - NEON vmla 64bit B : - - - NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - 平均 : 4.679 765.9 765.9 最大 : 4.679 765.9 765.9
NEC LifeTouchNote Tegra2 Cortex-A9 1.0GHz dual core VFPv3-D16
ARCH: ARMv7A CPU core: 2 VFP: VFPv3-D16 FMA: No NEON: No Result SingleT SP max: 1.993 GFLOPS SingleT DP max: 0.999 GFLOPS MultiT SP max: 3.908 GFLOPS MultiT DP max: 1.962 GFLOPS * VFP/NEON (単精度 fp) single-thread VFP fmuls (32bit x1) n8 : 1.215 987.4 987.4 VFP fadds (32bit x1) n8 : 1.204 996.6 996.6 VFP fmacs (32bit x1) n8 : 1.204 1993.2 1993.2 VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : - - - NEON vadd.f32 (32bit x2) n8 : - - - NEON vmla.f32 (32bit x2) n8 : - - - NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : - - - NEON vadd.f32 (32bit x4) n8 : - - - NEON vmla.f32 (32bit x4) n8 : - - - NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : 1.502 799.0 799.0 VFP fadds (32bit x1) ns4 : 1.210 991.4 991.4 VFP fmacs (32bit x1) ns4 : 2.403 998.9 998.9 VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : - - - NEON vadd.f32 (32bit x2) ns4 : - - - NEON vmla.f32 (32bit x2) ns4 : - - - NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : - - - NEON vadd.f32 (32bit x4) ns4 : - - - NEON vmla.f32 (32bit x4) ns4 : - - - NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : 7.208 166.5 166.5 VFP fadds (32bit x1) n1 : 6.011 199.6 199.6 VFP fmacs (32bit x1) n1 : 6.016 398.9 398.9 VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : - - - NEON vadd.f32 (32bit x2) n1 : - - - NEON vmla.f32 (32bit x2) n1 : - - - NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : - - - NEON vadd.f32 (32bit x4) n1 : - - - NEON vmla.f32 (32bit x4) n1 : - - - NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : - - - NEON vadd.f32 (32bit x4) n12 : - - - NEON vmla.f32 (32bit x4) n12 : - - - NEON vfma.f32 (32bit x4) n12 : - - - 平均 : 3.108 836.8 836.8 最大 : 1.204 1993.2 1993.2 * VFP/NEON (倍精度 fp) single-thread VFP fmuld (64bit x1) n8 : 2.417 496.4 496.4 VFP faddd (64bit x1) n8 : 1.201 998.9 998.9 VFP fmacd (64bit x1) n8 : 2.403 998.7 998.7 VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : 2.404 499.3 499.3 VFP faddd (64bit x1) ns4 : 1.201 998.9 998.9 VFP fmacd (64bit x1) ns4 : 2.705 887.4 887.4 VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : 8.422 142.5 142.5 VFP faddd (64bit x1) n1 : 6.009 199.7 199.7 VFP fmacd (64bit x1) n1 : 7.211 332.8 332.8 VFP vfma.f64 (64bit x1) n1 : - - - 平均 : 3.775 617.2 617.2 最大 : 1.201 998.9 998.9 * Matrix 4x4 (単精度 fp) single-thread C++ code : 4.773 375.5 375.5 NEON vmla 128bit A : - - - NEON vmla 64bit A : - - - NEON vfma 128bit A : - - - NEON vmla 128bit B : - - - NEON vmla 64bit B : - - - NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - 平均 : 4.773 375.5 375.5 最大 : 4.773 375.5 375.5 * VFP/NEON (単精度 fp) multi-thread VFP fmuls (32bit x1) n8 : 1.416 1695.3 1695.3 VFP fadds (32bit x1) n8 : 1.230 1951.9 1951.9 VFP fmacs (32bit x1) n8 : 1.228 3908.3 3908.3 VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : - - - NEON vadd.f32 (32bit x2) n8 : - - - NEON vmla.f32 (32bit x2) n8 : - - - NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : - - - NEON vadd.f32 (32bit x4) n8 : - - - NEON vmla.f32 (32bit x4) n8 : - - - NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : 1.551 1547.7 1547.7 VFP fadds (32bit x1) ns4 : 1.226 1958.0 1958.0 VFP fmacs (32bit x1) ns4 : 2.450 1959.4 1959.4 VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : - - - NEON vadd.f32 (32bit x2) ns4 : - - - NEON vmla.f32 (32bit x2) ns4 : - - - NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : - - - NEON vadd.f32 (32bit x4) ns4 : - - - NEON vmla.f32 (32bit x4) ns4 : - - - NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : 7.364 325.9 325.9 VFP fadds (32bit x1) n1 : 6.269 382.9 382.9 VFP fmacs (32bit x1) n1 : 6.119 784.4 784.4 VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : - - - NEON vadd.f32 (32bit x2) n1 : - - - NEON vmla.f32 (32bit x2) n1 : - - - NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : - - - NEON vadd.f32 (32bit x4) n1 : - - - NEON vmla.f32 (32bit x4) n1 : - - - NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : - - - NEON vadd.f32 (32bit x4) n12 : - - - NEON vmla.f32 (32bit x4) n12 : - - - NEON vfma.f32 (32bit x4) n12 : - - - 平均 : 3.206 1612.6 1612.6 最大 : 1.226 3908.3 3908.3 * VFP/NEON (倍精度 fp) multi-thread VFP fmuld (64bit x1) n8 : 2.550 941.0 941.0 VFP faddd (64bit x1) n8 : 1.223 1961.6 1961.6 VFP fmacd (64bit x1) n8 : 2.465 1947.0 1947.0 VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : 2.445 981.5 981.5 VFP faddd (64bit x1) ns4 : 1.226 1956.9 1956.9 VFP fmacd (64bit x1) ns4 : 2.773 1730.7 1730.7 VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : 8.673 276.7 276.7 VFP faddd (64bit x1) n1 : 6.125 391.9 391.9 VFP fmacd (64bit x1) n1 : 7.400 648.7 648.7 VFP vfma.f64 (64bit x1) n1 : - - - 平均 : 3.876 1204.0 1204.0 最大 : 1.223 1961.6 1961.6 * Matrix 4x4 (単精度 fp) multi-thread C++ code : 4.849 739.1 739.1 NEON vmla 128bit A : - - - NEON vmla 64bit A : - - - NEON vfma 128bit A : - - - NEON vmla 128bit B : - - - NEON vmla 64bit B : - - - NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - 平均 : 4.849 739.1 739.1 最大 : 4.849 739.1 739.1
iPad 2 Apple A5 Cortex-A9 1.0GHz dual core
iPad 2 Apple A5 Cortex-A9 1.0GHz dual core ARCH: ARMv7A VFP: VFPv3-D32 NEON SingleT SP max: 3.969 GFLOPS SingleT DP max: 0.989 GFLOPS MultiT SP max: 7.830 GFLOPS MultiT DP max: 1.961 GFLOPS CPU core: 2 FMA: No NEON: Yes * VFP/NEON (single fp) VFP fmuls (32bit x1) n8 : 4.164 960.7 963.5 VFP fadds (32bit x1) n8 : 4.085 979.2 980.1 VFP fmacs (32bit x1) n8 : 4.053 1974.0 1976.4 VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : 4.128 1937.9 1937.9 NEON vadd.f32 (32bit x2) n8 : 4.149 1928.2 1928.2 NEON vmla.f32 (32bit x2) n8 : 4.546 3519.4 3519.4 NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : 8.098 1975.8 1978.8 NEON vadd.f32 (32bit x4) n8 : 8.103 1974.6 1976.6 NEON vmla.f32 (32bit x4) n8 : 8.063 3968.8 3968.8 NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : 5.058 790.8 791.0 VFP fadds (32bit x1) ns4 : 4.046 988.6 988.6 VFP fmacs (32bit x1) ns4 : 8.086 989.4 989.4 VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : 4.139 1932.9 1932.9 NEON vadd.f32 (32bit x2) ns4 : 4.155 1925.2 1928.3 NEON vmla.f32 (32bit x2) ns4 : 9.105 1757.2 1758.3 NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : 8.088 1978.3 1978.3 NEON vadd.f32 (32bit x4) ns4 : 8.105 1974.0 1975.2 NEON vmla.f32 (32bit x4) ns4 : 9.106 3514.1 3515.9 NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : 24.290 164.7 164.8 VFP fadds (32bit x1) n1 : 20.236 197.7 198.2 VFP fmacs (32bit x1) n1 : 20.222 395.6 395.6 VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : 4.147 1929.1 1929.1 NEON vadd.f32 (32bit x2) n1 : 4.148 1928.8 1929.9 NEON vmla.f32 (32bit x2) n1 : 36.436 439.1 439.7 NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : 8.091 1977.5 1977.5 NEON vadd.f32 (32bit x4) n1 : 8.099 1975.5 1975.5 NEON vmla.f32 (32bit x4) n1 : 36.403 879.1 879.4 NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : 12.146 1976.0 1984.3 NEON vadd.f32 (32bit x4) n12 : 12.146 1975.9 1977.0 NEON vmla.f32 (32bit x4) n12 : 12.131 3956.9 3956.9 NEON vfma.f32 (32bit x4) n12 : - - - 平均 : 10.259 1762.2 1763.2 最大 : 4.046 3968.8 3968.8 * VFP/NEON (double fp) VFP fmuld (64bit x1) n8 : 8.256 484.5 484.5 VFP faddd (64bit x1) n8 : 4.047 988.3 988.3 VFP fmacd (64bit x1) n8 : 8.090 988.8 988.8 VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : 8.105 493.6 493.6 VFP faddd (64bit x1) ns4 : 4.043 989.4 989.4 VFP fmacd (64bit x1) ns4 : 9.107 878.4 878.4 VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : 28.323 141.2 141.2 VFP faddd (64bit x1) n1 : 20.229 197.7 197.7 VFP fmacd (64bit x1) n1 : 24.276 329.5 329.5 VFP vfma.f64 (64bit x1) n1 : - - - 平均 : 12.720 610.2 610.2 最大 : 4.043 989.4 989.4 * Matrix 4x4 C++ code : - - - NEON vmla 128bit A : - - - NEON vmla 64bit A : - - - NEON vfma 128bit A : - - - NEON vmla 128bit B : - - - NEON vmla 64bit B : - - - NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - 平均 : - - - 最大 : - - - * VFP/NEON (single fp) multi-thread VFP fmuls (32bit x1) n8 : 4.414 1812.3 1815.3 VFP fadds (32bit x1) n8 : 4.209 1900.7 1927.6 VFP fmacs (32bit x1) n8 : 4.168 3839.2 3911.7 VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : 4.189 3819.2 3820.9 NEON vadd.f32 (32bit x2) n8 : 4.184 3824.3 3824.3 NEON vmla.f32 (32bit x2) n8 : 4.631 6910.0 6910.0 NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : 8.163 3920.0 3922.9 NEON vadd.f32 (32bit x4) n8 : 8.184 3910.0 3911.4 NEON vmla.f32 (32bit x4) n8 : 8.174 7829.7 7829.7 NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : 5.122 1562.0 1566.7 VFP fadds (32bit x1) ns4 : 4.086 1958.0 1958.6 VFP fmacs (32bit x1) ns4 : 8.192 1953.1 1953.1 VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : 4.188 3820.1 3820.1 NEON vadd.f32 (32bit x2) ns4 : 4.212 3798.8 3824.1 NEON vmla.f32 (32bit x2) ns4 : 9.207 3475.7 3475.7 NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : 8.168 3917.8 3918.7 NEON vadd.f32 (32bit x4) ns4 : 8.165 3919.0 3920.4 NEON vmla.f32 (32bit x4) ns4 : 9.219 6942.2 6942.2 NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : 24.530 326.1 326.1 VFP fadds (32bit x1) n1 : 20.468 390.9 391.3 VFP fmacs (32bit x1) n1 : 20.454 782.3 782.3 VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : 4.188 3820.1 3823.0 NEON vadd.f32 (32bit x2) n1 : 4.215 3796.4 3796.4 NEON vmla.f32 (32bit x2) n1 : 36.766 870.4 870.4 NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : 8.220 3892.9 3904.9 NEON vadd.f32 (32bit x4) n1 : 8.194 3905.2 3913.4 NEON vmla.f32 (32bit x4) n1 : 36.849 1736.8 1738.1 NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : 12.279 3909.1 3909.1 NEON vadd.f32 (32bit x4) n12 : 12.258 3915.8 3920.3 NEON vmla.f32 (32bit x4) n12 : 12.270 7824.1 7824.1 NEON vfma.f32 (32bit x4) n12 : - - - 平均 : 10.385 3476.1 3481.8 最大 : 4.086 7829.7 7829.7 * VFP/NEON (double fp) multi-thread VFP fmuld (64bit x1) n8 : 8.540 936.8 936.8 VFP faddd (64bit x1) n8 : 4.096 1953.2 1953.2 VFP fmacd (64bit x1) n8 : 8.159 1961.0 1961.0 VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : 8.189 976.9 976.9 VFP faddd (64bit x1) ns4 : 4.084 1958.7 1958.7 VFP fmacd (64bit x1) ns4 : 9.190 1741.0 1741.0 VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : 28.690 278.8 278.8 VFP faddd (64bit x1) n1 : 20.443 391.3 391.3 VFP fmacd (64bit x1) n1 : 24.566 651.3 651.3 VFP vfma.f64 (64bit x1) n1 : - - - 平均 : 12.884 1205.4 1205.4 最大 : 4.084 1961.0 1961.0 * Matrix 4x4 multi thread C++ code : - - - NEON vmla 128bit A : - - - NEON vmla 64bit A : - - - NEON vfma 128bit A : - - - NEON vmla 128bit B : - - - NEON vmla 64bit B : - - - NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - 平均 : - - - 最大 : - - -
iPad mini Apple A5 Cortex-A9 1.0GHz dual core
iPad mini Apple A5 Cortex-A9 1.0GHz dual core ARCH: ARMv7A VFP: VFPv3-D32 NEON SingleT SP max: 3.846 GFLOPS SingleT DP max: 0.983 GFLOPS MultiT SP max: 7.800 GFLOPS MultiT DP max: 1.941 GFLOPS CPU core: 2 FMA: No NEON: Yes * VFP/NEON (single fp) VFP fmuls (32bit x1) n8 : 4.821 829.7 829.7 VFP fadds (32bit x1) n8 : 4.367 915.9 915.9 VFP fmacs (32bit x1) n8 : 4.172 1917.6 1917.6 VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : 4.295 1862.8 1862.8 NEON vadd.f32 (32bit x2) n8 : 4.322 1851.0 1851.0 NEON vmla.f32 (32bit x2) n8 : 4.705 3401.0 3401.0 NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : 8.758 1827.0 1827.0 NEON vadd.f32 (32bit x4) n8 : 8.674 1844.7 1844.7 NEON vmla.f32 (32bit x4) n8 : 8.748 3657.9 3657.9 NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : 5.478 730.2 730.2 VFP fadds (32bit x1) ns4 : 4.436 901.8 901.8 VFP fmacs (32bit x1) ns4 : 8.639 926.0 926.0 VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : 4.478 1786.5 1786.5 NEON vadd.f32 (32bit x2) ns4 : 4.454 1796.0 1796.0 NEON vmla.f32 (32bit x2) ns4 : 9.841 1625.9 1625.9 NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : 8.693 1840.5 1840.5 NEON vadd.f32 (32bit x4) ns4 : 8.655 1848.7 1848.7 NEON vmla.f32 (32bit x4) ns4 : 9.764 3277.4 3277.4 NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : 25.055 159.7 159.7 VFP fadds (32bit x1) n1 : 20.813 192.2 192.2 VFP fmacs (32bit x1) n1 : 20.766 385.3 385.3 VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : 4.292 1863.9 1863.9 NEON vadd.f32 (32bit x2) n1 : 4.244 1885.1 1885.1 NEON vmla.f32 (32bit x2) n1 : 37.287 429.1 429.1 NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : 8.283 1931.6 1931.6 NEON vadd.f32 (32bit x4) n1 : 8.369 1911.9 1911.9 NEON vmla.f32 (32bit x4) n1 : 37.123 862.0 862.0 NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : 12.441 1929.1 1929.1 NEON vadd.f32 (32bit x4) n12 : 12.329 1946.7 1946.7 NEON vmla.f32 (32bit x4) n12 : 12.479 3846.3 3846.3 NEON vfma.f32 (32bit x4) n12 : - - - 平均 : 10.693 1672.8 1672.8 最大 : 4.172 3846.3 3846.3 * VFP/NEON (double fp) VFP fmuld (64bit x1) n8 : 8.681 460.8 460.8 VFP faddd (64bit x1) n8 : 4.130 968.5 968.5 VFP fmacd (64bit x1) n8 : 8.137 983.1 983.1 VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : 8.210 487.2 487.2 VFP faddd (64bit x1) ns4 : 4.136 967.1 967.1 VFP fmacd (64bit x1) ns4 : 9.179 871.6 871.6 VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : 28.480 140.4 140.4 VFP faddd (64bit x1) n1 : 20.379 196.3 196.3 VFP fmacd (64bit x1) n1 : 24.443 327.3 327.3 VFP vfma.f64 (64bit x1) n1 : - - - 平均 : 12.864 600.2 600.2 最大 : 4.130 983.1 983.1 * Matrix 4x4 C++ code : 15.029 238.5 238.5 NEON vmla 128bit A : 4.927 727.4 727.4 NEON vmla 64bit A : 4.852 738.7 738.7 NEON vfma 128bit A : - - - NEON vmla 128bit B : 2.444 1466.7 1466.7 NEON vmla 64bit B : 2.442 1467.5 1467.5 NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - 平均 : 5.939 927.8 927.8 最大 : 2.442 1467.5 1467.5 * VFP/NEON (single fp) multi-thread VFP fmuls (32bit x1) n8 : 4.725 1693.2 1693.2 VFP fadds (32bit x1) n8 : 4.300 1860.4 1860.4 VFP fmacs (32bit x1) n8 : 4.265 3751.1 3751.1 VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : 4.327 3698.1 3698.1 NEON vadd.f32 (32bit x2) n8 : 4.216 3795.2 3795.2 NEON vmla.f32 (32bit x2) n8 : 4.649 6883.5 6883.5 NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : 8.223 3891.5 3891.5 NEON vadd.f32 (32bit x4) n8 : 8.235 3885.6 3885.6 NEON vmla.f32 (32bit x4) n8 : 8.206 7799.5 7799.5 NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : 5.136 1557.7 1557.7 VFP fadds (32bit x1) ns4 : 4.110 1946.5 1946.5 VFP fmacs (32bit x1) ns4 : 8.272 1934.2 1934.2 VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : 4.218 3792.9 3792.9 NEON vadd.f32 (32bit x2) ns4 : 4.210 3800.4 3800.4 NEON vmla.f32 (32bit x2) ns4 : 9.297 3442.1 3442.1 NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : 8.222 3892.1 3892.1 NEON vadd.f32 (32bit x4) ns4 : 8.214 3895.7 3895.7 NEON vmla.f32 (32bit x4) ns4 : 9.254 6916.3 6916.3 NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : 25.099 318.7 318.7 VFP fadds (32bit x1) n1 : 20.659 387.2 387.2 VFP fmacs (32bit x1) n1 : 21.625 739.9 739.9 VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : 4.340 3686.2 3686.2 NEON vadd.f32 (32bit x2) n1 : 4.283 3736.1 3736.1 NEON vmla.f32 (32bit x2) n1 : 36.925 866.6 866.6 NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : 8.237 3884.7 3884.7 NEON vadd.f32 (32bit x4) n1 : 8.201 3901.8 3901.8 NEON vmla.f32 (32bit x4) n1 : 36.989 1730.2 1730.2 NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : 12.322 3895.4 3895.4 NEON vadd.f32 (32bit x4) n12 : 12.339 3890.1 3890.1 NEON vmla.f32 (32bit x4) n12 : 12.368 7762.0 7762.0 NEON vfma.f32 (32bit x4) n12 : - - - 平均 : 10.516 3441.2 3441.2 最大 : 4.110 7799.5 7799.5 * VFP/NEON (double fp) multi-thread VFP fmuld (64bit x1) n8 : 8.910 897.8 897.8 VFP faddd (64bit x1) n8 : 4.147 1929.1 1929.1 VFP fmacd (64bit x1) n8 : 8.244 1940.8 1940.8 VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : 8.203 975.2 975.2 VFP faddd (64bit x1) ns4 : 4.139 1932.7 1932.7 VFP fmacd (64bit x1) ns4 : 9.265 1727.0 1727.0 VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : 28.724 278.5 278.5 VFP faddd (64bit x1) n1 : 20.550 389.3 389.3 VFP fmacd (64bit x1) n1 : 24.671 648.5 648.5 VFP vfma.f64 (64bit x1) n1 : - - - 平均 : 12.984 1191.0 1191.0 最大 : 4.139 1940.8 1940.8 * Matrix 4x4 multi thread C++ code : 15.116 474.2 474.2 NEON vmla 128bit A : 4.901 1462.7 1462.7 NEON vmla 64bit A : 4.895 1464.2 1464.2 NEON vfma 128bit A : - - - NEON vmla 128bit B : 2.463 2910.0 2910.0 NEON vmla 64bit B : 2.486 2883.1 2883.1 NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - 平均 : 5.972 1838.8 1838.8 最大 : 2.463 2910.0 2910.0
iPad 3 Apple A5X Cortex-A9 1.0GHz dual core
iPad 3 Apple A5X Cortex-A9 1.0GHz dual core ARCH: ARMv7A VFP: VFPv3-D32 NEON SingleT SP max: 3.934 GFLOPS SingleT DP max: 0.983 GFLOPS MultiT SP max: 7.752 GFLOPS MultiT DP max: 1.954 GFLOPS CPU core: 2 FMA: No NEON: Yes * VFP/NEON (single fp) VFP fmuls (32bit x1) n8 : 4.525 884.0 884.0 VFP fadds (32bit x1) n8 : 4.235 944.5 944.5 VFP fmacs (32bit x1) n8 : 4.181 1913.2 1913.2 VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : 4.228 1891.9 1891.9 NEON vadd.f32 (32bit x2) n8 : 4.168 1919.5 1919.5 NEON vmla.f32 (32bit x2) n8 : 4.572 3499.3 3499.3 NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : 8.139 1965.8 1965.8 NEON vadd.f32 (32bit x4) n8 : 8.194 1952.8 1952.8 NEON vmla.f32 (32bit x4) n8 : 8.344 3834.9 3834.9 NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : 5.102 784.1 784.1 VFP fadds (32bit x1) ns4 : 4.066 983.8 983.8 VFP fmacs (32bit x1) ns4 : 8.130 984.0 984.0 VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : 4.177 1915.3 1915.3 NEON vadd.f32 (32bit x2) ns4 : 4.167 1920.1 1920.1 NEON vmla.f32 (32bit x2) ns4 : 9.143 1750.0 1750.0 NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : 8.140 1965.5 1965.5 NEON vadd.f32 (32bit x4) ns4 : 8.175 1957.1 1957.1 NEON vmla.f32 (32bit x4) ns4 : 9.322 3432.8 3432.8 NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : 24.404 163.9 163.9 VFP fadds (32bit x1) n1 : 20.318 196.9 196.9 VFP fmacs (32bit x1) n1 : 20.424 391.7 391.7 VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : 4.222 1894.7 1894.7 NEON vadd.f32 (32bit x2) n1 : 4.168 1919.2 1919.2 NEON vmla.f32 (32bit x2) n1 : 36.602 437.1 437.1 NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : 8.130 1968.1 1968.1 NEON vadd.f32 (32bit x4) n1 : 8.274 1933.7 1933.7 NEON vmla.f32 (32bit x4) n1 : 36.715 871.6 871.6 NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : 12.212 1965.3 1965.3 NEON vadd.f32 (32bit x4) n12 : 12.203 1966.7 1966.7 NEON vmla.f32 (32bit x4) n12 : 12.203 3933.5 3933.5 NEON vfma.f32 (32bit x4) n12 : - - - 平均 : 10.363 1738.0 1738.0 最大 : 4.066 3933.5 3933.5 * VFP/NEON (double fp) VFP fmuld (64bit x1) n8 : 8.599 465.2 465.2 VFP faddd (64bit x1) n8 : 4.113 972.5 972.5 VFP fmacd (64bit x1) n8 : 8.140 982.8 982.8 VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : 9.050 442.0 442.0 VFP faddd (64bit x1) ns4 : 4.067 983.4 983.4 VFP fmacd (64bit x1) ns4 : 9.146 874.7 874.7 VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : 28.612 139.8 139.8 VFP faddd (64bit x1) n1 : 20.345 196.6 196.6 VFP fmacd (64bit x1) n1 : 24.410 327.7 327.7 VFP vfma.f64 (64bit x1) n1 : - - - 平均 : 12.943 598.3 598.3 最大 : 4.067 983.4 983.4 * Matrix 4x4 C++ code : 14.697 243.9 243.9 NEON vmla 128bit A : 4.847 739.4 739.4 NEON vmla 64bit A : 4.846 739.6 739.6 NEON vfma 128bit A : - - - NEON vmla 128bit B : 2.441 1468.5 1468.5 NEON vmla 64bit B : 2.439 1469.5 1469.5 NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - 平均 : 5.854 932.1 932.1 最大 : 2.439 1469.5 1469.5 * VFP/NEON (single fp) multi-thread VFP fmuls (32bit x1) n8 : 4.692 1705.0 1705.0 VFP fadds (32bit x1) n8 : 4.255 1880.1 1880.1 VFP fmacs (32bit x1) n8 : 4.329 3695.8 3695.8 VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : 4.338 3688.3 3688.3 NEON vadd.f32 (32bit x2) n8 : 4.238 3775.3 3775.3 NEON vmla.f32 (32bit x2) n8 : 4.615 6934.0 6934.0 NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : 8.468 3779.1 3779.1 NEON vadd.f32 (32bit x4) n8 : 8.200 3902.3 3902.3 NEON vmla.f32 (32bit x4) n8 : 8.256 7751.7 7751.7 NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : 5.129 1559.9 1559.9 VFP fadds (32bit x1) ns4 : 4.104 1949.4 1949.4 VFP fmacs (32bit x1) ns4 : 8.448 1894.0 1894.0 VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : 4.339 3687.3 3687.3 NEON vadd.f32 (32bit x2) ns4 : 4.232 3780.3 3780.3 NEON vmla.f32 (32bit x2) ns4 : 9.485 3373.7 3373.7 NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : 8.368 3824.0 3824.0 NEON vadd.f32 (32bit x4) ns4 : 8.194 3905.5 3905.5 NEON vmla.f32 (32bit x4) ns4 : 9.272 6902.6 6902.6 NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : 24.930 320.9 320.9 VFP fadds (32bit x1) n1 : 20.490 390.4 390.4 VFP fmacs (32bit x1) n1 : 20.518 779.8 779.8 VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : 4.211 3800.0 3800.0 NEON vadd.f32 (32bit x2) n1 : 4.207 3802.8 3802.8 NEON vmla.f32 (32bit x2) n1 : 36.891 867.4 867.4 NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : 8.233 3886.7 3886.7 NEON vadd.f32 (32bit x4) n1 : 8.424 3798.8 3798.8 NEON vmla.f32 (32bit x4) n1 : 36.951 1732.0 1732.0 NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : 12.323 3895.0 3895.0 NEON vadd.f32 (32bit x4) n12 : 12.311 3899.1 3899.1 NEON vmla.f32 (32bit x4) n12 : 12.652 7587.9 7587.9 NEON vfma.f32 (32bit x4) n12 : - - - 平均 : 10.503 3425.0 3425.0 最大 : 4.104 7751.7 7751.7 * VFP/NEON (double fp) multi-thread VFP fmuld (64bit x1) n8 : 8.941 894.8 894.8 VFP faddd (64bit x1) n8 : 4.148 1928.4 1928.4 VFP fmacd (64bit x1) n8 : 8.189 1953.8 1953.8 VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : 8.248 970.0 970.0 VFP faddd (64bit x1) ns4 : 4.107 1947.7 1947.7 VFP fmacd (64bit x1) ns4 : 9.221 1735.3 1735.3 VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : 29.211 273.9 273.9 VFP faddd (64bit x1) n1 : 20.881 383.1 383.1 VFP fmacd (64bit x1) n1 : 25.050 638.7 638.7 VFP vfma.f64 (64bit x1) n1 : - - - 平均 : 13.111 1191.7 1191.7 最大 : 4.107 1953.8 1953.8 * Matrix 4x4 multi thread C++ code : 15.518 461.9 461.9 NEON vmla 128bit A : 5.034 1423.9 1423.9 NEON vmla 64bit A : 4.913 1459.0 1459.0 NEON vfma 128bit A : - - - NEON vmla 128bit B : 2.494 2874.1 2874.1 NEON vmla 64bit B : 2.469 2903.7 2903.7 NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - 平均 : 6.085 1824.5 1824.5 最大 : 2.469 2903.7 2903.7
iPod touch 5 Apple A5 Cortex-A9 0.8GHz dual core
iPod touch 5 Apple A5 Cortex-A9 0.8GHz dual core ARCH: ARMv7A VFP: VFPv3-D32 NEON SingleT SP max: 3.161 GFLOPS SingleT DP max: 0.790 GFLOPS MultiT SP max: 6.203 GFLOPS MultiT DP max: 1.565 GFLOPS CPU core: 2 FMA: No NEON: Yes * VFP/NEON (single fp) VFP fmuls (32bit x1) n8 : 5.828 686.3 686.3 VFP fadds (32bit x1) n8 : 5.226 765.5 765.5 VFP fmacs (32bit x1) n8 : 5.443 1469.9 1469.9 VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : 5.516 1450.4 1450.4 NEON vadd.f32 (32bit x2) n8 : 5.416 1477.1 1477.1 NEON vmla.f32 (32bit x2) n8 : 6.033 2652.3 2652.3 NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : 11.523 1388.5 1388.5 NEON vadd.f32 (32bit x4) n8 : 10.962 1459.6 1459.6 NEON vmla.f32 (32bit x4) n8 : 10.450 3062.3 3062.3 NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : 6.409 624.1 624.1 VFP fadds (32bit x1) ns4 : 5.066 789.6 789.6 VFP fmacs (32bit x1) ns4 : 10.126 790.1 790.1 VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : 5.194 1540.2 1540.2 NEON vadd.f32 (32bit x2) ns4 : 5.190 1541.5 1541.5 NEON vmla.f32 (32bit x2) ns4 : 11.443 1398.3 1398.3 NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : 10.125 1580.2 1580.2 NEON vadd.f32 (32bit x4) ns4 : 10.122 1580.7 1580.7 NEON vmla.f32 (32bit x4) ns4 : 11.414 2803.5 2803.5 NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : 30.477 131.2 131.2 VFP fadds (32bit x1) n1 : 25.327 157.9 157.9 VFP fmacs (32bit x1) n1 : 25.311 316.1 316.1 VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : 5.243 1526.0 1526.0 NEON vadd.f32 (32bit x2) n1 : 5.191 1541.1 1541.1 NEON vmla.f32 (32bit x2) n1 : 45.571 351.1 351.1 NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : 10.175 1572.5 1572.5 NEON vadd.f32 (32bit x4) n1 : 10.122 1580.7 1580.7 NEON vmla.f32 (32bit x4) n1 : 45.921 696.9 696.9 NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : 15.231 1575.7 1575.7 NEON vadd.f32 (32bit x4) n12 : 15.207 1578.2 1578.2 NEON vmla.f32 (32bit x4) n12 : 15.183 3161.4 3161.4 NEON vfma.f32 (32bit x4) n12 : - - - 平均 : 13.015 1375.0 1375.0 最大 : 5.066 3161.4 3161.4 * VFP/NEON (double fp) VFP fmuld (64bit x1) n8 : 10.739 372.5 372.5 VFP faddd (64bit x1) n8 : 5.101 784.1 784.1 VFP fmacd (64bit x1) n8 : 10.131 789.7 789.7 VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : 10.126 395.0 395.0 VFP faddd (64bit x1) ns4 : 5.072 788.7 788.7 VFP fmacd (64bit x1) ns4 : 11.386 702.6 702.6 VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : 35.444 112.9 112.9 VFP faddd (64bit x1) n1 : 25.318 158.0 158.0 VFP fmacd (64bit x1) n1 : 30.385 263.3 263.3 VFP vfma.f64 (64bit x1) n1 : - - - 平均 : 15.967 485.2 485.2 最大 : 5.072 789.7 789.7 * Matrix 4x4 C++ code : 18.403 194.7 194.7 NEON vmla 128bit A : 6.259 572.6 572.6 NEON vmla 64bit A : 6.202 577.8 577.8 NEON vfma 128bit A : - - - NEON vmla 128bit B : 3.218 1113.7 1113.7 NEON vmla 64bit B : 3.147 1139.0 1139.0 NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - 平均 : 7.446 719.6 719.6 最大 : 3.147 1139.0 1139.0 * VFP/NEON (single fp) multi-thread VFP fmuls (32bit x1) n8 : 5.796 1380.3 1380.3 VFP fadds (32bit x1) n8 : 5.258 1521.5 1521.5 VFP fmacs (32bit x1) n8 : 5.431 2945.8 2945.8 VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : 5.680 2816.9 2816.9 NEON vadd.f32 (32bit x2) n8 : 5.762 2776.8 2776.8 NEON vmla.f32 (32bit x2) n8 : 6.342 5046.0 5046.0 NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : 10.880 2941.1 2941.1 NEON vadd.f32 (32bit x4) n8 : 10.670 2999.1 2999.1 NEON vmla.f32 (32bit x4) n8 : 10.421 6141.4 6141.4 NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : 6.911 1157.5 1157.5 VFP fadds (32bit x1) ns4 : 5.381 1486.6 1486.6 VFP fmacs (32bit x1) ns4 : 10.492 1524.9 1524.9 VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : 5.258 3043.2 3043.2 NEON vadd.f32 (32bit x2) ns4 : 5.380 2974.1 2974.1 NEON vmla.f32 (32bit x2) ns4 : 11.975 2672.1 2672.1 NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : 10.474 3055.2 3055.2 NEON vadd.f32 (32bit x4) ns4 : 10.301 3106.4 3106.4 NEON vmla.f32 (32bit x4) ns4 : 11.818 5415.6 5415.6 NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : 31.441 254.4 254.4 VFP fadds (32bit x1) n1 : 26.192 305.4 305.4 VFP fmacs (32bit x1) n1 : 26.103 612.9 612.9 VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : 5.438 2942.0 2942.0 NEON vadd.f32 (32bit x2) n1 : 5.369 2980.3 2980.3 NEON vmla.f32 (32bit x2) n1 : 46.528 687.8 687.8 NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : 10.726 2983.3 2983.3 NEON vadd.f32 (32bit x4) n1 : 10.287 3110.7 3110.7 NEON vmla.f32 (32bit x4) n1 : 46.682 1371.0 1371.0 NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : 15.692 3058.8 3058.8 NEON vadd.f32 (32bit x4) n12 : 15.417 3113.3 3113.3 NEON vmla.f32 (32bit x4) n12 : 15.476 6203.0 6203.0 NEON vfma.f32 (32bit x4) n12 : - - - 平均 : 13.319 2687.6 2687.6 最大 : 5.258 6203.0 6203.0 * VFP/NEON (double fp) multi-thread VFP fmuld (64bit x1) n8 : 11.019 726.0 726.0 VFP faddd (64bit x1) n8 : 5.314 1505.3 1505.3 VFP fmacd (64bit x1) n8 : 10.549 1516.7 1516.7 VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : 10.280 778.2 778.2 VFP faddd (64bit x1) ns4 : 5.112 1564.9 1564.9 VFP fmacd (64bit x1) ns4 : 11.569 1383.0 1383.0 VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : 37.140 215.4 215.4 VFP faddd (64bit x1) n1 : 26.372 303.3 303.3 VFP fmacd (64bit x1) n1 : 32.114 498.2 498.2 VFP vfma.f64 (64bit x1) n1 : - - - 平均 : 16.608 943.5 943.5 最大 : 5.112 1564.9 1564.9 * Matrix 4x4 multi thread C++ code : 18.659 384.2 384.2 NEON vmla 128bit A : 6.082 1178.5 1178.5 NEON vmla 64bit A : 6.075 1179.8 1179.8 NEON vfma 128bit A : - - - NEON vmla 128bit B : 3.084 2324.0 2324.0 NEON vmla 64bit B : 3.078 2328.7 2328.7 NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - 平均 : 7.396 1479.0 1479.0 最大 : 3.078 2328.7 2328.7
Nexus 7 (2012) Tegra 3 1.2GHz Cortex-A9 Quad core
Nexus 7 (2012) Tegra 3 1.2GHz Cortex-A9 Quad core ARCH: ARMv7-A CPU core: 4 VFP: VFPv3-D32 NEON FMA: No NEON: Yes SingleT SP max: 4.783 GFLOPS SingleT DP max: 1.196 GFLOPS MultiT SP max: 18.905 GFLOPS MultiT DP max: 4.724 GFLOPS * VFP/NEON (single fp) VFP fmuls (32bit x1) n8 : 3.426 1167.7 1167.7 VFP fadds (32bit x1) n8 : 3.412 1172.4 1172.4 VFP fmacs (32bit x1) n8 : 3.395 2356.7 2356.7 VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : 3.460 2311.8 2311.8 NEON vadd.f32 (32bit x2) n8 : 3.443 2323.3 2323.3 NEON vmla.f32 (32bit x2) n8 : 3.800 4210.2 4210.2 NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : 6.769 2363.7 2363.7 NEON vadd.f32 (32bit x4) n8 : 6.715 2382.6 2382.6 NEON vmla.f32 (32bit x4) n8 : 6.690 4782.9 4782.9 NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : 4.187 955.4 955.4 VFP fadds (32bit x1) ns4 : 3.355 1192.4 1192.4 VFP fmacs (32bit x1) ns4 : 6.693 1195.3 1195.3 VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : 3.424 2336.6 2336.6 NEON vadd.f32 (32bit x2) ns4 : 3.425 2335.6 2335.6 NEON vmla.f32 (32bit x2) ns4 : 7.519 2127.8 2127.8 NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : 6.695 2389.8 2389.8 NEON vadd.f32 (32bit x4) ns4 : 6.705 2386.1 2386.1 NEON vmla.f32 (32bit x4) ns4 : 7.542 4243.0 4243.0 NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : 20.099 199.0 199.0 VFP fadds (32bit x1) n1 : 16.728 239.1 239.1 VFP fmacs (32bit x1) n1 : 16.740 477.9 477.9 VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : 3.432 2331.3 2331.3 NEON vadd.f32 (32bit x2) n1 : 3.430 2332.5 2332.5 NEON vmla.f32 (32bit x2) n1 : 30.112 531.3 531.3 NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : 6.691 2391.3 2391.3 NEON vadd.f32 (32bit x4) n1 : 6.679 2395.5 2395.5 NEON vmla.f32 (32bit x4) n1 : 30.120 1062.4 1062.4 NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : 10.039 2390.8 2390.8 NEON vadd.f32 (32bit x4) n12 : 10.043 2389.7 2389.7 NEON vmla.f32 (32bit x4) n12 : 10.038 4781.6 4781.6 NEON vfma.f32 (32bit x4) n12 : - - - 平均 : 8.494 2125.2 2125.2 最大 : 3.355 4782.9 4782.9 * VFP/NEON (double fp) VFP fmuld (64bit x1) n8 : 6.860 583.1 583.1 VFP faddd (64bit x1) n8 : 3.345 1195.7 1195.7 VFP fmacd (64bit x1) n8 : 6.694 1195.1 1195.1 VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : 6.691 597.8 597.8 VFP faddd (64bit x1) ns4 : 3.345 1195.7 1195.7 VFP fmacd (64bit x1) ns4 : 7.527 1062.9 1063.9 VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : 23.419 170.8 170.9 VFP faddd (64bit x1) n1 : 16.733 239.0 239.0 VFP fmacd (64bit x1) n1 : 20.073 398.6 398.6 VFP vfma.f64 (64bit x1) n1 : - - - 平均 : 10.521 737.6 737.8 最大 : 3.345 1195.7 1195.7 * Matrix 4x4 (single fp) C++ code : - - - NEON vmla 128bit A : - - - NEON vmla 64bit A : - - - NEON vfma 128bit A : - - - NEON vmla 128bit B : - - - NEON vmla 64bit B : - - - NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - 平均 : - - - 最大 : - - - * VFP/NEON (single fp) multi-thread VFP fmuls (32bit x1) n8 : 4.864 3289.8 4432.0 VFP fadds (32bit x1) n8 : 3.394 4714.3 4714.3 VFP fmacs (32bit x1) n8 : 3.407 9391.8 9391.8 VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : 3.490 9167.8 9167.8 NEON vadd.f32 (32bit x2) n8 : 3.486 9178.7 9178.7 NEON vmla.f32 (32bit x2) n8 : 3.811 16791.4 16791.4 NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : 6.797 9416.2 9424.3 NEON vadd.f32 (32bit x4) n8 : 6.785 9432.3 9432.3 NEON vmla.f32 (32bit x4) n8 : 6.775 18892.4 18892.4 NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : 4.232 3780.4 3780.4 VFP fadds (32bit x1) ns4 : 3.388 4723.0 4723.0 VFP fmacs (32bit x1) ns4 : 6.770 4726.6 4726.6 VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : 3.477 9202.2 9217.6 NEON vadd.f32 (32bit x2) ns4 : 3.478 9199.7 9219.0 NEON vmla.f32 (32bit x2) ns4 : 7.619 8400.4 8400.4 NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : 6.795 9419.2 9446.3 NEON vadd.f32 (32bit x4) ns4 : 6.772 9450.5 9450.5 NEON vmla.f32 (32bit x4) ns4 : 7.634 16767.6 16793.3 NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : 20.322 787.3 787.3 VFP fadds (32bit x1) n1 : 16.932 944.9 944.9 VFP fmacs (32bit x1) n1 : 16.939 1889.2 1889.2 VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : 3.477 9204.0 9215.5 NEON vadd.f32 (32bit x2) n1 : 3.478 9200.3 9210.2 NEON vmla.f32 (32bit x2) n1 : 30.487 2099.3 2099.3 NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : 6.770 9454.0 9454.0 NEON vadd.f32 (32bit x4) n1 : 6.779 9440.7 9440.7 NEON vmla.f32 (32bit x4) n1 : 30.488 4198.4 4198.4 NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : 10.168 9441.8 9444.7 NEON vadd.f32 (32bit x4) n12 : 10.223 9391.0 9441.3 NEON vmla.f32 (32bit x4) n12 : 10.156 18905.2 18905.2 NEON vfma.f32 (32bit x4) n12 : - - - 平均 : 8.640 8363.4 8407.1 最大 : 3.388 18905.2 18905.2 * VFP/NEON (double fp) multi-thread VFP fmuld (64bit x1) n8 : 6.962 2298.0 2298.0 VFP faddd (64bit x1) n8 : 3.396 4711.2 4711.2 VFP fmacd (64bit x1) n8 : 6.776 4722.4 4722.4 VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : 6.791 2356.2 2356.2 VFP faddd (64bit x1) ns4 : 3.387 4724.5 4724.5 VFP fmacd (64bit x1) ns4 : 7.621 4198.8 4198.8 VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : 23.721 674.5 674.5 VFP faddd (64bit x1) n1 : 16.982 942.2 942.2 VFP fmacd (64bit x1) n1 : 20.552 1557.0 1557.0 VFP vfma.f64 (64bit x1) n1 : - - - 平均 : 10.688 2909.4 2909.4 最大 : 3.387 4724.5 4724.5 * Matrix 4x4 (single fp) multi-thread C++ code : - - - NEON vmla 128bit A : - - - NEON vmla 64bit A : - - - NEON vfma 128bit A : - - - NEON vmla 128bit B : - - - NEON vmla 64bit B : - - - NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - 平均 : - - - 最大 : - - -
Amazon Fire TV Stick (2015) Boradcom 28155 Cortex-A9 1.0GHz Dual core
Amazon Fire TV Stick (2015) Boradcom 28155 Cortex-A9 1.0GHz Dual core ARCH: ARMv7A CPU core: 2 VFP: VFPv3-D32 NEON FMA: No NEON: Yes Result SingleT SP max: 3.968 GFLOPS SingleT DP max: 0.992 GFLOPS MultiT SP max: 7.761 GFLOPS MultiT DP max: 1.946 GFLOPS * VFP/NEON (単精度 fp) single-thread VFP fmuls (32bit x1) n8 : 1.260 952.2 952.2 VFP fadds (32bit x1) n8 : 1.210 992.0 992.0 VFP fmacs (32bit x1) n8 : 1.213 1977.9 1977.9 VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : 1.241 1933.8 1933.8 NEON vadd.f32 (32bit x2) n8 : 1.238 1938.6 1938.6 NEON vmla.f32 (32bit x2) n8 : 1.366 3512.7 3512.7 NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : 2.425 1979.6 1979.6 NEON vadd.f32 (32bit x4) n8 : 2.436 1970.0 1970.0 NEON vmla.f32 (32bit x4) n8 : 2.425 3958.7 3958.7 NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : 1.513 793.1 793.1 VFP fadds (32bit x1) ns4 : 1.216 986.8 986.8 VFP fmacs (32bit x1) ns4 : 2.421 991.3 991.3 VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : 1.243 1931.1 1931.1 NEON vadd.f32 (32bit x2) ns4 : 1.241 1934.5 1934.5 NEON vmla.f32 (32bit x2) ns4 : 2.723 1762.7 1762.7 NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : 2.424 1980.0 1980.0 NEON vadd.f32 (32bit x4) ns4 : 2.417 1985.8 1985.8 NEON vmla.f32 (32bit x4) ns4 : 2.724 3524.1 3524.1 NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : 7.257 165.4 165.4 VFP fadds (32bit x1) n1 : 6.042 198.6 198.6 VFP fmacs (32bit x1) n1 : 6.041 397.3 397.3 VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : 1.244 1928.6 1928.6 NEON vadd.f32 (32bit x2) n1 : 1.244 1928.9 1928.9 NEON vmla.f32 (32bit x2) n1 : 10.873 441.5 441.5 NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : 2.417 1985.8 1985.8 NEON vadd.f32 (32bit x4) n1 : 2.417 1985.8 1985.8 NEON vmla.f32 (32bit x4) n1 : 10.893 881.3 881.3 NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : 3.625 1986.1 1986.1 NEON vadd.f32 (32bit x4) n12 : 3.625 1986.0 1986.0 NEON vmla.f32 (32bit x4) n12 : 3.629 3968.2 3968.2 NEON vfma.f32 (32bit x4) n12 : - - - 平均 : 3.068 1765.3 1765.3 最大 : 1.210 3968.2 3968.2 * VFP/NEON (倍精度 fp) single-thread VFP fmuld (64bit x1) n8 : 2.446 490.6 490.6 VFP faddd (64bit x1) n8 : 1.210 991.8 991.8 VFP fmacd (64bit x1) n8 : 2.420 991.9 991.9 VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : 2.420 495.9 495.9 VFP faddd (64bit x1) ns4 : 1.210 992.0 992.0 VFP fmacd (64bit x1) ns4 : 2.724 881.0 881.0 VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : 8.470 141.7 141.7 VFP faddd (64bit x1) n1 : 6.047 198.4 198.4 VFP fmacd (64bit x1) n1 : 7.250 331.0 331.0 VFP vfma.f64 (64bit x1) n1 : - - - 平均 : 3.800 612.7 612.7 最大 : 1.210 992.0 992.0 * Matrix 4x4 (単精度 fp) single-thread C++ code : 1.243 1441.3 1441.3 NEON vmla 128bit A : 2.405 745.2 745.2 NEON vmla 64bit A : 2.410 743.6 743.6 NEON vfma 128bit A : - - - NEON vmla 128bit B : 1.211 1479.2 1479.2 NEON vmla 64bit B : 1.212 1478.3 1478.3 NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - 平均 : 1.696 1177.5 1177.5 最大 : 1.211 1479.2 1479.2 * VFP/NEON (単精度 fp) multi-thread VFP fmuls (32bit x1) n8 : 1.316 1823.6 1823.6 VFP fadds (32bit x1) n8 : 1.235 1942.9 1942.9 VFP fmacs (32bit x1) n8 : 1.237 3879.9 3879.9 VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : 1.265 3794.6 3794.6 NEON vadd.f32 (32bit x2) n8 : 1.274 3768.1 3768.1 NEON vmla.f32 (32bit x2) n8 : 1.384 6938.6 6938.6 NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : 2.467 3891.8 3891.8 NEON vadd.f32 (32bit x4) n8 : 2.508 3827.2 3827.2 NEON vmla.f32 (32bit x4) n8 : 2.474 7761.3 7761.3 NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : 1.552 1546.3 1546.3 VFP fadds (32bit x1) ns4 : 1.235 1942.6 1942.6 VFP fmacs (32bit x1) ns4 : 2.478 1937.0 1937.0 VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : 1.269 3781.2 3781.2 NEON vadd.f32 (32bit x2) ns4 : 1.274 3768.0 3768.0 NEON vmla.f32 (32bit x2) ns4 : 2.775 3460.0 3460.0 NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : 2.477 3875.1 3875.1 NEON vadd.f32 (32bit x4) ns4 : 2.468 3889.1 3889.1 NEON vmla.f32 (32bit x4) ns4 : 2.787 6889.6 6889.6 NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : 7.483 320.7 320.7 VFP fadds (32bit x1) n1 : 6.219 385.9 385.9 VFP fmacs (32bit x1) n1 : 6.180 776.7 776.7 VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : 1.265 3793.2 3793.2 NEON vadd.f32 (32bit x2) n1 : 1.266 3791.6 3791.6 NEON vmla.f32 (32bit x2) n1 : 11.883 807.9 807.9 NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : 2.514 3817.9 3817.9 NEON vadd.f32 (32bit x4) n1 : 2.482 3868.0 3868.0 NEON vmla.f32 (32bit x4) n1 : 11.296 1699.7 1699.7 NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : 3.705 3886.1 3886.1 NEON vadd.f32 (32bit x4) n12 : 3.702 3890.3 3890.3 NEON vmla.f32 (32bit x4) n12 : 3.731 7719.1 7719.1 NEON vfma.f32 (32bit x4) n12 : - - - 平均 : 3.173 3449.1 3449.1 最大 : 1.235 7761.3 7761.3 * VFP/NEON (倍精度 fp) multi-thread VFP fmuld (64bit x1) n8 : 2.550 941.3 941.3 VFP faddd (64bit x1) n8 : 1.244 1930.0 1930.0 VFP fmacd (64bit x1) n8 : 2.470 1943.1 1943.1 VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : 2.479 968.1 968.1 VFP faddd (64bit x1) ns4 : 1.233 1946.5 1946.5 VFP fmacd (64bit x1) ns4 : 2.805 1711.3 1711.3 VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : 8.655 277.3 277.3 VFP faddd (64bit x1) n1 : 6.289 381.6 381.6 VFP fmacd (64bit x1) n1 : 7.464 643.1 643.1 VFP vfma.f64 (64bit x1) n1 : - - - 平均 : 3.910 1193.6 1193.6 最大 : 1.233 1946.5 1946.5 * Matrix 4x4 (単精度 fp) multi-thread C++ code : 1.310 2736.7 2736.7 NEON vmla 128bit A : 2.460 1457.1 1457.1 NEON vmla 64bit A : 2.459 1457.7 1457.7 NEON vfma 128bit A : - - - NEON vmla 128bit B : 1.239 2892.1 2892.1 NEON vmla 64bit B : 1.243 2884.5 2884.5 NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - 平均 : 1.742 2285.6 2285.6 最大 : 1.239 2892.1 2892.1
ARM Cortex-A15 (ARMv7A) VFPv4+NEON
Nexus 10 Exynos 5 Dual (5250) Cortex-A15 1.7GHz dual core
Nexus 10 Exynos 5 Dual (5250) Cortex-A15 1.7GHz dual core ARCH: ARMv7-A CPU core: 2 VFP: VFPv4-D32 NEON FMA: Yes NEON: Yes SingleT SP max: 13.483 GFLOPS SingleT DP max: 2.686 GFLOPS MultiT SP max: 26.724 GFLOPS MultiT DP max: 5.314 GFLOPS * VFP/NEON (single fp) VFP fmuls (32bit x1) n8 : 2.675 1495.4 1555.9 VFP fadds (32bit x1) n8 : 2.392 1672.1 1672.1 VFP fmacs (32bit x1) n8 : 3.171 2523.2 2523.2 VFP vfma.f32 (32bit x1) n8 : 2.985 2679.9 2679.9 NEON vmul.f32 (32bit x2) n8 : 1.187 6740.5 6740.5 NEON vadd.f32 (32bit x2) n8 : 1.187 6740.7 6740.7 NEON vmla.f32 (32bit x2) n8 : 1.187 13480.8 13480.8 NEON vfma.f32 (32bit x2) n8 : 1.187 13480.3 13480.3 NEON vmul.f32 (32bit x4) n8 : 2.373 6741.8 6741.8 NEON vadd.f32 (32bit x4) n8 : 2.374 6740.7 6740.7 NEON vmla.f32 (32bit x4) n8 : 2.373 13482.7 13482.7 NEON vfma.f32 (32bit x4) n8 : 2.373 13482.3 13482.3 VFP fmuls (32bit x1) ns4 : 3.558 1124.2 1124.2 VFP fadds (32bit x1) ns4 : 2.964 1349.3 1349.3 VFP fmacs (32bit x1) ns4 : 5.927 1349.8 1349.8 VFP vfma.f32 (32bit x1) ns4 : 5.923 1350.6 1350.6 NEON vmul.f32 (32bit x2) ns4 : 2.368 3378.2 3378.2 NEON vadd.f32 (32bit x2) ns4 : 2.956 2706.5 2706.5 NEON vmla.f32 (32bit x2) ns4 : 4.731 3382.2 3382.2 NEON vfma.f32 (32bit x2) ns4 : 4.728 3383.8 3383.8 NEON vmul.f32 (32bit x4) ns4 : 2.365 6766.1 6766.1 NEON vadd.f32 (32bit x4) ns4 : 2.955 5414.2 5414.2 NEON vmla.f32 (32bit x4) ns4 : 4.730 6765.4 6765.4 NEON vfma.f32 (32bit x4) ns4 : 4.736 6757.1 6757.1 VFP fmuls (32bit x1) n1 : 2.364 1691.9 1691.9 VFP fadds (32bit x1) n1 : 2.364 1691.9 1691.9 VFP fmacs (32bit x1) n1 : 9.457 846.0 846.0 VFP vfma.f32 (32bit x1) n1 : 9.456 846.0 846.0 NEON vmul.f32 (32bit x2) n1 : 2.364 3383.8 3383.8 NEON vadd.f32 (32bit x2) n1 : 1.182 6767.7 6767.7 NEON vmla.f32 (32bit x2) n1 : 9.456 1692.0 1692.0 NEON vfma.f32 (32bit x2) n1 : 9.459 1691.5 1691.5 NEON vmul.f32 (32bit x4) n1 : 2.364 6768.0 6768.0 NEON vadd.f32 (32bit x4) n1 : 2.364 6767.9 6767.9 NEON vmla.f32 (32bit x4) n1 : 9.807 3263.1 3263.1 NEON vfma.f32 (32bit x4) n1 : 9.919 3226.1 3226.1 NEON vmul.f32 (32bit x4) n12 : 3.718 6454.5 6477.2 NEON vadd.f32 (32bit x4) n12 : 3.717 6457.6 6457.6 NEON vmla.f32 (32bit x4) n12 : 3.877 12380.5 13180.8 NEON vfma.f32 (32bit x4) n12 : 3.728 12875.6 12875.6 Average : 3.975 5244.8 5266.9 Highest : 1.182 13482.7 13482.7 * VFP/NEON (double fp) VFP fmuld (64bit x1) n8 : 2.739 1460.4 1629.6 VFP faddd (64bit x1) n8 : 2.456 1628.7 1628.7 VFP fmacd (64bit x1) n8 : 2.998 2668.0 2684.7 VFP vfma.f64 (64bit x1) n8 : 2.981 2683.3 2685.8 VFP fmuld (64bit x1) ns4 : 3.577 1118.4 1118.4 VFP faddd (64bit x1) ns4 : 2.980 1342.2 1342.2 VFP fmacd (64bit x1) ns4 : 5.956 1343.1 1343.1 VFP vfma.f64 (64bit x1) ns4 : 5.951 1344.3 1344.3 VFP fmuld (64bit x1) n1 : 2.378 1681.9 1681.9 VFP faddd (64bit x1) n1 : 2.378 1682.0 1682.0 VFP fmacd (64bit x1) n1 : 9.509 841.3 841.3 VFP vfma.f64 (64bit x1) n1 : 9.511 841.2 841.2 Average : 4.451 1552.9 1568.6 Highest : 2.378 2683.3 2685.8 * Matrix 4x4 (single fp) C++ code : - - - NEON vmla 128bit A : - - - NEON vmla 64bit A : - - - NEON vfma 128bit A : - - - NEON vmla 128bit B : - - - NEON vmla 64bit B : - - - NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - Average : - - - Highest : - - - * VFP/NEON (single fp) multi-thread VFP fmuls (32bit x1) n8 : 2.567 3116.7 3116.7 VFP fadds (32bit x1) n8 : 2.416 3310.9 3310.9 VFP fmacs (32bit x1) n8 : 3.035 5271.7 5308.7 VFP vfma.f32 (32bit x1) n8 : 3.017 5303.7 5303.7 NEON vmul.f32 (32bit x2) n8 : 1.206 13269.7 13269.7 NEON vadd.f32 (32bit x2) n8 : 1.207 13260.6 13276.9 NEON vmla.f32 (32bit x2) n8 : 1.214 26361.6 26552.6 NEON vfma.f32 (32bit x2) n8 : 1.206 26530.9 26555.3 NEON vmul.f32 (32bit x4) n8 : 2.409 13284.5 13287.9 NEON vadd.f32 (32bit x4) n8 : 2.412 13265.7 13284.8 NEON vmla.f32 (32bit x4) n8 : 2.415 26501.6 26501.6 NEON vfma.f32 (32bit x4) n8 : 2.413 26521.0 26564.8 VFP fmuls (32bit x1) ns4 : 3.630 2204.1 2214.6 VFP fadds (32bit x1) ns4 : 3.011 2656.7 2659.4 VFP fmacs (32bit x1) ns4 : 6.022 2656.7 2656.7 VFP vfma.f32 (32bit x1) ns4 : 6.019 2658.1 2658.1 NEON vmul.f32 (32bit x2) ns4 : 2.415 6625.5 6645.7 NEON vadd.f32 (32bit x2) ns4 : 3.013 5310.9 5312.4 NEON vmla.f32 (32bit x2) ns4 : 4.817 6642.9 6642.9 NEON vfma.f32 (32bit x2) ns4 : 4.822 6635.8 6645.0 NEON vmul.f32 (32bit x4) ns4 : 2.408 13290.1 13290.1 NEON vadd.f32 (32bit x4) ns4 : 3.009 10634.8 10634.8 NEON vmla.f32 (32bit x4) ns4 : 4.814 13295.9 13295.9 NEON vfma.f32 (32bit x4) ns4 : 4.815 13292.6 13306.2 VFP fmuls (32bit x1) n1 : 2.412 3316.4 3319.2 VFP fadds (32bit x1) n1 : 2.411 3317.7 3317.7 VFP fmacs (32bit x1) n1 : 9.648 1658.3 1658.3 VFP vfma.f32 (32bit x1) n1 : 9.632 1661.2 1661.2 NEON vmul.f32 (32bit x2) n1 : 2.417 6619.4 6649.7 NEON vadd.f32 (32bit x2) n1 : 1.204 13286.7 13286.7 NEON vmla.f32 (32bit x2) n1 : 9.629 3323.3 3323.3 NEON vfma.f32 (32bit x2) n1 : 9.615 3328.3 3328.3 NEON vmul.f32 (32bit x4) n1 : 2.433 13153.5 13268.3 NEON vadd.f32 (32bit x4) n1 : 2.418 13235.1 13289.6 NEON vmla.f32 (32bit x4) n1 : 9.635 6642.5 6644.3 NEON vfma.f32 (32bit x4) n1 : 9.655 6628.9 6639.7 NEON vmul.f32 (32bit x4) n12 : 3.616 13275.2 13275.2 NEON vadd.f32 (32bit x4) n12 : 3.618 13266.9 13295.2 NEON vmla.f32 (32bit x4) n12 : 3.612 26578.2 26578.2 NEON vfma.f32 (32bit x4) n12 : 3.592 26723.9 26723.9 Average : 3.996 10448.0 10463.9 Highest : 1.204 26723.9 26723.9 * VFP/NEON (double fp) multi-thread VFP fmuld (64bit x1) n8 : 2.583 3097.3 3097.3 VFP faddd (64bit x1) n8 : 2.418 3308.3 3308.3 VFP fmacd (64bit x1) n8 : 3.011 5313.9 5313.9 VFP vfma.f64 (64bit x1) n8 : 3.030 5280.9 5280.9 VFP fmuld (64bit x1) ns4 : 3.617 2211.5 2211.5 VFP faddd (64bit x1) ns4 : 3.010 2657.7 2657.7 VFP fmacd (64bit x1) ns4 : 6.031 2652.9 2652.9 VFP vfma.f64 (64bit x1) ns4 : 6.016 2659.4 2659.4 VFP fmuld (64bit x1) n1 : 2.409 3321.6 3321.6 VFP faddd (64bit x1) n1 : 2.408 3322.0 3322.0 VFP fmacd (64bit x1) n1 : 9.813 1630.4 1630.4 VFP vfma.f64 (64bit x1) n1 : 9.821 1629.1 1629.1 Average : 4.514 3090.4 3090.4 Highest : 2.408 5313.9 5313.9 * Matrix 4x4 (single fp) multi-thread C++ code : - - - NEON vmla 128bit A : - - - NEON vmla 64bit A : - - - NEON vfma 128bit A : - - - NEON vmla 128bit B : - - - NEON vmla 64bit B : - - - NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - Average : - - - Highest : - - -
Tegra Note 7 Tegra4 Cortex-A15 1.8GHz Quad core
Tegra Note 7 Tegra4 Cortex-A15 1.8GHz Quad core ARCH: ARMv7-A CPU core: 4 VFP: VFPv4-D32 NEON FMA: Yes NEON: Yes SingleT SP max: 13.371 GFLOPS SingleT DP max: 2.655 GFLOPS MultiT SP max: 51.345 GFLOPS MultiT DP max: 9.860 GFLOPS * VFP/NEON (single fp) VFP fmuls (32bit x1) n8 : 2.807 1424.9 1652.4 VFP fadds (32bit x1) n8 : 2.856 1400.5 1656.7 VFP fmacs (32bit x1) n8 : 3.595 2225.5 2714.1 VFP vfma.f32 (32bit x1) n8 : 3.146 2543.1 2665.8 NEON vmul.f32 (32bit x2) n8 : 1.217 6575.7 6645.7 NEON vadd.f32 (32bit x2) n8 : 1.217 6573.6 6619.2 NEON vmla.f32 (32bit x2) n8 : 1.214 13177.7 13314.9 NEON vfma.f32 (32bit x2) n8 : 1.216 13156.2 13275.2 NEON vmul.f32 (32bit x4) n8 : 2.477 6459.0 6661.5 NEON vadd.f32 (32bit x4) n8 : 2.426 6596.4 6634.5 NEON vmla.f32 (32bit x4) n8 : 2.453 13047.3 13370.9 NEON vfma.f32 (32bit x4) n8 : 2.477 12921.3 13341.9 VFP fmuls (32bit x1) ns4 : 3.639 1099.3 1099.3 VFP fadds (32bit x1) ns4 : 3.088 1295.3 1327.4 VFP fmacs (32bit x1) ns4 : 6.080 1315.8 1315.8 VFP vfma.f32 (32bit x1) ns4 : 6.095 1312.5 1331.6 NEON vmul.f32 (32bit x2) ns4 : 2.456 3257.2 3333.9 NEON vadd.f32 (32bit x2) ns4 : 3.052 2621.1 2668.9 NEON vmla.f32 (32bit x2) ns4 : 4.848 3300.2 3326.4 NEON vfma.f32 (32bit x2) ns4 : 4.848 3300.5 3309.0 NEON vmul.f32 (32bit x4) ns4 : 2.404 6655.8 6775.2 NEON vadd.f32 (32bit x4) ns4 : 3.044 5255.8 5372.2 NEON vmla.f32 (32bit x4) ns4 : 4.835 6618.6 6628.2 NEON vfma.f32 (32bit x4) ns4 : 4.904 6525.5 6640.6 VFP fmuls (32bit x1) n1 : 2.425 1649.2 1673.6 VFP fadds (32bit x1) n1 : 2.437 1641.4 1657.0 VFP fmacs (32bit x1) n1 : 9.697 825.0 835.6 VFP vfma.f32 (32bit x1) n1 : 9.710 823.9 835.0 NEON vmul.f32 (32bit x2) n1 : 2.444 3273.8 3343.5 NEON vadd.f32 (32bit x2) n1 : 1.216 6581.1 6696.6 NEON vmla.f32 (32bit x2) n1 : 9.758 1639.7 1661.4 NEON vfma.f32 (32bit x2) n1 : 9.760 1639.3 1654.1 NEON vmul.f32 (32bit x4) n1 : 2.420 6612.7 6630.1 NEON vadd.f32 (32bit x4) n1 : 2.419 6614.4 6661.7 NEON vmla.f32 (32bit x4) n1 : 9.673 3308.3 3311.4 NEON vfma.f32 (32bit x4) n1 : 9.697 3300.1 3321.9 NEON vmul.f32 (32bit x4) n12 : 3.636 6600.1 6669.1 NEON vadd.f32 (32bit x4) n12 : 3.781 6347.4 6635.8 NEON vmla.f32 (32bit x4) n12 : 3.669 13083.2 13314.4 NEON vfma.f32 (32bit x4) n12 : 3.648 13157.5 13311.5 Average : 4.070 5143.9 5247.4 Highest : 1.214 13177.7 13370.9 * VFP/NEON (double fp) VFP fmuld (64bit x1) n8 : 2.429 1646.9 1670.6 VFP faddd (64bit x1) n8 : 2.356 1697.5 1718.3 VFP fmacd (64bit x1) n8 : 3.014 2654.7 2654.7 VFP vfma.f64 (64bit x1) n8 : 3.046 2626.5 2626.5 VFP fmuld (64bit x1) ns4 : 3.628 1102.5 1107.9 VFP faddd (64bit x1) ns4 : 3.030 1320.2 1334.1 VFP fmacd (64bit x1) ns4 : 6.038 1324.9 1331.2 VFP vfma.f64 (64bit x1) ns4 : 6.078 1316.2 1321.4 VFP fmuld (64bit x1) n1 : 2.425 1649.4 1664.2 VFP faddd (64bit x1) n1 : 2.407 1661.6 1665.9 VFP fmacd (64bit x1) n1 : 9.672 827.1 829.8 VFP vfma.f64 (64bit x1) n1 : 9.733 821.9 828.4 Average : 4.488 1554.1 1562.7 Highest : 2.356 2654.7 2654.7 * Matrix 4x4 (single fp) C++ code : - - - NEON vmla 128bit A : - - - NEON vmla 64bit A : - - - NEON vfma 128bit A : - - - NEON vmla 128bit B : - - - NEON vmla 64bit B : - - - NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - Average : - - - Highest : - - - * VFP/NEON (single fp) multi-thread VFP fmuls (32bit x1) n8 : 2.928 5463.5 5503.0 VFP fadds (32bit x1) n8 : 2.772 5772.8 5788.2 VFP fmacs (32bit x1) n8 : 3.436 9314.5 9375.1 VFP vfma.f32 (32bit x1) n8 : 3.240 9876.6 9931.6 NEON vmul.f32 (32bit x2) n8 : 1.283 24944.7 25004.3 NEON vadd.f32 (32bit x2) n8 : 1.288 24843.7 24891.7 NEON vmla.f32 (32bit x2) n8 : 1.287 49717.5 50275.7 NEON vfma.f32 (32bit x2) n8 : 1.293 49487.0 49836.7 NEON vmul.f32 (32bit x4) n8 : 2.594 24670.4 24783.7 NEON vadd.f32 (32bit x4) n8 : 2.576 24843.6 24888.7 NEON vmla.f32 (32bit x4) n8 : 2.589 49449.0 49802.5 NEON vfma.f32 (32bit x4) n8 : 2.568 49848.7 49866.1 VFP fmuls (32bit x1) ns4 : 3.851 4155.3 4155.3 VFP fadds (32bit x1) ns4 : 3.222 4966.3 4986.9 VFP fmacs (32bit x1) ns4 : 6.424 4981.0 4981.0 VFP vfma.f32 (32bit x1) ns4 : 6.419 4985.3 4985.3 NEON vmul.f32 (32bit x2) ns4 : 2.572 12440.5 12493.0 NEON vadd.f32 (32bit x2) ns4 : 3.213 9959.3 9997.8 NEON vmla.f32 (32bit x2) ns4 : 5.161 12400.4 12459.7 NEON vfma.f32 (32bit x2) ns4 : 5.171 12375.9 12444.9 NEON vmul.f32 (32bit x4) ns4 : 2.578 24821.1 25158.4 NEON vadd.f32 (32bit x4) ns4 : 3.289 19460.8 19921.3 NEON vmla.f32 (32bit x4) ns4 : 5.132 24942.1 25020.3 NEON vfma.f32 (32bit x4) ns4 : 5.153 24841.3 24908.3 VFP fmuls (32bit x1) n1 : 2.558 6254.9 6254.9 VFP fadds (32bit x1) n1 : 2.564 6240.0 6280.9 VFP fmacs (32bit x1) n1 : 10.295 3108.2 3122.7 VFP vfma.f32 (32bit x1) n1 : 10.306 3105.1 3117.2 NEON vmul.f32 (32bit x2) n1 : 2.590 12356.4 12440.4 NEON vadd.f32 (32bit x2) n1 : 1.286 24883.7 24980.9 NEON vmla.f32 (32bit x2) n1 : 10.292 6218.3 6238.0 NEON vfma.f32 (32bit x2) n1 : 10.334 6193.3 6241.5 NEON vmul.f32 (32bit x4) n1 : 2.575 24849.7 25024.0 NEON vadd.f32 (32bit x4) n1 : 2.570 24903.3 24952.9 NEON vmla.f32 (32bit x4) n1 : 10.300 12427.2 12491.7 NEON vfma.f32 (32bit x4) n1 : 10.302 12425.0 12440.0 NEON vmul.f32 (32bit x4) n12 : 3.863 24853.0 24902.1 NEON vadd.f32 (32bit x4) n12 : 3.866 24830.1 24997.5 NEON vmla.f32 (32bit x4) n12 : 3.842 49976.2 50269.1 NEON vfma.f32 (32bit x4) n12 : 3.739 51344.8 51344.8 Average : 4.283 19563.3 19664.0 Highest : 1.283 51344.8 51344.8 * VFP/NEON (double fp) multi-thread VFP fmuld (64bit x1) n8 : 2.856 5602.9 5602.9 VFP faddd (64bit x1) n8 : 2.733 5854.4 5854.4 VFP fmacd (64bit x1) n8 : 3.445 9290.0 9290.0 VFP vfma.f64 (64bit x1) n8 : 3.245 9860.1 9860.1 VFP fmuld (64bit x1) ns4 : 3.867 4137.5 4137.5 VFP faddd (64bit x1) ns4 : 3.210 4983.8 4983.8 VFP fmacd (64bit x1) ns4 : 6.416 4987.3 4987.3 VFP vfma.f64 (64bit x1) ns4 : 6.428 4978.0 4978.0 VFP fmuld (64bit x1) n1 : 2.571 6222.1 6222.1 VFP faddd (64bit x1) n1 : 2.570 6224.7 6224.7 VFP fmacd (64bit x1) n1 : 10.320 3100.7 3100.7 VFP vfma.f64 (64bit x1) n1 : 10.259 3119.3 3119.3 Average : 4.827 5696.8 5696.8 Highest : 2.570 9860.1 9860.1 * Matrix 4x4 (single fp) multi-thread C++ code : - - - NEON vmla 128bit A : - - - NEON vmla 64bit A : - - - NEON vfma 128bit A : - - - NEON vmla 128bit B : - - - NEON vmla 64bit B : - - - NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - Average : - - - Highest : - - -
NVIDIA SHIELD Tablet Tegra K1 Cortex-A15 2.2GHz Quad core
NVIDIA SHIELD Tablet Tegra K1 Cortex-A15 2.2GHz Quad core ARCH: ARMv7A CPU core: 4 VFP: VFPv4-D32 NEON FMA: Yes NEON: Yes Result SingleT SP max: 17.136 GFLOPS SingleT DP max: 3.431 GFLOPS MultiT SP max: 70.174 GFLOPS MultiT DP max: 14.036 GFLOPS * VFP/NEON (単精度 fp) single-thread VFP fmuls (32bit x1) n8 : 2.080 1922.9 1922.9 VFP fadds (32bit x1) n8 : 2.199 1818.9 1818.9 VFP fmacs (32bit x1) n8 : 2.356 3396.2 3396.2 VFP vfma.f32 (32bit x1) n8 : 2.514 3182.3 3182.3 NEON vmul.f32 (32bit x2) n8 : 0.945 8462.3 8462.3 NEON vadd.f32 (32bit x2) n8 : 0.938 8526.0 8526.0 NEON vmla.f32 (32bit x2) n8 : 0.938 17063.9 17063.9 NEON vfma.f32 (32bit x2) n8 : 1.110 14419.1 14419.1 NEON vmul.f32 (32bit x4) n8 : 1.868 8563.6 8563.6 NEON vadd.f32 (32bit x4) n8 : 2.036 7858.3 7858.3 NEON vmla.f32 (32bit x4) n8 : 2.039 15695.3 15695.3 NEON vfma.f32 (32bit x4) n8 : 2.068 15476.9 15476.9 VFP fmuls (32bit x1) ns4 : 3.002 1332.6 1332.6 VFP fadds (32bit x1) ns4 : 2.556 1564.8 1564.8 VFP fmacs (32bit x1) ns4 : 4.676 1710.7 1710.7 VFP vfma.f32 (32bit x1) ns4 : 4.643 1723.1 1723.1 NEON vmul.f32 (32bit x2) ns4 : 1.859 4304.5 4304.5 NEON vadd.f32 (32bit x2) ns4 : 2.331 3431.4 3431.4 NEON vmla.f32 (32bit x2) ns4 : 3.881 4122.2 4122.2 NEON vfma.f32 (32bit x2) ns4 : 3.715 4307.2 4307.2 NEON vmul.f32 (32bit x4) ns4 : 2.047 7818.1 7818.1 NEON vadd.f32 (32bit x4) ns4 : 2.340 6837.4 6837.4 NEON vmla.f32 (32bit x4) ns4 : 3.913 8177.1 8177.1 NEON vfma.f32 (32bit x4) ns4 : 3.735 8568.2 8568.2 VFP fmuls (32bit x1) n1 : 1.868 2141.1 2141.1 VFP fadds (32bit x1) n1 : 1.870 2139.6 2139.6 VFP fmacs (32bit x1) n1 : 7.662 1044.2 1044.2 VFP vfma.f32 (32bit x1) n1 : 7.649 1045.9 1045.9 NEON vmul.f32 (32bit x2) n1 : 1.880 4255.7 4255.7 NEON vadd.f32 (32bit x2) n1 : 1.134 7052.4 7052.4 NEON vmla.f32 (32bit x2) n1 : 7.476 2140.3 2140.3 NEON vfma.f32 (32bit x2) n1 : 7.433 2152.5 2152.5 NEON vmul.f32 (32bit x4) n1 : 2.064 7751.9 7751.9 NEON vadd.f32 (32bit x4) n1 : 2.062 7760.0 7760.0 NEON vmla.f32 (32bit x4) n1 : 7.849 4076.9 4076.9 NEON vfma.f32 (32bit x4) n1 : 7.663 4176.1 4176.1 NEON vmul.f32 (32bit x4) n12 : 2.801 8569.7 8569.7 NEON vadd.f32 (32bit x4) n12 : 2.798 8578.7 8578.7 NEON vmla.f32 (32bit x4) n12 : 2.801 17136.0 17136.0 NEON vfma.f32 (32bit x4) n12 : 2.973 16143.2 16143.2 平均 : 3.194 6411.2 6411.2 最大 : 0.938 17136.0 17136.0 * VFP/NEON (倍精度 fp) single-thread VFP fmuld (64bit x1) n8 : 1.965 2035.5 2035.5 VFP faddd (64bit x1) n8 : 2.153 1858.0 1858.0 VFP fmacd (64bit x1) n8 : 2.334 3427.2 3427.2 VFP vfma.f64 (64bit x1) n8 : 2.331 3431.3 3431.3 VFP fmuld (64bit x1) ns4 : 2.826 1415.5 1415.5 VFP faddd (64bit x1) ns4 : 2.515 1590.4 1590.4 VFP fmacd (64bit x1) ns4 : 4.661 1716.5 1716.5 VFP vfma.f64 (64bit x1) ns4 : 4.644 1722.8 1722.8 VFP fmuld (64bit x1) n1 : 1.859 2152.2 2152.2 VFP faddd (64bit x1) n1 : 1.855 2155.8 2155.8 VFP fmacd (64bit x1) n1 : 7.610 1051.3 1051.3 VFP vfma.f64 (64bit x1) n1 : 7.464 1071.9 1071.9 平均 : 3.518 1969.0 1969.0 最大 : 1.855 3431.3 3431.3 * Matrix 4x4 (単精度 fp) single-thread C++ code : 0.472 7593.8 7593.8 NEON vmla 128bit A : 0.528 6787.3 6787.3 NEON vmla 64bit A : 0.519 6900.9 6900.9 NEON vfma 128bit A : 0.711 5041.8 5041.8 NEON vmla 128bit B : 0.494 7250.5 7250.5 NEON vmla 64bit B : 0.641 5591.9 5591.9 NEON vfma 128bit B : 0.620 5783.3 5783.3 NEON vfma 128bit C : 0.707 5066.7 5066.7 平均 : 0.587 6252.0 6252.0 最大 : 0.472 7593.8 7593.8 * VFP/NEON (単精度 fp) multi-thread VFP fmuls (32bit x1) n8 : 1.895 8445.2 8445.2 VFP fadds (32bit x1) n8 : 2.055 7787.1 7787.1 VFP fmacs (32bit x1) n8 : 2.280 14033.9 14033.9 VFP vfma.f32 (32bit x1) n8 : 2.281 14028.1 14028.1 NEON vmul.f32 (32bit x2) n8 : 0.912 35083.0 35083.0 NEON vadd.f32 (32bit x2) n8 : 0.913 35039.7 35039.7 NEON vmla.f32 (32bit x2) n8 : 0.913 70067.1 70067.1 NEON vfma.f32 (32bit x2) n8 : 0.912 70173.7 70173.7 NEON vmul.f32 (32bit x4) n8 : 1.824 35080.2 35080.2 NEON vadd.f32 (32bit x4) n8 : 2.010 31846.2 31846.2 NEON vmla.f32 (32bit x4) n8 : 2.041 62712.8 62712.8 NEON vfma.f32 (32bit x4) n8 : 1.867 68548.0 68548.0 VFP fmuls (32bit x1) ns4 : 2.909 5499.5 5499.5 VFP fadds (32bit x1) ns4 : 2.326 6879.5 6879.5 VFP fmacs (32bit x1) ns4 : 4.685 6829.9 6829.9 VFP vfma.f32 (32bit x1) ns4 : 4.555 7025.6 7025.6 NEON vmul.f32 (32bit x2) ns4 : 1.867 17144.2 17144.2 NEON vadd.f32 (32bit x2) ns4 : 2.407 13292.8 13292.8 NEON vmla.f32 (32bit x2) ns4 : 3.652 17525.9 17525.9 NEON vfma.f32 (32bit x2) ns4 : 3.648 17543.0 17543.0 NEON vmul.f32 (32bit x4) ns4 : 1.874 34160.0 34160.0 NEON vadd.f32 (32bit x4) ns4 : 2.426 26379.2 26379.2 NEON vmla.f32 (32bit x4) ns4 : 3.871 33069.3 33069.3 NEON vfma.f32 (32bit x4) ns4 : 3.658 34994.1 34994.1 VFP fmuls (32bit x1) n1 : 1.824 8770.6 8770.6 VFP fadds (32bit x1) n1 : 1.824 8770.1 8770.1 VFP fmacs (32bit x1) n1 : 7.296 4386.2 4386.2 VFP vfma.f32 (32bit x1) n1 : 7.519 4255.8 4255.8 NEON vmul.f32 (32bit x2) n1 : 2.022 15825.2 15825.2 NEON vadd.f32 (32bit x2) n1 : 1.051 30447.0 30447.0 NEON vmla.f32 (32bit x2) n1 : 7.320 8743.5 8743.5 NEON vfma.f32 (32bit x2) n1 : 7.289 8780.5 8780.5 NEON vmul.f32 (32bit x4) n1 : 1.822 35135.7 35135.7 NEON vadd.f32 (32bit x4) n1 : 1.822 35122.6 35122.6 NEON vmla.f32 (32bit x4) n1 : 7.295 17545.2 17545.2 NEON vfma.f32 (32bit x4) n1 : 7.308 17514.1 17514.1 NEON vmul.f32 (32bit x4) n12 : 2.806 34212.6 34212.6 NEON vadd.f32 (32bit x4) n12 : 2.930 32768.7 32768.7 NEON vmla.f32 (32bit x4) n12 : 2.928 65571.1 65571.1 NEON vfma.f32 (32bit x4) n12 : 2.928 65566.0 65566.0 平均 : 3.094 26665.1 26665.1 最大 : 0.912 70173.7 70173.7 * VFP/NEON (倍精度 fp) multi-thread VFP fmuld (64bit x1) n8 : 2.182 7334.2 7334.2 VFP faddd (64bit x1) n8 : 1.825 8767.6 8767.6 VFP fmacd (64bit x1) n8 : 2.477 12917.0 12917.0 VFP vfma.f64 (64bit x1) n8 : 2.280 14035.9 14035.9 VFP fmuld (64bit x1) ns4 : 2.737 5846.5 5846.5 VFP faddd (64bit x1) ns4 : 2.279 7022.0 7022.0 VFP fmacd (64bit x1) ns4 : 4.567 7006.7 7006.7 VFP vfma.f64 (64bit x1) ns4 : 4.558 7021.3 7021.3 VFP fmuld (64bit x1) n1 : 1.824 8770.9 8770.9 VFP faddd (64bit x1) n1 : 1.822 8780.3 8780.3 VFP fmacd (64bit x1) n1 : 7.292 4388.5 4388.5 VFP vfma.f64 (64bit x1) n1 : 7.300 4383.6 4383.6 平均 : 3.428 8022.9 8022.9 最大 : 1.822 14035.9 14035.9 * Matrix 4x4 (単精度 fp) multi-thread C++ code : 0.516 27772.7 27772.7 NEON vmla 128bit A : 0.511 28062.0 28062.0 NEON vmla 64bit A : 0.502 28555.4 28555.4 NEON vfma 128bit A : 0.685 20922.8 20922.8 NEON vmla 128bit B : 0.469 30553.7 30553.7 NEON vmla 64bit B : 0.454 31579.1 31579.1 NEON vfma 128bit B : 0.599 23928.7 23928.7 NEON vfma 128bit C : 0.826 17365.8 17365.8 平均 : 0.570 26092.5 26092.5 最大 : 0.454 31579.1 31579.1
ARM Cortex-A53 (AArch32) VFPv4+NEON
Dragonboard 410c Snapdragon 410 Cortex-A53 1.2GHz quad core
ARCH: ARMv7A CPU core: 4 VFP: VFPv4-D32 NEON FMA: Yes NEON: Yes Result SingleT SP max: 9.442 GFLOPS SingleT DP max: 2.558 GFLOPS MultiT SP max: 29.290 GFLOPS MultiT DP max: 7.753 GFLOPS * VFP/NEON (single fp) single-thread VFP fmuls (32bit x1) n8 : 0.659 1822.0 1822.0 VFP fadds (32bit x1) n8 : 0.585 2050.2 2050.2 VFP fmacs (32bit x1) n8 : 0.788 3044.2 3044.2 VFP vfma.f32 (32bit x1) n8 : 0.898 2671.7 2671.7 NEON vmul.f32 (32bit x2) n8 : 0.526 4558.5 4558.5 NEON vadd.f32 (32bit x2) n8 : 0.551 4355.3 4355.3 NEON vmla.f32 (32bit x2) n8 : 0.925 5190.1 5190.1 NEON vfma.f32 (32bit x2) n8 : 0.675 7110.2 7110.2 NEON vmul.f32 (32bit x4) n8 : 1.022 4695.3 4695.3 NEON vadd.f32 (32bit x4) n8 : 1.026 4679.5 4679.5 NEON vmla.f32 (32bit x4) n8 : 1.024 9379.1 9379.1 NEON vfma.f32 (32bit x4) n8 : 1.036 9268.0 9268.0 VFP fmuls (32bit x1) ns4 : 0.998 1202.7 1202.7 VFP fadds (32bit x1) ns4 : 1.004 1195.0 1195.0 VFP fmacs (32bit x1) ns4 : 2.022 1186.9 1186.9 VFP vfma.f32 (32bit x1) ns4 : 2.012 1193.0 1193.0 NEON vmul.f32 (32bit x2) ns4 : 0.998 2405.0 2405.0 NEON vadd.f32 (32bit x2) ns4 : 1.009 2378.0 2378.0 NEON vmla.f32 (32bit x2) ns4 : 2.023 2372.9 2372.9 NEON vfma.f32 (32bit x2) ns4 : 2.018 2378.1 2378.1 NEON vmul.f32 (32bit x4) ns4 : 1.037 4630.7 4630.7 NEON vadd.f32 (32bit x4) ns4 : 1.027 4675.0 4675.0 NEON vmla.f32 (32bit x4) ns4 : 2.026 4739.5 4739.5 NEON vfma.f32 (32bit x4) ns4 : 1.998 4804.5 4804.5 VFP fmuls (32bit x1) n1 : 0.999 1200.9 1200.9 VFP fadds (32bit x1) n1 : 0.998 1202.5 1202.5 VFP fmacs (32bit x1) n1 : 4.993 480.7 480.7 VFP vfma.f32 (32bit x1) n1 : 5.000 480.0 480.0 NEON vmul.f32 (32bit x2) n1 : 1.001 2398.4 2398.4 NEON vadd.f32 (32bit x2) n1 : 1.015 2364.8 2364.8 NEON vmla.f32 (32bit x2) n1 : 4.992 961.5 961.5 NEON vfma.f32 (32bit x2) n1 : 5.018 956.6 956.6 NEON vmul.f32 (32bit x4) n1 : 1.025 4680.9 4680.9 NEON vadd.f32 (32bit x4) n1 : 1.032 4650.9 4650.9 NEON vmla.f32 (32bit x4) n1 : 4.995 1921.9 1921.9 NEON vfma.f32 (32bit x4) n1 : 5.114 1877.1 1877.1 NEON vmul.f32 (32bit x4) n12 : 1.564 4603.3 4603.3 NEON vadd.f32 (32bit x4) n12 : 1.543 4666.2 4666.2 NEON vmla.f32 (32bit x4) n12 : 1.525 9441.8 9441.8 NEON vfma.f32 (32bit x4) n12 : 1.549 9296.0 9296.0 Average : 1.756 3579.2 3579.2 Highest : 0.526 9441.8 9441.8 * VFP/NEON (double fp) single-thread VFP fmuld (64bit x1) n8 : 0.574 2091.6 2091.6 VFP faddd (64bit x1) n8 : 0.538 2229.7 2229.7 VFP fmacd (64bit x1) n8 : 0.986 2434.8 2434.8 VFP vfma.f64 (64bit x1) n8 : 0.938 2558.1 2558.1 VFP fmuld (64bit x1) ns4 : 1.003 1197.0 1197.0 VFP faddd (64bit x1) ns4 : 1.004 1195.6 1195.6 VFP fmacd (64bit x1) ns4 : 2.094 1146.0 1146.0 VFP vfma.f64 (64bit x1) ns4 : 2.065 1162.5 1162.5 VFP fmuld (64bit x1) n1 : 1.008 1190.5 1190.5 VFP faddd (64bit x1) n1 : 1.003 1196.5 1196.5 VFP fmacd (64bit x1) n1 : 5.004 479.6 479.6 VFP vfma.f64 (64bit x1) n1 : 5.068 473.6 473.6 Average : 1.774 1446.3 1446.3 Highest : 0.538 2558.1 2558.1 * Matrix 4x4 (single fp) single-thread C++ code : 0.597 3002.4 3002.4 NEON vmla 128bit A : 1.290 1389.3 1389.3 NEON vmla 64bit A : 1.575 1137.6 1137.6 NEON vfma 128bit A : 1.409 1271.9 1271.9 NEON vmla 128bit B : 0.628 2855.2 2855.2 NEON vmla 64bit B : 0.987 1815.3 1815.3 NEON vfma 128bit B : 0.868 2065.2 2065.2 NEON vfma 128bit C : 1.387 1291.7 1291.7 Average : 1.093 1853.6 1853.6 Highest : 0.597 3002.4 3002.4 * VFP/NEON (single fp) multi-thread VFP fmuls (32bit x1) n8 : 0.851 5638.6 5638.6 VFP fadds (32bit x1) n8 : 0.790 6075.6 6075.6 VFP fmacs (32bit x1) n8 : 1.031 9313.4 9313.4 VFP vfma.f32 (32bit x1) n8 : 1.175 8168.2 8168.2 NEON vmul.f32 (32bit x2) n8 : 0.707 13583.5 13583.5 NEON vadd.f32 (32bit x2) n8 : 0.741 12954.9 12954.9 NEON vmla.f32 (32bit x2) n8 : 1.240 15480.2 15480.2 NEON vfma.f32 (32bit x2) n8 : 0.887 21657.6 21657.6 NEON vmul.f32 (32bit x4) n8 : 1.383 13884.6 13884.6 NEON vadd.f32 (32bit x4) n8 : 1.334 14387.6 14387.6 NEON vmla.f32 (32bit x4) n8 : 1.405 27332.4 27332.4 NEON vfma.f32 (32bit x4) n8 : 1.448 26522.3 26522.3 VFP fmuls (32bit x1) ns4 : 1.383 3471.7 3471.7 VFP fadds (32bit x1) ns4 : 1.416 3389.2 3389.2 VFP fmacs (32bit x1) ns4 : 2.675 3588.7 3588.7 VFP vfma.f32 (32bit x1) ns4 : 2.740 3503.2 3503.2 NEON vmul.f32 (32bit x2) ns4 : 1.389 6909.3 6909.3 NEON vadd.f32 (32bit x2) ns4 : 1.344 7141.1 7141.1 NEON vmla.f32 (32bit x2) ns4 : 2.760 6956.3 6956.3 NEON vfma.f32 (32bit x2) ns4 : 2.732 7028.8 7028.8 NEON vmul.f32 (32bit x4) ns4 : 1.363 14086.9 14086.9 NEON vadd.f32 (32bit x4) ns4 : 1.384 13876.4 13876.4 NEON vmla.f32 (32bit x4) ns4 : 2.667 14396.6 14396.6 NEON vfma.f32 (32bit x4) ns4 : 2.653 14472.9 14472.9 VFP fmuls (32bit x1) n1 : 1.379 3481.1 3481.1 VFP fadds (32bit x1) n1 : 1.321 3633.0 3633.0 VFP fmacs (32bit x1) n1 : 6.581 1458.8 1458.8 VFP vfma.f32 (32bit x1) n1 : 6.795 1412.8 1412.8 NEON vmul.f32 (32bit x2) n1 : 1.309 7332.1 7332.1 NEON vadd.f32 (32bit x2) n1 : 1.310 7326.2 7326.2 NEON vmla.f32 (32bit x2) n1 : 6.871 2794.4 2794.4 NEON vfma.f32 (32bit x2) n1 : 6.630 2895.9 2895.9 NEON vmul.f32 (32bit x4) n1 : 1.396 13748.8 13748.8 NEON vadd.f32 (32bit x4) n1 : 1.416 13558.5 13558.5 NEON vmla.f32 (32bit x4) n1 : 6.841 5613.5 5613.5 NEON vfma.f32 (32bit x4) n1 : 6.711 5722.1 5722.1 NEON vmul.f32 (32bit x4) n12 : 2.104 13685.6 13685.6 NEON vadd.f32 (32bit x4) n12 : 1.977 14564.0 14564.0 NEON vmla.f32 (32bit x4) n12 : 1.991 28931.3 28931.3 NEON vfma.f32 (32bit x4) n12 : 1.967 29290.3 29290.3 Average : 2.352 10731.7 10731.7 Highest : 0.707 29290.3 29290.3 * VFP/NEON (double fp) multi-thread VFP fmuld (64bit x1) n8 : 0.801 5990.8 5990.8 VFP faddd (64bit x1) n8 : 0.762 6301.4 6301.4 VFP fmacd (64bit x1) n8 : 1.259 7625.8 7625.8 VFP vfma.f64 (64bit x1) n8 : 1.238 7753.4 7753.4 VFP fmuld (64bit x1) ns4 : 1.337 3590.8 3590.8 VFP faddd (64bit x1) ns4 : 1.366 3512.7 3512.7 VFP fmacd (64bit x1) ns4 : 2.708 3545.2 3545.2 VFP vfma.f64 (64bit x1) ns4 : 2.709 3543.3 3543.3 VFP fmuld (64bit x1) n1 : 1.323 3627.3 3627.3 VFP faddd (64bit x1) n1 : 1.379 3480.6 3480.6 VFP fmacd (64bit x1) n1 : 6.676 1438.1 1438.1 VFP vfma.f64 (64bit x1) n1 : 6.504 1476.0 1476.0 Average : 2.339 4323.8 4323.8 Highest : 0.762 7753.4 7753.4 * Matrix 4x4 (single fp) multi-thread C++ code : 0.866 8273.1 8273.1 NEON vmla 128bit A : 1.815 3949.8 3949.8 NEON vmla 64bit A : 2.063 3474.9 3474.9 NEON vfma 128bit A : 1.916 3741.2 3741.2 NEON vmla 128bit B : 0.828 8658.1 8658.1 NEON vmla 64bit B : 1.338 5355.5 5355.5 NEON vfma 128bit B : 1.170 6127.2 6127.2 NEON vfma 128bit C : 1.860 3852.9 3852.9 Average : 1.482 5429.1 5429.1 Highest : 0.828 8658.1 8658.1
Raspberry Pi 3 BCM2837 Cortex-A53 1.2GHz debian 8.0
ARCH: ARMv7A FPU: VFPv4-D32 NEON SingleT SP max: 9.431 GFLOPS SingleT DP max: 2.477 GFLOPS MultiT SP max: 37.442 GFLOPS MultiT DP max: 9.994 GFLOPS CPU core: 4 NEON: yes FMA: yes * VFP/NEON (single fp) VFP fmuls (32bit x1) n8 : 0.526 2282.7 2282.7 VFP fadds (32bit x1) n8 : 0.551 2179.1 2179.1 VFP fmacs (32bit x1) n8 : 0.776 3092.9 3092.9 VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : 0.526 4565.5 4565.5 NEON vadd.f32 (32bit x2) n8 : 0.551 4358.2 4358.2 NEON vmla.f32 (32bit x2) n8 : 0.915 5245.3 5245.3 NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : 1.026 4677.2 4677.2 NEON vadd.f32 (32bit x4) n8 : 1.026 4676.9 4676.9 NEON vmla.f32 (32bit x4) n8 : 1.026 9354.3 9354.3 NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : 1.001 1198.5 1198.5 VFP fadds (32bit x1) ns4 : 1.001 1198.5 1198.5 VFP fmacs (32bit x1) ns4 : 2.015 1191.2 1191.2 VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : 1.001 2397.0 2397.0 NEON vadd.f32 (32bit x2) ns4 : 1.001 2397.0 2397.0 NEON vmla.f32 (32bit x2) ns4 : 2.024 2372.0 2372.0 NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : 1.026 4676.9 4676.9 NEON vadd.f32 (32bit x4) ns4 : 1.026 4677.1 4677.1 NEON vmla.f32 (32bit x4) ns4 : 2.003 4794.0 4794.0 NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : 1.001 1198.5 1198.5 VFP fadds (32bit x1) n1 : 1.001 1198.5 1198.5 VFP fmacs (32bit x1) n1 : 4.125 581.8 581.8 VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : 1.001 2397.0 2397.0 NEON vadd.f32 (32bit x2) n1 : 1.002 2396.1 2396.1 NEON vmla.f32 (32bit x2) n1 : 4.005 1198.5 1198.5 NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : 1.026 4677.0 4677.0 NEON vadd.f32 (32bit x4) n1 : 1.026 4677.1 4677.1 NEON vmla.f32 (32bit x4) n1 : 4.005 2397.0 2397.0 NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : 1.527 4715.4 4715.4 NEON vadd.f32 (32bit x4) n12 : 1.527 4715.4 4715.4 NEON vmla.f32 (32bit x4) n12 : 1.527 9430.9 9430.9 NEON vfma.f32 (32bit x4) n12 : - - - Average : 1.393 3497.3 3497.3 Highest : 0.526 9430.9 9430.9 * VFP/NEON (double fp) VFP fmuld (64bit x1) n8 : 0.526 2282.3 2282.3 VFP faddd (64bit x1) n8 : 0.526 2282.8 2282.8 VFP fmacd (64bit x1) n8 : 0.969 2476.7 2476.7 VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : 1.001 1198.5 1198.5 VFP faddd (64bit x1) ns4 : 1.001 1198.5 1198.5 VFP fmacd (64bit x1) ns4 : 2.024 1185.9 1185.9 VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : 0.615 1950.1 1950.1 VFP faddd (64bit x1) n1 : 1.001 1199.0 1199.0 VFP fmacd (64bit x1) n1 : 4.003 599.5 599.5 VFP vfma.f64 (64bit x1) n1 : - - - Average : 1.296 1597.0 1597.0 Highest : 0.526 2476.7 2476.7 * Matrix 4x4 C++ code : 0.625 2867.3 2867.3 NEON vmla 128bit A : 1.176 1524.3 1524.3 NEON vmla 64bit A : 1.282 1397.3 1397.3 NEON vfma 128bit A : - - - NEON vmla 128bit B : 0.602 2978.6 2978.6 NEON vmla 64bit B : 0.788 2272.7 2272.7 NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - Average : 0.895 2208.1 2208.1 Highest : 0.602 2978.6 2978.6 * VFP/NEON (single fp) multi-thread VFP fmuls (32bit x1) n8 : 0.543 8846.1 8846.1 VFP fadds (32bit x1) n8 : 0.567 8461.8 8461.8 VFP fmacs (32bit x1) n8 : 0.785 12229.1 12229.1 VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : 0.529 18161.2 18161.2 NEON vadd.f32 (32bit x2) n8 : 0.553 17365.9 17365.9 NEON vmla.f32 (32bit x2) n8 : 0.958 20037.7 20037.7 NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : 1.039 18472.4 18472.4 NEON vadd.f32 (32bit x4) n8 : 1.030 18634.4 18634.4 NEON vmla.f32 (32bit x4) n8 : 1.059 36275.5 36275.5 NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : 1.012 4741.5 4741.5 VFP fadds (32bit x1) ns4 : 1.005 4776.4 4776.4 VFP fmacs (32bit x1) ns4 : 2.063 4653.2 4653.2 VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : 1.007 9536.9 9536.9 NEON vadd.f32 (32bit x2) ns4 : 1.032 9299.2 9299.2 NEON vmla.f32 (32bit x2) ns4 : 2.040 9412.6 9412.6 NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : 1.056 18174.5 18174.5 NEON vadd.f32 (32bit x4) ns4 : 1.036 18530.6 18530.6 NEON vmla.f32 (32bit x4) ns4 : 2.040 18822.7 18822.7 NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : 1.011 4750.0 4750.0 VFP fadds (32bit x1) n1 : 1.012 4742.4 4742.4 VFP fmacs (32bit x1) n1 : 4.079 2353.3 2353.3 VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : 1.010 9504.9 9504.9 NEON vadd.f32 (32bit x2) n1 : 1.014 9463.0 9463.0 NEON vmla.f32 (32bit x2) n1 : 4.077 4708.8 4708.8 NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : 1.035 18559.3 18559.3 NEON vadd.f32 (32bit x4) n1 : 1.043 18410.2 18410.2 NEON vmla.f32 (32bit x4) n1 : 4.075 9423.6 9423.6 NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : 1.537 18743.5 18743.5 NEON vadd.f32 (32bit x4) n12 : 1.565 18403.8 18403.8 NEON vmla.f32 (32bit x4) n12 : 1.538 37442.0 37442.0 NEON vfma.f32 (32bit x4) n12 : - - - Average : 1.412 13764.6 13764.6 Highest : 0.529 37442.0 37442.0 * VFP/NEON (double fp) multi-thread VFP fmuld (64bit x1) n8 : 0.536 8948.6 8948.6 VFP faddd (64bit x1) n8 : 0.532 9027.8 9027.8 VFP fmacd (64bit x1) n8 : 0.961 9993.6 9993.6 VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : 1.029 4664.3 4664.3 VFP faddd (64bit x1) ns4 : 1.016 4725.4 4725.4 VFP fmacd (64bit x1) ns4 : 2.058 4664.0 4664.0 VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : 1.014 4731.7 4731.7 VFP faddd (64bit x1) n1 : 1.005 4774.0 4774.0 VFP fmacd (64bit x1) n1 : 4.082 2351.6 2351.6 VFP vfma.f64 (64bit x1) n1 : - - - Average : 1.359 5986.8 5986.8 Highest : 0.532 9993.6 9993.6 * Matrix 4x4 multi-thread C++ code : 0.570 12582.5 12582.5 NEON vmla 128bit A : 1.182 6064.5 6064.5 NEON vmla 64bit A : 1.308 5482.1 5482.1 NEON vfma 128bit A : - - - NEON vmla 128bit B : 0.619 11585.4 11585.4 NEON vmla 64bit B : 0.793 9043.1 9043.1 NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - Average : 0.894 8951.5 8951.5 Highest : 0.570 12582.5 12582.5
ARM Cortex-A72 (AArch32) VFPv4+NEON
Amazon Fire TV MT8173C Cortex-A72 2.0GHz dual core
ARCH: ARMv7A CPU core: 2 VFP: VFPv4-D32 NEON FMA: Yes NEON: Yes Result SingleT SP max: 15.875 GFLOPS SingleT DP max: 7.946 GFLOPS MultiT SP max: 31.756 GFLOPS MultiT DP max: 15.882 GFLOPS * VFP/NEON (単精度 fp) single-thread VFP fmuls (32bit x1) n8 : 0.425 2823.3 2823.3 VFP fadds (32bit x1) n8 : 0.303 3958.8 3958.8 VFP fmacs (32bit x1) n8 : 0.303 7919.0 7919.0 VFP vfma.f32 (32bit x1) n8 : 0.303 7912.9 7912.9 NEON vmul.f32 (32bit x2) n8 : 0.303 7915.2 7915.2 NEON vadd.f32 (32bit x2) n8 : 0.304 7898.6 7898.6 NEON vmla.f32 (32bit x2) n8 : 0.303 15837.5 15837.5 NEON vfma.f32 (32bit x2) n8 : 0.304 15800.1 15800.1 NEON vmul.f32 (32bit x4) n8 : 0.606 7915.5 7915.5 NEON vadd.f32 (32bit x4) n8 : 0.606 7914.7 7914.7 NEON vmla.f32 (32bit x4) n8 : 0.607 15810.0 15810.0 NEON vfma.f32 (32bit x4) n8 : 0.605 15875.0 15875.0 VFP fmuls (32bit x1) ns4 : 0.604 1986.5 1986.5 VFP fadds (32bit x1) ns4 : 0.604 1986.4 1986.4 VFP fmacs (32bit x1) ns4 : 1.131 2122.4 2122.4 VFP vfma.f32 (32bit x1) ns4 : 1.058 2268.6 2268.6 NEON vmul.f32 (32bit x2) ns4 : 0.604 3973.1 3973.1 NEON vadd.f32 (32bit x2) ns4 : 0.604 3972.9 3972.9 NEON vmla.f32 (32bit x2) ns4 : 1.129 4252.7 4252.7 NEON vfma.f32 (32bit x2) ns4 : 1.058 4538.0 4538.0 NEON vmul.f32 (32bit x4) ns4 : 0.606 7924.2 7924.2 NEON vadd.f32 (32bit x4) ns4 : 0.606 7919.8 7919.8 NEON vmla.f32 (32bit x4) ns4 : 1.066 9007.0 9007.0 NEON vfma.f32 (32bit x4) ns4 : 1.086 8841.5 8841.5 VFP fmuls (32bit x1) n1 : 0.385 3115.2 3115.2 VFP fadds (32bit x1) n1 : 0.302 3968.8 3968.8 VFP fmacs (32bit x1) n1 : 1.816 1321.6 1321.6 VFP vfma.f32 (32bit x1) n1 : 1.817 1321.1 1321.1 NEON vmul.f32 (32bit x2) n1 : 0.306 7832.0 7832.0 NEON vadd.f32 (32bit x2) n1 : 0.304 7902.7 7902.7 NEON vmla.f32 (32bit x2) n1 : 1.823 2632.4 2632.4 NEON vfma.f32 (32bit x2) n1 : 1.821 2635.7 2635.7 NEON vmul.f32 (32bit x4) n1 : 0.609 7886.4 7886.4 NEON vadd.f32 (32bit x4) n1 : 0.608 7898.8 7898.8 NEON vmla.f32 (32bit x4) n1 : 1.818 5280.7 5280.7 NEON vfma.f32 (32bit x4) n1 : 1.813 5293.9 5293.9 NEON vmul.f32 (32bit x4) n12 : 0.958 7517.7 7517.7 NEON vadd.f32 (32bit x4) n12 : 0.906 7945.1 7945.1 NEON vmla.f32 (32bit x4) n12 : 0.908 15857.3 15857.3 NEON vfma.f32 (32bit x4) n12 : 0.908 15855.1 15855.1 平均 : 0.806 7016.0 7016.0 最大 : 0.302 15875.0 15875.0 * VFP/NEON (倍精度 fp) single-thread VFP fmuld (64bit x1) n8 : 0.330 3641.7 3641.7 VFP faddd (64bit x1) n8 : 0.302 3973.2 3973.2 VFP fmacd (64bit x1) n8 : 0.302 7946.2 7946.2 VFP vfma.f64 (64bit x1) n8 : 0.302 7945.3 7945.3 VFP fmuld (64bit x1) ns4 : 0.662 1813.9 1813.9 VFP faddd (64bit x1) ns4 : 0.605 1984.5 1984.5 VFP fmacd (64bit x1) ns4 : 1.058 2268.1 2268.1 VFP vfma.f64 (64bit x1) ns4 : 1.060 2265.2 2265.2 VFP fmuld (64bit x1) n1 : 0.303 3965.5 3965.5 VFP faddd (64bit x1) n1 : 0.304 3952.7 3952.7 VFP fmacd (64bit x1) n1 : 1.826 1314.1 1314.1 VFP vfma.f64 (64bit x1) n1 : 1.827 1313.6 1313.6 平均 : 0.740 3532.0 3532.0 最大 : 0.302 7946.2 7946.2 * Matrix 4x4 (単精度 fp) single-thread C++ code : 0.322 5560.9 5560.9 NEON vmla 128bit A : 0.211 8503.3 8503.3 NEON vmla 64bit A : 0.274 6530.0 6530.0 NEON vfma 128bit A : 0.297 6030.6 6030.6 NEON vmla 128bit B : 0.218 8207.0 8207.0 NEON vmla 64bit B : 0.299 6002.1 6002.1 NEON vfma 128bit B : 0.315 5689.6 5689.6 NEON vfma 128bit C : 0.288 6213.3 6213.3 平均 : 0.278 6592.1 6592.1 最大 : 0.211 8503.3 8503.3 * VFP/NEON (単精度 fp) multi-thread VFP fmuls (32bit x1) n8 : 0.336 7140.1 7140.1 VFP fadds (32bit x1) n8 : 0.303 7926.4 7926.4 VFP fmacs (32bit x1) n8 : 0.302 15874.2 15874.2 VFP vfma.f32 (32bit x1) n8 : 0.302 15874.7 15874.7 NEON vmul.f32 (32bit x2) n8 : 0.302 15873.6 15873.6 NEON vadd.f32 (32bit x2) n8 : 0.302 15873.5 15873.5 NEON vmla.f32 (32bit x2) n8 : 0.302 31749.3 31749.3 NEON vfma.f32 (32bit x2) n8 : 0.302 31748.3 31748.3 NEON vmul.f32 (32bit x4) n8 : 0.605 15866.4 15866.4 NEON vadd.f32 (32bit x4) n8 : 0.605 15874.0 15874.0 NEON vmla.f32 (32bit x4) n8 : 0.605 31748.2 31748.2 NEON vfma.f32 (32bit x4) n8 : 0.605 31748.1 31748.1 VFP fmuls (32bit x1) ns4 : 0.605 3966.1 3966.1 VFP fadds (32bit x1) ns4 : 0.605 3968.7 3968.7 VFP fmacs (32bit x1) ns4 : 1.059 4533.9 4533.9 VFP vfma.f32 (32bit x1) ns4 : 1.058 4535.3 4535.3 NEON vmul.f32 (32bit x2) ns4 : 0.605 7937.1 7937.1 NEON vadd.f32 (32bit x2) ns4 : 0.605 7932.8 7932.8 NEON vmla.f32 (32bit x2) ns4 : 1.058 9070.7 9070.7 NEON vfma.f32 (32bit x2) ns4 : 1.058 9070.2 9070.2 NEON vmul.f32 (32bit x4) ns4 : 0.605 15878.7 15878.7 NEON vadd.f32 (32bit x4) ns4 : 0.605 15878.1 15878.1 NEON vmla.f32 (32bit x4) ns4 : 1.058 18145.1 18145.1 NEON vfma.f32 (32bit x4) ns4 : 1.058 18145.7 18145.7 VFP fmuls (32bit x1) n1 : 0.302 7938.3 7938.3 VFP fadds (32bit x1) n1 : 0.302 7939.1 7939.1 VFP fmacs (32bit x1) n1 : 1.815 2645.3 2645.3 VFP vfma.f32 (32bit x1) n1 : 1.814 2646.3 2646.3 NEON vmul.f32 (32bit x2) n1 : 0.302 15872.9 15872.9 NEON vadd.f32 (32bit x2) n1 : 0.302 15883.3 15883.3 NEON vmla.f32 (32bit x2) n1 : 1.814 5292.1 5292.1 NEON vfma.f32 (32bit x2) n1 : 1.814 5292.7 5292.7 NEON vmul.f32 (32bit x4) n1 : 0.605 15877.9 15877.9 NEON vadd.f32 (32bit x4) n1 : 0.605 15878.7 15878.7 NEON vmla.f32 (32bit x4) n1 : 1.814 10585.1 10585.1 NEON vfma.f32 (32bit x4) n1 : 1.814 10585.2 10585.2 NEON vmul.f32 (32bit x4) n12 : 0.907 15878.5 15878.5 NEON vadd.f32 (32bit x4) n12 : 0.907 15879.7 15879.7 NEON vmla.f32 (32bit x4) n12 : 0.907 31751.7 31751.7 NEON vfma.f32 (32bit x4) n12 : 0.907 31756.4 31756.4 平均 : 0.795 14201.6 14201.6 最大 : 0.302 31756.4 31756.4 * VFP/NEON (倍精度 fp) multi-thread VFP fmuld (64bit x1) n8 : 0.351 6828.9 6828.9 VFP faddd (64bit x1) n8 : 0.302 7940.0 7940.0 VFP fmacd (64bit x1) n8 : 0.302 15882.3 15882.3 VFP vfma.f64 (64bit x1) n8 : 0.302 15879.8 15879.8 VFP fmuld (64bit x1) ns4 : 0.605 3970.0 3970.0 VFP faddd (64bit x1) ns4 : 0.605 3969.6 3969.6 VFP fmacd (64bit x1) ns4 : 1.058 4537.5 4537.5 VFP vfma.f64 (64bit x1) ns4 : 1.058 4537.7 4537.7 VFP fmuld (64bit x1) n1 : 0.302 7940.4 7940.4 VFP faddd (64bit x1) n1 : 0.302 7941.1 7941.1 VFP fmacd (64bit x1) n1 : 1.813 2647.4 2647.4 VFP vfma.f64 (64bit x1) n1 : 1.813 2647.0 2647.0 平均 : 0.734 7060.1 7060.1 最大 : 0.302 15882.3 15882.3 * Matrix 4x4 (単精度 fp) multi-thread C++ code : 0.223 16061.2 16061.2 NEON vmla 128bit A : 0.210 17055.8 17055.8 NEON vmla 64bit A : 0.274 13059.0 13059.0 NEON vfma 128bit A : 0.297 12057.1 12057.1 NEON vmla 128bit B : 0.218 16414.2 16414.2 NEON vmla 64bit B : 0.299 12001.6 12001.6 NEON vfma 128bit B : 0.316 11341.3 11341.3 NEON vfma 128bit C : 0.289 12422.7 12422.7 平均 : 0.266 13801.6 13801.6 最大 : 0.210 17055.8 17055.8
Qualcomm Krait (ARMv7A) VFPv4+NEON
HTC J butterfly HTL21 Snapdragon S4 Pro APQ8064 Krait 1.5GHz Quad core
HTC J butterfly HTL21 Snapdragon S4 Pro APQ8064 Krait 1.5GHz Quad core ARCH: ARMv7A CPU core: 4 VFP: VFPv4-D32 NEON FMA: Yes NEON: Yes Result SingleT SP max: 11.883 GFLOPS SingleT DP max: 2.967 GFLOPS MultiT SP max: 46.954 GFLOPS MultiT DP max: 11.778 GFLOPS * VFP/NEON (単精度 fp) single-thread VFP fmuls (32bit x1) n8 : 1.030 1164.9 1164.9 VFP fadds (32bit x1) n8 : 0.823 1458.2 1458.2 VFP fmacs (32bit x1) n8 : 1.904 1260.4 1260.4 VFP vfma.f32 (32bit x1) n8 : 0.817 2938.8 2938.8 NEON vmul.f32 (32bit x2) n8 : 0.869 2762.2 2762.2 NEON vadd.f32 (32bit x2) n8 : 0.816 2940.5 2940.5 NEON vmla.f32 (32bit x2) n8 : 1.641 2925.2 2925.2 NEON vfma.f32 (32bit x2) n8 : 0.823 5832.9 5832.9 NEON vmul.f32 (32bit x4) n8 : 0.808 5942.6 5942.6 NEON vadd.f32 (32bit x4) n8 : 0.809 5936.1 5936.1 NEON vmla.f32 (32bit x4) n8 : 1.625 5909.3 5909.3 NEON vfma.f32 (32bit x4) n8 : 0.808 11883.5 11883.5 VFP fmuls (32bit x1) ns4 : 1.016 1181.4 1181.4 VFP fadds (32bit x1) ns4 : 1.010 1188.1 1188.1 VFP fmacs (32bit x1) ns4 : 1.863 1288.1 1288.1 VFP vfma.f32 (32bit x1) ns4 : 1.096 2189.2 2189.2 NEON vmul.f32 (32bit x2) ns4 : 1.060 2263.4 2263.4 NEON vadd.f32 (32bit x2) ns4 : 1.041 2306.2 2306.2 NEON vmla.f32 (32bit x2) ns4 : 1.975 2430.3 2430.3 NEON vfma.f32 (32bit x2) ns4 : 1.019 4712.3 4712.3 NEON vmul.f32 (32bit x4) ns4 : 1.111 4319.8 4319.8 NEON vadd.f32 (32bit x4) ns4 : 1.010 4751.4 4751.4 NEON vmla.f32 (32bit x4) ns4 : 1.870 5133.7 5133.7 NEON vfma.f32 (32bit x4) ns4 : 1.028 9341.1 9341.1 VFP fmuls (32bit x1) n1 : 0.845 1420.0 1420.0 VFP fadds (32bit x1) n1 : 0.881 1361.9 1361.9 VFP fmacs (32bit x1) n1 : 4.360 550.5 550.5 VFP vfma.f32 (32bit x1) n1 : 3.417 702.4 702.4 NEON vmul.f32 (32bit x2) n1 : 0.873 2750.0 2750.0 NEON vadd.f32 (32bit x2) n1 : 0.870 2757.8 2757.8 NEON vmla.f32 (32bit x2) n1 : 4.269 1124.3 1124.3 NEON vfma.f32 (32bit x2) n1 : 3.428 1400.3 1400.3 NEON vmul.f32 (32bit x4) n1 : 0.817 5877.8 5877.8 NEON vadd.f32 (32bit x4) n1 : 0.818 5867.7 5867.7 NEON vmla.f32 (32bit x4) n1 : 4.385 2189.3 2189.3 NEON vfma.f32 (32bit x4) n1 : 3.515 2731.2 2731.2 NEON vmul.f32 (32bit x4) n12 : 1.281 5621.8 5621.8 NEON vadd.f32 (32bit x4) n12 : 1.240 5807.3 5807.3 NEON vmla.f32 (32bit x4) n12 : 2.530 5690.7 5690.7 NEON vfma.f32 (32bit x4) n12 : 1.245 11563.3 11563.3 平均 : 1.566 3736.9 3736.9 最大 : 0.808 11883.5 11883.5 * VFP/NEON (倍精度 fp) single-thread VFP fmuld (64bit x1) n8 : 1.073 1118.1 1118.1 VFP faddd (64bit x1) n8 : 0.920 1304.1 1304.1 VFP fmacd (64bit x1) n8 : 1.702 1410.3 1410.3 VFP vfma.f64 (64bit x1) n8 : 0.809 2967.4 2967.4 VFP fmuld (64bit x1) ns4 : 1.485 808.1 808.1 VFP faddd (64bit x1) ns4 : 1.446 829.8 829.8 VFP fmacd (64bit x1) ns4 : 2.832 847.5 847.5 VFP vfma.f64 (64bit x1) ns4 : 1.603 1496.9 1496.9 VFP fmuld (64bit x1) n1 : 0.822 1459.3 1459.3 VFP faddd (64bit x1) n1 : 0.818 1467.0 1467.0 VFP fmacd (64bit x1) n1 : 5.841 410.9 410.9 VFP vfma.f64 (64bit x1) n1 : 5.000 480.0 480.0 平均 : 2.029 1216.6 1216.6 最大 : 0.809 2967.4 2967.4 * Matrix 4x4 (単精度 fp) single-thread C++ code : 0.609 2940.3 2940.3 NEON vmla 128bit A : 0.637 2815.3 2815.3 NEON vmla 64bit A : 0.974 1839.6 1839.6 NEON vfma 128bit A : 0.999 1794.2 1794.2 NEON vmla 128bit B : 0.475 3773.0 3773.0 NEON vmla 64bit B : 0.816 2196.1 2196.1 NEON vfma 128bit B : 0.348 5152.2 5152.2 NEON vfma 128bit C : 0.941 1905.2 1905.2 平均 : 0.725 2802.0 2802.0 最大 : 0.348 5152.2 5152.2 * VFP/NEON (単精度 fp) multi-thread VFP fmuls (32bit x1) n8 : 0.948 5062.5 5062.5 VFP fadds (32bit x1) n8 : 0.830 5782.9 5782.9 VFP fmacs (32bit x1) n8 : 1.635 5872.9 5872.9 VFP vfma.f32 (32bit x1) n8 : 0.818 11729.3 11729.3 NEON vmul.f32 (32bit x2) n8 : 0.819 11727.3 11727.3 NEON vadd.f32 (32bit x2) n8 : 0.820 11713.3 11713.3 NEON vmla.f32 (32bit x2) n8 : 1.633 11759.6 11759.6 NEON vfma.f32 (32bit x2) n8 : 0.817 23500.9 23500.9 NEON vmul.f32 (32bit x4) n8 : 0.815 23565.3 23565.3 NEON vadd.f32 (32bit x4) n8 : 0.819 23430.6 23430.6 NEON vmla.f32 (32bit x4) n8 : 1.637 23463.1 23463.1 NEON vfma.f32 (32bit x4) n8 : 0.818 46954.3 46954.3 VFP fmuls (32bit x1) ns4 : 1.024 4685.7 4685.7 VFP fadds (32bit x1) ns4 : 1.020 4704.3 4704.3 VFP fmacs (32bit x1) ns4 : 1.841 5215.2 5215.2 VFP vfma.f32 (32bit x1) ns4 : 1.024 9372.7 9372.7 NEON vmul.f32 (32bit x2) ns4 : 1.017 9437.1 9437.1 NEON vadd.f32 (32bit x2) ns4 : 1.036 9267.1 9267.1 NEON vmla.f32 (32bit x2) ns4 : 1.844 10414.9 10414.9 NEON vfma.f32 (32bit x2) ns4 : 1.028 18671.2 18671.2 NEON vmul.f32 (32bit x4) ns4 : 1.021 18813.7 18813.7 NEON vadd.f32 (32bit x4) ns4 : 1.020 18830.2 18830.2 NEON vmla.f32 (32bit x4) ns4 : 1.841 20856.5 20856.5 NEON vfma.f32 (32bit x4) ns4 : 1.019 37682.9 37682.9 VFP fmuls (32bit x1) n1 : 0.822 5838.7 5838.7 VFP fadds (32bit x1) n1 : 0.812 5911.3 5911.3 VFP fmacs (32bit x1) n1 : 4.089 2347.9 2347.9 VFP vfma.f32 (32bit x1) n1 : 3.270 2935.5 2935.5 NEON vmul.f32 (32bit x2) n1 : 0.818 11737.0 11737.0 NEON vadd.f32 (32bit x2) n1 : 0.816 11766.8 11766.8 NEON vmla.f32 (32bit x2) n1 : 4.113 4667.6 4667.6 NEON vfma.f32 (32bit x2) n1 : 3.277 5859.6 5859.6 NEON vmul.f32 (32bit x4) n1 : 0.817 23492.3 23492.3 NEON vadd.f32 (32bit x4) n1 : 0.821 23390.3 23390.3 NEON vmla.f32 (32bit x4) n1 : 4.102 9361.0 9361.0 NEON vfma.f32 (32bit x4) n1 : 3.273 11730.8 11730.8 NEON vmul.f32 (32bit x4) n12 : 1.228 23453.0 23453.0 NEON vadd.f32 (32bit x4) n12 : 1.230 23419.4 23419.4 NEON vmla.f32 (32bit x4) n12 : 2.451 23497.0 23497.0 NEON vfma.f32 (32bit x4) n12 : 1.245 46270.9 46270.9 平均 : 1.508 15204.8 15204.8 最大 : 0.812 46954.3 46954.3 * VFP/NEON (倍精度 fp) multi-thread VFP fmuld (64bit x1) n8 : 1.028 4669.3 4669.3 VFP faddd (64bit x1) n8 : 0.834 5753.2 5753.2 VFP fmacd (64bit x1) n8 : 1.633 5879.2 5879.2 VFP vfma.f64 (64bit x1) n8 : 0.815 11777.9 11777.9 VFP fmuld (64bit x1) ns4 : 1.430 3357.6 3357.6 VFP faddd (64bit x1) ns4 : 1.432 3351.9 3351.9 VFP fmacd (64bit x1) ns4 : 2.659 3610.1 3610.1 VFP vfma.f64 (64bit x1) ns4 : 1.430 6712.4 6712.4 VFP fmuld (64bit x1) n1 : 0.821 5849.3 5849.3 VFP faddd (64bit x1) n1 : 0.812 5908.9 5908.9 VFP fmacd (64bit x1) n1 : 5.739 1672.7 1672.7 VFP vfma.f64 (64bit x1) n1 : 4.949 1939.7 1939.7 平均 : 1.965 5040.2 5040.2 最大 : 0.812 11777.9 11777.9 * Matrix 4x4 (単精度 fp) multi-thread C++ code : 0.605 11854.4 11854.4 NEON vmla 128bit A : 0.638 11240.0 11240.0 NEON vmla 64bit A : 0.903 7935.9 7935.9 NEON vfma 128bit A : 0.942 7609.5 7609.5 NEON vmla 128bit B : 0.479 14978.3 14978.3 NEON vmla 64bit B : 0.758 9456.1 9456.1 NEON vfma 128bit B : 0.350 20507.3 20507.3 NEON vfma 128bit C : 0.943 7605.2 7605.2 平均 : 0.702 11398.4 11398.4 最大 : 0.350 20507.3 20507.3
Nexus 7 (2013) Snapdragon S4 Pro APQ8064 Krait 1.5GHz Quad core
Nexus 7 (2013) Snapdragon S4 Pro APQ8064 Krait 1.5GHz Quad core ARCH: ARMv7-A CPU core: 4 VFP: VFPv4-D32 NEON FMA: Yes NEON: Yes SingleT SP max: 11.947 GFLOPS SingleT DP max: 3.005 GFLOPS MultiT SP max: 47.808 GFLOPS MultiT DP max: 11.751 GFLOPS * VFP/NEON (single fp) VFP fmuls (32bit x1) n8 : 1.427 1401.7 1401.7 VFP fadds (32bit x1) n8 : 1.366 1464.5 1470.9 VFP fmacs (32bit x1) n8 : 1.482 2698.2 2698.2 VFP vfma.f32 (32bit x1) n8 : 1.342 2979.8 2979.8 NEON vmul.f32 (32bit x2) n8 : 1.341 2981.8 2981.8 NEON vadd.f32 (32bit x2) n8 : 1.342 2981.6 2981.6 NEON vmla.f32 (32bit x2) n8 : 1.474 5427.5 5427.5 NEON vfma.f32 (32bit x2) n8 : 1.340 5971.1 5971.1 NEON vmul.f32 (32bit x4) n8 : 1.337 5983.7 5983.7 NEON vadd.f32 (32bit x4) n8 : 1.338 5980.8 5980.8 NEON vmla.f32 (32bit x4) n8 : 1.472 10869.5 10869.5 NEON vfma.f32 (32bit x4) n8 : 1.339 11946.6 11946.6 VFP fmuls (32bit x1) ns4 : 1.674 1194.4 1194.4 VFP fadds (32bit x1) ns4 : 1.338 1495.0 1495.0 VFP fmacs (32bit x1) ns4 : 2.678 1493.8 1493.8 VFP vfma.f32 (32bit x1) ns4 : 1.686 2372.1 2389.4 NEON vmul.f32 (32bit x2) ns4 : 1.692 2363.9 2390.4 NEON vadd.f32 (32bit x2) ns4 : 1.345 2974.7 2980.4 NEON vmla.f32 (32bit x2) ns4 : 2.686 2978.1 2981.7 NEON vfma.f32 (32bit x2) ns4 : 1.668 4797.3 4797.3 NEON vmul.f32 (32bit x4) ns4 : 1.665 4804.6 4804.6 NEON vadd.f32 (32bit x4) ns4 : 1.335 5994.7 5994.7 NEON vmla.f32 (32bit x4) ns4 : 2.686 5956.3 5956.7 NEON vfma.f32 (32bit x4) ns4 : 1.664 9618.0 9618.0 VFP fmuls (32bit x1) n1 : 1.353 1477.8 1492.7 VFP fadds (32bit x1) n1 : 1.342 1490.8 1493.3 VFP fmacs (32bit x1) n1 : 4.015 996.2 996.2 VFP vfma.f32 (32bit x1) n1 : 5.396 741.3 744.7 NEON vmul.f32 (32bit x2) n1 : 1.352 2957.7 2986.7 NEON vadd.f32 (32bit x2) n1 : 1.359 2942.6 2986.2 NEON vmla.f32 (32bit x2) n1 : 4.007 1996.6 1996.6 NEON vfma.f32 (32bit x2) n1 : 5.322 1503.2 1503.2 NEON vmul.f32 (32bit x4) n1 : 1.330 6014.1 6014.1 NEON vadd.f32 (32bit x4) n1 : 1.330 6015.1 6015.1 NEON vmla.f32 (32bit x4) n1 : 3.993 4006.7 4006.7 NEON vfma.f32 (32bit x4) n1 : 5.314 3011.0 3011.0 NEON vmul.f32 (32bit x4) n12 : 2.020 5941.3 5975.1 NEON vadd.f32 (32bit x4) n12 : 2.014 5957.5 5976.0 NEON vmla.f32 (32bit x4) n12 : 2.239 10720.3 10867.7 NEON vfma.f32 (32bit x4) n12 : 2.018 11894.2 11946.9 平均 : 2.078 4359.9 4370.0 最大 : 1.330 11946.6 11946.9 * VFP/NEON (double fp) VFP fmuld (64bit x1) n8 : 1.442 1386.9 1396.2 VFP faddd (64bit x1) n8 : 1.395 1433.4 1484.3 VFP fmacd (64bit x1) n8 : 1.750 2285.2 2305.8 VFP vfma.f64 (64bit x1) n8 : 1.344 2976.6 3005.1 VFP fmuld (64bit x1) ns4 : 2.016 991.8 993.1 VFP faddd (64bit x1) ns4 : 1.346 1486.1 1507.2 VFP fmacd (64bit x1) ns4 : 3.349 1194.3 1204.6 VFP vfma.f64 (64bit x1) ns4 : 2.008 1992.4 2007.5 VFP fmuld (64bit x1) n1 : 1.359 1471.5 1505.1 VFP faddd (64bit x1) n1 : 1.338 1495.1 1506.6 VFP fmacd (64bit x1) n1 : 4.006 998.5 1002.7 VFP vfma.f64 (64bit x1) n1 : 8.013 499.2 501.8 平均 : 2.447 1517.6 1535.0 最大 : 1.338 2976.6 3005.1 * Matrix 4x4 (single fp) C++ code : - - - NEON vmla 128bit A : - - - NEON vmla 64bit A : - - - NEON vfma 128bit A : - - - NEON vmla 128bit B : - - - NEON vmla 64bit B : - - - NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - 平均 : - - - 最大 : - - - * VFP/NEON (single fp) multi-thread VFP fmuls (32bit x1) n8 : 1.492 5362.2 5408.2 VFP fadds (32bit x1) n8 : 1.376 5814.9 5853.1 VFP fmacs (32bit x1) n8 : 1.511 10590.0 10671.8 VFP vfma.f32 (32bit x1) n8 : 1.398 11448.9 11737.7 NEON vmul.f32 (32bit x2) n8 : 1.392 11498.2 11745.9 NEON vadd.f32 (32bit x2) n8 : 1.366 11709.8 11744.6 NEON vmla.f32 (32bit x2) n8 : 1.498 21364.2 21364.2 NEON vfma.f32 (32bit x2) n8 : 1.364 23453.8 23475.5 NEON vmul.f32 (32bit x4) n8 : 1.362 23495.7 23495.7 NEON vadd.f32 (32bit x4) n8 : 1.359 23546.0 23546.0 NEON vmla.f32 (32bit x4) n8 : 1.501 42637.6 42821.7 NEON vfma.f32 (32bit x4) n8 : 1.364 46929.6 47113.2 VFP fmuls (32bit x1) ns4 : 1.703 4697.2 4698.8 VFP fadds (32bit x1) ns4 : 1.364 5866.8 5872.4 VFP fmacs (32bit x1) ns4 : 2.720 5881.7 5886.1 VFP vfma.f32 (32bit x1) ns4 : 1.703 9397.4 9399.2 NEON vmul.f32 (32bit x2) ns4 : 1.706 9376.4 9376.4 NEON vadd.f32 (32bit x2) ns4 : 1.361 11754.6 11812.0 NEON vmla.f32 (32bit x2) ns4 : 2.717 11779.3 11779.3 NEON vfma.f32 (32bit x2) ns4 : 1.706 18758.0 18806.6 NEON vmul.f32 (32bit x4) ns4 : 1.708 18732.0 18794.0 NEON vadd.f32 (32bit x4) ns4 : 1.363 23469.1 23534.9 NEON vmla.f32 (32bit x4) ns4 : 2.719 23539.2 23539.2 NEON vfma.f32 (32bit x4) ns4 : 1.704 37566.9 37566.9 VFP fmuls (32bit x1) n1 : 1.363 5870.1 5870.6 VFP fadds (32bit x1) n1 : 1.372 5832.7 5837.8 VFP fmacs (32bit x1) n1 : 4.069 3932.0 3932.0 VFP vfma.f32 (32bit x1) n1 : 5.455 2933.3 2940.9 NEON vmul.f32 (32bit x2) n1 : 1.364 11728.3 11765.0 NEON vadd.f32 (32bit x2) n1 : 1.366 11711.7 11764.3 NEON vmla.f32 (32bit x2) n1 : 4.082 7839.4 7856.3 NEON vfma.f32 (32bit x2) n1 : 5.489 5830.3 5875.7 NEON vmul.f32 (32bit x4) n1 : 1.377 23237.3 23442.3 NEON vadd.f32 (32bit x4) n1 : 1.387 23065.4 23570.1 NEON vmla.f32 (32bit x4) n1 : 4.145 15441.5 15661.5 NEON vfma.f32 (32bit x4) n1 : 5.453 11736.4 11780.6 NEON vmul.f32 (32bit x4) n12 : 2.055 23357.0 23478.6 NEON vadd.f32 (32bit x4) n12 : 2.049 23431.6 23506.6 NEON vmla.f32 (32bit x4) n12 : 2.251 42643.0 43352.0 NEON vfma.f32 (32bit x4) n12 : 2.025 47413.8 47807.6 平均 : 2.119 17116.8 17212.1 最大 : 1.359 47413.8 47807.6 * VFP/NEON (double fp) multi-thread VFP fmuld (64bit x1) n8 : 1.505 5315.8 5315.8 VFP faddd (64bit x1) n8 : 1.369 5844.3 5844.3 VFP fmacd (64bit x1) n8 : 1.772 9031.8 9031.8 VFP vfma.f64 (64bit x1) n8 : 1.362 11751.1 11751.1 VFP fmuld (64bit x1) ns4 : 2.040 3921.7 3921.7 VFP faddd (64bit x1) ns4 : 1.367 5853.2 5853.2 VFP fmacd (64bit x1) ns4 : 3.403 4701.8 4701.8 VFP vfma.f64 (64bit x1) ns4 : 2.042 7833.9 7833.9 VFP fmuld (64bit x1) n1 : 1.362 5875.5 5875.5 VFP faddd (64bit x1) n1 : 1.360 5880.3 5880.3 VFP fmacd (64bit x1) n1 : 4.078 3923.5 3923.5 VFP vfma.f64 (64bit x1) n1 : 8.146 1964.1 1964.1 平均 : 2.484 5991.4 5991.4 最大 : 1.360 11751.1 11751.1 * Matrix 4x4 (single fp) multi-thread C++ code : - - - NEON vmla 128bit A : - - - NEON vmla 64bit A : - - - NEON vfma 128bit A : - - - NEON vmla 128bit B : - - - NEON vmla 64bit B : - - - NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - 平均 : - - - 最大 : - - -
Kindle Fire HDX7 Snapdragon 800 MSM8974 Krait 400 2.2GHz Quad core
Kindle Fire HDX7 Snapdragon 800 MSM8974 Krait 400 2.2GHz Quad core ARCH: ARMv7A CPU core: 4 VFP: VFPv4-D32 NEON FMA: Yes NEON: Yes SingleT SP max: 17.128 GFLOPS SingleT DP max: 4.289 GFLOPS MultiT SP max: 67.539 GFLOPS MultiT DP max: 16.874 GFLOPS * VFP/NEON (single fp) VFP fmuls (32bit x1) n8 : 1.955 2045.7 2045.7 VFP fadds (32bit x1) n8 : 1.873 2135.6 2135.6 VFP fmacs (32bit x1) n8 : 2.060 3884.2 3884.2 VFP vfma.f32 (32bit x1) n8 : 1.871 4276.0 4276.0 NEON vmul.f32 (32bit x2) n8 : 1.871 4275.7 4275.7 NEON vadd.f32 (32bit x2) n8 : 1.878 4259.8 4259.8 NEON vmla.f32 (32bit x2) n8 : 2.126 7525.2 7525.2 NEON vfma.f32 (32bit x2) n8 : 1.933 8275.7 8275.7 NEON vmul.f32 (32bit x4) n8 : 1.896 8438.3 8438.3 NEON vadd.f32 (32bit x4) n8 : 1.869 8560.7 8560.7 NEON vmla.f32 (32bit x4) n8 : 2.114 15138.8 15138.8 NEON vfma.f32 (32bit x4) n8 : 1.900 16843.9 16843.9 VFP fmuls (32bit x1) ns4 : 2.414 1657.0 1657.0 VFP fadds (32bit x1) ns4 : 1.867 2143.0 2143.0 VFP fmacs (32bit x1) ns4 : 3.736 2141.3 2141.3 VFP vfma.f32 (32bit x1) ns4 : 2.410 3319.0 3319.0 NEON vmul.f32 (32bit x2) ns4 : 2.395 3340.4 3340.4 NEON vadd.f32 (32bit x2) ns4 : 1.891 4229.8 4229.8 NEON vmla.f32 (32bit x2) ns4 : 3.817 4191.5 4191.5 NEON vfma.f32 (32bit x2) ns4 : 2.351 6807.0 6807.0 NEON vmul.f32 (32bit x4) ns4 : 2.387 6702.4 6702.4 NEON vadd.f32 (32bit x4) ns4 : 1.887 8477.9 8477.9 NEON vmla.f32 (32bit x4) ns4 : 3.838 8337.0 8337.0 NEON vfma.f32 (32bit x4) ns4 : 2.360 13559.9 13559.9 VFP fmuls (32bit x1) n1 : 1.883 2124.7 2124.7 VFP fadds (32bit x1) n1 : 1.868 2140.8 2140.8 VFP fmacs (32bit x1) n1 : 5.722 1398.0 1398.0 VFP vfma.f32 (32bit x1) n1 : 7.529 1062.6 1062.6 NEON vmul.f32 (32bit x2) n1 : 1.900 4210.0 4210.0 NEON vadd.f32 (32bit x2) n1 : 1.939 4126.9 4126.9 NEON vmla.f32 (32bit x2) n1 : 5.626 2843.8 2843.8 NEON vfma.f32 (32bit x2) n1 : 7.472 2141.3 2141.3 NEON vmul.f32 (32bit x4) n1 : 1.871 8549.3 8549.3 NEON vadd.f32 (32bit x4) n1 : 1.869 8559.9 8559.9 NEON vmla.f32 (32bit x4) n1 : 5.663 5650.8 5650.8 NEON vfma.f32 (32bit x4) n1 : 7.559 4233.4 4233.4 NEON vmul.f32 (32bit x4) n12 : 2.833 8471.3 8471.3 NEON vadd.f32 (32bit x4) n12 : 2.869 8365.3 8365.3 NEON vmla.f32 (32bit x4) n12 : 3.140 15285.2 15285.2 NEON vfma.f32 (32bit x4) n12 : 2.802 17128.0 17128.0 平均 : 2.931 6171.4 6171.4 最大 : 1.867 17128.0 17128.0 * VFP/NEON (double fp) VFP fmuld (64bit x1) n8 : 2.037 1963.6 1963.6 VFP faddd (64bit x1) n8 : 1.920 2082.8 2082.8 VFP fmacd (64bit x1) n8 : 2.454 3260.5 3260.5 VFP vfma.f64 (64bit x1) n8 : 1.865 4289.4 4289.4 VFP fmuld (64bit x1) ns4 : 2.822 1417.2 1417.2 VFP faddd (64bit x1) ns4 : 1.866 2143.7 2143.7 VFP fmacd (64bit x1) ns4 : 4.664 1715.3 1715.3 VFP vfma.f64 (64bit x1) ns4 : 2.798 2859.3 2859.3 VFP fmuld (64bit x1) n1 : 1.867 2142.5 2142.5 VFP faddd (64bit x1) n1 : 1.866 2143.6 2143.6 VFP fmacd (64bit x1) n1 : 5.624 1422.6 1422.6 VFP vfma.f64 (64bit x1) n1 : 11.416 700.8 700.8 平均 : 3.433 2178.4 2178.4 最大 : 1.865 4289.4 4289.4 * Matrix 4x4 (single fp) C++ code : - - - NEON vmla 128bit A : - - - NEON vmla 64bit A : - - - NEON vfma 128bit A : - - - NEON vmla 128bit B : - - - NEON vmla 64bit B : - - - NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - 平均 : - - - 最大 : - - - * VFP/NEON (single fp) multi-thread VFP fmuls (32bit x1) n8 : 1.966 8138.7 8138.7 VFP fadds (32bit x1) n8 : 1.907 8390.7 8413.0 VFP fmacs (32bit x1) n8 : 2.089 15317.8 15324.0 VFP vfma.f32 (32bit x1) n8 : 1.896 16873.4 16890.0 NEON vmul.f32 (32bit x2) n8 : 1.898 16856.6 16856.6 NEON vadd.f32 (32bit x2) n8 : 1.901 16835.3 16903.2 NEON vmla.f32 (32bit x2) n8 : 2.090 30621.3 30655.0 NEON vfma.f32 (32bit x2) n8 : 1.910 33510.2 33769.1 NEON vmul.f32 (32bit x4) n8 : 1.900 33683.4 33745.6 NEON vadd.f32 (32bit x4) n8 : 1.897 33746.1 33746.1 NEON vmla.f32 (32bit x4) n8 : 2.085 61387.1 61387.1 NEON vfma.f32 (32bit x4) n8 : 1.901 67348.8 67539.0 VFP fmuls (32bit x1) ns4 : 2.369 6753.2 6753.2 VFP fadds (32bit x1) ns4 : 1.902 8410.8 8440.4 VFP fmacs (32bit x1) ns4 : 3.792 8438.2 8438.2 VFP vfma.f32 (32bit x1) ns4 : 2.376 13466.8 13466.8 NEON vmul.f32 (32bit x2) ns4 : 2.372 13491.1 13491.1 NEON vadd.f32 (32bit x2) ns4 : 1.883 16992.2 16992.2 NEON vmla.f32 (32bit x2) ns4 : 3.808 16807.5 16876.2 NEON vfma.f32 (32bit x2) ns4 : 2.372 26985.8 26985.8 NEON vmul.f32 (32bit x4) ns4 : 2.373 26975.5 26999.5 NEON vadd.f32 (32bit x4) ns4 : 1.897 33736.3 33741.2 NEON vmla.f32 (32bit x4) ns4 : 3.792 33751.1 33751.1 NEON vfma.f32 (32bit x4) ns4 : 2.384 53698.8 53938.5 VFP fmuls (32bit x1) n1 : 1.894 8446.0 8446.0 VFP fadds (32bit x1) n1 : 1.897 8435.5 8435.5 VFP fmacs (32bit x1) n1 : 5.689 5624.8 5629.3 VFP vfma.f32 (32bit x1) n1 : 7.588 4217.3 4234.9 NEON vmul.f32 (32bit x2) n1 : 1.897 16865.2 16865.2 NEON vadd.f32 (32bit x2) n1 : 1.897 16872.7 16872.7 NEON vmla.f32 (32bit x2) n1 : 5.689 11250.3 11268.6 NEON vfma.f32 (32bit x2) n1 : 7.584 8438.9 8438.9 NEON vmul.f32 (32bit x4) n1 : 1.909 33517.0 33723.8 NEON vadd.f32 (32bit x4) n1 : 1.899 33708.2 33735.9 NEON vmla.f32 (32bit x4) n1 : 5.653 22642.2 22642.2 NEON vfma.f32 (32bit x4) n1 : 7.583 16879.9 16879.9 NEON vmul.f32 (32bit x4) n12 : 2.846 33735.1 33735.1 NEON vadd.f32 (32bit x4) n12 : 2.846 33736.7 33736.7 NEON vmla.f32 (32bit x4) n12 : 3.143 61093.9 61325.7 NEON vfma.f32 (32bit x4) n12 : 2.883 66598.4 67505.6 平均 : 2.941 24607.0 24667.9 最大 : 1.883 67348.8 67539.0 * VFP/NEON (double fp) multi-thread VFP fmuld (64bit x1) n8 : 1.995 8019.2 8019.2 VFP faddd (64bit x1) n8 : 1.900 8420.7 8420.7 VFP fmacd (64bit x1) n8 : 2.463 12991.2 12991.2 VFP vfma.f64 (64bit x1) n8 : 1.896 16874.0 16874.0 VFP fmuld (64bit x1) ns4 : 2.854 5606.7 5606.7 VFP faddd (64bit x1) ns4 : 1.908 8384.5 8384.5 VFP fmacd (64bit x1) ns4 : 4.859 6585.5 6585.5 VFP vfma.f64 (64bit x1) ns4 : 2.856 11204.4 11204.4 VFP fmuld (64bit x1) n1 : 1.897 8435.4 8435.4 VFP faddd (64bit x1) n1 : 1.909 8381.4 8381.4 VFP fmacd (64bit x1) n1 : 5.685 5628.7 5628.7 VFP vfma.f64 (64bit x1) n1 : 11.388 2810.0 2810.0 平均 : 3.468 8611.8 8611.8 最大 : 1.896 16874.0 16874.0 * Matrix 4x4 (single fp) multi-thread C++ code : - - - NEON vmla 128bit A : - - - NEON vmla 64bit A : - - - NEON vfma 128bit A : - - - NEON vmla 128bit B : - - - NEON vmla 64bit B : - - - NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - 平均 : - - - 最大 : - - -
Nexus 6 Snapdragon 805 APQ8084 Krait 2.7GHz Quad core
Nexus 6 Snapdragon 805 APQ8084 Krait 2.7GHz Quad core ARCH: ARMv7A CPU core: 4 VFP: VFPv4-D32 NEON FMA: Yes NEON: Yes Result SingleT SP max: 15.575 GFLOPS SingleT DP max: 4.547 GFLOPS MultiT SP max: 64.316 GFLOPS MultiT DP max: 20.393 GFLOPS * VFP/NEON (単精度 fp) single-thread VFP fmuls (32bit x1) n8 : 0.573 2092.5 2092.5 VFP fadds (32bit x1) n8 : 0.483 2485.8 2485.8 VFP fmacs (32bit x1) n8 : 0.531 4521.5 4521.5 VFP vfma.f32 (32bit x1) n8 : 0.494 4854.6 4854.6 NEON vmul.f32 (32bit x2) n8 : 0.479 5011.3 5011.3 NEON vadd.f32 (32bit x2) n8 : 0.488 4915.4 4915.4 NEON vmla.f32 (32bit x2) n8 : 0.576 8338.8 8338.8 NEON vfma.f32 (32bit x2) n8 : 0.498 9644.3 9644.3 NEON vmul.f32 (32bit x4) n8 : 0.671 7149.2 7149.2 NEON vadd.f32 (32bit x4) n8 : 0.495 9698.8 9698.8 NEON vmla.f32 (32bit x4) n8 : 0.669 14344.9 14344.9 NEON vfma.f32 (32bit x4) n8 : 0.616 15574.8 15574.8 VFP fmuls (32bit x1) ns4 : 0.646 1859.0 1859.0 VFP fadds (32bit x1) ns4 : 0.479 2504.6 2504.6 VFP fmacs (32bit x1) ns4 : 1.034 2321.5 2321.5 VFP vfma.f32 (32bit x1) ns4 : 0.607 3954.4 3954.4 NEON vmul.f32 (32bit x2) ns4 : 0.634 3784.6 3784.6 NEON vadd.f32 (32bit x2) ns4 : 0.549 4372.7 4372.7 NEON vmla.f32 (32bit x2) ns4 : 0.964 4980.9 4980.9 NEON vfma.f32 (32bit x2) ns4 : 0.655 7327.5 7327.5 NEON vmul.f32 (32bit x4) ns4 : 0.647 7413.9 7413.9 NEON vadd.f32 (32bit x4) ns4 : 0.490 9795.6 9795.6 NEON vmla.f32 (32bit x4) ns4 : 1.030 9324.4 9324.4 NEON vfma.f32 (32bit x4) ns4 : 0.672 14287.2 14287.2 VFP fmuls (32bit x1) n1 : 0.490 2449.0 2449.0 VFP fadds (32bit x1) n1 : 0.528 2273.1 2273.1 VFP fmacs (32bit x1) n1 : 1.482 1619.3 1619.3 VFP vfma.f32 (32bit x1) n1 : 2.028 1183.4 1183.4 NEON vmul.f32 (32bit x2) n1 : 0.524 4581.1 4581.1 NEON vadd.f32 (32bit x2) n1 : 0.528 4548.6 4548.6 NEON vmla.f32 (32bit x2) n1 : 1.516 3166.1 3166.1 NEON vfma.f32 (32bit x2) n1 : 2.028 2367.2 2367.2 NEON vmul.f32 (32bit x4) n1 : 0.638 7521.1 7521.1 NEON vadd.f32 (32bit x4) n1 : 0.545 8802.4 8802.4 NEON vmla.f32 (32bit x4) n1 : 1.536 6251.1 6251.1 NEON vfma.f32 (32bit x4) n1 : 1.946 4932.9 4932.9 NEON vmul.f32 (32bit x4) n12 : 0.935 7698.8 7698.8 NEON vadd.f32 (32bit x4) n12 : 0.790 9117.0 9117.0 NEON vmla.f32 (32bit x4) n12 : 0.932 15453.5 15453.5 NEON vfma.f32 (32bit x4) n12 : 0.935 15402.7 15402.7 平均 : 0.809 6448.1 6448.1 最大 : 0.479 15574.8 15574.8 * VFP/NEON (倍精度 fp) single-thread VFP fmuld (64bit x1) n8 : 0.517 2320.3 2320.3 VFP faddd (64bit x1) n8 : 0.487 2466.0 2466.0 VFP fmacd (64bit x1) n8 : 0.688 3490.4 3490.4 VFP vfma.f64 (64bit x1) n8 : 0.528 4546.6 4546.6 VFP fmuld (64bit x1) ns4 : 0.793 1513.4 1513.4 VFP faddd (64bit x1) ns4 : 0.505 2375.5 2375.5 VFP fmacd (64bit x1) ns4 : 1.279 1876.8 1876.8 VFP vfma.f64 (64bit x1) ns4 : 0.743 3229.2 3229.2 VFP fmuld (64bit x1) n1 : 0.468 2562.6 2562.6 VFP faddd (64bit x1) n1 : 0.484 2480.8 2480.8 VFP fmacd (64bit x1) n1 : 1.482 1619.6 1619.6 VFP vfma.f64 (64bit x1) n1 : 3.036 790.5 790.5 平均 : 0.917 2439.3 2439.3 最大 : 0.468 4546.6 4546.6 * Matrix 4x4 (単精度 fp) single-thread C++ code : 0.279 6432.9 6432.9 NEON vmla 128bit A : 0.294 6094.5 6094.5 NEON vmla 64bit A : 0.370 4848.3 4848.3 NEON vfma 128bit A : 0.546 3283.1 3283.1 NEON vmla 128bit B : 0.250 7161.8 7161.8 NEON vmla 64bit B : 0.445 4026.6 4026.6 NEON vfma 128bit B : 0.269 6653.8 6653.8 NEON vfma 128bit C : 0.551 3253.0 3253.0 平均 : 0.375 5219.2 5219.2 最大 : 0.250 7161.8 7161.8 * VFP/NEON (単精度 fp) multi-thread VFP fmuls (32bit x1) n8 : 0.564 8513.7 8513.7 VFP fadds (32bit x1) n8 : 0.478 10034.0 10034.0 VFP fmacs (32bit x1) n8 : 0.581 16534.0 16534.0 VFP vfma.f32 (32bit x1) n8 : 0.495 19405.8 19405.8 NEON vmul.f32 (32bit x2) n8 : 0.473 20295.4 20295.4 NEON vadd.f32 (32bit x2) n8 : 0.490 19590.8 19590.8 NEON vmla.f32 (32bit x2) n8 : 0.542 35416.3 35416.3 NEON vfma.f32 (32bit x2) n8 : 0.488 39348.2 39348.2 NEON vmul.f32 (32bit x4) n8 : 0.608 31566.8 31566.8 NEON vadd.f32 (32bit x4) n8 : 0.475 40385.7 40385.7 NEON vmla.f32 (32bit x4) n8 : 0.601 63845.2 63845.2 NEON vfma.f32 (32bit x4) n8 : 0.598 64207.6 64207.6 VFP fmuls (32bit x1) ns4 : 0.597 8041.7 8041.7 VFP fadds (32bit x1) ns4 : 0.479 10017.9 10017.9 VFP fmacs (32bit x1) ns4 : 1.002 9577.7 9577.7 VFP vfma.f32 (32bit x1) ns4 : 0.598 16047.9 16047.9 NEON vmul.f32 (32bit x2) ns4 : 0.596 16106.9 16106.9 NEON vadd.f32 (32bit x2) ns4 : 0.488 19665.4 19665.4 NEON vmla.f32 (32bit x2) ns4 : 0.959 20026.6 20026.6 NEON vfma.f32 (32bit x2) ns4 : 0.601 31924.0 31924.0 NEON vmul.f32 (32bit x4) ns4 : 0.603 31853.7 31853.7 NEON vadd.f32 (32bit x4) ns4 : 0.478 40201.6 40201.6 NEON vmla.f32 (32bit x4) ns4 : 0.979 39216.0 39216.0 NEON vfma.f32 (32bit x4) ns4 : 0.597 64316.3 64316.3 VFP fmuls (32bit x1) n1 : 0.478 10031.7 10031.7 VFP fadds (32bit x1) n1 : 0.473 10148.8 10148.8 VFP fmacs (32bit x1) n1 : 1.451 6614.6 6614.6 VFP vfma.f32 (32bit x1) n1 : 1.951 4919.8 4919.8 NEON vmul.f32 (32bit x2) n1 : 0.480 20000.1 20000.1 NEON vadd.f32 (32bit x2) n1 : 0.478 20079.3 20079.3 NEON vmla.f32 (32bit x2) n1 : 1.421 13513.8 13513.8 NEON vfma.f32 (32bit x2) n1 : 1.916 10023.4 10023.4 NEON vmul.f32 (32bit x4) n1 : 0.612 31358.4 31358.4 NEON vadd.f32 (32bit x4) n1 : 0.477 40250.5 40250.5 NEON vmla.f32 (32bit x4) n1 : 1.446 26564.1 26564.1 NEON vfma.f32 (32bit x4) n1 : 1.903 20180.7 20180.7 NEON vmul.f32 (32bit x4) n12 : 0.908 31726.8 31726.8 NEON vadd.f32 (32bit x4) n12 : 0.718 40127.7 40127.7 NEON vmla.f32 (32bit x4) n12 : 0.896 64287.6 64287.6 NEON vfma.f32 (32bit x4) n12 : 0.899 64087.7 64087.7 平均 : 0.772 27251.3 27251.3 最大 : 0.473 64316.3 64316.3 * VFP/NEON (倍精度 fp) multi-thread VFP fmuld (64bit x1) n8 : 0.573 8380.2 8380.2 VFP faddd (64bit x1) n8 : 0.478 10051.2 10051.2 VFP fmacd (64bit x1) n8 : 0.641 14975.0 14975.0 VFP vfma.f64 (64bit x1) n8 : 0.471 20392.6 20392.6 VFP fmuld (64bit x1) ns4 : 0.742 6472.2 6472.2 VFP faddd (64bit x1) ns4 : 0.489 9814.2 9814.2 VFP fmacd (64bit x1) ns4 : 1.193 8047.4 8047.4 VFP vfma.f64 (64bit x1) ns4 : 0.741 12953.9 12953.9 VFP fmuld (64bit x1) n1 : 0.476 10075.3 10075.3 VFP faddd (64bit x1) n1 : 0.489 9806.7 9806.7 VFP fmacd (64bit x1) n1 : 1.467 6542.2 6542.2 VFP vfma.f64 (64bit x1) n1 : 2.907 3301.8 3301.8 平均 : 0.889 10067.7 10067.7 最大 : 0.471 20392.6 20392.6 * Matrix 4x4 (単精度 fp) multi-thread C++ code : 0.313 22903.2 22903.2 NEON vmla 128bit A : 0.262 27307.0 27307.0 NEON vmla 64bit A : 0.372 19287.7 19287.7 NEON vfma 128bit A : 0.505 14185.2 14185.2 NEON vmla 128bit B : 0.276 25943.6 25943.6 NEON vmla 64bit B : 0.386 18563.1 18563.1 NEON vfma 128bit B : 0.245 29247.6 29247.6 NEON vfma 128bit C : 0.497 14414.5 14414.5 平均 : 0.357 21481.5 21481.5 最大 : 0.245 29247.6 29247.6
Apple Swift (ARMv7A) VFPv4+NEON
iPad 4 Apple A6 Swift 1.4GHz dual core
iPad 4 Apple A6 Swift 1.4GHz dual core ARCH: ARMv7A VFP: VFPv4-D32 NEON SingleT SP max: 10.855 GFLOPS SingleT DP max: 1.818 GFLOPS MultiT SP max: 21.502 GFLOPS MultiT DP max: 3.573 GFLOPS CPU core: 2 FMA: Yes NEON: Yes * VFP/NEON (single fp) VFP fmuls (32bit x1) n8 : 0.389 1029.2 1029.2 VFP fadds (32bit x1) n8 : 0.325 1229.2 1229.2 VFP fmacs (32bit x1) n8 : 0.591 1353.8 1354.9 VFP vfma.f32 (32bit x1) n8 : 0.585 1367.0 1367.0 NEON vmul.f32 (32bit x2) n8 : 0.299 2672.0 2672.0 NEON vadd.f32 (32bit x2) n8 : 0.293 2732.4 2732.4 NEON vmla.f32 (32bit x2) n8 : 0.302 5293.3 5326.4 NEON vfma.f32 (32bit x2) n8 : 0.312 5131.6 5321.1 NEON vmul.f32 (32bit x4) n8 : 0.300 5325.3 5325.3 NEON vadd.f32 (32bit x4) n8 : 0.293 5460.2 5460.2 NEON vmla.f32 (32bit x4) n8 : 0.301 10627.8 10640.6 NEON vfma.f32 (32bit x4) n8 : 0.301 10646.1 10646.1 VFP fmuls (32bit x1) ns4 : 0.587 681.9 681.9 VFP fadds (32bit x1) ns4 : 0.587 681.4 682.2 VFP fmacs (32bit x1) ns4 : 1.174 681.5 681.7 VFP vfma.f32 (32bit x1) ns4 : 1.167 685.3 685.3 NEON vmul.f32 (32bit x2) ns4 : 0.298 2682.3 2687.2 NEON vadd.f32 (32bit x2) ns4 : 0.291 2752.5 2754.9 NEON vmla.f32 (32bit x2) ns4 : 0.580 2760.6 2760.6 NEON vfma.f32 (32bit x2) ns4 : 0.581 2754.4 2756.7 NEON vmul.f32 (32bit x4) ns4 : 0.297 5379.1 5379.1 NEON vadd.f32 (32bit x4) ns4 : 0.291 5502.7 5514.2 NEON vmla.f32 (32bit x4) ns4 : 0.580 5520.1 5520.1 NEON vfma.f32 (32bit x4) ns4 : 0.581 5508.7 5516.2 VFP fmuls (32bit x1) n1 : 1.159 345.0 345.0 VFP fadds (32bit x1) n1 : 1.158 345.3 345.3 VFP fmacs (32bit x1) n1 : 2.318 345.1 345.1 VFP vfma.f32 (32bit x1) n1 : 2.317 345.2 345.2 NEON vmul.f32 (32bit x2) n1 : 0.297 2694.1 2694.1 NEON vadd.f32 (32bit x2) n1 : 0.290 2755.8 2757.2 NEON vmla.f32 (32bit x2) n1 : 2.321 689.5 689.5 NEON vfma.f32 (32bit x2) n1 : 2.322 688.9 690.7 NEON vmul.f32 (32bit x4) n1 : 0.297 5384.6 5384.8 NEON vadd.f32 (32bit x4) n1 : 0.291 5495.1 5513.0 NEON vmla.f32 (32bit x4) n1 : 2.319 1379.9 1379.9 NEON vfma.f32 (32bit x4) n1 : 2.319 1380.0 1380.0 NEON vmul.f32 (32bit x4) n12 : 0.443 5423.6 5433.7 NEON vadd.f32 (32bit x4) n12 : 0.435 5521.4 5521.4 NEON vmla.f32 (32bit x4) n12 : 0.443 10825.3 10840.8 NEON vfma.f32 (32bit x4) n12 : 0.442 10855.1 10855.1 Average : 0.762 3573.3 3581.1 Highest : 0.290 10855.1 10855.1 * VFP/NEON (double fp) VFP fmuld (64bit x1) n8 : 0.379 1056.1 1056.1 VFP faddd (64bit x1) n8 : 0.316 1265.6 1265.6 VFP fmacd (64bit x1) n8 : 0.441 1815.6 1815.6 VFP vfma.f64 (64bit x1) n8 : 0.440 1818.2 1818.2 VFP fmuld (64bit x1) ns4 : 0.439 910.7 910.7 VFP faddd (64bit x1) ns4 : 0.440 909.6 909.6 VFP fmacd (64bit x1) ns4 : 0.878 911.7 911.7 VFP vfma.f64 (64bit x1) ns4 : 0.877 911.9 911.9 VFP fmuld (64bit x1) n1 : 0.300 1333.2 1333.2 VFP faddd (64bit x1) n1 : 0.293 1363.6 1363.6 VFP fmacd (64bit x1) n1 : 3.507 228.1 228.1 VFP vfma.f64 (64bit x1) n1 : 3.479 229.9 229.9 Average : 0.982 1062.8 1062.8 Highest : 0.293 1818.2 1818.2 * Matrix 4x4 C++ code : - - - NEON vmla 128bit A : - - - NEON vmla 64bit A : - - - NEON vfma 128bit A : - - - NEON vmla 128bit B : - - - NEON vmla 64bit B : - - - NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - Average : - - - Highest : - - - * VFP/NEON (single fp) multi-thread VFP fmuls (32bit x1) n8 : 0.500 1600.5 1600.5 VFP fadds (32bit x1) n8 : 0.362 2209.1 2209.1 VFP fmacs (32bit x1) n8 : 0.606 2638.7 2638.7 VFP vfma.f32 (32bit x1) n8 : 0.599 2672.7 2672.7 NEON vmul.f32 (32bit x2) n8 : 0.309 5184.7 5184.7 NEON vadd.f32 (32bit x2) n8 : 0.298 5361.0 5361.0 NEON vmla.f32 (32bit x2) n8 : 0.313 10223.1 10223.1 NEON vfma.f32 (32bit x2) n8 : 0.306 10441.8 10441.8 NEON vmul.f32 (32bit x4) n8 : 0.308 10402.9 10402.9 NEON vadd.f32 (32bit x4) n8 : 0.302 10583.3 10583.3 NEON vmla.f32 (32bit x4) n8 : 0.308 20751.2 20751.2 NEON vfma.f32 (32bit x4) n8 : 0.324 19766.2 19766.2 VFP fmuls (32bit x1) ns4 : 0.609 1313.2 1313.2 VFP fadds (32bit x1) ns4 : 0.599 1336.2 1336.2 VFP fmacs (32bit x1) ns4 : 1.189 1345.6 1345.6 VFP vfma.f32 (32bit x1) ns4 : 1.183 1353.0 1353.0 NEON vmul.f32 (32bit x2) ns4 : 0.303 5282.9 5282.9 NEON vadd.f32 (32bit x2) ns4 : 0.294 5444.8 5444.8 NEON vmla.f32 (32bit x2) ns4 : 0.588 5443.6 5443.6 NEON vfma.f32 (32bit x2) ns4 : 0.590 5422.0 5422.0 NEON vmul.f32 (32bit x4) ns4 : 0.305 10479.9 10479.9 NEON vadd.f32 (32bit x4) ns4 : 0.298 10741.7 10741.7 NEON vmla.f32 (32bit x4) ns4 : 0.588 10883.4 10883.4 NEON vfma.f32 (32bit x4) ns4 : 0.586 10925.6 10925.6 VFP fmuls (32bit x1) n1 : 1.175 681.0 681.0 VFP fadds (32bit x1) n1 : 1.172 682.3 682.3 VFP fmacs (32bit x1) n1 : 2.345 682.4 682.4 VFP vfma.f32 (32bit x1) n1 : 2.342 683.2 683.2 NEON vmul.f32 (32bit x2) n1 : 0.303 5275.7 5275.7 NEON vadd.f32 (32bit x2) n1 : 0.294 5447.8 5447.8 NEON vmla.f32 (32bit x2) n1 : 2.344 1365.4 1365.4 NEON vfma.f32 (32bit x2) n1 : 2.341 1367.2 1367.2 NEON vmul.f32 (32bit x4) n1 : 0.302 10593.8 10593.8 NEON vadd.f32 (32bit x4) n1 : 0.316 10113.7 10113.7 NEON vmla.f32 (32bit x4) n1 : 2.350 2723.5 2723.5 NEON vfma.f32 (32bit x4) n1 : 2.339 2736.0 2736.0 NEON vmul.f32 (32bit x4) n12 : 0.450 10668.8 10668.8 NEON vadd.f32 (32bit x4) n12 : 0.446 10751.5 10751.5 NEON vmla.f32 (32bit x4) n12 : 0.446 21502.3 21502.3 NEON vfma.f32 (32bit x4) n12 : 0.449 21384.8 21384.8 Average : 0.777 6961.7 6961.7 Highest : 0.294 21502.3 21502.3 * VFP/NEON (double fp) multi-thread VFP fmuld (64bit x1) n8 : 0.470 1702.7 1702.7 VFP faddd (64bit x1) n8 : 0.362 2212.9 2212.9 VFP fmacd (64bit x1) n8 : 0.458 3495.9 3495.9 VFP vfma.f64 (64bit x1) n8 : 0.448 3572.8 3572.8 VFP fmuld (64bit x1) ns4 : 0.455 1759.2 1759.2 VFP faddd (64bit x1) ns4 : 0.471 1698.6 1698.6 VFP fmacd (64bit x1) ns4 : 0.894 1790.5 1790.5 VFP vfma.f64 (64bit x1) ns4 : 0.895 1787.8 1787.8 VFP fmuld (64bit x1) n1 : 0.307 2606.6 2606.6 VFP faddd (64bit x1) n1 : 0.300 2671.0 2671.0 VFP fmacd (64bit x1) n1 : 3.551 450.6 450.6 VFP vfma.f64 (64bit x1) n1 : 3.515 455.2 455.2 Average : 1.010 2017.0 2017.0 Highest : 0.300 3572.8 3572.8 * Matrix 4x4 multi thread C++ code : 1.203 1489.3 1489.3 NEON vmla 128bit A : 0.316 5668.5 5668.5 NEON vmla 64bit A : 0.405 4428.2 4428.2 NEON vfma 128bit A : 0.396 4526.7 4526.7 NEON vmla 128bit B : 0.333 5381.6 5381.6 NEON vmla 64bit B : 0.353 5077.5 5077.5 NEON vfma 128bit B : 0.406 4416.0 4416.0 NEON vfma 128bit C : 0.401 4464.6 4464.6 Average : 0.477 4431.5 4431.5 Highest : 0.316 5668.5 5668.5
iPhone 5 Apple A6 Swift 1.3GHz dual core
iPhone 5 Apple A6 Swift 1.3GHz dual core ARCH: ARMv7A VFP: VFPv4-D32 NEON SingleT SP max: 10.094 GFLOPS SingleT DP max: 1.710 GFLOPS MultiT SP max: 20.029 GFLOPS MultiT DP max: 3.398 GFLOPS CPU core: 2 FMA: Yes NEON: Yes * VFP/NEON (single fp) VFP fmuls (32bit x1) n8 : 3.275 1221.3 1226.4 VFP fadds (32bit x1) n8 : 3.128 1278.8 1279.7 VFP fmacs (32bit x1) n8 : 6.244 1281.1 1281.6 VFP vfma.f32 (32bit x1) n8 : 6.249 1280.1 1280.1 NEON vmul.f32 (32bit x2) n8 : 3.198 2501.5 2501.5 NEON vadd.f32 (32bit x2) n8 : 3.120 2564.0 2564.0 NEON vmla.f32 (32bit x2) n8 : 3.200 4999.9 4999.9 NEON vfma.f32 (32bit x2) n8 : 3.198 5003.9 5003.9 NEON vmul.f32 (32bit x4) n8 : 3.209 4986.5 5005.0 NEON vadd.f32 (32bit x4) n8 : 3.125 5120.0 5120.0 NEON vmla.f32 (32bit x4) n8 : 3.198 10006.8 10006.8 NEON vfma.f32 (32bit x4) n8 : 3.197 10009.8 10009.8 VFP fmuls (32bit x1) ns4 : 6.247 640.3 640.3 VFP fadds (32bit x1) ns4 : 6.250 640.0 640.0 VFP fmacs (32bit x1) ns4 : 12.489 640.6 640.6 VFP vfma.f32 (32bit x1) ns4 : 12.486 640.7 640.7 NEON vmul.f32 (32bit x2) ns4 : 3.196 2503.4 2503.4 NEON vadd.f32 (32bit x2) ns4 : 3.122 2562.3 2562.3 NEON vmla.f32 (32bit x2) ns4 : 6.236 2565.7 2565.9 NEON vfma.f32 (32bit x2) ns4 : 6.272 2551.0 2564.6 NEON vmul.f32 (32bit x4) ns4 : 3.245 4930.0 4941.3 NEON vadd.f32 (32bit x4) ns4 : 3.126 5118.1 5118.1 NEON vmla.f32 (32bit x4) ns4 : 6.248 5121.9 5127.9 NEON vfma.f32 (32bit x4) ns4 : 6.251 5119.0 5121.7 VFP fmuls (32bit x1) n1 : 12.487 320.3 320.3 VFP fadds (32bit x1) n1 : 12.482 320.5 320.5 VFP fmacs (32bit x1) n1 : 24.978 320.3 320.3 VFP vfma.f32 (32bit x1) n1 : 24.965 320.4 320.4 NEON vmul.f32 (32bit x2) n1 : 3.209 2492.7 2494.5 NEON vadd.f32 (32bit x2) n1 : 3.122 2562.7 2565.7 NEON vmla.f32 (32bit x2) n1 : 24.966 640.9 640.9 NEON vfma.f32 (32bit x2) n1 : 25.107 637.3 640.7 NEON vmul.f32 (32bit x4) n1 : 3.197 5004.7 5004.7 NEON vadd.f32 (32bit x4) n1 : 3.120 5128.2 5128.2 NEON vmla.f32 (32bit x4) n1 : 24.970 1281.5 1281.5 NEON vfma.f32 (32bit x4) n1 : 24.971 1281.5 1281.5 NEON vmul.f32 (32bit x4) n12 : 4.761 5041.1 5041.1 NEON vadd.f32 (32bit x4) n12 : 4.679 5129.6 5129.6 NEON vmla.f32 (32bit x4) n12 : 4.789 10023.4 10023.4 NEON vfma.f32 (32bit x4) n12 : 4.755 10093.9 10093.9 平均 : 8.152 3347.1 3348.8 最大 : 3.120 10093.9 10093.9 * VFP/NEON (double fp) VFP fmuld (64bit x1) n8 : 3.264 1225.3 1225.3 VFP faddd (64bit x1) n8 : 3.123 1280.7 1280.7 VFP fmacd (64bit x1) n8 : 4.691 1705.5 1705.5 VFP vfma.f64 (64bit x1) n8 : 4.678 1710.1 1710.1 VFP fmuld (64bit x1) ns4 : 4.685 853.9 853.9 VFP faddd (64bit x1) ns4 : 4.699 851.2 851.2 VFP fmacd (64bit x1) ns4 : 9.362 854.5 854.5 VFP vfma.f64 (64bit x1) ns4 : 9.369 853.9 853.9 VFP fmuld (64bit x1) n1 : 3.206 1247.8 1247.8 VFP faddd (64bit x1) n1 : 3.122 1281.2 1281.2 VFP fmacd (64bit x1) n1 : 37.453 213.6 213.6 VFP vfma.f64 (64bit x1) n1 : 37.443 213.7 213.7 平均 : 10.425 1024.3 1024.3 最大 : 3.122 1710.1 1710.1 * Matrix 4x4 C++ code : 4.230 847.2 847.2 NEON vmla 128bit A : 1.315 2724.6 2724.6 NEON vmla 64bit A : 1.703 2103.9 2103.9 NEON vfma 128bit A : 1.648 2174.3 2174.3 NEON vmla 128bit B : 1.373 2609.5 2609.5 NEON vmla 64bit B : 1.484 2415.7 2415.7 NEON vfma 128bit B : 1.610 2225.8 2225.8 NEON vfma 128bit C : 1.648 2175.2 2175.2 平均 : 1.877 2159.5 2159.5 最大 : 1.315 2724.6 2724.6 * VFP/NEON (single fp) multi-thread VFP fmuls (32bit x1) n8 : 3.380 2367.2 2367.2 VFP fadds (32bit x1) n8 : 3.150 2539.9 2539.9 VFP fmacs (32bit x1) n8 : 6.298 2540.4 2540.4 VFP vfma.f32 (32bit x1) n8 : 6.278 2548.7 2548.7 NEON vmul.f32 (32bit x2) n8 : 3.224 4962.7 4962.7 NEON vadd.f32 (32bit x2) n8 : 3.144 5089.0 5089.0 NEON vmla.f32 (32bit x2) n8 : 3.223 9927.2 9927.2 NEON vfma.f32 (32bit x2) n8 : 3.263 9805.6 9805.6 NEON vmul.f32 (32bit x4) n8 : 3.254 9835.5 9835.5 NEON vadd.f32 (32bit x4) n8 : 3.150 10157.6 10157.6 NEON vmla.f32 (32bit x4) n8 : 3.228 19824.8 19824.8 NEON vfma.f32 (32bit x4) n8 : 3.221 19871.7 19871.7 VFP fmuls (32bit x1) ns4 : 6.295 1270.8 1270.8 VFP fadds (32bit x1) ns4 : 6.298 1270.2 1270.2 VFP fmacs (32bit x1) ns4 : 12.540 1275.9 1275.9 VFP vfma.f32 (32bit x1) ns4 : 12.565 1273.3 1273.3 NEON vmul.f32 (32bit x2) ns4 : 3.220 4968.9 4968.9 NEON vadd.f32 (32bit x2) ns4 : 3.146 5085.1 5085.1 NEON vmla.f32 (32bit x2) ns4 : 6.308 5073.0 5073.0 NEON vfma.f32 (32bit x2) ns4 : 6.412 4990.5 4990.5 NEON vmul.f32 (32bit x4) ns4 : 3.221 9933.6 9933.6 NEON vadd.f32 (32bit x4) ns4 : 3.150 10158.9 10158.9 NEON vmla.f32 (32bit x4) ns4 : 6.332 10107.9 10107.9 NEON vfma.f32 (32bit x4) ns4 : 6.284 10185.1 10185.1 VFP fmuls (32bit x1) n1 : 12.548 637.6 637.6 VFP fadds (32bit x1) n1 : 12.564 636.8 636.8 VFP fmacs (32bit x1) n1 : 25.166 635.8 635.8 VFP vfma.f32 (32bit x1) n1 : 25.169 635.7 635.7 NEON vmul.f32 (32bit x2) n1 : 3.228 4957.4 4957.4 NEON vadd.f32 (32bit x2) n1 : 3.147 5084.3 5084.3 NEON vmla.f32 (32bit x2) n1 : 25.116 1274.1 1274.1 NEON vfma.f32 (32bit x2) n1 : 25.116 1274.1 1274.1 NEON vmul.f32 (32bit x4) n1 : 3.220 9938.0 9938.0 NEON vadd.f32 (32bit x4) n1 : 3.166 10108.3 10108.3 NEON vmla.f32 (32bit x4) n1 : 25.122 2547.6 2547.6 NEON vfma.f32 (32bit x4) n1 : 25.122 2547.6 2547.6 NEON vmul.f32 (32bit x4) n12 : 4.797 10006.1 10006.1 NEON vadd.f32 (32bit x4) n12 : 4.712 10185.9 10185.9 NEON vmla.f32 (32bit x4) n12 : 4.807 19969.1 19969.1 NEON vfma.f32 (32bit x4) n12 : 4.793 20029.4 20029.4 平均 : 8.209 6638.3 6638.3 最大 : 3.144 20029.4 20029.4 * VFP/NEON (double fp) multi-thread VFP fmuld (64bit x1) n8 : 3.361 2380.4 2380.4 VFP faddd (64bit x1) n8 : 3.144 2544.5 2544.5 VFP fmacd (64bit x1) n8 : 4.715 3393.7 3393.7 VFP vfma.f64 (64bit x1) n8 : 4.709 3398.0 3398.0 VFP fmuld (64bit x1) ns4 : 4.737 1689.0 1689.0 VFP faddd (64bit x1) ns4 : 4.709 1698.7 1698.7 VFP fmacd (64bit x1) ns4 : 9.427 1697.2 1697.2 VFP vfma.f64 (64bit x1) ns4 : 9.448 1693.4 1693.4 VFP fmuld (64bit x1) n1 : 3.227 2479.0 2479.0 VFP faddd (64bit x1) n1 : 3.141 2547.2 2547.2 VFP fmacd (64bit x1) n1 : 37.663 424.8 424.8 VFP vfma.f64 (64bit x1) n1 : 37.675 424.7 424.7 平均 : 10.496 2030.9 2030.9 最大 : 3.141 3398.0 3398.0 * Matrix 4x4 multi thread C++ code : 4.357 1645.1 1645.1 NEON vmla 128bit A : 1.308 5479.2 5479.2 NEON vmla 64bit A : 1.701 4215.1 4215.1 NEON vfma 128bit A : 1.671 4290.3 4290.3 NEON vmla 128bit B : 1.395 5139.1 5139.1 NEON vmla 64bit B : 1.465 4891.8 4891.8 NEON vfma 128bit B : 1.626 4409.6 4409.6 NEON vfma 128bit C : 1.687 4250.0 4250.0 平均 : 1.901 4290.0 4290.0 最大 : 1.308 5479.2 5479.2
Apple Typhoon (AArch32) VFPv4+NEON
iPod touch 6 Apple A8 Typhoon 1.1GHz dual core
iPod touch 6 Apple A8 Typhoon 1.1GHz dual core ARCH: ARMv8A VFP: AArch64 NEON SingleT SP max: 17.987 GFLOPS SingleT DP max: 8.994 GFLOPS MultiT SP max: 35.795 GFLOPS MultiT DP max: 17.916 GFLOPS CPU core: 2 FMA: Yes NEON: Yes * VFP/NEON (single fp) VFP fmul (32bit x1) n8 : 1.825 2192.0 2192.0 VFP fadd (32bit x1) n8 : 1.190 3362.2 3362.2 VFP fmadd (32bit x1) n8 : 1.785 4481.4 4481.4 NEON fmul.2s (32bit x2) n8 : 1.783 4487.5 4487.5 NEON fadd.2s (32bit x2) n8 : 1.188 6732.5 6732.5 NEON fmla.2s (32bit x2) n8 : 1.791 8935.1 8935.1 NEON fmul.4s (32bit x4) n8 : 1.781 8983.2 8983.2 NEON fadd.4s (32bit x4) n8 : 1.190 13446.2 13446.2 NEON fmla.4s (32bit x4) n8 : 1.781 17969.6 17969.6 VFP fmul (32bit x1) ns4 : 3.570 1120.4 1120.4 VFP fadd (32bit x1) ns4 : 3.329 1201.4 1201.4 VFP fmadd (32bit x1) ns4 : 3.565 2243.9 2243.9 NEON fmul.2s (32bit x2) ns4 : 3.571 2240.4 2240.4 NEON fadd.2s (32bit x2) ns4 : 3.331 2401.8 2401.8 NEON fmla.2s (32bit x2) ns4 : 3.568 4483.8 4483.8 NEON fmul.4s (32bit x4) ns4 : 3.583 4465.3 4465.3 NEON fadd.4s (32bit x4) ns4 : 3.331 4803.9 4803.9 NEON fmla.4s (32bit x4) ns4 : 3.568 8969.4 8969.4 VFP fmul (32bit x1) n1 : 1.783 2243.5 2243.5 VFP fadd (32bit x1) n1 : 1.188 3366.0 3366.0 VFP fmadd (32bit x1) n1 : 17.791 449.7 449.7 NEON fmul.2s (32bit x2) n1 : 1.778 4499.1 4499.1 NEON fadd.2s (32bit x2) n1 : 1.195 6694.6 6694.6 NEON fmla.2s (32bit x2) n1 : 17.796 899.1 899.1 NEON fmul.4s (32bit x4) n1 : 1.779 8992.9 8992.9 NEON fadd.4s (32bit x4) n1 : 1.194 13396.0 13396.0 NEON fmla.4s (32bit x4) n1 : 17.796 1798.2 1798.2 NEON fmul.4s (32bit x4) n12 : 2.675 8971.5 8971.5 NEON fadd.4s (32bit x4) n12 : 1.781 13477.4 13477.4 NEON fmla.4s (32bit x4) n12 : 2.669 17986.7 17986.7 平均 : 3.839 6176.5 6176.5 最大 : 1.188 17986.7 17986.7 * VFP/NEON (double fp) VFP fmul (64bit x1) n8 : 1.817 2201.8 2201.8 VFP fadd (64bit x1) n8 : 1.195 3346.6 3346.6 VFP fmadd (64bit x1) n8 : 2.263 3535.2 3535.2 NEON fmul.2d (64bit x2) n8 : 1.780 4494.4 4494.4 NEON fadd.2d (64bit x2) n8 : 1.188 6733.4 6733.4 NEON fmla.2d (64bit x2) n8 : 2.259 7081.7 7081.7 VFP fmul (64bit x1) ns4 : 4.456 897.7 897.7 VFP fadd (64bit x1) ns4 : 3.322 1204.3 1204.3 VFP fmadd (64bit x1) ns4 : 4.456 1795.2 1795.2 NEON fmul.2d (64bit x2) ns4 : 4.454 1796.0 1796.0 NEON fadd.2d (64bit x2) ns4 : 3.321 2409.2 2409.2 NEON fmla.2d (64bit x2) ns4 : 4.454 3592.1 3592.1 VFP fmul (64bit x1) n1 : 1.780 2246.7 2246.7 VFP fadd (64bit x1) n1 : 1.189 3363.5 3363.5 VFP fmadd (64bit x1) n1 : 21.340 374.9 374.9 NEON fmul.2d (64bit x2) n1 : 1.779 4496.4 4496.4 NEON fadd.2d (64bit x2) n1 : 1.188 6735.5 6735.5 NEON fmla.2d (64bit x2) n1 : 21.350 749.4 749.4 NEON fmul.2d (64bit x2) n12 : 2.667 4499.6 4499.6 NEON fadd.2d (64bit x2) n12 : 1.786 6720.1 6720.1 NEON fmla.2d (64bit x2) n12 : 2.668 8994.3 8994.3 平均 : 4.320 3679.4 3679.4 最大 : 1.188 8994.3 8994.3 * Matrix 4x4 C++ code : 1.327 2701.6 2701.6 NEON fmla.4s 128bit A : 0.746 4803.4 4803.4 NEON ---- 64bit A : - - - NEON ---- 128bit A : - - - NEON fmla.4s 128bit B : 0.739 4847.0 4847.0 NEON ---- 64bit B : - - - NEON ---- 128bit B : - - - NEON ---- 128bit C : - - - 平均 : 0.937 4117.3 4117.3 最大 : 0.739 4847.0 4847.0 * VFP/NEON (single fp) multi-thread VFP fmul (32bit x1) n8 : 1.838 4351.9 4351.9 VFP fadd (32bit x1) n8 : 1.193 6704.6 6704.6 VFP fmadd (32bit x1) n8 : 1.789 8946.0 8946.0 NEON fmul.2s (32bit x2) n8 : 1.796 8907.2 8907.2 NEON fadd.2s (32bit x2) n8 : 1.193 13415.8 13415.8 NEON fmla.2s (32bit x2) n8 : 1.789 17887.7 17887.7 NEON fmul.4s (32bit x4) n8 : 1.789 17885.9 17885.9 NEON fadd.4s (32bit x4) n8 : 1.190 26897.9 26897.9 NEON fmla.4s (32bit x4) n8 : 1.788 35795.0 35795.0 VFP fmul (32bit x1) ns4 : 3.590 2228.3 2228.3 VFP fadd (32bit x1) ns4 : 3.334 2399.5 2399.5 VFP fmadd (32bit x1) ns4 : 3.577 4473.4 4473.4 NEON fmul.2s (32bit x2) ns4 : 3.590 4457.4 4457.4 NEON fadd.2s (32bit x2) ns4 : 3.330 4805.1 4805.1 NEON fmla.2s (32bit x2) ns4 : 3.588 8918.1 8918.1 NEON fmul.4s (32bit x4) ns4 : 3.579 8940.3 8940.3 NEON fadd.4s (32bit x4) ns4 : 3.335 9596.6 9596.6 NEON fmla.4s (32bit x4) ns4 : 3.589 17832.7 17832.7 VFP fmul (32bit x1) n1 : 1.786 4478.5 4478.5 VFP fadd (32bit x1) n1 : 1.193 6706.0 6706.0 VFP fmadd (32bit x1) n1 : 17.838 896.9 896.9 NEON fmul.2s (32bit x2) n1 : 1.786 8960.8 8960.8 NEON fadd.2s (32bit x2) n1 : 1.195 13391.2 13391.2 NEON fmla.2s (32bit x2) n1 : 17.826 1795.1 1795.1 NEON fmul.4s (32bit x4) n1 : 1.786 17921.6 17921.6 NEON fadd.4s (32bit x4) n1 : 1.195 26771.4 26771.4 NEON fmla.4s (32bit x4) n1 : 17.830 3589.4 3589.4 NEON fmul.4s (32bit x4) n12 : 2.686 17872.1 17872.1 NEON fadd.4s (32bit x4) n12 : 1.787 26860.4 26860.4 NEON fmla.4s (32bit x4) n12 : 2.689 35702.0 35702.0 平均 : 3.849 12313.0 12313.0 最大 : 1.190 35795.0 35795.0 * VFP/NEON (double fp) multi-thread VFP fmul (64bit x1) n8 : 1.852 4320.4 4320.4 VFP fadd (64bit x1) n8 : 1.198 6680.1 6680.1 VFP fmadd (64bit x1) n8 : 2.278 7024.5 7024.5 NEON fmul.2d (64bit x2) n8 : 1.791 8936.0 8936.0 NEON fadd.2d (64bit x2) n8 : 1.194 13397.7 13397.7 NEON fmla.2d (64bit x2) n8 : 2.272 14081.6 14081.6 VFP fmul (64bit x1) ns4 : 4.468 1790.6 1790.6 VFP fadd (64bit x1) ns4 : 3.333 2400.0 2400.0 VFP fmadd (64bit x1) ns4 : 4.467 3581.7 3581.7 NEON fmul.2d (64bit x2) ns4 : 4.468 3580.7 3580.7 NEON fadd.2d (64bit x2) ns4 : 3.332 4801.7 4801.7 NEON fmla.2d (64bit x2) ns4 : 4.469 7161.0 7161.0 VFP fmul (64bit x1) n1 : 1.789 4471.7 4471.7 VFP fadd (64bit x1) n1 : 1.194 6698.4 6698.4 VFP fmadd (64bit x1) n1 : 21.384 748.2 748.2 NEON fmul.2d (64bit x2) n1 : 1.786 8957.3 8957.3 NEON fadd.2d (64bit x2) n1 : 1.195 13388.2 13388.2 NEON fmla.2d (64bit x2) n1 : 21.417 1494.1 1494.1 NEON fmul.2d (64bit x2) n12 : 2.679 8957.0 8957.0 NEON fadd.2d (64bit x2) n12 : 1.791 13403.5 13403.5 NEON fmla.2d (64bit x2) n12 : 2.679 17915.6 17915.6 平均 : 4.335 7323.3 7323.3 最大 : 1.194 17915.6 17915.6 * Matrix 4x4 multi thread C++ code : 1.354 5294.2 5294.2 NEON fmla.4s 128bit A : 0.767 9345.7 9345.7 NEON ---- 64bit A : - - - NEON ---- 128bit A : - - - NEON fmla.4s 128bit B : 0.745 9619.8 9619.8 NEON ---- 64bit B : - - - NEON ---- 128bit B : - - - NEON ---- 128bit C : - - - 平均 : 0.955 8086.6 8086.6 最大 : 0.745 9619.8 9619.8
Intel Atom Saltwell (IA32 x86) SSSE3
ASUS Fonepad 7 LTE ME372CL Z2560 Dual core 1.6GHz (Clover Trail+ / Saltwell)
ASUS Fonepad 7 LTE ME372CL Atom Z2560 1.6GHz Dual Core + HT ARCH: x86 CPU core: 4 FPU: SSE SSE2 SSSE3 Result SingleT SP max: 7.540 GFLOPS SingleT DP max: 1.523 GFLOPS MultiT SP max: 18.630 GFLOPS MultiT DP max: 3.504 GFLOPS * SSE/AVX (単精度 fp) single-thread SSE mulss (32bit x1) n8 : 0.794 1511.0 1511.0 SSE addss (32bit x1) n8 : 0.792 1515.7 1515.7 SSE mulps (32bit x4) n8 : 1.514 3171.3 3171.3 SSE addps (32bit x4) n8 : 0.786 6104.4 6104.4 SSE mul+addps (32bit x4) n8 : 0.759 6321.2 6321.2 SSE ml+ad+addps (32bit x4) n6 : 0.668 7540.1 7540.1 SSE mulss (32bit x1) ns4 : 0.766 1566.5 1566.5 SSE addss (32bit x1) ns4 : 0.949 1265.1 1265.1 SSE mulps (32bit x4) ns4 : 1.525 3146.6 3146.6 SSE addps (32bit x4) ns4 : 0.941 5101.1 5101.1 AVX vmulps (32bit x8) n8 : - - - AVX vaddps (32bit x8) n8 : - - - AVX vmul+addps (32bit x8) n8 : - - - AVX vml+ad+adps (32bit x8) n6 : - - - 平均 : 0.949 3724.3 3724.3 最大 : 0.668 7540.1 7540.1 * SSE/AVX (倍精度 fp) single-thread SSE2 mulsd (64bit x1) n8 : 1.529 784.7 784.7 SSE2 addsd (64bit x1) n8 : 0.788 1522.7 1522.7 SSE2 mulpd (64bit x2) n8 : 6.844 350.7 350.7 SSE2 addpd (64bit x2) n8 : 4.668 514.1 514.1 SSE2 mul+addpd (64bit x2) n8 : 5.049 475.3 475.3 SSE2 ml+ad+dpd (64bit x2) n6 : 5.084 495.7 495.7 SSE2 mulsd (64bit x1) ns4 : 1.517 790.9 790.9 SSE2 addsd (64bit x1) ns4 : 0.949 1264.5 1264.5 SSE2 mulpd (64bit x2) ns4 : 6.871 349.3 349.3 SSE2 addpd (64bit x2) ns4 : 4.611 520.5 520.5 AVX vmulpd (64bit x4) n8 : - - - AVX vaddpd (64bit x4) n8 : - - - AVX vmul+addpd (64bit x4) n8 : - - - AVX vml_ad_adpd (64bit x4) n6 : - - - 平均 : 3.791 706.9 706.9 最大 : 0.788 1522.7 1522.7 * Matrix 4x4 (単精度 fp) single-thread C++ code : 4.167 430.1 430.1 C++ Intrinsic SSE 128bit : 0.953 1879.6 1879.6 SSE mul/addps 128bit A : 1.359 1318.9 1318.9 AVX vmul/addps 256bit A : - - - 平均 : 2.160 1209.5 1209.5 最大 : 0.953 1879.6 1879.6 * SSE/AVX (単精度 fp) multi-thread SSE mulss (32bit x1) n8 : 1.555 3086.7 3086.7 SSE addss (32bit x1) n8 : 1.530 3137.3 3137.3 SSE mulps (32bit x4) n8 : 2.963 6480.1 6480.1 SSE addps (32bit x4) n8 : 1.518 12650.4 12650.4 SSE mul+addps (32bit x4) n8 : 1.394 13773.6 13773.6 SSE ml+ad+addps (32bit x4) n6 : 1.082 18630.3 18630.3 SSE mulss (32bit x1) ns4 : 1.501 3198.5 3198.5 SSE addss (32bit x1) ns4 : 1.488 3225.4 3225.4 SSE mulps (32bit x4) ns4 : 2.828 6788.9 6788.9 SSE addps (32bit x4) ns4 : 1.391 13800.9 13800.9 AVX vmulps (32bit x8) n8 : - - - AVX vaddps (32bit x8) n8 : - - - AVX vmul+addps (32bit x8) n8 : - - - AVX vml+ad+adps (32bit x8) n6 : - - - 平均 : 1.725 8477.2 8477.2 最大 : 1.082 18630.3 18630.3 * SSE/AVX (倍精度 fp) multi-thread SSE2 mulsd (64bit x1) n8 : 2.964 1619.5 1619.5 SSE2 addsd (64bit x1) n8 : 1.370 3503.6 3503.6 SSE2 mulpd (64bit x2) n8 : 7.833 1225.6 1225.6 SSE2 addpd (64bit x2) n8 : 6.292 1525.7 1525.7 SSE2 mul+addpd (64bit x2) n8 : 6.990 1373.3 1373.3 SSE2 ml+ad+dpd (64bit x2) n6 : 7.053 1429.2 1429.2 SSE2 mulsd (64bit x1) ns4 : 2.946 1629.2 1629.2 SSE2 addsd (64bit x1) ns4 : 1.475 3255.3 3255.3 SSE2 mulpd (64bit x2) ns4 : 7.823 1227.2 1227.2 SSE2 addpd (64bit x2) ns4 : 6.103 1572.9 1572.9 AVX vmulpd (64bit x4) n8 : - - - AVX vaddpd (64bit x4) n8 : - - - AVX vmul+addpd (64bit x4) n8 : - - - AVX vml_ad_adpd (64bit x4) n6 : - - - 平均 : 5.085 1836.2 1836.2 最大 : 1.370 3503.6 3503.6 * Matrix 4x4 (単精度 fp) multi-thread C++ code : 5.038 1422.8 1422.8 C++ Intrinsic SSE 128bit : 1.110 6458.9 6458.9 SSE mul/addps 128bit A : 1.666 4303.4 4303.4 AVX vmul/addps 256bit A : - - - 平均 : 2.605 4061.7 4061.7 最大 : 1.110 6458.9 6458.9
Intel Atom Silvermont (IA32 x86) SSE4.2
ASUS MeMO Pad 7 ME176 BayTrail-T Atom Z3745 Silvermont 1.83GHz Quad core (x86)
ASUS MeMO Pad 7 ME176 BayTrail-T Atom Z3745 Silvermont 1.83GHz Quad core ARCH: x86 CPU core: 4 FPU: SSE SSE2 SSSE3 SSE4.1 SSE4.2 Result SingleT SP max: 8.946 GFLOPS SingleT DP max: 2.797 GFLOPS MultiT SP max: 35.473 GFLOPS MultiT DP max: 11.060 GFLOPS * SSE/AVX (単精度 fp) single-thread SSE mulss (32bit x1) n8 : 2.163 1848.9 1859.9 SSE addss (32bit x1) n8 : 2.153 1858.1 1864.1 SSE mulps (32bit x4) n8 : 4.324 3700.3 3729.4 SSE addps (32bit x4) n8 : 2.148 7447.3 7455.5 SSE mul+addps (32bit x4) n8 : 2.152 7434.8 7456.2 SSE ml+ad+addps (32bit x4) n6 : 1.879 8943.1 8945.8 SSE mulss (32bit x1) ns4 : 2.147 1863.3 1864.2 SSE addss (32bit x1) ns4 : 2.146 1863.7 1864.4 SSE mulps (32bit x4) ns4 : 4.290 3729.5 3729.5 SSE addps (32bit x4) ns4 : 2.145 7458.8 7458.8 AVX vmulps (32bit x8) n8 : - - - AVX vaddps (32bit x8) n8 : - - - AVX vmul+addps (32bit x8) n8 : - - - AVX vml+ad+adps (32bit x8) n6 : - - - 平均 : 2.555 4614.8 4622.8 最大 : 1.879 8943.1 8945.8 * SSE/AVX (倍精度 fp) single-thread SSE2 mulsd (64bit x1) n8 : 4.297 930.8 930.8 SSE2 addsd (64bit x1) n8 : 2.145 1864.7 1864.7 SSE2 mulpd (64bit x2) n8 : 8.581 932.3 932.3 SSE2 addpd (64bit x2) n8 : 4.291 1864.4 1864.4 SSE2 mul+addpd (64bit x2) n8 : 4.291 1864.4 1864.4 SSE2 ml+ad+dpd (64bit x2) n6 : 3.003 2796.9 2796.9 SSE2 mulsd (64bit x1) ns4 : 4.290 932.3 932.3 SSE2 addsd (64bit x1) ns4 : 2.145 1864.6 1864.6 SSE2 mulpd (64bit x2) ns4 : 8.661 923.7 923.7 SSE2 addpd (64bit x2) ns4 : 4.354 1837.4 1837.4 AVX vmulpd (64bit x4) n8 : - - - AVX vaddpd (64bit x4) n8 : - - - AVX vmul+addpd (64bit x4) n8 : - - - AVX vml_ad_adpd (64bit x4) n6 : - - - 平均 : 4.606 1581.2 1581.2 最大 : 2.145 2796.9 2796.9 * Matrix 4x4 (単精度 fp) single-thread C++ code : 4.253 842.7 842.7 C++ Intrinsic SSE 128bit : 1.155 3102.8 3102.8 SSE mul/addps 128bit A : 1.237 2898.1 2898.1 AVX vmul/addps 256bit A : - - - 平均 : 2.215 2281.2 2281.2 最大 : 1.155 3102.8 3102.8 * SSE/AVX (単精度 fp) multi-thread SSE mulss (32bit x1) n8 : 2.265 7064.9 7064.9 SSE addss (32bit x1) n8 : 2.171 7370.1 7370.1 SSE mulps (32bit x4) n8 : 4.342 14739.6 14739.6 SSE addps (32bit x4) n8 : 2.195 29154.9 29154.9 SSE mul+addps (32bit x4) n8 : 2.167 29533.8 29533.8 SSE ml+ad+addps (32bit x4) n6 : 1.894 35473.1 35473.1 SSE mulss (32bit x1) ns4 : 2.180 7340.8 7340.8 SSE addss (32bit x1) ns4 : 2.173 7362.1 7362.1 SSE mulps (32bit x4) ns4 : 4.353 14702.0 14702.0 SSE addps (32bit x4) ns4 : 2.166 29542.2 29542.2 AVX vmulps (32bit x8) n8 : - - - AVX vaddps (32bit x8) n8 : - - - AVX vmul+addps (32bit x8) n8 : - - - AVX vml+ad+adps (32bit x8) n6 : - - - 平均 : 2.591 18228.4 18228.4 最大 : 1.894 35473.1 35473.1 * SSE/AVX (倍精度 fp) multi-thread SSE2 mulsd (64bit x1) n8 : 4.444 3600.4 3600.4 SSE2 addsd (64bit x1) n8 : 2.167 7382.1 7382.1 SSE2 mulpd (64bit x2) n8 : 8.709 3674.5 3674.5 SSE2 addpd (64bit x2) n8 : 4.335 7382.3 7382.3 SSE2 mul+addpd (64bit x2) n8 : 4.372 7319.6 7319.6 SSE2 ml+ad+dpd (64bit x2) n6 : 3.038 11059.9 11059.9 SSE2 mulsd (64bit x1) ns4 : 4.473 3576.6 3576.6 SSE2 addsd (64bit x1) ns4 : 2.176 7353.6 7353.6 SSE2 mulpd (64bit x2) ns4 : 8.693 3681.1 3681.1 SSE2 addpd (64bit x2) ns4 : 4.323 7403.0 7403.0 AVX vmulpd (64bit x4) n8 : - - - AVX vaddpd (64bit x4) n8 : - - - AVX vmul+addpd (64bit x4) n8 : - - - AVX vml_ad_adpd (64bit x4) n6 : - - - 平均 : 4.673 6243.3 6243.3 最大 : 2.167 11059.9 11059.9 * Matrix 4x4 (単精度 fp) multi-thread C++ code : 4.379 3273.9 3273.9 C++ Intrinsic SSE 128bit : 1.168 12275.6 12275.6 SSE mul/addps 128bit A : 1.249 11477.7 11477.7 AVX vmul/addps 256bit A : - - - 平均 : 2.265 9009.0 9009.0 最大 : 1.168 12275.6 12275.6
ASUS MeMO Pad 7 ME176 BayTrail-T Atom Z3745 Silvermont 1.83GHz Quad core (ARMv7A Binary Translator)
ASUS MeMO Pad 7 ME176 BayTrail-T Atom Z3745 Silvermont 1.83GHz Quad core (ARMv7A Binary Translator) ARCH: ARMv7A CPU core: 4 VFP: VFPv3-D32 NEON FMA: No NEON: Yes Result SingleT SP max: 6.144 GFLOPS SingleT DP max: 1.476 GFLOPS MultiT SP max: 24.329 GFLOPS MultiT DP max: 5.905 GFLOPS * VFP/NEON (単精度 fp) single-thread VFP fmuls (32bit x1) n8 : 3.954 1011.6 1011.6 VFP fadds (32bit x1) n8 : 3.332 1200.6 1200.6 VFP fmacs (32bit x1) n8 : 8.371 955.7 955.7 VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : 6.009 1331.4 1331.4 NEON vadd.f32 (32bit x2) n8 : 3.816 2096.6 2096.6 NEON vmla.f32 (32bit x2) n8 : 22.824 701.0 701.0 NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : 6.012 2661.2 2661.2 NEON vadd.f32 (32bit x4) n8 : 3.347 4780.6 4780.6 NEON vmla.f32 (32bit x4) n8 : 16.516 1937.5 1937.5 NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : 7.303 547.7 547.7 VFP fadds (32bit x1) ns4 : 6.496 615.8 615.8 VFP fmacs (32bit x1) ns4 : 8.916 897.3 897.3 VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : 12.358 647.3 647.3 NEON vadd.f32 (32bit x2) ns4 : 8.641 925.8 925.8 NEON vmla.f32 (32bit x2) ns4 : 21.905 730.4 730.4 NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : 6.015 2660.2 2660.2 NEON vadd.f32 (32bit x4) ns4 : 3.730 4289.5 4289.5 NEON vmla.f32 (32bit x4) ns4 : 16.386 1952.9 1952.9 NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : 2.363 1692.9 1692.9 VFP fadds (32bit x1) n1 : 2.680 1492.6 1492.6 VFP fmacs (32bit x1) n1 : 6.792 1177.9 1177.9 VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : 4.510 1773.8 1773.8 NEON vadd.f32 (32bit x2) n1 : 3.331 2401.9 2401.9 NEON vmla.f32 (32bit x2) n1 : 20.547 778.7 778.7 NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : 4.512 3546.3 3546.3 NEON vadd.f32 (32bit x4) n1 : 2.604 6143.8 6143.8 NEON vmla.f32 (32bit x4) n1 : 10.445 3063.7 3063.7 NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : 9.027 2658.6 2658.6 NEON vadd.f32 (32bit x4) n12 : 4.983 4816.3 4816.3 NEON vmla.f32 (32bit x4) n12 : 26.321 1823.6 1823.6 NEON vfma.f32 (32bit x4) n12 : - - - 平均 : 8.801 2043.8 2043.8 最大 : 2.363 6143.8 6143.8 * VFP/NEON (倍精度 fp) single-thread VFP fmuld (64bit x1) n8 : 6.089 656.9 656.9 VFP faddd (64bit x1) n8 : 3.307 1209.6 1209.6 VFP fmacd (64bit x1) n8 : 10.420 767.7 767.7 VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : 6.150 650.4 650.4 VFP faddd (64bit x1) ns4 : 3.522 1135.7 1135.7 VFP fmacd (64bit x1) ns4 : 10.408 768.6 768.6 VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : 4.565 876.2 876.2 VFP faddd (64bit x1) n1 : 2.711 1475.6 1475.6 VFP fmacd (64bit x1) n1 : 6.881 1162.7 1162.7 VFP vfma.f64 (64bit x1) n1 : - - - 平均 : 6.006 967.0 967.0 最大 : 2.711 1475.6 1475.6 * Matrix 4x4 (単精度 fp) single-thread C++ code : 2.126 1685.7 1685.7 NEON vmla 128bit A : 1.999 1792.6 1792.6 NEON vmla 64bit A : 4.732 757.4 757.4 NEON vfma 128bit A : - - - NEON vmla 128bit B : 2.043 1754.0 1754.0 NEON vmla 64bit B : 5.945 602.8 602.8 NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - 平均 : 3.369 1318.5 1318.5 最大 : 1.999 1792.6 1792.6 * VFP/NEON (単精度 fp) multi-thread VFP fmuls (32bit x1) n8 : 3.962 4038.3 4038.3 VFP fadds (32bit x1) n8 : 3.309 4835.9 4835.9 VFP fmacs (32bit x1) n8 : 8.525 3753.8 3753.8 VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : 6.072 5270.1 5270.1 NEON vadd.f32 (32bit x2) n8 : 3.848 8316.1 8316.1 NEON vmla.f32 (32bit x2) n8 : 23.154 2764.1 2764.1 NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : 6.081 10524.4 10524.4 NEON vadd.f32 (32bit x4) n8 : 3.383 18919.6 18919.6 NEON vmla.f32 (32bit x4) n8 : 16.714 7658.5 7658.5 NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : 7.372 2170.4 2170.4 VFP fadds (32bit x1) ns4 : 6.560 2438.9 2438.9 VFP fmacs (32bit x1) ns4 : 9.002 3554.7 3554.7 VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : 12.510 2558.0 2558.0 NEON vadd.f32 (32bit x2) ns4 : 8.758 3653.6 3653.6 NEON vmla.f32 (32bit x2) ns4 : 22.163 2887.7 2887.7 NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : 6.073 10537.7 10537.7 NEON vadd.f32 (32bit x4) ns4 : 3.767 16990.8 16990.8 NEON vmla.f32 (32bit x4) ns4 : 16.539 7739.3 7739.3 NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : 2.384 6711.7 6711.7 VFP fadds (32bit x1) n1 : 2.709 5906.8 5906.8 VFP fmacs (32bit x1) n1 : 6.869 4658.8 4658.8 VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : 4.562 7014.7 7014.7 NEON vadd.f32 (32bit x2) n1 : 3.365 9508.3 9508.3 NEON vmla.f32 (32bit x2) n1 : 20.787 3078.8 3078.8 NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : 4.571 14002.6 14002.6 NEON vadd.f32 (32bit x4) n1 : 2.631 24328.7 24328.7 NEON vmla.f32 (32bit x4) n1 : 10.568 12111.7 12111.7 NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : 9.117 10529.4 10529.4 NEON vadd.f32 (32bit x4) n12 : 5.038 19054.4 19054.4 NEON vmla.f32 (32bit x4) n12 : 26.594 7219.7 7219.7 NEON vfma.f32 (32bit x4) n12 : - - - 平均 : 8.900 8091.2 8091.2 最大 : 2.384 24328.7 24328.7 * VFP/NEON (倍精度 fp) multi-thread VFP fmuld (64bit x1) n8 : 6.124 2612.5 2612.5 VFP faddd (64bit x1) n8 : 3.310 4834.4 4834.4 VFP fmacd (64bit x1) n8 : 10.452 3061.7 3061.7 VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : 6.080 2631.8 2631.8 VFP faddd (64bit x1) ns4 : 3.529 4533.8 4533.8 VFP fmacd (64bit x1) ns4 : 10.422 3070.5 3070.5 VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : 4.587 3487.9 3487.9 VFP faddd (64bit x1) n1 : 2.709 5905.2 5905.2 VFP fmacd (64bit x1) n1 : 6.855 4668.3 4668.3 VFP vfma.f64 (64bit x1) n1 : - - - 平均 : 6.008 3867.3 3867.3 最大 : 2.709 5905.2 5905.2 * Matrix 4x4 (単精度 fp) multi-thread C++ code : 2.138 6706.5 6706.5 NEON vmla 128bit A : 1.982 7232.8 7232.8 NEON vmla 64bit A : 4.765 3008.5 3008.5 NEON vfma 128bit A : - - - NEON vmla 128bit B : 2.058 6965.9 6965.9 NEON vmla 64bit B : 5.970 2401.3 2401.3 NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - 平均 : 3.383 5263.0 5263.0 最大 : 1.982 7232.8 7232.8
Nexus Player BayTrail-T Atom Z35xx Silvermont 1.8GHz Quad core (x86)
Nexus Player BayTrail-T Atom Z35xx Silvermont 1.8GHz Quad core (x86) ARCH: x86 CPU core: 4 FPU: SSE SSE2 SSSE3 SSE4.1 SSE4.2 Result SingleT SP max: 8.733 GFLOPS SingleT DP max: 2.733 GFLOPS MultiT SP max: 33.852 GFLOPS MultiT DP max: 10.655 GFLOPS * SSE/AVX (単精度 fp) single-thread SSE mulss (32bit x1) n8 : 0.665 1804.0 1804.0 SSE addss (32bit x1) n8 : 0.663 1811.1 1811.1 SSE mulps (32bit x4) n8 : 1.334 3599.5 3599.5 SSE addps (32bit x4) n8 : 0.663 7238.5 7238.5 SSE mul+addps (32bit x4) n8 : 0.658 7292.9 7292.9 SSE ml+ad+addps (32bit x4) n6 : 0.577 8732.6 8732.6 SSE mulss (32bit x1) ns4 : 0.659 1822.3 1822.3 SSE addss (32bit x1) ns4 : 0.659 1821.7 1821.7 SSE mulps (32bit x4) ns4 : 1.372 3498.8 3498.8 SSE addps (32bit x4) ns4 : 0.684 7013.7 7013.7 AVX vmulps (32bit x8) n8 : - - - AVX vaddps (32bit x8) n8 : - - - AVX vmul+addps (32bit x8) n8 : - - - AVX vml+ad+adps (32bit x8) n6 : - - - 平均 : 0.793 4463.5 4463.5 最大 : 0.577 8732.6 8732.6 * SSE/AVX (倍精度 fp) single-thread SSE2 mulsd (64bit x1) n8 : 1.361 881.6 881.6 SSE2 addsd (64bit x1) n8 : 0.659 1820.3 1820.3 SSE2 mulpd (64bit x2) n8 : 2.632 912.0 912.0 SSE2 addpd (64bit x2) n8 : 1.315 1825.6 1825.6 SSE2 mul+addpd (64bit x2) n8 : 1.315 1824.7 1824.7 SSE2 ml+ad+dpd (64bit x2) n6 : 0.922 2733.4 2733.4 SSE2 mulsd (64bit x1) ns4 : 1.337 897.4 897.4 SSE2 addsd (64bit x1) ns4 : 0.658 1824.5 1824.5 SSE2 mulpd (64bit x2) ns4 : 2.694 890.9 890.9 SSE2 addpd (64bit x2) ns4 : 1.372 1748.6 1748.6 AVX vmulpd (64bit x4) n8 : - - - AVX vaddpd (64bit x4) n8 : - - - AVX vmul+addpd (64bit x4) n8 : - - - AVX vml_ad_adpd (64bit x4) n6 : - - - 平均 : 1.427 1535.9 1535.9 最大 : 0.658 2733.4 2733.4 * Matrix 4x4 (単精度 fp) single-thread C++ code : 2.418 741.0 741.0 C++ Intrinsic SSE 128bit : 0.473 3785.9 3785.9 SSE mul/addps 128bit A : 0.643 2788.7 2788.7 AVX vmul/addps 256bit A : - - - 平均 : 1.178 2438.5 2438.5 最大 : 0.473 3785.9 3785.9 * SSE/AVX (単精度 fp) multi-thread SSE mulss (32bit x1) n8 : 0.711 6753.9 6753.9 SSE addss (32bit x1) n8 : 0.697 6887.0 6887.0 SSE mulps (32bit x4) n8 : 1.354 14183.1 14183.1 SSE addps (32bit x4) n8 : 0.677 28367.5 28367.5 SSE mul+addps (32bit x4) n8 : 0.684 28061.3 28061.3 SSE ml+ad+addps (32bit x4) n6 : 0.596 33851.9 33851.9 SSE mulss (32bit x1) ns4 : 0.676 7104.5 7104.5 SSE addss (32bit x1) ns4 : 0.675 7114.6 7114.6 SSE mulps (32bit x4) ns4 : 1.351 14208.1 14208.1 SSE addps (32bit x4) ns4 : 0.667 28767.1 28767.1 AVX vmulps (32bit x8) n8 : - - - AVX vaddps (32bit x8) n8 : - - - AVX vmul+addps (32bit x8) n8 : - - - AVX vml+ad+adps (32bit x8) n6 : - - - 平均 : 0.809 17529.9 17529.9 最大 : 0.596 33851.9 33851.9 * SSE/AVX (倍精度 fp) multi-thread SSE2 mulsd (64bit x1) n8 : 1.402 3424.7 3424.7 SSE2 addsd (64bit x1) n8 : 0.682 7034.1 7034.1 SSE2 mulpd (64bit x2) n8 : 2.697 3559.9 3559.9 SSE2 addpd (64bit x2) n8 : 1.347 7128.9 7128.9 SSE2 mul+addpd (64bit x2) n8 : 1.355 7086.7 7086.7 SSE2 ml+ad+dpd (64bit x2) n6 : 0.946 10655.0 10655.0 SSE2 mulsd (64bit x1) ns4 : 1.350 3554.8 3554.8 SSE2 addsd (64bit x1) ns4 : 0.673 7135.1 7135.1 SSE2 mulpd (64bit x2) ns4 : 2.703 3551.2 3551.2 SSE2 addpd (64bit x2) ns4 : 1.348 7122.7 7122.7 AVX vmulpd (64bit x4) n8 : - - - AVX vaddpd (64bit x4) n8 : - - - AVX vmul+addpd (64bit x4) n8 : - - - AVX vml_ad_adpd (64bit x4) n6 : - - - 平均 : 1.450 6025.3 6025.3 最大 : 0.673 10655.0 10655.0 * Matrix 4x4 (単精度 fp) multi-thread C++ code : 2.472 2899.9 2899.9 C++ Intrinsic SSE 128bit : 0.485 14772.1 14772.1 SSE mul/addps 128bit A : 0.657 10908.3 10908.3 AVX vmul/addps 256bit A : - - - 平均 : 1.205 9526.8 9526.8 最大 : 0.485 14772.1 14772.1
Smartwatch 32bit
ARM Cortex-A8 (ARMv7A) VFPv3+NEON
Motorola moto 360 Android Wear TI OMAP3 Cortex-A8 1.0GHz single core
Motorola moto 360 Android Wear TI OMAP3 Cortex-A8 1.0GHz single core Cortex-A8 1.0GHz ARCH: ARMv7A CPU core: 1 VFP: VFPv3-D32 NEON FMA: No NEON: Yes Result SingleT SP max: 3.739 GFLOPS SingleT DP max: 0.126 GFLOPS MultiT SP max: 3.376 GFLOPS MultiT DP max: 0.125 GFLOPS * VFP/NEON (単精度 fp) single-thread VFP fmuls (32bit x1) n8 : 1.116 71.7 71.7 VFP fadds (32bit x1) n8 : 0.931 85.9 85.9 VFP fmacs (32bit x1) n8 : 1.636 97.8 97.8 VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : 0.113 1421.2 1421.2 NEON vadd.f32 (32bit x2) n8 : 0.081 1980.7 1980.7 NEON vmla.f32 (32bit x2) n8 : 0.123 2609.1 2609.1 NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : 0.192 1666.3 1666.3 NEON vadd.f32 (32bit x4) n8 : 0.189 1689.3 1689.3 NEON vmla.f32 (32bit x4) n8 : 0.171 3738.9 3738.9 NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : 0.681 117.4 117.4 VFP fadds (32bit x1) ns4 : 0.827 96.8 96.8 VFP fmacs (32bit x1) ns4 : 1.367 117.1 117.1 VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : 0.080 1990.5 1990.5 NEON vadd.f32 (32bit x2) ns4 : 0.113 1413.9 1413.9 NEON vmla.f32 (32bit x2) ns4 : 0.218 1464.9 1464.9 NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : 0.210 1523.4 1523.4 NEON vadd.f32 (32bit x4) ns4 : 0.208 1541.6 1541.6 NEON vmla.f32 (32bit x4) ns4 : 0.213 3006.7 3006.7 NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : 0.925 86.5 86.5 VFP fadds (32bit x1) n1 : 0.823 97.2 97.2 VFP fmacs (32bit x1) n1 : 1.643 97.4 97.4 VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : 0.081 1982.2 1982.2 NEON vadd.f32 (32bit x2) n1 : 0.112 1428.2 1428.2 NEON vmla.f32 (32bit x2) n1 : 0.817 391.6 391.6 NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : 0.196 1635.1 1635.1 NEON vadd.f32 (32bit x4) n1 : 0.194 1647.7 1647.7 NEON vmla.f32 (32bit x4) n1 : 0.819 781.5 781.5 NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : 0.274 1753.3 1753.3 NEON vadd.f32 (32bit x4) n12 : 0.294 1630.4 1630.4 NEON vmla.f32 (32bit x4) n12 : 0.274 3509.3 3509.3 NEON vfma.f32 (32bit x4) n12 : - - - 平均 : 0.497 1322.4 1322.4 最大 : 0.080 3738.9 3738.9 * VFP/NEON (倍精度 fp) single-thread VFP fmuld (64bit x1) n8 : 1.196 66.9 66.9 VFP faddd (64bit x1) n8 : 0.948 84.4 84.4 VFP fmacd (64bit x1) n8 : 1.730 92.5 92.5 VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : 0.637 125.6 125.6 VFP faddd (64bit x1) ns4 : 0.830 96.4 96.4 VFP fmacd (64bit x1) ns4 : 1.370 116.8 116.8 VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : 1.003 79.8 79.8 VFP faddd (64bit x1) n1 : 0.898 89.1 89.1 VFP fmacd (64bit x1) n1 : 1.914 83.6 83.6 VFP vfma.f64 (64bit x1) n1 : - - - 平均 : 1.170 92.8 92.8 最大 : 0.637 125.6 125.6 * Matrix 4x4 (単精度 fp) single-thread C++ code : 0.529 338.6 338.6 NEON vmla 128bit A : 0.332 540.5 540.5 NEON vmla 64bit A : 0.372 481.1 481.1 NEON vfma 128bit A : - - - NEON vmla 128bit B : 0.190 940.7 940.7 NEON vmla 64bit B : 0.226 791.4 791.4 NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - 平均 : 0.330 618.5 618.5 最大 : 0.190 940.7 940.7 * VFP/NEON (単精度 fp) multi-thread VFP fmuls (32bit x1) n8 : 1.144 69.9 69.9 VFP fadds (32bit x1) n8 : 0.914 87.6 87.6 VFP fmacs (32bit x1) n8 : 1.735 92.2 92.2 VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : 0.087 1842.8 1842.8 NEON vadd.f32 (32bit x2) n8 : 0.105 1529.4 1529.4 NEON vmla.f32 (32bit x2) n8 : 0.098 3252.4 3252.4 NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : 0.193 1662.3 1662.3 NEON vadd.f32 (32bit x4) n8 : 0.186 1718.1 1718.1 NEON vmla.f32 (32bit x4) n8 : 0.190 3376.0 3376.0 NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : 0.670 119.3 119.3 VFP fadds (32bit x1) ns4 : 0.817 97.9 97.9 VFP fmacs (32bit x1) ns4 : 1.349 118.6 118.6 VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : 0.099 1619.2 1619.2 NEON vadd.f32 (32bit x2) ns4 : 0.080 1998.0 1998.0 NEON vmla.f32 (32bit x2) ns4 : 0.215 1485.9 1485.9 NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : 0.181 1768.6 1768.6 NEON vadd.f32 (32bit x4) ns4 : 0.193 1654.7 1654.7 NEON vmla.f32 (32bit x4) ns4 : 0.226 2837.8 2837.8 NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : 0.932 85.8 85.8 VFP fadds (32bit x1) n1 : 0.818 97.8 97.8 VFP fmacs (32bit x1) n1 : 1.634 97.9 97.9 VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : 0.111 1437.6 1437.6 NEON vadd.f32 (32bit x2) n1 : 0.081 1968.0 1968.0 NEON vmla.f32 (32bit x2) n1 : 0.817 391.6 391.6 NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : 0.192 1665.5 1665.5 NEON vadd.f32 (32bit x4) n1 : 0.192 1667.6 1667.6 NEON vmla.f32 (32bit x4) n1 : 0.832 768.8 768.8 NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : 0.294 1631.9 1631.9 NEON vadd.f32 (32bit x4) n12 : 0.270 1775.6 1775.6 NEON vmla.f32 (32bit x4) n12 : 0.290 3312.3 3312.3 NEON vfma.f32 (32bit x4) n12 : - - - 平均 : 0.498 1341.0 1341.0 最大 : 0.080 3376.0 3376.0 * VFP/NEON (倍精度 fp) multi-thread VFP fmuld (64bit x1) n8 : 1.291 62.0 62.0 VFP faddd (64bit x1) n8 : 0.907 88.2 88.2 VFP fmacd (64bit x1) n8 : 1.730 92.5 92.5 VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : 0.639 125.3 125.3 VFP faddd (64bit x1) ns4 : 0.825 97.0 97.0 VFP fmacd (64bit x1) ns4 : 1.373 116.5 116.5 VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : 0.999 80.1 80.1 VFP faddd (64bit x1) n1 : 0.819 97.7 97.7 VFP fmacd (64bit x1) n1 : 1.722 92.9 92.9 VFP vfma.f64 (64bit x1) n1 : - - - 平均 : 1.145 94.7 94.7 最大 : 0.639 125.3 125.3 * Matrix 4x4 (単精度 fp) multi-thread C++ code : 0.358 500.4 500.4 NEON vmla 128bit A : 0.347 516.5 516.5 NEON vmla 64bit A : 0.302 593.7 593.7 NEON vfma 128bit A : - - - NEON vmla 128bit B : 0.188 954.0 954.0 NEON vmla 64bit B : 0.238 754.2 754.2 NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - 平均 : 0.286 663.8 663.8 最大 : 0.188 954.0 954.0
ARM Cortex-A7 (ARMv7A) VFPv4+NEON
LG G Watch Android Wear Snapdragon 400 0.8GHz quad core (single core)
LG G Watch Android Wear Snapdragon 400 0.8GHz quad core (single core) Cortex-A7 x4 1.2GHz (x1 0.8GHz) ARCH: ARMv7A CPU core: 4 VFP: VFPv4-D32 NEON FMA: Yes NEON: Yes Result SingleT SP max: 1.419 GFLOPS SingleT DP max: 0.742 GFLOPS MultiT SP max: 1.367 GFLOPS MultiT DP max: 0.676 GFLOPS * VFP/NEON (単精度 fp) single-thread VFP fmuls (32bit x1) n8 : 0.196 407.8 407.8 VFP fadds (32bit x1) n8 : 0.151 529.9 529.9 VFP fmacs (32bit x1) n8 : 0.135 1184.8 1184.8 VFP vfma.f32 (32bit x1) n8 : 0.113 1418.7 1418.7 NEON vmul.f32 (32bit x2) n8 : 0.255 626.2 626.2 NEON vadd.f32 (32bit x2) n8 : 0.240 667.7 667.7 NEON vmla.f32 (32bit x2) n8 : 0.308 1038.4 1038.4 NEON vfma.f32 (32bit x2) n8 : 0.285 1121.8 1121.8 NEON vmul.f32 (32bit x4) n8 : 0.466 686.0 686.0 NEON vadd.f32 (32bit x4) n8 : 0.475 673.2 673.2 NEON vmla.f32 (32bit x4) n8 : 0.484 1322.7 1322.7 NEON vfma.f32 (32bit x4) n8 : 0.466 1372.9 1372.9 VFP fmuls (32bit x1) ns4 : 0.134 597.9 597.9 VFP fadds (32bit x1) ns4 : 0.108 739.8 739.8 VFP fmacs (32bit x1) ns4 : 0.259 617.7 617.7 VFP vfma.f32 (32bit x1) ns4 : 0.232 690.3 690.3 NEON vmul.f32 (32bit x2) ns4 : 0.240 667.0 667.0 NEON vadd.f32 (32bit x2) ns4 : 0.239 668.6 668.6 NEON vmla.f32 (32bit x2) ns4 : 0.235 1359.2 1359.2 NEON vfma.f32 (32bit x2) ns4 : 0.256 1251.7 1251.7 NEON vmul.f32 (32bit x4) ns4 : 0.471 679.7 679.7 NEON vadd.f32 (32bit x4) ns4 : 0.468 684.2 684.2 NEON vmla.f32 (32bit x4) ns4 : 0.491 1302.8 1302.8 NEON vfma.f32 (32bit x4) ns4 : 0.460 1390.5 1390.5 VFP fmuls (32bit x1) n1 : 0.128 626.3 626.3 VFP fadds (32bit x1) n1 : 0.108 742.3 742.3 VFP fmacs (32bit x1) n1 : 0.590 271.1 271.1 VFP vfma.f32 (32bit x1) n1 : 0.593 269.8 269.8 NEON vmul.f32 (32bit x2) n1 : 0.238 671.0 671.0 NEON vadd.f32 (32bit x2) n1 : 0.256 623.8 623.8 NEON vmla.f32 (32bit x2) n1 : 0.588 544.6 544.6 NEON vfma.f32 (32bit x2) n1 : 0.612 522.6 522.6 NEON vmul.f32 (32bit x4) n1 : 0.486 658.7 658.7 NEON vadd.f32 (32bit x4) n1 : 0.465 687.7 687.7 NEON vmla.f32 (32bit x4) n1 : 0.594 1076.8 1076.8 NEON vfma.f32 (32bit x4) n1 : 0.589 1086.2 1086.2 NEON vmul.f32 (32bit x4) n12 : 0.718 668.2 668.2 NEON vadd.f32 (32bit x4) n12 : 0.700 685.5 685.5 NEON vmla.f32 (32bit x4) n12 : 0.723 1327.2 1327.2 NEON vfma.f32 (32bit x4) n12 : 0.714 1343.6 1343.6 平均 : 0.382 837.6 837.6 最大 : 0.108 1418.7 1418.7 * VFP/NEON (倍精度 fp) single-thread VFP fmuld (64bit x1) n8 : 0.593 134.8 134.8 VFP faddd (64bit x1) n8 : 0.133 600.3 600.3 VFP fmacd (64bit x1) n8 : 0.463 345.7 345.7 VFP vfma.f64 (64bit x1) n8 : 0.644 248.4 248.4 VFP fmuld (64bit x1) ns4 : 0.483 165.6 165.6 VFP faddd (64bit x1) ns4 : 0.108 742.3 742.3 VFP fmacd (64bit x1) ns4 : 0.488 328.0 328.0 VFP vfma.f64 (64bit x1) ns4 : 0.612 261.6 261.6 VFP fmuld (64bit x1) n1 : 0.463 172.6 172.6 VFP faddd (64bit x1) n1 : 0.135 591.4 591.4 VFP fmacd (64bit x1) n1 : 0.939 170.3 170.3 VFP vfma.f64 (64bit x1) n1 : 0.928 172.4 172.4 平均 : 0.499 327.8 327.8 最大 : 0.108 742.3 742.3 * Matrix 4x4 (単精度 fp) single-thread C++ code : 0.322 556.6 556.6 NEON vmla 128bit A : 0.273 657.4 657.4 NEON vmla 64bit A : 0.288 622.1 622.1 NEON vfma 128bit A : 0.460 389.6 389.6 NEON vmla 128bit B : 0.218 821.9 821.9 NEON vmla 64bit B : 0.248 723.7 723.7 NEON vfma 128bit B : 0.308 581.4 581.4 NEON vfma 128bit C : 0.440 407.4 407.4 平均 : 0.320 595.0 595.0 最大 : 0.218 821.9 821.9 * VFP/NEON (単精度 fp) multi-thread VFP fmuls (32bit x1) n8 : 0.619 517.4 517.4 VFP fadds (32bit x1) n8 : 0.489 654.9 654.9 VFP fmacs (32bit x1) n8 : 0.530 1206.7 1206.7 VFP vfma.f32 (32bit x1) n8 : 0.474 1351.0 1351.0 NEON vmul.f32 (32bit x2) n8 : 0.939 681.8 681.8 NEON vadd.f32 (32bit x2) n8 : 0.939 681.8 681.8 NEON vmla.f32 (32bit x2) n8 : 0.980 1305.8 1305.8 NEON vfma.f32 (32bit x2) n8 : 0.969 1321.6 1321.6 NEON vmul.f32 (32bit x4) n8 : 1.910 670.1 670.1 NEON vadd.f32 (32bit x4) n8 : 1.905 671.9 671.9 NEON vmla.f32 (32bit x4) n8 : 1.898 1348.6 1348.6 NEON vfma.f32 (32bit x4) n8 : 1.890 1354.6 1354.6 VFP fmuls (32bit x1) ns4 : 0.497 644.2 644.2 VFP fadds (32bit x1) ns4 : 0.472 678.4 678.4 VFP fmacs (32bit x1) ns4 : 0.952 672.5 672.5 VFP vfma.f32 (32bit x1) ns4 : 0.957 668.7 668.7 NEON vmul.f32 (32bit x2) ns4 : 0.960 666.9 666.9 NEON vadd.f32 (32bit x2) ns4 : 0.932 686.8 686.8 NEON vmla.f32 (32bit x2) ns4 : 0.965 1326.6 1326.6 NEON vfma.f32 (32bit x2) ns4 : 0.955 1340.8 1340.8 NEON vmul.f32 (32bit x4) ns4 : 1.882 680.2 680.2 NEON vadd.f32 (32bit x4) ns4 : 1.888 678.0 678.0 NEON vmla.f32 (32bit x4) ns4 : 1.878 1363.3 1363.3 NEON vfma.f32 (32bit x4) ns4 : 1.873 1366.8 1366.8 VFP fmuls (32bit x1) n1 : 0.489 654.1 654.1 VFP fadds (32bit x1) n1 : 0.474 675.5 675.5 VFP fmacs (32bit x1) n1 : 2.378 269.1 269.1 VFP vfma.f32 (32bit x1) n1 : 2.359 271.3 271.3 NEON vmul.f32 (32bit x2) n1 : 0.958 667.8 667.8 NEON vadd.f32 (32bit x2) n1 : 0.937 683.2 683.2 NEON vmla.f32 (32bit x2) n1 : 2.379 538.0 538.0 NEON vfma.f32 (32bit x2) n1 : 2.323 551.0 551.0 NEON vmul.f32 (32bit x4) n1 : 1.874 683.0 683.0 NEON vadd.f32 (32bit x4) n1 : 1.870 684.7 684.7 NEON vmla.f32 (32bit x4) n1 : 2.342 1093.0 1093.0 NEON vfma.f32 (32bit x4) n1 : 2.349 1089.8 1089.8 NEON vmul.f32 (32bit x4) n12 : 2.813 682.5 682.5 NEON vadd.f32 (32bit x4) n12 : 2.846 674.6 674.6 NEON vmla.f32 (32bit x4) n12 : 2.861 1342.1 1342.1 NEON vfma.f32 (32bit x4) n12 : 2.820 1361.6 1361.6 平均 : 1.496 861.5 861.5 最大 : 0.472 1366.8 1366.8 * VFP/NEON (倍精度 fp) multi-thread VFP fmuld (64bit x1) n8 : 2.034 157.3 157.3 VFP faddd (64bit x1) n8 : 0.493 649.3 649.3 VFP fmacd (64bit x1) n8 : 1.879 340.5 340.5 VFP vfma.f64 (64bit x1) n8 : 2.342 273.3 273.3 VFP fmuld (64bit x1) ns4 : 1.866 171.5 171.5 VFP faddd (64bit x1) ns4 : 0.489 653.7 653.7 VFP fmacd (64bit x1) ns4 : 1.855 344.9 344.9 VFP vfma.f64 (64bit x1) ns4 : 2.338 273.7 273.7 VFP fmuld (64bit x1) n1 : 1.865 171.6 171.6 VFP faddd (64bit x1) n1 : 0.473 675.9 675.9 VFP fmacd (64bit x1) n1 : 3.740 171.1 171.1 VFP vfma.f64 (64bit x1) n1 : 3.702 172.9 172.9 平均 : 1.923 338.0 338.0 最大 : 0.473 675.9 675.9 * Matrix 4x4 (単精度 fp) multi-thread C++ code : 1.004 713.6 713.6 NEON vmla 128bit A : 1.105 648.8 648.8 NEON vmla 64bit A : 1.074 667.2 667.2 NEON vfma 128bit A : 1.759 407.5 407.5 NEON vmla 128bit B : 0.890 805.7 805.7 NEON vmla 64bit B : 0.872 821.8 821.8 NEON vfma 128bit B : 1.179 608.1 608.1 NEON vfma 128bit C : 1.772 404.4 404.4 平均 : 1.207 634.6 634.6 最大 : 0.872 821.8 821.8
Sony SmartWatch 3 SWR50 Android Wear Snapdragon 400 1.2GHz quad core
Sony SmartWatch 3 SWR50 Android Wear Snapdragon 400 1.2GHz quad core Cortex-A7 x4 1.2GHz (x2) ARCH: ARMv7A CPU core: 4 VFP: VFPv4-D32 NEON FMA: Yes NEON: Yes Result SingleT SP max: 2.257 GFLOPS SingleT DP max: 1.144 GFLOPS MultiT SP max: 4.946 GFLOPS MultiT DP max: 2.278 GFLOPS * VFP/NEON (単精度 fp) single-thread VFP fmuls (32bit x1) n8 : 0.101 791.0 791.0 VFP fadds (32bit x1) n8 : 0.086 933.9 933.9 VFP fmacs (32bit x1) n8 : 0.104 1540.2 1540.2 VFP vfma.f32 (32bit x1) n8 : 0.081 1974.7 1974.7 NEON vmul.f32 (32bit x2) n8 : 0.169 945.3 945.3 NEON vadd.f32 (32bit x2) n8 : 0.169 946.9 946.9 NEON vmla.f32 (32bit x2) n8 : 0.157 2041.6 2041.6 NEON vfma.f32 (32bit x2) n8 : 0.149 2149.2 2149.2 NEON vmul.f32 (32bit x4) n8 : 0.333 961.4 961.4 NEON vadd.f32 (32bit x4) n8 : 0.358 892.7 892.7 NEON vmla.f32 (32bit x4) n8 : 0.291 2202.2 2202.2 NEON vfma.f32 (32bit x4) n8 : 0.312 2050.0 2050.0 VFP fmuls (32bit x1) ns4 : 0.069 1153.3 1153.3 VFP fadds (32bit x1) ns4 : 0.073 1095.0 1095.0 VFP fmacs (32bit x1) ns4 : 0.141 1135.3 1135.3 VFP vfma.f32 (32bit x1) ns4 : 0.153 1045.4 1045.4 NEON vmul.f32 (32bit x2) ns4 : 0.155 1030.8 1030.8 NEON vadd.f32 (32bit x2) ns4 : 0.150 1065.8 1065.8 NEON vmla.f32 (32bit x2) ns4 : 0.156 2057.6 2057.6 NEON vfma.f32 (32bit x2) ns4 : 0.169 1895.1 1895.1 NEON vmul.f32 (32bit x4) ns4 : 0.309 1036.0 1036.0 NEON vadd.f32 (32bit x4) ns4 : 0.297 1076.3 1076.3 NEON vmla.f32 (32bit x4) ns4 : 0.303 2114.7 2114.7 NEON vfma.f32 (32bit x4) ns4 : 0.284 2256.9 2256.9 VFP fmuls (32bit x1) n1 : 0.071 1122.7 1122.7 VFP fadds (32bit x1) n1 : 0.078 1027.2 1027.2 VFP fmacs (32bit x1) n1 : 0.374 427.8 427.8 VFP vfma.f32 (32bit x1) n1 : 0.375 426.2 426.2 NEON vmul.f32 (32bit x2) n1 : 0.147 1092.0 1092.0 NEON vadd.f32 (32bit x2) n1 : 0.157 1021.8 1021.8 NEON vmla.f32 (32bit x2) n1 : 0.383 836.0 836.0 NEON vfma.f32 (32bit x2) n1 : 0.383 835.1 835.1 NEON vmul.f32 (32bit x4) n1 : 0.286 1119.3 1119.3 NEON vadd.f32 (32bit x4) n1 : 0.292 1096.4 1096.4 NEON vmla.f32 (32bit x4) n1 : 0.344 1858.2 1858.2 NEON vfma.f32 (32bit x4) n1 : 0.343 1865.3 1865.3 NEON vmul.f32 (32bit x4) n12 : 0.413 1161.1 1161.1 NEON vadd.f32 (32bit x4) n12 : 0.413 1161.8 1161.8 NEON vmla.f32 (32bit x4) n12 : 0.447 2146.1 2146.1 NEON vfma.f32 (32bit x4) n12 : 0.462 2079.3 2079.3 平均 : 0.238 1341.7 1341.7 最大 : 0.069 2256.9 2256.9 * VFP/NEON (倍精度 fp) single-thread VFP fmuld (64bit x1) n8 : 0.398 201.2 201.2 VFP faddd (64bit x1) n8 : 0.082 972.7 972.7 VFP fmacd (64bit x1) n8 : 0.298 537.8 537.8 VFP vfma.f64 (64bit x1) n8 : 0.390 410.2 410.2 VFP fmuld (64bit x1) ns4 : 0.355 225.2 225.2 VFP faddd (64bit x1) ns4 : 0.073 1089.1 1089.1 VFP fmacd (64bit x1) ns4 : 0.311 514.9 514.9 VFP vfma.f64 (64bit x1) ns4 : 0.351 455.7 455.7 VFP fmuld (64bit x1) n1 : 0.280 285.8 285.8 VFP faddd (64bit x1) n1 : 0.070 1144.2 1144.2 VFP fmacd (64bit x1) n1 : 0.561 285.4 285.4 VFP vfma.f64 (64bit x1) n1 : 0.559 286.2 286.2 平均 : 0.311 534.0 534.0 最大 : 0.070 1144.2 1144.2 * Matrix 4x4 (単精度 fp) single-thread C++ code : 0.181 987.4 987.4 NEON vmla 128bit A : 0.215 833.4 833.4 NEON vmla 64bit A : 0.186 965.3 965.3 NEON vfma 128bit A : 0.292 613.7 613.7 NEON vmla 128bit B : 0.147 1215.2 1215.2 NEON vmla 64bit B : 0.158 1137.8 1137.8 NEON vfma 128bit B : 0.216 828.2 828.2 NEON vfma 128bit C : 0.280 640.8 640.8 平均 : 0.209 902.7 902.7 最大 : 0.147 1215.2 1215.2 * VFP/NEON (単精度 fp) multi-thread VFP fmuls (32bit x1) n8 : 0.257 1245.6 1245.6 VFP fadds (32bit x1) n8 : 0.196 1629.7 1629.7 VFP fmacs (32bit x1) n8 : 0.139 4590.0 4590.0 VFP vfma.f32 (32bit x1) n8 : 0.131 4879.4 4879.4 NEON vmul.f32 (32bit x2) n8 : 0.284 2251.2 2251.2 NEON vadd.f32 (32bit x2) n8 : 0.333 1920.1 1920.1 NEON vmla.f32 (32bit x2) n8 : 0.320 3996.3 3996.3 NEON vfma.f32 (32bit x2) n8 : 0.306 4186.0 4186.0 NEON vmul.f32 (32bit x4) n8 : 0.579 2210.5 2210.5 NEON vadd.f32 (32bit x4) n8 : 0.579 2212.5 2212.5 NEON vmla.f32 (32bit x4) n8 : 0.578 4427.2 4427.2 NEON vfma.f32 (32bit x4) n8 : 0.574 4461.4 4461.4 VFP fmuls (32bit x1) ns4 : 0.140 2292.2 2292.2 VFP fadds (32bit x1) ns4 : 0.147 2169.7 2169.7 VFP fmacs (32bit x1) ns4 : 0.290 2208.9 2208.9 VFP vfma.f32 (32bit x1) ns4 : 0.292 2191.6 2191.6 NEON vmul.f32 (32bit x2) ns4 : 0.290 2208.6 2208.6 NEON vadd.f32 (32bit x2) ns4 : 0.291 2202.4 2202.4 NEON vmla.f32 (32bit x2) ns4 : 0.290 4416.1 4416.1 NEON vfma.f32 (32bit x2) ns4 : 0.300 4265.9 4265.9 NEON vmul.f32 (32bit x4) ns4 : 0.577 2218.4 2218.4 NEON vadd.f32 (32bit x4) ns4 : 0.579 2210.6 2210.6 NEON vmla.f32 (32bit x4) ns4 : 0.606 4227.2 4227.2 NEON vfma.f32 (32bit x4) ns4 : 0.585 4372.4 4372.4 VFP fmuls (32bit x1) n1 : 0.144 2227.5 2227.5 VFP fadds (32bit x1) n1 : 0.156 2052.2 2052.2 VFP fmacs (32bit x1) n1 : 0.731 875.0 875.0 VFP vfma.f32 (32bit x1) n1 : 0.719 890.1 890.1 NEON vmul.f32 (32bit x2) n1 : 0.295 2168.2 2168.2 NEON vadd.f32 (32bit x2) n1 : 0.292 2190.4 2190.4 NEON vmla.f32 (32bit x2) n1 : 0.709 1806.6 1806.6 NEON vfma.f32 (32bit x2) n1 : 0.728 1758.7 1758.7 NEON vmul.f32 (32bit x4) n1 : 0.581 2204.7 2204.7 NEON vadd.f32 (32bit x4) n1 : 0.577 2217.5 2217.5 NEON vmla.f32 (32bit x4) n1 : 0.715 3580.6 3580.6 NEON vfma.f32 (32bit x4) n1 : 0.718 3565.4 3565.4 NEON vmul.f32 (32bit x4) n12 : 0.856 2243.0 2243.0 NEON vadd.f32 (32bit x4) n12 : 0.857 2239.5 2239.5 NEON vmla.f32 (32bit x4) n12 : 0.863 4449.6 4449.6 NEON vfma.f32 (32bit x4) n12 : 0.776 4945.9 4945.9 平均 : 0.460 2810.2 2810.2 最大 : 0.131 4945.9 4945.9 * VFP/NEON (倍精度 fp) multi-thread VFP fmuld (64bit x1) n8 : 0.693 461.9 461.9 VFP faddd (64bit x1) n8 : 0.144 2220.4 2220.4 VFP fmacd (64bit x1) n8 : 0.651 983.2 983.2 VFP vfma.f64 (64bit x1) n8 : 0.723 885.8 885.8 VFP fmuld (64bit x1) ns4 : 0.572 559.8 559.8 VFP faddd (64bit x1) ns4 : 0.152 2098.5 2098.5 VFP fmacd (64bit x1) ns4 : 0.569 1125.5 1125.5 VFP vfma.f64 (64bit x1) ns4 : 0.720 888.6 888.6 VFP fmuld (64bit x1) n1 : 0.577 554.7 554.7 VFP faddd (64bit x1) n1 : 0.140 2277.8 2277.8 VFP fmacd (64bit x1) n1 : 1.152 555.7 555.7 VFP vfma.f64 (64bit x1) n1 : 1.061 603.5 603.5 平均 : 0.596 1101.3 1101.3 最大 : 0.140 2277.8 2277.8 * Matrix 4x4 (単精度 fp) multi-thread C++ code : 0.423 1693.8 1693.8 NEON vmla 128bit A : 0.298 2406.4 2406.4 NEON vmla 64bit A : 0.359 1998.3 1998.3 NEON vfma 128bit A : 0.534 1342.7 1342.7 NEON vmla 128bit B : 0.275 2608.3 2608.3 NEON vmla 64bit B : 0.331 2166.5 2166.5 NEON vfma 128bit B : 0.353 2029.9 2029.9 NEON vfma 128bit C : 0.527 1359.1 1359.1 平均 : 0.387 1950.6 1950.6 最大 : 0.275 2608.3 2608.3
Fossil Q-Marshal Snapdragon 400 quad core (dual core)
Fossil Q-Marshal Snapdragon 400 quad core (dual core) Fossil Q-Marshal Snapdragon 400 quad core (dual core) Cortex-A7 x4 1.2GHz (x2 0.8GHz) RAM 0.5GB ARCH: ARMv7A CPU core: 4 VFP: VFPv4-D32 NEON FMA: Yes NEON: Yes Result SingleT SP max: 1.504 GFLOPS SingleT DP max: 0.755 GFLOPS MultiT SP max: 2.821 GFLOPS MultiT DP max: 1.369 GFLOPS * VFP/NEON (単精度 fp) single-thread VFP fmuls (32bit x1) n8 : 0.173 462.9 462.9 VFP fadds (32bit x1) n8 : 0.145 552.9 552.9 VFP fmacs (32bit x1) n8 : 0.112 1424.8 1424.8 VFP vfma.f32 (32bit x1) n8 : 0.121 1317.6 1317.6 NEON vmul.f32 (32bit x2) n8 : 0.220 727.5 727.5 NEON vadd.f32 (32bit x2) n8 : 0.250 638.8 638.8 NEON vmla.f32 (32bit x2) n8 : 0.243 1318.1 1318.1 NEON vfma.f32 (32bit x2) n8 : 0.219 1461.3 1461.3 NEON vmul.f32 (32bit x4) n8 : 0.492 650.8 650.8 NEON vadd.f32 (32bit x4) n8 : 0.427 749.9 749.9 NEON vmla.f32 (32bit x4) n8 : 0.433 1478.7 1478.7 NEON vfma.f32 (32bit x4) n8 : 0.431 1484.1 1484.1 VFP fmuls (32bit x1) ns4 : 0.110 728.2 728.2 VFP fadds (32bit x1) ns4 : 0.116 688.3 688.3 VFP fmacs (32bit x1) ns4 : 0.221 722.7 722.7 VFP vfma.f32 (32bit x1) ns4 : 0.218 733.7 733.7 NEON vmul.f32 (32bit x2) ns4 : 0.220 725.7 725.7 NEON vadd.f32 (32bit x2) ns4 : 0.219 729.0 729.0 NEON vmla.f32 (32bit x2) ns4 : 0.215 1490.8 1490.8 NEON vfma.f32 (32bit x2) ns4 : 0.220 1457.6 1457.6 NEON vmul.f32 (32bit x4) ns4 : 0.433 738.6 738.6 NEON vadd.f32 (32bit x4) ns4 : 0.442 724.7 724.7 NEON vmla.f32 (32bit x4) ns4 : 0.434 1476.1 1476.1 NEON vfma.f32 (32bit x4) ns4 : 0.429 1492.4 1492.4 VFP fmuls (32bit x1) n1 : 0.104 769.2 769.2 VFP fadds (32bit x1) n1 : 0.115 694.2 694.2 VFP fmacs (32bit x1) n1 : 0.539 296.7 296.7 VFP vfma.f32 (32bit x1) n1 : 0.533 300.5 300.5 NEON vmul.f32 (32bit x2) n1 : 0.221 723.3 723.3 NEON vadd.f32 (32bit x2) n1 : 0.220 726.4 726.4 NEON vmla.f32 (32bit x2) n1 : 0.534 599.4 599.4 NEON vfma.f32 (32bit x2) n1 : 0.539 593.9 593.9 NEON vmul.f32 (32bit x4) n1 : 0.443 721.8 721.8 NEON vadd.f32 (32bit x4) n1 : 0.433 739.4 739.4 NEON vmla.f32 (32bit x4) n1 : 0.551 1160.7 1160.7 NEON vfma.f32 (32bit x4) n1 : 0.541 1183.7 1183.7 NEON vmul.f32 (32bit x4) n12 : 0.646 743.1 743.1 NEON vadd.f32 (32bit x4) n12 : 0.633 758.2 758.2 NEON vmla.f32 (32bit x4) n12 : 0.645 1487.6 1487.6 NEON vfma.f32 (32bit x4) n12 : 0.638 1504.3 1504.3 平均 : 0.347 924.4 924.4 最大 : 0.104 1504.3 1504.3 * VFP/NEON (倍精度 fp) single-thread VFP fmuld (64bit x1) n8 : 0.568 140.9 140.9 VFP faddd (64bit x1) n8 : 0.118 675.3 675.3 VFP fmacd (64bit x1) n8 : 0.433 369.4 369.4 VFP vfma.f64 (64bit x1) n8 : 0.557 287.0 287.0 VFP fmuld (64bit x1) ns4 : 0.469 170.6 170.6 VFP faddd (64bit x1) ns4 : 0.109 731.4 731.4 VFP fmacd (64bit x1) ns4 : 0.436 366.9 366.9 VFP vfma.f64 (64bit x1) ns4 : 0.535 298.8 298.8 VFP fmuld (64bit x1) n1 : 0.429 186.7 186.7 VFP faddd (64bit x1) n1 : 0.106 755.2 755.2 VFP fmacd (64bit x1) n1 : 0.859 186.3 186.3 VFP vfma.f64 (64bit x1) n1 : 0.849 188.5 188.5 平均 : 0.456 363.1 363.1 最大 : 0.106 755.2 755.2 * Matrix 4x4 (単精度 fp) single-thread C++ code : 0.244 734.9 734.9 NEON vmla 128bit A : 0.259 692.2 692.2 NEON vmla 64bit A : 0.247 725.8 725.8 NEON vfma 128bit A : 0.404 443.1 443.1 NEON vmla 128bit B : 0.200 896.7 896.7 NEON vmla 64bit B : 0.204 878.0 878.0 NEON vfma 128bit B : 0.338 529.5 529.5 NEON vfma 128bit C : 0.405 442.1 442.1 平均 : 0.288 667.8 667.8 最大 : 0.200 896.7 896.7 * VFP/NEON (単精度 fp) multi-thread VFP fmuls (32bit x1) n8 : 0.353 906.8 906.8 VFP fadds (32bit x1) n8 : 0.238 1344.3 1344.3 VFP fmacs (32bit x1) n8 : 0.240 2665.6 2665.6 VFP vfma.f32 (32bit x1) n8 : 0.244 2620.8 2620.8 NEON vmul.f32 (32bit x2) n8 : 0.455 1407.2 1407.2 NEON vadd.f32 (32bit x2) n8 : 0.533 1201.3 1201.3 NEON vmla.f32 (32bit x2) n8 : 0.461 2774.6 2774.6 NEON vfma.f32 (32bit x2) n8 : 0.457 2801.9 2801.9 NEON vmul.f32 (32bit x4) n8 : 0.915 1399.1 1399.1 NEON vadd.f32 (32bit x4) n8 : 0.911 1405.2 1405.2 NEON vmla.f32 (32bit x4) n8 : 0.913 2804.8 2804.8 NEON vfma.f32 (32bit x4) n8 : 0.922 2777.1 2777.1 VFP fmuls (32bit x1) ns4 : 0.233 1373.3 1373.3 VFP fadds (32bit x1) ns4 : 0.230 1392.7 1392.7 VFP fmacs (32bit x1) ns4 : 0.451 1417.9 1417.9 VFP vfma.f32 (32bit x1) ns4 : 0.461 1387.3 1387.3 NEON vmul.f32 (32bit x2) ns4 : 0.463 1383.6 1383.6 NEON vadd.f32 (32bit x2) ns4 : 0.462 1385.9 1385.9 NEON vmla.f32 (32bit x2) ns4 : 0.463 2762.4 2762.4 NEON vfma.f32 (32bit x2) ns4 : 0.464 2757.6 2757.6 NEON vmul.f32 (32bit x4) ns4 : 0.901 1421.0 1421.0 NEON vadd.f32 (32bit x4) ns4 : 0.921 1389.6 1389.6 NEON vmla.f32 (32bit x4) ns4 : 0.907 2821.4 2821.4 NEON vfma.f32 (32bit x4) ns4 : 0.910 2813.8 2813.8 VFP fmuls (32bit x1) n1 : 0.238 1345.2 1345.2 VFP fadds (32bit x1) n1 : 0.235 1362.8 1362.8 VFP fmacs (32bit x1) n1 : 1.133 564.7 564.7 VFP vfma.f32 (32bit x1) n1 : 1.130 566.2 566.2 NEON vmul.f32 (32bit x2) n1 : 0.462 1385.7 1385.7 NEON vadd.f32 (32bit x2) n1 : 0.459 1395.2 1395.2 NEON vmla.f32 (32bit x2) n1 : 1.446 884.9 884.9 NEON vfma.f32 (32bit x2) n1 : 1.416 904.0 904.0 NEON vmul.f32 (32bit x4) n1 : 1.141 1121.5 1121.5 NEON vadd.f32 (32bit x4) n1 : 1.095 1168.8 1168.8 NEON vmla.f32 (32bit x4) n1 : 1.254 2040.8 2040.8 NEON vfma.f32 (32bit x4) n1 : 1.233 2076.8 2076.8 NEON vmul.f32 (32bit x4) n12 : 1.449 1325.2 1325.2 NEON vadd.f32 (32bit x4) n12 : 1.411 1360.6 1360.6 NEON vmla.f32 (32bit x4) n12 : 1.396 2751.3 2751.3 NEON vfma.f32 (32bit x4) n12 : 1.363 2817.3 2817.3 平均 : 0.759 1737.2 1737.2 最大 : 0.230 2821.4 2821.4 * VFP/NEON (倍精度 fp) multi-thread VFP fmuld (64bit x1) n8 : 1.075 297.7 297.7 VFP faddd (64bit x1) n8 : 0.238 1346.1 1346.1 VFP fmacd (64bit x1) n8 : 1.009 634.4 634.4 VFP vfma.f64 (64bit x1) n8 : 1.174 545.4 545.4 VFP fmuld (64bit x1) ns4 : 0.892 358.7 358.7 VFP faddd (64bit x1) ns4 : 0.234 1369.2 1369.2 VFP fmacd (64bit x1) ns4 : 0.919 696.8 696.8 VFP vfma.f64 (64bit x1) ns4 : 1.128 567.2 567.2 VFP fmuld (64bit x1) n1 : 0.899 356.1 356.1 VFP faddd (64bit x1) n1 : 0.237 1350.0 1350.0 VFP fmacd (64bit x1) n1 : 1.824 351.0 351.0 VFP vfma.f64 (64bit x1) n1 : 1.773 361.0 361.0 平均 : 0.950 686.1 686.1 最大 : 0.234 1369.2 1369.2 * Matrix 4x4 (単精度 fp) multi-thread C++ code : 0.518 1384.6 1384.6 NEON vmla 128bit A : 0.524 1367.4 1367.4 NEON vmla 64bit A : 0.610 1174.5 1174.5 NEON vfma 128bit A : 0.851 842.4 842.4 NEON vmla 128bit B : 0.428 1674.9 1674.9 NEON vmla 64bit B : 0.419 1712.4 1712.4 NEON vfma 128bit B : 0.563 1273.6 1273.6 NEON vfma 128bit C : 0.664 1080.0 1080.0 平均 : 0.572 1313.7 1313.7 最大 : 0.419 1712.4 1712.4
Intel Atom (IA32 x86) SSS4.2
Fossil Q Founder Android Wear Atom T1000 1.0GHz dual core
Android Wear Fossil Q Founder Atom T1000 1.0GHz dual core RAM 512MB ARCH: x86 CPU core: 2 FPU: SSE SSE2 SSSE3 SSE4.1 SSE4.2 Result SingleT SP max: 2.015 GFLOPS SingleT DP max: 0.688 GFLOPS MultiT SP max: 3.862 GFLOPS MultiT DP max: 1.221 GFLOPS * SSE/AVX (単精度 fp) single-thread SSE mulss (32bit x1) n8 : 0.248 323.1 323.1 SSE addss (32bit x1) n8 : 0.243 328.6 328.6 SSE mulps (32bit x4) n8 : 0.356 897.7 897.7 SSE addps (32bit x4) n8 : 0.174 1842.9 1842.9 SSE mul+addps (32bit x4) n8 : 0.170 1877.1 1877.1 SSE ml+ad+addps (32bit x4) n6 : 0.167 2014.8 2014.8 SSE mulss (32bit x1) ns4 : 0.190 421.2 421.2 SSE addss (32bit x1) ns4 : 0.172 464.6 464.6 SSE mulps (32bit x4) ns4 : 0.343 933.3 933.3 SSE addps (32bit x4) ns4 : 0.166 1931.6 1931.6 AVX vmulps (32bit x8) n8 : - - - AVX vaddps (32bit x8) n8 : - - - AVX vmul+addps (32bit x8) n8 : - - - AVX vml+ad+adps (32bit x8) n6 : - - - 平均 : 0.223 1103.5 1103.5 最大 : 0.166 2014.8 2014.8 * SSE/AVX (倍精度 fp) single-thread SSE2 mulsd (64bit x1) n8 : 0.491 163.0 163.0 SSE2 addsd (64bit x1) n8 : 0.175 456.7 456.7 SSE2 mulpd (64bit x2) n8 : 0.680 235.4 235.4 SSE2 addpd (64bit x2) n8 : 0.357 448.5 448.5 SSE2 mul+addpd (64bit x2) n8 : 0.330 485.5 485.5 SSE2 ml+ad+dpd (64bit x2) n6 : 0.244 688.4 688.4 SSE2 mulsd (64bit x1) ns4 : 0.331 241.8 241.8 SSE2 addsd (64bit x1) ns4 : 0.173 463.2 463.2 SSE2 mulpd (64bit x2) ns4 : 0.673 237.6 237.6 SSE2 addpd (64bit x2) ns4 : 0.333 479.9 479.9 AVX vmulpd (64bit x4) n8 : - - - AVX vaddpd (64bit x4) n8 : - - - AVX vmul+addpd (64bit x4) n8 : - - - AVX vml_ad_adpd (64bit x4) n6 : - - - 平均 : 0.379 390.0 390.0 最大 : 0.173 688.4 688.4 * Matrix 4x4 (単精度 fp) single-thread C++ code : 0.931 192.4 192.4 C++ Intrinsic SSE 128bit : 0.229 782.3 782.3 SSE mul/addps 128bit A : 0.302 593.2 593.2 AVX vmul/addps 256bit A : - - - 平均 : 0.488 522.6 522.6 最大 : 0.229 782.3 782.3 * SSE/AVX (単精度 fp) multi-thread SSE mulss (32bit x1) n8 : 0.316 505.6 505.6 SSE addss (32bit x1) n8 : 0.210 763.4 763.4 SSE mulps (32bit x4) n8 : 0.357 1793.6 1793.6 SSE addps (32bit x4) n8 : 0.177 3606.3 3606.3 SSE mul+addps (32bit x4) n8 : 0.198 3238.9 3238.9 SSE ml+ad+addps (32bit x4) n6 : 0.203 3310.0 3310.0 SSE mulss (32bit x1) ns4 : 0.201 794.3 794.3 SSE addss (32bit x1) ns4 : 0.184 870.4 870.4 SSE mulps (32bit x4) ns4 : 0.348 1840.1 1840.1 SSE addps (32bit x4) ns4 : 0.166 3862.2 3862.2 AVX vmulps (32bit x8) n8 : - - - AVX vaddps (32bit x8) n8 : - - - AVX vmul+addps (32bit x8) n8 : - - - AVX vml+ad+adps (32bit x8) n6 : - - - 平均 : 0.236 2058.5 2058.5 最大 : 0.166 3862.2 3862.2 * SSE/AVX (倍精度 fp) multi-thread SSE2 mulsd (64bit x1) n8 : 0.569 281.3 281.3 SSE2 addsd (64bit x1) n8 : 0.235 681.1 681.1 SSE2 mulpd (64bit x2) n8 : 0.887 361.0 361.0 SSE2 addpd (64bit x2) n8 : 0.372 860.9 860.9 SSE2 mul+addpd (64bit x2) n8 : 0.357 895.4 895.4 SSE2 ml+ad+dpd (64bit x2) n6 : 0.275 1221.0 1221.0 SSE2 mulsd (64bit x1) ns4 : 0.534 299.7 299.7 SSE2 addsd (64bit x1) ns4 : 0.189 845.3 845.3 SSE2 mulpd (64bit x2) ns4 : 0.747 428.4 428.4 SSE2 addpd (64bit x2) ns4 : 0.374 854.6 854.6 AVX vmulpd (64bit x4) n8 : - - - AVX vaddpd (64bit x4) n8 : - - - AVX vmul+addpd (64bit x4) n8 : - - - AVX vml_ad_adpd (64bit x4) n6 : - - - 平均 : 0.454 672.8 672.8 最大 : 0.189 1221.0 1221.0 * Matrix 4x4 (単精度 fp) multi-thread C++ code : 1.252 286.1 286.1 C++ Intrinsic SSE 128bit : 0.344 1042.3 1042.3 SSE mul/addps 128bit A : 0.276 1298.3 1298.3 AVX vmul/addps 256bit A : - - - 平均 : 0.624 875.6 875.6 最大 : 0.276 1298.3 1298.3
Ingenic JZ4775 XBurst (MIPS32-R2) FPU
SmartQ ZWatch JZ4775 XBurst 1.0GHz (MIPS32-R2)
Ingenic JZ4775 mips32 XBurst 1.0GHz single core ARCH: MIPS32 CPU core: 1 FPU: FPU Result SingleT SP max: 0.117 GFLOPS SingleT DP max: 0.116 GFLOPS MultiT SP max: 0.117 GFLOPS MultiT DP max: 0.117 GFLOPS * FPU (single fp) single-thread FPU mul.s (32bit x1) n8 : 13.098 91.6 91.6 FPU add.s (32bit x1) n8 : 10.428 115.1 115.1 FPU madd.s (32bit x1) n8 : 32.977 72.8 72.8 FPU mul.s (32bit x1) n1 : 12.362 97.1 97.1 FPU add.s (32bit x1) n1 : 10.272 116.8 116.8 FPU madd.s (32bit x1) n1 : 32.531 73.8 73.8 Average : 18.611 94.5 94.5 Highest : 10.272 116.8 116.8 * FPU (double fp) single-thread FPU mul.d (64bit x1) n8 : 21.607 55.5 55.5 FPU add.d (64bit x1) n8 : 10.324 116.2 116.2 FPU madd.d (64bit x1) n8 : 40.805 58.8 58.8 FPU mul.d (64bit x1) n1 : 20.391 58.9 58.9 FPU add.d (64bit x1) n1 : 10.393 115.5 115.5 FPU madd.d (64bit x1) n1 : 40.870 58.7 58.7 Average : 24.065 77.3 77.3 Highest : 10.324 116.2 116.2 * Matrix 4x4 (single fp) single-thread C++ code : 37.353 48.0 48.0 SIMD reserved 128bit A : - - - SIMD reserved 64bit A : - - - SIMD reserved 128bit A : - - - SIMD reserved 128bit B : - - - SIMD reserved 64bit B : - - - SIMD reserved 128bit B : - - - SIMD reserved 128bit C : - - - Average : 37.353 48.0 48.0 Highest : 37.353 48.0 48.0 * FPU (single fp) multi-thread FPU mul.s (32bit x1) n8 : 13.016 92.2 92.2 FPU add.s (32bit x1) n8 : 10.288 116.6 116.6 FPU madd.s (32bit x1) n8 : 32.506 73.8 73.8 FPU mul.s (32bit x1) n1 : 12.737 94.2 94.2 FPU add.s (32bit x1) n1 : 10.255 117.0 117.0 FPU madd.s (32bit x1) n1 : 32.507 73.8 73.8 Average : 18.552 94.6 94.6 Highest : 10.255 117.0 117.0 * FPU (double fp) multi-thread FPU mul.d (64bit x1) n8 : 21.245 56.5 56.5 FPU add.d (64bit x1) n8 : 10.255 117.0 117.0 FPU madd.d (64bit x1) n8 : 40.923 58.6 58.6 FPU mul.d (64bit x1) n1 : 20.312 59.1 59.1 FPU add.d (64bit x1) n1 : 10.294 116.6 116.6 FPU madd.d (64bit x1) n1 : 40.791 58.8 58.8 Average : 23.970 77.8 77.8 Highest : 10.255 117.0 117.0 * Matrix 4x4 (single fp) multi-thread C++ code : 37.167 48.2 48.2 SIMD reserved 128bit A : - - - SIMD reserved 64bit A : - - - SIMD reserved 128bit A : - - - SIMD reserved 128bit B : - - - SIMD reserved 64bit B : - - - SIMD reserved 128bit B : - - - SIMD reserved 128bit C : - - - Average : 37.167 48.2 48.2 Highest : 37.167 48.2 48.2
Apple S1 Apple Watch (ARMv7A)
HW INFO: Machine = Watch1,2 HW INFO: Model = N28aAP HW INFO: Arch = N28aAP HW INFO: ByteOrder = 1234 HW INFO: NCPU = 1 HW INFO: MemSize = 529530880 HW INFO: UserMem = 455229440 HW INFO: PageSize = 16384 HW INFO: VectorUnit = 0 HW INFO: Float = 0 CPU Feature: ARM_NEON ARM_VFPV4 CPU Core:1 Thread:1 ARCH: ARMv7A FPU: VFPv4-D32 NEON SingleT SP max: 0.951 GFLOPS SingleT DP max: 0.470 GFLOPS MultiT SP max: 0.945 GFLOPS MultiT DP max: 0.469 GFLOPS CPU core: 1 NEON: yes FMA: yes * VFP/NEON (single fp) VFP fmuls (32bit x1) n8 : 2.649 453.0 453.0 VFP fadds (32bit x1) n8 : 2.557 469.3 469.3 VFP fmacs (32bit x1) n8 : 2.586 928.2 928.2 VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : 5.160 465.1 465.1 NEON vadd.f32 (32bit x2) n8 : 5.096 470.9 470.9 NEON vmla.f32 (32bit x2) n8 : 5.077 945.4 945.4 NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : 10.097 475.4 475.4 NEON vadd.f32 (32bit x4) n8 : 10.182 471.4 471.4 NEON vmla.f32 (32bit x4) n8 : 10.165 944.4 944.4 NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : 2.686 446.8 446.8 VFP fadds (32bit x1) ns4 : 2.557 469.2 469.2 VFP fmacs (32bit x1) ns4 : 5.011 479.0 479.0 VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : 5.088 471.7 471.7 NEON vadd.f32 (32bit x2) ns4 : 6.157 389.8 389.8 NEON vmla.f32 (32bit x2) ns4 : 5.104 940.5 940.5 NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : 10.107 474.9 474.9 NEON vadd.f32 (32bit x4) ns4 : 10.995 436.5 436.5 NEON vmla.f32 (32bit x4) ns4 : 10.090 951.4 951.4 NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : 2.555 469.7 469.7 VFP fadds (32bit x1) n1 : 2.794 429.6 429.6 VFP fmacs (32bit x1) n1 : 12.516 191.8 191.8 VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : 5.076 472.8 472.8 NEON vadd.f32 (32bit x2) n1 : 5.174 463.9 463.9 NEON vmla.f32 (32bit x2) n1 : 12.531 383.1 383.1 NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : 10.201 470.6 470.6 NEON vadd.f32 (32bit x4) n1 : 10.088 475.8 475.8 NEON vmla.f32 (32bit x4) n1 : 12.606 761.5 761.5 NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : 15.209 473.4 473.4 NEON vadd.f32 (32bit x4) n12 : 15.087 477.2 477.2 NEON vmla.f32 (32bit x4) n12 : 15.696 917.5 917.5 NEON vfma.f32 (32bit x4) n12 : - - - Average : 7.696 555.7 555.7 Highest : 2.555 951.4 951.4 * VFP/NEON (double fp) VFP fmuld (64bit x1) n8 : 10.164 118.1 118.1 VFP faddd (64bit x1) n8 : 2.554 469.8 469.8 VFP fmacd (64bit x1) n8 : 10.746 223.3 223.3 VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : 10.242 117.2 117.2 VFP faddd (64bit x1) ns4 : 2.724 440.6 440.6 VFP fmacd (64bit x1) ns4 : 10.096 237.7 237.7 VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : 10.222 117.4 117.4 VFP faddd (64bit x1) n1 : 2.718 441.5 441.5 VFP fmacd (64bit x1) n1 : 20.298 118.2 118.2 VFP vfma.f64 (64bit x1) n1 : - - - Average : 8.863 253.8 253.8 Highest : 2.554 469.8 469.8 * Matrix 4x4 C++ code : 3.115 575.4 575.4 NEON vmla 128bit A : 3.872 462.8 462.8 NEON vmla 64bit A : 3.928 456.2 456.2 NEON vfma 128bit A : - - - NEON vmla 128bit B : 3.158 567.5 567.5 NEON vmla 64bit B : 3.151 568.8 568.8 NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - Average : 3.445 526.1 526.1 Highest : 3.115 575.4 575.4 * VFP/NEON (single fp) multi-thread VFP fmuls (32bit x1) n8 : 3.803 315.6 315.6 VFP fadds (32bit x1) n8 : 2.611 459.6 459.6 VFP fmacs (32bit x1) n8 : 2.633 911.6 911.6 VFP vfma.f32 (32bit x1) n8 : - - - NEON vmul.f32 (32bit x2) n8 : 5.214 460.3 460.3 NEON vadd.f32 (32bit x2) n8 : 5.114 469.3 469.3 NEON vmla.f32 (32bit x2) n8 : 5.124 936.8 936.8 NEON vfma.f32 (32bit x2) n8 : - - - NEON vmul.f32 (32bit x4) n8 : 10.271 467.3 467.3 NEON vadd.f32 (32bit x4) n8 : 10.186 471.2 471.2 NEON vmla.f32 (32bit x4) n8 : 10.276 934.2 934.2 NEON vfma.f32 (32bit x4) n8 : - - - VFP fmuls (32bit x1) ns4 : 2.566 467.7 467.7 VFP fadds (32bit x1) ns4 : 2.605 460.7 460.7 VFP fmacs (32bit x1) ns4 : 5.056 474.7 474.7 VFP vfma.f32 (32bit x1) ns4 : - - - NEON vmul.f32 (32bit x2) ns4 : 5.140 466.9 466.9 NEON vadd.f32 (32bit x2) ns4 : 5.207 460.9 460.9 NEON vmla.f32 (32bit x2) ns4 : 5.118 937.9 937.9 NEON vfma.f32 (32bit x2) ns4 : - - - NEON vmul.f32 (32bit x4) ns4 : 10.169 472.0 472.0 NEON vadd.f32 (32bit x4) ns4 : 10.265 467.6 467.6 NEON vmla.f32 (32bit x4) ns4 : 10.173 943.7 943.7 NEON vfma.f32 (32bit x4) ns4 : - - - VFP fmuls (32bit x1) n1 : 2.608 460.1 460.1 VFP fadds (32bit x1) n1 : 2.791 429.9 429.9 VFP fmacs (32bit x1) n1 : 12.652 189.7 189.7 VFP vfma.f32 (32bit x1) n1 : - - - NEON vmul.f32 (32bit x2) n1 : 5.118 469.0 469.0 NEON vadd.f32 (32bit x2) n1 : 5.202 461.3 461.3 NEON vmla.f32 (32bit x2) n1 : 12.618 380.4 380.4 NEON vfma.f32 (32bit x2) n1 : - - - NEON vmul.f32 (32bit x4) n1 : 10.264 467.6 467.6 NEON vadd.f32 (32bit x4) n1 : 11.020 435.6 435.6 NEON vmla.f32 (32bit x4) n1 : 13.373 717.9 717.9 NEON vfma.f32 (32bit x4) n1 : - - - NEON vmul.f32 (32bit x4) n12 : 15.233 472.7 472.7 NEON vadd.f32 (32bit x4) n12 : 15.106 476.6 476.6 NEON vmla.f32 (32bit x4) n12 : 15.239 944.9 944.9 NEON vfma.f32 (32bit x4) n12 : - - - Average : 7.758 549.5 549.5 Highest : 2.566 944.9 944.9 * VFP/NEON (double fp) multi-thread VFP fmuld (64bit x1) n8 : 10.108 118.7 118.7 VFP faddd (64bit x1) n8 : 2.556 469.4 469.4 VFP fmacd (64bit x1) n8 : 10.042 239.0 239.0 VFP vfma.f64 (64bit x1) n8 : - - - VFP fmuld (64bit x1) ns4 : 10.194 117.7 117.7 VFP faddd (64bit x1) ns4 : 2.700 444.5 444.5 VFP fmacd (64bit x1) ns4 : 10.016 239.6 239.6 VFP vfma.f64 (64bit x1) ns4 : - - - VFP fmuld (64bit x1) n1 : 10.125 118.5 118.5 VFP faddd (64bit x1) n1 : 2.707 443.3 443.3 VFP fmacd (64bit x1) n1 : 20.144 119.1 119.1 VFP vfma.f64 (64bit x1) n1 : - - - Average : 8.733 256.6 256.6 Highest : 2.556 469.4 469.4 * Matrix 4x4 multi-thread C++ code : 3.105 577.1 577.1 NEON vmla 128bit A : 3.874 462.6 462.6 NEON vmla 64bit A : 3.979 450.4 450.4 NEON vfma 128bit A : - - - NEON vmla 128bit B : 3.160 567.0 567.0 NEON vmla 64bit B : 3.137 571.3 571.3 NEON vfma 128bit B : - - - NEON vfma 128bit C : - - - Average : 3.451 525.7 525.7 Highest : 3.105 577.1 577.1
Apple S1 Apple Watch (ARMv7A) watchOS 3.1
2016/11/19 Apple Watch OS 3.1 Apple Watch 1 / Apple S1 HW INFO: Machine = Watch1,2 HW INFO: Model = N28aAP HW INFO: Arch = N28aAP HW INFO: ByteOrder = 1234 HW INFO: NCPU = 1 HW INFO: MemSize = 529530880 HW INFO: UserMem = 447381504 HW INFO: PageSize = 16384 HW INFO: VectorUnit = 0 HW INFO: Float = 0 CPU Feature: ARM_NEON ARM_VFPV4 CPU Core:1 Thread:1 ******* ARCH: ARMv7A FPU: VFPv4-D32 NEON SingleT SP max: 0.850 GFLOPS SingleT DP max: 0.416 GFLOPS MultiT SP max: 0.849 GFLOPS MultiT DP max: 0.416 GFLOPS CPU core: 1 NEON: yes FMA: yes * VFP/NEON (single fp) VFP fmuls (32bit x1) n8 : 2.888 415.5 415.5 VFP fadds (32bit x1) n8 : 2.894 414.6 414.6 VFP fmacs (32bit x1) n8 : 3.340 718.5 718.5 VFP vfma.f32 (32bit x1) n8 : 2.900 827.7 827.7 NEON vmul.f32 (32bit x2) n8 : 5.789 414.5 414.5 NEON vadd.f32 (32bit x2) n8 : 5.672 423.1 423.1 NEON vmla.f32 (32bit x2) n8 : 5.681 844.9 844.9 NEON vfma.f32 (32bit x2) n8 : 5.667 847.0 847.0 NEON vmul.f32 (32bit x4) n8 : 11.421 420.3 420.3 NEON vadd.f32 (32bit x4) n8 : 11.413 420.6 420.6 NEON vmla.f32 (32bit x4) n8 : 12.018 798.8 798.8 NEON vfma.f32 (32bit x4) n8 : 11.386 843.1 843.1 VFP fmuls (32bit x1) ns4 : 3.032 395.7 395.7 VFP fadds (32bit x1) ns4 : 2.858 419.9 419.9 VFP fmacs (32bit x1) ns4 : 5.592 429.2 429.2 VFP vfma.f32 (32bit x1) ns4 : 5.730 418.9 418.9 NEON vmul.f32 (32bit x2) ns4 : 5.732 418.7 418.7 NEON vadd.f32 (32bit x2) ns4 : 5.704 420.7 420.7 NEON vmla.f32 (32bit x2) ns4 : 5.693 843.2 843.2 NEON vfma.f32 (32bit x2) ns4 : 5.817 825.1 825.1 NEON vmul.f32 (32bit x4) ns4 : 11.288 425.2 425.2 NEON vadd.f32 (32bit x4) ns4 : 11.403 420.9 420.9 NEON vmla.f32 (32bit x4) ns4 : 11.289 850.4 850.4 NEON vfma.f32 (32bit x4) ns4 : 11.833 811.3 811.3 VFP fmuls (32bit x1) n1 : 3.103 386.8 386.8 VFP fadds (32bit x1) n1 : 2.862 419.3 419.3 VFP fmacs (32bit x1) n1 : 14.141 169.7 169.7 VFP vfma.f32 (32bit x1) n1 : 14.117 170.0 170.0 NEON vmul.f32 (32bit x2) n1 : 5.692 421.6 421.6 NEON vadd.f32 (32bit x2) n1 : 5.670 423.3 423.3 NEON vmla.f32 (32bit x2) n1 : 14.155 339.1 339.1 NEON vfma.f32 (32bit x2) n1 : 14.042 341.8 341.8 NEON vmul.f32 (32bit x4) n1 : 11.398 421.1 421.1 NEON vadd.f32 (32bit x4) n1 : 11.398 421.1 421.1 NEON vmla.f32 (32bit x4) n1 : 13.982 686.6 686.6 NEON vfma.f32 (32bit x4) n1 : 14.183 676.9 676.9 NEON vmul.f32 (32bit x4) n12 : 17.045 422.4 422.4 NEON vadd.f32 (32bit x4) n12 : 17.042 422.5 422.5 NEON vmla.f32 (32bit x4) n12 : 16.945 849.8 849.8 NEON vfma.f32 (32bit x4) n12 : 17.063 843.9 843.9 Average : 8.997 537.1 537.1 Highest : 2.858 850.4 850.4 * VFP/NEON (double fp) VFP fmuld (64bit x1) n8 : 11.315 106.1 106.1 VFP faddd (64bit x1) n8 : 2.887 415.6 415.6 VFP fmacd (64bit x1) n8 : 11.275 212.9 212.9 VFP vfma.f64 (64bit x1) n8 : 14.009 171.3 171.3 VFP fmuld (64bit x1) ns4 : 11.340 105.8 105.8 VFP faddd (64bit x1) ns4 : 3.049 393.5 393.5 VFP fmacd (64bit x1) ns4 : 11.295 212.5 212.5 VFP vfma.f64 (64bit x1) ns4 : 14.006 171.4 171.4 VFP fmuld (64bit x1) n1 : 11.303 106.2 106.2 VFP faddd (64bit x1) n1 : 3.042 394.4 394.4 VFP fmacd (64bit x1) n1 : 22.562 106.4 106.4 VFP vfma.f64 (64bit x1) n1 : 22.529 106.5 106.5 Average : 11.551 208.5 208.5 Highest : 2.887 415.6 415.6 * Matrix 4x4 C++ code : 3.737 479.6 479.6 NEON vmla 128bit A : 4.341 412.8 412.8 NEON vmla 64bit A : 4.412 406.1 406.1 NEON vfma 128bit A : 7.048 254.3 254.3 NEON vmla 128bit B : 3.616 495.6 495.6 NEON vmla 64bit B : 3.521 508.9 508.9 NEON vfma 128bit B : 4.696 381.6 381.6 NEON vfma 128bit C : 7.132 251.3 251.3 Average : 4.813 398.8 398.8 Highest : 3.521 508.9 508.9 * VFP/NEON (single fp) multi-thread VFP fmuls (32bit x1) n8 : 2.870 418.2 418.2 VFP fadds (32bit x1) n8 : 2.897 414.2 414.2 VFP fmacs (32bit x1) n8 : 3.136 765.2 765.2 VFP vfma.f32 (32bit x1) n8 : 2.895 829.1 829.1 NEON vmul.f32 (32bit x2) n8 : 5.691 421.7 421.7 NEON vadd.f32 (32bit x2) n8 : 5.664 423.7 423.7 NEON vmla.f32 (32bit x2) n8 : 5.672 846.2 846.2 NEON vfma.f32 (32bit x2) n8 : 5.785 829.7 829.7 NEON vmul.f32 (32bit x4) n8 : 11.295 424.9 424.9 NEON vadd.f32 (32bit x4) n8 : 11.427 420.1 420.1 NEON vmla.f32 (32bit x4) n8 : 11.305 849.2 849.2 NEON vfma.f32 (32bit x4) n8 : 11.410 841.3 841.3 VFP fmuls (32bit x1) ns4 : 3.024 396.8 396.8 VFP fadds (32bit x1) ns4 : 2.867 418.6 418.6 VFP fmacs (32bit x1) ns4 : 5.718 419.7 419.7 VFP vfma.f32 (32bit x1) ns4 : 5.630 426.3 426.3 NEON vmul.f32 (32bit x2) ns4 : 5.718 419.7 419.7 NEON vadd.f32 (32bit x2) ns4 : 5.679 422.6 422.6 NEON vmla.f32 (32bit x2) ns4 : 5.815 825.5 825.5 NEON vfma.f32 (32bit x2) ns4 : 5.664 847.5 847.5 NEON vmul.f32 (32bit x4) ns4 : 11.292 425.1 425.1 NEON vadd.f32 (32bit x4) ns4 : 11.373 422.0 422.0 NEON vmla.f32 (32bit x4) ns4 : 11.361 845.0 845.0 NEON vfma.f32 (32bit x4) ns4 : 11.345 846.2 846.2 VFP fmuls (32bit x1) n1 : 3.109 385.9 385.9 VFP fadds (32bit x1) n1 : 2.881 416.6 416.6 VFP fmacs (32bit x1) n1 : 14.131 169.8 169.8 VFP vfma.f32 (32bit x1) n1 : 15.419 155.6 155.6 NEON vmul.f32 (32bit x2) n1 : 5.674 422.9 422.9 NEON vadd.f32 (32bit x2) n1 : 5.681 422.4 422.4 NEON vmla.f32 (32bit x2) n1 : 15.500 309.7 309.7 NEON vfma.f32 (32bit x2) n1 : 14.152 339.2 339.2 NEON vmul.f32 (32bit x4) n1 : 11.940 402.0 402.0 NEON vadd.f32 (32bit x4) n1 : 11.539 416.0 416.0 NEON vmla.f32 (32bit x4) n1 : 14.179 677.0 677.0 NEON vfma.f32 (32bit x4) n1 : 14.066 682.5 682.5 NEON vmul.f32 (32bit x4) n12 : 16.971 424.3 424.3 NEON vadd.f32 (32bit x4) n12 : 17.003 423.5 423.5 NEON vmla.f32 (32bit x4) n12 : 17.147 839.8 839.8 NEON vfma.f32 (32bit x4) n12 : 17.022 846.0 846.0 Average : 9.049 538.3 538.3 Highest : 2.867 849.2 849.2 * VFP/NEON (double fp) multi-thread VFP fmuld (64bit x1) n8 : 12.762 94.0 94.0 VFP faddd (64bit x1) n8 : 2.886 415.8 415.8 VFP fmacd (64bit x1) n8 : 11.262 213.1 213.1 VFP vfma.f64 (64bit x1) n8 : 14.177 169.3 169.3 VFP fmuld (64bit x1) ns4 : 11.272 106.5 106.5 VFP faddd (64bit x1) ns4 : 3.008 399.0 399.0 VFP fmacd (64bit x1) ns4 : 11.935 201.1 201.1 VFP vfma.f64 (64bit x1) ns4 : 14.136 169.8 169.8 VFP fmuld (64bit x1) n1 : 11.255 106.6 106.6 VFP faddd (64bit x1) n1 : 3.003 399.7 399.7 VFP fmacd (64bit x1) n1 : 22.705 105.7 105.7 VFP vfma.f64 (64bit x1) n1 : 22.454 106.9 106.9 Average : 11.738 207.3 207.3 Highest : 2.886 415.8 415.8 * Matrix 4x4 multi-thread C++ code : 3.436 521.6 521.6 NEON vmla 128bit A : 4.337 413.1 413.1 NEON vmla 64bit A : 4.335 413.4 413.4 NEON vfma 128bit A : 7.029 254.9 254.9 NEON vmla 128bit B : 3.582 500.2 500.2 NEON vmla 64bit B : 3.607 496.8 496.8 NEON vfma 128bit B : 4.834 370.7 370.7 NEON vfma 128bit C : 7.040 254.5 254.5 Average : 4.775 403.2 403.2 Highest : 3.436 521.6 521.6 *******
Apple S2 Apple Watch (ARMv7A)
2016/11/19 Apple Watch OS 3.1 Apple Watch S2 / Apple S2 HW INFO: Machine = Watch2,4 HW INFO: Model = N75AP HW INFO: Arch = N75AP HW INFO: ByteOrder = 1234 HW INFO: NCPU = 2 HW INFO: MemSize = 520093696 HW INFO: UserMem = 410390528 HW INFO: PageSize = 16384 HW INFO: VectorUnit = 0 HW INFO: Float = 0 CPU Feature: ARM_NEON ARM_VFPV4 CPU Core:2 Thread:2 ******* ARCH: ARMv7A FPU: VFPv4-D32 NEON SingleT SP max: 0.986 GFLOPS SingleT DP max: 0.483 GFLOPS MultiT SP max: 1.807 GFLOPS MultiT DP max: 0.879 GFLOPS CPU core: 2 NEON: yes FMA: yes * VFP/NEON (single fp) VFP fmuls (32bit x1) n8 : 2.485 482.8 482.8 VFP fadds (32bit x1) n8 : 2.481 483.6 483.6 VFP fmacs (32bit x1) n8 : 2.602 922.3 922.3 VFP vfma.f32 (32bit x1) n8 : 2.488 964.8 964.8 NEON vmul.f32 (32bit x2) n8 : 4.944 485.5 485.5 NEON vadd.f32 (32bit x2) n8 : 4.896 490.2 490.2 NEON vmla.f32 (32bit x2) n8 : 4.909 977.9 977.9 NEON vfma.f32 (32bit x2) n8 : 4.900 979.6 979.6 NEON vmul.f32 (32bit x4) n8 : 9.785 490.5 490.5 NEON vadd.f32 (32bit x4) n8 : 9.734 493.1 493.1 NEON vmla.f32 (32bit x4) n8 : 10.296 932.4 932.4 NEON vfma.f32 (32bit x4) n8 : 9.748 984.8 984.8 VFP fmuls (32bit x1) ns4 : 2.602 461.2 461.2 VFP fadds (32bit x1) ns4 : 2.598 461.9 461.9 VFP fmacs (32bit x1) ns4 : 4.839 495.9 495.9 VFP vfma.f32 (32bit x1) ns4 : 4.840 495.9 495.9 NEON vmul.f32 (32bit x2) ns4 : 4.911 488.7 488.7 NEON vadd.f32 (32bit x2) ns4 : 4.959 484.0 484.0 NEON vmla.f32 (32bit x2) ns4 : 5.129 935.9 935.9 NEON vfma.f32 (32bit x2) ns4 : 4.904 978.8 978.8 NEON vmul.f32 (32bit x4) ns4 : 10.033 478.4 478.4 NEON vadd.f32 (32bit x4) ns4 : 9.742 492.7 492.7 NEON vmla.f32 (32bit x4) ns4 : 9.779 981.7 981.7 NEON vfma.f32 (32bit x4) ns4 : 9.777 981.9 981.9 VFP fmuls (32bit x1) n1 : 2.637 455.1 455.1 VFP fadds (32bit x1) n1 : 2.475 484.9 484.9 VFP fmacs (32bit x1) n1 : 12.126 197.9 197.9 VFP vfma.f32 (32bit x1) n1 : 12.433 193.0 193.0 NEON vmul.f32 (32bit x2) n1 : 4.915 488.3 488.3 NEON vadd.f32 (32bit x2) n1 : 4.901 489.7 489.7 NEON vmla.f32 (32bit x2) n1 : 12.108 396.4 396.4 NEON vfma.f32 (32bit x2) n1 : 12.109 396.4 396.4 NEON vmul.f32 (32bit x4) n1 : 9.797 489.9 489.9 NEON vadd.f32 (32bit x4) n1 : 9.749 492.4 492.4 NEON vmla.f32 (32bit x4) n1 : 12.107 792.9 792.9 NEON vfma.f32 (32bit x4) n1 : 12.100 793.4 793.4 NEON vmul.f32 (32bit x4) n12 : 14.592 493.4 493.4 NEON vadd.f32 (32bit x4) n12 : 14.591 493.5 493.5 NEON vmla.f32 (32bit x4) n12 : 14.612 985.5 985.5 NEON vfma.f32 (32bit x4) n12 : 14.661 982.2 982.2 Average : 7.732 626.2 626.2 Highest : 2.475 985.5 985.5 * VFP/NEON (double fp) VFP fmuld (64bit x1) n8 : 9.688 123.9 123.9 VFP faddd (64bit x1) n8 : 2.487 482.5 482.5 VFP fmacd (64bit x1) n8 : 9.671 248.2 248.2 VFP vfma.f64 (64bit x1) n8 : 12.139 197.7 197.7 VFP fmuld (64bit x1) ns4 : 9.661 124.2 124.2 VFP faddd (64bit x1) ns4 : 2.607 460.3 460.3 VFP fmacd (64bit x1) ns4 : 9.694 247.6 247.6 VFP vfma.f64 (64bit x1) ns4 : 12.129 197.9 197.9 VFP fmuld (64bit x1) n1 : 9.672 124.1 124.1 VFP faddd (64bit x1) n1 : 2.610 459.8 459.8 VFP fmacd (64bit x1) n1 : 19.459 123.3 123.3 VFP vfma.f64 (64bit x1) n1 : 19.365 123.9 123.9 Average : 9.932 242.8 242.8 Highest : 2.487 482.5 482.5 * Matrix 4x4 C++ code : 3.016 594.2 594.2 NEON vmla 128bit A : 3.748 478.1 478.1 NEON vmla 64bit A : 3.747 478.2 478.2 NEON vfma 128bit A : 6.049 296.2 296.2 NEON vmla 128bit B : 3.037 590.0 590.0 NEON vmla 64bit B : 3.030 591.3 591.3 NEON vfma 128bit B : 4.132 433.7 433.7 NEON vfma 128bit C : 6.089 294.3 294.3 Average : 4.106 469.5 469.5 Highest : 3.016 594.2 594.2 * VFP/NEON (single fp) multi-thread VFP fmuls (32bit x1) n8 : 2.700 888.8 888.8 VFP fadds (32bit x1) n8 : 2.736 877.3 877.3 VFP fmacs (32bit x1) n8 : 2.861 1678.0 1678.0 VFP vfma.f32 (32bit x1) n8 : 2.701 1777.0 1777.0 NEON vmul.f32 (32bit x2) n8 : 5.427 884.4 884.4 NEON vadd.f32 (32bit x2) n8 : 5.362 895.2 895.2 NEON vmla.f32 (32bit x2) n8 : 5.362 1790.5 1790.5 NEON vfma.f32 (32bit x2) n8 : 5.354 1793.1 1793.1 NEON vmul.f32 (32bit x4) n8 : 10.647 901.7 901.7 NEON vadd.f32 (32bit x4) n8 : 10.666 900.1 900.1 NEON vmla.f32 (32bit x4) n8 : 11.123 1726.2 1726.2 NEON vfma.f32 (32bit x4) n8 : 10.708 1793.0 1793.0 VFP fmuls (32bit x1) ns4 : 2.860 839.1 839.1 VFP fadds (32bit x1) ns4 : 2.708 886.1 886.1 VFP fmacs (32bit x1) ns4 : 5.287 908.0 908.0 VFP vfma.f32 (32bit x1) ns4 : 5.285 908.3 908.3 NEON vmul.f32 (32bit x2) ns4 : 5.379 892.4 892.4 NEON vadd.f32 (32bit x2) ns4 : 5.342 898.5 898.5 NEON vmla.f32 (32bit x2) ns4 : 5.366 1789.0 1789.0 NEON vfma.f32 (32bit x2) ns4 : 5.363 1790.1 1790.1 NEON vmul.f32 (32bit x4) ns4 : 10.632 902.9 902.9 NEON vadd.f32 (32bit x4) ns4 : 10.687 898.3 898.3 NEON vmla.f32 (32bit x4) ns4 : 10.700 1794.3 1794.3 NEON vfma.f32 (32bit x4) ns4 : 10.641 1804.4 1804.4 VFP fmuls (32bit x1) n1 : 2.934 818.1 818.1 VFP fadds (32bit x1) n1 : 2.710 885.5 885.5 VFP fmacs (32bit x1) n1 : 13.232 362.7 362.7 VFP vfma.f32 (32bit x1) n1 : 13.327 360.2 360.2 NEON vmul.f32 (32bit x2) n1 : 5.418 885.9 885.9 NEON vadd.f32 (32bit x2) n1 : 5.421 885.5 885.5 NEON vmla.f32 (32bit x2) n1 : 13.207 726.9 726.9 NEON vfma.f32 (32bit x2) n1 : 13.264 723.7 723.7 NEON vmul.f32 (32bit x4) n1 : 10.642 902.1 902.1 NEON vadd.f32 (32bit x4) n1 : 10.680 898.9 898.9 NEON vmla.f32 (32bit x4) n1 : 13.255 1448.5 1448.5 NEON vfma.f32 (32bit x4) n1 : 13.204 1454.1 1454.1 NEON vmul.f32 (32bit x4) n12 : 15.986 900.8 900.8 NEON vadd.f32 (32bit x4) n12 : 15.971 901.6 901.6 NEON vmla.f32 (32bit x4) n12 : 16.768 1717.5 1717.5 NEON vfma.f32 (32bit x4) n12 : 15.935 1807.3 1807.3 Average : 8.446 1147.4 1147.4 Highest : 2.700 1807.3 1807.3 * VFP/NEON (double fp) multi-thread VFP fmuld (64bit x1) n8 : 10.661 225.1 225.1 VFP faddd (64bit x1) n8 : 2.730 879.1 879.1 VFP fmacd (64bit x1) n8 : 10.611 452.3 452.3 VFP vfma.f64 (64bit x1) n8 : 13.247 362.4 362.4 VFP fmuld (64bit x1) ns4 : 10.647 225.4 225.4 VFP faddd (64bit x1) ns4 : 2.841 844.8 844.8 VFP fmacd (64bit x1) ns4 : 10.587 453.4 453.4 VFP vfma.f64 (64bit x1) ns4 : 13.329 360.1 360.1 VFP fmuld (64bit x1) n1 : 10.757 223.1 223.1 VFP faddd (64bit x1) n1 : 2.863 838.2 838.2 VFP fmacd (64bit x1) n1 : 21.191 226.5 226.5 VFP vfma.f64 (64bit x1) n1 : 21.197 226.4 226.4 Average : 10.888 443.1 443.1 Highest : 2.730 879.1 879.1 * Matrix 4x4 multi-thread C++ code : 3.208 1117.2 1117.2 NEON vmla 128bit A : 4.070 880.5 880.5 NEON vmla 64bit A : 4.056 883.6 883.6 NEON vfma 128bit A : 6.623 541.1 541.1 NEON vmla 128bit B : 3.335 1074.5 1074.5 NEON vmla 64bit B : 3.299 1086.3 1086.3 NEON vfma 128bit B : 4.414 812.0 812.0 NEON vfma 128bit C : 6.694 535.4 535.4 Average : 4.463 866.3 866.3 Highest : 3.208 1117.2 1117.2 ******* </cdoe> ++++ ==== NVIDIA Denver (ARMv8A AArch32 armv7k) FPU+NEON ==== ++++NVIDIA Denver (ARMv8A AArch32 armv7k) FPU+NEON| <code> Nexus 9 Tegra K1 Denver 2.3GHz Dual core ARMv7A (AArch32) Android 6.0 ARCH: ARMv7A CPU core: 2 VFP: VFPv4-D32 NEON FMA: Yes NEON: Yes Result SingleT SP max: 18.043 GFLOPS SingleT DP max: 4.297 GFLOPS MultiT SP max: 34.177 GFLOPS MultiT DP max: 8.702 GFLOPS * VFP/NEON (単精度 fp) single-thread VFP fmuls (32bit x1) n8 : 0.757 1585.4 1585.4 VFP fadds (32bit x1) n8 : 0.310 3868.2 3868.2 VFP fmacs (32bit x1) n8 : 0.685 3502.6 3502.6 VFP vfma.f32 (32bit x1) n8 : 0.602 3988.3 3988.3 NEON vmul.f32 (32bit x2) n8 : 0.602 3986.3 3986.3 NEON vadd.f32 (32bit x2) n8 : 0.325 7393.7 7393.7 NEON vmla.f32 (32bit x2) n8 : 0.837 5738.0 5738.0 NEON vfma.f32 (32bit x2) n8 : 0.591 8119.3 8119.3 NEON vmul.f32 (32bit x4) n8 : 0.563 8519.6 8519.6 NEON vadd.f32 (32bit x4) n8 : 0.278 17255.3 17255.3 NEON vmla.f32 (32bit x4) n8 : 0.787 12202.5 12202.5 NEON vfma.f32 (32bit x4) n8 : 0.581 16517.9 16517.9 VFP fmuls (32bit x1) ns4 : 0.891 1347.3 1347.3 VFP fadds (32bit x1) ns4 : 0.494 2427.2 2427.2 VFP fmacs (32bit x1) ns4 : 1.257 1909.5 1909.5 VFP vfma.f32 (32bit x1) ns4 : 0.915 2623.9 2623.9 NEON vmul.f32 (32bit x2) ns4 : 0.859 2793.2 2793.2 NEON vadd.f32 (32bit x2) ns4 : 0.419 5732.3 5732.3 NEON vmla.f32 (32bit x2) ns4 : 1.304 3681.7 3681.7 NEON vfma.f32 (32bit x2) ns4 : 0.823 5829.2 5829.2 NEON vmul.f32 (32bit x4) ns4 : 0.834 5755.7 5755.7 NEON vadd.f32 (32bit x4) ns4 : 0.430 11159.8 11159.8 NEON vmla.f32 (32bit x4) ns4 : 1.322 7259.1 7259.1 NEON vfma.f32 (32bit x4) ns4 : 0.846 11345.8 11345.8 VFP fmuls (32bit x1) n1 : 0.577 2079.8 2079.8 VFP fadds (32bit x1) n1 : 0.281 4268.9 4268.9 VFP fmacs (32bit x1) n1 : 1.701 1410.8 1410.8 VFP vfma.f32 (32bit x1) n1 : 3.379 710.2 710.2 NEON vmul.f32 (32bit x2) n1 : 0.576 4164.2 4164.2 NEON vadd.f32 (32bit x2) n1 : 0.306 7850.1 7850.1 NEON vmla.f32 (32bit x2) n1 : 1.675 2866.1 2866.1 NEON vfma.f32 (32bit x2) n1 : 3.286 1460.9 1460.9 NEON vmul.f32 (32bit x4) n1 : 0.531 9042.5 9042.5 NEON vadd.f32 (32bit x4) n1 : 0.266 18043.5 18043.5 NEON vmla.f32 (32bit x4) n1 : 1.646 5830.9 5830.9 NEON vfma.f32 (32bit x4) n1 : 3.351 2865.1 2865.1 NEON vmul.f32 (32bit x4) n12 : 0.798 9024.8 9024.8 NEON vadd.f32 (32bit x4) n12 : 0.404 17842.4 17842.4 NEON vmla.f32 (32bit x4) n12 : 1.117 12894.0 12894.0 NEON vfma.f32 (32bit x4) n12 : 0.932 15450.7 15450.7 平均 : 0.953 6758.7 6758.7 最大 : 0.266 18043.5 18043.5 * VFP/NEON (倍精度 fp) single-thread VFP fmuld (64bit x1) n8 : 0.653 1838.1 1838.1 VFP faddd (64bit x1) n8 : 0.280 4292.4 4292.4 VFP fmacd (64bit x1) n8 : 0.558 4297.5 4297.5 VFP vfma.f64 (64bit x1) n8 : 0.623 3854.3 3854.3 VFP fmuld (64bit x1) ns4 : 0.802 1495.8 1495.8 VFP faddd (64bit x1) ns4 : 0.434 2763.3 2763.3 VFP fmacd (64bit x1) ns4 : 1.222 1963.6 1963.6 VFP vfma.f64 (64bit x1) ns4 : 0.911 2635.7 2635.7 VFP fmuld (64bit x1) n1 : 0.599 2003.0 2003.0 VFP faddd (64bit x1) n1 : 0.298 4033.3 4033.3 VFP fmacd (64bit x1) n1 : 1.654 1451.4 1451.4 VFP vfma.f64 (64bit x1) n1 : 3.370 712.1 712.1 平均 : 0.950 2611.7 2611.7 最大 : 0.280 4297.5 4297.5 * Matrix 4x4 (単精度 fp) single-thread C++ code : 0.380 4712.4 4712.4 NEON vmla 128bit A : 0.348 5142.7 5142.7 NEON vmla 64bit A : 0.488 3674.9 3674.9 NEON vfma 128bit A : 0.300 5971.1 5971.1 NEON vmla 128bit B : 0.318 5635.2 5635.2 NEON vmla 64bit B : 0.486 3685.9 3685.9 NEON vfma 128bit B : 0.209 8573.3 8573.3 NEON vfma 128bit C : 0.331 5417.4 5417.4 平均 : 0.358 5351.6 5351.6 最大 : 0.209 8573.3 8573.3 * VFP/NEON (単精度 fp) multi-thread VFP fmuls (32bit x1) n8 : 0.633 3791.2 3791.2 VFP fadds (32bit x1) n8 : 0.282 8512.9 8512.9 VFP fmacs (32bit x1) n8 : 0.650 7389.6 7389.6 VFP vfma.f32 (32bit x1) n8 : 0.637 7537.5 7537.5 NEON vmul.f32 (32bit x2) n8 : 0.562 8536.9 8536.9 NEON vadd.f32 (32bit x2) n8 : 0.306 15700.4 15700.4 NEON vmla.f32 (32bit x2) n8 : 0.864 11105.1 11105.1 NEON vfma.f32 (32bit x2) n8 : 0.577 16627.7 16627.7 NEON vmul.f32 (32bit x4) n8 : 0.563 17038.9 17038.9 NEON vadd.f32 (32bit x4) n8 : 0.297 32322.3 32322.3 NEON vmla.f32 (32bit x4) n8 : 0.778 24690.8 24690.8 NEON vfma.f32 (32bit x4) n8 : 0.578 33232.6 33232.6 VFP fmuls (32bit x1) ns4 : 0.898 2671.3 2671.3 VFP fadds (32bit x1) ns4 : 0.472 5087.1 5087.1 VFP fmacs (32bit x1) ns4 : 1.300 3693.2 3693.2 VFP vfma.f32 (32bit x1) ns4 : 0.869 5526.1 5526.1 NEON vmul.f32 (32bit x2) ns4 : 0.859 5590.5 5590.5 NEON vadd.f32 (32bit x2) ns4 : 0.442 10848.0 10848.0 NEON vmla.f32 (32bit x2) ns4 : 1.315 7299.2 7299.2 NEON vfma.f32 (32bit x2) ns4 : 0.860 11161.5 11161.5 NEON vmul.f32 (32bit x4) ns4 : 0.865 11097.7 11097.7 NEON vadd.f32 (32bit x4) ns4 : 0.444 21624.4 21624.4 NEON vmla.f32 (32bit x4) ns4 : 1.312 14637.6 14637.6 NEON vfma.f32 (32bit x4) ns4 : 0.836 22959.9 22959.9 VFP fmuls (32bit x1) n1 : 0.563 4262.6 4262.6 VFP fadds (32bit x1) n1 : 0.302 7942.6 7942.6 VFP fmacs (32bit x1) n1 : 1.702 2820.5 2820.5 VFP vfma.f32 (32bit x1) n1 : 3.374 1422.8 1422.8 NEON vmul.f32 (32bit x2) n1 : 0.569 8429.6 8429.6 NEON vadd.f32 (32bit x2) n1 : 0.279 17200.0 17200.0 NEON vmla.f32 (32bit x2) n1 : 1.707 5623.6 5623.6 NEON vfma.f32 (32bit x2) n1 : 3.396 2827.2 2827.2 NEON vmul.f32 (32bit x4) n1 : 0.569 16864.4 16864.4 NEON vadd.f32 (32bit x4) n1 : 0.287 33496.9 33496.9 NEON vmla.f32 (32bit x4) n1 : 1.710 11229.9 11229.9 NEON vfma.f32 (32bit x4) n1 : 3.370 5696.8 5696.8 NEON vmul.f32 (32bit x4) n12 : 0.880 16365.4 16365.4 NEON vadd.f32 (32bit x4) n12 : 0.445 32328.2 32328.2 NEON vmla.f32 (32bit x4) n12 : 1.165 24714.6 24714.6 NEON vfma.f32 (32bit x4) n12 : 0.843 34177.0 34177.0 平均 : 0.959 13352.1 13352.1 最大 : 0.279 34177.0 34177.0 * VFP/NEON (倍精度 fp) multi-thread VFP fmuld (64bit x1) n8 : 0.612 3924.4 3924.4 VFP faddd (64bit x1) n8 : 0.276 8701.7 8701.7 VFP fmacd (64bit x1) n8 : 0.572 8387.8 8387.8 VFP vfma.f64 (64bit x1) n8 : 0.621 7724.5 7724.5 VFP fmuld (64bit x1) ns4 : 0.861 2785.9 2785.9 VFP faddd (64bit x1) ns4 : 0.423 5678.4 5678.4 VFP fmacd (64bit x1) ns4 : 1.293 3712.4 3712.4 VFP vfma.f64 (64bit x1) ns4 : 0.839 5723.6 5723.6 VFP fmuld (64bit x1) n1 : 0.558 4297.5 4297.5 VFP faddd (64bit x1) n1 : 0.300 7993.5 7993.5 VFP fmacd (64bit x1) n1 : 1.704 2816.8 2816.8 VFP vfma.f64 (64bit x1) n1 : 3.382 1419.1 1419.1 平均 : 0.954 5263.8 5263.8 最大 : 0.276 8701.7 8701.7 * Matrix 4x4 (単精度 fp) multi-thread C++ code : 0.385 9312.2 9312.2 NEON vmla 128bit A : 0.383 9366.8 9366.8 NEON vmla 64bit A : 0.489 7328.8 7328.8 NEON vfma 128bit A : 0.269 13310.7 13310.7 NEON vmla 128bit B : 0.341 10495.5 10495.5 NEON vmla 64bit B : 0.488 7338.2 7338.2 NEON vfma 128bit B : 0.197 18212.0 18212.0 NEON vfma 128bit C : 0.333 10775.0 10775.0 平均 : 0.361 10767.4 10767.4 最大 : 0.197 18212.0 18212.0
Mobile CPU 64bit
Apple Cyclone (ARMv8A AArch64 arm64) FPU+NEON
iPhone 5s Apple A7 Cyclone 1.3GHz Dual core ARM64 (AArch64)
iPhone 5s Apple A7 Cyclone 1.3GHz Dual core ARM64 (AArch64) ARCH: ARMv8A FPU: AArch64 NEON SingleT SP max: 20.621 GFLOPS SingleT DP max: 10.313 GFLOPS MultiT SP max: 40.871 GFLOPS MultiT DP max: 20.480 GFLOPS CPU core: 2 NEON: yes FMA: no * FPU/NEON (single fp) FPU fmul (32bit x1) n8 : 1.630 2454.1 2454.1 FPU fadd (32bit x1) n8 : 1.053 3798.2 3798.2 FPU fmadd (32bit x1) n8 : 3.135 2551.8 2551.8 NEON fmul.2s (32bit x2) n8 : 1.563 5117.2 5117.2 NEON fadd.2s (32bit x2) n8 : 1.039 7701.8 7701.8 NEON fmla.2s (32bit x2) n8 : 1.569 10194.9 10194.9 NEON fmul.4s (32bit x4) n8 : 1.552 10306.0 10306.0 NEON fadd.4s (32bit x4) n8 : 1.035 15462.0 15462.0 NEON fmla.4s (32bit x4) n8 : 1.570 20381.5 20381.5 FPU fmul (32bit x1) ns4 : 3.110 1286.3 1286.3 FPU fadd (32bit x1) ns4 : 3.674 1088.8 1088.8 FPU fmadd (32bit x1) ns4 : 3.111 2571.4 2571.4 NEON fmul.2s (32bit x2) ns4 : 3.113 2570.1 2570.1 NEON fadd.2s (32bit x2) ns4 : 3.677 2175.5 2175.5 NEON fmla.2s (32bit x2) ns4 : 6.210 2576.5 2576.5 NEON fmul.4s (32bit x4) ns4 : 3.112 5142.1 5142.1 NEON fadd.4s (32bit x4) ns4 : 3.673 4355.8 4355.8 NEON fmla.4s (32bit x4) ns4 : 6.214 5150.0 5150.0 FPU fmul (32bit x1) n1 : 1.552 2576.6 2576.6 FPU fadd (32bit x1) n1 : 1.035 3866.3 3866.3 FPU fmadd (32bit x1) n1 : 27.931 286.4 286.4 NEON fmul.2s (32bit x2) n1 : 1.554 5149.5 5149.5 NEON fadd.2s (32bit x2) n1 : 1.036 7724.9 7724.9 NEON fmla.2s (32bit x2) n1 : 15.523 1030.7 1030.7 NEON fmul.4s (32bit x4) n1 : 1.552 10309.1 10319.2 NEON fadd.4s (32bit x4) n1 : 1.036 15440.5 15440.5 NEON fmla.4s (32bit x4) n1 : 15.515 2062.6 2062.6 NEON fmul.4s (32bit x4) n12 : 2.328 10308.9 10308.9 NEON fadd.4s (32bit x4) n12 : 1.554 15440.9 15461.7 NEON fmla.4s (32bit x4) n12 : 2.328 20621.0 20621.0 Average : 4.099 6656.7 6657.8 Highest : 1.035 20621.0 20621.0 * FPU/NEON (double fp) FPU fmul (64bit x1) n8 : 1.642 2436.1 2436.1 FPU fadd (64bit x1) n8 : 1.045 3827.0 3827.0 FPU fmadd (64bit x1) n8 : 3.915 2043.6 2043.6 NEON fmul.2d (64bit x2) n8 : 1.567 5105.1 5105.1 NEON fadd.2d (64bit x2) n8 : 1.034 7736.5 7736.5 NEON fmla.2d (64bit x2) n8 : 1.958 8172.1 8172.1 FPU fmul (64bit x1) ns4 : 3.886 1029.3 1029.3 FPU fadd (64bit x1) ns4 : 4.466 895.6 895.6 FPU fmadd (64bit x1) ns4 : 3.884 2059.8 2059.8 NEON fmul.2d (64bit x2) ns4 : 3.890 2056.7 2056.7 NEON fadd.2d (64bit x2) ns4 : 4.466 1791.2 1791.2 NEON fmla.2d (64bit x2) ns4 : 7.760 2061.9 2061.9 FPU fmul (64bit x1) n1 : 1.554 2574.5 2574.5 FPU fadd (64bit x1) n1 : 1.036 3860.8 3860.8 FPU fmadd (64bit x1) n1 : 34.162 234.2 234.2 NEON fmul.2d (64bit x2) n1 : 1.565 5111.3 5111.3 NEON fadd.2d (64bit x2) n1 : 1.041 7684.7 7684.7 NEON fmla.2d (64bit x2) n1 : 18.628 858.9 858.9 NEON fmul.2d (64bit x2) n12 : 2.328 5155.4 5155.4 NEON fadd.2d (64bit x2) n12 : 1.555 7714.6 7714.6 NEON fmla.2d (64bit x2) n12 : 2.327 10313.2 10313.2 Average : 4.939 3939.2 3939.2 Highest : 1.034 10313.2 10313.2 * Matrix 4x4 C++ code : 1.299 2759.5 2759.5 NEON fmla.4s 128bit A : 0.700 5117.5 5117.5 NEON fmla.4s 128bit B : 0.701 5110.9 5110.9 Average : 0.900 4329.3 4329.3 Highest : 0.700 5117.5 5117.5 * FPU/NEON (single fp) multi-thread FPU fmul (32bit x1) n8 : 1.725 4637.5 4637.5 FPU fadd (32bit x1) n8 : 1.065 7511.4 7511.4 FPU fmadd (32bit x1) n8 : 3.165 5055.3 5055.3 NEON fmul.2s (32bit x2) n8 : 1.588 10073.9 10073.9 NEON fadd.2s (32bit x2) n8 : 1.045 15308.6 15308.6 NEON fmla.2s (32bit x2) n8 : 1.591 20114.0 20114.0 NEON fmul.4s (32bit x4) n8 : 1.564 20461.6 20461.6 NEON fadd.4s (32bit x4) n8 : 1.048 30541.3 30541.3 NEON fmla.4s (32bit x4) n8 : 1.593 40164.4 40164.4 FPU fmul (32bit x1) ns4 : 3.127 2558.1 2558.1 FPU fadd (32bit x1) ns4 : 3.713 2154.5 2154.5 FPU fmadd (32bit x1) ns4 : 3.137 5100.0 5100.0 NEON fmul.2s (32bit x2) ns4 : 3.131 5109.8 5109.8 NEON fadd.2s (32bit x2) ns4 : 3.702 4322.3 4322.3 NEON fmla.2s (32bit x2) ns4 : 6.255 5115.9 5115.9 NEON fmul.4s (32bit x4) ns4 : 3.163 10117.8 10117.8 NEON fadd.4s (32bit x4) ns4 : 3.707 8631.2 8631.2 NEON fmla.4s (32bit x4) ns4 : 6.244 10249.8 10249.8 FPU fmul (32bit x1) n1 : 1.568 5102.1 5102.1 FPU fadd (32bit x1) n1 : 1.048 7634.5 7634.5 FPU fmadd (32bit x1) n1 : 28.126 568.9 568.9 NEON fmul.2s (32bit x2) n1 : 1.569 10196.5 10196.5 NEON fadd.2s (32bit x2) n1 : 1.044 15322.7 15322.7 NEON fmla.2s (32bit x2) n1 : 15.606 2050.5 2050.5 NEON fmul.4s (32bit x4) n1 : 1.576 20308.3 20308.3 NEON fadd.4s (32bit x4) n1 : 1.043 30688.9 30688.9 NEON fmla.4s (32bit x4) n1 : 15.612 4099.5 4099.5 NEON fmul.4s (32bit x4) n12 : 2.342 20492.6 20492.6 NEON fadd.4s (32bit x4) n12 : 1.581 30359.8 30359.8 NEON fmla.4s (32bit x4) n12 : 2.349 40871.0 40871.0 Average : 4.134 13164.1 13164.1 Highest : 1.043 40871.0 40871.0 * FPU/NEON (double fp) multi-thread FPU fmul (64bit x1) n8 : 1.730 4623.6 4623.6 FPU fadd (64bit x1) n8 : 1.061 7541.1 7541.1 FPU fmadd (64bit x1) n8 : 3.958 4042.3 4042.3 NEON fmul.2d (64bit x2) n8 : 1.575 10161.5 10161.5 NEON fadd.2d (64bit x2) n8 : 1.044 15325.5 15325.5 NEON fmla.2d (64bit x2) n8 : 1.992 16061.4 16061.4 FPU fmul (64bit x1) ns4 : 3.917 2042.3 2042.3 FPU fadd (64bit x1) ns4 : 4.495 1779.8 1779.8 FPU fmadd (64bit x1) ns4 : 3.909 4092.7 4092.7 NEON fmul.2d (64bit x2) ns4 : 3.908 4093.7 4093.7 NEON fadd.2d (64bit x2) ns4 : 4.516 3542.6 3542.6 NEON fmla.2d (64bit x2) ns4 : 7.811 4096.6 4096.6 FPU fmul (64bit x1) n1 : 1.568 5101.4 5101.4 FPU fadd (64bit x1) n1 : 1.048 7635.0 7635.0 FPU fmadd (64bit x1) n1 : 34.414 464.9 464.9 NEON fmul.2d (64bit x2) n1 : 1.583 10107.5 10107.5 NEON fadd.2d (64bit x2) n1 : 1.054 15186.2 15186.2 NEON fmla.2d (64bit x2) n1 : 18.754 1706.3 1706.3 NEON fmul.2d (64bit x2) n12 : 2.339 10259.5 10259.5 NEON fadd.2d (64bit x2) n12 : 1.571 15277.4 15277.4 NEON fmla.2d (64bit x2) n12 : 2.344 20479.6 20479.6 Average : 4.981 7791.5 7791.5 Highest : 1.044 20479.6 20479.6 * Matrix 4x4 multi-thread C++ code : 1.362 5260.9 5260.9 NEON fmla.4s 128bit A : 0.733 9785.0 9785.0 NEON fmla.4s 128bit B : 0.711 10081.2 10081.2 Average : 0.935 8375.7 8375.7 Highest : 0.711 10081.2 10081.2
iPad mini retina (mini2) Apple A7 Cyclone 1.3GHz dual core
iPad mini retina (mini2) Apple A7 Cyclone 1.3GHz dual core ARCH: ARMv8A VFP: AArch64 NEON SingleT SP max: 20.373 GFLOPS SingleT DP max: 10.223 GFLOPS MultiT SP max: 40.616 GFLOPS MultiT DP max: 20.238 GFLOPS CPU core: 2 FMA: Yes NEON: Yes * VFP/NEON (single fp) VFP fmul (32bit x1) n8 : 1.614 2478.8 2478.8 VFP fadd (32bit x1) n8 : 1.055 3791.3 3791.3 VFP fmadd (32bit x1) n8 : 3.142 2545.8 2545.8 NEON fmul.2s (32bit x2) n8 : 1.569 5100.3 5100.3 NEON fadd.2s (32bit x2) n8 : 1.043 7672.1 7672.1 NEON fmla.2s (32bit x2) n8 : 1.583 10104.8 10104.8 NEON fmul.4s (32bit x4) n8 : 1.567 10211.8 10211.8 NEON fadd.4s (32bit x4) n8 : 1.048 15273.2 15273.2 NEON fmla.4s (32bit x4) n8 : 1.584 20197.0 20197.0 VFP fmul (32bit x1) ns4 : 3.132 1276.9 1276.9 VFP fadd (32bit x1) ns4 : 3.707 1079.0 1079.0 VFP fmadd (32bit x1) ns4 : 3.159 2532.3 2532.3 NEON fmul.2s (32bit x2) ns4 : 3.133 2553.7 2553.7 NEON fadd.2s (32bit x2) ns4 : 3.712 2155.2 2155.2 NEON fmla.2s (32bit x2) ns4 : 6.260 2556.0 2556.0 NEON fmul.4s (32bit x4) ns4 : 3.137 5100.5 5100.5 NEON fadd.4s (32bit x4) ns4 : 3.712 4310.7 4310.7 NEON fmla.4s (32bit x4) ns4 : 6.258 5113.7 5113.7 VFP fmul (32bit x1) n1 : 1.567 2553.1 2553.1 VFP fadd (32bit x1) n1 : 1.044 3830.9 3830.9 VFP fmadd (32bit x1) n1 : 28.148 284.2 284.2 NEON fmul.2s (32bit x2) n1 : 1.577 5072.1 5072.1 NEON fadd.2s (32bit x2) n1 : 1.048 7634.4 7634.4 NEON fmla.2s (32bit x2) n1 : 15.631 1023.6 1023.6 NEON fmul.4s (32bit x4) n1 : 1.564 10227.8 10227.8 NEON fadd.4s (32bit x4) n1 : 1.042 15348.4 15348.4 NEON fmla.4s (32bit x4) n1 : 15.649 2044.9 2044.9 NEON fmul.4s (32bit x4) n12 : 2.348 10223.0 10223.0 NEON fadd.4s (32bit x4) n12 : 1.566 15321.7 15321.7 NEON fmla.4s (32bit x4) n12 : 2.356 20373.3 20373.3 平均 : 4.132 6599.7 6599.7 最大 : 1.042 20373.3 20373.3 * VFP/NEON (double fp) VFP fmul (64bit x1) n8 : 1.606 2491.0 2491.0 VFP fadd (64bit x1) n8 : 1.051 3806.2 3806.2 VFP fmadd (64bit x1) n8 : 3.925 2038.2 2038.2 NEON fmul.2d (64bit x2) n8 : 1.565 5112.9 5112.9 NEON fadd.2d (64bit x2) n8 : 1.048 7636.9 7636.9 NEON fmla.2d (64bit x2) n8 : 1.989 8046.0 8046.0 VFP fmul (64bit x1) ns4 : 3.920 1020.5 1020.5 VFP fadd (64bit x1) ns4 : 4.511 886.7 886.7 VFP fmadd (64bit x1) ns4 : 3.918 2041.8 2041.8 NEON fmul.2d (64bit x2) ns4 : 3.926 2037.5 2037.5 NEON fadd.2d (64bit x2) ns4 : 4.512 1773.1 1773.1 NEON fmla.2d (64bit x2) ns4 : 7.821 2045.7 2045.7 VFP fmul (64bit x1) n1 : 1.565 2556.2 2556.2 VFP fadd (64bit x1) n1 : 1.044 3831.8 3831.8 VFP fmadd (64bit x1) n1 : 34.430 232.4 232.4 NEON fmul.2d (64bit x2) n1 : 1.563 5119.0 5119.0 NEON fadd.2d (64bit x2) n1 : 1.046 7647.2 7647.2 NEON fmla.2d (64bit x2) n1 : 18.759 852.9 852.9 NEON fmul.2d (64bit x2) n12 : 2.349 5107.6 5107.6 NEON fadd.2d (64bit x2) n12 : 1.571 7636.9 7636.9 NEON fmla.2d (64bit x2) n12 : 2.348 10222.9 10222.9 平均 : 4.975 3911.6 3911.6 最大 : 1.044 10222.9 10222.9 * Matrix 4x4 C++ code : 1.276 2809.4 2809.4 NEON fmla.4s 128bit A : 0.702 5105.9 5105.9 NEON ---- 64bit A : - - - NEON ---- 128bit A : - - - NEON fmla.4s 128bit B : 0.703 5098.3 5098.3 NEON ---- 64bit B : - - - NEON ---- 128bit B : - - - NEON ---- 128bit C : - - - 平均 : 0.894 4337.9 4337.9 最大 : 0.702 5105.9 5105.9 * VFP/NEON (single fp) multi-thread VFP fmul (32bit x1) n8 : 1.654 4837.2 4837.2 VFP fadd (32bit x1) n8 : 1.064 7518.3 7518.3 VFP fmadd (32bit x1) n8 : 3.150 5079.4 5079.4 NEON fmul.2s (32bit x2) n8 : 1.589 10071.7 10071.7 NEON fadd.2s (32bit x2) n8 : 1.052 15206.1 15206.1 NEON fmla.2s (32bit x2) n8 : 1.594 20071.1 20071.1 NEON fmul.4s (32bit x4) n8 : 1.575 20312.7 20312.7 NEON fadd.4s (32bit x4) n8 : 1.053 30398.5 30398.5 NEON fmla.4s (32bit x4) n8 : 1.592 40210.9 40210.9 VFP fmul (32bit x1) ns4 : 3.151 2539.0 2539.0 VFP fadd (32bit x1) ns4 : 3.720 2150.6 2150.6 VFP fmadd (32bit x1) ns4 : 3.158 5066.1 5066.1 NEON fmul.2s (32bit x2) ns4 : 3.157 5068.3 5068.3 NEON fadd.2s (32bit x2) ns4 : 3.728 4291.9 4291.9 NEON fmla.2s (32bit x2) ns4 : 6.279 5096.0 5096.0 NEON fmul.4s (32bit x4) ns4 : 3.158 10134.3 10134.3 NEON fadd.4s (32bit x4) ns4 : 3.718 8606.2 8606.2 NEON fmla.4s (32bit x4) ns4 : 6.296 10165.1 10165.1 VFP fmul (32bit x1) n1 : 1.574 5081.6 5081.6 VFP fadd (32bit x1) n1 : 1.053 7595.9 7595.9 VFP fmadd (32bit x1) n1 : 28.266 566.1 566.1 NEON fmul.2s (32bit x2) n1 : 1.573 10168.6 10168.6 NEON fadd.2s (32bit x2) n1 : 1.060 15098.1 15098.1 NEON fmla.2s (32bit x2) n1 : 15.698 2038.5 2038.5 NEON fmul.4s (32bit x4) n1 : 1.575 20318.1 20318.1 NEON fadd.4s (32bit x4) n1 : 1.052 30424.1 30424.1 NEON fmla.4s (32bit x4) n1 : 15.694 4078.1 4078.1 NEON fmul.4s (32bit x4) n12 : 2.363 20316.3 20316.3 NEON fadd.4s (32bit x4) n12 : 1.586 30259.9 30259.9 NEON fmla.4s (32bit x4) n12 : 2.364 40616.2 40616.2 平均 : 4.151 13112.8 13112.8 最大 : 1.052 40616.2 40616.2 * VFP/NEON (double fp) multi-thread VFP fmul (64bit x1) n8 : 1.649 4850.6 4850.6 VFP fadd (64bit x1) n8 : 1.053 7594.4 7594.4 VFP fmadd (64bit x1) n8 : 3.933 4067.7 4067.7 NEON fmul.2d (64bit x2) n8 : 1.573 10174.3 10174.3 NEON fadd.2d (64bit x2) n8 : 1.059 15110.2 15110.2 NEON fmla.2d (64bit x2) n8 : 1.985 16123.5 16123.5 VFP fmul (64bit x1) ns4 : 3.942 2029.6 2029.6 VFP fadd (64bit x1) ns4 : 4.546 1759.7 1759.7 VFP fmadd (64bit x1) ns4 : 3.940 4060.4 4060.4 NEON fmul.2d (64bit x2) ns4 : 3.928 4073.5 4073.5 NEON fadd.2d (64bit x2) ns4 : 4.521 3539.1 3539.1 NEON fmla.2d (64bit x2) ns4 : 7.872 4065.1 4065.1 VFP fmul (64bit x1) n1 : 1.575 5078.9 5078.9 VFP fadd (64bit x1) n1 : 1.050 7620.2 7620.2 VFP fmadd (64bit x1) n1 : 34.522 463.5 463.5 NEON fmul.2d (64bit x2) n1 : 1.582 10112.8 10112.8 NEON fadd.2d (64bit x2) n1 : 1.066 15009.1 15009.1 NEON fmla.2d (64bit x2) n1 : 18.815 1700.8 1700.8 NEON fmul.2d (64bit x2) n12 : 2.368 10134.3 10134.3 NEON fadd.2d (64bit x2) n12 : 1.572 15262.9 15262.9 NEON fmla.2d (64bit x2) n12 : 2.372 20238.2 20238.2 平均 : 4.996 7765.2 7765.2 最大 : 1.050 20238.2 20238.2 * Matrix 4x4 multi thread C++ code : 1.310 5471.4 5471.4 NEON fmla.4s 128bit A : 0.742 9664.0 9664.0 NEON ---- 64bit A : - - - NEON ---- 128bit A : - - - NEON fmla.4s 128bit B : 0.715 10028.9 10028.9 NEON ---- 64bit B : - - - NEON ---- 128bit B : - - - NEON ---- 128bit C : - - - 平均 : 0.922 8388.1 8388.1 最大 : 0.715 10028.9 10028.9
Apple Typhoon (ARMv8A AArch64 arm64) FPU+NEON
iPad Air 2 Apple A8X Typhoon 1.5GHz Triple core ARM64 (AArch64)
iPad Air 2 A8X Apple A8X Typhoon 1.5GHz Triple core ARM64 (AArch64) ARCH: ARMv8A VFP: AArch64 NEON SingleT SP max: 23.568 GFLOPS SingleT DP max: 11.751 GFLOPS MultiT SP max: 68.591 GFLOPS MultiT DP max: 33.968 GFLOPS CPU core: 3 FMA: Yes NEON: Yes * VFP/NEON (single fp) VFP fmul (32bit x1) n8 : 1.454 2751.8 2751.8 VFP fadd (32bit x1) n8 : 0.931 4295.3 4295.3 VFP fmadd (32bit x1) n8 : 1.392 5746.6 5746.6 NEON fmul.2s (32bit x2) n8 : 1.389 5760.8 5760.8 NEON fadd.2s (32bit x2) n8 : 0.931 8595.5 8595.5 NEON fmla.2s (32bit x2) n8 : 1.380 11594.8 11594.8 NEON fmul.4s (32bit x4) n8 : 1.365 11725.2 11725.2 NEON fadd.4s (32bit x4) n8 : 0.900 17768.8 17768.8 NEON fmla.4s (32bit x4) n8 : 1.358 23568.0 23568.0 VFP fmul (32bit x1) ns4 : 2.757 1451.0 1451.0 VFP fadd (32bit x1) ns4 : 2.547 1570.5 1570.5 VFP fmadd (32bit x1) ns4 : 2.734 2926.0 2926.0 NEON fmul.2s (32bit x2) ns4 : 2.751 2907.8 2907.8 NEON fadd.2s (32bit x2) ns4 : 2.559 3125.8 3125.8 NEON fmla.2s (32bit x2) ns4 : 2.738 5844.1 5844.1 NEON fmul.4s (32bit x4) ns4 : 2.758 5802.3 5802.3 NEON fadd.4s (32bit x4) ns4 : 2.564 6239.0 6239.0 NEON fmla.4s (32bit x4) ns4 : 2.732 11713.4 11713.4 VFP fmul (32bit x1) n1 : 1.368 2923.2 2923.2 VFP fadd (32bit x1) n1 : 0.910 4395.7 4395.7 VFP fmadd (32bit x1) n1 : 13.615 587.6 587.6 NEON fmul.2s (32bit x2) n1 : 1.353 5910.8 5910.8 NEON fadd.2s (32bit x2) n1 : 0.908 8812.6 8812.6 NEON fmla.2s (32bit x2) n1 : 13.581 1178.1 1178.1 NEON fmul.4s (32bit x4) n1 : 1.358 11783.1 11783.1 NEON fadd.4s (32bit x4) n1 : 0.911 17562.0 17562.0 NEON fmla.4s (32bit x4) n1 : 13.637 2346.5 2346.5 NEON fmul.4s (32bit x4) n12 : 2.055 11678.7 11678.7 NEON fadd.4s (32bit x4) n12 : 1.360 17647.1 17647.1 NEON fmla.4s (32bit x4) n12 : 2.048 23435.9 23435.9 平均 : 2.945 8054.9 8054.9 最大 : 0.900 23568.0 23568.0 * VFP/NEON (double fp) VFP fmul (64bit x1) n8 : 1.442 2773.8 2773.8 VFP fadd (64bit x1) n8 : 0.926 4321.2 4321.2 VFP fmadd (64bit x1) n8 : 1.772 4513.6 4513.6 NEON fmul.2d (64bit x2) n8 : 1.408 5681.0 5681.0 NEON fadd.2d (64bit x2) n8 : 0.922 8680.2 8680.2 NEON fmla.2d (64bit x2) n8 : 1.744 9175.5 9175.5 VFP fmul (64bit x1) ns4 : 3.403 1175.5 1175.5 VFP fadd (64bit x1) ns4 : 2.542 1573.7 1573.7 VFP fmadd (64bit x1) ns4 : 3.419 2339.7 2339.7 NEON fmul.2d (64bit x2) ns4 : 3.421 2338.8 2338.8 NEON fadd.2d (64bit x2) ns4 : 2.534 3156.6 3156.6 NEON fmla.2d (64bit x2) ns4 : 3.387 4724.5 4724.5 VFP fmul (64bit x1) n1 : 1.361 2939.9 2939.9 VFP fadd (64bit x1) n1 : 0.913 4378.8 4378.8 VFP fmadd (64bit x1) n1 : 16.539 483.7 483.7 NEON fmul.2d (64bit x2) n1 : 1.364 5863.0 5863.0 NEON fadd.2d (64bit x2) n1 : 0.906 8826.4 8826.4 NEON fmla.2d (64bit x2) n1 : 16.294 981.9 981.9 NEON fmul.2d (64bit x2) n12 : 2.021 5936.3 5936.3 NEON fadd.2d (64bit x2) n12 : 1.366 8787.2 8787.2 NEON fmla.2d (64bit x2) n12 : 2.042 11751.0 11751.0 平均 : 3.320 4781.1 4781.1 最大 : 0.906 11751.0 11751.0 * Matrix 4x4 C++ code : 1.107 3237.3 3237.3 NEON fmla.4s 128bit A : 0.580 6177.7 6177.7 NEON ---- 64bit A : - - - NEON ---- 128bit A : - - - NEON fmla.4s 128bit B : 0.573 6256.6 6256.6 NEON ---- 64bit B : - - - NEON ---- 128bit B : - - - NEON ---- 128bit C : - - - 平均 : 0.753 5223.9 5223.9 最大 : 0.573 6256.6 6256.6 * VFP/NEON (single fp) multi-thread VFP fmul (32bit x1) n8 : 1.532 7835.4 7835.4 VFP fadd (32bit x1) n8 : 0.955 12562.0 12562.0 VFP fmadd (32bit x1) n8 : 1.431 16766.2 16766.2 NEON fmul.2s (32bit x2) n8 : 1.433 16746.7 16746.7 NEON fadd.2s (32bit x2) n8 : 0.923 26009.9 26009.9 NEON fmla.2s (32bit x2) n8 : 1.377 34846.5 34846.5 NEON fmul.4s (32bit x4) n8 : 1.411 34011.7 34011.7 NEON fadd.4s (32bit x4) n8 : 0.974 49279.2 51527.6 NEON fmla.4s (32bit x4) n8 : 1.468 65381.5 66159.0 VFP fmul (32bit x1) ns4 : 2.921 4107.5 4107.5 VFP fadd (32bit x1) ns4 : 2.689 4463.2 4463.2 VFP fmadd (32bit x1) ns4 : 2.901 8271.8 8271.8 NEON fmul.2s (32bit x2) ns4 : 2.884 8321.0 8321.0 NEON fadd.2s (32bit x2) ns4 : 2.697 8900.0 8900.0 NEON fmla.2s (32bit x2) ns4 : 2.957 16230.4 16362.5 NEON fmul.4s (32bit x4) ns4 : 2.910 16492.3 16656.3 NEON fadd.4s (32bit x4) ns4 : 2.703 17758.6 17758.6 NEON fmla.4s (32bit x4) ns4 : 2.905 33046.1 33304.7 VFP fmul (32bit x1) n1 : 1.460 8219.8 8219.8 VFP fadd (32bit x1) n1 : 0.955 12571.1 12571.1 VFP fmadd (32bit x1) n1 : 14.476 1657.9 1657.9 NEON fmul.2s (32bit x2) n1 : 1.454 16504.2 16504.2 NEON fadd.2s (32bit x2) n1 : 0.969 24762.2 24762.2 NEON fmla.2s (32bit x2) n1 : 14.380 3338.0 3338.0 NEON fmul.4s (32bit x4) n1 : 1.414 33957.4 33957.4 NEON fadd.4s (32bit x4) n1 : 0.962 49890.4 49890.4 NEON fmla.4s (32bit x4) n1 : 14.215 6753.6 6786.4 NEON fmul.4s (32bit x4) n12 : 2.154 33421.7 33421.7 NEON fadd.4s (32bit x4) n12 : 1.409 51116.7 51116.7 NEON fmla.4s (32bit x4) n12 : 2.134 67485.2 68591.4 平均 : 3.102 23023.6 23180.9 最大 : 0.923 67485.2 68591.4 * VFP/NEON (double fp) multi-thread VFP fmul (64bit x1) n8 : 1.463 8205.1 8205.1 VFP fadd (64bit x1) n8 : 0.924 12985.0 12985.0 VFP fmadd (64bit x1) n8 : 1.742 13779.4 13779.4 NEON fmul.2d (64bit x2) n8 : 1.379 17401.1 17401.1 NEON fadd.2d (64bit x2) n8 : 0.934 25704.5 25704.5 NEON fmla.2d (64bit x2) n8 : 1.772 27086.7 27086.7 VFP fmul (64bit x1) ns4 : 3.514 3415.4 3415.4 VFP fadd (64bit x1) ns4 : 2.643 4539.9 4542.1 VFP fmadd (64bit x1) ns4 : 3.591 6682.9 6684.1 NEON fmul.2d (64bit x2) ns4 : 3.572 6718.2 6834.7 NEON fadd.2d (64bit x2) ns4 : 2.587 9277.9 9277.9 NEON fmla.2d (64bit x2) ns4 : 3.554 13507.1 13507.1 VFP fmul (64bit x1) n1 : 1.410 8513.2 8536.7 VFP fadd (64bit x1) n1 : 0.959 12515.6 12682.8 VFP fmadd (64bit x1) n1 : 17.012 1410.8 1410.8 NEON fmul.2d (64bit x2) n1 : 1.432 16761.0 17106.7 NEON fadd.2d (64bit x2) n1 : 0.932 25743.6 25743.6 NEON fmla.2d (64bit x2) n1 : 16.964 2829.5 2829.5 NEON fmul.2d (64bit x2) n12 : 2.123 16958.1 16958.1 NEON fadd.2d (64bit x2) n12 : 1.423 25303.2 25303.2 NEON fmla.2d (64bit x2) n12 : 2.120 33968.2 33968.2 平均 : 3.431 13967.0 13998.2 最大 : 0.924 33968.2 33968.2 * Matrix 4x4 multi thread C++ code : 1.073 10023.9 10023.9 NEON fmla.4s 128bit A : 0.585 18389.4 18389.4 NEON ---- 64bit A : - - - NEON ---- 128bit A : - - - NEON fmla.4s 128bit B : 0.570 18851.3 18851.3 NEON ---- 64bit B : - - - NEON ---- 128bit B : - - - NEON ---- 128bit C : - - - 平均 : 0.743 15754.9 15754.9 最大 : 0.570 18851.3 18851.3
iPod touch 6 A8 Typhoon 1.1GHz Dual core ARM64 (AArch64)
iPod touch 6 Apple A8 Typhoon 1.1GHz Dual core ARM64 (AArch64) ARCH: ARMv8A VFP: AArch64 NEON SingleT SP max: 17.948 GFLOPS SingleT DP max: 8.899 GFLOPS MultiT SP max: 35.530 GFLOPS MultiT DP max: 17.775 GFLOPS CPU core: 2 FMA: Yes NEON: Yes * VFP/NEON (single fp) VFP fmul (32bit x1) n8 : 1.952 2048.8 2048.8 VFP fadd (32bit x1) n8 : 1.296 3085.7 3227.7 VFP fmadd (32bit x1) n8 : 1.912 4183.6 4183.6 NEON fmul.2s (32bit x2) n8 : 1.903 4202.8 4202.8 NEON fadd.2s (32bit x2) n8 : 1.219 6563.9 6563.9 NEON fmla.2s (32bit x2) n8 : 1.818 8800.1 8800.1 NEON fmul.4s (32bit x4) n8 : 1.820 8789.2 8789.2 NEON fadd.4s (32bit x4) n8 : 1.219 13127.9 13127.9 NEON fmla.4s (32bit x4) n8 : 1.815 17634.0 17634.0 VFP fmul (32bit x1) ns4 : 3.606 1109.3 1109.3 VFP fadd (32bit x1) ns4 : 3.359 1190.9 1190.9 VFP fmadd (32bit x1) ns4 : 3.630 2203.9 2211.3 NEON fmul.2s (32bit x2) ns4 : 3.631 2203.2 2224.1 NEON fadd.2s (32bit x2) ns4 : 3.381 2366.4 2384.3 NEON fmla.2s (32bit x2) ns4 : 3.591 4455.3 4455.3 NEON fmul.4s (32bit x4) ns4 : 3.595 4451.0 4451.0 NEON fadd.4s (32bit x4) ns4 : 3.353 4772.1 4772.1 NEON fmla.4s (32bit x4) ns4 : 3.593 8905.2 8905.2 VFP fmul (32bit x1) n1 : 1.796 2227.0 2227.0 VFP fadd (32bit x1) n1 : 1.200 3334.0 3339.2 VFP fmadd (32bit x1) n1 : 17.944 445.8 445.8 NEON fmul.2s (32bit x2) n1 : 1.794 4459.2 4459.2 NEON fadd.2s (32bit x2) n1 : 1.198 6676.4 6676.4 NEON fmla.2s (32bit x2) n1 : 17.949 891.4 891.4 NEON fmul.4s (32bit x4) n1 : 1.794 8920.3 8920.3 NEON fadd.4s (32bit x4) n1 : 1.199 13346.4 13373.2 NEON fmla.4s (32bit x4) n1 : 17.938 1784.0 1784.0 NEON fmul.4s (32bit x4) n12 : 2.698 8894.7 8982.7 NEON fadd.4s (32bit x4) n12 : 1.799 13343.4 13479.7 NEON fmla.4s (32bit x4) n12 : 2.690 17841.0 17948.3 平均 : 3.890 6075.2 6093.6 最大 : 1.198 17841.0 17948.3 * VFP/NEON (double fp) VFP fmul (64bit x1) n8 : 1.885 2121.6 2121.6 VFP fadd (64bit x1) n8 : 1.213 3297.2 3297.2 VFP fmadd (64bit x1) n8 : 2.300 3477.7 3477.7 NEON fmul.2d (64bit x2) n8 : 1.818 4401.0 4401.0 NEON fadd.2d (64bit x2) n8 : 1.229 6511.2 6511.2 NEON fmla.2d (64bit x2) n8 : 2.286 6999.7 6999.7 VFP fmul (64bit x1) ns4 : 4.487 891.5 891.5 VFP fadd (64bit x1) ns4 : 3.357 1191.7 1191.7 VFP fmadd (64bit x1) ns4 : 4.498 1778.5 1778.5 NEON fmul.2d (64bit x2) ns4 : 4.487 1782.9 1782.9 NEON fadd.2d (64bit x2) ns4 : 3.346 2391.2 2391.2 NEON fmla.2d (64bit x2) ns4 : 4.487 3565.6 3565.6 VFP fmul (64bit x1) n1 : 1.795 2228.4 2228.4 VFP fadd (64bit x1) n1 : 1.196 3343.4 3343.4 VFP fmadd (64bit x1) n1 : 21.544 371.3 371.3 NEON fmul.2d (64bit x2) n1 : 1.793 4460.9 4460.9 NEON fadd.2d (64bit x2) n1 : 1.198 6679.2 6679.2 NEON fmla.2d (64bit x2) n1 : 21.537 742.9 742.9 NEON fmul.2d (64bit x2) n12 : 2.691 4459.0 4459.0 NEON fadd.2d (64bit x2) n12 : 1.798 6672.5 6672.5 NEON fmla.2d (64bit x2) n12 : 2.697 8898.6 8898.6 平均 : 4.364 3631.7 3631.7 最大 : 1.196 8898.6 8898.6 * Matrix 4x4 C++ code : 1.399 2562.5 2562.5 NEON fmla.4s 128bit A : 0.758 4726.9 4726.9 NEON ---- 64bit A : - - - NEON ---- 128bit A : - - - NEON fmla.4s 128bit B : 0.752 4764.0 4764.0 NEON ---- 64bit B : - - - NEON ---- 128bit B : - - - NEON ---- 128bit C : - - - 平均 : 0.970 4017.8 4017.8 最大 : 0.752 4764.0 4764.0 * VFP/NEON (single fp) multi-thread VFP fmul (32bit x1) n8 : 1.988 4024.8 4024.8 VFP fadd (32bit x1) n8 : 1.218 6567.8 6567.8 VFP fmadd (32bit x1) n8 : 1.824 8770.0 8770.0 NEON fmul.2s (32bit x2) n8 : 1.828 8750.7 8750.7 NEON fadd.2s (32bit x2) n8 : 1.209 13231.8 13231.8 NEON fmla.2s (32bit x2) n8 : 1.821 17569.2 17569.2 NEON fmul.4s (32bit x4) n8 : 1.814 17641.6 17641.6 NEON fadd.4s (32bit x4) n8 : 1.203 26593.5 26593.5 NEON fmla.4s (32bit x4) n8 : 1.802 35506.3 35506.3 VFP fmul (32bit x1) ns4 : 3.609 2216.5 2216.5 VFP fadd (32bit x1) ns4 : 3.367 2376.3 2376.3 VFP fmadd (32bit x1) ns4 : 3.604 4440.0 4440.0 NEON fmul.2s (32bit x2) ns4 : 3.611 4430.9 4430.9 NEON fadd.2s (32bit x2) ns4 : 3.381 4732.5 4732.5 NEON fmla.2s (32bit x2) ns4 : 3.604 8879.1 8879.1 NEON fmul.4s (32bit x4) ns4 : 3.611 8862.5 8862.5 NEON fadd.4s (32bit x4) ns4 : 3.377 9476.1 9476.1 NEON fmla.4s (32bit x4) ns4 : 3.612 17717.6 17717.6 VFP fmul (32bit x1) n1 : 1.801 4442.9 4442.9 VFP fadd (32bit x1) n1 : 1.205 6639.9 6639.9 VFP fmadd (32bit x1) n1 : 18.000 888.9 888.9 NEON fmul.2s (32bit x2) n1 : 1.816 8810.5 8810.5 NEON fadd.2s (32bit x2) n1 : 1.204 13288.3 13288.3 NEON fmla.2s (32bit x2) n1 : 17.988 1779.0 1779.0 NEON fmul.4s (32bit x4) n1 : 1.805 17726.1 17726.1 NEON fadd.4s (32bit x4) n1 : 1.207 26516.9 26516.9 NEON fmla.4s (32bit x4) n1 : 17.991 3557.3 3557.3 NEON fmul.4s (32bit x4) n12 : 2.719 17652.1 17652.1 NEON fadd.4s (32bit x4) n12 : 1.804 26600.3 26600.3 NEON fmla.4s (32bit x4) n12 : 2.702 35529.8 35529.8 平均 : 3.891 12174.0 12174.0 最大 : 1.203 35529.8 35529.8 * VFP/NEON (double fp) multi-thread VFP fmul (64bit x1) n8 : 2.034 3933.0 3933.0 VFP fadd (64bit x1) n8 : 1.283 6237.0 6237.0 VFP fmadd (64bit x1) n8 : 2.355 6793.0 6793.0 NEON fmul.2d (64bit x2) n8 : 1.835 8718.0 8718.0 NEON fadd.2d (64bit x2) n8 : 1.229 13014.1 13014.1 NEON fmla.2d (64bit x2) n8 : 2.322 13784.0 13784.0 VFP fmul (64bit x1) ns4 : 4.521 1769.7 1769.7 VFP fadd (64bit x1) ns4 : 3.387 2361.9 2361.9 VFP fmadd (64bit x1) ns4 : 4.508 3549.5 3549.5 NEON fmul.2d (64bit x2) ns4 : 4.516 3543.3 3543.3 NEON fadd.2d (64bit x2) ns4 : 3.355 4768.4 4768.4 NEON fmla.2d (64bit x2) ns4 : 4.531 7061.9 7061.9 VFP fmul (64bit x1) n1 : 1.808 4424.1 4424.1 VFP fadd (64bit x1) n1 : 1.319 6063.8 6063.8 VFP fmadd (64bit x1) n1 : 21.602 740.7 740.7 NEON fmul.2d (64bit x2) n1 : 1.799 8892.5 8892.5 NEON fadd.2d (64bit x2) n1 : 1.208 13243.8 13243.8 NEON fmla.2d (64bit x2) n1 : 21.610 1480.8 1480.8 NEON fmul.2d (64bit x2) n12 : 2.698 8895.3 8895.3 NEON fadd.2d (64bit x2) n12 : 1.806 13288.9 13288.9 NEON fmla.2d (64bit x2) n12 : 2.700 17775.3 17775.3 平均 : 4.401 7159.0 7159.0 最大 : 1.208 17775.3 17775.3 * Matrix 4x4 multi thread C++ code : 1.502 4771.9 4771.9 NEON fmla.4s 128bit A : 0.777 9219.6 9219.6 NEON ---- 64bit A : - - - NEON ---- 128bit A : - - - NEON fmla.4s 128bit B : 0.766 9358.8 9358.8 NEON ---- 64bit B : - - - NEON ---- 128bit B : - - - NEON ---- 128bit C : - - - 平均 : 1.015 7783.4 7783.4 最大 : 0.766 9358.8 9358.8
Apple TV A8 Typhoon 1.4GHz Dual core ARM64 (AArch64)
Apple TV A8 Typhoon 1.4GHz Dual core ARM64 (AArch64) HW INFO: Machine = AppleTV5,3 HW INFO: Model = J42dAP HW INFO: Arch = J42dAP HW INFO: ByteOrder = 1234 HW INFO: NCPU = 2 HW INFO: MemSize = 2116026368 HW INFO: UserMem = 1923448832 HW INFO: PageSize = 16384 HW INFO: VectorUnit = 0 HW INFO: Float = 0 CPU Feature: ARM_NEON ARM_64 CPU Core:2 Thread:2 ARCH: ARMv8A FPU: AArch64 NEON SingleT SP max: 22.197 GFLOPS SingleT DP max: 11.105 GFLOPS MultiT SP max: 44.331 GFLOPS MultiT DP max: 22.084 GFLOPS CPU core: 2 NEON: yes FMA: no * FPU/NEON (single fp) FPU fmul (32bit x1) n8 : 0.433 2772.7 2772.7 FPU fadd (32bit x1) n8 : 0.288 4160.8 4160.8 FPU fmadd (32bit x1) n8 : 0.433 5540.4 5540.4 NEON fmul.2s (32bit x2) n8 : 0.433 5541.0 5541.0 NEON fadd.2s (32bit x2) n8 : 0.288 8330.7 8330.7 NEON fmla.2s (32bit x2) n8 : 0.432 11102.2 11102.2 NEON fmul.4s (32bit x4) n8 : 0.432 11103.8 11103.8 NEON fadd.4s (32bit x4) n8 : 0.289 16633.6 16633.6 NEON fmla.4s (32bit x4) n8 : 0.434 22138.4 22138.4 FPU fmul (32bit x1) ns4 : 0.867 1384.5 1384.5 FPU fadd (32bit x1) ns4 : 0.808 1486.0 1486.0 FPU fmadd (32bit x1) ns4 : 0.865 2773.1 2773.1 NEON fmul.2s (32bit x2) ns4 : 0.952 2521.0 2521.0 NEON fadd.2s (32bit x2) ns4 : 0.817 2937.7 2937.7 NEON fmla.2s (32bit x2) ns4 : 0.887 5409.7 5409.7 NEON fmul.4s (32bit x4) ns4 : 0.872 5501.8 5501.8 NEON fadd.4s (32bit x4) ns4 : 0.809 5936.5 5936.5 NEON fmla.4s (32bit x4) ns4 : 0.867 11078.4 11078.4 FPU fmul (32bit x1) n1 : 0.432 2778.0 2778.0 FPU fadd (32bit x1) n1 : 0.288 4166.2 4166.2 FPU fmadd (32bit x1) n1 : 4.326 554.8 554.8 NEON fmul.2s (32bit x2) n1 : 0.433 5546.6 5546.6 NEON fadd.2s (32bit x2) n1 : 0.289 8304.2 8304.2 NEON fmla.2s (32bit x2) n1 : 4.350 1103.3 1103.3 NEON fmul.4s (32bit x4) n1 : 0.432 11114.8 11114.8 NEON fadd.4s (32bit x4) n1 : 0.289 16627.3 16627.3 NEON fmla.4s (32bit x4) n1 : 4.324 2220.1 2220.1 NEON fmul.4s (32bit x4) n12 : 0.648 11104.5 11104.5 NEON fadd.4s (32bit x4) n12 : 0.432 16652.2 16652.2 NEON fmla.4s (32bit x4) n12 : 0.649 22197.3 22197.3 Average : 0.937 7624.1 7624.1 Highest : 0.288 22197.3 22197.3 * FPU/NEON (double fp) FPU fmul (64bit x1) n8 : 0.450 2668.1 2668.1 FPU fadd (64bit x1) n8 : 0.288 4169.5 4169.5 FPU fmadd (64bit x1) n8 : 0.553 4336.5 4336.5 NEON fmul.2d (64bit x2) n8 : 0.432 5556.6 5556.6 NEON fadd.2d (64bit x2) n8 : 0.289 8312.0 8312.0 NEON fmla.2d (64bit x2) n8 : 0.555 8653.8 8653.8 FPU fmul (64bit x1) ns4 : 1.084 1107.2 1107.2 FPU fadd (64bit x1) ns4 : 0.810 1480.8 1480.8 FPU fmadd (64bit x1) ns4 : 1.084 2214.4 2214.4 NEON fmul.2d (64bit x2) ns4 : 1.084 2213.6 2213.6 NEON fadd.2d (64bit x2) ns4 : 0.807 2972.7 2972.7 NEON fmla.2d (64bit x2) ns4 : 1.084 4430.0 4430.0 FPU fmul (64bit x1) n1 : 0.433 2773.4 2773.4 FPU fadd (64bit x1) n1 : 0.305 3934.6 3934.6 FPU fmadd (64bit x1) n1 : 5.201 461.4 461.4 NEON fmul.2d (64bit x2) n1 : 0.432 5555.4 5555.4 NEON fadd.2d (64bit x2) n1 : 0.289 8317.2 8317.2 NEON fmla.2d (64bit x2) n1 : 5.214 920.6 920.6 NEON fmul.2d (64bit x2) n12 : 0.648 5551.7 5551.7 NEON fadd.2d (64bit x2) n12 : 0.432 8331.8 8331.8 NEON fmla.2d (64bit x2) n12 : 0.648 11105.1 11105.1 Average : 1.053 4527.0 4527.0 Highest : 0.288 11105.1 11105.1 * Matrix 4x4 C++ code : 0.289 6209.9 6209.9 NEON fmla.4s 128bit A : 0.302 5931.1 5931.1 NEON fmla.4s 128bit B : 0.297 6026.7 6026.7 Average : 0.296 6055.9 6055.9 Highest : 0.289 6209.9 6209.9 * FPU/NEON (single fp) multi-thread FPU fmul (32bit x1) n8 : 0.437 5491.0 5491.0 FPU fadd (32bit x1) n8 : 0.288 8326.2 8326.2 FPU fmadd (32bit x1) n8 : 0.436 11016.4 11016.4 NEON fmul.2s (32bit x2) n8 : 0.433 11097.8 11097.8 NEON fadd.2s (32bit x2) n8 : 0.288 16640.7 16640.7 NEON fmla.2s (32bit x2) n8 : 0.435 22056.8 22056.8 NEON fmul.4s (32bit x4) n8 : 0.432 22206.9 22206.9 NEON fadd.4s (32bit x4) n8 : 0.291 32940.4 32940.4 NEON fmla.4s (32bit x4) n8 : 0.433 44331.3 44331.3 FPU fmul (32bit x1) ns4 : 0.870 2759.6 2759.6 FPU fadd (32bit x1) ns4 : 0.839 2859.1 2859.1 FPU fmadd (32bit x1) ns4 : 0.902 5320.5 5320.5 NEON fmul.2s (32bit x2) ns4 : 0.936 5126.6 5126.6 NEON fadd.2s (32bit x2) ns4 : 0.807 5945.1 5945.1 NEON fmla.2s (32bit x2) ns4 : 0.869 11044.9 11044.9 NEON fmul.4s (32bit x4) ns4 : 0.874 10983.5 10983.5 NEON fadd.4s (32bit x4) ns4 : 0.815 11780.7 11780.7 NEON fmla.4s (32bit x4) ns4 : 0.869 22091.3 22091.3 FPU fmul (32bit x1) n1 : 0.432 5550.2 5550.2 FPU fadd (32bit x1) n1 : 0.291 8240.5 8240.5 FPU fmadd (32bit x1) n1 : 4.404 1089.8 1089.8 NEON fmul.2s (32bit x2) n1 : 0.432 11108.4 11108.4 NEON fadd.2s (32bit x2) n1 : 0.292 16465.5 16465.5 NEON fmla.2s (32bit x2) n1 : 4.343 2210.4 2210.4 NEON fmul.4s (32bit x4) n1 : 0.432 22211.3 22211.3 NEON fadd.4s (32bit x4) n1 : 0.292 32912.1 32912.1 NEON fmla.4s (32bit x4) n1 : 4.401 4362.7 4362.7 NEON fmul.4s (32bit x4) n12 : 0.652 22092.6 22092.6 NEON fadd.4s (32bit x4) n12 : 0.432 33297.5 33297.5 NEON fmla.4s (32bit x4) n12 : 0.652 44166.3 44166.3 Average : 0.944 15190.9 15190.9 Highest : 0.288 44331.3 44331.3 * FPU/NEON (double fp) multi-thread FPU fmul (64bit x1) n8 : 0.434 5529.1 5529.1 FPU fadd (64bit x1) n8 : 0.288 8324.9 8324.9 FPU fmadd (64bit x1) n8 : 0.557 8618.1 8618.1 NEON fmul.2d (64bit x2) n8 : 0.435 11041.9 11041.9 NEON fadd.2d (64bit x2) n8 : 0.292 16457.6 16457.6 NEON fmla.2d (64bit x2) n8 : 0.550 17463.7 17463.7 FPU fmul (64bit x1) ns4 : 1.086 2210.2 2210.2 FPU fadd (64bit x1) ns4 : 0.812 2957.4 2957.4 FPU fmadd (64bit x1) ns4 : 1.086 4420.7 4420.7 NEON fmul.2d (64bit x2) ns4 : 1.148 4181.4 4181.4 NEON fadd.2d (64bit x2) ns4 : 0.818 5869.9 5869.9 NEON fmla.2d (64bit x2) ns4 : 1.087 8828.0 8828.0 FPU fmul (64bit x1) n1 : 0.436 5510.4 5510.4 FPU fadd (64bit x1) n1 : 0.288 8327.3 8327.3 FPU fmadd (64bit x1) n1 : 5.211 921.1 921.1 NEON fmul.2d (64bit x2) n1 : 0.435 11029.5 11029.5 NEON fadd.2d (64bit x2) n1 : 0.289 16632.6 16632.6 NEON fmla.2d (64bit x2) n1 : 5.270 1821.6 1821.6 NEON fmul.2d (64bit x2) n12 : 0.652 11039.3 11039.3 NEON fadd.2d (64bit x2) n12 : 0.436 16499.0 16499.0 NEON fmla.2d (64bit x2) n12 : 0.652 22083.9 22083.9 Average : 1.060 9036.6 9036.6 Highest : 0.288 22083.9 22083.9 * Matrix 4x4 multi-thread C++ code : 0.304 11800.1 11800.1 NEON fmla.4s 128bit A : 0.306 11712.1 11712.1 NEON fmla.4s 128bit B : 0.298 12041.6 12041.6 Average : 0.302 11851.3 11851.3 Highest : 0.298 12041.6 12041.6
Apple Twister (ARMv8A AArch64 arm64) FPU+NEON
iPhone SE A9 Twister 1.85 Dual core ARM64 (AArch64)
iPhone SE A9 Twister 1.85 Dual core ARM64 (AArch64) ARCH: ARMv8A VFP: AArch64 NEON SingleT SP max: 41.857 GFLOPS SingleT DP max: 14.545 GFLOPS MultiT SP max: 81.017 GFLOPS MultiT DP max: 28.333 GFLOPS CPU core: 2 FMA: Yes NEON: Yes * VFP/NEON (single fp) VFP fmul (32bit x1) n8 : 0.751 5325.4 5325.4 VFP fadd (32bit x1) n8 : 0.731 5472.5 5472.5 VFP fmadd (32bit x1) n8 : 1.152 6944.8 6944.8 NEON fmul.2s (32bit x2) n8 : 0.725 11038.7 11038.7 NEON fadd.2s (32bit x2) n8 : 0.725 11034.1 11034.1 NEON fmla.2s (32bit x2) n8 : 1.151 13895.9 13895.9 NEON fmul.4s (32bit x4) n8 : 0.727 22008.2 22008.2 NEON fadd.4s (32bit x4) n8 : 0.726 22047.9 22047.9 NEON fmla.4s (32bit x4) n8 : 1.160 27594.7 27594.7 VFP fmul (32bit x1) ns4 : 2.250 1777.9 1777.9 VFP fadd (32bit x1) ns4 : 1.683 2376.2 2376.2 VFP fmadd (32bit x1) ns4 : 2.253 3550.5 3550.5 NEON fmul.2s (32bit x2) ns4 : 2.222 3600.3 3600.3 NEON fadd.2s (32bit x2) ns4 : 1.642 4870.7 4870.7 NEON fmla.2s (32bit x2) ns4 : 2.176 7351.3 7351.3 NEON fmul.4s (32bit x4) ns4 : 2.177 7351.1 7351.1 NEON fadd.4s (32bit x4) ns4 : 1.643 9735.7 9735.7 NEON fmla.4s (32bit x4) ns4 : 2.179 14686.3 14686.3 VFP fmul (32bit x1) n1 : 0.726 5513.2 5513.2 VFP fadd (32bit x1) n1 : 0.726 5506.2 5506.2 VFP fmadd (32bit x1) n1 : 8.724 917.1 917.1 NEON fmul.2s (32bit x2) n1 : 0.727 10997.5 10997.5 NEON fadd.2s (32bit x2) n1 : 0.728 10987.7 10987.7 NEON fmla.2s (32bit x2) n1 : 8.825 1813.0 1813.0 NEON fmul.4s (32bit x4) n1 : 0.749 21357.1 21357.1 NEON fadd.4s (32bit x4) n1 : 0.734 21796.6 21796.6 NEON fmla.4s (32bit x4) n1 : 8.948 3576.1 3576.1 NEON fmul.4s (32bit x4) n12 : 1.113 21567.9 21567.9 NEON fadd.4s (32bit x4) n12 : 1.128 21268.9 21268.9 NEON fmla.4s (32bit x4) n12 : 1.147 41856.8 41856.8 平均 : 2.012 11594.0 11594.0 最大 : 0.725 41856.8 41856.8 * VFP/NEON (double fp) VFP fmul (64bit x1) n8 : 1.162 3442.9 3442.9 VFP fadd (64bit x1) n8 : 0.730 5477.7 5477.7 VFP fmadd (64bit x1) n8 : 1.095 7303.6 7303.6 NEON fmul.2d (64bit x2) n8 : 1.091 7334.9 7334.9 NEON fadd.2d (64bit x2) n8 : 0.728 10987.9 10987.9 NEON fmla.2d (64bit x2) n8 : 1.100 14545.0 14545.0 VFP fmul (64bit x1) ns4 : 2.184 1831.5 1831.5 VFP fadd (64bit x1) ns4 : 1.649 2425.2 2425.2 VFP fmadd (64bit x1) ns4 : 2.192 3649.7 3649.7 NEON fmul.2d (64bit x2) ns4 : 2.191 3651.1 3651.1 NEON fadd.2d (64bit x2) ns4 : 1.648 4853.0 4853.0 NEON fmla.2d (64bit x2) ns4 : 2.183 7330.2 7330.2 VFP fmul (64bit x1) n1 : 1.090 3668.7 3668.7 VFP fadd (64bit x1) n1 : 0.726 5508.7 5508.7 VFP fmadd (64bit x1) n1 : 8.720 917.4 917.4 NEON fmul.2d (64bit x2) n1 : 1.088 7355.3 7355.3 NEON fadd.2d (64bit x2) n1 : 0.725 11029.1 11029.1 NEON fmla.2d (64bit x2) n1 : 8.744 1829.8 1829.8 NEON fmul.2d (64bit x2) n12 : 1.635 7339.8 7339.8 NEON fadd.2d (64bit x2) n12 : 1.091 11004.0 11004.0 NEON fmla.2d (64bit x2) n12 : 1.661 14449.2 14449.2 平均 : 2.068 6473.1 6473.1 最大 : 0.725 14545.0 14545.0 * Matrix 4x4 C++ code : 0.758 4728.1 4728.1 NEON fmla.4s 128bit A : 0.437 8196.2 8196.2 NEON ---- 64bit A : - - - NEON ---- 128bit A : - - - NEON fmla.4s 128bit B : 0.437 8195.8 8195.8 NEON ---- 64bit B : - - - NEON ---- 128bit B : - - - NEON ---- 128bit C : - - - 平均 : 0.544 7040.1 7040.1 最大 : 0.437 8196.2 8196.2 * VFP/NEON (single fp) multi-thread VFP fmul (32bit x1) n8 : 0.793 10090.7 10090.7 VFP fadd (32bit x1) n8 : 0.750 10669.0 10669.0 VFP fmadd (32bit x1) n8 : 1.186 13489.7 13489.7 NEON fmul.2s (32bit x2) n8 : 0.748 21385.2 21385.2 NEON fadd.2s (32bit x2) n8 : 0.749 21358.8 21358.8 NEON fmla.2s (32bit x2) n8 : 1.187 26959.2 26959.2 NEON fmul.4s (32bit x4) n8 : 0.752 42552.5 42552.5 NEON fadd.4s (32bit x4) n8 : 0.752 42541.3 42541.3 NEON fmla.4s (32bit x4) n8 : 1.190 53770.4 53770.4 VFP fmul (32bit x1) ns4 : 2.247 3560.5 3560.5 VFP fadd (32bit x1) ns4 : 1.698 4712.4 4712.4 VFP fmadd (32bit x1) ns4 : 2.255 7093.8 7093.8 NEON fmul.2s (32bit x2) ns4 : 2.320 6897.4 6897.4 NEON fadd.2s (32bit x2) ns4 : 1.705 9382.1 9382.1 NEON fmla.2s (32bit x2) ns4 : 2.253 14203.1 14203.1 NEON fmul.4s (32bit x4) ns4 : 2.289 13979.6 13979.6 NEON fadd.4s (32bit x4) ns4 : 1.707 18743.8 18743.8 NEON fmla.4s (32bit x4) ns4 : 2.246 28497.5 28497.5 VFP fmul (32bit x1) n1 : 0.748 10696.8 10696.8 VFP fadd (32bit x1) n1 : 0.755 10590.9 10590.9 VFP fmadd (32bit x1) n1 : 9.010 1775.7 1775.7 NEON fmul.2s (32bit x2) n1 : 0.749 21351.8 21351.8 NEON fadd.2s (32bit x2) n1 : 0.748 21399.6 21399.6 NEON fmla.2s (32bit x2) n1 : 9.102 3515.5 3515.5 NEON fmul.4s (32bit x4) n1 : 0.784 40803.7 40803.7 NEON fadd.4s (32bit x4) n1 : 0.775 41292.2 41292.2 NEON fmla.4s (32bit x4) n1 : 9.160 6986.9 6986.9 NEON fmul.4s (32bit x4) n12 : 1.124 42722.0 42722.0 NEON fadd.4s (32bit x4) n12 : 1.128 42540.8 42540.8 NEON fmla.4s (32bit x4) n12 : 1.185 81017.2 81017.2 平均 : 2.070 22486.0 22486.0 最大 : 0.748 81017.2 81017.2 * VFP/NEON (double fp) multi-thread VFP fmul (64bit x1) n8 : 1.181 6776.1 6776.1 VFP fadd (64bit x1) n8 : 0.756 10582.8 10582.8 VFP fmadd (64bit x1) n8 : 1.129 14172.1 14172.1 NEON fmul.2d (64bit x2) n8 : 1.129 14169.1 14169.1 NEON fadd.2d (64bit x2) n8 : 0.751 21317.5 21317.5 NEON fmla.2d (64bit x2) n8 : 1.129 28333.5 28333.5 VFP fmul (64bit x1) ns4 : 2.243 3565.9 3565.9 VFP fadd (64bit x1) ns4 : 1.713 4669.4 4669.4 VFP fmadd (64bit x1) ns4 : 2.286 7000.5 7000.5 NEON fmul.2d (64bit x2) ns4 : 2.279 7019.4 7019.4 NEON fadd.2d (64bit x2) ns4 : 1.772 9029.1 9029.1 NEON fmla.2d (64bit x2) ns4 : 2.328 13743.1 13743.1 VFP fmul (64bit x1) n1 : 1.170 6838.4 6838.4 VFP fadd (64bit x1) n1 : 0.785 10194.5 10194.5 VFP fmadd (64bit x1) n1 : 9.054 1767.2 1767.2 NEON fmul.2d (64bit x2) n1 : 1.134 14113.5 14113.5 NEON fadd.2d (64bit x2) n1 : 0.751 21301.4 21301.4 NEON fmla.2d (64bit x2) n1 : 9.213 3473.2 3473.2 NEON fmul.2d (64bit x2) n12 : 1.690 14204.9 14204.9 NEON fadd.2d (64bit x2) n12 : 1.164 20624.3 20624.3 NEON fmla.2d (64bit x2) n12 : 1.750 27427.4 27427.4 平均 : 2.162 12396.3 12396.3 最大 : 0.751 28333.5 28333.5 * Matrix 4x4 multi thread C++ code : 0.822 8722.7 8722.7 NEON fmla.4s 128bit A : 0.471 15208.5 15208.5 NEON ---- 64bit A : - - - NEON ---- 128bit A : - - - NEON fmla.4s 128bit B : 0.471 15231.5 15231.5 NEON ---- 64bit B : - - - NEON ---- 128bit B : - - - NEON ---- 128bit C : - - - 平均 : 0.588 13054.2 13054.2 最大 : 0.471 15231.5 15231.5
NVIDIA Denver (ARMv8A AArch64 arm64) FPU+NEON
Nexus 9 Tegra K1 64 Denver 2.3GHz Dual core ARM64 (AArch64)
Nexus 9 Tegra K1 64 Denver 2.3GHz Dual core ARM64 (AArch64) ARCH: ARMv8A CPU core: 2 VFP: AArch64 NEON FMA: Yes NEON: Yes Result SingleT SP max: 17.906 GFLOPS SingleT DP max: 8.762 GFLOPS MultiT SP max: 34.888 GFLOPS MultiT DP max: 17.601 GFLOPS * VFP/NEON (単精度 fp) single-thread FPU fmul (32bit x1) n8 : 2.049 1952.1 1952.1 FPU fadd (32bit x1) n8 : 1.000 3998.3 3998.3 FPU fmadd (32bit x1) n8 : 1.849 4326.0 4326.0 NEON fmul.2s (32bit x2) n8 : 1.842 4343.8 4343.8 NEON fadd.2s (32bit x2) n8 : 1.259 6356.0 6356.0 NEON fmla.2s (32bit x2) n8 : 1.900 8420.3 8420.3 NEON fmul.4s (32bit x4) n8 : 1.837 8711.7 8711.7 NEON fadd.4s (32bit x4) n8 : 1.179 13570.5 13570.5 NEON fmla.4s (32bit x4) n8 : 1.831 17475.0 17475.0 FPU fmul (32bit x1) ns4 : 2.691 1486.5 1486.5 FPU fadd (32bit x1) ns4 : 1.341 2983.8 2983.8 FPU fmadd (32bit x1) ns4 : 2.778 2879.3 2879.3 NEON fmul.2s (32bit x2) ns4 : 2.784 2873.7 2873.7 NEON fadd.2s (32bit x2) ns4 : 1.393 5744.7 5744.7 NEON fmla.2s (32bit x2) ns4 : 2.679 5972.8 5972.8 NEON fmul.4s (32bit x4) ns4 : 2.771 5773.7 5773.7 NEON fadd.4s (32bit x4) ns4 : 1.344 11901.5 11901.5 NEON fmla.4s (32bit x4) ns4 : 2.731 11717.9 11717.9 FPU fmul (32bit x1) n1 : 1.876 2131.7 2131.7 FPU fadd (32bit x1) n1 : 0.938 4264.5 4264.5 FPU fmadd (32bit x1) n1 : 10.736 745.2 745.2 NEON fmul.2s (32bit x2) n1 : 1.818 4400.1 4400.1 NEON fadd.2s (32bit x2) n1 : 1.359 5887.4 5887.4 NEON fmla.2s (32bit x2) n1 : 10.702 1495.0 1495.0 NEON fmul.4s (32bit x4) n1 : 1.803 8872.9 8872.9 NEON fadd.4s (32bit x4) n1 : 1.330 12025.9 12025.9 NEON fmla.4s (32bit x4) n1 : 10.564 3029.2 3029.2 NEON fmul.4s (32bit x4) n12 : 2.638 9098.3 9098.3 NEON fadd.4s (32bit x4) n12 : 1.581 15179.3 15179.3 NEON fmla.4s (32bit x4) n12 : 2.681 17905.9 17905.9 平均 : 2.776 6850.8 6850.8 最大 : 0.938 17905.9 17905.9 * VFP/NEON (倍精度 fp) single-thread FPU fmul (64bit x1) n8 : 1.930 2072.7 2072.7 FPU fadd (64bit x1) n8 : 0.929 4306.0 4306.0 FPU fmadd (64bit x1) n8 : 1.798 4450.2 4450.2 NEON fmul.2d (64bit x2) n8 : 1.809 4422.6 4422.6 NEON fadd.2d (64bit x2) n8 : 1.195 6695.8 6695.8 NEON fmla.2d (64bit x2) n8 : 1.826 8762.0 8762.0 FPU fmul (64bit x1) ns4 : 2.760 1449.0 1449.0 FPU fadd (64bit x1) ns4 : 1.343 2978.6 2978.6 FPU fmadd (64bit x1) ns4 : 2.729 2931.0 2931.0 NEON fmul.2d (64bit x2) ns4 : 2.719 2941.8 2941.8 NEON fadd.2d (64bit x2) ns4 : 1.331 6012.6 6012.6 NEON fmla.2d (64bit x2) ns4 : 2.689 5950.8 5950.8 FPU fmul (64bit x1) n1 : 1.769 2260.6 2260.6 FPU fadd (64bit x1) n1 : 0.934 4281.0 4281.0 FPU fmadd (64bit x1) n1 : 10.633 752.4 752.4 NEON fmul.2d (64bit x2) n1 : 1.814 4411.2 4411.2 NEON fadd.2d (64bit x2) n1 : 1.339 5976.5 5976.5 NEON fmla.2d (64bit x2) n1 : 10.764 1486.4 1486.4 NEON fmul.2d (64bit x2) n12 : 2.784 4310.8 4310.8 NEON fadd.2d (64bit x2) n12 : 1.608 7463.3 7463.3 NEON fmla.2d (64bit x2) n12 : 2.744 8745.8 8745.8 平均 : 2.736 4412.4 4412.4 最大 : 0.929 8762.0 8762.0 * Matrix 4x4 (単精度 fp) single-thread C++ code : 1.326 2702.8 2702.8 NEON fmla.4s 128bit A : 0.434 8259.5 8259.5 NEON fmla.4s 128bit B : 0.375 9557.1 9557.1 平均 : 0.712 6839.8 6839.8 最大 : 0.375 9557.1 9557.1 * VFP/NEON (単精度 fp) multi-thread FPU fmul (32bit x1) n8 : 1.948 4107.5 4107.5 FPU fadd (32bit x1) n8 : 0.945 8468.4 8468.4 FPU fmadd (32bit x1) n8 : 1.828 8752.4 8752.4 NEON fmul.2s (32bit x2) n8 : 1.841 8689.3 8689.3 NEON fadd.2s (32bit x2) n8 : 1.188 13471.0 13471.0 NEON fmla.2s (32bit x2) n8 : 1.850 17301.6 17301.6 NEON fmul.4s (32bit x4) n8 : 1.843 17360.5 17360.5 NEON fadd.4s (32bit x4) n8 : 1.182 27082.4 27082.4 NEON fmla.4s (32bit x4) n8 : 1.840 34779.3 34779.3 FPU fmul (32bit x1) ns4 : 2.707 2955.1 2955.1 FPU fadd (32bit x1) ns4 : 1.345 5945.9 5945.9 FPU fmadd (32bit x1) ns4 : 2.749 5820.6 5820.6 NEON fmul.2s (32bit x2) ns4 : 2.768 5780.5 5780.5 NEON fadd.2s (32bit x2) ns4 : 1.352 11834.8 11834.8 NEON fmla.2s (32bit x2) ns4 : 2.709 11813.4 11813.4 NEON fmul.4s (32bit x4) ns4 : 2.748 11645.1 11645.1 NEON fadd.4s (32bit x4) ns4 : 1.349 23719.1 23719.1 NEON fmla.4s (32bit x4) ns4 : 2.716 23567.3 23567.3 FPU fmul (32bit x1) n1 : 1.793 4461.2 4461.2 FPU fadd (32bit x1) n1 : 0.947 8445.5 8445.5 FPU fmadd (32bit x1) n1 : 10.836 1476.5 1476.5 NEON fmul.2s (32bit x2) n1 : 1.839 8701.5 8701.5 NEON fadd.2s (32bit x2) n1 : 1.360 11764.2 11764.2 NEON fmla.2s (32bit x2) n1 : 10.789 2966.0 2966.0 NEON fmul.4s (32bit x4) n1 : 1.839 17404.0 17404.0 NEON fadd.4s (32bit x4) n1 : 1.362 23490.9 23490.9 NEON fmla.4s (32bit x4) n1 : 10.783 5935.5 5935.5 NEON fmul.4s (32bit x4) n12 : 2.697 17800.2 17800.2 NEON fadd.4s (32bit x4) n12 : 1.615 29714.6 29714.6 NEON fmla.4s (32bit x4) n12 : 2.752 34887.8 34887.8 平均 : 2.784 13671.4 13671.4 最大 : 0.945 34887.8 34887.8 * VFP/NEON (倍精度 fp) multi-thread FPU fmul (64bit x1) n8 : 1.956 4089.1 4089.1 FPU fadd (64bit x1) n8 : 0.949 8433.5 8433.5 FPU fmadd (64bit x1) n8 : 1.832 8735.5 8735.5 NEON fmul.2d (64bit x2) n8 : 1.840 8695.4 8695.4 NEON fadd.2d (64bit x2) n8 : 1.191 13433.3 13433.3 NEON fmla.2d (64bit x2) n8 : 1.844 17356.2 17356.2 FPU fmul (64bit x1) ns4 : 2.709 2953.3 2953.3 FPU fadd (64bit x1) ns4 : 1.352 5916.9 5916.9 FPU fmadd (64bit x1) ns4 : 2.736 5847.8 5847.8 NEON fmul.2d (64bit x2) ns4 : 2.766 5785.1 5785.1 NEON fadd.2d (64bit x2) ns4 : 1.352 11835.7 11835.7 NEON fmla.2d (64bit x2) ns4 : 2.711 11805.7 11805.7 FPU fmul (64bit x1) n1 : 1.798 4449.0 4449.0 FPU fadd (64bit x1) n1 : 0.949 8432.7 8432.7 FPU fmadd (64bit x1) n1 : 10.755 1487.7 1487.7 NEON fmul.2d (64bit x2) n1 : 1.874 8538.7 8538.7 NEON fadd.2d (64bit x2) n1 : 1.365 11723.5 11723.5 NEON fmla.2d (64bit x2) n1 : 10.780 2968.5 2968.5 NEON fmul.2d (64bit x2) n12 : 2.696 8902.1 8902.1 NEON fadd.2d (64bit x2) n12 : 1.617 14838.2 14838.2 NEON fmla.2d (64bit x2) n12 : 2.727 17601.3 17601.3 平均 : 2.752 8753.8 8753.8 最大 : 0.949 17601.3 17601.3 * Matrix 4x4 (単精度 fp) multi-thread C++ code : 1.321 5426.9 5426.9 NEON fmla.4s 128bit A : 0.446 16077.3 16077.3 NEON fmla.4s 128bit B : 0.372 19289.1 19289.1 平均 : 0.713 13597.8 13597.8 最大 : 0.372 19289.1 19289.1
ARM Cortex-A53 (ARMv8A AArch64 arm64) FPU+NEON
Dragonboard 410c Snapdragon 410 1.2GHz ARM64 (AArch64) android 5.1
Dragonboard 410c Snapdragon 410 1.2GHz ARM64 (AArch64) android 5.1.1 ARCH: ARMv8A CPU core: 4 VFP: AArch64 NEON FMA: Yes NEON: Yes Result SingleT SP max: 9.377 GFLOPS SingleT DP max: 4.737 GFLOPS MultiT SP max: 30.817 GFLOPS MultiT DP max: 15.063 GFLOPS * VFP/NEON (single fp) single-thread FPU fmul (32bit x1) n8 : 0.632 1898.3 1898.3 FPU fadd (32bit x1) n8 : 0.554 2165.6 2165.6 FPU fmadd (32bit x1) n8 : 1.002 2394.8 2394.8 NEON fmul.2s (32bit x2) n8 : 0.568 4228.7 4228.7 NEON fadd.2s (32bit x2) n8 : 0.525 4572.5 4572.5 NEON fmla.2s (32bit x2) n8 : 0.671 7154.7 7154.7 NEON fmul.4s (32bit x4) n8 : 1.035 4636.1 4636.1 NEON fadd.4s (32bit x4) n8 : 1.024 4687.7 4687.7 NEON fmla.4s (32bit x4) n8 : 1.027 9344.1 9344.1 FPU fmul (32bit x1) ns4 : 1.001 1199.3 1199.3 FPU fadd (32bit x1) ns4 : 0.999 1201.6 1201.6 FPU fmadd (32bit x1) ns4 : 1.249 1921.3 1921.3 NEON fmul.2s (32bit x2) ns4 : 0.998 2405.5 2405.5 NEON fadd.2s (32bit x2) ns4 : 0.998 2405.6 2405.6 NEON fmla.2s (32bit x2) ns4 : 2.028 2367.2 2367.2 NEON fmul.4s (32bit x4) ns4 : 1.037 4630.1 4630.1 NEON fadd.4s (32bit x4) ns4 : 1.023 4693.5 4693.5 NEON fmla.4s (32bit x4) ns4 : 2.000 4800.9 4800.9 FPU fmul (32bit x1) n1 : 1.003 1196.3 1196.3 FPU fadd (32bit x1) n1 : 0.999 1201.1 1201.1 FPU fmadd (32bit x1) n1 : 7.989 300.4 300.4 NEON fmul.2s (32bit x2) n1 : 0.997 2406.0 2406.0 NEON fadd.2s (32bit x2) n1 : 1.007 2384.4 2384.4 NEON fmla.2s (32bit x2) n1 : 5.006 958.8 958.8 NEON fmul.4s (32bit x4) n1 : 1.023 4691.8 4691.8 NEON fadd.4s (32bit x4) n1 : 1.025 4684.7 4684.7 NEON fmla.4s (32bit x4) n1 : 5.076 1891.4 1891.4 NEON fmul.4s (32bit x4) n12 : 1.531 4701.9 4701.9 NEON fadd.4s (32bit x4) n12 : 1.532 4698.8 4698.8 NEON fmla.4s (32bit x4) n12 : 1.536 9377.4 9377.4 Average : 1.570 3506.7 3506.7 Highest : 0.525 9377.4 9377.4 * VFP/NEON (double fp) single-thread FPU fmul (64bit x1) n8 : 0.550 2182.7 2182.7 FPU fadd (64bit x1) n8 : 0.549 2185.9 2185.9 FPU fmadd (64bit x1) n8 : 1.021 2351.1 2351.1 NEON fmul.2d (64bit x2) n8 : 1.022 2347.8 2347.8 NEON fadd.2d (64bit x2) n8 : 1.030 2330.5 2330.5 NEON fmla.2d (64bit x2) n8 : 1.025 4682.2 4682.2 FPU fmul (64bit x1) ns4 : 1.000 1200.2 1200.2 FPU fadd (64bit x1) ns4 : 0.996 1205.0 1205.0 FPU fmadd (64bit x1) ns4 : 1.249 1920.9 1920.9 NEON fmul.2d (64bit x2) ns4 : 1.024 2343.9 2343.9 NEON fadd.2d (64bit x2) ns4 : 1.022 2349.4 2349.4 NEON fmla.2d (64bit x2) ns4 : 1.993 2408.2 2408.2 FPU fmul (64bit x1) n1 : 0.996 1204.7 1204.7 FPU fadd (64bit x1) n1 : 0.997 1204.1 1204.1 FPU fmadd (64bit x1) n1 : 8.157 294.2 294.2 NEON fmul.2d (64bit x2) n1 : 1.047 2293.3 2293.3 NEON fadd.2d (64bit x2) n1 : 1.045 2296.6 2296.6 NEON fmla.2d (64bit x2) n1 : 5.057 949.1 949.1 NEON fmul.2d (64bit x2) n12 : 1.521 2366.2 2366.2 NEON fadd.2d (64bit x2) n12 : 1.522 2365.4 2365.4 NEON fmla.2d (64bit x2) n12 : 1.520 4736.8 4736.8 Average : 1.635 2153.2 2153.2 Highest : 0.549 4736.8 4736.8 * Matrix 4x4 (single fp) single-thread C++ code : 2.916 614.6 614.6 NEON fmla.4s 128bit A : 1.301 1377.7 1377.7 NEON fmla.4s 128bit B : 0.602 2977.4 2977.4 Average : 1.606 1656.6 1656.6 Highest : 0.602 2977.4 2977.4 * VFP/NEON (single fp) multi-thread FPU fmul (32bit x1) n8 : 0.797 6025.9 6025.9 FPU fadd (32bit x1) n8 : 0.747 6428.7 6428.7 FPU fmadd (32bit x1) n8 : 1.343 7150.2 7150.2 NEON fmul.2s (32bit x2) n8 : 0.698 13748.1 13748.1 NEON fadd.2s (32bit x2) n8 : 0.766 12534.6 12534.6 NEON fmla.2s (32bit x2) n8 : 0.856 22424.4 22424.4 NEON fmul.4s (32bit x4) n8 : 1.381 13903.8 13903.8 NEON fadd.4s (32bit x4) n8 : 1.440 13334.1 13334.1 NEON fmla.4s (32bit x4) n8 : 1.388 27663.1 27663.1 FPU fmul (32bit x1) ns4 : 1.346 3566.9 3566.9 FPU fadd (32bit x1) ns4 : 1.357 3536.3 3536.3 FPU fmadd (32bit x1) ns4 : 1.675 5732.8 5732.8 NEON fmul.2s (32bit x2) ns4 : 1.375 6983.0 6983.0 NEON fadd.2s (32bit x2) ns4 : 1.333 7199.2 7199.2 NEON fmla.2s (32bit x2) ns4 : 2.725 7045.5 7045.5 NEON fmul.4s (32bit x4) ns4 : 1.377 13942.0 13942.0 NEON fadd.4s (32bit x4) ns4 : 1.369 14023.8 14023.8 NEON fmla.4s (32bit x4) ns4 : 2.679 14332.4 14332.4 FPU fmul (32bit x1) n1 : 1.317 3645.6 3645.6 FPU fadd (32bit x1) n1 : 1.303 3682.7 3682.7 FPU fmadd (32bit x1) n1 : 10.889 881.6 881.6 NEON fmul.2s (32bit x2) n1 : 1.327 7232.6 7232.6 NEON fadd.2s (32bit x2) n1 : 1.336 7187.8 7187.8 NEON fmla.2s (32bit x2) n1 : 6.755 2842.5 2842.5 NEON fmul.4s (32bit x4) n1 : 1.326 14480.3 14480.3 NEON fadd.4s (32bit x4) n1 : 1.389 13822.7 13822.7 NEON fmla.4s (32bit x4) n1 : 6.640 5783.0 5783.0 NEON fmul.4s (32bit x4) n12 : 2.070 13912.5 13912.5 NEON fadd.4s (32bit x4) n12 : 2.129 13528.5 13528.5 NEON fmla.4s (32bit x4) n12 : 1.869 30816.8 30816.8 Average : 2.100 10579.7 10579.7 Highest : 0.698 30816.8 30816.8 * VFP/NEON (double fp) multi-thread FPU fmul (64bit x1) n8 : 0.791 6070.5 6070.5 FPU fadd (64bit x1) n8 : 0.783 6126.7 6126.7 FPU fmadd (64bit x1) n8 : 1.402 6847.9 6847.9 NEON fmul.2d (64bit x2) n8 : 1.346 7134.0 7134.0 NEON fadd.2d (64bit x2) n8 : 1.378 6966.3 6966.3 NEON fmla.2d (64bit x2) n8 : 1.401 13708.2 13708.2 FPU fmul (64bit x1) ns4 : 1.362 3525.1 3525.1 FPU fadd (64bit x1) ns4 : 1.354 3545.5 3545.5 FPU fmadd (64bit x1) ns4 : 1.692 5674.7 5674.7 NEON fmul.2d (64bit x2) ns4 : 1.353 7097.7 7097.7 NEON fadd.2d (64bit x2) ns4 : 1.353 7094.5 7094.5 NEON fmla.2d (64bit x2) ns4 : 2.703 7104.2 7104.2 FPU fmul (64bit x1) n1 : 1.296 3703.2 3703.2 FPU fadd (64bit x1) n1 : 1.353 3547.2 3547.2 FPU fmadd (64bit x1) n1 : 10.773 891.1 891.1 NEON fmul.2d (64bit x2) n1 : 1.444 6649.0 6649.0 NEON fadd.2d (64bit x2) n1 : 1.347 7127.2 7127.2 NEON fmla.2d (64bit x2) n1 : 6.816 2817.1 2817.1 NEON fmul.2d (64bit x2) n12 : 1.992 7227.4 7227.4 NEON fadd.2d (64bit x2) n12 : 2.114 6810.9 6810.9 NEON fmla.2d (64bit x2) n12 : 1.912 15063.3 15063.3 Average : 2.189 6415.8 6415.8 Highest : 0.783 15063.3 15063.3 * Matrix 4x4 (single fp) multi-thread C++ code : 4.048 1770.6 1770.6 NEON fmla.4s 128bit A : 1.763 4064.9 4064.9 NEON fmla.4s 128bit B : 0.762 9400.9 9400.9 Average : 2.191 5078.8 5078.8 Highest : 0.762 9400.9 9400.9
Dragonboard 410c Snapdragon 410 1.2GHz ARM64 (AArch64) debian 8.0
Dragonboard 410c Snapdragon 410 1.2GHz ARM64 (AArch64) debian 8.0 ARCH: ARMv8A FPU: AArch64 NEON SingleT SP max: 9.498 GFLOPS SingleT DP max: 4.749 GFLOPS MultiT SP max: 37.965 GFLOPS MultiT DP max: 18.603 GFLOPS CPU core: 4 NEON: yes FMA: no * FPU/NEON (single fp) FPU fmul (32bit x1) n8 : 0.628 1911.5 1911.5 FPU fadd (32bit x1) n8 : 0.522 2298.9 2298.9 FPU fmadd (32bit x1) n8 : 1.019 2355.4 2355.4 NEON fmul.2s (32bit x2) n8 : 0.547 4389.1 4389.1 NEON fadd.2s (32bit x2) n8 : 0.547 4388.9 4388.9 NEON fmla.2s (32bit x2) n8 : 0.671 7151.5 7151.5 NEON fmul.4s (32bit x4) n8 : 1.019 4710.1 4710.1 NEON fadd.4s (32bit x4) n8 : 1.019 4710.1 4710.1 NEON fmla.4s (32bit x4) n8 : 1.019 9420.1 9420.1 FPU fmul (32bit x1) ns4 : 0.994 1206.9 1206.9 FPU fadd (32bit x1) ns4 : 0.994 1206.9 1206.9 FPU fmadd (32bit x1) ns4 : 1.243 1930.7 1930.7 NEON fmul.2s (32bit x2) ns4 : 0.994 2413.9 2413.9 NEON fadd.2s (32bit x2) ns4 : 0.994 2413.8 2413.8 NEON fmla.2s (32bit x2) ns4 : 1.989 2413.6 2413.6 NEON fmul.4s (32bit x4) ns4 : 1.019 4710.5 4710.5 NEON fadd.4s (32bit x4) ns4 : 1.019 4709.6 4709.6 NEON fmla.4s (32bit x4) ns4 : 1.988 4827.8 4827.8 FPU fmul (32bit x1) n1 : 0.994 1206.9 1206.9 FPU fadd (32bit x1) n1 : 0.994 1206.9 1206.9 FPU fmadd (32bit x1) n1 : 7.954 301.7 301.7 NEON fmul.2s (32bit x2) n1 : 0.994 2413.9 2413.9 NEON fadd.2s (32bit x2) n1 : 0.994 2413.9 2413.9 NEON fmla.2s (32bit x2) n1 : 4.971 965.6 965.6 NEON fmul.4s (32bit x4) n1 : 1.019 4709.8 4709.8 NEON fadd.4s (32bit x4) n1 : 1.019 4710.0 4710.0 NEON fmla.4s (32bit x4) n1 : 4.971 1931.0 1931.0 NEON fmul.4s (32bit x4) n12 : 1.516 4748.6 4748.6 NEON fadd.4s (32bit x4) n12 : 1.516 4748.7 4748.7 NEON fmla.4s (32bit x4) n12 : 1.516 9497.5 9497.5 Average : 1.556 3534.1 3534.1 Highest : 0.522 9497.5 9497.5 * FPU/NEON (double fp) FPU fmul (64bit x1) n8 : 0.683 1756.9 1756.9 FPU fadd (64bit x1) n8 : 0.547 2194.7 2194.7 FPU fmadd (64bit x1) n8 : 1.018 2356.9 2356.9 NEON fmul.2d (64bit x2) n8 : 1.019 2354.5 2354.5 NEON fadd.2d (64bit x2) n8 : 1.019 2354.9 2354.9 NEON fmla.2d (64bit x2) n8 : 1.019 4709.9 4709.9 FPU fmul (64bit x1) ns4 : 0.994 1206.9 1206.9 FPU fadd (64bit x1) ns4 : 0.994 1207.0 1207.0 FPU fmadd (64bit x1) ns4 : 1.243 1931.1 1931.1 NEON fmul.2d (64bit x2) ns4 : 1.019 2355.0 2355.0 NEON fadd.2d (64bit x2) ns4 : 1.019 2355.0 2355.0 NEON fmla.2d (64bit x2) ns4 : 1.989 2413.9 2413.9 FPU fmul (64bit x1) n1 : 0.994 1206.9 1206.9 FPU fadd (64bit x1) n1 : 0.994 1206.9 1206.9 FPU fmadd (64bit x1) n1 : 7.954 301.7 301.7 NEON fmul.2d (64bit x2) n1 : 1.019 2355.0 2355.0 NEON fadd.2d (64bit x2) n1 : 1.019 2354.9 2354.9 NEON fmla.2d (64bit x2) n1 : 4.971 965.5 965.5 NEON fmul.2d (64bit x2) n12 : 1.516 2374.4 2374.4 NEON fadd.2d (64bit x2) n12 : 1.516 2374.2 2374.2 NEON fmla.2d (64bit x2) n12 : 1.516 4748.9 4748.9 Average : 1.622 2146.9 2146.9 Highest : 0.547 4748.9 4748.9 * Matrix 4x4 C++ code : 1.057 1695.9 1695.9 NEON fmla.4s 128bit A : 1.268 1413.6 1413.6 NEON fmla.4s 128bit B : 0.592 3029.1 3029.1 Average : 0.972 2046.2 2046.2 Highest : 0.592 3029.1 3029.1 * FPU/NEON (single fp) multi-thread FPU fmul (32bit x1) n8 : 0.615 7804.0 7804.0 FPU fadd (32bit x1) n8 : 0.523 9183.2 9183.2 FPU fmadd (32bit x1) n8 : 1.018 9426.6 9426.6 NEON fmul.2s (32bit x2) n8 : 0.548 17531.8 17531.8 NEON fadd.2s (32bit x2) n8 : 0.547 17551.7 17551.7 NEON fmla.2s (32bit x2) n8 : 0.671 28611.2 28611.2 NEON fmul.4s (32bit x4) n8 : 1.020 18830.0 18830.0 NEON fadd.4s (32bit x4) n8 : 1.020 18823.9 18823.9 NEON fmla.4s (32bit x4) n8 : 1.020 37660.4 37660.4 FPU fmul (32bit x1) ns4 : 0.994 4828.0 4828.0 FPU fadd (32bit x1) ns4 : 0.995 4824.8 4824.8 FPU fmadd (32bit x1) ns4 : 1.243 7721.2 7721.2 NEON fmul.2s (32bit x2) ns4 : 0.994 9656.2 9656.2 NEON fadd.2s (32bit x2) ns4 : 0.995 9649.0 9649.0 NEON fmla.2s (32bit x2) ns4 : 1.989 9653.2 9653.2 NEON fmul.4s (32bit x4) ns4 : 1.020 18824.1 18824.1 NEON fadd.4s (32bit x4) ns4 : 1.020 18829.1 18829.1 NEON fmla.4s (32bit x4) ns4 : 1.990 19296.5 19296.5 FPU fmul (32bit x1) n1 : 0.995 4825.0 4825.0 FPU fadd (32bit x1) n1 : 0.994 4828.2 4828.2 FPU fmadd (32bit x1) n1 : 7.958 1206.4 1206.4 NEON fmul.2s (32bit x2) n1 : 0.994 9656.6 9656.6 NEON fadd.2s (32bit x2) n1 : 0.995 9649.0 9649.0 NEON fmla.2s (32bit x2) n1 : 4.973 3860.9 3860.9 NEON fmul.4s (32bit x4) n1 : 1.020 18827.5 18827.5 NEON fadd.4s (32bit x4) n1 : 1.020 18830.0 18830.0 NEON fmla.4s (32bit x4) n1 : 4.973 7721.8 7721.8 NEON fmul.4s (32bit x4) n12 : 1.517 18988.4 18988.4 NEON fadd.4s (32bit x4) n12 : 1.517 18983.8 18983.8 NEON fmla.4s (32bit x4) n12 : 1.517 37965.1 37965.1 Average : 1.556 14134.9 14134.9 Highest : 0.523 37965.1 37965.1 * FPU/NEON (double fp) multi-thread FPU fmul (64bit x1) n8 : 0.567 8458.6 8458.6 FPU fadd (64bit x1) n8 : 0.547 8777.6 8777.6 FPU fmadd (64bit x1) n8 : 1.019 9421.6 9421.6 NEON fmul.2d (64bit x2) n8 : 1.019 9421.0 9421.0 NEON fadd.2d (64bit x2) n8 : 1.020 9413.5 9413.5 NEON fmla.2d (64bit x2) n8 : 1.032 18603.0 18603.0 FPU fmul (64bit x1) ns4 : 1.002 4789.7 4789.7 FPU fadd (64bit x1) ns4 : 0.998 4811.2 4811.2 FPU fmadd (64bit x1) ns4 : 1.244 7714.6 7714.6 NEON fmul.2d (64bit x2) ns4 : 1.021 9404.4 9404.4 NEON fadd.2d (64bit x2) ns4 : 1.031 9308.5 9308.5 NEON fmla.2d (64bit x2) ns4 : 1.994 9627.8 9627.8 FPU fmul (64bit x1) n1 : 0.994 4828.1 4828.1 FPU fadd (64bit x1) n1 : 0.995 4824.6 4824.6 FPU fmadd (64bit x1) n1 : 7.957 1206.5 1206.5 NEON fmul.2d (64bit x2) n1 : 1.020 9414.5 9414.5 NEON fadd.2d (64bit x2) n1 : 1.020 9413.9 9413.9 NEON fmla.2d (64bit x2) n1 : 4.973 3861.0 3861.0 NEON fmul.2d (64bit x2) n12 : 1.518 9487.5 9487.5 NEON fadd.2d (64bit x2) n12 : 1.517 9494.1 9494.1 NEON fmla.2d (64bit x2) n12 : 1.558 18486.2 18486.2 Average : 1.621 8608.0 8608.0 Highest : 0.547 18603.0 18603.0 * Matrix 4x4 multi-thread C++ code : 1.033 6941.0 6941.0 NEON fmla.4s 128bit A : 1.268 5654.5 5654.5 NEON fmla.4s 128bit B : 0.592 12101.7 12101.7 Average : 0.964 8232.4 8232.4 Highest : 0.592 12101.7 12101.7
ARM Cortex-A57 (ARMv8A AArch64 arm64) FPU+NEON
SHIELD Android TV Tegra X1 2.1GHz ARM64 (AArch64) android 5.1
ARCH: ARMv8A CPU core: 4 VFP: AArch64 NEON FMA: Yes NEON: Yes Result SingleT SP max: 17.041 GFLOPS SingleT DP max: 8.554 GFLOPS MultiT SP max: 67.588 GFLOPS MultiT DP max: 33.730 GFLOPS * VFP/NEON (単精度 fp) single-thread FPU fmul (32bit x1) n8 : 0.290 4131.7 4131.7 FPU fadd (32bit x1) n8 : 0.281 4277.3 4277.3 FPU fmadd (32bit x1) n8 : 0.703 3414.0 3414.0 NEON fmul.2s (32bit x2) n8 : 0.283 8486.5 8486.5 NEON fadd.2s (32bit x2) n8 : 0.282 8517.0 8517.0 NEON fmla.2s (32bit x2) n8 : 0.282 17003.4 17003.4 NEON fmul.4s (32bit x4) n8 : 0.564 8509.6 8509.6 NEON fadd.4s (32bit x4) n8 : 0.562 8540.2 8540.2 NEON fmla.4s (32bit x4) n8 : 0.700 13721.0 13721.0 FPU fmul (32bit x1) ns4 : 0.840 1429.1 1429.1 FPU fadd (32bit x1) ns4 : 0.700 1713.3 1713.3 FPU fmadd (32bit x1) ns4 : 0.700 3428.6 3428.6 NEON fmul.2s (32bit x2) ns4 : 0.840 2856.8 2856.8 NEON fadd.2s (32bit x2) ns4 : 0.700 3428.9 3428.9 NEON fmla.2s (32bit x2) ns4 : 1.400 3428.2 3428.2 NEON fmul.4s (32bit x4) ns4 : 0.840 5712.7 5712.7 NEON fadd.4s (32bit x4) ns4 : 0.700 6855.0 6855.0 NEON fmla.4s (32bit x4) ns4 : 1.402 6849.0 6849.0 FPU fmul (32bit x1) n1 : 0.578 2077.8 2077.8 FPU fadd (32bit x1) n1 : 0.283 4239.4 4239.4 FPU fmadd (32bit x1) n1 : 5.657 424.2 424.2 NEON fmul.2s (32bit x2) n1 : 0.569 4221.2 4249.2 NEON fadd.2s (32bit x2) n1 : 0.283 8469.6 8519.6 NEON fmla.2s (32bit x2) n1 : 2.278 2107.1 2131.1 NEON fmul.4s (32bit x4) n1 : 0.573 8377.3 8483.6 NEON fadd.4s (32bit x4) n1 : 0.569 8435.0 8512.1 NEON fmla.4s (32bit x4) n1 : 2.280 4211.0 4265.5 NEON fmul.4s (32bit x4) n12 : 0.844 8532.3 8532.3 NEON fadd.4s (32bit x4) n12 : 0.845 8520.8 8540.8 NEON fmla.4s (32bit x4) n12 : 0.879 16373.6 17041.3 平均 : 0.924 6276.4 6310.6 最大 : 0.281 17003.4 17041.3 * VFP/NEON (倍精度 fp) single-thread FPU fmul (64bit x1) n8 : 0.312 3846.8 3846.8 FPU fadd (64bit x1) n8 : 0.282 4254.9 4254.9 FPU fmadd (64bit x1) n8 : 0.708 3389.9 3389.9 NEON fmul.2d (64bit x2) n8 : 0.569 4215.4 4215.4 NEON fadd.2d (64bit x2) n8 : 0.568 4226.6 4226.6 NEON fmla.2d (64bit x2) n8 : 0.706 6799.9 6799.9 FPU fmul (64bit x1) ns4 : 0.859 1397.0 1408.4 FPU fadd (64bit x1) ns4 : 0.712 1686.4 1696.0 FPU fmadd (64bit x1) ns4 : 0.744 3223.9 3382.8 NEON fmul.2d (64bit x2) ns4 : 0.858 2797.4 2801.3 NEON fadd.2d (64bit x2) ns4 : 0.709 3384.9 3384.9 NEON fmla.2d (64bit x2) ns4 : 1.416 3389.0 3389.0 FPU fmul (64bit x1) n1 : 0.566 2120.0 2120.0 FPU fadd (64bit x1) n1 : 0.285 4208.8 4208.8 FPU fmadd (64bit x1) n1 : 5.609 427.9 427.9 NEON fmul.2d (64bit x2) n1 : 0.561 4278.3 4278.3 NEON fadd.2d (64bit x2) n1 : 0.561 4280.9 4280.9 NEON fmla.2d (64bit x2) n1 : 2.244 2138.6 2138.6 NEON fmul.2d (64bit x2) n12 : 0.841 4279.4 4279.4 NEON fadd.2d (64bit x2) n12 : 0.841 4279.7 4279.7 NEON fmla.2d (64bit x2) n12 : 0.842 8554.0 8554.0 平均 : 0.990 3675.2 3684.0 最大 : 0.282 8554.0 8554.0 * Matrix 4x4 (単精度 fp) single-thread C++ code : 0.741 2419.4 2419.4 NEON fmla.4s 128bit A : 0.230 7801.6 7860.9 NEON fmla.4s 128bit B : 0.226 7917.8 7917.8 平均 : 0.399 6046.3 6066.0 最大 : 0.226 7917.8 7917.8 * VFP/NEON (単精度 fp) multi-thread FPU fmul (32bit x1) n8 : 0.333 14393.2 14743.0 FPU fadd (32bit x1) n8 : 0.285 16839.7 16841.8 FPU fmadd (32bit x1) n8 : 0.718 13364.5 13443.8 NEON fmul.2s (32bit x2) n8 : 0.290 33150.2 33150.2 NEON fadd.2s (32bit x2) n8 : 0.287 33442.6 33927.4 NEON fmla.2s (32bit x2) n8 : 0.286 67184.1 67587.5 NEON fmul.4s (32bit x4) n8 : 0.569 33767.7 33833.3 NEON fadd.4s (32bit x4) n8 : 0.568 33811.3 33832.7 NEON fmla.4s (32bit x4) n8 : 0.713 53852.2 54013.8 FPU fmul (32bit x1) ns4 : 0.854 5621.4 5632.9 FPU fadd (32bit x1) ns4 : 0.712 6740.4 6769.2 FPU fmadd (32bit x1) ns4 : 0.712 13481.0 13558.1 NEON fmul.2s (32bit x2) ns4 : 0.853 11253.9 11293.6 NEON fadd.2s (32bit x2) ns4 : 0.711 13502.9 13510.1 NEON fmla.2s (32bit x2) ns4 : 1.422 13499.4 13547.4 NEON fmul.4s (32bit x4) ns4 : 0.854 22470.9 22532.7 NEON fadd.4s (32bit x4) ns4 : 0.713 26920.8 27035.6 NEON fmla.4s (32bit x4) ns4 : 1.423 26993.6 27075.9 FPU fmul (32bit x1) n1 : 0.571 8412.6 8442.1 FPU fadd (32bit x1) n1 : 0.285 16827.0 16844.8 FPU fmadd (32bit x1) n1 : 5.693 1686.4 1693.4 NEON fmul.2s (32bit x2) n1 : 0.570 16834.1 16854.1 NEON fadd.2s (32bit x2) n1 : 0.286 33540.2 33585.9 NEON fmla.2s (32bit x2) n1 : 2.277 8433.7 8440.8 NEON fmul.4s (32bit x4) n1 : 0.570 33674.8 33674.8 NEON fadd.4s (32bit x4) n1 : 0.571 33649.4 33717.9 NEON fmla.4s (32bit x4) n1 : 2.278 16859.1 16860.0 NEON fmul.4s (32bit x4) n12 : 0.858 33552.7 33738.4 NEON fadd.4s (32bit x4) n12 : 0.856 33663.3 33711.0 NEON fmla.4s (32bit x4) n12 : 0.854 67446.6 67446.6 平均 : 0.932 24829.0 24911.3 最大 : 0.285 67446.6 67587.5 * VFP/NEON (倍精度 fp) multi-thread FPU fmul (64bit x1) n8 : 0.327 14662.4 14713.3 FPU fadd (64bit x1) n8 : 0.287 16730.6 16773.1 FPU fmadd (64bit x1) n8 : 0.720 13329.9 13394.6 NEON fmul.2d (64bit x2) n8 : 0.577 16637.4 16637.4 NEON fadd.2d (64bit x2) n8 : 0.571 16813.6 16837.1 NEON fmla.2d (64bit x2) n8 : 0.715 26868.9 26948.6 FPU fmul (64bit x1) ns4 : 0.856 5610.4 5610.4 FPU fadd (64bit x1) ns4 : 0.714 6727.2 6747.8 FPU fmadd (64bit x1) ns4 : 0.715 13432.2 13474.1 NEON fmul.2d (64bit x2) ns4 : 0.856 11209.1 11243.1 NEON fadd.2d (64bit x2) ns4 : 0.715 13426.0 13449.7 NEON fmla.2d (64bit x2) ns4 : 1.425 13469.4 13487.0 FPU fmul (64bit x1) n1 : 0.573 8382.3 8418.5 FPU fadd (64bit x1) n1 : 0.286 16804.1 16839.6 FPU fmadd (64bit x1) n1 : 5.702 1683.6 1688.1 NEON fmul.2d (64bit x2) n1 : 0.571 16798.0 16832.1 NEON fadd.2d (64bit x2) n1 : 0.571 16807.5 16850.1 NEON fmla.2d (64bit x2) n1 : 2.284 8405.3 8430.1 NEON fmul.2d (64bit x2) n12 : 0.857 16794.0 16847.0 NEON fadd.2d (64bit x2) n12 : 0.859 16770.0 16803.3 NEON fmla.2d (64bit x2) n12 : 0.856 33627.0 33729.8 平均 : 1.002 14523.3 14559.7 最大 : 0.286 33627.0 33729.8 * Matrix 4x4 (単精度 fp) multi-thread C++ code : 0.783 9150.1 9369.6 NEON fmla.4s 128bit A : 0.237 30209.5 30386.0 NEON fmla.4s 128bit B : 0.230 31120.2 31829.8 平均 : 0.417 23493.3 23861.8 最大 : 0.230 31120.2 31829.8
Nexus 5X Snapdragon 808 MSM8992 little core A53 1.44GHz x4 ARM64 (AArch64) android 8.1
ARCH: ARMv8A 3 FPU: AArch64 NEON SingleT SP max: 11.239 GFLOPS SingleT DP max: 5.606 GFLOPS MultiT SP max: 44.899 GFLOPS MultiT DP max: 22.535 GFLOPS CPU core: 4 FPHP : no SIMDHP: no * FPU/NEON (single fp) TIME(s) MFLOPS MOPS FOP IPC max MFLOPS FPU fmul (32bit x1) n8 : 0.487 2465.3 2465.3 ( 1 1.7) 2465.3 FPU fadd (32bit x1) n8 : 0.442 2714.1 2714.1 ( 1 1.9) 2714.1 FPU fmadd (32bit x1) n8 : 0.845 2841.1 1420.5 ( 2 1.0) 2841.1 NEON fmul.2s (32bit x2) n8 : 0.463 5180.9 2590.4 ( 2 1.8) 5180.9 NEON fadd.2s (32bit x2) n8 : 0.440 5452.1 2726.1 ( 2 1.9) 5452.1 NEON fmla.2s (32bit x2) n8 : 0.461 10402.7 2600.7 ( 4 1.8) 10402.7 NEON fmul.4s (32bit x4) n8 : 0.860 5580.5 1395.1 ( 4 1.0) 5580.5 NEON fadd.4s (32bit x4) n8 : 0.860 5583.0 1395.7 ( 4 1.0) 5583.0 NEON fmla.4s (32bit x4) n8 : 0.859 11169.5 1396.2 ( 8 1.0) 11169.5 FPU fmul (32bit x1) ns4 : 0.839 1430.3 1430.3 ( 1 1.0) 1430.3 FPU fadd (32bit x1) ns4 : 0.841 1426.9 1426.9 ( 1 1.0) 1426.9 FPU fmadd (32bit x1) ns4 : 0.943 2543.8 1271.9 ( 2 0.9) 2543.8 NEON fmul.2s (32bit x2) ns4 : 0.839 2862.1 1431.1 ( 2 1.0) 2862.1 NEON fadd.2s (32bit x2) ns4 : 0.840 2857.9 1428.9 ( 2 1.0) 2857.9 NEON fmla.2s (32bit x2) ns4 : 1.683 2851.4 712.8 ( 4 0.5) 2851.4 NEON fmul.4s (32bit x4) ns4 : 0.871 5511.3 1377.8 ( 4 1.0) 5511.3 NEON fadd.4s (32bit x4) ns4 : 0.860 5579.6 1394.9 ( 4 1.0) 5579.6 NEON fmla.4s (32bit x4) ns4 : 1.688 5687.1 710.9 ( 8 0.5) 5687.1 FPU fmul (32bit x1) n1 : 0.848 1415.0 1415.0 ( 1 1.0) 1415.0 FPU fadd (32bit x1) n1 : 0.840 1427.9 1427.9 ( 1 1.0) 1427.9 FPU fmadd (32bit x1) n1 : 6.751 355.5 177.7 ( 2 0.1) 355.5 NEON fmul.2s (32bit x2) n1 : 0.842 2849.5 1424.7 ( 2 1.0) 2849.5 NEON fadd.2s (32bit x2) n1 : 0.839 2859.1 1429.5 ( 2 1.0) 2859.1 NEON fmla.2s (32bit x2) n1 : 3.379 1420.7 355.2 ( 4 0.2) 1420.7 NEON fmul.4s (32bit x4) n1 : 0.860 5581.2 1395.3 ( 4 1.0) 5581.2 NEON fadd.4s (32bit x4) n1 : 0.868 5529.5 1382.4 ( 4 1.0) 5529.5 NEON fmla.4s (32bit x4) n1 : 3.370 2848.4 356.1 ( 8 0.2) 2848.4 NEON fmul.4s (32bit x4) n12 : 1.280 5625.6 1406.4 ( 4 1.0) 5625.6 NEON fadd.4s (32bit x4) n12 : 1.280 5625.0 1406.2 ( 4 1.0) 5625.0 NEON fmla.4s (32bit x4) n12 : 1.281 11239.2 1404.9 ( 8 1.0) 11239.2 Average : 1.252 4297.2 1449.0 ( 3 1.0) 4297.2 Highest : 0.440 11239.2 2726.1 ( 8 1.9) 11239.2 * FPU/NEON (double fp) TIME(s) MFLOPS MOPS FOP IPC max MFLOPS FPU fmul (64bit x1) n8 : 0.474 2532.7 2532.7 ( 1 1.8) 2532.7 FPU fadd (64bit x1) n8 : 0.461 2600.3 2600.3 ( 1 1.8) 2600.3 FPU fmadd (64bit x1) n8 : 0.857 2799.2 1399.6 ( 2 1.0) 2799.2 NEON fmul.2d (64bit x2) n8 : 0.860 2789.4 1394.7 ( 2 1.0) 2789.4 NEON fadd.2d (64bit x2) n8 : 0.860 2790.8 1395.4 ( 2 1.0) 2790.8 NEON fmla.2d (64bit x2) n8 : 0.861 5577.9 1394.5 ( 4 1.0) 5577.9 FPU fmul (64bit x1) ns4 : 0.851 1409.5 1409.5 ( 1 1.0) 1409.5 FPU fadd (64bit x1) ns4 : 0.844 1422.0 1422.0 ( 1 1.0) 1422.0 FPU fmadd (64bit x1) ns4 : 0.943 2543.7 1271.9 ( 2 0.9) 2543.7 NEON fmul.2d (64bit x2) ns4 : 0.860 2791.4 1395.7 ( 2 1.0) 2791.4 NEON fadd.2d (64bit x2) ns4 : 0.862 2782.7 1391.3 ( 2 1.0) 2782.7 NEON fmla.2d (64bit x2) ns4 : 1.678 2860.9 715.2 ( 4 0.5) 2860.9 FPU fmul (64bit x1) n1 : 0.843 1423.0 1423.0 ( 1 1.0) 1423.0 FPU fadd (64bit x1) n1 : 0.839 1429.6 1429.6 ( 1 1.0) 1429.6 FPU fmadd (64bit x1) n1 : 6.714 357.5 178.7 ( 2 0.1) 357.5 NEON fmul.2d (64bit x2) n1 : 0.860 2791.8 1395.9 ( 2 1.0) 2791.8 NEON fadd.2d (64bit x2) n1 : 0.860 2791.2 1395.6 ( 2 1.0) 2791.2 NEON fmla.2d (64bit x2) n1 : 3.357 1429.7 357.4 ( 4 0.2) 1429.7 NEON fmul.2d (64bit x2) n12 : 1.279 2814.3 1407.2 ( 2 1.0) 2814.3 NEON fadd.2d (64bit x2) n12 : 1.279 2814.1 1407.0 ( 2 1.0) 2814.1 NEON fmla.2d (64bit x2) n12 : 1.284 5605.8 1401.4 ( 4 1.0) 5605.8 Average : 1.320 2588.4 1367.6 ( 2 0.9) 2588.4 Highest : 0.461 5605.8 2600.3 ( 4 1.8) 5605.8 * Matrix 4x4 TIME(s) MFLOPS MOPS FOP IPC max MFLOPS C++ code : 0.566 3164.7 3164.7 ( 1 2.2) 3164.7 NEON fmla.4s 128bit A : 0.984 1820.6 1820.6 ( 1 1.3) 1820.6 NEON fmla.4s 128bit B : 0.484 3699.5 3699.5 ( 1 2.6) 3699.5 Average : 0.678 2894.9 2894.9 ( 1 2.0) 2894.9 Highest : 0.484 3699.5 3699.5 ( 1 2.6) 3699.5 * FPU/NEON (single fp) multi-thread TIME(s) MFLOPS MOPS FOP IPC max MFLOPS FPU fmul (32bit x1) n8 : 0.484 9908.4 2477.1 ( 4 1.7) 9908.4 FPU fadd (32bit x1) n8 : 0.442 10866.0 2716.5 ( 4 1.9) 10866.0 FPU fmadd (32bit x1) n8 : 0.840 11431.1 1428.9 ( 8 1.0) 11431.1 NEON fmul.2s (32bit x2) n8 : 0.463 20718.9 2589.9 ( 8 1.8) 20718.9 NEON fadd.2s (32bit x2) n8 : 0.441 21754.3 2719.3 ( 8 1.9) 21754.3 NEON fmla.2s (32bit x2) n8 : 0.466 41244.1 2577.8 ( 16 1.8) 41244.1 NEON fmul.4s (32bit x4) n8 : 0.865 22207.2 1387.9 ( 16 1.0) 22207.2 NEON fadd.4s (32bit x4) n8 : 0.861 22290.2 1393.1 ( 16 1.0) 22290.2 NEON fmla.4s (32bit x4) n8 : 0.863 44513.6 1391.0 ( 32 1.0) 44513.6 FPU fmul (32bit x1) ns4 : 0.839 5721.2 1430.3 ( 4 1.0) 5721.2 FPU fadd (32bit x1) ns4 : 0.842 5701.3 1425.3 ( 4 1.0) 5701.3 FPU fmadd (32bit x1) ns4 : 0.944 10167.9 1271.0 ( 8 0.9) 10167.9 NEON fmul.2s (32bit x2) ns4 : 0.840 11426.1 1428.3 ( 8 1.0) 11426.1 NEON fadd.2s (32bit x2) ns4 : 0.840 11429.3 1428.7 ( 8 1.0) 11429.3 NEON fmla.2s (32bit x2) ns4 : 1.700 11295.3 706.0 ( 16 0.5) 11295.3 NEON fmul.4s (32bit x4) ns4 : 0.862 22271.7 1392.0 ( 16 1.0) 22271.7 NEON fadd.4s (32bit x4) ns4 : 0.859 22342.3 1396.4 ( 16 1.0) 22342.3 NEON fmla.4s (32bit x4) ns4 : 1.678 22883.5 715.1 ( 32 0.5) 22883.5 FPU fmul (32bit x1) n1 : 0.839 5724.2 1431.1 ( 4 1.0) 5724.2 FPU fadd (32bit x1) n1 : 0.839 5719.0 1429.8 ( 4 1.0) 5719.0 FPU fmadd (32bit x1) n1 : 6.714 1429.9 178.7 ( 8 0.1) 1429.9 NEON fmul.2s (32bit x2) n1 : 0.840 11430.3 1428.8 ( 8 1.0) 11430.3 NEON fadd.2s (32bit x2) n1 : 0.838 11458.5 1432.3 ( 8 1.0) 11458.5 NEON fmla.2s (32bit x2) n1 : 3.355 5723.6 357.7 ( 16 0.2) 5723.6 NEON fmul.4s (32bit x4) n1 : 0.859 22355.2 1397.2 ( 16 1.0) 22355.2 NEON fadd.4s (32bit x4) n1 : 0.860 22328.7 1395.5 ( 16 1.0) 22328.7 NEON fmla.4s (32bit x4) n1 : 3.357 11438.4 357.5 ( 32 0.2) 11438.4 NEON fmul.4s (32bit x4) n12 : 1.278 22534.5 1408.4 ( 16 1.0) 22534.5 NEON fadd.4s (32bit x4) n12 : 1.283 22455.5 1403.5 ( 16 1.0) 22455.5 NEON fmla.4s (32bit x4) n12 : 1.283 44899.0 1403.1 ( 32 1.0) 44899.0 Average : 1.249 17189.0 1449.9 ( 13 1.0) 17189.0 Highest : 0.441 44899.0 2719.3 ( 32 1.9) 44899.0 * FPU/NEON (double fp) multi-thread TIME(s) MFLOPS MOPS FOP IPC max MFLOPS FPU fmul (64bit x1) n8 : 0.458 10477.5 2619.4 ( 4 1.8) 10477.5 FPU fadd (64bit x1) n8 : 0.462 10382.0 2595.5 ( 4 1.8) 10382.0 FPU fmadd (64bit x1) n8 : 0.863 11117.6 1389.7 ( 8 1.0) 11117.6 NEON fmul.2d (64bit x2) n8 : 0.860 11160.2 1395.0 ( 8 1.0) 11160.2 NEON fadd.2d (64bit x2) n8 : 0.868 11065.3 1383.2 ( 8 1.0) 11065.3 NEON fmla.2d (64bit x2) n8 : 0.862 22280.0 1392.5 ( 16 1.0) 22280.0 FPU fmul (64bit x1) ns4 : 0.843 5692.5 1423.1 ( 4 1.0) 5692.5 FPU fadd (64bit x1) ns4 : 0.840 5714.2 1428.6 ( 4 1.0) 5714.2 FPU fmadd (64bit x1) ns4 : 0.944 10171.8 1271.5 ( 8 0.9) 10171.8 NEON fmul.2d (64bit x2) ns4 : 0.859 11169.9 1396.2 ( 8 1.0) 11169.9 NEON fadd.2d (64bit x2) ns4 : 0.860 11164.8 1395.6 ( 8 1.0) 11164.8 NEON fmla.2d (64bit x2) ns4 : 1.679 11435.7 714.7 ( 16 0.5) 11435.7 FPU fmul (64bit x1) n1 : 0.838 5725.9 1431.5 ( 4 1.0) 5725.9 FPU fadd (64bit x1) n1 : 0.838 5728.1 1432.0 ( 4 1.0) 5728.1 FPU fmadd (64bit x1) n1 : 6.715 1429.5 178.7 ( 8 0.1) 1429.5 NEON fmul.2d (64bit x2) n1 : 0.861 11147.0 1393.4 ( 8 1.0) 11147.0 NEON fadd.2d (64bit x2) n1 : 0.860 11158.8 1394.9 ( 8 1.0) 11158.8 NEON fmla.2d (64bit x2) n1 : 3.366 5704.1 356.5 ( 16 0.2) 5704.1 NEON fmul.2d (64bit x2) n12 : 1.280 11246.4 1405.8 ( 8 1.0) 11246.4 NEON fadd.2d (64bit x2) n12 : 1.280 11249.7 1406.2 ( 8 1.0) 11249.7 NEON fmla.2d (64bit x2) n12 : 1.278 22534.8 1408.4 ( 16 1.0) 22534.8 Average : 1.320 10369.3 1372.0 ( 8 1.0) 10369.3 Highest : 0.458 22534.8 2619.4 ( 16 1.8) 22534.8 * Matrix 4x4 multi-thread TIME(s) MFLOPS MOPS FOP IPC max MFLOPS C++ code : 0.585 12250.9 3062.7 ( 4 2.1) 12250.9 NEON fmla.4s 128bit A : 0.985 7274.5 1818.6 ( 4 1.3) 7274.5 NEON fmla.4s 128bit B : 0.486 14758.2 3689.6 ( 4 2.6) 14758.2 Average : 0.685 11427.9 2857.0 ( 4 2.0) 11427.9 Highest : 0.486 14758.2 3689.6 ( 4 2.6) 14758.2 cpu0 1440000 384000 cpu1 1440000 384000 cpu2 1440000 384000 cpu3 1440000 384000 cpu4 1824000 384000 cpu5 1824000 384000 processor : 0 Features : fp asimd evtstrm aes pmull sha1 sha2 crc32 CPU implementer : 0x41 CPU architecture: 8 CPU variant : 0x0 CPU part : 0xd03 CPU revision : 3 processor : 1 Features : fp asimd evtstrm aes pmull sha1 sha2 crc32 CPU implementer : 0x41 CPU architecture: 8 CPU variant : 0x0 CPU part : 0xd03 CPU revision : 3 processor : 2 Features : fp asimd evtstrm aes pmull sha1 sha2 crc32 CPU implementer : 0x41 CPU architecture: 8 CPU variant : 0x0 CPU part : 0xd03 CPU revision : 3 processor : 3 Features : fp asimd evtstrm aes pmull sha1 sha2 crc32 CPU implementer : 0x41 CPU architecture: 8 CPU variant : 0x0 CPU part : 0xd03 CPU revision : 3 processor : 4 Features : fp asimd evtstrm aes pmull sha1 sha2 crc32 CPU implementer : 0x41 CPU architecture: 8 CPU variant : 0x1 CPU part : 0xd07 CPU revision : 2 processor : 5 Features : fp asimd evtstrm aes pmull sha1 sha2 crc32 CPU implementer : 0x41 CPU architecture: 8 CPU variant : 0x1 CPU part : 0xd07 CPU revision : 2 Hardware : Qualcomm Technologies, Inc MSM8992 Qualcomm Technologies, Inc MSM8992 2019/01/05 13:55:26
Nexus 5X Snapdragon 808 MSM8992 big core A57 1.82GHz x4 ARM64 (AArch64) android 8.1
ARCH: ARMv8A 3 FPU: AArch64 NEON SingleT SP max: 14.526 GFLOPS SingleT DP max: 7.262 GFLOPS MultiT SP max: 29.078 GFLOPS MultiT DP max: 14.344 GFLOPS CPU core: 2 FPHP : no SIMDHP: no * FPU/NEON (single fp) TIME(s) MFLOPS MOPS FOP IPC max MFLOPS FPU fmul (32bit x1) n8 : 0.357 3358.6 3358.6 ( 1 1.8) 3358.6 FPU fadd (32bit x1) n8 : 0.334 3587.5 3587.5 ( 1 2.0) 3587.5 FPU fmadd (32bit x1) n8 : 0.826 2904.4 1452.2 ( 2 0.8) 2904.4 NEON fmul.2s (32bit x2) n8 : 0.330 7262.9 3631.5 ( 2 2.0) 7262.9 NEON fadd.2s (32bit x2) n8 : 0.330 7263.1 3631.6 ( 2 2.0) 7263.1 NEON fmla.2s (32bit x2) n8 : 0.330 14526.4 3631.6 ( 4 2.0) 14526.4 NEON fmul.4s (32bit x4) n8 : 0.661 7261.5 1815.4 ( 4 1.0) 7261.5 NEON fadd.4s (32bit x4) n8 : 0.661 7262.0 1815.5 ( 4 1.0) 7262.0 NEON fmla.4s (32bit x4) n8 : 0.826 11617.9 1452.2 ( 8 0.8) 11617.9 FPU fmul (32bit x1) ns4 : 0.991 1210.4 1210.4 ( 1 0.7) 1210.4 FPU fadd (32bit x1) ns4 : 0.826 1452.2 1452.2 ( 1 0.8) 1452.2 FPU fmadd (32bit x1) ns4 : 0.826 2905.1 1452.6 ( 2 0.8) 2905.1 NEON fmul.2s (32bit x2) ns4 : 0.991 2421.7 1210.8 ( 2 0.7) 2421.7 NEON fadd.2s (32bit x2) ns4 : 0.826 2905.4 1452.7 ( 2 0.8) 2905.4 NEON fmla.2s (32bit x2) ns4 : 1.652 2905.1 726.3 ( 4 0.4) 2905.1 NEON fmul.4s (32bit x4) ns4 : 0.991 4841.9 1210.5 ( 4 0.7) 4841.9 NEON fadd.4s (32bit x4) ns4 : 0.826 5808.0 1452.0 ( 4 0.8) 5808.0 NEON fmla.4s (32bit x4) ns4 : 1.652 5809.9 726.2 ( 8 0.4) 5809.9 FPU fmul (32bit x1) n1 : 0.661 1815.8 1815.8 ( 1 1.0) 1815.8 FPU fadd (32bit x1) n1 : 0.331 3629.2 3629.2 ( 1 2.0) 3629.2 FPU fmadd (32bit x1) n1 : 6.610 363.1 181.6 ( 2 0.1) 363.1 NEON fmul.2s (32bit x2) n1 : 0.661 3630.7 1815.3 ( 2 1.0) 3630.7 NEON fadd.2s (32bit x2) n1 : 0.330 7262.5 3631.3 ( 2 2.0) 7262.5 NEON fmla.2s (32bit x2) n1 : 2.644 1815.4 453.9 ( 4 0.2) 1815.4 NEON fmul.4s (32bit x4) n1 : 0.661 7261.7 1815.4 ( 4 1.0) 7261.7 NEON fadd.4s (32bit x4) n1 : 0.661 7262.0 1815.5 ( 4 1.0) 7262.0 NEON fmla.4s (32bit x4) n1 : 2.644 3631.1 453.9 ( 8 0.2) 3631.1 NEON fmul.4s (32bit x4) n12 : 0.991 7263.0 1815.7 ( 4 1.0) 7263.0 NEON fadd.4s (32bit x4) n12 : 0.992 7261.0 1815.2 ( 4 1.0) 7261.0 NEON fmla.4s (32bit x4) n12 : 0.991 14525.0 1815.6 ( 8 1.0) 14525.0 Average : 1.081 5367.5 1877.6 ( 3 1.0) 5367.5 Highest : 0.330 14526.4 3631.6 ( 8 2.0) 14526.4 * FPU/NEON (double fp) TIME(s) MFLOPS MOPS FOP IPC max MFLOPS FPU fmul (64bit x1) n8 : 0.359 3339.0 3339.0 ( 1 1.8) 3339.0 FPU fadd (64bit x1) n8 : 0.331 3630.8 3630.8 ( 1 2.0) 3630.8 FPU fmadd (64bit x1) n8 : 0.826 2904.9 1452.5 ( 2 0.8) 2904.9 NEON fmul.2d (64bit x2) n8 : 0.665 3608.7 1804.4 ( 2 1.0) 3608.7 NEON fadd.2d (64bit x2) n8 : 0.661 3631.6 1815.8 ( 2 1.0) 3631.6 NEON fmla.2d (64bit x2) n8 : 0.826 5809.8 1452.4 ( 4 0.8) 5809.8 FPU fmul (64bit x1) ns4 : 0.992 1210.2 1210.2 ( 1 0.7) 1210.2 FPU fadd (64bit x1) ns4 : 0.826 1452.5 1452.5 ( 1 0.8) 1452.5 FPU fmadd (64bit x1) ns4 : 0.826 2904.8 1452.4 ( 2 0.8) 2904.8 NEON fmul.2d (64bit x2) ns4 : 0.992 2420.0 1210.0 ( 2 0.7) 2420.0 NEON fadd.2d (64bit x2) ns4 : 0.826 2905.5 1452.7 ( 2 0.8) 2905.5 NEON fmla.2d (64bit x2) ns4 : 1.652 2905.5 726.4 ( 4 0.4) 2905.5 FPU fmul (64bit x1) n1 : 0.661 1815.3 1815.3 ( 1 1.0) 1815.3 FPU fadd (64bit x1) n1 : 0.331 3630.8 3630.8 ( 1 2.0) 3630.8 FPU fmadd (64bit x1) n1 : 6.625 362.3 181.1 ( 2 0.1) 362.3 NEON fmul.2d (64bit x2) n1 : 0.661 3630.7 1815.3 ( 2 1.0) 3630.7 NEON fadd.2d (64bit x2) n1 : 0.661 3631.6 1815.8 ( 2 1.0) 3631.6 NEON fmla.2d (64bit x2) n1 : 2.644 1815.5 453.9 ( 4 0.2) 1815.5 NEON fmul.2d (64bit x2) n12 : 0.992 3630.6 1815.3 ( 2 1.0) 3630.6 NEON fadd.2d (64bit x2) n12 : 0.991 3631.2 1815.6 ( 2 1.0) 3631.2 NEON fmla.2d (64bit x2) n12 : 0.991 7262.4 1815.6 ( 4 1.0) 7262.4 Average : 1.159 3149.2 1721.8 ( 2 0.9) 3149.2 Highest : 0.331 7262.4 3630.8 ( 4 2.0) 7262.4 * Matrix 4x4 TIME(s) MFLOPS MOPS FOP IPC max MFLOPS C++ code : 0.304 5888.8 5888.8 ( 1 3.2) 5888.8 NEON fmla.4s 128bit A : 0.264 6778.2 6778.2 ( 1 3.7) 6778.2 NEON fmla.4s 128bit B : 0.265 6759.9 6759.9 ( 1 3.7) 6759.9 Average : 0.278 6475.6 6475.6 ( 1 3.6) 6475.6 Highest : 0.264 6778.2 6778.2 ( 1 3.7) 6778.2 * FPU/NEON (single fp) multi-thread TIME(s) MFLOPS MOPS FOP IPC max MFLOPS FPU fmul (32bit x1) n8 : 0.355 6764.1 3382.1 ( 2 1.9) 6764.1 FPU fadd (32bit x1) n8 : 0.330 7266.3 3633.2 ( 2 2.0) 7266.3 FPU fmadd (32bit x1) n8 : 0.826 5812.7 1453.2 ( 4 0.8) 5812.7 NEON fmul.2s (32bit x2) n8 : 0.330 14535.4 3633.8 ( 4 2.0) 14535.4 NEON fadd.2s (32bit x2) n8 : 0.330 14534.6 3633.6 ( 4 2.0) 14534.6 NEON fmla.2s (32bit x2) n8 : 0.330 29066.2 3633.3 ( 8 2.0) 29066.2 NEON fmul.4s (32bit x4) n8 : 0.661 14533.3 1816.7 ( 8 1.0) 14533.3 NEON fadd.4s (32bit x4) n8 : 0.660 14535.1 1816.9 ( 8 1.0) 14535.1 NEON fmla.4s (32bit x4) n8 : 0.826 23253.0 1453.3 ( 16 0.8) 23253.0 FPU fmul (32bit x1) ns4 : 0.991 2422.0 1211.0 ( 2 0.7) 2422.0 FPU fadd (32bit x1) ns4 : 0.826 2906.3 1453.1 ( 2 0.8) 2906.3 FPU fmadd (32bit x1) ns4 : 0.826 5813.3 1453.3 ( 4 0.8) 5813.3 NEON fmul.2s (32bit x2) ns4 : 0.991 4844.9 1211.2 ( 4 0.7) 4844.9 NEON fadd.2s (32bit x2) ns4 : 0.826 5813.6 1453.4 ( 4 0.8) 5813.6 NEON fmla.2s (32bit x2) ns4 : 1.651 5813.6 726.7 ( 8 0.4) 5813.6 NEON fmul.4s (32bit x4) ns4 : 0.991 9689.1 1211.1 ( 8 0.7) 9689.1 NEON fadd.4s (32bit x4) ns4 : 0.826 11626.0 1453.2 ( 8 0.8) 11626.0 NEON fmla.4s (32bit x4) ns4 : 1.651 11627.7 726.7 ( 16 0.4) 11627.7 FPU fmul (32bit x1) n1 : 0.661 3633.0 1816.5 ( 2 1.0) 3633.0 FPU fadd (32bit x1) n1 : 0.330 7264.3 3632.2 ( 2 2.0) 7264.3 FPU fmadd (32bit x1) n1 : 6.605 726.7 181.7 ( 4 0.1) 726.7 NEON fmul.2s (32bit x2) n1 : 0.661 7262.1 1815.5 ( 4 1.0) 7262.1 NEON fadd.2s (32bit x2) n1 : 0.331 14504.4 3626.1 ( 4 2.0) 14504.4 NEON fmla.2s (32bit x2) n1 : 2.645 3629.5 453.7 ( 8 0.2) 3629.5 NEON fmul.4s (32bit x4) n1 : 0.661 14531.0 1816.4 ( 8 1.0) 14531.0 NEON fadd.4s (32bit x4) n1 : 0.661 14532.6 1816.6 ( 8 1.0) 14532.6 NEON fmla.4s (32bit x4) n1 : 2.686 7149.4 446.8 ( 16 0.2) 7149.4 NEON fmul.4s (32bit x4) n12 : 0.990 14539.8 1817.5 ( 8 1.0) 14539.8 NEON fadd.4s (32bit x4) n12 : 0.990 14539.1 1817.4 ( 8 1.0) 14539.1 NEON fmla.4s (32bit x4) n12 : 0.990 29078.0 1817.4 ( 16 1.0) 29078.0 Average : 1.081 10741.6 1880.5 ( 7 1.0) 10741.6 Highest : 0.330 29078.0 3633.8 ( 16 2.0) 29078.0 * FPU/NEON (double fp) multi-thread TIME(s) MFLOPS MOPS FOP IPC max MFLOPS FPU fmul (64bit x1) n8 : 0.378 6351.5 3175.8 ( 2 1.7) 6351.5 FPU fadd (64bit x1) n8 : 0.369 6504.0 3252.0 ( 2 1.8) 6504.0 FPU fmadd (64bit x1) n8 : 0.954 5030.8 1257.7 ( 4 0.7) 5030.8 NEON fmul.2d (64bit x2) n8 : 0.806 5958.7 1489.7 ( 4 0.8) 5958.7 NEON fadd.2d (64bit x2) n8 : 0.849 5651.5 1412.9 ( 4 0.8) 5651.5 NEON fmla.2d (64bit x2) n8 : 1.144 8387.9 1048.5 ( 8 0.6) 8387.9 FPU fmul (64bit x1) ns4 : 1.449 1656.3 828.1 ( 2 0.5) 1656.3 FPU fadd (64bit x1) ns4 : 1.208 1987.4 993.7 ( 2 0.5) 1987.4 FPU fmadd (64bit x1) ns4 : 1.625 2954.2 738.6 ( 4 0.4) 2954.2 NEON fmul.2d (64bit x2) ns4 : 2.506 1915.6 478.9 ( 4 0.3) 1915.6 NEON fadd.2d (64bit x2) ns4 : 2.387 2010.7 502.7 ( 4 0.3) 2010.7 NEON fmla.2d (64bit x2) ns4 : 4.774 2010.9 251.4 ( 8 0.1) 2010.9 FPU fmul (64bit x1) n1 : 1.910 1256.8 628.4 ( 2 0.3) 1256.8 FPU fadd (64bit x1) n1 : 0.958 2506.3 1253.2 ( 2 0.7) 2506.3 FPU fmadd (64bit x1) n1 : 18.637 257.6 64.4 ( 4 0.0) 257.6 NEON fmul.2d (64bit x2) n1 : 1.291 3717.5 929.4 ( 4 0.5) 3717.5 NEON fadd.2d (64bit x2) n1 : 0.978 4907.0 1226.8 ( 4 0.7) 4907.0 NEON fmla.2d (64bit x2) n1 : 3.693 2599.4 324.9 ( 8 0.2) 2599.4 NEON fmul.2d (64bit x2) n12 : 1.153 6242.9 1560.7 ( 4 0.9) 6242.9 NEON fadd.2d (64bit x2) n12 : 1.078 6681.3 1670.3 ( 4 0.9) 6681.3 NEON fmla.2d (64bit x2) n12 : 1.004 14343.6 1793.0 ( 8 1.0) 14343.6 Average : 2.340 4425.3 1184.8 ( 4 0.6) 4425.3 Highest : 0.369 14343.6 3252.0 ( 8 1.8) 14343.6 * Matrix 4x4 multi-thread TIME(s) MFLOPS MOPS FOP IPC max MFLOPS C++ code : 0.301 11897.1 5948.5 ( 2 3.3) 11897.1 NEON fmla.4s 128bit A : 0.264 13562.0 6781.0 ( 2 3.7) 13562.0 NEON fmla.4s 128bit B : 0.265 13537.8 6768.9 ( 2 3.7) 13537.8 Average : 0.277 12998.9 6499.5 ( 2 3.6) 12998.9 Highest : 0.264 13562.0 6781.0 ( 2 3.7) 13562.0 cpu0 1440000 384000 cpu1 1440000 384000 cpu2 1440000 384000 cpu3 1440000 384000 cpu4 1824000 384000 cpu5 1824000 384000 processor : 0 Features : fp asimd evtstrm aes pmull sha1 sha2 crc32 CPU implementer : 0x41 CPU architecture: 8 CPU variant : 0x0 CPU part : 0xd03 CPU revision : 3 processor : 1 Features : fp asimd evtstrm aes pmull sha1 sha2 crc32 CPU implementer : 0x41 CPU architecture: 8 CPU variant : 0x0 CPU part : 0xd03 CPU revision : 3 processor : 2 Features : fp asimd evtstrm aes pmull sha1 sha2 crc32 CPU implementer : 0x41 CPU architecture: 8 CPU variant : 0x0 CPU part : 0xd03 CPU revision : 3 processor : 3 Features : fp asimd evtstrm aes pmull sha1 sha2 crc32 CPU implementer : 0x41 CPU architecture: 8 CPU variant : 0x0 CPU part : 0xd03 CPU revision : 3 processor : 4 Features : fp asimd evtstrm aes pmull sha1 sha2 crc32 CPU implementer : 0x41 CPU architecture: 8 CPU variant : 0x1 CPU part : 0xd07 CPU revision : 2 processor : 5 Features : fp asimd evtstrm aes pmull sha1 sha2 crc32 CPU implementer : 0x41 CPU architecture: 8 CPU variant : 0x1 CPU part : 0xd07 CPU revision : 2 Hardware : Qualcomm Technologies, Inc MSM8992 Qualcomm Technologies, Inc MSM8992 2019/01/05 13:57:49
Galxy S6 Edge Exynos 7420 big core 2.1GHz x4 ARM64 (AArch64) android 7.0
ARCH: ARMv8A 3 FPU: AArch64 NEON SingleT SP max: 16.778 GFLOPS SingleT DP max: 8.388 GFLOPS MultiT SP max: 55.438 GFLOPS MultiT DP max: 27.250 GFLOPS CPU core: 4 FPHP : no SIMDHP: no * FPU/NEON (single fp) TIME(s) MFLOPS MOPS FOP IPC max MFLOPS FPU fmul (32bit x1) n8 : 0.340 3533.9 3533.9 ( 1 1.7) 3533.9 FPU fadd (32bit x1) n8 : 0.286 4194.1 4194.1 ( 1 2.0) 4194.1 FPU fmadd (32bit x1) n8 : 0.715 3354.3 1677.2 ( 2 0.8) 3354.3 NEON fmul.2s (32bit x2) n8 : 0.286 8388.9 4194.5 ( 2 2.0) 8388.9 NEON fadd.2s (32bit x2) n8 : 0.287 8369.3 4184.6 ( 2 2.0) 8369.3 NEON fmla.2s (32bit x2) n8 : 0.286 16763.4 4190.9 ( 4 2.0) 16763.4 NEON fmul.4s (32bit x4) n8 : 0.572 8386.8 2096.7 ( 4 1.0) 8386.8 NEON fadd.4s (32bit x4) n8 : 0.572 8385.2 2096.3 ( 4 1.0) 8385.2 NEON fmla.4s (32bit x4) n8 : 0.716 13415.9 1677.0 ( 8 0.8) 13415.9 FPU fmul (32bit x1) ns4 : 0.858 1398.0 1398.0 ( 1 0.7) 1398.0 FPU fadd (32bit x1) ns4 : 0.715 1677.6 1677.6 ( 1 0.8) 1677.6 FPU fmadd (32bit x1) ns4 : 0.715 3355.3 1677.6 ( 2 0.8) 3355.3 NEON fmul.2s (32bit x2) ns4 : 0.860 2791.5 1395.7 ( 2 0.7) 2791.5 NEON fadd.2s (32bit x2) ns4 : 0.715 3355.3 1677.7 ( 2 0.8) 3355.3 NEON fmla.2s (32bit x2) ns4 : 1.430 3355.5 838.9 ( 4 0.4) 3355.5 NEON fmul.4s (32bit x4) ns4 : 0.859 5590.9 1397.7 ( 4 0.7) 5590.9 NEON fadd.4s (32bit x4) ns4 : 0.717 6693.0 1673.3 ( 4 0.8) 6693.0 NEON fmla.4s (32bit x4) ns4 : 1.431 6710.8 838.9 ( 8 0.4) 6710.8 FPU fmul (32bit x1) n1 : 0.572 2096.9 2096.9 ( 1 1.0) 2096.9 FPU fadd (32bit x1) n1 : 0.286 4194.7 4194.7 ( 1 2.0) 4194.7 FPU fmadd (32bit x1) n1 : 5.726 419.2 209.6 ( 2 0.1) 419.2 NEON fmul.2s (32bit x2) n1 : 0.572 4194.1 2097.0 ( 2 1.0) 4194.1 NEON fadd.2s (32bit x2) n1 : 0.286 8388.0 4194.0 ( 2 2.0) 8388.0 NEON fmla.2s (32bit x2) n1 : 2.289 2097.0 524.3 ( 4 0.2) 2097.0 NEON fmul.4s (32bit x4) n1 : 0.572 8388.7 2097.2 ( 4 1.0) 8388.7 NEON fadd.4s (32bit x4) n1 : 0.572 8389.4 2097.3 ( 4 1.0) 8389.4 NEON fmla.4s (32bit x4) n1 : 2.291 4190.6 523.8 ( 8 0.2) 4190.6 NEON fmul.4s (32bit x4) n12 : 0.858 8388.7 2097.2 ( 4 1.0) 8388.7 NEON fadd.4s (32bit x4) n12 : 0.858 8388.3 2097.1 ( 4 1.0) 8388.3 NEON fmla.4s (32bit x4) n12 : 0.858 16777.6 2097.2 ( 8 1.0) 16777.6 Average : 0.937 6187.8 2158.2 ( 3 1.0) 6187.8 Highest : 0.286 16777.6 4194.7 ( 8 2.0) 16777.6 * FPU/NEON (double fp) TIME(s) MFLOPS MOPS FOP IPC max MFLOPS FPU fmul (64bit x1) n8 : 0.335 3587.3 3587.3 ( 1 1.7) 3587.3 FPU fadd (64bit x1) n8 : 0.286 4193.3 4193.3 ( 1 2.0) 4193.3 FPU fmadd (64bit x1) n8 : 0.715 3355.4 1677.7 ( 2 0.8) 3355.4 NEON fmul.2d (64bit x2) n8 : 0.572 4192.1 2096.1 ( 2 1.0) 4192.1 NEON fadd.2d (64bit x2) n8 : 0.572 4194.5 2097.2 ( 2 1.0) 4194.5 NEON fmla.2d (64bit x2) n8 : 0.715 6711.2 1677.8 ( 4 0.8) 6711.2 FPU fmul (64bit x1) ns4 : 0.858 1398.2 1398.2 ( 1 0.7) 1398.2 FPU fadd (64bit x1) ns4 : 0.715 1677.8 1677.8 ( 1 0.8) 1677.8 FPU fmadd (64bit x1) ns4 : 0.715 3355.2 1677.6 ( 2 0.8) 3355.2 NEON fmul.2d (64bit x2) ns4 : 0.858 2796.0 1398.0 ( 2 0.7) 2796.0 NEON fadd.2d (64bit x2) ns4 : 0.715 3354.9 1677.5 ( 2 0.8) 3354.9 NEON fmla.2d (64bit x2) ns4 : 1.431 3355.3 838.8 ( 4 0.4) 3355.3 FPU fmul (64bit x1) n1 : 0.572 2097.2 2097.2 ( 1 1.0) 2097.2 FPU fadd (64bit x1) n1 : 0.286 4193.1 4193.1 ( 1 2.0) 4193.1 FPU fmadd (64bit x1) n1 : 5.722 419.4 209.7 ( 2 0.1) 419.4 NEON fmul.2d (64bit x2) n1 : 0.572 4194.4 2097.2 ( 2 1.0) 4194.4 NEON fadd.2d (64bit x2) n1 : 0.572 4194.7 2097.3 ( 2 1.0) 4194.7 NEON fmla.2d (64bit x2) n1 : 2.289 2096.8 524.2 ( 4 0.2) 2096.8 NEON fmul.2d (64bit x2) n12 : 0.858 4194.4 2097.2 ( 2 1.0) 4194.4 NEON fadd.2d (64bit x2) n12 : 0.858 4193.7 2096.9 ( 2 1.0) 4193.7 NEON fmla.2d (64bit x2) n12 : 0.858 8388.0 2097.0 ( 4 1.0) 8388.0 Average : 1.004 3625.9 1976.5 ( 2 0.9) 3625.9 Highest : 0.286 8388.0 4193.3 ( 4 2.0) 8388.0 * Matrix 4x4 TIME(s) MFLOPS MOPS FOP IPC max MFLOPS C++ code : 0.286 6269.2 6269.2 ( 1 3.0) 6269.2 NEON fmla.4s 128bit A : 0.228 7871.7 7871.7 ( 1 3.7) 7871.7 NEON fmla.4s 128bit B : 0.229 7816.2 7816.2 ( 1 3.7) 7816.2 Average : 0.248 7319.0 7319.0 ( 1 3.5) 7319.0 Highest : 0.228 7871.7 7871.7 ( 1 3.7) 7871.7 * FPU/NEON (single fp) multi-thread TIME(s) MFLOPS MOPS FOP IPC max MFLOPS FPU fmul (32bit x1) n8 : 0.304 15810.0 3952.5 ( 4 1.9) 15810.0 FPU fadd (32bit x1) n8 : 0.286 16774.7 4193.7 ( 4 2.0) 16774.7 FPU fmadd (32bit x1) n8 : 0.715 13420.8 1677.6 ( 8 0.8) 13420.8 NEON fmul.2s (32bit x2) n8 : 0.314 30555.7 3819.5 ( 8 1.8) 30555.7 NEON fadd.2s (32bit x2) n8 : 0.323 29696.3 3712.0 ( 8 1.8) 29696.3 NEON fmla.2s (32bit x2) n8 : 0.346 55438.5 3464.9 ( 16 1.6) 55438.5 NEON fmul.4s (32bit x4) n8 : 0.639 30039.6 1877.5 ( 16 0.9) 30039.6 NEON fadd.4s (32bit x4) n8 : 0.656 29253.4 1828.3 ( 16 0.9) 29253.4 NEON fmla.4s (32bit x4) n8 : 0.855 44924.4 1403.9 ( 32 0.7) 44924.4 FPU fmul (32bit x1) ns4 : 0.890 5393.0 1348.3 ( 4 0.6) 5393.0 FPU fadd (32bit x1) ns4 : 0.773 6205.6 1551.4 ( 4 0.7) 6205.6 FPU fmadd (32bit x1) ns4 : 0.812 11825.2 1478.2 ( 8 0.7) 11825.2 NEON fmul.2s (32bit x2) ns4 : 0.946 10144.7 1268.1 ( 8 0.6) 10144.7 NEON fadd.2s (32bit x2) ns4 : 0.833 11518.6 1439.8 ( 8 0.7) 11518.6 NEON fmla.2s (32bit x2) ns4 : 1.551 12379.1 773.7 ( 16 0.4) 12379.1 NEON fmul.4s (32bit x4) ns4 : 1.025 18730.8 1170.7 ( 16 0.6) 18730.8 NEON fadd.4s (32bit x4) ns4 : 0.872 22017.4 1376.1 ( 16 0.7) 22017.4 NEON fmla.4s (32bit x4) ns4 : 1.658 23165.3 723.9 ( 32 0.3) 23165.3 FPU fmul (32bit x1) n1 : 0.644 7454.8 1863.7 ( 4 0.9) 7454.8 FPU fadd (32bit x1) n1 : 0.337 14239.9 3560.0 ( 4 1.7) 14239.9 FPU fmadd (32bit x1) n1 : 5.746 1670.8 208.8 ( 8 0.1) 1670.8 NEON fmul.2s (32bit x2) n1 : 0.679 14131.9 1766.5 ( 8 0.8) 14131.9 NEON fadd.2s (32bit x2) n1 : 0.349 27469.7 3433.7 ( 8 1.6) 27469.7 NEON fmla.2s (32bit x2) n1 : 2.521 7614.9 475.9 ( 16 0.2) 7614.9 NEON fmul.4s (32bit x4) n1 : 0.700 27446.6 1715.4 ( 16 0.8) 27446.6 NEON fadd.4s (32bit x4) n1 : 0.699 27466.8 1716.7 ( 16 0.8) 27466.8 NEON fmla.4s (32bit x4) n1 : 2.643 14529.7 454.1 ( 32 0.2) 14529.7 NEON fmul.4s (32bit x4) n12 : 1.050 27420.1 1713.8 ( 16 0.8) 27420.1 NEON fadd.4s (32bit x4) n12 : 1.052 27381.3 1711.3 ( 16 0.8) 27381.3 NEON fmla.4s (32bit x4) n12 : 1.050 54853.9 1714.2 ( 32 0.8) 54853.9 Average : 1.042 21299.1 1913.1 ( 13 0.9) 21299.1 Highest : 0.286 55438.5 4193.7 ( 32 2.0) 55438.5 * FPU/NEON (double fp) multi-thread TIME(s) MFLOPS MOPS FOP IPC max MFLOPS FPU fmul (64bit x1) n8 : 0.357 13456.8 3364.2 ( 4 1.6) 13456.8 FPU fadd (64bit x1) n8 : 0.349 13749.9 3437.5 ( 4 1.6) 13749.9 FPU fmadd (64bit x1) n8 : 0.840 11431.5 1428.9 ( 8 0.7) 11431.5 NEON fmul.2d (64bit x2) n8 : 0.695 13806.7 1725.8 ( 8 0.8) 13806.7 NEON fadd.2d (64bit x2) n8 : 0.699 13736.3 1717.0 ( 8 0.8) 13736.3 NEON fmla.2d (64bit x2) n8 : 0.880 21827.8 1364.2 ( 16 0.6) 21827.8 FPU fmul (64bit x1) ns4 : 1.011 4745.7 1186.4 ( 4 0.6) 4745.7 FPU fadd (64bit x1) ns4 : 0.857 5602.9 1400.7 ( 4 0.7) 5602.9 FPU fmadd (64bit x1) ns4 : 0.873 10995.3 1374.4 ( 8 0.7) 10995.3 NEON fmul.2d (64bit x2) ns4 : 1.047 9172.5 1146.6 ( 8 0.5) 9172.5 NEON fadd.2d (64bit x2) ns4 : 0.876 10963.2 1370.4 ( 8 0.7) 10963.2 NEON fmla.2d (64bit x2) ns4 : 1.709 11237.5 702.3 ( 16 0.3) 11237.5 FPU fmul (64bit x1) n1 : 0.675 7108.3 1777.1 ( 4 0.8) 7108.3 FPU fadd (64bit x1) n1 : 0.351 13684.2 3421.1 ( 4 1.6) 13684.2 FPU fmadd (64bit x1) n1 : 6.018 1595.3 199.4 ( 8 0.1) 1595.3 NEON fmul.2d (64bit x2) n1 : 0.699 13731.6 1716.5 ( 8 0.8) 13731.6 NEON fadd.2d (64bit x2) n1 : 0.696 13799.6 1724.9 ( 8 0.8) 13799.6 NEON fmla.2d (64bit x2) n1 : 2.633 7291.0 455.7 ( 16 0.2) 7291.0 NEON fmul.2d (64bit x2) n12 : 1.050 13707.9 1713.5 ( 8 0.8) 13707.9 NEON fadd.2d (64bit x2) n12 : 1.052 13689.0 1711.1 ( 8 0.8) 13689.0 NEON fmla.2d (64bit x2) n12 : 1.057 27249.6 1703.1 ( 16 0.8) 27249.6 Average : 1.163 12027.7 1649.6 ( 8 0.8) 12027.7 Highest : 0.349 27249.6 3437.5 ( 16 1.6) 27249.6 * Matrix 4x4 multi-thread TIME(s) MFLOPS MOPS FOP IPC max MFLOPS C++ code : 0.293 24443.0 6110.7 ( 4 2.9) 24443.0 NEON fmla.4s 128bit A : 0.276 26001.3 6500.3 ( 4 3.1) 26001.3 NEON fmla.4s 128bit B : 0.277 25923.3 6480.8 ( 4 3.1) 25923.3 Average : 0.282 25455.9 6364.0 ( 4 3.0) 25455.9 Highest : 0.276 26001.3 6500.3 ( 4 3.1) 26001.3 cpu0 1500000 400000 cpu1 1500000 400000 cpu2 1500000 400000 cpu3 1500000 400000 cpu4 2100000 800000 cpu5 2100000 800000 cpu6 2100000 800000 cpu7 2100000 800000 Processor : AArch64 Processor rev 2 (aarch64) processor : 0 processor : 1 processor : 2 processor : 3 processor : 4 processor : 5 processor : 6 processor : 7 Features : fp asimd aes pmull sha1 sha2 crc32 CPU implementer : 0x41 CPU architecture: AArch64 CPU variant : 0x0 CPU part : 0xd03 CPU revision : 2 Hardware : SAMSUNG Exynos7420 SAMSUNG Exynos7420 2019/01/05 14:07:03
ARM Cortex-A72 (ARMv8A AArch64 arm64) FPU+NEON
Amazon Fire TV 2015 MT8173C Cortex-A72 2.0GHz (big.LITTLE 2+2) ARM64 (AArch64)
Amazon Fire TV 2015 MT8173C Cortex-A72 2.0GHz (big.LITTLE 2+2) ARM64 (AArch64) ARCH: ARMv8A CPU core: 2 VFP: AArch64 NEON FMA: Yes NEON: Yes Result SingleT SP max: 15.864 GFLOPS SingleT DP max: 7.934 GFLOPS MultiT SP max: 31.771 GFLOPS MultiT DP max: 15.885 GFLOPS * VFP/NEON (単精度 fp) single-thread FPU fmul (32bit x1) n8 : 0.361 3323.2 3323.2 FPU fadd (32bit x1) n8 : 0.304 3944.8 3944.8 FPU fmadd (32bit x1) n8 : 0.529 4540.3 4540.3 NEON fmul.2s (32bit x2) n8 : 0.302 7945.5 7945.5 NEON fadd.2s (32bit x2) n8 : 0.302 7946.8 7946.8 NEON fmla.2s (32bit x2) n8 : 0.337 14226.5 14226.5 NEON fmul.4s (32bit x4) n8 : 0.640 7494.2 7494.2 NEON fadd.4s (32bit x4) n8 : 0.605 7935.8 7935.8 NEON fmla.4s (32bit x4) n8 : 0.605 15864.0 15864.0 FPU fmul (32bit x1) ns4 : 0.606 1980.7 1980.7 FPU fadd (32bit x1) ns4 : 0.605 1983.1 1983.1 FPU fmadd (32bit x1) ns4 : 0.529 4532.6 4532.6 NEON fmul.2s (32bit x2) ns4 : 0.605 3970.1 3970.1 NEON fadd.2s (32bit x2) ns4 : 0.604 3973.2 3973.2 NEON fmla.2s (32bit x2) ns4 : 1.121 4281.2 4281.2 NEON fmul.4s (32bit x4) ns4 : 0.613 7833.2 7833.2 NEON fadd.4s (32bit x4) ns4 : 0.605 7935.8 7935.8 NEON fmla.4s (32bit x4) ns4 : 1.059 9068.9 9068.9 FPU fmul (32bit x1) n1 : 0.302 3973.1 3973.1 FPU fadd (32bit x1) n1 : 0.302 3973.4 3973.4 FPU fmadd (32bit x1) n1 : 4.306 557.4 557.4 NEON fmul.2s (32bit x2) n1 : 0.303 7928.3 7928.3 NEON fadd.2s (32bit x2) n1 : 0.303 7928.5 7928.5 NEON fmla.2s (32bit x2) n1 : 1.812 2648.4 2648.4 NEON fmul.4s (32bit x4) n1 : 0.659 7283.7 7283.7 NEON fadd.4s (32bit x4) n1 : 0.604 7947.2 7947.2 NEON fmla.4s (32bit x4) n1 : 1.816 5286.0 5286.0 NEON fmul.4s (32bit x4) n12 : 0.908 7931.7 7931.7 NEON fadd.4s (32bit x4) n12 : 0.908 7933.0 7933.0 NEON fmla.4s (32bit x4) n12 : 0.909 15844.6 15844.6 平均 : 0.782 6600.5 6600.5 最大 : 0.302 15864.0 15864.0 * VFP/NEON (倍精度 fp) single-thread FPU fmul (64bit x1) n8 : 0.335 3578.0 3578.0 FPU fadd (64bit x1) n8 : 0.303 3965.7 3965.7 FPU fmadd (64bit x1) n8 : 0.530 4530.0 4530.0 NEON fmul.2d (64bit x2) n8 : 0.608 3947.3 3947.3 NEON fadd.2d (64bit x2) n8 : 0.605 3967.7 3967.7 NEON fmla.2d (64bit x2) n8 : 0.605 7933.9 7933.9 FPU fmul (64bit x1) ns4 : 0.610 1967.8 1967.8 FPU fadd (64bit x1) ns4 : 0.605 1983.3 1983.3 FPU fmadd (64bit x1) ns4 : 0.529 4540.7 4540.7 NEON fmul.2d (64bit x2) ns4 : 0.604 3972.8 3972.8 NEON fadd.2d (64bit x2) ns4 : 0.604 3972.3 3972.3 NEON fmla.2d (64bit x2) ns4 : 1.128 4256.9 4256.9 FPU fmul (64bit x1) n1 : 0.302 3968.3 3968.3 FPU fadd (64bit x1) n1 : 0.303 3966.4 3966.4 FPU fmadd (64bit x1) n1 : 4.238 566.3 566.3 NEON fmul.2d (64bit x2) n1 : 0.605 3965.7 3965.7 NEON fadd.2d (64bit x2) n1 : 0.606 3958.0 3958.0 NEON fmla.2d (64bit x2) n1 : 1.816 2643.7 2643.7 NEON fmul.2d (64bit x2) n12 : 0.908 3963.9 3963.9 NEON fadd.2d (64bit x2) n12 : 0.909 3961.2 3961.2 NEON fmla.2d (64bit x2) n12 : 0.909 7920.5 7920.5 平均 : 0.841 3977.6 3977.6 最大 : 0.302 7933.9 7933.9 * Matrix 4x4 (単精度 fp) single-thread C++ code : 0.633 2831.2 2831.2 NEON fmla.4s 128bit A : 0.210 8547.9 8547.9 NEON fmla.4s 128bit B : 0.210 8540.5 8540.5 平均 : 0.351 6639.9 6639.9 最大 : 0.210 8547.9 8547.9 * VFP/NEON (単精度 fp) multi-thread FPU fmul (32bit x1) n8 : 0.361 6653.1 6653.1 FPU fadd (32bit x1) n8 : 0.302 7938.6 7938.6 FPU fmadd (32bit x1) n8 : 0.529 9076.1 9076.1 NEON fmul.2s (32bit x2) n8 : 0.302 15886.9 15886.9 NEON fadd.2s (32bit x2) n8 : 0.303 15861.0 15861.0 NEON fmla.2s (32bit x2) n8 : 0.302 31755.1 31755.1 NEON fmul.4s (32bit x4) n8 : 0.604 15886.1 15886.1 NEON fadd.4s (32bit x4) n8 : 0.605 15880.3 15880.3 NEON fmla.4s (32bit x4) n8 : 0.604 31770.7 31770.7 FPU fmul (32bit x1) ns4 : 0.604 3971.1 3971.1 FPU fadd (32bit x1) ns4 : 0.605 3969.3 3969.3 FPU fmadd (32bit x1) ns4 : 0.529 9076.0 9076.0 NEON fmul.2s (32bit x2) ns4 : 0.604 7941.7 7941.7 NEON fadd.2s (32bit x2) ns4 : 0.604 7943.3 7943.3 NEON fmla.2s (32bit x2) ns4 : 1.058 9075.9 9075.9 NEON fmul.4s (32bit x4) ns4 : 0.605 15869.9 15869.9 NEON fadd.4s (32bit x4) ns4 : 0.605 15876.8 15876.8 NEON fmla.4s (32bit x4) ns4 : 1.058 18154.1 18154.1 FPU fmul (32bit x1) n1 : 0.302 7943.5 7943.5 FPU fadd (32bit x1) n1 : 0.302 7942.7 7942.7 FPU fmadd (32bit x1) n1 : 4.231 1134.4 1134.4 NEON fmul.2s (32bit x2) n1 : 0.302 15883.4 15883.4 NEON fadd.2s (32bit x2) n1 : 0.302 15878.8 15878.8 NEON fmla.2s (32bit x2) n1 : 1.814 5291.5 5291.5 NEON fmul.4s (32bit x4) n1 : 0.605 15876.5 15876.5 NEON fadd.4s (32bit x4) n1 : 0.605 15877.6 15877.6 NEON fmla.4s (32bit x4) n1 : 1.814 10583.1 10583.1 NEON fmul.4s (32bit x4) n12 : 0.907 15871.9 15871.9 NEON fadd.4s (32bit x4) n12 : 0.907 15880.2 15880.2 NEON fmla.4s (32bit x4) n12 : 0.907 31768.8 31768.8 平均 : 0.773 13417.3 13417.3 最大 : 0.302 31770.7 31770.7 * VFP/NEON (倍精度 fp) multi-thread FPU fmul (64bit x1) n8 : 0.345 6948.8 6948.8 FPU fadd (64bit x1) n8 : 0.302 7942.3 7942.3 FPU fmadd (64bit x1) n8 : 0.529 9075.2 9075.2 NEON fmul.2d (64bit x2) n8 : 0.605 7939.6 7939.6 NEON fadd.2d (64bit x2) n8 : 0.605 7936.5 7936.5 NEON fmla.2d (64bit x2) n8 : 0.605 15880.8 15880.8 FPU fmul (64bit x1) ns4 : 0.604 3971.5 3971.5 FPU fadd (64bit x1) ns4 : 0.604 3971.6 3971.6 FPU fmadd (64bit x1) ns4 : 0.529 9077.7 9077.7 NEON fmul.2d (64bit x2) ns4 : 0.604 7943.0 7943.0 NEON fadd.2d (64bit x2) ns4 : 0.604 7942.9 7942.9 NEON fmla.2d (64bit x2) ns4 : 1.057 9078.1 9078.1 FPU fmul (64bit x1) n1 : 0.302 7944.1 7944.1 FPU fadd (64bit x1) n1 : 0.302 7942.5 7942.5 FPU fmadd (64bit x1) n1 : 4.230 1134.7 1134.7 NEON fmul.2d (64bit x2) n1 : 0.605 7940.2 7940.2 NEON fadd.2d (64bit x2) n1 : 0.605 7934.7 7934.7 NEON fmla.2d (64bit x2) n1 : 1.813 5294.7 5294.7 NEON fmul.2d (64bit x2) n12 : 0.907 7941.9 7941.9 NEON fadd.2d (64bit x2) n12 : 0.907 7941.3 7941.3 NEON fmla.2d (64bit x2) n12 : 0.906 15885.3 15885.3 平均 : 0.837 7984.2 7984.2 最大 : 0.302 15885.3 15885.3 * Matrix 4x4 (単精度 fp) multi-thread C++ code : 0.585 6122.0 6122.0 NEON fmla.4s 128bit A : 0.210 17101.4 17101.4 NEON fmla.4s 128bit B : 0.209 17123.9 17123.9 平均 : 0.335 13449.1 13449.1 最大 : 0.209 17123.9 17123.9
Desktop CPU
Intel Atom Bonnell (IA32 x86) SSSE3
Atom N270 Single core 1.6GHz (Diamondville / Bonnell)
Atom N270 Diamondville Bonnell Single Core (HT) 1.6GHz ARCH: x86 FPU: SSSE3 SingleT SP max: 7.597 GFLOPS SingleT DP max: 1.548 GFLOPS MultiT SP max: 9.277 GFLOPS MultiT DP max: 1.570 GFLOPS CPU core: 2 SSE: yes AVX: no FMA: no * SSE/AVX (single fp) SSE mulss (32bit x1) n8 : 2.525 1584.1 1584.1 SSE addss (32bit x1) n8 : 2.595 1541.4 1541.4 SSE mulps (32bit x4) n8 : 5.051 3167.9 3167.9 SSE addps (32bit x4) n8 : 2.596 6162.8 6162.8 SSE mul+addps (32bit x4) n8 : 2.522 6345.2 6345.2 SSE ml+ad+addps (32bit x4) n6 : 2.211 7596.9 7596.9 SSE mulss (32bit x1) ns4 : 2.525 1584.1 1584.1 SSE addss (32bit x1) ns4 : 3.152 1268.9 1268.9 SSE mulps (32bit x4) ns4 : 5.042 3173.4 3173.4 SSE addps (32bit x4) ns4 : 3.150 5078.6 5078.6 AVX vmulps (32bit x8) n8 : - - - AVX vaddps (32bit x8) n8 : - - - AVX vmul+addps (32bit x8) n8 : - - - AVX vml+ad+adps (32bit x8) n6 : - - - Average : 3.137 3750.3 3750.3 Highest : 2.211 7596.9 7596.9 * SSE/AVX (double fp) SSE2 mulsd (64bit x1) n8 : 5.048 792.4 792.4 SSE2 addsd (64bit x1) n8 : 2.583 1548.3 1548.3 SSE2 mulpd (64bit x2) n8 : 22.744 351.7 351.7 SSE2 addpd (64bit x2) n8 : 15.292 523.2 523.2 SSE2 mul+addpd (64bit x2) n8 : 16.451 486.3 486.3 SSE2 ml+ad+dpd (64bit x2) n6 : 16.833 499.0 499.0 SSE2 mulsd (64bit x1) ns4 : 5.039 793.8 793.8 SSE2 addsd (64bit x1) ns4 : 3.151 1269.6 1269.6 SSE2 mulpd (64bit x2) ns4 : 22.846 350.2 350.2 SSE2 addpd (64bit x2) ns4 : 15.186 526.8 526.8 AVX vmulpd (64bit x4) n8 : - - - AVX vaddpd (64bit x4) n8 : - - - AVX vmul+addpd (64bit x4) n8 : - - - AVX vml_ad_adpd (64bit x4) n6 : - - - Average : 12.517 714.1 714.1 Highest : 2.583 1548.3 1548.3 * Matrix 4x4 C++ code : 8.430 425.2 425.2 C++ Intrinsic SSE 128bit : 2.115 1694.6 1694.6 SSE mul/addps 128bit A : 2.645 1355.0 1355.0 AVX vmul/addps 256bit A : - - - Average : 4.397 1158.2 1158.2 Highest : 2.115 1694.6 1694.6 * SSE/AVX (single fp) multi-thread SSE mulss (32bit x1) n8 : 5.046 1585.4 1585.4 SSE addss (32bit x1) n8 : 5.157 1551.3 1551.3 SSE mulps (32bit x4) n8 : 10.022 3192.9 3192.9 SSE addps (32bit x4) n8 : 5.115 6255.7 6255.7 SSE mul+addps (32bit x4) n8 : 4.904 6525.5 6525.5 SSE ml+ad+addps (32bit x4) n6 : 3.622 9277.4 9277.4 SSE mulss (32bit x1) ns4 : 5.035 1588.8 1588.8 SSE addss (32bit x1) ns4 : 5.095 1570.2 1570.2 SSE mulps (32bit x4) ns4 : 9.917 3226.6 3226.6 SSE addps (32bit x4) ns4 : 5.036 6353.8 6353.8 AVX vmulps (32bit x8) n8 : - - - AVX vaddps (32bit x8) n8 : - - - AVX vmul+addps (32bit x8) n8 : - - - AVX vml+ad+adps (32bit x8) n6 : - - - Average : 5.895 4112.8 4112.8 Highest : 3.622 9277.4 9277.4 * SSE/AVX (double fp) multi-thread SSE2 mulsd (64bit x1) n8 : 10.063 795.0 795.0 SSE2 addsd (64bit x1) n8 : 5.163 1549.6 1549.6 SSE2 mulpd (64bit x2) n8 : 25.537 626.6 626.6 SSE2 addpd (64bit x2) n8 : 20.332 786.9 786.9 SSE2 mul+addpd (64bit x2) n8 : 22.887 699.1 699.1 SSE2 ml+ad+dpd (64bit x2) n6 : 23.068 728.3 728.3 SSE2 mulsd (64bit x1) ns4 : 9.970 802.4 802.4 SSE2 addsd (64bit x1) ns4 : 5.097 1569.6 1569.6 SSE2 mulpd (64bit x2) ns4 : 25.588 625.3 625.3 SSE2 addpd (64bit x2) ns4 : 20.311 787.7 787.7 AVX vmulpd (64bit x4) n8 : - - - AVX vaddpd (64bit x4) n8 : - - - AVX vmul+addpd (64bit x4) n8 : - - - AVX vml_ad_adpd (64bit x4) n6 : - - - Average : 16.802 897.0 897.0 Highest : 5.097 1569.6 1569.6 * Matrix 4x4 multi-thread C++ code : 9.700 738.9 738.9 C++ Intrinsic SSE 128bit : 2.291 3128.4 3128.4 SSE mul/addps 128bit A : 3.184 2251.6 2251.6 AVX vmul/addps 256bit A : - - - Average : 5.058 2039.7 2039.7 Highest : 2.291 3128.4 3128.4
Atom Z540 Single core 1.86GHz (Menlow / Bonnell)
Atom Z540 1.86GHz (Menlow / Bonnell) Single Core + HT ARCH: x86 FPU: SSSE3 SingleT SP max: 8.918 GFLOPS SingleT DP max: 1.810 GFLOPS MultiT SP max: 10.927 GFLOPS MultiT DP max: 1.852 GFLOPS CPU core: 2 SSE: yes AVX: no FMA: no * SSE/AVX (single fp) SSE mulss (32bit x1) n8 : 2.172 1841.3 1841.3 SSE addss (32bit x1) n8 : 2.207 1812.1 1812.1 SSE mulps (32bit x4) n8 : 4.307 3715.2 3715.2 SSE addps (32bit x4) n8 : 2.207 7248.1 7248.1 SSE mul+addps (32bit x4) n8 : 2.155 7424.2 7424.2 SSE ml+ad+addps (32bit x4) n6 : 1.884 8917.7 8917.7 SSE mulss (32bit x1) ns4 : 2.153 1857.6 1857.6 SSE addss (32bit x1) ns4 : 2.691 1486.4 1486.4 SSE mulps (32bit x4) ns4 : 4.308 3713.7 3713.7 SSE addps (32bit x4) ns4 : 2.692 5943.9 5943.9 AVX vmulps (32bit x8) n8 : - - - AVX vaddps (32bit x8) n8 : - - - AVX vmul+addps (32bit x8) n8 : - - - AVX vml+ad+adps (32bit x8) n6 : - - - Average : 2.678 4396.0 4396.0 Highest : 1.884 8917.7 8917.7 * SSE/AVX (double fp) SSE2 mulsd (64bit x1) n8 : 4.315 927.1 927.1 SSE2 addsd (64bit x1) n8 : 2.210 1810.3 1810.3 SSE2 mulpd (64bit x2) n8 : 19.438 411.6 411.6 SSE2 addpd (64bit x2) n8 : 13.020 614.4 614.4 SSE2 mul+addpd (64bit x2) n8 : 14.063 568.9 568.9 SSE2 ml+ad+dpd (64bit x2) n6 : 14.400 583.3 583.3 SSE2 mulsd (64bit x1) ns4 : 4.307 928.7 928.7 SSE2 addsd (64bit x1) ns4 : 2.693 1485.1 1485.1 SSE2 mulpd (64bit x2) ns4 : 19.450 411.3 411.3 SSE2 addpd (64bit x2) ns4 : 13.043 613.3 613.3 AVX vmulpd (64bit x4) n8 : - - - AVX vaddpd (64bit x4) n8 : - - - AVX vmul+addpd (64bit x4) n8 : - - - AVX vml_ad_adpd (64bit x4) n6 : - - - Average : 10.694 835.4 835.4 Highest : 2.210 1810.3 1810.3 * Matrix 4x4 C++ code : 7.229 495.7 495.7 C++ Intrinsic SSE 128bit : 1.807 1983.7 1983.7 SSE mul/addps 128bit A : 2.268 1580.3 1580.3 AVX vmul/addps 256bit A : - - - Average : 3.768 1353.2 1353.2 Highest : 1.807 1983.7 1983.7 * SSE/AVX (single fp) multi-thread SSE mulss (32bit x1) n8 : 4.302 1859.5 1859.5 SSE addss (32bit x1) n8 : 4.378 1827.1 1827.1 SSE mulps (32bit x4) n8 : 8.517 3757.4 3757.4 SSE addps (32bit x4) n8 : 4.357 7344.3 7344.3 SSE mul+addps (32bit x4) n8 : 4.184 7648.2 7648.2 SSE ml+ad+addps (32bit x4) n6 : 3.075 10926.6 10926.6 SSE mulss (32bit x1) ns4 : 4.281 1868.6 1868.6 SSE addss (32bit x1) ns4 : 4.284 1867.4 1867.4 SSE mulps (32bit x4) ns4 : 8.273 3867.9 3867.9 SSE addps (32bit x4) ns4 : 4.180 7655.5 7655.5 AVX vmulps (32bit x8) n8 : - - - AVX vaddps (32bit x8) n8 : - - - AVX vmul+addps (32bit x8) n8 : - - - AVX vml+ad+adps (32bit x8) n6 : - - - Average : 4.983 4862.3 4862.3 Highest : 3.075 10926.6 10926.6 * SSE/AVX (double fp) multi-thread SSE2 mulsd (64bit x1) n8 : 8.597 930.6 930.6 SSE2 addsd (64bit x1) n8 : 4.382 1825.6 1825.6 SSE2 mulpd (64bit x2) n8 : 21.832 732.9 732.9 SSE2 addpd (64bit x2) n8 : 17.394 919.9 919.9 SSE2 mul+addpd (64bit x2) n8 : 19.559 818.0 818.0 SSE2 ml+ad+dpd (64bit x2) n6 : 19.723 851.8 851.8 SSE2 mulsd (64bit x1) ns4 : 8.418 950.3 950.3 SSE2 addsd (64bit x1) ns4 : 4.319 1852.3 1852.3 SSE2 mulpd (64bit x2) ns4 : 21.811 733.6 733.6 SSE2 addpd (64bit x2) ns4 : 17.341 922.7 922.7 AVX vmulpd (64bit x4) n8 : - - - AVX vaddpd (64bit x4) n8 : - - - AVX vmul+addpd (64bit x4) n8 : - - - AVX vml_ad_adpd (64bit x4) n6 : - - - Average : 14.338 1053.8 1053.8 Highest : 4.319 1852.3 1852.3 * Matrix 4x4 multi-thread C++ code : 8.284 865.3 865.3 C++ Intrinsic SSE 128bit : 1.967 3645.0 3645.0 SSE mul/addps 128bit A : 2.719 2636.1 2636.1 AVX vmul/addps 256bit A : - - - Average : 4.323 2382.1 2382.1 Highest : 1.967 3645.0 3645.0
Intel Atom Silvermont (AMD64 x86_64 x64) SSE4.2
Atom J1900 Quad core 2.0GHz (BayTrail-D / Silvermont)
Atom J1900 BayTrail-D Silvermont x4 core 2.0GHz (TB:2.41GHz) Ubuntu 14.04 x64 ARCH: x64 FPU: SSSE3 SSE4.1 SSE4.2 SingleT SP max: 14.477 GFLOPS SingleT DP max: 3.619 GFLOPS MultiT SP max: 57.902 GFLOPS MultiT DP max: 14.471 GFLOPS CPU core: 4 SSE: yes AVX: no FMA: no * SSE/AVX (single fp) SSE mulss (32bit x1) n8 : 1.663 2405.9 2405.9 SSE addss (32bit x1) n8 : 1.658 2412.7 2412.7 SSE mulps (32bit x4) n8 : 3.316 4825.5 4825.5 SSE addps (32bit x4) n8 : 1.658 9651.1 9651.1 SSE mul+addps (32bit x4) n8 : 1.658 9650.1 9650.1 SSE ml+ad+addps (32bit x4) n6 : 1.243 14476.9 14476.9 SSE mulss (32bit x1) ns4 : 1.658 2412.9 2412.9 SSE addss (32bit x1) ns4 : 1.658 2412.9 2412.9 SSE mulps (32bit x4) ns4 : 3.316 4825.4 4825.4 SSE addps (32bit x4) ns4 : 1.658 9651.7 9651.7 AVX vmulps (32bit x8) n8 : - - - AVX vaddps (32bit x8) n8 : - - - AVX vmul+addps (32bit x8) n8 : - - - AVX vml+ad+adps (32bit x8) n6 : - - - Average : 1.948 6272.5 6272.5 Highest : 1.243 14476.9 14476.9 * SSE/AVX (double fp) SSE2 mulsd (64bit x1) n8 : 3.318 1205.7 1205.7 SSE2 addsd (64bit x1) n8 : 1.658 2412.9 2412.9 SSE2 mulpd (64bit x2) n8 : 6.631 1206.5 1206.5 SSE2 addpd (64bit x2) n8 : 3.316 2412.9 2412.9 SSE2 mul+addpd (64bit x2) n8 : 3.316 2412.7 2412.7 SSE2 ml+ad+dpd (64bit x2) n6 : 2.487 3619.2 3619.2 SSE2 mulsd (64bit x1) ns4 : 3.316 1206.4 1206.4 SSE2 addsd (64bit x1) ns4 : 1.658 2412.9 2412.9 SSE2 mulpd (64bit x2) ns4 : 6.631 1206.4 1206.4 SSE2 addpd (64bit x2) ns4 : 3.315 2412.9 2412.9 AVX vmulpd (64bit x4) n8 : - - - AVX vaddpd (64bit x4) n8 : - - - AVX vmul+addpd (64bit x4) n8 : - - - AVX vml_ad_adpd (64bit x4) n6 : - - - Average : 3.564 2050.9 2050.9 Highest : 1.658 3619.2 3619.2 * Matrix 4x4 C++ code : 3.754 954.7 954.7 C++ Intrinsic SSE 128bit : 0.511 7019.5 7019.5 SSE mul/addps 128bit A : 0.955 3752.6 3752.6 AVX vmul/addps 256bit A : - - - Average : 1.740 3908.9 3908.9 Highest : 0.511 7019.5 7019.5 * SSE/AVX (single fp) multi-thread SSE mulss (32bit x1) n8 : 1.667 9600.8 9600.8 SSE addss (32bit x1) n8 : 1.660 9639.2 9639.2 SSE mulps (32bit x4) n8 : 3.318 19289.8 19289.8 SSE addps (32bit x4) n8 : 1.660 38543.8 38543.8 SSE mul+addps (32bit x4) n8 : 1.659 38581.5 38581.5 SSE ml+ad+addps (32bit x4) n6 : 1.243 57901.7 57901.7 SSE mulss (32bit x1) ns4 : 1.658 9650.5 9650.5 SSE addss (32bit x1) ns4 : 1.658 9649.9 9649.9 SSE mulps (32bit x4) ns4 : 3.320 19276.3 19276.3 SSE addps (32bit x4) ns4 : 1.659 38581.7 38581.7 AVX vmulps (32bit x8) n8 : - - - AVX vaddps (32bit x8) n8 : - - - AVX vmul+addps (32bit x8) n8 : - - - AVX vml+ad+adps (32bit x8) n6 : - - - Average : 1.950 25071.5 25071.5 Highest : 1.243 57901.7 57901.7 * SSE/AVX (double fp) multi-thread SSE2 mulsd (64bit x1) n8 : 3.325 4812.5 4812.5 SSE2 addsd (64bit x1) n8 : 1.658 9649.5 9649.5 SSE2 mulpd (64bit x2) n8 : 6.635 4823.0 4823.0 SSE2 addpd (64bit x2) n8 : 3.323 9628.9 9628.9 SSE2 mul+addpd (64bit x2) n8 : 3.321 9635.9 9635.9 SSE2 ml+ad+dpd (64bit x2) n6 : 2.488 14471.5 14471.5 SSE2 mulsd (64bit x1) ns4 : 3.316 4825.4 4825.4 SSE2 addsd (64bit x1) ns4 : 1.662 9624.5 9624.5 SSE2 mulpd (64bit x2) ns4 : 6.632 4825.1 4825.1 SSE2 addpd (64bit x2) ns4 : 3.317 9647.6 9647.6 AVX vmulpd (64bit x4) n8 : - - - AVX vaddpd (64bit x4) n8 : - - - AVX vmul+addpd (64bit x4) n8 : - - - AVX vml_ad_adpd (64bit x4) n6 : - - - Average : 3.568 8194.4 8194.4 Highest : 1.658 14471.5 14471.5 * Matrix 4x4 multi-thread C++ code : 3.758 3814.3 3814.3 C++ Intrinsic SSE 128bit : 0.511 28065.3 28065.3 SSE mul/addps 128bit A : 0.955 15009.6 15009.6 AVX vmul/addps 256bit A : - - - Average : 1.741 15629.7 15629.7 Highest : 0.511 28065.3 28065.3
AMD Jaguar (AMD64 x86_64 x64) SSE4.2/AVX1
Athlon 5350 Quad core 2.0GHz (Kabini / Jaguar)
AMD Athlon 5350 Jaguar x4 core 2.0GHz Ubuntu 14.04 x64 DDR3-1333 8GB ARCH: x64 FPU: SSSE3 SSE4.1 SSE4.2 AVX SingleT SP max: 15.943 GFLOPS SingleT DP max: 6.127 GFLOPS MultiT SP max: 63.737 GFLOPS MultiT DP max: 24.504 GFLOPS CPU core: 4 SSE: yes AVX: yes FMA: no * SSE/AVX (single fp) SSE mulss (32bit x1) n8 : 1.966 2034.4 2034.4 SSE addss (32bit x1) n8 : 1.959 2042.1 2042.1 SSE mulps (32bit x4) n8 : 1.959 8167.9 8167.9 SSE addps (32bit x4) n8 : 1.959 8167.7 8167.7 SSE mul+addps (32bit x4) n8 : 1.077 14853.1 14853.1 SSE ml+ad+addps (32bit x4) n6 : 1.469 12253.5 12253.5 SSE mulss (32bit x1) ns4 : 1.959 2042.2 2042.2 SSE addss (32bit x1) ns4 : 1.959 2042.2 2042.2 SSE mulps (32bit x4) ns4 : 1.959 8169.3 8169.3 SSE addps (32bit x4) ns4 : 1.959 8169.0 8169.0 AVX vmulps (32bit x8) n8 : 3.916 8170.7 8170.7 AVX vaddps (32bit x8) n8 : 3.916 8170.6 8170.6 AVX vmul+addps (32bit x8) n8 : 2.007 15942.6 15942.6 AVX vml+ad+adps (32bit x8) n6 : 3.182 11312.6 11312.6 Average : 2.232 7967.0 7967.0 Highest : 1.077 15942.6 15942.6 * SSE/AVX (double fp) SSE2 mulsd (64bit x1) n8 : 3.927 1018.7 1018.7 SSE2 addsd (64bit x1) n8 : 1.959 2041.7 2041.7 SSE2 mulpd (64bit x2) n8 : 3.918 2041.8 2041.8 SSE2 addpd (64bit x2) n8 : 1.959 4084.2 4084.2 SSE2 mul+addpd (64bit x2) n8 : 1.959 4084.6 4084.6 SSE2 ml+ad+dpd (64bit x2) n6 : 1.469 6126.9 6126.9 SSE2 mulsd (64bit x1) ns4 : 3.916 1021.3 1021.3 SSE2 addsd (64bit x1) ns4 : 1.958 2042.7 2042.7 SSE2 mulpd (64bit x2) ns4 : 3.916 2042.7 2042.7 SSE2 addpd (64bit x2) ns4 : 1.958 4085.2 4085.2 AVX vmulpd (64bit x4) n8 : 7.833 2042.6 2042.6 AVX vaddpd (64bit x4) n8 : 3.917 4085.2 4085.2 AVX vmul+addpd (64bit x4) n8 : 3.917 4084.7 4084.7 AVX vml_ad_adpd (64bit x4) n6 : 2.938 6126.9 6126.9 Average : 3.253 3209.2 3209.2 Highest : 1.469 6126.9 6126.9 * Matrix 4x4 C++ code : 2.173 1649.2 1649.2 C++ Intrinsic SSE 128bit : 0.422 8490.2 8490.2 SSE mul/addps 128bit A : 0.680 5267.7 5267.7 AVX vmul/addps 256bit A : 0.659 5436.1 5436.1 Average : 0.984 5210.8 5210.8 Highest : 0.422 8490.2 8490.2 * SSE/AVX (single fp) multi-thread SSE mulss (32bit x1) n8 : 1.970 8122.6 8122.6 SSE addss (32bit x1) n8 : 1.962 8154.5 8154.5 SSE mulps (32bit x4) n8 : 1.961 32637.9 32637.9 SSE addps (32bit x4) n8 : 1.965 32577.0 32577.0 SSE mul+addps (32bit x4) n8 : 1.077 59405.4 59405.4 SSE ml+ad+addps (32bit x4) n6 : 1.469 49002.4 49002.4 SSE mulss (32bit x1) ns4 : 1.959 8168.4 8168.4 SSE addss (32bit x1) ns4 : 1.959 8168.3 8168.3 SSE mulps (32bit x4) ns4 : 1.959 32661.5 32661.5 SSE addps (32bit x4) ns4 : 1.958 32678.9 32678.9 AVX vmulps (32bit x8) n8 : 3.917 32676.7 32676.7 AVX vaddps (32bit x8) n8 : 3.917 32675.2 32675.2 AVX vmul+addps (32bit x8) n8 : 2.008 63737.0 63737.0 AVX vml+ad+adps (32bit x8) n6 : 3.183 45245.7 45245.7 Average : 2.233 31850.8 31850.8 Highest : 1.077 63737.0 63737.0 * SSE/AVX (double fp) multi-thread SSE2 mulsd (64bit x1) n8 : 3.933 4068.3 4068.3 SSE2 addsd (64bit x1) n8 : 1.965 8141.6 8141.6 SSE2 mulpd (64bit x2) n8 : 3.923 8156.8 8156.8 SSE2 addpd (64bit x2) n8 : 1.961 16321.3 16321.3 SSE2 mul+addpd (64bit x2) n8 : 1.960 16326.8 16326.8 SSE2 ml+ad+dpd (64bit x2) n6 : 1.469 24503.9 24503.9 SSE2 mulsd (64bit x1) ns4 : 3.921 4081.0 4081.0 SSE2 addsd (64bit x1) ns4 : 1.959 8165.4 8165.4 SSE2 mulpd (64bit x2) ns4 : 3.918 8167.9 8167.9 SSE2 addpd (64bit x2) ns4 : 1.959 16338.4 16338.4 AVX vmulpd (64bit x4) n8 : 7.834 8169.1 8169.1 AVX vaddpd (64bit x4) n8 : 3.921 16320.9 16320.9 AVX vmul+addpd (64bit x4) n8 : 3.917 16337.4 16337.4 AVX vml_ad_adpd (64bit x4) n6 : 2.939 24499.8 24499.8 Average : 3.256 12828.5 12828.5 Highest : 1.469 24503.9 24503.9 * Matrix 4x4 multi-thread C++ code : 2.179 6578.2 6578.2 C++ Intrinsic SSE 128bit : 0.423 33902.8 33902.8 SSE mul/addps 128bit A : 0.681 21057.2 21057.2 AVX vmul/addps 256bit A : 0.660 21717.4 21717.4 Average : 0.986 20813.9 20813.9 Highest : 0.423 33902.8 33902.8
Intel Atom Airmont (AMD64 x86_64 x64) SSE4.2
Atom N3150 Quad core 1.6GHz (Braswell/Airmont)
Atom Celeron N3150 Braswell Airmont x4 core 1.6GHz (TB:2.0GHz) Ubuntu 15.04 x64 ARCH: x64 FPU: SSSE3 SSE4.1 SSE4.2 SingleT SP max: 12.468 GFLOPS SingleT DP max: 3.117 GFLOPS MultiT SP max: 49.679 GFLOPS MultiT DP max: 12.469 GFLOPS CPU core: 4 SSE: yes AVX: no FMA: no * SSE/AVX (single fp) SSE mulss (32bit x1) n8 : 0.758 1584.1 1584.1 SSE addss (32bit x1) n8 : 0.577 2078.0 2078.0 FMA vfmaddss (32bit x1) n8 : - - - SSE mulps (32bit x4) n8 : 1.155 4155.5 4155.5 SSE addps (32bit x4) n8 : 0.578 8311.2 8311.2 SSE mul+addps (32bit x4) n8 : 0.577 8311.8 8311.8 FMA vfmaddss (32bit x4) n8 : - - - SSE ml+ad+addps (32bit x4) n6 : 0.433 12468.3 12468.3 SSE mulss (32bit x1) ns4 : 0.577 2078.0 2078.0 SSE addss (32bit x1) ns4 : 0.578 2077.1 2077.1 SSE mulps (32bit x4) ns4 : 1.155 4156.0 4156.0 SSE addps (32bit x4) ns4 : 0.578 8309.7 8309.7 AVX vmulps (32bit x8) n8 : - - - AVX vaddps (32bit x8) n8 : - - - AVX vmul+addps (32bit x8) n8 : - - - FMA vfmaddps (32bit x8) n8 : - - - AVX vml+ad+adps (32bit x8) n6 : - - - Average : 0.697 5353.0 5353.0 Highest : 0.433 12468.3 12468.3 * SSE/AVX (double fp) SSE2 mulsd (64bit x1) n8 : 1.198 1001.4 1001.4 SSE2 addsd (64bit x1) n8 : 0.578 2077.9 2077.9 FMA vfmaddsd (64bit x1) n8 : - - - SSE2 mulpd (64bit x2) n8 : 2.310 1039.1 1039.1 SSE2 addpd (64bit x2) n8 : 1.155 2078.3 2078.3 SSE2 mul+addpd (64bit x2) n8 : 1.155 2078.3 2078.3 FMA vfmaddsd (64bit x2) n8 : - - - SSE2 ml+ad+dpd (64bit x2) n6 : 0.866 3117.3 3117.3 SSE2 mulsd (64bit x1) ns4 : 1.155 1039.2 1039.2 SSE2 addsd (64bit x1) ns4 : 0.577 2078.2 2078.2 SSE2 mulpd (64bit x2) ns4 : 2.310 1039.1 1039.1 SSE2 addpd (64bit x2) ns4 : 1.155 2078.3 2078.3 AVX vmulpd (64bit x4) n8 : - - - AVX vaddpd (64bit x4) n8 : - - - AVX vmul+addpd (64bit x4) n8 : - - - FMA vfmaddpd (64bit x4) n8 : - - - AVX vml_ad_adpd (64bit x4) n6 : - - - Average : 1.246 1762.7 1762.7 Highest : 0.577 3117.3 3117.3 * Matrix 4x4 C++ code : 0.516 3473.4 3473.4 C++ Intrinsic SSE 128bit : 0.477 3756.7 3756.7 SSE mul/addps 128bit A : 0.335 5341.3 5341.3 AVX vmul/addps 256bit A : - - - Average : 0.443 4190.5 4190.5 Highest : 0.335 5341.3 5341.3 * SSE/AVX (single fp) multi-thread SSE mulss (32bit x1) n8 : 0.673 7129.8 7129.8 SSE addss (32bit x1) n8 : 0.578 8299.9 8299.9 FMA vfmaddss (32bit x1) n8 : - - - SSE mulps (32bit x4) n8 : 1.157 16597.0 16597.0 SSE addps (32bit x4) n8 : 0.578 33196.3 33196.3 SSE mul+addps (32bit x4) n8 : 0.578 33196.9 33196.9 FMA vfmaddss (32bit x4) n8 : - - - SSE ml+ad+addps (32bit x4) n6 : 0.435 49678.9 49678.9 SSE mulss (32bit x1) ns4 : 0.579 8296.1 8296.1 SSE addss (32bit x1) ns4 : 0.579 8296.3 8296.3 SSE mulps (32bit x4) ns4 : 1.156 16609.2 16609.2 SSE addps (32bit x4) ns4 : 0.582 32994.7 32994.7 AVX vmulps (32bit x8) n8 : - - - AVX vaddps (32bit x8) n8 : - - - AVX vmul+addps (32bit x8) n8 : - - - FMA vfmaddps (32bit x8) n8 : - - - AVX vml+ad+adps (32bit x8) n6 : - - - Average : 0.689 21429.5 21429.5 Highest : 0.435 49678.9 49678.9 * SSE/AVX (double fp) multi-thread SSE2 mulsd (64bit x1) n8 : 1.185 4050.0 4050.0 SSE2 addsd (64bit x1) n8 : 0.578 8299.2 8299.2 FMA vfmaddsd (64bit x1) n8 : - - - SSE2 mulpd (64bit x2) n8 : 2.315 4146.3 4146.3 SSE2 addpd (64bit x2) n8 : 1.155 8311.2 8311.2 SSE2 mul+addpd (64bit x2) n8 : 1.155 8311.8 8311.8 FMA vfmaddsd (64bit x2) n8 : - - - SSE2 ml+ad+dpd (64bit x2) n6 : 0.866 12468.7 12468.7 SSE2 mulsd (64bit x1) ns4 : 1.155 4154.9 4154.9 SSE2 addsd (64bit x1) ns4 : 0.577 8311.8 8311.8 SSE2 mulpd (64bit x2) ns4 : 2.310 4155.6 4155.6 SSE2 addpd (64bit x2) ns4 : 1.155 8309.8 8309.8 AVX vmulpd (64bit x4) n8 : - - - AVX vaddpd (64bit x4) n8 : - - - AVX vmul+addpd (64bit x4) n8 : - - - FMA vfmaddpd (64bit x4) n8 : - - - AVX vml_ad_adpd (64bit x4) n6 : - - - Average : 1.245 7051.9 7051.9 Highest : 0.577 12468.7 12468.7 * Matrix 4x4 multi-thread C++ code : 0.464 15435.4 15435.4 C++ Intrinsic SSE 128bit : 0.478 15002.7 15002.7 SSE mul/addps 128bit A : 0.336 21336.6 21336.6 AVX vmul/addps 256bit A : - - - Average : 0.426 17258.2 17258.2 Highest : 0.336 21336.6 21336.6
Intel Core 2 Duo (AMD64 x86_64 x64) SSE4.1
Core2 Duo P7350 2.0GHz Penryn 2.0GHz dual core ARCH: x64 FPU: SSSE3 SSE4.1 SingleT SP max: 15.916 GFLOPS SingleT DP max: 6.365 GFLOPS MultiT SP max: 31.662 GFLOPS MultiT DP max: 12.724 GFLOPS CPU core: 2 SSE: yes AVX: no FMA: no * SSE/AVX (single fp) SSE mulss (32bit x1) n8 : 2.011 1988.7 1988.7 SSE addss (32bit x1) n8 : 2.011 1989.5 1989.5 SSE mulps (32bit x4) n8 : 2.012 7952.7 7952.7 SSE addps (32bit x4) n8 : 2.011 7957.8 7957.8 SSE mul+addps (32bit x4) n8 : 1.005 15916.3 15916.3 SSE ml+ad+addps (32bit x4) n6 : 1.508 11934.1 11934.1 SSE mulss (32bit x1) ns4 : 2.011 1989.1 1989.1 SSE addss (32bit x1) ns4 : 2.011 1988.6 1988.6 SSE mulps (32bit x4) ns4 : 2.011 7956.5 7956.5 SSE addps (32bit x4) ns4 : 2.011 7958.0 7958.0 AVX vmulps (32bit x8) n8 : - - - AVX vaddps (32bit x8) n8 : - - - AVX vmul+addps (32bit x8) n8 : - - - AVX vml+ad+adps (32bit x8) n6 : - - - Average : 1.860 6763.1 6763.1 Highest : 1.005 15916.3 15916.3 * SSE/AVX (double fp) SSE2 mulsd (64bit x1) n8 : 2.011 1988.6 1988.6 SSE2 addsd (64bit x1) n8 : 2.011 1989.5 1989.5 SSE2 mulpd (64bit x2) n8 : 2.011 3979.0 3979.0 SSE2 addpd (64bit x2) n8 : 2.011 3978.5 3978.5 SSE2 mul+addpd (64bit x2) n8 : 1.257 6364.9 6364.9 SSE2 ml+ad+dpd (64bit x2) n6 : 1.508 5967.5 5967.5 SSE2 mulsd (64bit x1) ns4 : 2.514 1591.4 1591.4 SSE2 addsd (64bit x1) ns4 : 2.012 1988.1 1988.1 SSE2 mulpd (64bit x2) ns4 : 2.514 3182.1 3182.1 SSE2 addpd (64bit x2) ns4 : 2.010 3979.5 3979.5 AVX vmulpd (64bit x4) n8 : - - - AVX vaddpd (64bit x4) n8 : - - - AVX vmul+addpd (64bit x4) n8 : - - - AVX vml_ad_adpd (64bit x4) n6 : - - - Average : 1.986 3500.9 3500.9 Highest : 1.257 6364.9 6364.9 * Matrix 4x4 C++ code : 1.574 2277.6 2277.6 C++ Intrinsic SSE 128bit : 0.397 9021.5 9021.5 SSE mul/addps 128bit A : 0.461 7767.5 7767.5 AVX vmul/addps 256bit A : - - - Average : 0.811 6355.5 6355.5 Highest : 0.397 9021.5 9021.5 * SSE/AVX (single fp) multi-thread SSE mulss (32bit x1) n8 : 2.016 3968.0 3968.0 SSE addss (32bit x1) n8 : 2.012 3975.9 3975.9 SSE mulps (32bit x4) n8 : 2.019 15847.9 15847.9 SSE addps (32bit x4) n8 : 2.012 15906.3 15906.3 SSE mul+addps (32bit x4) n8 : 1.011 31661.9 31661.9 SSE ml+ad+addps (32bit x4) n6 : 1.509 23854.6 23854.6 SSE mulss (32bit x1) ns4 : 2.012 3976.9 3976.9 SSE addss (32bit x1) ns4 : 2.012 3975.3 3975.3 SSE mulps (32bit x4) ns4 : 2.026 15794.2 15794.2 SSE addps (32bit x4) ns4 : 2.054 15581.6 15581.6 AVX vmulps (32bit x8) n8 : - - - AVX vaddps (32bit x8) n8 : - - - AVX vmul+addps (32bit x8) n8 : - - - AVX vml+ad+adps (32bit x8) n6 : - - - Average : 1.868 13454.3 13454.3 Highest : 1.011 31661.9 31661.9 * SSE/AVX (double fp) multi-thread SSE2 mulsd (64bit x1) n8 : 2.013 3974.3 3974.3 SSE2 addsd (64bit x1) n8 : 2.019 3963.3 3963.3 SSE2 mulpd (64bit x2) n8 : 2.024 7903.8 7903.8 SSE2 addpd (64bit x2) n8 : 2.012 7950.6 7950.6 SSE2 mul+addpd (64bit x2) n8 : 1.257 12724.2 12724.2 SSE2 ml+ad+dpd (64bit x2) n6 : 1.509 11929.2 11929.2 SSE2 mulsd (64bit x1) ns4 : 2.673 2993.1 2993.1 SSE2 addsd (64bit x1) ns4 : 2.039 3923.0 3923.0 SSE2 mulpd (64bit x2) ns4 : 2.547 6282.6 6282.6 SSE2 addpd (64bit x2) ns4 : 2.012 7952.6 7952.6 AVX vmulpd (64bit x4) n8 : - - - AVX vaddpd (64bit x4) n8 : - - - AVX vmul+addpd (64bit x4) n8 : - - - AVX vml_ad_adpd (64bit x4) n6 : - - - Average : 2.011 6959.7 6959.7 Highest : 1.257 12724.2 12724.2 * Matrix 4x4 multi-thread C++ code : 1.575 4552.3 4552.3 C++ Intrinsic SSE 128bit : 0.398 18004.8 18004.8 SSE mul/addps 128bit A : 0.461 15542.0 15542.0 AVX vmul/addps 256bit A : - - - Average : 0.811 12699.7 12699.7 Highest : 0.398 18004.8 18004.8
Intel Sandy Bridge (AMD64 x86_64 x64) SSE4.2/AVX1
Sandy Bridge Core i7-2720QM 2.2GHz
Sandy Bridge Core i7-2720QM 2.2GHz Quad core ARCH: x64 FPU: SSSE3 SSE4.1 SSE4.2 AVX SingleT SP max: 52.260 GFLOPS SingleT DP max: 26.137 GFLOPS MultiT SP max: 162.316 GFLOPS MultiT DP max: 74.049 GFLOPS CPU core: 8 SSE: yes AVX: yes FMA: no * SSE/AVX (single fp) SSE mulss (32bit x1) n8 : 1.246 3209.1 3209.1 SSE addss (32bit x1) n8 : 1.231 3250.6 3250.6 SSE mulps (32bit x4) n8 : 1.233 12978.1 12978.1 SSE addps (32bit x4) n8 : 1.231 13002.2 13002.2 SSE mul+addps (32bit x4) n8 : 0.760 21049.8 21049.8 SSE ml+ad+addps (32bit x4) n6 : 0.925 19460.7 19460.7 SSE mulss (32bit x1) ns4 : 1.520 2632.3 2632.3 SSE addss (32bit x1) ns4 : 1.231 3250.1 3250.1 SSE mulps (32bit x4) ns4 : 1.518 10536.8 10536.8 SSE addps (32bit x4) ns4 : 1.229 13017.2 13017.2 AVX vmulps (32bit x8) n8 : 1.233 25962.4 25962.4 AVX vaddps (32bit x8) n8 : 1.229 26035.9 26035.9 AVX vmul+addps (32bit x8) n8 : 0.612 52260.3 52260.3 AVX vml+ad+adps (32bit x8) n6 : 1.174 30667.9 30667.9 Average : 1.169 16951.0 16951.0 Highest : 0.612 52260.3 52260.3 * SSE/AVX (double fp) SSE2 mulsd (64bit x1) n8 : 1.240 3225.8 3225.8 SSE2 addsd (64bit x1) n8 : 1.231 3250.1 3250.1 SSE2 mulpd (64bit x2) n8 : 1.234 6484.8 6484.8 SSE2 addpd (64bit x2) n8 : 1.231 6498.8 6498.8 SSE2 mul+addpd (64bit x2) n8 : 0.760 10524.1 10524.1 SSE2 ml+ad+dpd (64bit x2) n6 : 0.922 9760.1 9760.1 SSE2 mulsd (64bit x1) ns4 : 1.523 2626.6 2626.6 SSE2 addsd (64bit x1) ns4 : 1.231 3249.3 3249.3 SSE2 mulpd (64bit x2) ns4 : 1.519 5265.0 5265.0 SSE2 addpd (64bit x2) ns4 : 1.235 6475.1 6475.1 AVX vmulpd (64bit x4) n8 : 1.233 12977.3 12977.3 AVX vaddpd (64bit x4) n8 : 1.229 13015.7 13015.7 AVX vmul+addpd (64bit x4) n8 : 0.612 26137.0 26137.0 AVX vml_ad_adpd (64bit x4) n6 : 0.925 19452.8 19452.8 Average : 1.152 9210.2 9210.2 Highest : 0.612 26137.0 26137.0 * Matrix 4x4 C++ code : 0.861 4164.5 4164.5 C++ Intrinsic SSE 128bit : 0.186 19291.6 19291.6 SSE mul/addps 128bit A : 0.277 12930.5 12930.5 AVX vmul/addps 256bit A : 0.230 15559.4 15559.4 Average : 0.388 12986.5 12986.5 Highest : 0.186 19291.6 19291.6 * SSE/AVX (single fp) multi-thread SSE mulss (32bit x1) n8 : 2.696 11868.5 11868.5 SSE addss (32bit x1) n8 : 2.674 11965.7 11965.7 SSE mulps (32bit x4) n8 : 2.667 47997.0 47997.0 SSE addps (32bit x4) n8 : 2.663 48060.2 48060.2 SSE mul+addps (32bit x4) n8 : 1.365 93798.1 93798.1 SSE ml+ad+addps (32bit x4) n6 : 1.999 72032.3 72032.3 SSE mulss (32bit x1) ns4 : 2.645 12098.8 12098.8 SSE addss (32bit x1) ns4 : 2.562 12492.0 12492.0 SSE mulps (32bit x4) ns4 : 2.609 49067.7 49067.7 SSE addps (32bit x4) ns4 : 2.527 50650.5 50650.5 AVX vmulps (32bit x8) n8 : 2.607 98207.9 98207.9 AVX vaddps (32bit x8) n8 : 2.671 95845.4 95845.4 AVX vmul+addps (32bit x8) n8 : 1.577 162316.3 162316.3 AVX vml+ad+adps (32bit x8) n6 : 2.294 125544.5 125544.5 Average : 2.397 63710.3 63710.3 Highest : 1.365 162316.3 162316.3 * SSE/AVX (double fp) multi-thread SSE2 mulsd (64bit x1) n8 : 2.863 11175.3 11175.3 SSE2 addsd (64bit x1) n8 : 2.867 11162.7 11162.7 SSE2 mulpd (64bit x2) n8 : 2.855 22419.1 22419.1 SSE2 addpd (64bit x2) n8 : 2.854 22423.7 22423.7 SSE2 mul+addpd (64bit x2) n8 : 1.497 42761.1 42761.1 SSE2 ml+ad+dpd (64bit x2) n6 : 2.222 32398.3 32398.3 SSE2 mulsd (64bit x1) ns4 : 2.841 11263.3 11263.3 SSE2 addsd (64bit x1) ns4 : 2.735 11700.3 11700.3 SSE2 mulpd (64bit x2) ns4 : 2.790 22940.2 22940.2 SSE2 addpd (64bit x2) ns4 : 2.694 23758.0 23758.0 AVX vmulpd (64bit x4) n8 : 2.855 44838.4 44838.4 AVX vaddpd (64bit x4) n8 : 2.957 43288.6 43288.6 AVX vmul+addpd (64bit x4) n8 : 1.729 74049.0 74049.0 AVX vml_ad_adpd (64bit x4) n6 : 2.343 61464.1 61464.1 Average : 2.579 31117.3 31117.3 Highest : 1.497 74049.0 74049.0 * Matrix 4x4 multi-thread C++ code : 1.731 16566.2 16566.2 C++ Intrinsic SSE 128bit : 0.368 77826.1 77826.1 SSE mul/addps 128bit A : 0.575 49849.2 49849.2 AVX vmul/addps 256bit A : 0.409 70069.8 70069.8 Average : 0.771 53577.8 53577.8 Highest : 0.368 77826.1 77826.1
Intel Ivy Bridge (AMD64 x86_64 x64) SSE4.2/AVX1
Ivy Bridge Core i5-3210M 2.5GHz
Ivy Bridge Core i5-3210M 2.5GHz Dual core + HT ARCH: x64 FPU: SSSE3 SSE4.1 SSE4.2 AVX SingleT SP max: 48.604 GFLOPS SingleT DP max: 24.317 GFLOPS MultiT SP max: 90.247 GFLOPS MultiT DP max: 45.223 GFLOPS CPU core: 4 SSE: yes AVX: yes FMA: no * SSE/AVX (single fp) SSE mulss (32bit x1) n8 : 1.345 2973.6 2973.6 SSE addss (32bit x1) n8 : 1.322 3026.6 3026.6 SSE mulps (32bit x4) n8 : 1.322 12099.0 12099.0 SSE addps (32bit x4) n8 : 1.320 12124.9 12124.9 SSE mul+addps (32bit x4) n8 : 0.816 19605.1 19605.1 SSE ml+ad+addps (32bit x4) n6 : 0.990 18179.7 18179.7 SSE mulss (32bit x1) ns4 : 1.632 2450.5 2450.5 SSE addss (32bit x1) ns4 : 1.351 2960.3 2960.3 SSE mulps (32bit x4) ns4 : 1.634 9793.0 9793.0 SSE addps (32bit x4) ns4 : 1.329 12040.2 12040.2 AVX vmulps (32bit x8) n8 : 1.322 24205.7 24205.7 AVX vaddps (32bit x8) n8 : 1.319 24256.0 24256.0 AVX vmul+addps (32bit x8) n8 : 0.658 48604.4 48604.4 AVX vml+ad+adps (32bit x8) n6 : 1.273 28275.1 28275.1 Average : 1.260 15756.7 15756.7 Highest : 0.658 48604.4 48604.4 * SSE/AVX (double fp) SSE2 mulsd (64bit x1) n8 : 1.324 3020.1 3020.1 SSE2 addsd (64bit x1) n8 : 1.324 3020.4 3020.4 SSE2 mulpd (64bit x2) n8 : 1.324 6041.0 6041.0 SSE2 addpd (64bit x2) n8 : 1.330 6016.6 6016.6 SSE2 mul+addpd (64bit x2) n8 : 0.814 9823.9 9823.9 SSE2 ml+ad+dpd (64bit x2) n6 : 0.987 9119.3 9119.3 SSE2 mulsd (64bit x1) ns4 : 1.633 2449.2 2449.2 SSE2 addsd (64bit x1) ns4 : 1.319 3031.8 3031.8 SSE2 mulpd (64bit x2) ns4 : 1.623 4930.2 4930.2 SSE2 addpd (64bit x2) ns4 : 1.314 6088.9 6088.9 AVX vmulpd (64bit x4) n8 : 1.323 12092.4 12092.4 AVX vaddpd (64bit x4) n8 : 1.341 11928.6 11928.6 AVX vmul+addpd (64bit x4) n8 : 0.658 24317.2 24317.2 AVX vml_ad_adpd (64bit x4) n6 : 0.987 18231.5 18231.5 Average : 1.236 8579.4 8579.4 Highest : 0.658 24317.2 24317.2 * Matrix 4x4 C++ code : 0.921 3892.0 3892.0 C++ Intrinsic SSE 128bit : 0.223 16060.4 16060.4 SSE mul/addps 128bit A : 0.273 13143.9 13143.9 AVX vmul/addps 256bit A : 0.241 14853.7 14853.7 Average : 0.414 11987.5 11987.5 Highest : 0.223 16060.4 16060.4 * SSE/AVX (single fp) multi-thread SSE mulss (32bit x1) n8 : 2.807 5700.8 5700.8 SSE addss (32bit x1) n8 : 2.797 5721.4 5721.4 SSE mulps (32bit x4) n8 : 2.796 22886.1 22886.1 SSE addps (32bit x4) n8 : 2.787 22964.9 22964.9 SSE mul+addps (32bit x4) n8 : 1.403 45629.8 45629.8 SSE ml+ad+addps (32bit x4) n6 : 2.090 34445.9 34445.9 SSE mulss (32bit x1) ns4 : 2.849 5615.5 5615.5 SSE addss (32bit x1) ns4 : 2.758 5801.0 5801.0 SSE mulps (32bit x4) ns4 : 2.786 22970.2 22970.2 SSE addps (32bit x4) ns4 : 2.741 23352.5 23352.5 AVX vmulps (32bit x8) n8 : 2.727 46934.2 46934.2 AVX vaddps (32bit x8) n8 : 2.740 46720.3 46720.3 AVX vmul+addps (32bit x8) n8 : 1.418 90246.6 90246.6 AVX vml+ad+adps (32bit x8) n6 : 2.099 68602.5 68602.5 Average : 2.486 31970.8 31970.8 Highest : 1.403 90246.6 90246.6 * SSE/AVX (double fp) multi-thread SSE2 mulsd (64bit x1) n8 : 2.805 5703.7 5703.7 SSE2 addsd (64bit x1) n8 : 2.793 5729.4 5729.4 SSE2 mulpd (64bit x2) n8 : 2.796 11445.0 11445.0 SSE2 addpd (64bit x2) n8 : 2.790 11470.9 11470.9 SSE2 mul+addpd (64bit x2) n8 : 1.400 22854.2 22854.2 SSE2 ml+ad+dpd (64bit x2) n6 : 2.092 17210.4 17210.4 SSE2 mulsd (64bit x1) ns4 : 2.859 5596.1 5596.1 SSE2 addsd (64bit x1) ns4 : 2.762 5793.5 5793.5 SSE2 mulpd (64bit x2) ns4 : 2.783 11499.7 11499.7 SSE2 addpd (64bit x2) ns4 : 2.753 11625.1 11625.1 AVX vmulpd (64bit x4) n8 : 2.747 23297.4 23297.4 AVX vaddpd (64bit x4) n8 : 2.751 23263.1 23263.1 AVX vmul+addpd (64bit x4) n8 : 1.415 45222.7 45222.7 AVX vml_ad_adpd (64bit x4) n6 : 2.050 35127.6 35127.6 Average : 2.485 16845.6 16845.6 Highest : 1.400 45222.7 45222.7 * Matrix 4x4 multi-thread C++ code : 1.742 8229.3 8229.3 C++ Intrinsic SSE 128bit : 0.403 35603.5 35603.5 SSE mul/addps 128bit A : 0.570 25139.4 25139.4 AVX vmul/addps 256bit A : 0.377 38072.1 38072.1 Average : 0.773 26761.1 26761.1 Highest : 0.377 38072.1 38072.1
Ivy Bridge Core i7-3615QM 2.3GHz
Ivy Bridge Core i7-3615QM 2.3GHz Quad core + HT ARCH: x64 FPU: SSSE3 SSE4.1 SSE4.2 AVX SingleT SP max: 51.427 GFLOPS SingleT DP max: 25.693 GFLOPS MultiT SP max: 194.698 GFLOPS MultiT DP max: 96.913 GFLOPS CPU core: 8 SSE: yes AVX: yes FMA: no * SSE/AVX (single fp) SSE mulss (32bit x1) n8 : 0.381 3151.4 3151.4 SSE addss (32bit x1) n8 : 0.374 3207.5 3207.5 SSE mulps (32bit x4) n8 : 0.376 12772.8 12772.8 SSE addps (32bit x4) n8 : 0.374 12820.8 12820.8 SSE mul+addps (32bit x4) n8 : 0.231 20751.6 20751.6 SSE ml+ad+addps (32bit x4) n6 : 0.282 19172.8 19172.8 SSE mulss (32bit x1) ns4 : 0.462 2598.4 2598.4 SSE addss (32bit x1) ns4 : 0.375 3197.5 3197.5 SSE mulps (32bit x4) ns4 : 0.462 10378.9 10378.9 SSE addps (32bit x4) ns4 : 0.379 12658.9 12658.9 AVX vmulps (32bit x8) n8 : 0.376 25512.2 25512.2 AVX vaddps (32bit x8) n8 : 0.375 25566.3 25566.3 AVX vmul+addps (32bit x8) n8 : 0.187 51426.6 51426.6 AVX vml+ad+adps (32bit x8) n6 : 0.361 29895.4 29895.4 Average : 0.357 16650.8 16650.8 Highest : 0.187 51426.6 51426.6 * SSE/AVX (double fp) SSE2 mulsd (64bit x1) n8 : 0.381 3150.1 3150.1 SSE2 addsd (64bit x1) n8 : 0.374 3205.9 3205.9 SSE2 mulpd (64bit x2) n8 : 0.381 6300.8 6300.8 SSE2 addpd (64bit x2) n8 : 0.378 6344.7 6344.7 SSE2 mul+addpd (64bit x2) n8 : 0.231 10376.9 10376.9 SSE2 ml+ad+dpd (64bit x2) n6 : 0.281 9611.7 9611.7 SSE2 mulsd (64bit x1) ns4 : 0.463 2591.7 2591.7 SSE2 addsd (64bit x1) ns4 : 0.378 3171.5 3171.5 SSE2 mulpd (64bit x2) ns4 : 0.463 5180.0 5180.0 SSE2 addpd (64bit x2) ns4 : 0.375 6398.8 6398.8 AVX vmulpd (64bit x4) n8 : 0.376 12757.5 12757.5 AVX vaddpd (64bit x4) n8 : 0.376 12773.6 12773.6 AVX vmul+addpd (64bit x4) n8 : 0.187 25693.0 25693.0 AVX vml_ad_adpd (64bit x4) n6 : 0.281 19241.9 19241.9 Average : 0.352 9057.0 9057.0 Highest : 0.187 25693.0 25693.0 * Matrix 4x4 C++ code : 0.431 4162.2 4162.2 C++ Intrinsic SSE 128bit : 0.093 19179.3 19179.3 SSE mul/addps 128bit A : 0.129 13877.5 13877.5 AVX vmul/addps 256bit A : 0.115 15611.8 15611.8 Average : 0.192 13207.7 13207.7 Highest : 0.093 19179.3 19179.3 * SSE/AVX (single fp) multi-thread SSE mulss (32bit x1) n8 : 0.790 12154.8 12154.8 SSE addss (32bit x1) n8 : 0.783 12260.0 12260.0 SSE mulps (32bit x4) n8 : 0.784 48983.3 48983.3 SSE addps (32bit x4) n8 : 0.783 49016.9 49016.9 SSE mul+addps (32bit x4) n8 : 0.393 97627.2 97627.2 SSE ml+ad+addps (32bit x4) n6 : 0.587 73625.3 73625.3 SSE mulss (32bit x1) ns4 : 0.784 12237.2 12237.2 SSE addss (32bit x1) ns4 : 0.777 12350.0 12350.0 SSE mulps (32bit x4) ns4 : 0.784 48984.4 48984.4 SSE addps (32bit x4) ns4 : 0.777 49445.9 49445.9 AVX vmulps (32bit x8) n8 : 0.777 98897.4 98897.4 AVX vaddps (32bit x8) n8 : 0.778 98709.6 98709.6 AVX vmul+addps (32bit x8) n8 : 0.394 194697.5 194697.5 AVX vml+ad+adps (32bit x8) n6 : 0.591 146151.1 146151.1 Average : 0.699 68224.3 68224.3 Highest : 0.393 194697.5 194697.5 * SSE/AVX (double fp) multi-thread SSE2 mulsd (64bit x1) n8 : 0.789 12163.5 12163.5 SSE2 addsd (64bit x1) n8 : 0.781 12284.7 12284.7 SSE2 mulpd (64bit x2) n8 : 0.781 24568.8 24568.8 SSE2 addpd (64bit x2) n8 : 0.782 24563.6 24563.6 SSE2 mul+addpd (64bit x2) n8 : 0.394 48775.8 48775.8 SSE2 ml+ad+dpd (64bit x2) n6 : 0.586 36883.3 36883.3 SSE2 mulsd (64bit x1) ns4 : 0.782 12274.6 12274.6 SSE2 addsd (64bit x1) ns4 : 0.776 12373.0 12373.0 SSE2 mulpd (64bit x2) ns4 : 0.782 24563.4 24563.4 SSE2 addpd (64bit x2) ns4 : 0.776 24729.5 24729.5 AVX vmulpd (64bit x4) n8 : 0.777 49428.8 49428.8 AVX vaddpd (64bit x4) n8 : 0.777 49420.7 49420.7 AVX vmul+addpd (64bit x4) n8 : 0.396 96913.4 96913.4 AVX vml_ad_adpd (64bit x4) n6 : 0.578 74682.6 74682.6 Average : 0.697 35973.3 35973.3 Highest : 0.394 96913.4 96913.4 * Matrix 4x4 multi-thread C++ code : 0.782 18328.3 18328.3 C++ Intrinsic SSE 128bit : 0.168 85172.6 85172.6 SSE mul/addps 128bit A : 0.267 53767.2 53767.2 AVX vmul/addps 256bit A : 0.174 82517.4 82517.4 Average : 0.348 59946.4 59946.4 Highest : 0.168 85172.6 85172.6
Intel Haswell (AMD64 x86_64 x64) SSE4.2/AVX2/FMA3
Haswell Core i7-4790K 4.0GHz Linux
Ubuntu Haswell Core i7-4790K 4.0GHz Quad core + HT ARCH: x64 FPU: SSSE3 SSE4.1 SSE4.2 AVX AVX2 FMA3 SingleT SP max: 85.112 GFLOPS SingleT DP max: 31.917 GFLOPS MultiT SP max: 510.509 GFLOPS MultiT DP max: 128.452 GFLOPS CPU core: 8 SSE: yes AVX: yes FMA: yes * SSE/AVX (single fp) SSE mulss (32bit x1) n8 : 0.172 6984.7 6984.7 SSE addss (32bit x1) n8 : 0.274 4387.3 4387.3 FMA3 fmaddss (32bit x1) n8 : 0.171 14043.5 14043.5 SSE mulps (32bit x4) n8 : 0.171 28084.3 28084.3 SSE addps (32bit x4) n8 : 0.274 17548.0 17548.0 SSE mul+addps (32bit x4) n8 : 0.171 28084.5 28084.5 FMA3 fmaddss (32bit x4) n8 : 0.188 51063.8 51063.8 SSE ml+ad+addps (32bit x4) n6 : 0.206 26158.5 26158.5 SSE mulss (32bit x1) ns4 : 0.342 3508.5 3508.5 SSE addss (32bit x1) ns4 : 0.275 4368.4 4368.4 SSE mulps (32bit x4) ns4 : 0.342 14040.9 14040.9 SSE addps (32bit x4) ns4 : 0.274 17526.3 17526.3 AVX vmulps (32bit x8) n8 : 0.150 63828.1 63828.1 AVX vaddps (32bit x8) n8 : 0.301 31917.0 31917.0 AVX vmul+addps (32bit x8) n8 : 0.150 63833.2 63833.2 FMA3 vfmaddps (32bit x8) n8 : 0.226 85112.0 85112.0 AVX vml+ad+adps (32bit x8) n6 : 0.293 36834.3 36834.3 Average : 0.234 29254.3 29254.3 Highest : 0.150 85112.0 85112.0 * SSE/AVX (double fp) SSE2 mulsd (64bit x1) n8 : 0.172 6970.1 6970.1 SSE2 addsd (64bit x1) n8 : 0.274 4384.8 4384.8 SSE2 mulpd (64bit x2) n8 : 0.171 14042.0 14042.0 SSE2 addpd (64bit x2) n8 : 0.273 8776.8 8776.8 SSE2 mul+addpd (64bit x2) n8 : 0.171 14019.3 14019.3 SSE2 ml+ad+dpd (64bit x2) n6 : 0.205 13165.0 13165.0 SSE2 mulsd (64bit x1) ns4 : 0.342 3507.2 3507.2 SSE2 addsd (64bit x1) ns4 : 0.273 4388.4 4388.4 SSE2 mulpd (64bit x2) ns4 : 0.342 7009.9 7009.9 SSE2 addpd (64bit x2) ns4 : 0.273 8777.4 8777.4 AVX vmulpd (64bit x4) n8 : 0.150 31913.8 31913.8 AVX vaddpd (64bit x4) n8 : 0.301 15958.4 15958.4 AVX vmul+addpd (64bit x4) n8 : 0.150 31917.0 31917.0 AVX vml_ad_adpd (64bit x4) n6 : 0.226 23937.8 23937.8 Average : 0.238 13483.4 13483.4 Highest : 0.150 31917.0 31917.0 * Matrix 4x4 C++ code : 0.176 10188.5 10188.5 C++ Intrinsic SSE 128bit : 0.091 19788.9 19788.9 SSE mul/addps 128bit A : 0.101 17717.5 17717.5 AVX vmul/addps 256bit A : 0.100 17917.1 17917.1 Average : 0.117 16403.0 16403.0 Highest : 0.091 19788.9 19788.9 * SSE/AVX (single fp) multi-thread SSE mulss (32bit x1) n8 : 0.286 33620.2 33620.2 SSE addss (32bit x1) n8 : 0.568 16907.4 16907.4 FMA3 fmaddss (32bit x1) n8 : 0.286 67049.4 67049.4 SSE mulps (32bit x4) n8 : 0.286 134112.4 134112.4 SSE addps (32bit x4) n8 : 0.569 67475.2 67475.2 SSE mul+addps (32bit x4) n8 : 0.289 132740.6 132740.6 FMA3 fmaddss (32bit x4) n8 : 0.301 255297.1 255297.1 SSE ml+ad+addps (32bit x4) n6 : 0.425 101550.8 101550.8 SSE mulss (32bit x1) ns4 : 0.372 25804.4 25804.4 SSE addss (32bit x1) ns4 : 0.552 17390.0 17390.0 SSE mulps (32bit x4) ns4 : 0.372 103292.4 103292.4 SSE addps (32bit x4) ns4 : 0.548 70068.9 70068.9 AVX vmulps (32bit x8) n8 : 0.298 257487.4 257487.4 AVX vaddps (32bit x8) n8 : 0.576 133285.4 133285.4 AVX vmul+addps (32bit x8) n8 : 0.311 246642.4 246642.4 FMA3 vfmaddps (32bit x8) n8 : 0.301 510509.3 510509.3 AVX vml+ad+adps (32bit x8) n6 : 0.441 196082.4 196082.4 Average : 0.399 139371.5 139371.5 Highest : 0.286 510509.3 510509.3 * SSE/AVX (double fp) multi-thread SSE2 mulsd (64bit x1) n8 : 0.286 33596.3 33596.3 SSE2 addsd (64bit x1) n8 : 0.565 16983.5 16983.5 SSE2 mulpd (64bit x2) n8 : 0.286 67149.1 67149.1 SSE2 addpd (64bit x2) n8 : 0.569 33727.5 33727.5 SSE2 mul+addpd (64bit x2) n8 : 0.297 64679.3 64679.3 SSE2 ml+ad+dpd (64bit x2) n6 : 0.425 50806.3 50806.3 SSE2 mulsd (64bit x1) ns4 : 0.372 25783.2 25783.2 SSE2 addsd (64bit x1) ns4 : 0.554 17319.1 17319.1 SSE2 mulpd (64bit x2) ns4 : 0.372 51611.8 51611.8 SSE2 addpd (64bit x2) ns4 : 0.556 34523.1 34523.1 AVX vmulpd (64bit x4) n8 : 0.299 128452.2 128452.2 AVX vaddpd (64bit x4) n8 : 0.581 66091.5 66091.5 AVX vmul+addpd (64bit x4) n8 : 0.311 123425.4 123425.4 AVX vml_ad_adpd (64bit x4) n6 : 0.414 104454.6 104454.6 Average : 0.421 58471.6 58471.6 Highest : 0.286 128452.2 128452.2 * Matrix 4x4 multi-thread C++ code : 0.148 96625.3 96625.3 C++ Intrinsic SSE 128bit : 0.112 128393.2 128393.2 SSE mul/addps 128bit A : 0.176 81462.0 81462.0 AVX vmul/addps 256bit A : 0.133 107465.5 107465.5 Average : 0.142 103486.5 103486.5 Highest : 0.112 128393.2 128393.2
Haswell Celeron 2955U 1.4GHz (SSE4.2)
Acer Chromebook c720 Ubuntu (ChromeOS) Intel Celeron 2955U dual core 1.40GHz RAM 4GB DDR3L ARCH: x64 FPU: SSSE3 SSE4.1 SSE4.2 SingleT SP max: 8.898 GFLOPS SingleT DP max: 4.448 GFLOPS MultiT SP max: 17.339 GFLOPS MultiT DP max: 8.784 GFLOPS CPU core: 2 SSE: yes AVX: no FMA: no * SSE/AVX (single fp) SSE mulss (32bit x1) n8 : 0.543 2208.6 2208.6 SSE addss (32bit x1) n8 : 0.866 1385.7 1385.7 FMA vfmaddss (32bit x1) n8 : - - - SSE mulps (32bit x4) n8 : 0.540 8892.4 8892.4 SSE addps (32bit x4) n8 : 0.863 5559.7 5559.7 SSE mul+addps (32bit x4) n8 : 0.539 8898.2 8898.2 FMA vfmaddss (32bit x4) n8 : - - - SSE ml+ad+addps (32bit x4) n6 : 0.648 8329.2 8329.2 SSE mulss (32bit x1) ns4 : 1.079 1112.0 1112.0 SSE addss (32bit x1) ns4 : 0.864 1389.0 1389.0 SSE mulps (32bit x4) ns4 : 1.081 4438.4 4438.4 SSE addps (32bit x4) ns4 : 0.863 5559.1 5559.1 AVX vmulps (32bit x8) n8 : - - - AVX vaddps (32bit x8) n8 : - - - AVX vmul+addps (32bit x8) n8 : - - - FMA vfmaddps (32bit x8) n8 : - - - AVX vml+ad+adps (32bit x8) n6 : - - - Average : 0.789 4777.2 4777.2 Highest : 0.539 8898.2 8898.2 * SSE/AVX (double fp) SSE2 mulsd (64bit x1) n8 : 0.542 2215.7 2215.7 SSE2 addsd (64bit x1) n8 : 0.864 1389.6 1389.6 FMA vfmaddsd (64bit x1) n8 : - - - SSE2 mulpd (64bit x2) n8 : 0.540 4444.5 4444.5 SSE2 addpd (64bit x2) n8 : 0.864 2779.3 2779.3 SSE2 mul+addpd (64bit x2) n8 : 0.540 4448.0 4448.0 FMA vfmaddsd (64bit x2) n8 : - - - SSE2 ml+ad+dpd (64bit x2) n6 : 0.647 4170.4 4170.4 SSE2 mulsd (64bit x1) ns4 : 1.079 1111.7 1111.7 SSE2 addsd (64bit x1) ns4 : 0.864 1388.8 1388.8 SSE2 mulpd (64bit x2) ns4 : 1.079 2224.0 2224.0 SSE2 addpd (64bit x2) ns4 : 0.864 2778.6 2778.6 AVX vmulpd (64bit x4) n8 : - - - AVX vaddpd (64bit x4) n8 : - - - AVX vmul+addpd (64bit x4) n8 : - - - FMA vfmaddpd (64bit x4) n8 : - - - AVX vml_ad_adpd (64bit x4) n6 : - - - Average : 0.788 2695.1 2695.1 Highest : 0.540 4448.0 4448.0 * Matrix 4x4 C++ code : 0.960 1866.9 1866.9 C++ Intrinsic SSE 128bit : 0.220 8135.2 8135.2 SSE mul/addps 128bit A : 0.316 5669.2 5669.2 AVX vmul/addps 256bit A : - - - Average : 0.499 5223.8 5223.8 Highest : 0.220 8135.2 8135.2 * SSE/AVX (single fp) multi-thread SSE mulss (32bit x1) n8 : 0.566 4240.2 4240.2 SSE addss (32bit x1) n8 : 0.870 2758.0 2758.0 FMA vfmaddss (32bit x1) n8 : - - - SSE mulps (32bit x4) n8 : 0.554 17339.2 17339.2 SSE addps (32bit x4) n8 : 0.880 10910.5 10910.5 SSE mul+addps (32bit x4) n8 : 0.565 16982.1 16982.1 FMA vfmaddss (32bit x4) n8 : - - - SSE ml+ad+addps (32bit x4) n6 : 0.656 16467.2 16467.2 SSE mulss (32bit x1) ns4 : 1.097 2187.9 2187.9 SSE addss (32bit x1) ns4 : 0.872 2751.3 2751.3 SSE mulps (32bit x4) ns4 : 1.096 8759.2 8759.2 SSE addps (32bit x4) ns4 : 0.874 10986.4 10986.4 AVX vmulps (32bit x8) n8 : - - - AVX vaddps (32bit x8) n8 : - - - AVX vmul+addps (32bit x8) n8 : - - - FMA vfmaddps (32bit x8) n8 : - - - AVX vml+ad+adps (32bit x8) n6 : - - - Average : 0.803 9338.2 9338.2 Highest : 0.554 17339.2 17339.2 * SSE/AVX (double fp) multi-thread SSE2 mulsd (64bit x1) n8 : 0.551 4353.2 4353.2 SSE2 addsd (64bit x1) n8 : 0.881 2724.6 2724.6 FMA vfmaddsd (64bit x1) n8 : - - - SSE2 mulpd (64bit x2) n8 : 0.550 8727.8 8727.8 SSE2 addpd (64bit x2) n8 : 0.876 5476.7 5476.7 SSE2 mul+addpd (64bit x2) n8 : 0.546 8783.6 8783.6 FMA vfmaddsd (64bit x2) n8 : - - - SSE2 ml+ad+dpd (64bit x2) n6 : 0.661 8168.9 8168.9 SSE2 mulsd (64bit x1) ns4 : 1.096 2190.2 2190.2 SSE2 addsd (64bit x1) ns4 : 0.875 2741.5 2741.5 SSE2 mulpd (64bit x2) ns4 : 1.102 4354.7 4354.7 SSE2 addpd (64bit x2) ns4 : 0.876 5479.1 5479.1 AVX vmulpd (64bit x4) n8 : - - - AVX vaddpd (64bit x4) n8 : - - - AVX vmul+addpd (64bit x4) n8 : - - - FMA vfmaddpd (64bit x4) n8 : - - - AVX vml_ad_adpd (64bit x4) n6 : - - - Average : 0.802 5300.0 5300.0 Highest : 0.546 8783.6 8783.6 * Matrix 4x4 multi-thread C++ code : 0.971 3689.6 3689.6 C++ Intrinsic SSE 128bit : 0.221 16190.9 16190.9 SSE mul/addps 128bit A : 0.324 11073.4 11073.4 AVX vmul/addps 256bit A : - - - Average : 0.505 10318.0 10318.0 Highest : 0.221 16190.9 16190.9
Haswell Core i7-4790K 4.0GHz (4.4GHz) 4 core 8 thread Windows 10
Windows 10 1703 bash Haswell Core i7-4790K 4.0GHz (4.4GHz) 4 core 8 thread RAM 16GB ARCH: x64 FPU: SSSE3 SSE4.1 SSE4.2 AVX FMA3 SingleT SP max: 85.057 GFLOPS SingleT DP max: 42.425 GFLOPS MultiT SP max: 508.626 GFLOPS MultiT DP max: 254.425 GFLOPS CPU core: 8 SSE: yes AVX: yes FMA: yes * SSE/AVX (single fp) SSE mulss (32bit x1) n8 : 0.175 6849.7 6849.7 SSE addss (32bit x1) n8 : 0.281 4266.1 4266.1 FMA vfmaddss (32bit x1) n8 : 0.176 13668.5 13668.5 SSE mulps (32bit x4) n8 : 0.176 27298.3 27298.3 SSE addps (32bit x4) n8 : 0.281 17053.3 17053.3 SSE mul+addps (32bit x4) n8 : 0.176 27286.1 27286.1 FMA vfmaddss (32bit x4) n8 : 0.188 51037.5 51037.5 SSE ml+ad+addps (32bit x4) n6 : 0.210 25668.1 25668.1 SSE mulss (32bit x1) ns4 : 0.351 3418.4 3418.4 SSE addss (32bit x1) ns4 : 0.281 4265.9 4265.9 SSE mulps (32bit x4) ns4 : 0.352 13655.4 13655.4 SSE addps (32bit x4) ns4 : 0.281 17078.6 17078.6 AVX vmulps (32bit x8) n8 : 0.150 63787.4 63787.4 AVX vaddps (32bit x8) n8 : 0.301 31896.9 31896.9 AVX vmul+addps (32bit x8) n8 : 0.150 63796.3 63796.3 FMA vfmaddps (32bit x8) n8 : 0.226 85056.6 85056.6 AVX vml+ad+adps (32bit x8) n6 : 0.331 32628.7 32628.7 Average : 0.240 28747.7 28747.7 Highest : 0.150 85056.6 85056.6 * SSE/AVX (double fp) SSE2 mulsd (64bit x1) n8 : 0.176 6828.0 6828.0 SSE2 addsd (64bit x1) n8 : 0.282 4257.5 4257.5 FMA vfmaddsd (64bit x1) n8 : 0.176 13646.6 13646.6 SSE2 mulpd (64bit x2) n8 : 0.177 13576.0 13576.0 SSE2 addpd (64bit x2) n8 : 0.282 8524.4 8524.4 SSE2 mul+addpd (64bit x2) n8 : 0.176 13653.1 13653.1 FMA vfmaddsd (64bit x2) n8 : 0.189 25449.7 25449.7 SSE2 ml+ad+dpd (64bit x2) n6 : 0.211 12774.0 12774.0 SSE2 mulsd (64bit x1) ns4 : 0.352 3412.6 3412.6 SSE2 addsd (64bit x1) ns4 : 0.282 4254.5 4254.5 SSE2 mulpd (64bit x2) ns4 : 0.351 6828.3 6828.3 SSE2 addpd (64bit x2) ns4 : 0.282 8516.3 8516.3 AVX vmulpd (64bit x4) n8 : 0.151 31813.8 31813.8 AVX vaddpd (64bit x4) n8 : 0.302 15906.9 15906.9 AVX vmul+addpd (64bit x4) n8 : 0.151 31785.1 31785.1 FMA vfmaddpd (64bit x4) n8 : 0.226 42425.1 42425.1 AVX vml_ad_adpd (64bit x4) n6 : 0.226 23864.1 23864.1 Average : 0.235 15736.2 15736.2 Highest : 0.151 42425.1 42425.1 * Matrix 4x4 C++ code : 0.096 18705.8 18705.8 C++ Intrinsic SSE 128bit : 0.074 24253.6 24253.6 SSE mul/addps 128bit A : 0.100 17956.3 17956.3 AVX vmul/addps 256bit A : 0.100 17908.2 17908.2 Average : 0.092 19706.0 19706.0 Highest : 0.074 24253.6 24253.6 * SSE/AVX (single fp) multi-thread SSE mulss (32bit x1) n8 : 0.287 33446.7 33446.7 SSE addss (32bit x1) n8 : 0.572 16789.5 16789.5 FMA vfmaddss (32bit x1) n8 : 0.287 66875.4 66875.4 SSE mulps (32bit x4) n8 : 0.287 133787.7 133787.7 SSE addps (32bit x4) n8 : 0.571 67251.7 67251.7 SSE mul+addps (32bit x4) n8 : 0.289 132982.4 132982.4 FMA vfmaddss (32bit x4) n8 : 0.302 254571.9 254571.9 SSE ml+ad+addps (32bit x4) n6 : 0.429 100721.8 100721.8 SSE mulss (32bit x1) ns4 : 0.374 25686.2 25686.2 SSE addss (32bit x1) ns4 : 0.566 16971.5 16971.5 SSE mulps (32bit x4) ns4 : 0.374 102793.6 102793.6 SSE addps (32bit x4) ns4 : 0.568 67613.5 67613.5 AVX vmulps (32bit x8) n8 : 0.301 255517.9 255517.9 AVX vaddps (32bit x8) n8 : 0.596 128958.6 128958.6 AVX vmul+addps (32bit x8) n8 : 0.305 251678.7 251678.7 FMA vfmaddps (32bit x8) n8 : 0.302 508626.1 508626.1 AVX vml+ad+adps (32bit x8) n6 : 0.468 184618.9 184618.9 Average : 0.404 138170.1 138170.1 Highest : 0.287 508626.1 508626.1 * SSE/AVX (double fp) multi-thread SSE2 mulsd (64bit x1) n8 : 0.287 33454.6 33454.6 SSE2 addsd (64bit x1) n8 : 0.572 16771.8 16771.8 FMA vfmaddsd (64bit x1) n8 : 0.287 66871.7 66871.7 SSE2 mulpd (64bit x2) n8 : 0.287 66909.9 66909.9 SSE2 addpd (64bit x2) n8 : 0.571 33640.1 33640.1 SSE2 mul+addpd (64bit x2) n8 : 0.289 66512.2 66512.2 FMA vfmaddsd (64bit x2) n8 : 0.302 127348.4 127348.4 SSE2 ml+ad+dpd (64bit x2) n6 : 0.429 50312.2 50312.2 SSE2 mulsd (64bit x1) ns4 : 0.374 25660.1 25660.1 SSE2 addsd (64bit x1) ns4 : 0.570 16848.9 16848.9 SSE2 mulpd (64bit x2) ns4 : 0.374 51338.4 51338.4 SSE2 addpd (64bit x2) ns4 : 0.568 33807.4 33807.4 AVX vmulpd (64bit x4) n8 : 0.301 127689.7 127689.7 AVX vaddpd (64bit x4) n8 : 0.597 64287.9 64287.9 AVX vmul+addpd (64bit x4) n8 : 0.304 126266.8 126266.8 FMA vfmaddpd (64bit x4) n8 : 0.302 254425.1 254425.1 AVX vml_ad_adpd (64bit x4) n6 : 0.445 97027.2 97027.2 Average : 0.403 74069.0 74069.0 Highest : 0.287 254425.1 254425.1 * Matrix 4x4 multi-thread C++ code : 0.154 93245.3 93245.3 C++ Intrinsic SSE 128bit : 0.113 127153.1 127153.1 SSE mul/addps 128bit A : 0.178 80482.4 80482.4 AVX vmul/addps 256bit A : 0.135 106365.1 106365.1 Average : 0.145 101811.5 101811.5 Highest : 0.113 127153.1 127153.1
Intel Skylake (AMD64 x86_64 x64) SSE4.2/AVX2/FMA3
Skylake Core i7-6700K 4.0GHz (4.2GHz) 4 core 8 thread Windows 10
Windows 10 1703 bash Skylake Core i7-6700K 4.0GHz (4.2GHz) RAM 32GB ARCH: x64 FPU: SSSE3 SSE4.1 SSE4.2 AVX FMA3 SingleT SP max: 132.274 GFLOPS SingleT DP max: 62.904 GFLOPS MultiT SP max: 511.630 GFLOPS MultiT DP max: 255.417 GFLOPS CPU core: 8 SSE: yes AVX: yes FMA: yes * SSE/AVX (single fp) SSE mulss (32bit x1) n8 : 0.149 8068.1 8068.1 SSE addss (32bit x1) n8 : 0.152 7909.3 7909.3 FMA vfmaddss (32bit x1) n8 : 0.152 15775.5 15775.5 SSE mulps (32bit x4) n8 : 0.152 31539.7 31539.7 SSE addps (32bit x4) n8 : 0.152 31566.9 31566.9 SSE mul+addps (32bit x4) n8 : 0.152 31641.4 31641.4 FMA vfmaddss (32bit x4) n8 : 0.152 63126.7 63126.7 SSE ml+ad+addps (32bit x4) n6 : 0.171 31570.6 31570.6 SSE mulss (32bit x1) ns4 : 0.300 3994.6 3994.6 SSE addss (32bit x1) ns4 : 0.292 4116.5 4116.5 SSE mulps (32bit x4) ns4 : 0.291 16488.3 16488.3 SSE addps (32bit x4) ns4 : 0.292 16411.6 16411.6 AVX vmulps (32bit x8) n8 : 0.145 66011.1 66011.1 AVX vaddps (32bit x8) n8 : 0.146 65962.6 65962.6 AVX vmul+addps (32bit x8) n8 : 0.145 66190.5 66190.5 FMA vfmaddps (32bit x8) n8 : 0.145 132274.2 132274.2 AVX vml+ad+adps (32bit x8) n6 : 0.315 34266.1 34266.1 Average : 0.194 36877.3 36877.3 Highest : 0.145 132274.2 132274.2 * SSE/AVX (double fp) SSE2 mulsd (64bit x1) n8 : 0.146 8234.5 8234.5 SSE2 addsd (64bit x1) n8 : 0.144 8312.1 8312.1 FMA vfmaddsd (64bit x1) n8 : 0.145 16518.1 16518.1 SSE2 mulpd (64bit x2) n8 : 0.148 16244.0 16244.0 SSE2 addpd (64bit x2) n8 : 0.152 15782.7 15782.7 SSE2 mul+addpd (64bit x2) n8 : 0.151 15845.7 15845.7 FMA vfmaddsd (64bit x2) n8 : 0.152 31645.4 31645.4 SSE2 ml+ad+dpd (64bit x2) n6 : 0.171 15830.9 15830.9 SSE2 mulsd (64bit x1) ns4 : 0.304 3942.7 3942.7 SSE2 addsd (64bit x1) ns4 : 0.305 3929.9 3929.9 SSE2 mulpd (64bit x2) ns4 : 0.302 7959.1 7959.1 SSE2 addpd (64bit x2) ns4 : 0.305 7860.2 7860.2 AVX vmulpd (64bit x4) n8 : 0.153 31454.4 31454.4 AVX vaddpd (64bit x4) n8 : 0.152 31618.7 31618.7 AVX vmul+addpd (64bit x4) n8 : 0.151 31715.6 31715.6 FMA vfmaddpd (64bit x4) n8 : 0.153 62904.2 62904.2 AVX vml_ad_adpd (64bit x4) n6 : 0.172 31460.6 31460.6 Average : 0.189 20074.0 20074.0 Highest : 0.144 62904.2 62904.2 * Matrix 4x4 C++ code : 0.316 5670.8 5670.8 C++ Intrinsic SSE 128bit : 0.080 22482.6 22482.6 SSE mul/addps 128bit A : 0.102 17588.8 17588.8 AVX vmul/addps 256bit A : 0.104 17283.1 17283.1 Average : 0.150 15756.3 15756.3 Highest : 0.080 22482.6 22482.6 * SSE/AVX (single fp) multi-thread SSE mulss (32bit x1) n8 : 0.300 31964.6 31964.6 SSE addss (32bit x1) n8 : 0.300 31958.7 31958.7 FMA vfmaddss (32bit x1) n8 : 0.300 63913.1 63913.1 SSE mulps (32bit x4) n8 : 0.301 127650.7 127650.7 SSE addps (32bit x4) n8 : 0.302 127289.7 127289.7 SSE mul+addps (32bit x4) n8 : 0.300 127864.0 127864.0 FMA vfmaddss (32bit x4) n8 : 0.308 249677.3 249677.3 SSE ml+ad+addps (32bit x4) n6 : 0.337 128259.9 128259.9 SSE mulss (32bit x1) ns4 : 0.303 31631.7 31631.7 SSE addss (32bit x1) ns4 : 0.305 31489.1 31489.1 SSE mulps (32bit x4) ns4 : 0.301 127463.0 127463.0 SSE addps (32bit x4) ns4 : 0.302 127330.2 127330.2 AVX vmulps (32bit x8) n8 : 0.300 256036.7 256036.7 AVX vaddps (32bit x8) n8 : 0.300 255702.5 255702.5 AVX vmul+addps (32bit x8) n8 : 0.301 255555.3 255555.3 FMA vfmaddps (32bit x8) n8 : 0.300 511629.9 511629.9 AVX vml+ad+adps (32bit x8) n6 : 0.383 225295.7 225295.7 Average : 0.308 159453.7 159453.7 Highest : 0.300 511629.9 511629.9 * SSE/AVX (double fp) multi-thread SSE2 mulsd (64bit x1) n8 : 0.302 31776.5 31776.5 SSE2 addsd (64bit x1) n8 : 0.300 31957.5 31957.5 FMA vfmaddsd (64bit x1) n8 : 0.300 63905.2 63905.2 SSE2 mulpd (64bit x2) n8 : 0.306 62653.0 62653.0 SSE2 addpd (64bit x2) n8 : 0.300 63899.9 63899.9 SSE2 mul+addpd (64bit x2) n8 : 0.304 63122.8 63122.8 FMA vfmaddsd (64bit x2) n8 : 0.298 128936.1 128936.1 SSE2 ml+ad+dpd (64bit x2) n6 : 0.337 64083.5 64083.5 SSE2 mulsd (64bit x1) ns4 : 0.302 31806.5 31806.5 SSE2 addsd (64bit x1) ns4 : 0.301 31897.7 31897.7 SSE2 mulpd (64bit x2) ns4 : 0.301 63712.9 63712.9 SSE2 addpd (64bit x2) ns4 : 0.302 63649.1 63649.1 AVX vmulpd (64bit x4) n8 : 0.299 128248.4 128248.4 AVX vaddpd (64bit x4) n8 : 0.300 127804.0 127804.0 AVX vmul+addpd (64bit x4) n8 : 0.300 127795.5 127795.5 FMA vfmaddpd (64bit x4) n8 : 0.301 255416.8 255416.8 AVX vml_ad_adpd (64bit x4) n6 : 0.328 131806.2 131806.2 Average : 0.305 86616.0 86616.0 Highest : 0.298 255416.8 255416.8 * Matrix 4x4 multi-thread C++ code : 0.535 26787.3 26787.3 C++ Intrinsic SSE 128bit : 0.112 127645.6 127645.6 SSE mul/addps 128bit A : 0.161 88930.8 88930.8 AVX vmul/addps 256bit A : 0.116 123912.0 123912.0 Average : 0.231 91818.9 91818.9 Highest : 0.112 127645.6 127645.6
AMD Ryzen 7 1800X (AMD64 x86_64 x64) SSE4.2/AVX2/FMA3
Ryzen 7 1800X 3.6GHz (4.0GHz) 8 core 16 thread Windows 10
Windows 10 1703 bash RYZEN 7 1800X 3.6GHz (4.0GHz) 8 core 16 thread RAM 32GB ARCH: x64 FPU: SSSE3 SSE4.1 SSE4.2 AVX FMA3 SingleT SP max: 64.943 GFLOPS SingleT DP max: 31.178 GFLOPS MultiT SP max: 513.464 GFLOPS MultiT DP max: 265.291 GFLOPS CPU core: 16 SSE: yes AVX: yes FMA: yes * SSE/AVX (single fp) SSE mulss (32bit x1) n8 : 0.168 7149.3 7149.3 SSE addss (32bit x1) n8 : 0.147 8182.1 8182.1 FMA vfmaddss (32bit x1) n8 : 0.184 13063.9 13063.9 SSE mulps (32bit x4) n8 : 0.148 32522.5 32522.5 SSE addps (32bit x4) n8 : 0.148 32468.4 32468.4 SSE mul+addps (32bit x4) n8 : 0.112 43002.7 43002.7 FMA vfmaddss (32bit x4) n8 : 0.190 50537.8 50537.8 SSE ml+ad+addps (32bit x4) n6 : 0.111 48543.7 48543.7 SSE mulss (32bit x1) ns4 : 0.225 5338.4 5338.4 SSE addss (32bit x1) ns4 : 0.222 5409.9 5409.9 SSE mulps (32bit x4) ns4 : 0.222 21655.1 21655.1 SSE addps (32bit x4) ns4 : 0.228 21011.3 21011.3 AVX vmulps (32bit x8) n8 : 0.295 32491.2 32491.2 AVX vaddps (32bit x8) n8 : 0.295 32505.0 32505.0 AVX vmul+addps (32bit x8) n8 : 0.148 64943.4 64943.4 FMA vfmaddps (32bit x8) n8 : 0.302 63654.8 63654.8 AVX vml+ad+adps (32bit x8) n6 : 0.302 35749.4 35749.4 Average : 0.203 30484.0 30484.0 Highest : 0.111 64943.4 64943.4 * SSE/AVX (double fp) SSE2 mulsd (64bit x1) n8 : 0.159 7553.3 7553.3 SSE2 addsd (64bit x1) n8 : 0.147 8162.3 8162.3 FMA vfmaddsd (64bit x1) n8 : 0.185 13000.9 13000.9 SSE2 mulpd (64bit x2) n8 : 0.148 16196.3 16196.3 SSE2 addpd (64bit x2) n8 : 0.148 16204.0 16204.0 SSE2 mul+addpd (64bit x2) n8 : 0.148 16254.4 16254.4 FMA vfmaddsd (64bit x2) n8 : 0.191 25160.7 25160.7 SSE2 ml+ad+dpd (64bit x2) n6 : 0.155 17432.7 17432.7 SSE2 mulsd (64bit x1) ns4 : 0.296 4054.3 4054.3 SSE2 addsd (64bit x1) ns4 : 0.222 5413.0 5413.0 SSE2 mulpd (64bit x2) ns4 : 0.296 8107.4 8107.4 SSE2 addpd (64bit x2) ns4 : 0.225 10670.8 10670.8 AVX vmulpd (64bit x4) n8 : 0.301 15973.3 15973.3 AVX vaddpd (64bit x4) n8 : 0.296 16240.2 16240.2 AVX vmul+addpd (64bit x4) n8 : 0.156 30721.8 30721.8 FMA vfmaddpd (64bit x4) n8 : 0.308 31178.2 31178.2 AVX vml_ad_adpd (64bit x4) n6 : 0.224 24110.3 24110.3 Average : 0.212 15672.6 15672.6 Highest : 0.147 31178.2 31178.2 * Matrix 4x4 C++ code : 0.126 14256.3 14256.3 C++ Intrinsic SSE 128bit : 0.075 23777.9 23777.9 SSE mul/addps 128bit A : 0.110 16320.1 16320.1 AVX vmul/addps 256bit A : 0.120 14947.5 14947.5 Average : 0.108 17325.5 17325.5 Highest : 0.075 23777.9 23777.9 * SSE/AVX (single fp) multi-thread SSE mulss (32bit x1) n8 : 0.496 38675.4 38675.4 SSE addss (32bit x1) n8 : 0.288 66718.3 66718.3 FMA vfmaddss (32bit x1) n8 : 0.310 123861.4 123861.4 SSE mulps (32bit x4) n8 : 0.306 250813.2 250813.2 SSE addps (32bit x4) n8 : 0.287 267235.5 267235.5 SSE mul+addps (32bit x4) n8 : 0.210 365064.1 365064.1 FMA vfmaddss (32bit x4) n8 : 0.301 509660.7 509660.7 SSE ml+ad+addps (32bit x4) n6 : 0.259 333839.5 333839.5 SSE mulss (32bit x1) ns4 : 0.309 62036.9 62036.9 SSE addss (32bit x1) ns4 : 0.309 62200.5 62200.5 SSE mulps (32bit x4) ns4 : 0.304 252974.4 252974.4 SSE addps (32bit x4) ns4 : 0.300 256381.2 256381.2 AVX vmulps (32bit x8) n8 : 0.557 275645.2 275645.2 AVX vaddps (32bit x8) n8 : 0.577 266243.7 266243.7 AVX vmul+addps (32bit x8) n8 : 0.388 395735.5 395735.5 FMA vfmaddps (32bit x8) n8 : 0.598 513464.2 513464.2 AVX vml+ad+adps (32bit x8) n6 : 0.454 380420.7 380420.7 Average : 0.368 260057.1 260057.1 Highest : 0.210 513464.2 513464.2 * SSE/AVX (double fp) multi-thread SSE2 mulsd (64bit x1) n8 : 0.500 38438.0 38438.0 SSE2 addsd (64bit x1) n8 : 0.299 64246.9 64246.9 FMA vfmaddsd (64bit x1) n8 : 0.318 120914.8 120914.8 SSE2 mulpd (64bit x2) n8 : 0.305 125952.0 125952.0 SSE2 addpd (64bit x2) n8 : 0.293 130910.1 130910.1 SSE2 mul+addpd (64bit x2) n8 : 0.209 183836.7 183836.7 FMA vfmaddsd (64bit x2) n8 : 0.300 255720.4 255720.4 SSE2 ml+ad+dpd (64bit x2) n6 : 0.249 173153.2 173153.2 SSE2 mulsd (64bit x1) ns4 : 0.329 58366.5 58366.5 SSE2 addsd (64bit x1) ns4 : 0.299 64181.6 64181.6 SSE2 mulpd (64bit x2) ns4 : 0.330 116494.6 116494.6 SSE2 addpd (64bit x2) ns4 : 0.303 126936.3 126936.3 AVX vmulpd (64bit x4) n8 : 0.568 135279.1 135279.1 AVX vaddpd (64bit x4) n8 : 0.575 133544.8 133544.8 AVX vmul+addpd (64bit x4) n8 : 0.396 194182.6 194182.6 FMA vfmaddpd (64bit x4) n8 : 0.579 265291.4 265291.4 AVX vml_ad_adpd (64bit x4) n6 : 0.420 205647.2 205647.2 Average : 0.369 140770.4 140770.4 Highest : 0.209 265291.4 265291.4 * Matrix 4x4 multi-thread C++ code : 0.345 83031.4 83031.4 C++ Intrinsic SSE 128bit : 0.131 218780.0 218780.0 SSE mul/addps 128bit A : 0.201 142798.1 142798.1 AVX vmul/addps 256bit A : 0.210 136732.6 136732.6 Average : 0.222 145335.5 145335.5 Highest : 0.131 218780.0 218780.0