ユーザ用ツール

サイト用ツール


opengl:vfpbenchlog

差分

このページの2つのバージョン間の差分を表示します。

この比較画面へのリンク

両方とも前のリビジョン前のリビジョン
次のリビジョン
前のリビジョン
opengl:vfpbenchlog [2020/01/05 01:37] – [結果一覧] ogaopengl:vfpbenchlog [2020/12/30 23:46] (現在) – [結果一覧] oga
行 7: 行 7:
  
 ~~NOTOC~~ ~~NOTOC~~
 +
  
 ===== 結果一覧 ===== ===== 結果一覧 =====
  
 +^ Device  ^ Clock ^ Thread ^  Single Thread                      ^^^  Multi Thread                     ^^^
 +^ :::     ^ :::   ^ :::    ^  Half-p    ^   Single-p  ^  Double-p  ^  Half-p    Single-p  ^  Double-p  ^
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/AMD%20Ryzen%209%203950X%2016-Core%20Processor.txt|AMD Ryzen 9 3950X 16-Core Processor                                   ]]  |  3.493 GHz |  16/32 |     -- |   128.305 |    63.384 |     -- |  1888.789 |   938.944 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/AMD%20Ryzen%207%20PRO%204750G%20with%20Radeon%20Graphics.txt|AMD Ryzen 7 PRO 4750G with Radeon Graphics                            ]]  |  3.593 GHz |  8/16 |     -- |   141.717 |    70.860 |     -- |  1119.103 |   558.094 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/Intel%28R%29%20Core%28TM%29%20i7-4790K%20CPU%20%40%204.00GHz.txt|Intel(R) Core(TM) i7-4790K CPU @ 4.00GHz                              ]]  |  4.400 GHz |  4/8 |     -- |   140.704 |    70.256 |     -- |   539.429 |   268.944 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/Intel%28R%29%20Core%28TM%29%20i7-6700K%20CPU%20%40%204.00GHz.txt|Intel(R) Core(TM) i7-6700K CPU @ 4.00GHz                              ]]  |  4.200 GHz |  4/8 |     -- |   135.532 |    67.709 |     -- |   537.822 |   271.106 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/AMD%20Ryzen%207%201800X%20Eight-Core%20Processor.txt|AMD Ryzen 7 1800X Eight-Core Processor                                ]]  |  3.600 GHz |  8/16 |     -- |    62.298 |    30.845 |     -- |   465.706 |   228.360 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/Apple%20M1%20arm64%20MacBook%20Air%20Late%202020_macOS.txt|Apple M1 arm64 MacBook Air Late 2020_macOS                            ]]  |  3.200 GHz |  8/8 |   153.108 |    76.576 |    38.314 |   838.481 |   418.500 |   209.847 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/Intel%28R%29%20Core%28TM%29%20i5-1030NG7%20CPU%20%40%201.10GHz_macOS.txt|Intel(R) Core(TM) i5-1030NG7 CPU @ 1.10GHz_macOS                      ]]  |  1.100 GHz |  4/8 |     -- |   111.310 |    55.593 |     -- |   413.685 |   204.351 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/AMD%20Ryzen%205%203400G%20with%20Radeon%20Vega%20Graphics_cTDP35W.txt|AMD Ryzen 5 3400G with Radeon Vega Graphics_cTDP35W                   ]]  |  3.700 GHz |  4/8 |     -- |    64.323 |    32.149 |     -- |   239.429 |   119.606 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/Apple%20A11%20iPhone%20X.txt|Apple A11 iPhone X                                                    ]]  |  2.390 GHz |  6/6 |     -- |    50.968 |    25.414 |     -- |   236.143 |   116.185 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/Intel%28R%29%20Core%28TM%29%20i7-3615QM%20CPU%20%40%202.30GHz.txt|Intel(R) Core(TM) i7-3615QM CPU @ 2.30GHz                             ]]  |  2.301 GHz |  4/8 |     -- |    51.748 |    26.067 |     -- |   193.427 |    96.951 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/Apple%20M1%20Rosetta%20x86_64%20MacBook%20Air%20Late%202020_macOS.txt|Apple M1 Rosetta x86_64 MacBook Air Late 2020_macOS                   ]]  |  2.400 GHz |  8/8 |     -- |    34.142 |    17.064 |     -- |   192.912 |    96.515 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/Qualcomm%20Technologies%2C%20Inc%20SDM845%20Pixel3.txt|Qualcomm Technologies, Inc SDM845 Pixel3                              ]]  |  2.803 GHz |  8/8 |    44.356 |    22.274 |    11.150 |   278.633 |   139.238 |    69.642 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/Qualcomm%20Technologies%2C%20Inc%20MSM8998%20835%20EssentialPhone.txt|Qualcomm Technologies, Inc MSM8998 835 EssentialPhone                 ]]  |  2.458 GHz |  8/8 |     -- |    19.547 |     9.776 |     -- |   134.506 |    67.276 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/MT8183%20FireHD10%282019%29.txt|MT8183 FireHD10(2019)                                                 ]]  |  1.989 GHz |  8/8 |     -- |    15.868 |     7.305 |     -- |   125.541 |    57.218 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/AMD%20A10-7870K%20Radeon%20R7%2C%2012%20Compute%20Cores%204C%2B8G.txt|AMD A10-7870K Radeon R7, 12 Compute Cores 4C+8G                       ]]  |  3.900 GHz |  2/4 |     -- |    62.240 |    31.120 |     -- |   124.508 |    62.259 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/Hisilicon%20Kirin710%20P30Lite.txt|Hisilicon Kirin710 P30Lite                                            ]]  |  2.189 GHz |  8/8 |     -- |    17.423 |     8.709 |     -- |   117.542 |    58.569 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/Apple%20A10%20iPad%207.txt|Apple A10 iPad 7                                                      ]]  |  2.340 GHz |  2/2 |     -- |    54.102 |    26.972 |     -- |   103.423 |    50.847 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/Intel%28R%29%20Core%28TM%29%20i5-3210M%20CPU%20%40%202.50GHz.txt|Intel(R) Core(TM) i5-3210M CPU @ 2.50GHz                              ]]  |  2.501 GHz |  2/4 |     -- |    48.911 |    24.474 |     -- |    89.003 |    42.626 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/Apple%20A9%20iPad%205.txt|Apple A9 iPad 5                                                       ]]  |  1.850 GHz |  2/2 |     -- |    42.569 |    14.718 |     -- |    85.180 |    29.387 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/RK3399%20ChromebookFlipC101PA.txt|RK3399 ChromebookFlipC101PA                                           ]]  |  2.016 GHz |  6/6 |     -- |    16.062 |     8.030 |     -- |    79.036 |    37.760 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/Qualcomm%20Technologies%2C%20Inc%20MSM8937_430_ZenFone3MaxZC553KL.txt|Qualcomm Technologies, Inc MSM8937_430_ZenFone3MaxZC553KL             ]]  |  1.401 GHz |  8/8 |     -- |    10.959 |     5.497 |     -- |    78.350 |    39.069 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/Qualcomm%20Technologies%2C%20Inc%20MSM8992%20808%20Nexus5X.txt|Qualcomm Technologies, Inc MSM8992 808 Nexus5X                        ]]  |  1.824 GHz |  6/6 |     -- |    14.524 |     7.261 |     -- |    73.978 |    37.008 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/Apple%20A9%20iPhone%20SE.txt|Apple A9 iPhone SE                                                    ]]  |  1.850 GHz |  2/2 |     -- |    42.370 |    14.597 |     -- |    73.316 |    27.426 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/Apple%20A8X%20iPad%20Air2.txt|Apple A8X iPad Air2                                                   ]]  |  1.500 GHz |  3/3 |     -- |    23.997 |    11.971 |     -- |    71.878 |    35.941 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/Qualcomm%20MSM%208974%20HAMMERHEAD%20%28Flattened%20Device%20Tree%29%20800%20Nexus5.txt|Qualcomm MSM 8974 HAMMERHEAD (Flattened Device Tree) 800 Nexus5       ]]  |  2.266 GHz |  4/4 |     -- |    16.454 |     3.385 |     -- |    65.470 |    13.868 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/Intel%28R%29%20Celeron%28R%29%20CPU%20%20J1900%20%20%40%201.99GHz.txt|Intel(R) Celeron(R) CPU  J1900  @ 1.99GHz                             ]]  |  2.416 GHz |  4/4 |     -- |    14.477 |     3.619 |     -- |    57.778 |    14.438 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/Intel%28R%29%20Atom%28TM%29%20x7-Z8700%20%20CPU%20%40%201.60GHz_GPDWIN.txt|Intel(R) Atom(TM) x7-Z8700  CPU @ 1.60GHz_GPDWIN                      ]]  |  1.601 GHz |  4/4 |     -- |    14.259 |     3.585 |     -- |    57.101 |    14.184 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/NVIDIA%20Tegra4%20tegratab%20TegraNote7.txt|NVIDIA Tegra4 tegratab TegraNote7                                     ]]  |  1.810 GHz |  4/4 |     -- |    14.090 |     2.610 |     -- |    50.955 |     9.795 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/BCM2711%20Raspberry%20Pi%204%20Model%20B%20Rev%201.11.txt|BCM2711 Raspberry Pi 4 Model B Rev 1.11                               ]]  |  1.500 GHz |  4/4 |     -- |    11.972 |     5.984 |     -- |    47.921 |    23.960 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/NVIDIA_TegraX1_JetsonNano.txt|NVIDIA_TegraX1_JetsonNano                                             ]]  |  1.428 GHz |  4/4 |     -- |    11.401 |     5.702 |     -- |    45.510 |    22.763 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/Apple%20A8%20Apple%20TV%20HD.txt|Apple A8 Apple TV HD                                                  ]]  |  1.500 GHz |  2/2 |     -- |    22.204 |    11.107 |     -- |    44.145 |    21.667 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/QCT%20APQ8064%20FLO%20Snapdragon%20S4%20Pro%20Nexus7%282013%29.txt|QCT APQ8064 FLO Snapdragon S4 Pro Nexus7(2013)                        ]]  |  1.512 GHz |  4/4 |     -- |    10.950 |     2.297 |     -- |    43.660 |     9.229 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/Apple%20A7%20iPad%20mini%202.txt|Apple A7 iPad mini 2                                                  ]]  |  1.300 GHz |  2/2 |     -- |    20.415 |    10.231 |     -- |    40.904 |    20.443 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/Apple%20A7%20iPhone%205S.txt|Apple A7 iPhone 5S                                                    ]]  |  1.300 GHz |  2/2 |     -- |    20.086 |     9.990 |     -- |    40.146 |    20.237 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/BCM2837%20Raspberry%20Pi%203%20Model%20B%20Rev%201.2.txt|BCM2837 Raspberry Pi 3 Model B Rev 1.2                                ]]  |  1.200 GHz |  4/4 |     -- |     9.400 |     4.299 |     -- |    37.230 |    17.211 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/NVIDIA%20TegraK1%20Nexus9.txt|NVIDIA TegraK1 Nexus9                                                 ]]  |  2.499 GHz |  2/2 |     -- |    18.122 |     9.089 |     -- |    36.290 |    18.101 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/Apple%20A8%20iPod%20touch%206.txt|Apple A8 iPod touch 6                                                 ]]  |  1.100 GHz |  2/2 |     -- |    17.958 |     8.973 |     -- |    35.796 |    17.899 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/Intel%28R%29%20Atom%28TM%29%20CPU%20%20Z3745%20%20%40%201.33GHz_MeMOPad7ME176C.txt|Intel(R) Atom(TM) CPU  Z3745  @ 1.33GHz_MeMOPad7ME176C                ]]  |  1.862 GHz |  4/4 |     -- |     8.927 |     2.783 |     -- |    35.631 |    11.140 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/MT8135%20FireHD6%282014%29.txt|MT8135 FireHD6(2014)                                                  ]]  |  1.508 GHz |  4/4 |     -- |    12.001 |     2.400 |     -- |    28.816 |     7.135 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/Apple%20S6%20Watch%20Series%206.txt|Apple S6 Watch Series 6                                               ]]  |  1.500 GHz |  2/2 |    25.256 |    12.629 |     6.314 |    50.421 |    25.223 |    12.600 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/Intel%28R%29%20Atom%28TM%29%20CPU%20Z2560%20%20%40%201.60GHz_Fonepad7ME372CL.txt|Intel(R) Atom(TM) CPU Z2560  @ 1.60GHz_Fonepad7ME372CL                ]]  |  1.600 GHz |  2/4 |     -- |     7.588 |     1.544 |     -- |    18.566 |     3.241 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/Intel%28R%29%20Celeron%28R%29%202957U%20%40%201.40GHz.txt|Intel(R) Celeron(R) 2957U @ 1.40GHz                                   ]]  |  1.400 GHz |  2/2 |     -- |     8.927 |     4.464 |     -- |    17.850 |     8.928 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/Apple%20A6%20iPhone%205.txt|Apple A6 iPhone 5                                                     ]]  |  1.300 GHz |  2/2 |     -- |     9.873 |     1.379 |     -- |    17.146 |     3.142 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/BCM2836%20Raspberry%20Pi%202%20Model%20B%20Rev%201.1.txt|BCM2836 Raspberry Pi 2 Model B Rev 1.1                                ]]  |  0.900 GHz |  4/4 |     -- |     1.777 |     0.871 |     -- |     7.023 |     3.444 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/Apple%20S2%20Watch%20Series%202.txt|Apple S2 Watch Series 2                                               ]]  |  0.520 GHz |  2/2 |     -- |     1.023 |     0.502 |     -- |     1.841 |     0.899 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/BCM2835%20Raspberry%20Pi%20Model%20B.txt|BCM2835 Raspberry Pi Model B                                          ]]  |  0.700 GHz |  1/1 |     -- |     0.637 |     0.637 |     -- |     0.637 |     0.629 |
 +
 +
 +
 +
 +  * Half-p, Single-p, Dobule-p の単位は GFLOPS
 +  * Multi Thread Single-p が大きい順に並んでいます。
 +  * Apple M1/A10~ など Apple OS 上の big.LITTLE CPU では LITTLE core の正しい計測ができていません。Multi Thread のスコアは不正確で実際より大きな値が出ています。Single Thread の値だけ見るようにしてください。
 +
 +
 +
 +
 +----
 +
 +==== 旧リスト ====
  
 ^ Device                      ^ OS      ^ SoC                    ^ CPU                  ^ FPU              ^    ^ clock    ^Single-SP^Single-DP^ Multi-SP ^ Multi-DP ^ ^ Device                      ^ OS      ^ SoC                    ^ CPU                  ^ FPU              ^    ^ clock    ^Single-SP^Single-DP^ Multi-SP ^ Multi-DP ^
行 18: 行 81:
 | Apple Mac mini Late 2012    | OSX.10  | Intel Core i7-3615QM   | Ivy Birdge    | x64    | SSE4.2/AVX        4 |   2.3GHz |  51.427 |  25.693 |  194.698 |   96.913 | | Apple Mac mini Late 2012    | OSX.10  | Intel Core i7-3615QM   | Ivy Birdge    | x64    | SSE4.2/AVX        4 |   2.3GHz |  51.427 |  25.693 |  194.698 |   96.913 |
 | Apple MacBook Pro Late 2011 | OSX.10  | Intel Core i7-2720QM   | Sandy Bridge  | x64    | SSE4.2/AVX        4 |   2.2GHz |  52.260 |  26.137 |  162.316 |   74.049 | | Apple MacBook Pro Late 2011 | OSX.10  | Intel Core i7-2720QM   | Sandy Bridge  | x64    | SSE4.2/AVX        4 |   2.2GHz |  52.260 |  26.137 |  162.316 |   74.049 |
-| Pixel 3                     A9.0    | Snapdragon 845         | Kryo 385(A75/55) | ARMv8A | AArch64          |  8 |   2.8GHz |  35.994 |  17.990 |  139.338 |   69.582 |+Google Pixel 3              A10     | Snapdragon 845         | Kryo 385(A75/55) | ARMv8.2A | AArch64     |  8 |   2.8GHz |  22.274 |  11.150 |  139.238 |   69.642 | 
 +| Essential Phone PH-1        | A10     | Snapdragon 835         | Kryo (A73/53) | ARMv8A | AArch64          |  8 |  2.45GHz |  19.547 |   9.776 |  134.506 |   67.276 | 
 +| Amazon Fire HD 10 2019      | A9.0    | Mediatek MT8183        | A73/A53       | ARMv8A | AArch64          |  8 |   2.0GHz |  15.868 |   7.305 |  125.541 |   57.218 |
 | PC AMD A10-7870K            | Win10   | AMD A10-7870K          | Steamroller   | x64    | SSE4.2/AVX/FMA3  |  2 |   3.9GHz |  64.743 |  32.400 |  124.500 |   62.247 | | PC AMD A10-7870K            | Win10   | AMD A10-7870K          | Steamroller   | x64    | SSE4.2/AVX/FMA3  |  2 |   3.9GHz |  64.743 |  32.400 |  124.500 |   62.247 |
 | Apple MacBook Pro Late 2013 | OSX.10  | Intel Core i5-3210M    | Ivy Birdge    | x64    | SSE4.2/AVX        2 |   2.5GHz |  48.604 |  24.317 |   90.247 |   45.223 | | Apple MacBook Pro Late 2013 | OSX.10  | Intel Core i5-3210M    | Ivy Birdge    | x64    | SSE4.2/AVX        2 |   2.5GHz |  48.604 |  24.317 |   90.247 |   45.223 |
 | iPhone SE                   | iOS9.3  | Apple A9               | Twister       | ARMv8A | AArch64          |  2 |  1.85GHz |  41.857 |  14.545 |   81.071 |   28.333 | | iPhone SE                   | iOS9.3  | Apple A9               | Twister       | ARMv8A | AArch64          |  2 |  1.85GHz |  41.857 |  14.545 |   81.071 |   28.333 |
 +| Chromebook Flip C101PA      | Chrome  | RockChip RK3399        | A72 + A53     | ARMv8A | AArch64          |  6 |   2.0GHz |  16.062 |   8.030 |   79.036 |   37.760 |
 | NVIDIA SHIELD Tablet        | A4.4    | NVIDIA Tegra K1        | Cortex-A15    | ARMv7A | VFPv4 NEON        4 |   2.2GHz |  17.136 |   3.431 |   70.174 |   14.036 | | NVIDIA SHIELD Tablet        | A4.4    | NVIDIA Tegra K1        | Cortex-A15    | ARMv7A | VFPv4 NEON        4 |   2.2GHz |  17.136 |   3.431 |   70.174 |   14.036 |
 | Apple iPad A8X              | i8.0    | Apple A8X              | Typhoon       | ARMv8A | AArch64          |  3 |   1.5GHz |  23.568 |  11.751 |   68.591 |   33.968 | | Apple iPad A8X              | i8.0    | Apple A8X              | Typhoon       | ARMv8A | AArch64          |  3 |   1.5GHz |  23.568 |  11.751 |   68.591 |   33.968 |
行 9234: 行 9300:
  
 <code> <code>
 +Date: 20200810 123729
 ARCH: ARMv8A AArch64 ARCH: ARMv8A AArch64
 FPU : ASIMD(AArch64 NEON) FPU : ASIMD(AArch64 NEON)
-Name: Qualcomm Technologies, Inc MSM8998+Name: Qualcomm Technologies, Inc MSM8998 835 EssentialPhone
  
 CPU Thread:  8 CPU Thread:  8
行 9243: 行 9310:
   Group 0: Thread= 4  Clock=1.900800 GHz  (mask:f)   Group 0: Thread= 4  Clock=1.900800 GHz  (mask:f)
   Group 1: Thread= 4  Clock=2.457600 GHz  (mask:f0)   Group 1: Thread= 4  Clock=2.457600 GHz  (mask:f0)
-NEON  : yes +NEON   : yes 
-FMA   : yes +FMA    : yes 
-FPHP  : no +FPHP   : no 
-SIMDHP: no+SIMDHP : no 
 +DotProd: no
  
 Total: Total:
 SingleThread HP max: - SingleThread HP max: -
-SingleThread SP max:   34.353 GFLOPS +SingleThread SP max:   19.547 GFLOPS 
-SingleThread DP max:   17.178 GFLOPS+SingleThread DP max:    9.776 GFLOPS
 MultiThread  HP max: - MultiThread  HP max: -
-MultiThread  SP max:  129.511 GFLOPS +MultiThread  SP max:  134.506 GFLOPS 
-MultiThread  DP max:   67.329 GFLOPS+MultiThread  DP max:   67.276 GFLOPS
  
 Group 0:  Thread=4  Clock=1.900800 GHz  (mask:f) Group 0:  Thread=4  Clock=1.900800 GHz  (mask:f)
   SingleThread HP max: -   SingleThread HP max: -
-  SingleThread SP max:   14.806 GFLOPS +  SingleThread SP max:   14.783 GFLOPS 
-  SingleThread DP max:    7.406 GFLOPS+  SingleThread DP max:    7.401 GFLOPS
   MultiThread  HP max: -   MultiThread  HP max: -
-  MultiThread  SP max:   59.267 GFLOPS +  MultiThread  SP max:   59.194 GFLOPS 
-  MultiThread  DP max:   29.639 GFLOPS+  MultiThread  DP max:   29.625 GFLOPS
  
 Group 1:  Thread=4  Clock=2.457600 GHz  (mask:f0) Group 1:  Thread=4  Clock=2.457600 GHz  (mask:f0)
   SingleThread HP max: -   SingleThread HP max: -
   SingleThread SP max:   19.547 GFLOPS   SingleThread SP max:   19.547 GFLOPS
-  SingleThread DP max:    9.772 GFLOPS+  SingleThread DP max:    9.776 GFLOPS
   MultiThread  HP max: -   MultiThread  HP max: -
-  MultiThread  SP max:   70.244 GFLOPS +  MultiThread  SP max:   75.312 GFLOPS 
-  MultiThread  DP max:   37.690 GFLOPS+  MultiThread  DP max:   37.650 GFLOPS
  
  
 * Group 0:  Thread=1  Clock=1.900800 GHz  (mask:f) * Group 0:  Thread=1  Clock=1.900800 GHz  (mask:f)
 * FPU/NEON (SP fp) * FPU/NEON (SP fp)
-                                  TIME(s)   MFLOPS      MOPS    FOP IPC  max MFLOPS +                                      TIME(s)   MFLOPS      MOPS     FOP   IPC 
-FPU fmul (32bit x1) n8        :    0.319     3574.    3574.(  1 1.9   3574.0 +FPU fmul (32bit x1) n8            :    0.335     3407.    3407.9  (  1.0 1.8
-FPU fadd (32bit x1) n8        :    0.334     3415.    3415.(  1 1.8   3415.8 +FPU fadd (32bit x1) n8            :    0.319     3577.    3577.4  (  1.0 1.9
-FPU fmadd (32bit x1) n8       :    0.621     3675.    1837.(  2 1.0)    3675.2 +FPU fmadd (32bit x1) n8           :    0.609     3747.    1873.5  (  2.0 1.0) 
-NEON fmul.2s (32bit x2) n8    :    0.334     6821.    3410.(  2 1.8   6821.6 +NEON fmul.2s (32bit x2) n8        :    0.318     7171.    3585.7  (  2.0 1.9
-NEON fadd.2s (32bit x2) n8    :    0.335     6807.    3403.(  2 1.8   6807.5 +NEON fadd.2s (32bit x2) n8        :    0.318     7163.    3581.6  (  2.0 1.9
-NEON fmla.2s (32bit x2) n8    :    0.334    13676.    3419.(  4 1.8  13676.0 +NEON fmla.2s (32bit x2) n8        :    0.318    14338.    3584.7  (  4.0 1.9
-NEON fmul.4s (32bit x4) n8    :    0.623     7325.    1831.(  4 1.0)    7325.9 +NEON fmul.4s (32bit x4) n8        :    0.622     7332.    1833.0  (  4.0 1.0) 
-NEON fadd.4s (32bit x4) n8    :    0.628     7258.    1814.(  4 1.0)    7258.5 +NEON fadd.4s (32bit x4) n8        :    0.623     7324.    1831.1  (  4.0 1.0) 
-NEON fmla.4s (32bit x4) n8    :    0.622    14677.    1834.7 (  8 1.0)   14677.4 +NEON fmla.4s (32bit x4) n8        :    0.621    14685.    1835.7  (  8.0 1.0) 
-FPU fmul (32bit x1) ns4       :    0.607     1879.    1879.(  1 1.0)    1879.9 +FPU fmul (32bit x1) ns4           :    0.606     1882.    1882.1  (  1.0 1.0) 
-FPU fadd (32bit x1) ns4       :    0.608     1874.    1874.(  1 1.0)    1874.4 +FPU fadd (32bit x1) ns4           :    0.607     1879.    1879.2  (  1.0 1.0) 
-FPU fmadd (32bit x1) ns4      :    0.685     3328.0     1664.(  2 0.9)    3328.0 +FPU fmadd (32bit x1) ns4          :    0.607     3755.0     1877.5  (  2.1.0) 
-NEON fmul.2s (32bit x2) ns4   :    0.606     3761.1     1880.(  2 1.0)    3761.1 +NEON fmul.2s (32bit x2) ns4       :    0.608     3753.1     1876.5  (  2.0 1.0) 
-NEON fadd.2s (32bit x2) ns4   :    0.606     3763.    1881.(  2 1.0)    3763.2 +NEON fadd.2s (32bit x2) ns4       :    0.607     3757.    1878.7  (  2.0 1.0) 
-NEON fmla.2s (32bit x2) ns4   :    1.212     3763.     940.(  4 0.5)    3763.5 +NEON fmla.2s (32bit x2) ns4       :    1.225     3724.     931.1  (  4.0 0.5) 
-NEON fmul.4s (32bit x4) ns4   :    0.621     7346.    1836.(  4 1.0)    7346.7 +NEON fmul.4s (32bit x4) ns4       :    0.622     7329.    1832.3  (  4.0 1.0) 
-NEON fadd.4s (32bit x4) ns4   :    0.621     7341.    1835.(  4 1.0)    7341.7 +NEON fadd.4s (32bit x4) ns4       :    0.622     7330.    1832.5  (  4.0 1.0) 
-NEON fmla.4s (32bit x4) ns4   :    1.215     7511.     939.(  8 0.5)    7511.8 +NEON fmla.4s (32bit x4) ns4       :    1.215     7511.     938.9  (  8.0 0.5) 
-FPU fmul (32bit x1) n1        :    0.607     1878.9     1878.9 (  1 1.0)    1878.9 +FPU fmul (32bit x1) n1            :    0.607     1877.9     1877.9  (  1.0 1.0) 
-FPU fadd (32bit x1) n1        :    0.606     1881.    1881.(  1 1.0)    1881.4 +FPU fadd (32bit x1) n1            :    0.607     1879.    1879.1  (  1.0 1.0) 
-FPU fmadd (32bit x1) n1       :    4.848      470.     235.(  2 0.1)     470.5 +FPU fmadd (32bit x1) n1           :    4.855      469.     234.9  (  2.0 0.1) 
-NEON fmul.2s (32bit x2) n1    :    0.606     3763.    1881.(  2 1.0)    3763.0 +NEON fmul.2s (32bit x2) n1        :    0.607     3757.    1878.8  (  2.0 1.0) 
-NEON fadd.2s (32bit x2) n1    :    0.606     3765.    1882.(  2 1.0)    3765.6 +NEON fadd.2s (32bit x2) n1        :    0.607     3756.    1878.3  (  2.0 1.0) 
-NEON fmla.2s (32bit x2) n1    :    2.424     1882.     470.(  4 0.2)    1882.0 +NEON fmla.2s (32bit x2) n1        :    2.428     1878.     469.7  (  4.0 0.2) 
-NEON fmul.4s (32bit x4) n1    :    0.621     7342.7     1835.7 (  4 1.0)    7342.7 +NEON fmul.4s (32bit x4) n1        :    0.623     7326.7     1831.7  (  4.0 1.0) 
-NEON fadd.4s (32bit x4) n1    :    0.623     7321.    1830.(  4 1.0)    7321.4 +NEON fadd.4s (32bit x4) n1        :    0.623     7327.    1831.8  (  4.0 1.0) 
-NEON fmla.4s (32bit x4) n1    :    2.428     3757.     469.(  8 0.2)    3757.9 +NEON fmla.4s (32bit x4) n1        :    2.429     3756.     469.6  (  8.0 0.2) 
-NEON fmul.4s (32bit x4) n12   :    0.926     7393.    1848.(  4 1.0)    7393.5 +NEON fmul.4s (32bit x4) n12       :    0.926     7392.    1848.0  (  4.0 1.0) 
-NEON fadd.4s (32bit x4) n12   :    0.925     7398.    1849.(  4 1.0)    7398.8 +NEON fadd.4s (32bit x4) n12       :    0.926     7390.    1847.6  (  4.0 1.0) 
-NEON fmla.4s (32bit x4) n12   :    0.924    14806.    1850.(  8 1.0)   14806.5 +NEON fmla.4s (32bit x4) n12       :    0.926    14772.    1846.5  (  8.0 1.0) 
-Average                       :    0.903     5648.    1906.(  3 1.0)    5648.8 +Average                           :    0.899     5708.    1931.1  (  3.3 1.0) 
-Highest                       :    0.319    14806.    3574.(  8 1.9)   14806.5+Highest                           :    0.318    14772.    3585.7  (  8.0 1.9)
  
  
 * Group 0:  Thread=1  Clock=1.900800 GHz  (mask:f) * Group 0:  Thread=1  Clock=1.900800 GHz  (mask:f)
 * FPU/NEON (DP fp) * FPU/NEON (DP fp)
-                                  TIME(s)   MFLOPS      MOPS    FOP IPC  max MFLOPS +                                      TIME(s)   MFLOPS      MOPS     FOP   IPC 
-FPU fmul (64bit x1) n8        :    0.336     3397.    3397.(  1 1.8   3397.5 +FPU fmul (64bit x1) n8            :    0.318     3588.    3588.3  (  1.0 1.9
-FPU fadd (64bit x1) n8        :    0.323     3529.    3529.(  1 1.9   3529.5 +FPU fadd (64bit x1) n8            :    0.333     3420.    3420.3  (  1.0 1.8
-FPU fmadd (64bit x1) n8       :    0.607     3755.    1877.(  2 1.0)    3755.4 +FPU fmadd (64bit x1) n8           :    0.615     3709.    1854.8  (  2.0 1.0) 
-NEON fmul.2d (64bit x2) n8    :    0.622     3664.    1832.(  2 1.0)    3664.8 +NEON fmul.2d (64bit x2) n8        :    0.622     3668.    1834.1  (  2.0 1.0) 
-NEON fadd.2d (64bit x2) n8    :    0.626     3646.    1823.(  2 1.0)    3646.5 +NEON fadd.2d (64bit x2) n8        :    0.622     3665.    1832.8  (  2.0 1.0) 
-NEON fmla.2d (64bit x2) n8    :    0.622     7331.    1832.(  4 1.0)    7331.3 +NEON fmla.2d (64bit x2) n8        :    0.623     7324.    1831.2  (  4.0 1.0) 
-FPU fmul (64bit x1) ns4       :    0.606     1881.    1881.(  1 1.0)    1881.0 +FPU fmul (64bit x1) ns4           :    0.607     1879.    1879.1  (  1.0 1.0) 
-FPU fadd (64bit x1) ns4       :    0.607     1879.    1879.(  1 1.0)    1879.0 +FPU fadd (64bit x1) ns4           :    0.607     1878.    1878.3  (  1.0 1.0) 
-FPU fmadd (64bit x1) ns4      :    0.608     3750.    1875.(  2 1.0)    3750.0 +FPU fmadd (64bit x1) ns4          :    0.684     3335.    1667.9  (  2.0 0.9
-NEON fmul.2d (64bit x2) ns4   :    0.623     3661.    1830.8 (  2 1.0)    3661.5 +NEON fmul.2d (64bit x2) ns4       :    0.623     3661.    1830.8  (  2.0 1.0) 
-NEON fadd.2d (64bit x2) ns4   :    0.621     3671.3     1835.7 (  2 1.0)    3671.3 +NEON fadd.2d (64bit x2) ns4       :    0.625     3651.3     1825.7  (  2.0 1.0) 
-NEON fmla.2d (64bit x2) ns4   :    1.215     3754.     938.(  4 0.5)    3754.9 +NEON fmla.2d (64bit x2) ns4       :    1.213     3761.     940.4  (  4.0 0.5) 
-FPU fmul (64bit x1) n1        :    0.606     1881.    1881.(  1 1.0)    1881.6 +FPU fmul (64bit x1) n1            :    0.606     1880.    1880.8  (  1.0 1.0) 
-FPU fadd (64bit x1) n1        :    0.606     1881.    1881.(  1 1.0)    1881.2 +FPU fadd (64bit x1) n1            :    0.607     1877.    1877.3  (  1.0 1.0) 
-FPU fmadd (64bit x1) n1       :    4.854      469.     234.(  2 0.1)     469.9 +FPU fmadd (64bit x1) n1           :    4.851      470.     235.1  (  2.0 0.1) 
-NEON fmul.2d (64bit x2) n1    :    0.632     3610.    1805.(  2 0.9   3610.8 +NEON fmul.2d (64bit x2) n1        :    0.621     3671.    1835.6  (  2.1.0
-NEON fadd.2d (64bit x2) n1    :    0.620     3680.    1840.(  2 1.0)    3680.9 +NEON fadd.2d (64bit x2) n1        :    0.621     3671.    1835.6  (  2.0 1.0) 
-NEON fmla.2d (64bit x2) n1    :    2.429     1878.     469.(  4 0.2)    1878.1 +NEON fmla.2d (64bit x2) n1        :    2.425     1881.     470.2  (  4.0 0.2) 
-NEON fmul.2d (64bit x2) n12   :    0.925     3698.    1849.(  2 1.0)    3698.7 +NEON fmul.2d (64bit x2) n12       :    0.926     3696.    1848.1  (  2.0 1.0) 
-NEON fadd.2d (64bit x2) n12   :    0.924     3703.    1851.(  2 1.0)    3703.2 +NEON fadd.2d (64bit x2) n12       :    0.926     3695.    1847.5  (  2.0 1.0) 
-NEON fmla.2d (64bit x2) n12   :    0.924     7406.    1851.6 (  4 1.0)    7406.2 +NEON fmla.2d (64bit x2) n12       :    0.925     7398.    1849.6  (  4.0 1.0) 
-Average                       :    0.949     3434.9     1819.0 (  2 1.0)    3434.9 +Average                           :    0.952     3418.    1812.5  (  2.1 1.0) 
-Highest                       :    0.323     7406.    3529.5 (  4 1.9)    7406.2 +Highest                           :    0.318     7398.    3588.3  (  4.0 1.9)
- +
- +
-* Group 0:  Thread= Clock=1.900800 GHz  (mask:f) +
-* Matrix 4x4 +
-                                  TIME(s)   MFLOPS      MOPS    FOP IPC  max MFLOPS +
-C++ code                      :    0.426     3998.6     3998.6 (  1 2.1   3998.6 +
-NEON fmla.4s 128bit A         :    0.714     2385.    2385.9 (  1 1.3)    2385.9 +
-NEON fmla.4s 128bit B         :    0.350     4870.7     4870.7 (  1 2.6)    4870.7 +
-Average                       :    0.496     3751.7     3751.7 (  1 2.0)    3751.7 +
-Highest                       :    0.350     4870.7     4870.7 (  2.6   4870.7+
  
  
 * Group 0:  Thread=4  Clock=1.900800 GHz  (mask:f) * Group 0:  Thread=4  Clock=1.900800 GHz  (mask:f)
 * FPU/NEON (SP fp) multi-thread * FPU/NEON (SP fp) multi-thread
-                                  TIME(s)   MFLOPS      MOPS    FOP IPC  max MFLOPS +                                      TIME(s)   MFLOPS      MOPS     FOP   IPC 
-FPU fmul (32bit x1) n8        :    0.318    14335.    3583.(  4 1.9  14335.7 +FPU fmul (32bit x1) n8            :    0.334    13666.    3416.5  (  4.0 1.8
-FPU fadd (32bit x1) n8        :    0.333    13704.    3426.(  4 1.8  13704.3 +FPU fadd (32bit x1) n8            :    0.320    14246.    3561.5  (  4.0 1.9
-FPU fmadd (32bit x1) n8       :    0.620    14727.    1840.(  8 1.0)   14727.6 +FPU fmadd (32bit x1) n8           :    0.606    15061.    1882.7  (  8.0 1.0) 
-NEON fmul.2s (32bit x2) n8    :    0.333    27405.    3425.(  8 1.8  27405.8 +NEON fmul.2s (32bit x2) n8        :    0.319    28609.    3576.2  (  8.0 1.9
-NEON fadd.2s (32bit x2) n8    :    0.334    27323.    3415.(  8 1.8  27323.1 +NEON fadd.2s (32bit x2) n8        :    0.318    28688.    3586.1  (  8.0 1.9
-NEON fmla.2s (32bit x2) n8    :    0.339    53820.    3363.( 16 1.8  53820.0 +NEON fmla.2s (32bit x2) n8        :    0.318    57306.    3581.6  ( 16.0 1.9
-NEON fmul.4s (32bit x4) n8    :    0.622    29351.    1834.( 16 1.0)   29351.1 +NEON fmul.4s (32bit x4) n8        :    0.623    29292.    1830.8  ( 16.0 1.0) 
-NEON fadd.4s (32bit x4) n8    :    0.622    29337.    1833.( 16 1.0)   29337.7 +NEON fadd.4s (32bit x4) n8        :    0.623    29296.    1831.0  ( 16.0 1.0) 
-NEON fmla.4s (32bit x4) n8    :    0.621    58795.    1837.( 32 1.0)   58795.1 +NEON fmla.4s (32bit x4) n8        :    0.622    58721.    1835.0  ( 32.0 1.0) 
-FPU fmul (32bit x1) ns4       :    0.616     7401.    1850.(  4 1.0)    7401.8 +FPU fmul (32bit x1) ns4           :    0.607     7515.    1879.0  (  4.0 1.0) 
-FPU fadd (32bit x1) ns4       :    0.606     7530.    1882.(  4 1.0)    7530.2 +FPU fadd (32bit x1) ns4           :    0.607     7521.    1880.3  (  4.0 1.0) 
-FPU fmadd (32bit x1) ns4      :    0.681    13398.    1674.(  8 0.9  13398.8 +FPU fmadd (32bit x1) ns4          :    0.609    14992.    1874.1  (  8.1.0
-NEON fmul.2s (32bit x2) ns4   :    0.606    15060.    1882.6 (  8 1.0)   15060.4 +NEON fmul.2s (32bit x2) ns4       :    0.606    15061.    1882.6  (  8.0 1.0) 
-NEON fadd.2s (32bit x2) ns4   :    0.606    15044.    1880.(  8 1.0)   15044.6 +NEON fadd.2s (32bit x2) ns4       :    0.607    15034.    1879.4  (  8.0 1.0) 
-NEON fmla.2s (32bit x2) ns4   :    1.213    15046.     940.( 16 0.5)   15046.6 +NEON fmla.2s (32bit x2) ns4       :    1.227    14876.     929.8  ( 16.0 0.5) 
-NEON fmul.4s (32bit x4) ns4   :    0.621    29394.4     1837.( 16 1.0)   29394.4 +NEON fmul.4s (32bit x4) ns4       :    0.622    29354.4     1834.7  ( 16.0 1.0) 
-NEON fadd.4s (32bit x4) ns4   :    0.622    29352.    1834.( 16 1.0)   29352.1 +NEON fadd.4s (32bit x4) ns4       :    0.621    29381.    1836.3  ( 16.0 1.0) 
-NEON fmla.4s (32bit x4) ns4   :    1.219    29926.     935.( 32 0.5)   29926.9 +NEON fmla.4s (32bit x4) ns4       :    1.214    30067.     939.6  ( 32.0 0.5) 
-FPU fmul (32bit x1) n1        :    0.608     7505.    1876.(  4 1.0)    7505.8 +FPU fmul (32bit x1) n1            :    0.609     7496.    1874.2  (  4.0 1.0) 
-FPU fadd (32bit x1) n1        :    0.606     7528.    1882.2 (  4 1.0)    7528.7 +FPU fadd (32bit x1) n1            :    0.621     7340.    1835.2  (  4.0 1.0) 
-FPU fmadd (32bit x1) n1       :    4.859     1877.     234.(  8 0.1)    1877.9 +FPU fmadd (32bit x1) n1           :    4.855     1879.     234.9  (  8.0 0.1) 
-NEON fmul.2s (32bit x2) n1    :    0.616    14812.    1851.5 (  8 1.0)   14812.3 +NEON fmul.2s (32bit x2) n1        :    0.608    15003.    1875.5  (  8.0 1.0) 
-NEON fadd.2s (32bit x2) n1    :    0.605    15074.    1884.(  8 1.0)   15074.0 +NEON fadd.2s (32bit x2) n1        :    0.607    15024.    1878.0  (  8.0 1.0) 
-NEON fmla.2s (32bit x2) n1    :    2.433     7500.4      468.( 16 0.2)    7500.4 +NEON fmla.2s (32bit x2) n1        :    2.425     7523.4      470.2  ( 16.0 0.2) 
-NEON fmul.4s (32bit x4) n1    :    0.630    28977.    1811.( 16 1.0)   28977.6 +NEON fmul.4s (32bit x4) n1        :    0.621    29364.    1835.3  ( 16.0 1.0) 
-NEON fadd.4s (32bit x4) n1    :    0.622    29345.    1834.( 16 1.0)   29345.1 +NEON fadd.4s (32bit x4) n1        :    0.623    29273.    1829.6  ( 16.0 1.0) 
-NEON fmla.4s (32bit x4) n1    :    2.434    14996.4      468.( 32 0.2)   14996.4 +NEON fmla.4s (32bit x4) n1        :    2.431    15015.4      469.2  ( 32.0 0.2) 
-NEON fmul.4s (32bit x4) n12   :    0.935    29289.    1830.( 16 1.0)   29289.7 +NEON fmul.4s (32bit x4) n12       :    0.925    29578.    1848.7  ( 16.0 1.0) 
-NEON fadd.4s (32bit x4) n12   :    0.923    29648.    1853.( 16 1.0)   29648.5 +NEON fadd.4s (32bit x4) n12       :    0.925    29578.    1848.6  ( 16.0 1.0) 
-NEON fmla.4s (32bit x4) n12   :    0.924    59267.    1852.( 32 1.0)   59267.3 +NEON fmla.4s (32bit x4) n12       :    0.927    59069.    1845.9  ( 32.0 1.0) 
-Average                       :    0.904    22559.    1904.( 13 1.0)   22559.3 +Average                           :    0.899    22828.    1929.4  ( 13.3 1.0) 
-Highest                       :    0.318    59267.    3583.( 32 1.9)   59267.3+Highest                           :    0.318    59069.    3586.1  ( 32.0 1.9)
  
  
 * Group 0:  Thread=4  Clock=1.900800 GHz  (mask:f) * Group 0:  Thread=4  Clock=1.900800 GHz  (mask:f)
 * FPU/NEON (DP fp) multi-thread * FPU/NEON (DP fp) multi-thread
-                                  TIME(s)   MFLOPS      MOPS    FOP IPC  max MFLOPS +                                      TIME(s)   MFLOPS      MOPS     FOP   IPC 
-FPU fmul (64bit x1) n8        :    0.336    13593.    3398.(  4 1.8  13593.7 +FPU fmul (64bit x1) n8            :    0.321    14232.    3558.2  (  4.0 1.9
-FPU fadd (64bit x1) n8        :    0.323    14139.0     3534.(  4 1.9  14139.0 +FPU fadd (64bit x1) n8            :    0.333    13683.0     3420.8  (  4.0 1.8
-FPU fmadd (64bit x1) n8       :    0.606    15065.    1883.(  8 1.0)   15065.8 +FPU fmadd (64bit x1) n8           :    0.614    14859.    1857.5  (  8.0 1.0) 
-NEON fmul.2d (64bit x2) n8    :    0.621    14688.    1836.(  8 1.0)   14688.0 +NEON fmul.2d (64bit x2) n8        :    0.622    14665.    1833.2  (  8.0 1.0) 
-NEON fadd.2d (64bit x2) n8    :    0.621    14690.    1836.(  8 1.0)   14690.9 +NEON fadd.2d (64bit x2) n8        :    0.622    14673.    1834.2  (  8.0 1.0) 
-NEON fmla.2d (64bit x2) n8    :    0.621    29407.    1838.0 ( 16 1.0)   29407.3 +NEON fmla.2d (64bit x2) n8        :    0.623    29311.    1832.0  ( 16.0 1.0) 
-FPU fmul (64bit x1) ns4       :    0.605     7536.    1884.(  4 1.0)    7536.0 +FPU fmul (64bit x1) ns4           :    0.618     7378.    1844.6  (  4.0 1.0) 
-FPU fadd (64bit x1) ns4       :    0.606     7532.    1883.(  4 1.0)    7532.2 +FPU fadd (64bit x1) ns4           :    0.608     7505.    1876.4  (  4.0 1.0) 
-FPU fmadd (64bit x1) ns4      :    0.606    15057.    1882.1 (  8 1.0)   15057.1 +FPU fmadd (64bit x1) ns4          :    0.685    13321.    1665.1  (  8.0 0.9) 
-NEON fmul.2d (64bit x2) ns4   :    0.622    14660.    1832.(  8 1.0)   14660.2 +NEON fmul.2d (64bit x2) ns4       :    0.623    14653.    1831.7  (  8.0 1.0) 
-NEON fadd.2d (64bit x2) ns4   :    0.621    14700.    1837.5 (  8 1.0)   14700.2 +NEON fadd.2d (64bit x2) ns4       :    0.623    14636.    1829.5  (  8.0 1.0) 
-NEON fmla.2d (64bit x2) ns4   :    1.212    15061.     941.( 16 0.5)   15061.8 +NEON fmla.2d (64bit x2) ns4       :    1.214    15033.     939.6  ( 16.0 0.5) 
-FPU fmul (64bit x1) n1        :    0.605     7534.    1883.(  4 1.0)    7534.9 +FPU fmul (64bit x1) n1            :    0.607     7518.    1879.5  (  4.0 1.0) 
-FPU fadd (64bit x1) n1        :    0.605     7535.    1883.(  4 1.0)    7535.5 +FPU fadd (64bit x1) n1            :    0.608     7508.    1877.0  (  4.0 1.0) 
-FPU fmadd (64bit x1) n1       :    4.867     1874.     234.(  8 0.1)    1874.5 +FPU fmadd (64bit x1) n1           :    4.862     1876.     234.6  (  8.0 0.1) 
-NEON fmul.2d (64bit x2) n1    :    0.621    14702.    1837.(  8 1.0)   14702.7 +NEON fmul.2d (64bit x2) n1        :    0.625    14589.    1823.7  (  8.0 1.0) 
-NEON fadd.2d (64bit x2) n1    :    0.621    14698.    1837.3 (  8 1.0)   14698.1 +NEON fadd.2d (64bit x2) n1        :    0.621    14682.    1835.3  (  8.0 1.0) 
-NEON fmla.2d (64bit x2) n1    :    2.424     7527.     470.( 16 0.2)    7527.5 +NEON fmla.2d (64bit x2) n1        :    2.427     7517.     469.8  ( 16.0 0.2) 
-NEON fmul.2d (64bit x2) n12   :    0.923    14822.    1852.(  8 1.0)   14822.0 +NEON fmul.2d (64bit x2) n12       :    0.925    14790.    1848.9  (  8.0 1.0) 
-NEON fadd.2d (64bit x2) n12   :    0.934    14646.    1830.8 (  8 1.0)   14646.4 +NEON fadd.2d (64bit x2) n12       :    0.937    14598.    1824.8  (  8.0 1.0) 
-NEON fmla.2d (64bit x2) n12   :    0.924    29638.    1852.( 16 1.0)   29638.6 +NEON fmla.2d (64bit x2) n12       :    0.924    29625.    1851.6  ( 16.0 1.0) 
-Average                       :    0.949    13767.3     1822.4 (  8 1.0)   13767.3 +Average                           :    0.954    13650.6     1808.0  (  8.4 1.0) 
-Highest                       :    0.323    29638.6     3534.7 ( 16 1.9)   29638.6 +Highest                           :    0.321    29625.    3558. 16.0 1.9)
- +
- +
-* Group 0:  Thread=4  Clock=1.900800 GHz  (mask:f) +
-* Matrix 4x4 multi-thread +
-                                  TIME(s)   MFLOPS      MOPS    FOP IPC  max MFLOPS +
-C++ code                      :    0.436    15639.0     3909.8 (  2.1)   15639.0 +
-NEON fmla.4s 128bit A         :    0.713     9552.5     2388.1 (  4 1.3   9552.5 +
-NEON fmla.4s 128bit B         :    0.348    19563.    4890.8 (  4 2.6)   19563.4 +
-Average                       :    0.499    14918.3     3729.6  4 2.0)   14918.+
-Highest                       :    0.348    19563.4     4890.8 (  4 2.6  19563.4+
  
  
 * Group 1:  Thread=1  Clock=2.457600 GHz  (mask:f0) * Group 1:  Thread=1  Clock=2.457600 GHz  (mask:f0)
 * FPU/NEON (SP fp) * FPU/NEON (SP fp)
-                                  TIME(s)   MFLOPS      MOPS    FOP IPC  max MFLOPS +                                      TIME(s)   MFLOPS      MOPS     FOP   IPC 
-FPU fmul (32bit x1) n8        :    0.317     4653.    4653.(  1 1.9)    4653.5 +FPU fmul (32bit x1) n8            :    0.317     4649.    4649.7  (  1.0 1.9) 
-FPU fadd (32bit x1) n8        :    0.317     4654.9     4654.9 (  1 1.9)    4654.9 +FPU fadd (32bit x1) n8            :    0.317     4650.9     4650.9  (  1.0 1.9) 
-FPU fmadd (32bit x1) n8       :    0.604     4884.    2442.(  2 1.0)    4884.5 +FPU fmadd (32bit x1) n8           :    0.604     4883.    2441.7  (  2.0 1.0) 
-NEON fmul.2s (32bit x2) n8    :    0.317     9309.    4654.(  2 1.9)    9309.0 +NEON fmul.2s (32bit x2) n8        :    0.318     9277.    4638.8  (  2.0 1.9) 
-NEON fadd.2s (32bit x2) n8    :    0.317     9309.    4654.(  2 1.9)    9309.8 +NEON fadd.2s (32bit x2) n8        :    0.317     9308.    4654.2  (  2.0 1.9) 
-NEON fmla.2s (32bit x2) n8    :    0.329    17927.    4481.(  4 1.8  17927.5 +NEON fmla.2s (32bit x2) n8        :    0.317    18615.    4654.0  (  4.0 1.9
-NEON fmul.4s (32bit x4) n8    :    0.603     9774.    2443.(  4 1.0)    9774.3 +NEON fmul.4s (32bit x4) n8        :    0.603     9773.    2443.4  (  4.0 1.0) 
-NEON fadd.4s (32bit x4) n8    :    0.603     9774.    2443.(  4 1.0)    9774.1 +NEON fadd.4s (32bit x4) n8        :    0.604     9772.    2443.1  (  4.0 1.0) 
-NEON fmla.4s (32bit x4) n8    :    0.603    19546.    2443.(  8 1.0)   19546.8 +NEON fmla.4s (32bit x4) n8        :    0.604    19545.    2443.2  (  8.0 1.0) 
-FPU fmul (32bit x1) ns4       :    0.603     2443.4     2443.4 (  1 1.0)    2443.4 +FPU fmul (32bit x1) ns4           :    0.603     2443.4     2443.4  (  1.0 1.0) 
-FPU fadd (32bit x1) ns4       :    0.604     2442.    2442.(  1 1.0)    2442.5 +FPU fadd (32bit x1) ns4           :    0.605     2438.    2438.0  (  1.0 1.0) 
-FPU fmadd (32bit x1) ns4      :    0.755     3908.    1954.(  2 0.8)    3908.4 +FPU fmadd (32bit x1) ns4          :    0.754     3909.    1954.8  (  2.0 0.8) 
-NEON fmul.2s (32bit x2) ns4   :    0.603     4886.    2443.(  2 1.0)    4886.8 +NEON fmul.2s (32bit x2) ns4       :    0.604     4885.    2442.9  (  2.0 1.0) 
-NEON fadd.2s (32bit x2) ns4   :    0.604     4886.    2443.(  2 1.0)    4886.1 +NEON fadd.2s (32bit x2) ns4       :    0.603     4887.    2443.6  (  2.0 1.0) 
-NEON fmla.2s (32bit x2) ns4   :    1.057     5581.7     1395.(  4 0.6)    5581.7 +NEON fmla.2s (32bit x2) ns4       :    1.057     5578.7     1394.7  (  4.0 0.6) 
-NEON fmul.4s (32bit x4) ns4   :    0.604     9768.5     2442.(  4 1.0)    9768.5 +NEON fmul.4s (32bit x4) ns4       :    0.604     9771.5     2442.9  (  4.0 1.0) 
-NEON fadd.4s (32bit x4) ns4   :    0.604     9766.    2441.(  4 1.0)    9766.9 +NEON fadd.4s (32bit x4) ns4       :    0.604     9771.    2442.9  (  4.0 1.0) 
-NEON fmla.4s (32bit x4) ns4   :    1.057    11163.    1395.(  8 0.6)   11163.0 +NEON fmla.4s (32bit x4) ns4       :    1.057    11160.    1395.1  (  8.0 0.6) 
-FPU fmul (32bit x1) n1        :    0.317     4648.    4648.(  1 1.9)    4648.8 +FPU fmul (32bit x1) n1            :    0.317     4653.    4653.7  (  1.0 1.9) 
-FPU fadd (32bit x1) n1        :    0.317     4652.    4652.(  1 1.9)    4652.1 +FPU fadd (32bit x1) n1            :    0.317     4653.    4653.3  (  1.0 1.9) 
-FPU fmadd (32bit x1) n1       :    4.225      698.0      349.0 (  2 0.1)     698.0 +FPU fmadd (32bit x1) n1           :    4.225      698.0      349.0  (  2.0 0.1) 
-NEON fmul.2s (32bit x2) n1    :    0.317     9305.    4652.(  2 1.9)    9305.3 +NEON fmul.2s (32bit x2) n1        :    0.317     9311.    4655.8  (  2.0 1.9) 
-NEON fadd.2s (32bit x2) n1    :    0.317     9307.    4653.(  2 1.9)    9307.2 +NEON fadd.2s (32bit x2) n1        :    0.317     9309.    4654.9  (  2.0 1.9) 
-NEON fmla.2s (32bit x2) n1    :    1.810     3258.     814.(  4 0.3)    3258.0 +NEON fmla.2s (32bit x2) n1        :    1.810     3258.     814.6  (  4.0 0.3) 
-NEON fmul.4s (32bit x4) n1    :    0.604     9771.    2442.(  4 1.0)    9771.8 +NEON fmul.4s (32bit x4) n1        :    0.604     9772.    2443.1  (  4.0 1.0) 
-NEON fadd.4s (32bit x4) n1    :    0.603     9775.    2443.(  4 1.0)    9775.4 +NEON fadd.4s (32bit x4) n1        :    0.604     9770.    2442.7  (  4.0 1.0) 
-NEON fmla.4s (32bit x4) n1    :    1.811     6513.     814.(  8 0.3)    6513.9 +NEON fmla.4s (32bit x4) n1        :    1.811     6514.     814.3  (  8.0 0.3) 
-NEON fmul.4s (32bit x4) n12   :    0.905     9771.    2442.(  4 1.0)    9771.8 +NEON fmul.4s (32bit x4) n12       :    0.905     9775.    2443.8  (  4.0 1.0) 
-NEON fadd.4s (32bit x4) n12   :    0.905     9773.    2443.(  4 1.0)    9773.9 +NEON fadd.4s (32bit x4) n12       :    0.905     9775.    2443.8  (  4.0 1.0) 
-NEON fmla.4s (32bit x4) n12   :    0.905    19545.    2443.(  8 1.0)   19545.9 +NEON fmla.4s (32bit x4) n12       :    0.905    19547.    2443.4  (  8.0 1.0) 
-Average                       :    0.785     8056.8     2835.(  3 1.2)    8056.8 +Average                           :    0.784     8078.8     2841.0  (  3.3 1.2) 
-Highest                       :    0.317    19546.    4654.(  8 1.9)   19546.8+Highest                           :    0.317    19547.    4655.8  (  8.0 1.9)
  
  
 * Group 1:  Thread=1  Clock=2.457600 GHz  (mask:f0) * Group 1:  Thread=1  Clock=2.457600 GHz  (mask:f0)
 * FPU/NEON (DP fp) * FPU/NEON (DP fp)
-                                  TIME(s)   MFLOPS      MOPS    FOP IPC  max MFLOPS +                                      TIME(s)   MFLOPS      MOPS     FOP   IPC 
-FPU fmul (64bit x1) n8        :    0.317     4652.    4652.(  1 1.9)    4652.4 +FPU fmul (64bit x1) n8            :    0.317     4650.    4650.1  (  1.0 1.9) 
-FPU fadd (64bit x1) n8        :    0.317     4652.    4652.(  1 1.9)    4652.7 +FPU fadd (64bit x1) n8            :    0.317     4650.    4650.3  (  1.0 1.9) 
-FPU fmadd (64bit x1) n8       :    0.604     4884.    2442.(  2 1.0)    4884.0 +FPU fmadd (64bit x1) n8           :    0.604     4885.    2442.6  (  2.0 1.0) 
-NEON fmul.2d (64bit x2) n8    :    0.604     4885.    2442.(  2 1.0)    4885.3 +NEON fmul.2d (64bit x2) n8        :    0.603     4887.    2443.6  (  2.0 1.0) 
-NEON fadd.2d (64bit x2) n8    :    0.604     4885.    2442.7 (  2 1.0)    4885.3 +NEON fadd.2d (64bit x2) n8        :    0.603     4887.    2443.7  (  2.0 1.0) 
-NEON fmla.2d (64bit x2) n8    :    0.604     9771.    2442.(  4 1.0)    9771.4 +NEON fmla.2d (64bit x2) n8        :    0.603     9774.    2443.5  (  4.0 1.0) 
-FPU fmul (64bit x1) ns4       :    0.603     2443.    2443.(  1 1.0)    2443.4 +FPU fmul (64bit x1) ns4           :    0.603     2443.    2443.8  (  1.0 1.0) 
-FPU fadd (64bit x1) ns4       :    0.603     2443.    2443.(  1 1.0)    2443.9 +FPU fadd (64bit x1) ns4           :    0.603     2443.    2443.4  (  1.0 1.0) 
-FPU fmadd (64bit x1) ns4      :    0.528     5586.    2793.(  2 1.1)    5586.0 +FPU fmadd (64bit x1) ns4          :    0.531     5553.    2776.6  (  2.0 1.1) 
-NEON fmul.2d (64bit x2) ns4   :    0.603     4887.    2443.(  2 1.0)    4887.4 +NEON fmul.2d (64bit x2) ns4       :    0.603     4886.    2443.4  (  2.0 1.0) 
-NEON fadd.2d (64bit x2) ns4   :    0.604     4886.    2443.(  2 1.0)    4886.0 +NEON fadd.2d (64bit x2) ns4       :    0.603     4886.    2443.4  (  2.0 1.0) 
-NEON fmla.2d (64bit x2) ns4   :    1.056     5584.    1396.(  4 0.6)    5584.3 +NEON fmla.2d (64bit x2) ns4       :    1.056     5585.    1396.3  (  4.0 0.6) 
-FPU fmul (64bit x1) n1        :    0.317     4653.    4653.(  1 1.9)    4653.7 +FPU fmul (64bit x1) n1            :    0.317     4654.    4654.4  (  1.0 1.9) 
-FPU fadd (64bit x1) n1        :    0.317     4653.6     4653.6 (  1 1.9)    4653.6 +FPU fadd (64bit x1) n1            :    0.317     4653.6     4653.6  (  1.0 1.9) 
-FPU fmadd (64bit x1) n1       :    4.225      698.1      349.(  2 0.1)     698.1 +FPU fmadd (64bit x1) n1           :    4.224      698.1      349.1  (  2.0 0.1) 
-NEON fmul.2d (64bit x2) n1    :    0.604     4884.    2442.(  2 1.0)    4884.5 +NEON fmul.2d (64bit x2) n1        :    0.603     4886.    2443.4  (  2.0 1.0) 
-NEON fadd.2d (64bit x2) n1    :    0.604     4885.    2442.(  2 1.0)    4885.6 +NEON fadd.2d (64bit x2) n1        :    0.603     4887.    2443.6  (  2.0 1.0) 
-NEON fmla.2d (64bit x2) n1    :    1.811     3257.     814.(  4 0.3)    3257.1 +NEON fmla.2d (64bit x2) n1        :    1.810     3258.     814.5  (  4.0 0.3) 
-NEON fmul.2d (64bit x2) n12   :    0.906     4885.    2442.(  2 1.0)    4885.2 +NEON fmul.2d (64bit x2) n12       :    0.905     4887.    2443.8  (  2.0 1.0) 
-NEON fadd.2d (64bit x2) n12   :    0.905     4886.    2443.(  2 1.0)    4886.1 +NEON fadd.2d (64bit x2) n12       :    0.905     4888.    2444.0  (  2.0 1.0) 
-NEON fmla.2d (64bit x2) n12   :    0.905     9772.    2443.0 (  4 1.0)    9772.0 +NEON fmla.2d (64bit x2) n12       :    0.905     9775.    2444.0  (  4.0 1.0) 
-Average                       :    0.840     4863.    2653.(  2 1.1)    4863.7 +Average                           :    0.840     4863.    2652.9  (  2.1 1.1) 
-Highest                       :    0.317     9772.    4653.7 (  1.9)    9772.0 +Highest                           :    0.317     9775.    4654.4  (  4.0 1.9)
- +
- +
-* Group 1:  Thread=1  Clock=2.457600 GHz  (mask:f0) +
-* Matrix 4x4 +
-                                  TIME(s)   MFLOPS      MOPS    FOP IPC  max MFLOPS +
-C++ code                      :    0.360     6110.8     6110.8 (  1 2.5)    6110.8 +
-NEON fmla.4s 128bit A         :    0.266     8285.3     8285.3 (  1 3.4)    8285.+
-NEON fmla.4s 128bit B         :    0.257     8569.7     8569.7 (  3.5   8569.7 +
-Average                       :    0.294     7655.3     7655.3 (  1 3.1)    7655.3 +
-Highest                       :    0.257     8569.7     8569.7 (  1 3.5)    8569.7+
  
  
 * Group 1:  Thread=4  Clock=2.457600 GHz  (mask:f0) * Group 1:  Thread=4  Clock=2.457600 GHz  (mask:f0)
 * FPU/NEON (SP fp) multi-thread * FPU/NEON (SP fp) multi-thread
-                                  TIME(s)   MFLOPS      MOPS    FOP IPC  max MFLOPS +                                      TIME(s)   MFLOPS      MOPS     FOP   IPC 
-FPU fmul (32bit x1) n8        :    0.455    12977.    3244.(  4 1.3  12977.3 +FPU fmul (32bit x1) n8            :    0.335    17600.    4400.2  (  4.0 1.8
-FPU fadd (32bit x1) n8        :    0.494    11946.    2986.(  4 1.2  11946.6 +FPU fadd (32bit x1) n8            :    0.329    17915.    4478.9  (  4.0 1.8
-FPU fmadd (32bit x1) n8       :    0.823    14333.    1791.(  8 0.7  14333.1 +FPU fmadd (32bit x1) n8           :    0.627    18811.    2351.4  (  8.1.0
-NEON fmul.2s (32bit x2) n8    :    0.479    24612.    3076.(  8 1.3  24612.2 +NEON fmul.2s (32bit x2) n8        :    0.329    35832.    4479.0  (  8.0 1.8
-NEON fadd.2s (32bit x2) n8    :    0.476    24783.    3098.(  8 1.3  24783.8 +NEON fadd.2s (32bit x2) n8        :    0.329    35831.    4478.9  (  8.0 1.8
-NEON fmla.2s (32bit x2) n8    :    0.479    49204.    3075.( 16 1.3  49204.8 +NEON fmla.2s (32bit x2) n8        :    0.329    71648.    4478.0  ( 16.0 1.8
-NEON fmul.4s (32bit x4) n8    :    0.942    25056.    1566.( 16 0.6  25056.7 +NEON fmul.4s (32bit x4) n8        :    0.627    37622.    2351.4  ( 16.1.0
-NEON fadd.4s (32bit x4) n8    :    0.941    25058.    1566.( 16 0.6  25058.9 +NEON fadd.4s (32bit x4) n8        :    0.627    37624.    2351.5  ( 16.1.0
-NEON fmla.4s (32bit x4) n8    :    0.925    51022.    1594.( 32 0.6  51022.2 +NEON fmla.4s (32bit x4) n8        :    0.627    75249.    2351.5  ( 32.1.0
-FPU fmul (32bit x1) ns4       :    0.785     7517.    1879.(  4 0.8   7517.1 +FPU fmul (32bit x1) ns4           :    0.627     9406.    2351.7  (  4.1.0
-FPU fadd (32bit x1) ns4       :    0.721     8177.    2044.(  4 0.8   8177.4 +FPU fadd (32bit x1) ns4           :    0.627     9406.    2351.5  (  4.1.0
-FPU fmadd (32bit x1) ns4      :    1.134    10401.    1300.(  8 0.5  10401.5 +FPU fmadd (32bit x1) ns4          :    0.784    15047.    1880.9  (  8.0 0.8
-NEON fmul.2s (32bit x2) ns4   :    0.901    13086.    1635.(  8 0.7  13086.1 +NEON fmul.2s (32bit x2) ns4       :    0.627    18812.    2351.6  (  8.1.0
-NEON fadd.2s (32bit x2) ns4   :    0.709    16646.    2080.(  8 0.8  16646.2 +NEON fadd.2s (32bit x2) ns4       :    0.627    18811.    2351.4  (  8.1.0
-NEON fmla.2s (32bit x2) ns4   :    1.552    15203.5      950.( 16 0.4  15203.5 +NEON fmla.2s (32bit x2) ns4       :    1.097    21498.8     1343.7  ( 16.0 0.5
-NEON fmul.4s (32bit x4) ns4   :    0.785    30068.    1879.( 16 0.8  30068.4 +NEON fmul.4s (32bit x4) ns4       :    0.627    37622.    2351.4  ( 16.1.0
-NEON fadd.4s (32bit x4) ns4   :    0.887    26589.    1661.( 16 0.7  26589.4 +NEON fadd.4s (32bit x4) ns4       :    0.627    37623.    2351.5  ( 16.1.0
-NEON fmla.4s (32bit x4) ns4   :    1.446    32632.    1019.( 32 0.4  32632.2 +NEON fmla.4s (32bit x4) ns4       :    1.097    42998.    1343.7  ( 32.0 0.5
-FPU fmul (32bit x1) n1        :    0.403    14651.    3663.(  4 1.5  14651.9 +FPU fmul (32bit x1) n1            :    0.329    17914.    4478.6  (  4.0 1.8
-FPU fadd (32bit x1) n1        :    0.434    13582.    3395.6 (  4 1.4  13582.6 +FPU fadd (32bit x1) n1            :    0.329    17914.    4478.6  (  4.0 1.8
-FPU fmadd (32bit x1) n1       :    6.024     1958.     244.(  8 0.1)    1958.2 +FPU fmadd (32bit x1) n1           :    4.390     2687.     335.9  (  8.0 0.1) 
-NEON fmul.2s (32bit x2) n1    :    0.412    28620.    3577.(  8 1.5  28620.6 +NEON fmul.2s (32bit x2) n1        :    0.329    35829.    4478.7  (  8.0 1.8
-NEON fadd.2s (32bit x2) n1    :    0.384    30747.3     3843.(  8 1.6  30747.3 +NEON fadd.2s (32bit x2) n1        :    0.329    35830.3     4478.8  (  8.0 1.8
-NEON fmla.2s (32bit x2) n1    :    2.123    11112.     694.( 16 0.3)   11112.1 +NEON fmla.2s (32bit x2) n1        :    1.881    12541.     783.8  ( 16.0 0.3) 
-NEON fmul.4s (32bit x4) n1    :    0.684    34490.    2155.( 16 0.9  34490.5 +NEON fmul.4s (32bit x4) n1        :    0.627    37625.    2351.6  ( 16.1.0
-NEON fadd.4s (32bit x4) n1    :    0.636    37116.    2319.( 16 0.9  37116.4 +NEON fadd.4s (32bit x4) n1        :    0.627    37623.    2351.5  ( 16.1.0
-NEON fmla.4s (32bit x4) n1    :    1.902    24810.     775.( 32 0.3)   24810.3 +NEON fmla.4s (32bit x4) n1        :    1.881    25082.     783.8  ( 32.0 0.3) 
-NEON fmul.4s (32bit x4) n12   :    0.941    37611.    2350.( 16 1.0)   37611.8 +NEON fmul.4s (32bit x4) n12       :    0.941    37622.    2351.4  ( 16.0 1.0) 
-NEON fadd.4s (32bit x4) n12   :    0.997    35498.0     2218.( 16 0.9)   35498.0 +NEON fadd.4s (32bit x4) n12       :    0.941    37622.0     2351.4  ( 16.1.0) 
-NEON fmla.4s (32bit x4) n12   :    1.008    70243.    2195.( 32 0.9  70243.7 +NEON fmla.4s (32bit x4) n12       :    0.940    75312.    2353.5  ( 32.1.0
-Average                       :    1.029    24658.    2129.5 ( 13 0.9  24658.7 +Average                           :    0.815    31099.    2732.5  ( 13.3 1.1
-Highest                       :    0.384    70243.    3843.( 32 1.6  70243.7+Highest                           :    0.329    75312.    4479.0  ( 32.0 1.8)
  
  
 * Group 1:  Thread=4  Clock=2.457600 GHz  (mask:f0) * Group 1:  Thread=4  Clock=2.457600 GHz  (mask:f0)
 * FPU/NEON (DP fp) multi-thread * FPU/NEON (DP fp) multi-thread
-                                  TIME(s)   MFLOPS      MOPS    FOP IPC  max MFLOPS +                                      TIME(s)   MFLOPS      MOPS     FOP   IPC 
-FPU fmul (64bit x1) n8        :    1.267     4656.    1164.(  4 0.5   4656.8 +FPU fmul (64bit x1) n8            :    0.329    17914.    4478.5  (  4.1.8
-FPU fadd (64bit x1) n8        :    1.271     4641.    1160.(  4 0.5   4641.6 +FPU fadd (64bit x1) n8            :    0.329    17915.    4478.8  (  4.1.8
-FPU fmadd (64bit x1) n8       :    2.422     4870.5      608.8 (  8 0.2   4870.5 +FPU fmadd (64bit x1) n8           :    0.627    18811.1     2351.4  (  8.1.0
-NEON fmul.2d (64bit x2) n8    :    2.414     4885.7      610.(  8 0.2   4885.7 +NEON fmul.2d (64bit x2) n8        :    0.627    18810.7     2351.3  (  8.1.0
-NEON fadd.2d (64bit x2) n8    :    2.417     4880.5      610.1 (  8 0.2   4880.5 +NEON fadd.2d (64bit x2) n8        :    0.627    18813.0     2351.6  (  8.1.0
-NEON fmla.2d (64bit x2) n8    :    2.422     9740.1      608.8 ( 16 0.2   9740.1 +NEON fmla.2d (64bit x2) n8        :    0.627    37620.8     2351.3  ( 16.1.0
-FPU fmul (64bit x1) ns4       :    2.415     2442.0      610.(  4 0.2   2442.0 +FPU fmul (64bit x1) ns4           :    0.627     9406.9     2351.7  (  4.1.0
-FPU fadd (64bit x1) ns4       :    2.419     2437.9      609.5 (  4 0.2   2437.9 +FPU fadd (64bit x1) ns4           :    0.627     9406.5     2351.6  (  4.1.0
-FPU fmadd (64bit x1) ns4      :    2.116     5575.9      697.0 (  8 0.3   5575.9 +FPU fmadd (64bit x1) ns4          :    0.554    21294.7     2661.8  (  8.1.1
-NEON fmul.2d (64bit x2) ns4   :    2.420     4873.8      609.2 (  8 0.2   4873.8 +NEON fmul.2d (64bit x2) ns4       :    0.627    18809.    2351.2  (  8.1.0
-NEON fadd.2d (64bit x2) ns4   :    2.417     4880.3      610.0 (  8 0.2   4880.3 +NEON fadd.2d (64bit x2) ns4       :    0.627    18809.9     2351.2  (  8.1.0
-NEON fmla.2d (64bit x2) ns4   :    4.230     5578.0      348.6 ( 16 0.1   5578.0 +NEON fmla.2d (64bit x2) ns4       :    1.097    21500.3     1343.8  ( 16.0 0.5
-FPU fmul (64bit x1) n1        :    1.274     4629.    1157.(  4 0.5   4629.5 +FPU fmul (64bit x1) n1            :    0.329    17915.    4479.0  (  4.1.8
-FPU fadd (64bit x1) n1        :    1.268     4650.    1162.(  4 0.5   4650.9 +FPU fadd (64bit x1) n1            :    0.329    17916.    4479.1  (  4.1.8
-FPU fmadd (64bit x1) n1       :    9.906     1190.     148.9 (  8 0.1)    1190.9 +FPU fmadd (64bit x1) n1           :    4.389     2687.     335.9  (  8.0 0.1) 
-NEON fmul.2d (64bit x2) n1    :    0.821    14364.    1795.6 (  8 0.7  14364.5 +NEON fmul.2d (64bit x2) n1        :    0.627    18812.    2351.6  (  8.1.0
-NEON fadd.2d (64bit x2) n1    :    0.937    12586.    1573.(  8 0.6  12586.2 +NEON fadd.2d (64bit x2) n1        :    0.627    18813.    2351.6  (  8.1.0
-NEON fmla.2d (64bit x2) n1    :    2.334    10110.2      631.( 16 0.3)   10110.2 +NEON fmla.2d (64bit x2) n1        :    1.881    12541.2      783.8  ( 16.0 0.3) 
-NEON fmul.2d (64bit x2) n12   :    0.941    18803.3     2350.(  8 1.0)   18803.3 +NEON fmul.2d (64bit x2) n12       :    0.941    18813.3     2351.7  (  8.0 1.0) 
-NEON fadd.2d (64bit x2) n12   :    1.053    16807.    2101.(  8 0.9  16807.8 +NEON fadd.2d (64bit x2) n12       :    0.941    18813.    2351.7  (  8.1.0
-NEON fmla.2d (64bit x2) n12   :    0.939    37690.    2355.( 16 1.0)   37690.3 +NEON fmla.2d (64bit x2) n12       :    0.940    37650.    2353.1  ( 16.0 1.0) 
-Average                       :    2.272     8585.    1025.(  8 0.4)    8585.6 +Average                           :    0.873    18717.    2552.9  (  8.4 1.0) 
-Highest                       :    0.821    37690.3     2355.6 ( 16 1.0)   37690.3 +Highest                           :    0.329    37650.4     4479.1  ( 16.0 1.8)
- +
- +
-* Group 1:  Thread=4  Clock=2.457600 GHz  (mask:f0) +
-* Matrix 4x4 multi-thread +
-                                  TIME(s)   MFLOPS      MOPS    FOP IPC  max MFLOPS +
-C++ code                      :    0.540    16309.5     4077.4 (  4 1.7)   16309.5 +
-NEON fmla.4s 128bit A         :    0.312    28256.8     7064.2 (  4 2.9)   28256.8 +
-NEON fmla.4s 128bit B         :    0.282    31246.1     7811.5 (  4 3.2)   31246.1 +
-Average                       :    0.378    25270.8     6317.7  4 2.6)   25270.8 +
-Highest                       :    0.282    31246.    7811.5 (  4 3.2  31246.1 +
  
  
行 9586: 行 9613:
  
 <code> <code>
-ARCH: ARMv8.2A+Date: 20200808 162535 
 +ARCH: ARMv8.2A AArch64
 FPU : ASIMD(AArch64 NEON) FPHP ASIMDHP FPU : ASIMD(AArch64 NEON) FPHP ASIMDHP
-Name: Qualcomm Technologies, Inc SDM845+Name: Qualcomm Technologies, Inc SDM845 Pixel3
  
 CPU Thread:  8 CPU Thread:  8
行 9595: 行 9623:
   Group 0: Thread= 4  Clock=1.766400 GHz  (mask:f)   Group 0: Thread= 4  Clock=1.766400 GHz  (mask:f)
   Group 1: Thread= 4  Clock=2.803200 GHz  (mask:f0)   Group 1: Thread= 4  Clock=2.803200 GHz  (mask:f0)
-NEON  : yes +NEON   : yes 
-FMA   : yes +FMA    : yes 
-FPHP  : yes +FPHP   : yes 
-SIMDHP: yes+SIMDHP : yes 
 +DotProd: no
  
 Total: Total:
-SingleThread HP max:   71.675 GFLOPS +SingleThread HP max:   44.356 GFLOPS 
-SingleThread SP max:   35.892 GFLOPS +SingleThread SP max:   22.274 GFLOPS 
-SingleThread DP max:   17.940 GFLOPS +SingleThread DP max:   11.150 GFLOPS 
-MultiThread  HP max:  277.711 GFLOPS +MultiThread  HP max:  278.633 GFLOPS 
-MultiThread  SP max:  138.445 GFLOPS +MultiThread  SP max:  139.238 GFLOPS 
-MultiThread  DP max:   68.745 GFLOPS+MultiThread  DP max:   69.642 GFLOPS
  
 Group 0:  Thread=4  Clock=1.766400 GHz  (mask:f) Group 0:  Thread=4  Clock=1.766400 GHz  (mask:f)
-  SingleThread HP max:   27.426 GFLOPS +  SingleThread HP max:   27.433 GFLOPS 
-  SingleThread SP max:   13.683 GFLOPS +  SingleThread SP max:   13.732 GFLOPS 
-  SingleThread DP max:    6.851 GFLOPS +  SingleThread DP max:    6.862 GFLOPS 
-  MultiThread  HP max:  108.928 GFLOPS +  MultiThread  HP max:  109.853 GFLOPS 
-  MultiThread  SP max:   54.046 GFLOPS +  MultiThread  SP max:   54.836 GFLOPS 
-  MultiThread  DP max:   27.273 GFLOPS+  MultiThread  DP max:   27.445 GFLOPS
  
 Group 1:  Thread=4  Clock=2.803200 GHz  (mask:f0) Group 1:  Thread=4  Clock=2.803200 GHz  (mask:f0)
-  SingleThread HP max:   44.248 GFLOPS +  SingleThread HP max:   44.356 GFLOPS 
-  SingleThread SP max:   22.209 GFLOPS +  SingleThread SP max:   22.274 GFLOPS 
-  SingleThread DP max:   11.090 GFLOPS +  SingleThread DP max:   11.150 GFLOPS 
-  MultiThread  HP max:  168.783 GFLOPS +  MultiThread  HP max:  168.780 GFLOPS 
-  MultiThread  SP max:   84.400 GFLOPS +  MultiThread  SP max:   84.402 GFLOPS 
-  MultiThread  DP max:   41.472 GFLOPS+  MultiThread  DP max:   42.197 GFLOPS
  
  
 * Group 0:  Thread=1  Clock=1.766400 GHz  (mask:f) * Group 0:  Thread=1  Clock=1.766400 GHz  (mask:f)
 * FPU/NEON (HP fp) * FPU/NEON (HP fp)
-                                  TIME(s)   MFLOPS      MOPS    FOP IPC  max MFLOPS +                                  TIME(s)   MFLOPS      MOPS     FOP   IPC 
-FPU fmul (16bit x1) n8        :    0.320     3308.    3308.(  1 1.9)    3308.5 +FPU fmul (16bit x1) n8        :    0.319     3318.    3318.8  (  1.0 1.9) 
-FPU fadd (16bit x1) n8        :    0.320     3315.    3315.(  1 1.9   3315.6 +FPU fadd (16bit x1) n8        :    0.334     3175.    3175.3  (  1.0 1.8
-FPU fmadd (16bit x1) n8       :    0.320     6633.    3316.(  2 1.9   6633.8 +FPU fmadd (16bit x1) n8       :    0.334     6353.    3176.7  (  2.0 1.8
-NEON fmul.4h (16bit x4) n8    :    0.319    13282.    3320.7 (  4 1.9)   13282.9 +NEON fmul.4h (16bit x4) n8    :    0.319    13302.    3325.7  (  4.0 1.9) 
-NEON fadd.4h (16bit x4) n8    :    0.319    13288.    3322.(  4 1.9)   13288.2 +NEON fadd.4h (16bit x4) n8    :    0.320    13263.    3315.9  (  4.0 1.9) 
-NEON fmla.4h (16bit x4) n8    :    0.321    26420.    3302.(  8 1.9)   26420.5 +NEON fmla.4h (16bit x4) n8    :    0.319    26604.    3325.5  (  8.0 1.9) 
-NEON fmul.8h (16bit x8) n8    :    0.624    13586.    1698.(  8 1.0)   13586.0 +NEON fmul.8h (16bit x8) n8    :    0.623    13616.    1702.1  (  8.0 1.0) 
-NEON fadd.8h (16bit x8) n8    :    0.625    13575.    1696.(  8 1.0)   13575.5 +NEON fadd.8h (16bit x8) n8    :    0.623    13619.    1702.5  (  8.0 1.0) 
-NEON fmla.8h (16bit x8) n8    :    0.624    27177.    1698.( 16 1.0)   27177.6 +NEON fmla.8h (16bit x8) n8    :    0.623    27220.    1701.3  ( 16.0 1.0) 
-FPU fmul (16bit x1) ns4       :    0.609     1739.    1739.(  1 1.0)    1739.8 +FPU fmul (16bit x1) ns4       :    0.608     1744.    1744.6  (  1.0 1.0) 
-FPU fadd (16bit x1) ns4       :    0.608     1742.    1742.(  1 1.0)    1742.0 +FPU fadd (16bit x1) ns4       :    0.608     1744.    1744.3  (  1.0 1.0) 
-FPU fmadd (16bit x1) ns4      :    0.609     3480.    1740.(  2 1.0)    3480.4 +FPU fmadd (16bit x1) ns4      :    0.608     3488.    1744.1  (  2.0 1.0) 
-NEON fmul.4h (16bit x4) ns4   :    0.608     6968.    1742.(  4 1.0)    6968.8 +NEON fmul.4h (16bit x4) ns4   :    0.607     6981.    1745.4  (  4.0 1.0) 
-NEON fadd.4h (16bit x4) ns4   :    0.608     6972.    1743.(  4 1.0)    6972.5 +NEON fadd.4h (16bit x4) ns4   :    0.607     6979.    1744.9  (  4.0 1.0) 
-NEON fmla.4h (16bit x4) ns4   :    0.608    13942.    1742.(  8 1.0)   13942.5 +NEON fmla.4h (16bit x4) ns4   :    0.607    13971.    1746.4  (  8.0 1.0) 
-NEON fmul.8h (16bit x8) ns4   :    0.623    13604.    1700.6 (  8 1.0)   13604.7 +NEON fmul.8h (16bit x8) ns4   :    0.622    13629.    1703.6  (  8.0 1.0) 
-NEON fadd.8h (16bit x8) ns4   :    0.623    13611.    1701.(  8 1.0)   13611.3 +NEON fadd.8h (16bit x8) ns4   :    0.623    13618.    1702.3  (  8.0 1.0) 
-NEON fmla.8h (16bit x8) ns4   :    0.623    27206.    1700.( 16 1.0)   27206.0 +NEON fmla.8h (16bit x8) ns4   :    0.625    27146.    1696.7  ( 16.0 1.0) 
-FPU fmul (16bit x1) n1        :    0.608     1743.    1743.(  1 1.0)    1743.3 +FPU fmul (16bit x1) n1        :    0.608     1744.    1744.1  (  1.0 1.0) 
-FPU fadd (16bit x1) n1        :    0.608     1743.    1743.(  1 1.0)    1743.3 +FPU fadd (16bit x1) n1        :    0.608     1743.    1743.5  (  1.0 1.0) 
-FPU fmadd (16bit x1) n1       :    2.434      870.     435.(  2 0.2)     870.9 +FPU fmadd (16bit x1) n1       :    2.433      871.     435.7  (  2.0 0.2) 
-NEON fmul.4h (16bit x4) n1    :    0.608     6974.    1743.(  4 1.0)    6974.8 +NEON fmul.4h (16bit x4) n1    :    0.608     6978.    1744.6  (  4.0 1.0) 
-NEON fadd.4h (16bit x4) n1    :    0.609     6963.    1740.(  4 1.0)    6963.0 +NEON fadd.4h (16bit x4) n1    :    0.608     6974.    1743.7  (  4.0 1.0) 
-NEON fmla.4h (16bit x4) n1    :    2.436     3480.     435.(  8 0.2)    3480.6 +NEON fmla.4h (16bit x4) n1    :    2.431     3487.     436.0  (  8.0 0.2) 
-NEON fmul.8h (16bit x8) n1    :    0.623    13606.    1700.(  8 1.0)   13606.3 +NEON fmul.8h (16bit x8) n1    :    0.622    13627.    1703.4  (  8.0 1.0) 
-NEON fadd.8h (16bit x8) n1    :    0.623    13609.    1701.2 (  8 1.0)   13609.6 +NEON fadd.8h (16bit x8) n1    :    0.623    13601.    1700.2  (  8.0 1.0) 
-NEON fmla.8h (16bit x8) n1    :    2.435     6964.     435.( 16 0.2)    6964.1 +NEON fmla.8h (16bit x8) n1    :    2.432     6973.     435.9  ( 16.0 0.2) 
-NEON fmul.8h (16bit x8) n12   :    0.929    13696.    1712.(  8 1.0)   13696.8 +NEON fmul.8h (16bit x8) n12   :    0.926    13738.    1717.3  (  8.0 1.0) 
-NEON fadd.8h (16bit x8) n12   :    0.928    13698.    1712.(  8 1.0)   13698.7 +NEON fadd.8h (16bit x8) n12   :    0.927    13721.    1715.1  (  8.0 1.0) 
-NEON fmla.8h (16bit x8) n12   :    0.927    27426.    1714.( 16 1.0)   27426.4 +NEON fmla.8h (16bit x8) n12   :    0.927    27432.    1714.5  ( 16.0 1.0) 
-Average                       :    0.769    10687.    1911.(  6 1.1)   10687.8 +Average                       :    0.769    10689.    1905.0  (  6.3 1.1) 
-Highest                       :    0.319    27426.    3322.( 16 1.9)   27426.4+Highest                       :    0.319    27432.    3325.7  ( 16.0 1.9)
  
  
 * Group 0:  Thread=1  Clock=1.766400 GHz  (mask:f) * Group 0:  Thread=1  Clock=1.766400 GHz  (mask:f)
 * FPU/NEON (SP fp) * FPU/NEON (SP fp)
-                                  TIME(s)   MFLOPS      MOPS    FOP IPC  max MFLOPS +                                  TIME(s)   MFLOPS      MOPS     FOP   IPC 
-FPU fmul (32bit x1) n8        :    0.322     3288.    3288.(  1 1.9   3288.9 +FPU fmul (32bit x1) n8        :    0.335     3167.    3167.5  (  1.0 1.8
-FPU fadd (32bit x1) n8        :    0.320     3313.    3313.(  1 1.9)    3313.9 +FPU fadd (32bit x1) n8        :    0.319     3322.    3322.8  (  1.0 1.9) 
-FPU fmadd (32bit x1) n8       :    0.320     6626.    3313.(  2 1.9)    6626.9 +FPU fmadd (32bit x1) n8       :    0.320     6631.    3315.9  (  2.0 1.9) 
-NEON fmul.2s (32bit x2) n8    :    0.320     6621.    3310.(  2 1.9)    6621.5 +NEON fmul.2s (32bit x2) n8    :    0.319     6635.    3317.6  (  2.0 1.9) 
-NEON fadd.2s (32bit x2) n8    :    0.319     6646.    3323.(  2 1.9)    6646.4 +NEON fadd.2s (32bit x2) n8    :    0.319     6636.    3318.3  (  2.0 1.9) 
-NEON fmla.2s (32bit x2) n8    :    0.319    13292.    3323.(  4 1.9)   13292.4 +NEON fmla.2s (32bit x2) n8    :    0.320    13261.    3315.4  (  4.0 1.9) 
-NEON fmul.4s (32bit x4) n8    :    0.623     6806.    1701.7 (  4 1.0)    6806.8 +NEON fmul.4s (32bit x4) n8    :    0.624     6794.    1698.7  (  4.0 1.0) 
-NEON fadd.4s (32bit x4) n8    :    0.623     6807.    1702.(  4 1.0)    6807.9 +NEON fadd.4s (32bit x4) n8    :    0.624     6797.    1699.3  (  4.0 1.0) 
-NEON fmla.4s (32bit x4) n8    :    0.623    13611.    1701.(  8 1.0)   13611.7 +NEON fmla.4s (32bit x4) n8    :    0.623    13610.    1701.2  (  8.0 1.0) 
-FPU fmul (32bit x1) ns4       :    0.608     1741.    1741.(  1 1.0)    1741.8 +FPU fmul (32bit x1) ns4       :    0.608     1742.    1742.1  (  1.0 1.0) 
-FPU fadd (32bit x1) ns4       :    0.609     1741.    1741.(  1 1.0)    1741.4 +FPU fadd (32bit x1) ns4       :    0.608     1742.    1742.7  (  1.0 1.0) 
-FPU fmadd (32bit x1) ns4      :    0.609     3483.    1741.6 (  2 1.0)    3483.1 +FPU fmadd (32bit x1) ns4      :    0.608     3485.    1742.6  (  2.0 1.0) 
-NEON fmul.2s (32bit x2) ns4   :    0.609     3481.    1740.(  2 1.0)    3481.9 +NEON fmul.2s (32bit x2) ns4   :    0.608     3485.    1742.8  (  2.0 1.0) 
-NEON fadd.2s (32bit x2) ns4   :    0.608     3486.    1743.(  2 1.0)    3486.4 +NEON fadd.2s (32bit x2) ns4   :    0.607     3490.    1745.1  (  2.0 1.0) 
-NEON fmla.2s (32bit x2) ns4   :    0.608     6970.    1742.(  4 1.0)    6970.1 +NEON fmla.2s (32bit x2) ns4   :    0.608     6972.    1743.2  (  4.0 1.0) 
-NEON fmul.4s (32bit x4) ns4   :    0.623     6805.    1701.(  4 1.0)    6805.1 +NEON fmul.4s (32bit x4) ns4   :    0.622     6810.    1702.7  (  4.0 1.0) 
-NEON fadd.4s (32bit x4) ns4   :    0.623     6808.    1702.(  4 1.0)    6808.5 +NEON fadd.4s (32bit x4) ns4   :    0.624     6796.    1699.0  (  4.0 1.0) 
-NEON fmla.4s (32bit x4) ns4   :    0.623    13605.    1700.(  8 1.0)   13605.8 +NEON fmla.4s (32bit x4) ns4   :    0.624    13597.    1699.6  (  8.0 1.0) 
-FPU fmul (32bit x1) n1        :    0.608     1743.0     1743.0 (  1 1.0)    1743.0 +FPU fmul (32bit x1) n1        :    0.609     1740.0     1740.0  (  1.0 1.0) 
-FPU fadd (32bit x1) n1        :    0.618     1714.    1714.(  1 1.0)    1714.5 +FPU fadd (32bit x1) n1        :    0.607     1745.    1745.3  (  1.0 1.0) 
-FPU fmadd (32bit x1) n1       :    2.444      867.     433.(  2 0.2)     867.3 +FPU fmadd (32bit x1) n1       :    2.431      871.     435.9  (  2.0 0.2) 
-NEON fmul.2s (32bit x2) n1    :    0.608     3484.    1742.(  2 1.0)    3484.3 +NEON fmul.2s (32bit x2) n1    :    0.609     3482.    1741.4  (  2.0 1.0) 
-NEON fadd.2s (32bit x2) n1    :    0.610     3475.9     1737.(  2 1.0)    3475.9 +NEON fadd.2s (32bit x2) n1    :    0.608     3486.9     1743.4  (  2.0 1.0) 
-NEON fmla.2s (32bit x2) n1    :    2.435     1740.     435.(  4 0.2)    1740.9 +NEON fmla.2s (32bit x2) n1    :    2.432     1743.     435.8  (  4.0 0.2) 
-NEON fmul.4s (32bit x4) n1    :    0.625     6785.    1696.(  4 1.0)    6785.7 +NEON fmul.4s (32bit x4) n1    :    0.623     6800.    1700.1  (  4.0 1.0) 
-NEON fadd.4s (32bit x4) n1    :    0.624     6792.    1698.(  4 1.0)    6792.8 +NEON fadd.4s (32bit x4) n1    :    0.625     6788.    1697.0  (  4.0 1.0) 
-NEON fmla.4s (32bit x4) n1    :    2.435     3482.     435.(  8 0.2)    3482.4 +NEON fmla.4s (32bit x4) n1    :    2.431     3488.     436.0  (  8.0 0.2) 
-NEON fmul.4s (32bit x4) n12   :    0.932     6824.    1706.(  4 1.0)    6824.5 +NEON fmul.4s (32bit x4) n12   :    0.927     6861.    1715.4  (  4.0 1.0) 
-NEON fadd.4s (32bit x4) n12   :    0.930     6836.    1709.(  4 1.0)    6836.9 +NEON fadd.4s (32bit x4) n12   :    0.927     6858.    1714.7  (  4.0 1.0) 
-NEON fmla.4s (32bit x4) n12   :    0.930    13682.7     1710.(  8 1.0)   13682.7 +NEON fmla.4s (32bit x4) n12   :    0.926    13731.7     1716.5  (  8.0 1.0) 
-Average                       :    0.770     5752.    1909.9 (  3 1.1)    5752.4 +Average                       :    0.769     5752.    1907.9  (  3.3 1.1) 
-Highest                       :    0.319    13682.7     3323.(  8 1.9)   13682.7+Highest                       :    0.319    13731.7     3322.8  (  8.0 1.9)
  
  
 * Group 0:  Thread=1  Clock=1.766400 GHz  (mask:f) * Group 0:  Thread=1  Clock=1.766400 GHz  (mask:f)
 * FPU/NEON (DP fp) * FPU/NEON (DP fp)
-                                  TIME(s)   MFLOPS      MOPS    FOP IPC  max MFLOPS +                                  TIME(s)   MFLOPS      MOPS     FOP   IPC 
-FPU fmul (64bit x1) n8        :    0.335     3167.    3167.(  1 1.8   3167.7 +FPU fmul (64bit x1) n8        :    0.319     3321.    3321.5  (  1.0 1.9
-FPU fadd (64bit x1) n8        :    0.338     3131.    3131.(  1 1.8)    3131.1 +FPU fadd (64bit x1) n8        :    0.334     3172.    3172.3  (  1.0 1.8) 
-FPU fmadd (64bit x1) n8       :    0.335     6330.    3165.(  2 1.8)    6330.9 +FPU fmadd (64bit x1) n8       :    0.335     6335.    3167.8  (  2.0 1.8) 
-NEON fmul.2d (64bit x2) n8    :    0.623     3399.    1699.(  2 1.0)    3399.7 +NEON fmul.2d (64bit x2) n8    :    0.623     3404.    1702.1  (  2.0 1.0) 
-NEON fadd.2d (64bit x2) n8    :    0.624     3399.    1699.(  2 1.0)    3399.0 +NEON fadd.2d (64bit x2) n8    :    0.623     3401.    1700.9  (  2.0 1.0) 
-NEON fmla.2d (64bit x2) n8    :    0.623     6802.    1700.(  4 1.0)    6802.3 +NEON fmla.2d (64bit x2) n8    :    0.624     6795.    1698.9  (  4.0 1.0) 
-FPU fmul (64bit x1) ns4       :    0.608     1742.    1742.(  1 1.0)    1742.8 +FPU fmul (64bit x1) ns4       :    0.607     1745.    1745.5  (  1.0 1.0) 
-FPU fadd (64bit x1) ns4       :    0.608     1742.    1742.(  1 1.0)    1742.2 +FPU fadd (64bit x1) ns4       :    0.607     1746.    1746.1  (  1.0 1.0) 
-FPU fmadd (64bit x1) ns4      :    0.609     3478.    1739.(  2 1.0)    3478.8 +FPU fmadd (64bit x1) ns4      :    0.608     3489.    1744.5  (  2.0 1.0) 
-NEON fmul.2d (64bit x2) ns4   :    0.626     3385.    1692.(  2 1.0)    3385.4 +NEON fmul.2d (64bit x2) ns4   :    0.622     3406.    1703.1  (  2.0 1.0) 
-NEON fadd.2d (64bit x2) ns4   :    0.625     3389.    1694.(  2 1.0)    3389.2 +NEON fadd.2d (64bit x2) ns4   :    0.625     3390.    1695.0  (  2.0 1.0) 
-NEON fmla.2d (64bit x2) ns4   :    0.632     6708.    1677.(  4 0.9   6708.4 +NEON fmla.2d (64bit x2) ns4   :    0.627     6762.    1690.7  (  4.1.0
-FPU fmul (64bit x1) n1        :    0.616     1721.    1721.(  1 1.0)    1721.3 +FPU fmul (64bit x1) n1        :    0.610     1738.    1738.5  (  1.0 1.0) 
-FPU fadd (64bit x1) n1        :    0.609     1740.    1740.(  1 1.0)    1740.1 +FPU fadd (64bit x1) n1        :    0.608     1743.    1743.9  (  1.0 1.0) 
-FPU fmadd (64bit x1) n1       :    2.437      869.     434.(  2 0.2)     869.7 +FPU fmadd (64bit x1) n1       :    2.432      871.     435.7  (  2.0 0.2) 
-NEON fmul.2d (64bit x2) n1    :    0.626     3387.6     1693.8 (  2 1.0)    3387.6 +NEON fmul.2d (64bit x2) n1    :    0.622     3407.6     1703.8  (  2.0 1.0) 
-NEON fadd.2d (64bit x2) n1    :    0.626     3386.    1693.(  2 1.0)    3386.0 +NEON fadd.2d (64bit x2) n1    :    0.623     3402.    1701.1  (  2.0 1.0) 
-NEON fmla.2d (64bit x2) n1    :    2.441     1737.     434.(  4 0.2)    1737.0 +NEON fmla.2d (64bit x2) n1    :    2.430     1744.     436.2  (  4.0 0.2) 
-NEON fmul.2d (64bit x2) n12   :    0.930     3419.    1709.(  2 1.0)    3419.8 +NEON fmul.2d (64bit x2) n12   :    0.927     3430.    1715.3  (  2.0 1.0) 
-NEON fadd.2d (64bit x2) n12   :    0.928     3425.    1712.(  2 1.0)    3425.3 +NEON fadd.2d (64bit x2) n12   :    0.927     3431.    1715.5  (  2.0 1.0) 
-NEON fmla.2d (64bit x2) n12   :    0.928     6850.    1712.(  4 1.0)    6850.5 +NEON fmla.2d (64bit x2) n12   :    0.927     6861.    1715.4  (  4.0 1.0) 
-Average                       :    0.797     3486.    1795.(  2 1.0)    3486.4 +Average                       :    0.793     3504.    1809.2  (  2.1 1.0) 
-Highest                       :    0.335     6850.    3167.7 (  4 1.8)    6850.5 +Highest                       :    0.319     6861.    3321.5  (  4.0 1.9)
- +
- +
-* Group 0:  Thread=1  Clock=1.766400 GHz  (mask:f) +
-* Matrix 4x4 +
-                                  TIME(s)   MFLOPS      MOPS    FOP IPC  max MFLOPS +
-C++ code                      :    0.371     4269.    4269.4 (  1 2.4)    4269.4 +
-NEON fmla.4s 128bit A         :    0.673     2351.3     2351.3 (  1 1.3   2351.3 +
-NEON fmla.4s 128bit B         :    0.324     4890.2     4890.2 (  1 2.8)    4890.2 +
-Average                       :    0.456     3837.0     3837.0 (  1 2.2)    3837.0 +
-Highest                       :    0.324     4890.2     4890.2 (  1 2.8)    4890.2+
  
  
 * Group 0:  Thread=4  Clock=1.766400 GHz  (mask:f) * Group 0:  Thread=4  Clock=1.766400 GHz  (mask:f)
 * FPU/NEON (HP fp) multi-thread * FPU/NEON (HP fp) multi-thread
-                                  TIME(s)   MFLOPS      MOPS    FOP IPC  max MFLOPS +                                  TIME(s)   MFLOPS      MOPS     FOP   IPC 
-FPU fmul (16bit x1) n8        :    0.321    13201.    3300.(  4 1.9)   13201.8 +FPU fmul (16bit x1) n8        :    0.322    13169.    3292.4  (  4.0 1.9) 
-FPU fadd (16bit x1) n8        :    0.322    13146.    3286.(  4 1.9  13146.1 +FPU fadd (16bit x1) n8        :    0.339    12507.    3126.9  (  4.0 1.8
-FPU fmadd (16bit x1) n8       :    0.324    26192.    3274.(  8 1.9  26192.3 +FPU fmadd (16bit x1) n8       :    0.335    25329.    3166.2  (  8.0 1.8
-NEON fmul.4h (16bit x4) n8    :    0.321    52891.    3305.( 16 1.9)   52891.3 +NEON fmul.4h (16bit x4) n8    :    0.320    52913.    3307.1  ( 16.0 1.9) 
-NEON fadd.4h (16bit x4) n8    :    0.320    52954.    3309.( 16 1.9)   52954.3 +NEON fadd.4h (16bit x4) n8    :    0.321    52853.    3303.3  ( 16.0 1.9) 
-NEON fmla.4h (16bit x4) n8    :    0.323   104926.    3279.( 32 1.9)  104926.5 +NEON fmla.4h (16bit x4) n8    :    0.321   105636.    3301.1  ( 32.0 1.9) 
-NEON fmul.8h (16bit x8) n8    :    0.624    54394.    1699.( 32 1.0)   54394.2 +NEON fmul.8h (16bit x8) n8    :    0.625    54302.    1696.9  ( 32.0 1.0) 
-NEON fadd.8h (16bit x8) n8    :    0.626    54212.    1694.( 32 1.0)   54212.1 +NEON fadd.8h (16bit x8) n8    :    0.623    54438.    1701.2  ( 32.0 1.0) 
-NEON fmla.8h (16bit x8) n8    :    0.672   100991.    1578.( 64 0.9)  100991.1 +NEON fmla.8h (16bit x8) n8    :    0.632   107374.    1677.7  ( 64.0 0.9) 
-FPU fmul (16bit x1) ns4       :    0.660     6421.    1605.(  4 0.9   6421.6 +FPU fmul (16bit x1) ns4       :    0.615     6889.    1722.3  (  4.1.0
-FPU fadd (16bit x1) ns4       :    0.672     6311.    1577.(  4 0.9   6311.5 +FPU fadd (16bit x1) ns4       :    0.609     6959.    1739.8  (  4.1.0
-FPU fmadd (16bit x1) ns4      :    0.646    13120.3     1640.(  8 0.9  13120.3 +FPU fmadd (16bit x1) ns4      :    0.607    13962.3     1745.3  (  8.1.0
-NEON fmul.4h (16bit x4) ns4   :    0.637    26638.    1664.( 16 0.9  26638.8 +NEON fmul.4h (16bit x4) ns4   :    0.613    27659.    1728.7  ( 16.1.0
-NEON fadd.4h (16bit x4) ns4   :    0.637    26638.    1664.( 16 0.9  26638.3 +NEON fadd.4h (16bit x4) ns4   :    0.609    27837.    1739.8  ( 16.1.0
-NEON fmla.4h (16bit x4) ns4   :    0.625    54230.    1694.( 32 1.0)   54230.7 +NEON fmla.4h (16bit x4) ns4   :    0.609    55659.    1739.3  ( 32.0 1.0) 
-NEON fmul.8h (16bit x8) ns4   :    0.639    53111.    1659.( 32 0.9  53111.3 +NEON fmul.8h (16bit x8) ns4   :    0.626    54152.    1692.3  ( 32.1.0
-NEON fadd.8h (16bit x8) ns4   :    0.655    51800.    1618.( 32 0.9  51800.7 +NEON fadd.8h (16bit x8) ns4   :    0.623    54437.    1701.2  ( 32.1.0
-NEON fmla.8h (16bit x8) ns4   :    0.631   107571.    1680.( 64 1.0)  107571.5 +NEON fmla.8h (16bit x8) ns4   :    0.623   108907.    1701.7  ( 64.0 1.0) 
-FPU fmul (16bit x1) n1        :    0.624     6789.    1697.3 (  4 1.0)    6789.1 +FPU fmul (16bit x1) n1        :    0.608     6969.    1742.3  (  4.0 1.0) 
-FPU fadd (16bit x1) n1        :    0.621     6822.    1705.(  4 1.0)    6822.1 +FPU fadd (16bit x1) n1        :    0.607     6980.    1745.1  (  4.0 1.0) 
-FPU fmadd (16bit x1) n1       :    2.477     3423.     427.(  8 0.2)    3423.4 +FPU fmadd (16bit x1) n1       :    2.435     3481.     435.2  (  8.0 0.2) 
-NEON fmul.4h (16bit x4) n1    :    0.618    27451.    1715.( 16 1.0)   27451.7 +NEON fmul.4h (16bit x4) n1    :    0.607    27921.    1745.1  ( 16.0 1.0) 
-NEON fadd.4h (16bit x4) n1    :    0.612    27697.    1731.1 ( 16 1.0)   27697.2 +NEON fadd.4h (16bit x4) n1    :    0.608    27906.    1744.1  ( 16.0 1.0) 
-NEON fmla.4h (16bit x4) n1    :    2.459    13789.     430.( 32 0.2)   13789.6 +NEON fmla.4h (16bit x4) n1    :    2.433    13938.     435.6  ( 32.0 0.2) 
-NEON fmul.8h (16bit x8) n1    :    0.643    52731.    1647.( 32 0.9  52731.2 +NEON fmul.8h (16bit x8) n1    :    0.627    54113.    1691.0  ( 32.1.0
-NEON fadd.8h (16bit x8) n1    :    0.644    52629.    1644.( 32 0.9  52629.8 +NEON fadd.8h (16bit x8) n1    :    0.622    54490.    1702.8  ( 32.1.0
-NEON fmla.8h (16bit x8) n1    :    2.471    27454.     429.0 ( 64 0.2)   27454.3 +NEON fmla.8h (16bit x8) n1    :    2.436    27840.     435.0  ( 64.0 0.2) 
-NEON fmul.8h (16bit x8) n12   :    0.942    54027.    1688.( 32 1.0)   54027.4 +NEON fmul.8h (16bit x8) n12   :    0.928    54823.    1713.2  ( 32.0 1.0) 
-NEON fadd.8h (16bit x8) n12   :    0.945    53838.    1682.( 32 1.0)   53838.2 +NEON fadd.8h (16bit x8) n12   :    0.935    54405.    1700.2  ( 32.0 1.0) 
-NEON fmla.8h (16bit x8) n12   :    0.934   108928.    1702.( 64 1.0)  108928.2 +NEON fmla.8h (16bit x8) n12   :    0.926   109840.    1716.3  ( 64.0 1.0) 
-Average                       :    0.788    41811.    1867.( 25 1.1)   41811.2 +Average                       :    0.772    42589.    1896.3  ( 25.1 1.1) 
-Highest                       :    0.320   108928.    3309.( 64 1.9)  108928.2+Highest                       :    0.320   109840.    3307.1  ( 64.0 1.9)
  
  
 * Group 0:  Thread=4  Clock=1.766400 GHz  (mask:f) * Group 0:  Thread=4  Clock=1.766400 GHz  (mask:f)
 * FPU/NEON (SP fp) multi-thread * FPU/NEON (SP fp) multi-thread
-                                  TIME(s)   MFLOPS      MOPS    FOP IPC  max MFLOPS +                                  TIME(s)   MFLOPS      MOPS     FOP   IPC 
-FPU fmul (32bit x1) n8        :    0.321    13217.    3304.(  4 1.9  13217.0 +FPU fmul (32bit x1) n8        :    0.336    12617.    3154.4  (  4.0 1.8
-FPU fadd (32bit x1) n8        :    0.329    12886.    3221.(  4 1.8  12886.4 +FPU fadd (32bit x1) n8        :    0.322    13185.    3296.4  (  4.0 1.9
-FPU fmadd (32bit x1) n8       :    0.324    26173.    3271.(  8 1.9)   26173.7 +FPU fmadd (32bit x1) n8       :    0.322    26347.    3293.4  (  8.0 1.9) 
-NEON fmul.2s (32bit x2) n8    :    0.326    26045.    3255.(  8 1.8  26045.3 +NEON fmul.2s (32bit x2) n8    :    0.320    26467.    3308.5  (  8.0 1.9
-NEON fadd.2s (32bit x2) n8    :    0.326    25979.    3247.(  8 1.8  25979.8 +NEON fadd.2s (32bit x2) n8    :    0.321    26401.    3300.2  (  8.0 1.9
-NEON fmla.2s (32bit x2) n8    :    0.327    51831.    3239.( 16 1.8  51831.0 +NEON fmla.2s (32bit x2) n8    :    0.323    52475.    3279.7  ( 16.0 1.9
-NEON fmul.4s (32bit x4) n8    :    0.649    26135.3     1633.( 16 0.9  26135.3 +NEON fmul.4s (32bit x4) n8    :    0.628    26989.3     1686.8  ( 16.1.0
-NEON fadd.4s (32bit x4) n8    :    0.641    26468.    1654.( 16 0.9  26468.0 +NEON fadd.4s (32bit x4) n8    :    0.626    27107.    1694.2  ( 16.1.0
-NEON fmla.4s (32bit x4) n8    :    0.643    52712.    1647.( 32 0.9  52712.0 +NEON fmla.4s (32bit x4) n8    :    0.628    53977.    1686.8  ( 32.1.0
-FPU fmul (32bit x1) ns4       :    0.617     6867.    1716.(  4 1.0)    6867.6 +FPU fmul (32bit x1) ns4       :    0.611     6938.    1734.6  (  4.0 1.0) 
-FPU fadd (32bit x1) ns4       :    0.614     6907.    1726.(  4 1.0)    6907.1 +FPU fadd (32bit x1) ns4       :    0.625     6779.    1695.0  (  4.0 1.0) 
-FPU fmadd (32bit x1) ns4      :    0.614    13814.    1726.(  8 1.0)   13814.8 +FPU fmadd (32bit x1) ns4      :    0.608    13934.    1741.8  (  8.0 1.0) 
-NEON fmul.2s (32bit x2) ns4   :    0.611    13880.2     1735.(  8 1.0)   13880.2 +NEON fmul.2s (32bit x2) ns4   :    0.608    13953.2     1744.1  (  8.0 1.0) 
-NEON fadd.2s (32bit x2) ns4   :    0.614    13802.    1725.(  8 1.0)   13802.6 +NEON fadd.2s (32bit x2) ns4   :    0.608    13942.    1742.8  (  8.0 1.0) 
-NEON fmla.2s (32bit x2) ns4   :    0.613    27683.    1730.( 16 1.0)   27683.9 +NEON fmla.2s (32bit x2) ns4   :    0.612    27698.    1731.1  ( 16.0 1.0) 
-NEON fmul.4s (32bit x4) ns4   :    0.629    26949.    1684.( 16 1.0)   26949.0 +NEON fmul.4s (32bit x4) ns4   :    0.628    26990.    1686.9  ( 16.0 1.0) 
-NEON fadd.4s (32bit x4) ns4   :    0.631    26886.    1680.( 16 1.0)   26886.4 +NEON fadd.4s (32bit x4) ns4   :    0.623    27225.    1701.6  ( 16.0 1.0) 
-NEON fmla.4s (32bit x4) ns4   :    0.628    54045.    1688.( 32 1.0)   54045.6 +NEON fmla.4s (32bit x4) ns4   :    0.623    54416.    1700.5  ( 32.0 1.0) 
-FPU fmul (32bit x1) n1        :    0.615     6888.6     1722.1 (  4 1.0)    6888.6 +FPU fmul (32bit x1) n1        :    0.610     6948.6     1737.1  (  4.0 1.0) 
-FPU fadd (32bit x1) n1        :    0.619     6848.6     1712.(  4 1.0)    6848.6 +FPU fadd (32bit x1) n1        :    0.608     6967.6     1741.9  (  4.0 1.0) 
-FPU fmadd (32bit x1) n1       :    2.509     3379.9      422.5 (  8 0.2)    3379.9 +FPU fmadd (32bit x1) n1       :    2.439     3475.9      434.5  (  8.0 0.2) 
-NEON fmul.2s (32bit x2) n1    :    0.614    13801.    1725.(  8 1.0)   13801.4 +NEON fmul.2s (32bit x2) n1    :    0.610    13895.    1736.9  (  8.0 1.0) 
-NEON fadd.2s (32bit x2) n1    :    0.619    13707.    1713.(  8 1.0)   13707.1 +NEON fadd.2s (32bit x2) n1    :    0.608    13944.    1743.1  (  8.0 1.0) 
-NEON fmla.2s (32bit x2) n1    :    2.510     6755.     422.( 16 0.2)    6755.0 +NEON fmla.2s (32bit x2) n1    :    2.451     6917.     432.4  ( 16.0 0.2) 
-NEON fmul.4s (32bit x4) n1    :    0.647    26189.    1636.( 16 0.9  26189.5 +NEON fmul.4s (32bit x4) n1    :    0.625    27142.    1696.4  ( 16.1.0
-NEON fadd.4s (32bit x4) n1    :    0.660    25699.    1606.( 16 0.9  25699.9 +NEON fadd.4s (32bit x4) n1    :    0.630    26929.    1683.1  ( 16.1.0
-NEON fmla.4s (32bit x4) n1    :    2.543    13337.     416.( 32 0.2)   13337.1 +NEON fmla.4s (32bit x4) n1    :    2.445    13872.     433.5  ( 32.0 0.2) 
-NEON fmul.4s (32bit x4) n12   :    0.990    25690.    1605.7 ( 16 0.9  25690.8 +NEON fmul.4s (32bit x4) n12   :    0.943    26971.    1685.7  ( 16.1.0
-NEON fadd.4s (32bit x4) n12   :    0.965    26354.    1647.( 16 0.9  26354.8 +NEON fadd.4s (32bit x4) n12   :    0.936    27179.    1698.7  ( 16.1.0
-NEON fmla.4s (32bit x4) n12   :    0.951    53496.    1671.( 32 0.9  53496.5 +NEON fmla.4s (32bit x4) n12   :    0.928    54835.    1713.6  ( 32.1.0
-Average                       :    0.790    22481.    1873.( 13 1.1)   22481.1 +Average                       :    0.774    22884.    1897.2  ( 13.1.1) 
-Highest                       :    0.321    54045.    3304.( 32 1.9)   54045.6+Highest                       :    0.320    54835.    3308.5  ( 32.0 1.9)
  
  
 * Group 0:  Thread=4  Clock=1.766400 GHz  (mask:f) * Group 0:  Thread=4  Clock=1.766400 GHz  (mask:f)
 * FPU/NEON (DP fp) multi-thread * FPU/NEON (DP fp) multi-thread
-                                  TIME(s)   MFLOPS      MOPS    FOP IPC  max MFLOPS +                                  TIME(s)   MFLOPS      MOPS     FOP   IPC 
-FPU fmul (64bit x1) n8        :    0.354    11990.    2997.6 (  4 1.7  11990.3 +FPU fmul (64bit x1) n8        :    0.320    13254.    3313.6  (  4.0 1.9
-FPU fadd (64bit x1) n8        :    0.358    11843.    2960.(  4 1.7  11843.1 +FPU fadd (64bit x1) n8        :    0.334    12685.    3171.5  (  4.0 1.8
-FPU fmadd (64bit x1) n8       :    0.348    24386.    3048.(  8 1.7  24386.5 +FPU fmadd (64bit x1) n8       :    0.335    25283.    3160.5  (  8.0 1.8
-NEON fmul.2d (64bit x2) n8    :    0.649    13059.    1632.(  8 0.9  13059.9 +NEON fmul.2d (64bit x2) n8    :    0.626    13534.    1691.8  (  8.1.0
-NEON fadd.2d (64bit x2) n8    :    0.663    12789.    1598.(  8 0.9  12789.1 +NEON fadd.2d (64bit x2) n8    :    0.628    13500.    1687.5  (  8.1.0
-NEON fmla.2d (64bit x2) n8    :    0.651    26052.    1628.( 16 0.9  26052.7 +NEON fmla.2d (64bit x2) n8    :    0.624    27196.    1699.8  ( 16.1.0
-FPU fmul (64bit x1) ns4       :    0.638     6643.4     1660.(  4 0.9   6643.4 +FPU fmul (64bit x1) ns4       :    0.609     6962.4     1740.6  (  4.1.0
-FPU fadd (64bit x1) ns4       :    0.638     6647.    1661.(  4 0.9   6647.2 +FPU fadd (64bit x1) ns4       :    0.615     6896.    1724.1  (  4.1.0
-FPU fmadd (64bit x1) ns4      :    0.645    13152.    1644.(  8 0.9  13152.3 +FPU fmadd (64bit x1) ns4      :    0.613    13820.    1727.6  (  8.1.0
-NEON fmul.2d (64bit x2) ns4   :    0.660    12856.    1607.(  8 0.9  12856.2 +NEON fmul.2d (64bit x2) ns4   :    0.624    13580.    1697.6  (  8.1.0
-NEON fadd.2d (64bit x2) ns4   :    0.663    12778.    1597.(  8 0.9)   12778.9 +NEON fadd.2d (64bit x2) ns4   :    0.633    13393.    1674.2  (  8.0 0.9) 
-NEON fmla.2d (64bit x2) ns4   :    0.657    25818.1     1613.( 16 0.9  25818.1 +NEON fmla.2d (64bit x2) ns4   :    0.624    27188.1     1699.3  ( 16.1.0
-FPU fmul (64bit x1) n1        :    0.642     6602.    1650.(  4 0.9   6602.6 +FPU fmul (64bit x1) n1        :    0.609     6963.    1740.8  (  4.1.0
-FPU fadd (64bit x1) n1        :    0.656     6457.    1614.(  4 0.9   6457.9 +FPU fadd (64bit x1) n1        :    0.608     6973.    1743.4  (  4.1.0
-FPU fmadd (64bit x1) n1       :    2.570     3298.     412.(  8 0.2)    3298.5 +FPU fmadd (64bit x1) n1       :    2.442     3472.     434.1  (  8.0 0.2) 
-NEON fmul.2d (64bit x2) n1    :    0.661    12823.    1602.(  8 0.9  12823.2 +NEON fmul.2d (64bit x2) n1    :    0.627    13531.    1691.5  (  8.1.0
-NEON fadd.2d (64bit x2) n1    :    0.655    12936.    1617.(  8 0.9  12936.4 +NEON fadd.2d (64bit x2) n1    :    0.623    13613.    1701.7  (  8.1.0
-NEON fmla.2d (64bit x2) n1    :    2.529     6705.     419.( 16 0.2)    6705.0 +NEON fmla.2d (64bit x2) n1    :    2.457     6901.     431.3  ( 16.0 0.2) 
-NEON fmul.2d (64bit x2) n12   :    0.954    13330.    1666.(  8 0.9  13330.4 +NEON fmul.2d (64bit x2) n12   :    0.937    13568.    1696.1  (  8.1.0
-NEON fadd.2d (64bit x2) n12   :    0.929    13684.    1710.(  8 1.0)   13684.8 +NEON fadd.2d (64bit x2) n12   :    0.957    13285.    1660.7  (  8.0 0.9
-NEON fmla.2d (64bit x2) n12   :    0.933    27273.    1704.( 16 1.0)   27273.1 +NEON fmla.2d (64bit x2) n12   :    0.950    26778.    1673.7  ( 16.0 0.9
-Average                       :    0.831    13387.1     1716.(  8 1.0)   13387.1 +Average                       :    0.800    13923.1     1798.2  (  8.4 1.0) 
-Highest                       :    0.348    27273.1     3048.3 ( 16 1.7)   27273.1 +Highest                       :    0.320    27196.3     3313. 16.0 1.9)
- +
- +
-* Group 0:  Thread=4  Clock=1.766400 GHz  (mask:f) +
-* Matrix 4x4 multi-thread +
-                                  TIME(s)   MFLOPS      MOPS    FOP IPC  max MFLOPS +
-C++ code                      :    0.385    16451.8     4112.9 (  4 2.3)   16451.8 +
-NEON fmla.4s 128bit A         :    0.682     9279.3     2319.8  4 1.3)    9279.3 +
-NEON fmla.4s 128bit B         :    0.328    19301.6     4825.4 (  4 2.7)   19301.6 +
-Average                       :    0.465    15010.9     3752.7 (  4 2.1)   15010.9 +
-Highest                       :    0.328    19301.6     4825.4 (  4 2.7  19301.6+
  
  
 * Group 1:  Thread=1  Clock=2.803200 GHz  (mask:f0) * Group 1:  Thread=1  Clock=2.803200 GHz  (mask:f0)
 * FPU/NEON (HP fp) * FPU/NEON (HP fp)
-                                  TIME(s)   MFLOPS      MOPS    FOP IPC  max MFLOPS +                                  TIME(s)   MFLOPS      MOPS     FOP   IPC 
-FPU fmul (16bit x1) n8        :    0.304     5524.    5524.(  1 2.0)    5524.9 +FPU fmul (16bit x1) n8        :    0.308     5467.    5467.3  (  1.0 2.0) 
-FPU fadd (16bit x1) n8        :    0.307     5476.    5476.(  1 2.0)    5476.1 +FPU fadd (16bit x1) n8        :    0.307     5474.    5474.7  (  1.0 2.0) 
-FPU fmadd (16bit x1) n8       :    0.383     8786.    4393.(  2 1.6)    8786.7 +FPU fmadd (16bit x1) n8       :    0.383     8782.    4391.2  (  2.0 1.6) 
-NEON fmul.4h (16bit x4) n8    :    0.304    22113.    5528.(  4 2.0)   22113.0 +NEON fmul.4h (16bit x4) n8    :    0.305    22089.    5522.4  (  4.0 2.0) 
-NEON fadd.4h (16bit x4) n8    :    0.307    21906.    5476.(  4 2.0)   21906.8 +NEON fadd.4h (16bit x4) n8    :    0.304    22142.    5535.6  (  4.0 2.0) 
-NEON fmla.4h (16bit x4) n8    :    0.304    44248.    5531.(  8 2.0)   44248.4 +NEON fmla.4h (16bit x4) n8    :    0.304    44283.    5535.5  (  8.0 2.0) 
-NEON fmul.8h (16bit x8) n8    :    0.609    22087.    2760.(  8 1.0)   22087.1 +NEON fmul.8h (16bit x8) n8    :    0.608    22145.    2768.2  (  8.0 1.0) 
-NEON fadd.8h (16bit x8) n8    :    0.611    22008.    2751.(  8 1.0)   22008.4 +NEON fadd.8h (16bit x8) n8    :    0.609    22110.    2763.9  (  8.0 1.0) 
-NEON fmla.8h (16bit x8) n8    :    0.610    44087.    2755.( 16 1.0)   44087.5 +NEON fmla.8h (16bit x8) n8    :    0.607    44326.    2770.4  ( 16.0 1.0) 
-FPU fmul (16bit x1) ns4       :    0.464     3627.    3627.(  1 1.3)    3627.7 +FPU fmul (16bit x1) ns4       :    0.460     3653.    3653.0  (  1.0 1.3) 
-FPU fadd (16bit x1) ns4       :    0.461     3648.    3648.(  1 1.3)    3648.1 +FPU fadd (16bit x1) ns4       :    0.464     3626.    3626.9  (  1.0 1.3) 
-FPU fmadd (16bit x1) ns4      :    0.491     6845.    3422.(  2 1.2   6845.7 +FPU fmadd (16bit x1) ns4      :    0.476     7070.    3535.3  (  2.0 1.3
-NEON fmul.4h (16bit x4) ns4   :    0.459    14671.    3667.(  4 1.3)   14671.4 +NEON fmul.4h (16bit x4) ns4   :    0.458    14674.    3668.6  (  4.0 1.3) 
-NEON fadd.4h (16bit x4) ns4   :    0.469    14356.    3589.(  4 1.3)   14356.4 +NEON fadd.4h (16bit x4) ns4   :    0.455    14771.    3692.9  (  4.0 1.3) 
-NEON fmla.4h (16bit x4) ns4   :    0.763    17644.    2205.(  8 0.8)   17644.0 +NEON fmla.4h (16bit x4) ns4   :    0.754    17843.    2230.4  (  8.0 0.8) 
-NEON fmul.8h (16bit x8) ns4   :    0.614    21921.    2740.(  8 1.0)   21921.8 +NEON fmul.8h (16bit x8) ns4   :    0.604    22268.    2783.6  (  8.0 1.0) 
-NEON fadd.8h (16bit x8) ns4   :    0.612    21991.    2748.(  8 1.0)   21991.1 +NEON fadd.8h (16bit x8) ns4   :    0.604    22264.    2783.0  (  8.0 1.0) 
-NEON fmla.8h (16bit x8) ns4   :    0.760    35429.    2214.( 16 0.8)   35429.6 +NEON fmla.8h (16bit x8) ns4   :    0.757    35564.    2222.8  ( 16.0 0.8) 
-FPU fmul (16bit x1) n1        :    0.306     5490.    5490.(  1 2.0)    5490.1 +FPU fmul (16bit x1) n1        :    0.304     5533.    5533.7  (  1.0 2.0) 
-FPU fadd (16bit x1) n1        :    0.309     5449.    5449.(  1.9)    5449.3 +FPU fadd (16bit x1) n1        :    0.303     5548.    5548.7  (  1.0 2.0) 
-FPU fmadd (16bit x1) n1       :    3.051     1102.     551.(  2 0.2)    1102.4 +FPU fmadd (16bit x1) n1       :    3.023     1112.     556.4  (  2.0 0.2) 
-NEON fmul.4h (16bit x4) n1    :    0.308    21808.    5452.(  4 1.9)   21808.3 +NEON fmul.4h (16bit x4) n1    :    0.302    22273.    5568.2  (  4.0 2.0) 
-NEON fadd.4h (16bit x4) n1    :    0.308    21847.    5461.(  4 1.9)   21847.4 +NEON fadd.4h (16bit x4) n1    :    0.302    22291.    5572.8  (  4.0 2.0) 
-NEON fmla.4h (16bit x4) n1    :    1.828     7358.     919.(  8 0.3)    7358.8 +NEON fmla.4h (16bit x4) n1    :    1.819     7397.     924.6  (  8.0 0.3) 
-NEON fmul.8h (16bit x8) n1    :    0.610    22069.    2758.(  8 1.0)   22069.8 +NEON fmul.8h (16bit x8) n1    :    0.606    22201.    2775.1  (  8.0 1.0) 
-NEON fadd.8h (16bit x8) n1    :    0.618    21756.    2719.(  8 1.0)   21756.4 +NEON fadd.8h (16bit x8) n1    :    0.607    22159.    2770.0  (  8.0 1.0) 
-NEON fmla.8h (16bit x8) n1    :    1.825    14748.     921.( 16 0.3)   14748.5 +NEON fmla.8h (16bit x8) n1    :    1.822    14771.     923.2  ( 16.0 0.3) 
-NEON fmul.8h (16bit x8) n12   :    0.916    22041.    2755.(  8 1.0)   22041.2 +NEON fmul.8h (16bit x8) n12   :    0.911    22163.    2770.5  (  8.0 1.0) 
-NEON fadd.8h (16bit x8) n12   :    0.912    22122.    2765.(  8 1.0)   22122.5 +NEON fadd.8h (16bit x8) n12   :    0.911    22148.    2768.5  (  8.0 1.0) 
-NEON fmla.8h (16bit x8) n12   :    0.916    44076.    2754.( 16 1.0)   44076.4 +NEON fmla.8h (16bit x8) n12   :    0.910    44355.    2772.2  ( 16.0 1.0) 
-Average                       :    0.691    18208.    3535.(  6 1.3)   18208.2 +Average                       :    0.686    18350.    3563.7  (  6.3 1.3) 
-Highest                       :    0.304    44248.    5531.( 16 2.0)   44248.4+Highest                       :    0.302    44355.    5572.8  ( 16.0 2.0)
  
  
 * Group 1:  Thread=1  Clock=2.803200 GHz  (mask:f0) * Group 1:  Thread=1  Clock=2.803200 GHz  (mask:f0)
 * FPU/NEON (SP fp) * FPU/NEON (SP fp)
-                                  TIME(s)   MFLOPS      MOPS    FOP IPC  max MFLOPS +                                  TIME(s)   MFLOPS      MOPS     FOP   IPC 
-FPU fmul (32bit x1) n8        :    0.304     5530.    5530.(  1 2.0)    5530.0 +FPU fmul (32bit x1) n8        :    0.302     5578.    5578.1  (  1.0 2.0) 
-FPU fadd (32bit x1) n8        :    0.306     5492.    5492.(  1 2.0)    5492.6 +FPU fadd (32bit x1) n8        :    0.301     5580.    5580.7  (  1.0 2.0) 
-FPU fmadd (32bit x1) n8       :    0.385     8730.    4365.(  2 1.6)    8730.6 +FPU fmadd (32bit x1) n8       :    0.382     8796.    4398.0  (  2.0 1.6) 
-NEON fmul.2s (32bit x2) n8    :    0.303    11088.    5544.(  2 2.0)   11088.3 +NEON fmul.2s (32bit x2) n8    :    0.302    11156.    5578.4  (  2.0 2.0) 
-NEON fadd.2s (32bit x2) n8    :    0.306    10988.    5494.(  2 2.0)   10988.1 +NEON fadd.2s (32bit x2) n8    :    0.302    11130.    5565.3  (  2.0 2.0) 
-NEON fmla.2s (32bit x2) n8    :    0.305    22037.    5509.(  4 2.0)   22037.4 +NEON fmla.2s (32bit x2) n8    :    0.302    22252.    5563.2  (  4.0 2.0) 
-NEON fmul.4s (32bit x4) n8    :    0.609    11055.    2763.(  4 1.0)   11055.3 +NEON fmul.4s (32bit x4) n8    :    0.603    11156.    2789.1  (  4.0 1.0) 
-NEON fadd.4s (32bit x4) n8    :    0.611    11009.1     2752.(  4 1.0)   11009.1 +NEON fadd.4s (32bit x4) n8    :    0.605    11118.1     2779.5  (  4.0 1.0) 
-NEON fmla.4s (32bit x4) n8    :    0.610    22052.    2756.(  8 1.0)   22052.9 +NEON fmla.4s (32bit x4) n8    :    0.607    22171.    2771.5  (  8.0 1.0) 
-FPU fmul (32bit x1) ns4       :    0.462     3643.    3643.(  1 1.3)    3643.3 +FPU fmul (32bit x1) ns4       :    0.458     3668.    3668.8  (  1.0 1.3) 
-FPU fadd (32bit x1) ns4       :    0.456     3691.    3691.(  1 1.3)    3691.7 +FPU fadd (32bit x1) ns4       :    0.464     3622.    3622.2  (  1.0 1.3) 
-FPU fmadd (32bit x1) ns4      :    0.485     6942.    3471.(  2 1.2   6942.4 +FPU fmadd (32bit x1) ns4      :    0.470     7159.    3579.8  (  2.0 1.3
-NEON fmul.2s (32bit x2) ns4   :    0.460     7312.    3656.(  2 1.3)    7312.7 +NEON fmul.2s (32bit x2) ns4   :    0.462     7285.    3642.9  (  2.0 1.3) 
-NEON fadd.2s (32bit x2) ns4   :    0.466     7218.    3609.2 (  2 1.3)    7218.4 +NEON fadd.2s (32bit x2) ns4   :    0.461     7302.    3651.2  (  2.0 1.3) 
-NEON fmla.2s (32bit x2) ns4   :    0.764     8802.    2200.(  4 0.8)    8802.8 +NEON fmla.2s (32bit x2) ns4   :    0.758     8877.    2219.3  (  4.0 0.8) 
-NEON fmul.4s (32bit x4) ns4   :    0.609    11052.    2763.(  4 1.0)   11052.0 +NEON fmul.4s (32bit x4) ns4   :    0.604    11136.    2784.1  (  4.0 1.0) 
-NEON fadd.4s (32bit x4) ns4   :    0.612    10994.    2748.(  4 1.0)   10994.6 +NEON fadd.4s (32bit x4) ns4   :    0.604    11134.    2783.6  (  4.0 1.0) 
-NEON fmla.4s (32bit x4) ns4   :    0.765    17596.    2199.(  8 0.8)   17596.2 +NEON fmla.4s (32bit x4) ns4   :    0.760    17711.    2214.0  (  8.0 0.8) 
-FPU fmul (32bit x1) n1        :    0.308     5469.3     5469.3 (  1 2.0)    5469.3 +FPU fmul (32bit x1) n1        :    0.305     5519.3     5519.3  (  1.0 2.0) 
-FPU fadd (32bit x1) n1        :    0.303     5550.    5550.(  1 2.0)    5550.2 +FPU fadd (32bit x1) n1        :    0.305     5513.    5513.6  (  1.0 2.0) 
-FPU fmadd (32bit x1) n1       :    3.048     1103.     551.(  2 0.2)    1103.5 +FPU fmadd (32bit x1) n1       :    3.040     1106.     553.4  (  2.0 0.2) 
-NEON fmul.2s (32bit x2) n1    :    0.304    11075.    5537.(  2 2.0)   11075.5 +NEON fmul.2s (32bit x2) n1    :    0.304    11079.    5539.7  (  2.0 2.0) 
-NEON fadd.2s (32bit x2) n1    :    0.306    10996.    5498.(  2 2.0)   10996.9 +NEON fadd.2s (32bit x2) n1    :    0.305    11035.    5517.6  (  2.0 2.0) 
-NEON fmla.2s (32bit x2) n1    :    1.827     3682.     920.(  4 0.3)    3682.0 +NEON fmla.2s (32bit x2) n1    :    1.816     3703.     926.0  (  4.0 0.3) 
-NEON fmul.4s (32bit x4) n1    :    0.616    10919.    2729.9 (  4 1.0)   10919.4 +NEON fmul.4s (32bit x4) n1    :    0.609    11055.    2763.9  (  4.0 1.0) 
-NEON fadd.4s (32bit x4) n1    :    0.610    11034.    2758.(  4 1.0)   11034.1 +NEON fadd.4s (32bit x4) n1    :    0.608    11067.    2766.9  (  4.0 1.0) 
-NEON fmla.4s (32bit x4) n1    :    1.823     7379.     922.5 (  8 0.3)    7379.8 +NEON fmla.4s (32bit x4) n1    :    1.823     7380.     922.5  (  8.0 0.3) 
-NEON fmul.4s (32bit x4) n12   :    0.908    11109.    2777.(  4 1.0)   11109.7 +NEON fmul.4s (32bit x4) n12   :    0.914    11045.    2761.5  (  4.0 1.0) 
-NEON fadd.4s (32bit x4) n12   :    0.909    11106.1     2776.(  4 1.0)   11106.1 +NEON fadd.4s (32bit x4) n12   :    0.913    11051.1     2762.8  (  4.0 1.0) 
-NEON fmla.4s (32bit x4) n12   :    0.909    22209.    2776.(  8 1.0)   22209.3 +NEON fmla.4s (32bit x4) n12   :    0.912    22121.    2765.1  (  8.0 1.0) 
-Average                       :    0.690     9895.    3548.(  3 1.3)    9895.8 +Average                       :    0.687     9950.    3569.4  (  3.3 1.3) 
-Highest                       :    0.303    22209.    5550.(  8 2.0)   22209.3+Highest                       :    0.301    22252.    5580.7  (  8.0 2.0)
  
  
 * Group 1:  Thread=1  Clock=2.803200 GHz  (mask:f0) * Group 1:  Thread=1  Clock=2.803200 GHz  (mask:f0)
 * FPU/NEON (DP fp) * FPU/NEON (DP fp)
-                                  TIME(s)   MFLOPS      MOPS    FOP IPC  max MFLOPS +                                  TIME(s)   MFLOPS      MOPS     FOP   IPC 
-FPU fmul (64bit x1) n8        :    0.302     5577.    5577.(  1 2.0)    5577.2 +FPU fmul (64bit x1) n8        :    0.301     5579.    5579.0  (  1.0 2.0) 
-FPU fadd (64bit x1) n8        :    0.305     5521.3     5521.3 (  1 2.0)    5521.3 +FPU fadd (64bit x1) n8        :    0.301     5579.3     5579.3  (  1.0 2.0) 
-FPU fmadd (64bit x1) n8       :    0.384     8754.6     4377.(  2 1.6)    8754.6 +FPU fmadd (64bit x1) n8       :    0.383     8783.6     4391.8  (  2.0 1.6) 
-NEON fmul.2d (64bit x2) n8    :    0.606     5548.    2774.(  2 1.0)    5548.7 +NEON fmul.2d (64bit x2) n8    :    0.604     5571.    2785.9  (  2.0 1.0) 
-NEON fadd.2d (64bit x2) n8    :    0.604     5568.    2784.(  2 1.0)    5568.3 +NEON fadd.2d (64bit x2) n8    :    0.604     5565.    2782.9  (  2.0 1.0) 
-NEON fmla.2d (64bit x2) n8    :    0.607    11089.    2772.(  4 1.0)   11089.9 +NEON fmla.2d (64bit x2) n8    :    0.608    11063.    2765.8  (  4.0 1.0) 
-FPU fmul (64bit x1) ns4       :    0.461     3645.    3645.(  1 1.3)    3645.8 +FPU fmul (64bit x1) ns4       :    0.469     3586.    3586.5  (  1.0 1.3) 
-FPU fadd (64bit x1) ns4       :    0.464     3626.    3626.(  1 1.3)    3626.4 +FPU fadd (64bit x1) ns4       :    0.466     3611.    3611.1  (  1.0 1.3) 
-FPU fmadd (64bit x1) ns4      :    0.466     7225.    3612.8 (  2 1.3)    7225.6 +FPU fmadd (64bit x1) ns4      :    0.476     7061.    3530.8  (  2.0 1.3) 
-NEON fmul.2d (64bit x2) ns4   :    0.607     5538.    2769.(  2 1.0)    5538.2 +NEON fmul.2d (64bit x2) ns4   :    0.615     5472.    2736.3  (  2.0 1.0) 
-NEON fadd.2d (64bit x2) ns4   :    0.610     5513.    2756.8 (  2 1.0)    5513.5 +NEON fadd.2d (64bit x2) ns4   :    0.614     5479.    2739.8  (  2.0 1.0) 
-NEON fmla.2d (64bit x2) ns4   :    0.762     8828.    2207.(  4 0.8)    8828.6 +NEON fmla.2d (64bit x2) ns4   :    0.768     8764.    2191.0  (  4.0 0.8) 
-FPU fmul (64bit x1) n1        :    0.303     5543.    5543.(  1 2.0)    5543.2 +FPU fmul (64bit x1) n1        :    0.308     5455.    5455.8  (  1.0 1.9
-FPU fadd (64bit x1) n1        :    0.306     5501.7     5501.7 (  1 2.0)    5501.7 +FPU fadd (64bit x1) n1        :    0.307     5471.7     5471.7  (  1.0 2.0) 
-FPU fmadd (64bit x1) n1       :    3.028     1111.     555.(  2 0.2)    1111.0 +FPU fmadd (64bit x1) n1       :    3.046     1104.     552.2  (  2.0 0.2) 
-NEON fmul.2d (64bit x2) n1    :    0.611     5504.    2752.(  2 1.0)    5504.7 +NEON fmul.2d (64bit x2) n1    :    0.607     5539.    2769.7  (  2.0 1.0) 
-NEON fadd.2d (64bit x2) n1    :    0.610     5513.7     2756.(  2 1.0)    5513.7 +NEON fadd.2d (64bit x2) n1    :    0.608     5530.7     2765.3  (  2.0 1.0) 
-NEON fmla.2d (64bit x2) n1    :    1.823     3689.     922.(  4 0.3)    3689.5 +NEON fmla.2d (64bit x2) n1    :    1.828     3679.     919.9  (  4.0 0.3) 
-NEON fmul.2d (64bit x2) n12   :    0.908     5556.    2778.(  2 1.0)    5556.2 +NEON fmul.2d (64bit x2) n12   :    0.922     5471.    2735.8  (  2.0 1.0) 
-NEON fadd.2d (64bit x2) n12   :    0.919     5489.    2744.(  2 1.0)    5489.6 +NEON fadd.2d (64bit x2) n12   :    0.922     5472.    2736.2  (  2.0 1.0) 
-NEON fmla.2d (64bit x2) n12   :    0.956    10553.    2638.(  4 0.9  10553.0 +NEON fmla.2d (64bit x2) n12   :    0.921    10954.    2738.6  (  4.1.0
-Average                       :    0.745     5947.    3267.(  2 1.2)    5947.7 +Average                       :    0.747     5942.    3258.4  (  2.1 1.2) 
-Highest                       :    0.302    11089.    5577.(  4 2.0)   11089.9 +Highest                       :    0.301    11063.    5579.3  (  4.0 2.0)
- +
- +
-* Group 1:  Thread=1  Clock=2.803200 GHz  (mask:f0) +
-* Matrix 4x4 +
-                                  TIME(s)   MFLOPS      MOPS    FOP IPC  max MFLOPS +
-C++ code                      :    0.278     9026.8     9026.8 (  1 3.2   9026.8 +
-NEON fmla.4s 128bit A         :    0.225    11155.5    11155.5 (  1 4.0)   11155.5 +
-NEON fmla.4s 128bit B         :    0.230    10941.9    10941.9 (  1 3.9)   10941.9 +
-Average                       :    0.244    10374.7    10374.7 (  1 3.7)   10374.7 +
-Highest                       :    0.225    11155.5    11155.5 (  1 4.0)   11155.5+
  
  
 * Group 1:  Thread=4  Clock=2.803200 GHz  (mask:f0) * Group 1:  Thread=4  Clock=2.803200 GHz  (mask:f0)
 * FPU/NEON (HP fp) multi-thread * FPU/NEON (HP fp) multi-thread
-                                  TIME(s)   MFLOPS      MOPS    FOP IPC  max MFLOPS +                                  TIME(s)   MFLOPS      MOPS     FOP   IPC 
-FPU fmul (16bit x1) n8        :    0.319    21091.6     5272.9 (  4 1.9)   21091.6 +FPU fmul (16bit x1) n8        :    0.319    21091.6     5272.9  (  4.0 1.9) 
-FPU fadd (16bit x1) n8        :    0.319    21093.    5273.(  4 1.9)   21093.3 +FPU fadd (16bit x1) n8        :    0.319    21094.    5273.5  (  4.0 1.9) 
-FPU fmadd (16bit x1) n8       :    0.402    33482.    4185.(  8 1.5)   33482.1 +FPU fmadd (16bit x1) n8       :    0.404    33329.    4166.2  (  8.0 1.5) 
-NEON fmul.4h (16bit x4) n8    :    0.319    84378.    5273.( 16 1.9)   84378.9 +NEON fmul.4h (16bit x4) n8    :    0.319    84394.    5274.6  ( 16.0 1.9) 
-NEON fadd.4h (16bit x4) n8    :    0.319    84377.    5273.( 16 1.9)   84377.6 +NEON fadd.4h (16bit x4) n8    :    0.319    84371.    5273.2  ( 16.0 1.9) 
-NEON fmla.4h (16bit x4) n8    :    0.319   168729.    5272.( 32 1.9)  168729.8 +NEON fmla.4h (16bit x4) n8    :    0.319   168755.    5273.6  ( 32.0 1.9) 
-NEON fmul.8h (16bit x8) n8    :    0.638    84375.    2636.( 32 0.9)   84375.1 +NEON fmul.8h (16bit x8) n8    :    0.638    84391.    2637.2  ( 32.0 0.9) 
-NEON fadd.8h (16bit x8) n8    :    0.638    84376.    2636.( 32 0.9)   84376.7 +NEON fadd.8h (16bit x8) n8    :    0.638    84381.    2636.9  ( 32.0 0.9) 
-NEON fmla.8h (16bit x8) n8    :    0.638   168712.    2636.( 64 0.9)  168712.1 +NEON fmla.8h (16bit x8) n8    :    0.638   168764.    2636.9  ( 64.0 0.9) 
-FPU fmul (16bit x1) ns4       :    0.488    13795.    3449.(  4 1.2)   13795.9 +FPU fmul (16bit x1) ns4       :    0.484    13902.    3475.6  (  4.0 1.2) 
-FPU fadd (16bit x1) ns4       :    0.484    13905.    3476.(  4 1.2)   13905.6 +FPU fadd (16bit x1) ns4       :    0.487    13826.    3456.6  (  4.0 1.2) 
-FPU fmadd (16bit x1) ns4      :    0.513    26236.    3279.5 (  8 1.2)   26236.3 +FPU fmadd (16bit x1) ns4      :    0.505    26643.    3330.5  (  8.0 1.2) 
-NEON fmul.4h (16bit x4) ns4   :    0.483    55767.    3485.( 16 1.2)   55767.6 +NEON fmul.4h (16bit x4) ns4   :    0.485    55444.    3465.2  ( 16.0 1.2) 
-NEON fadd.4h (16bit x4) ns4   :    0.486    55340.9     3458.( 16 1.2)   55340.9 +NEON fadd.4h (16bit x4) ns4   :    0.483    55771.9     3485.7  ( 16.0 1.2) 
-NEON fmla.4h (16bit x4) ns4   :    0.797    67493.    2109.( 32 0.8)   67493.5 +NEON fmla.4h (16bit x4) ns4   :    0.798    67472.    2108.5  ( 32.0 0.8) 
-NEON fmul.8h (16bit x8) ns4   :    0.638    84377.    2636.( 32 0.9)   84377.3 +NEON fmul.8h (16bit x8) ns4   :    0.638    84390.    2637.2  ( 32.0 0.9) 
-NEON fadd.8h (16bit x8) ns4   :    0.638    84371.    2636.( 32 0.9)   84371.5 +NEON fadd.8h (16bit x8) ns4   :    0.638    84369.    2636.5  ( 32.0 0.9) 
-NEON fmla.8h (16bit x8) ns4   :    0.797   134989.    2109.( 64 0.8)  134989.4 +NEON fmla.8h (16bit x8) ns4   :    0.797   134981.    2109.1  ( 64.0 0.8) 
-FPU fmul (16bit x1) n1        :    0.319    21087.    5271.(  4 1.9)   21087.0 +FPU fmul (16bit x1) n1        :    0.319    21092.    5273.0  (  4.0 1.9) 
-FPU fadd (16bit x1) n1        :    0.319    21092.    5273.2 (  4 1.9)   21092.7 +FPU fadd (16bit x1) n1        :    0.319    21088.    5272.2  (  4.0 1.9) 
-FPU fmadd (16bit x1) n1       :    3.190     4218.     527.3 (  8 0.2)    4218.3 +FPU fmadd (16bit x1) n1       :    3.190     4218.     527.3  (  8.0 0.2) 
-NEON fmul.4h (16bit x4) n1    :    0.319    84365.    5272.( 16 1.9)   84365.2 +NEON fmul.4h (16bit x4) n1    :    0.319    84362.    5272.6  ( 16.0 1.9) 
-NEON fadd.4h (16bit x4) n1    :    0.319    84375.    5273.( 16 1.9)   84375.2 +NEON fadd.4h (16bit x4) n1    :    0.319    84353.    5272.1  ( 16.0 1.9) 
-NEON fmla.4h (16bit x4) n1    :    1.914    28124.     878.( 32 0.3)   28124.4 +NEON fmla.4h (16bit x4) n1    :    1.914    28120.     878.8  ( 32.0 0.3) 
-NEON fmul.8h (16bit x8) n1    :    0.638    84368.    2636.( 32 0.9)   84368.6 +NEON fmul.8h (16bit x8) n1    :    0.638    84355.    2636.1  ( 32.0 0.9) 
-NEON fadd.8h (16bit x8) n1    :    0.638    84377.    2636.( 32 0.9)   84377.3 +NEON fadd.8h (16bit x8) n1    :    0.638    84365.    2636.4  ( 32.0 0.9) 
-NEON fmla.8h (16bit x8) n1    :    1.914    56247.     878.( 64 0.3)   56247.7 +NEON fmla.8h (16bit x8) n1    :    1.914    56233.     878.6  ( 64.0 0.3) 
-NEON fmul.8h (16bit x8) n12   :    0.957    84381.    2636.( 32 0.9)   84381.6 +NEON fmul.8h (16bit x8) n12   :    0.957    84356.    2636.2  ( 32.0 0.9) 
-NEON fadd.8h (16bit x8) n12   :    0.957    84385.    2637.( 32 0.9)   84385.7 +NEON fadd.8h (16bit x8) n12   :    0.957    84360.    2636.3  ( 32.0 0.9) 
-NEON fmla.8h (16bit x8) n12   :    0.957   168782.    2637.( 64 0.9)  168782.7 +NEON fmla.8h (16bit x8) n12   :    0.957   168727.    2636.4  ( 64.0 0.9) 
-Average                       :    0.722    69756.    3388.( 25 1.2)   69756.7 +Average                       :    0.722    69767.    3390.2  ( 25.1 1.2) 
-Highest                       :    0.319   168782.    5273.( 64 1.9)  168782.7+Highest                       :    0.319   168764.    5274.6  ( 64.0 1.9)
  
  
 * Group 1:  Thread=4  Clock=2.803200 GHz  (mask:f0) * Group 1:  Thread=4  Clock=2.803200 GHz  (mask:f0)
 * FPU/NEON (SP fp) multi-thread * FPU/NEON (SP fp) multi-thread
-                                  TIME(s)   MFLOPS      MOPS    FOP IPC  max MFLOPS +                                  TIME(s)   MFLOPS      MOPS     FOP   IPC 
-FPU fmul (32bit x1) n8        :    0.319    21086.7     5271.(  4 1.9)   21086.7 +FPU fmul (32bit x1) n8        :    0.319    21088.7     5272.2  (  4.0 1.9) 
-FPU fadd (32bit x1) n8        :    0.319    21087.    5271.(  4 1.9)   21087.6 +FPU fadd (32bit x1) n8        :    0.319    21089.    5272.4  (  4.0 1.9) 
-FPU fmadd (32bit x1) n8       :    0.406    33132.    4141.(  8 1.5)   33132.2 +FPU fmadd (32bit x1) n8       :    0.403    33350.    4168.9  (  8.0 1.5) 
-NEON fmul.2s (32bit x2) n8    :    0.319    42174.    5271.(  8 1.9)   42174.9 +NEON fmul.2s (32bit x2) n8    :    0.319    42171.    5271.5  (  8.0 1.9) 
-NEON fadd.2s (32bit x2) n8    :    0.319    42174.9     5271.(  8 1.9)   42174.9 +NEON fadd.2s (32bit x2) n8    :    0.319    42178.9     5272.4  (  8.0 1.9) 
-NEON fmla.2s (32bit x2) n8    :    0.319    84342.    5271.( 16 1.9)   84342.4 +NEON fmla.2s (32bit x2) n8    :    0.320    84163.    5260.2  ( 16.0 1.9) 
-NEON fmul.4s (32bit x4) n8    :    0.638    42179.    2636.2 ( 16 0.9)   42179.2 +NEON fmul.4s (32bit x4) n8    :    0.638    42178.    2636.2  ( 16.0 0.9) 
-NEON fadd.4s (32bit x4) n8    :    0.638    42174.    2635.( 16 0.9)   42174.4 +NEON fadd.4s (32bit x4) n8    :    0.638    42176.    2636.0  ( 16.0 0.9) 
-NEON fmla.4s (32bit x4) n8    :    0.638    84354.    2636.( 32 0.9)   84354.6 +NEON fmla.4s (32bit x4) n8    :    0.638    84357.    2636.2  ( 32.0 0.9) 
-FPU fmul (32bit x1) ns4       :    0.485    13858.    3464.(  4 1.2)   13858.1 +FPU fmul (32bit x1) ns4       :    0.483    13918.    3479.7  (  4.0 1.2) 
-FPU fadd (32bit x1) ns4       :    0.482    13947.6     3486.(  4 1.2)   13947.6 +FPU fadd (32bit x1) ns4       :    0.486    13849.6     3462.4  (  4.0 1.2) 
-FPU fmadd (32bit x1) ns4      :    0.506    26601.    3325.(  8 1.2)   26601.7 +FPU fmadd (32bit x1) ns4      :    0.500    26910.    3363.8  (  8.0 1.2) 
-NEON fmul.2s (32bit x2) ns4   :    0.483    27842.    3480.(  8 1.2)   27842.4 +NEON fmul.2s (32bit x2) ns4   :    0.485    27727.    3465.9  (  8.0 1.2) 
-NEON fadd.2s (32bit x2) ns4   :    0.485    27767.    3470.(  8 1.2)   27767.4 +NEON fadd.2s (32bit x2) ns4   :    0.484    27787.    3473.4  (  8.0 1.2) 
-NEON fmla.2s (32bit x2) ns4   :    0.798    33741.    2108.9 ( 16 0.8)   33741.7 +NEON fmla.2s (32bit x2) ns4   :    0.798    33743.    2108.9  ( 16.0 0.8) 
-NEON fmul.4s (32bit x4) ns4   :    0.638    42177.    2636.( 16 0.9)   42177.0 +NEON fmul.4s (32bit x4) ns4   :    0.638    42179.    2636.2  ( 16.0 0.9) 
-NEON fadd.4s (32bit x4) ns4   :    0.638    42179.    2636.( 16 0.9)   42179.5 +NEON fadd.4s (32bit x4) ns4   :    0.638    42176.    2636.0  ( 16.0 0.9) 
-NEON fmla.4s (32bit x4) ns4   :    0.798    67483.    2108.( 32 0.8)   67483.6 +NEON fmla.4s (32bit x4) ns4   :    0.798    67481.    2108.8  ( 32.0 0.8) 
-FPU fmul (32bit x1) n1        :    0.319    21089.    5272.(  4 1.9)   21089.6 +FPU fmul (32bit x1) n1        :    0.319    21088.    5272.1  (  4.0 1.9) 
-FPU fadd (32bit x1) n1        :    0.319    21087.    5271.(  4 1.9)   21087.5 +FPU fadd (32bit x1) n1        :    0.319    21086.    5271.6  (  4.0 1.9) 
-FPU fmadd (32bit x1) n1       :    3.190     4217.     527.2 (  8 0.2)    4217.8 +FPU fmadd (32bit x1) n1       :    3.190     4217.     527.2  (  8.0 0.2) 
-NEON fmul.2s (32bit x2) n1    :    0.319    42178.    5272.3 (  8 1.9)   42178.2 +NEON fmul.2s (32bit x2) n1    :    0.319    42178.    5272.3  (  8.0 1.9) 
-NEON fadd.2s (32bit x2) n1    :    0.319    42181.    5272.(  8 1.9)   42181.3 +NEON fadd.2s (32bit x2) n1    :    0.319    42180.    5272.6  (  8.0 1.9) 
-NEON fmla.2s (32bit x2) n1    :    1.914    14060.     878.( 16 0.3)   14060.8 +NEON fmla.2s (32bit x2) n1    :    1.914    14059.     878.7  ( 16.0 0.3) 
-NEON fmul.4s (32bit x4) n1    :    0.638    42178.1     2636.( 16 0.9)   42178.1 +NEON fmul.4s (32bit x4) n1    :    0.638    42166.1     2635.4  ( 16.0 0.9) 
-NEON fadd.4s (32bit x4) n1    :    0.638    42178.    2636.2 ( 16 0.9)   42178.8 +NEON fadd.4s (32bit x4) n1    :    0.638    42179.    2636.2  ( 16.0 0.9) 
-NEON fmla.4s (32bit x4) n1    :    1.914    28124.     878.( 32 0.3)   28124.7 +NEON fmla.4s (32bit x4) n1    :    1.914    28119.     878.7  ( 32.0 0.3) 
-NEON fmul.4s (32bit x4) n12   :    0.957    42188.    2636.( 16 0.9)   42188.5 +NEON fmul.4s (32bit x4) n12   :    0.957    42171.    2635.7  ( 16.0 0.9) 
-NEON fadd.4s (32bit x4) n12   :    0.957    42180.    2636.3 ( 16 0.9)   42180.8 +NEON fadd.4s (32bit x4) n12   :    0.957    42164.    2635.3  ( 16.0 0.9) 
-NEON fmla.4s (32bit x4) n12   :    0.957    84399.    2637.( 32 0.9)   84399.7 +NEON fmla.4s (32bit x4) n12   :    0.957    84401.    2637.6  ( 32.0 0.9) 
-Average                       :    0.722    37812.    3389.( 13 1.2)   37812.4 +Average                       :    0.722    37818.    3390.5  ( 13.3 1.2) 
-Highest                       :    0.319    84399.    5272.( 32 1.9)   84399.7+Highest                       :    0.319    84401.    5272.6  ( 32.0 1.9)
  
  
 * Group 1:  Thread=4  Clock=2.803200 GHz  (mask:f0) * Group 1:  Thread=4  Clock=2.803200 GHz  (mask:f0)
 * FPU/NEON (DP fp) multi-thread * FPU/NEON (DP fp) multi-thread
-                                  TIME(s)   MFLOPS      MOPS    FOP IPC  max MFLOPS +                                  TIME(s)   MFLOPS      MOPS     FOP   IPC 
-FPU fmul (64bit x1) n8        :    0.319    21091.    5272.(  4 1.9)   21091.0 +FPU fmul (64bit x1) n8        :    0.319    21090.    5272.6  (  4.0 1.9) 
-FPU fadd (64bit x1) n8        :    0.319    21089.    5272.(  4 1.9)   21089.9 +FPU fadd (64bit x1) n8        :    0.319    21091.    5272.8  (  4.0 1.9) 
-FPU fmadd (64bit x1) n8       :    0.414    32502.    4062.(  8 1.4  32502.3 +FPU fmadd (64bit x1) n8       :    0.405    33247.    4155.9  (  8.0 1.5
-NEON fmul.2d (64bit x2) n8    :    0.638    21084.    2635.(  8 0.9)   21084.7 +NEON fmul.2d (64bit x2) n8    :    0.638    21092.    2636.5  (  8.0 0.9) 
-NEON fadd.2d (64bit x2) n8    :    0.638    21092.    2636.6 (  8 0.9)   21092.6 +NEON fadd.2d (64bit x2) n8    :    0.638    21084.    2635.6  (  8.0 0.9) 
-NEON fmla.2d (64bit x2) n8    :    0.649    41472.    2592.( 16 0.9)   41472.2 +NEON fmla.2d (64bit x2) n8    :    0.638    42165.    2635.4  ( 16.0 0.9) 
-FPU fmul (64bit x1) ns4       :    0.485    13871.    3468.(  4 1.2)   13871.9 +FPU fmul (64bit x1) ns4       :    0.489    13761.    3440.3  (  4.0 1.2) 
-FPU fadd (64bit x1) ns4       :    0.493    13653.    3413.(  4 1.2)   13653.8 +FPU fadd (64bit x1) ns4       :    0.485    13883.    3470.9  (  4.0 1.2) 
-FPU fmadd (64bit x1) ns4      :    0.504    26674.    3334.(  8 1.2)   26674.3 +FPU fmadd (64bit x1) ns4      :    0.494    27244.    3405.5  (  8.0 1.2) 
-NEON fmul.2d (64bit x2) ns4   :    0.640    21035.    2629.(  8 0.9)   21035.6 +NEON fmul.2d (64bit x2) ns4   :    0.638    21091.    2636.5  (  8.0 0.9) 
-NEON fadd.2d (64bit x2) ns4   :    0.641    20989.    2623.7 (  8 0.9)   20989.8 +NEON fadd.2d (64bit x2) ns4   :    0.638    21093.    2636.7  (  8.0 0.9) 
-NEON fmla.2d (64bit x2) ns4   :    0.806    33376.    2086.( 16 0.7  33376.9 +NEON fmla.2d (64bit x2) ns4   :    0.798    33738.    2108.7  ( 16.0 0.8
-FPU fmul (64bit x1) n1        :    0.324    20789.    5197.(  4 1.9)   20789.9 +FPU fmul (64bit x1) n1        :    0.319    21091.    5272.8  (  4.0 1.9) 
-FPU fadd (64bit x1) n1        :    0.329    20459.    5114.(  4 1.8  20459.1 +FPU fadd (64bit x1) n1        :    0.319    21090.    5272.6  (  4.0 1.9
-FPU fmadd (64bit x1) n1       :    3.190     4217.     527.(  8 0.2)    4217.4 +FPU fmadd (64bit x1) n1       :    3.189     4218.     527.4  (  8.0 0.2) 
-NEON fmul.2d (64bit x2) n1    :    0.638    21089.    2636.(  8 0.9)   21089.3 +NEON fmul.2d (64bit x2) n1    :    0.638    21092.    2636.6  (  8.0 0.9) 
-NEON fadd.2d (64bit x2) n1    :    0.638    21088.    2636.(  8 0.9)   21088.4 +NEON fadd.2d (64bit x2) n1    :    0.638    21092.    2636.5  (  8.0 0.9) 
-NEON fmla.2d (64bit x2) n1    :    1.914    14062.     878.( 16 0.3)   14062.3 +NEON fmla.2d (64bit x2) n1    :    1.914    14061.     878.8  ( 16.0 0.3) 
-NEON fmul.2d (64bit x2) n12   :    0.957    21085.    2635.(  8 0.9)   21085.9 +NEON fmul.2d (64bit x2) n12   :    0.957    21091.    2636.5  (  8.0 0.9) 
-NEON fadd.2d (64bit x2) n12   :    0.957    21085.    2635.(  8 0.9)   21085.8 +NEON fadd.2d (64bit x2) n12   :    0.957    21082.    2635.3  (  8.0 0.9) 
-NEON fmla.2d (64bit x2) n12   :    0.979    41232.    2577.( 16 0.9)   41232.4 +NEON fmla.2d (64bit x2) n12   :    0.957    42196.    2637.3  ( 16.0 0.9) 
-Average                       :    0.784    22526.    3088.(  8 1.1)   22526.0 +Average                       :    0.780    22742.    3116.2  (  8.4 1.1) 
-Highest                       :    0.319    41472.    5272.7 ( 16 1.9)   41472.2 +Highest                       :    0.319    42196.    5272.8 16.0 1.9)
- +
- +
-* Group 1:  Thread=4  Clock=2.803200 GHz  (mask:f0) +
-* Matrix 4x4 multi-thread +
-                                  TIME(s)   MFLOPS      MOPS    FOP IPC  max MFLOPS +
-C++ code                      :    0.327    30720.8     7680.2 (  4 2.7)   30720.8 +
-NEON fmla.4s 128bit A         :    0.263    38229.5     9557.4  4 3.4)   38229.5 +
-NEON fmla.4s 128bit B         :    0.269    37384.5     9346.(  4 3.3)   37384.5 +
-Average                       :    0.286    35444.9     8861.2 (  4 3.2  35444.9 +
-Highest                       :    0.263    38229.5     9557.4 (  4 3.4)   38229.5+
  
  
行 11822: 行 11811:
  
 <code> <code>
-ARCH: ARMv7A 2 +Date: 20200808 172338 
-FPU: VFPv3-D32 NEON +ARCH: ARMv7A 
-SingleT SP max16.066 GFLOPS +FPU : VFPv4-D32 NEON 
-SingleT DP max8.027 GFLOPS +NameRK3399 ChromebookFlipC101PA 
-MultiT  SP max32.054 GFLOPS +CPU Thread 6 
-MultiT  DP max16.036 GFLOPS +CPU Core  :  6 
-CPU core: 2 +CPU Group :  
-NEON: yes +  Group 0Thread= 4  Clock=1.512000 GHz  (mask:f) 
-FMA : no+  Group 1Thread=  Clock=2.016000 GHz  (mask:30) 
 +NEON   : yes 
 +FMA    : yes 
 +FPHP   : no 
 +SIMDHP : no 
 +DotProd: no
  
-* VFP/NEON (single fp) +Total: 
-                                  TIME(s)   MFLOPS      MOPS    FOP IPC  max MFLOPS +SingleThread HP max: - 
-VFP fmuls (32bit x1) n8          0.342     3503.9     3503.9 (  1 1.7)    3503.9 +SingleThread SP max:   16.062 GFLOPS 
-VFP fadds (32bit x1) n8       :    0.299     4012.7     4012.7 (  1 2.0)    4012.7 +SingleThread DP max:    8.030 GFLOPS 
-VFP fmacs (32bit x1) n8       :    0.299     8027.0     4013.5 (  2 2.0)    8027.0 +MultiThread  HP max: - 
-VFP vfma.f32 (32bit x1) n8    :        -          -          -    -          +MultiThread  SP max:   79.036 GFLOPS 
-NEON vmul.f32 (32bit x2) n8      0.299     8023.6     4011.8 (  2 2.0)    8023.6 +MultiThread  DP max:   37.760 GFLOPS
-NEON vadd.f32 (32bit x2) n8   :    0.299     8027.8     4013.9 (  2 2.0)    8027.8 +
-NEON vmla.f32 (32bit x2) n8   :    0.299    16056.4     4014.1 (  4 2.0)   16056.4 +
-NEON vfma.f32 (32bit x2) n8   :        -          -          -    -          - +
-NEON vmul.f32 (32bit x4) n8   :    0.598     8028.4     2007.1 (  4 1.0)    8028.4 +
-NEON vadd.f32 (32bit x4) n8   :    0.598     8028.6     2007.2 (  4 1.0)    8028.6 +
-NEON vmla.f32 (32bit x4) n8   :    0.598    16057.    2007.2 (  8 1.0)   16057.8 +
-NEON vfma.f32 (32bit x4) n8   :        -          -          -    -          - +
-VFP fmuls (32bit x1) ns4      :    0.598     2006.3     2006.3 (  1 1.0)    2006.3 +
-VFP fadds (32bit x1) ns4         0.599     2002.3     2002.3 (  1 1.0)    2002.3 +
-VFP fmacs (32bit x1) ns4      :    1.046     2294.9     1147.5 (  2 0.6)    2294.9 +
-VFP vfma.f32 (32bit x1) ns4   :        -          -          -    -          +
-NEON vmul.f32 (32bit x2) ns4  :    0.597     4016.8     2008.4 (  2 1.0)    4016.8 +
-NEON vadd.f32 (32bit x2) ns4  :    0.597     4016.8     2008.4 (  2 1.0)    4016.8 +
-NEON vmla.f32 (32bit x2) ns4  :    1.046     4590.9     1147.7 (  4 0.6)    4590.9 +
-NEON vfma.f32 (32bit x2) ns4  :        -          -          -    -          - +
-NEON vmul.f32 (32bit x4) ns4  :    0.597     8033.6     2008.4 (  4 1.0)    8033.6 +
-NEON vadd.f32 (32bit x4) ns4  :    0.597     8033.5     2008.4 (  4 1.0)    8033.5 +
-NEON vmla.f32 (32bit x4) ns4  :    1.046     9181.9     1147.7 (  8 0.6)    9181.9 +
-NEON vfma.f32 (32bit x4) ns4  :        -          -          -    -          - +
-VFP fmuls (32bit x1) n1       :    0.299     4015.6     4015.6 (  1 2.0)    4015.6 +
-VFP fadds (32bit x1) n1       :    0.299     4016.2     4016.2 (  1 2.0)    4016.2 +
-VFP fmacs (32bit x1) n1       :    1.793     1338.7      669.4 (  2 0.3)    1338.7 +
-VFP vfma.f32 (32bit x1) n1    :        -          -          -    -          - +
-NEON vmul.f32 (32bit x2) n1   :    0.299     8033.1     4016.5 (  2 2.0)    8033.1 +
-NEON vadd.f32 (32bit x2) n1   :    0.299     8033.8     4016.9 (  2 2.0)    8033.8 +
-NEON vmla.f32 (32bit x2) n1      1.797     2671.8      667.9 (  4 0.3)    2671.8 +
-NEON vfma.f32 (32bit x2) n1   :        -          -          -    -          - +
-NEON vmul.f32 (32bit x4) n1   :    0.598     8031.8     2008.0 (  4 1.0)    8031.8 +
-NEON vadd.f32 (32bit x4) n1   :    0.597     8033.5     2008.4 (  4 1.0)    8033.5 +
-NEON vmla.f32 (32bit x4) n1   :    1.793     5355.4      669.4 (  8 0.3)    5355.4 +
-NEON vfma.f32 (32bit x4) n1   :        -          -          -    -          - +
-NEON vmul.f32 (32bit x4) n12  :    0.896     8032.5     2008.1 (  4 1.0)    8032.5 +
-NEON vadd.f32 (32bit x4) n12  :    0.896     8032.8     2008.2 (  4 1.0)    8032.8 +
-NEON vmla.f32 (32bit x4) n12  :    0.896    16066.1     2008.3 (  8 1.0)   16066.1 +
-NEON vfma.f32 (32bit x4) n12  :        -          -          -    -          - +
-Average                       :    0.694     6853.5     2439.7 (  3 1.2)    6853.5 +
-Highest                       :    0.299    16066.1     4016.9 (  8 2.0)   16066.1+
  
 +Group 0:  Thread=4  Clock=1.512000 GHz  (mask:f)
 +  SingleThread HP max: -
 +  SingleThread SP max:   11.801 GFLOPS
 +  SingleThread DP max:    5.459 GFLOPS
 +  MultiThread  HP max: -
 +  MultiThread  SP max:   46.919 GFLOPS
 +  MultiThread  DP max:   21.746 GFLOPS
  
-* VFP/NEON (double fp) +Group 1:  Thread=2  Clock=2.016000 GHz  (mask:30
-                                  TIME(s)   MFLOPS      MOPS    FOP IPC  max MFLOPS +  SingleThread HP max: - 
-VFP fmuld (64bit x1) n8       :    0.338     3547.8     3547.8 (  1.8)    3547.8 +  SingleThread SP max  16.062 GFLOPS 
-VFP faddd (64bit x1) n8          0.299     4014.9     4014.9 (  2.0)    4014.9 +  SingleThread DP max:    8.030 GFLOPS 
-VFP fmacd (64bit x1) n8       :    0.299     8026.9     4013.4 (  2.0)    8026.9 +  MultiThread  HP max: - 
-VFP vfma.f64 (64bit x1) n8    :        -          -          -    -          - +  MultiThread  SP max  32.117 GFLOPS 
-VFP fmuld (64bit x1) ns4      :    0.598     2008.3     2008.3 (  1 1.0)    2008.3 +  MultiThread  DP max  16.013 GFLOPS
-VFP faddd (64bit x1) ns4         0.597     2008.4     2008.4 (  1 1.0   2008.4 +
-VFP fmacd (64bit x1) ns4      :    1.046     2295.2     1147.6 (  2 0.6)    2295.2 +
-VFP vfma.f64 (64bit x1) ns4                   -          -    -          +
-VFP fmuld (64bit x1) n1          0.301     3985.4     3985.4 (  1 2.0)    3985.4 +
-VFP faddd (64bit x1) n1       :    0.299     4015.9     4015.9 (  1 2.0)    4015.9 +
-VFP fmacd (64bit x1) n1       :    1.793     1338.9      669.4 (  2 0.3)    1338.9 +
-VFP vfma.f64 (64bit x1) n1                    -          -    -          +
-Average                          0.619     3471.3     2823.5 (  1 1.4)    3471.3 +
-Highest                          0.299     8026.9     4015.9 (  2 2.0)    8026.9+
  
  
-Matrix 4x4 +Group 0:  Thread=1  Clock=1.512000 GHz  (mask:f) 
-                                  TIME(s)   MFLOPS      MOPS    FOP IPC  max MFLOPS +* VFP/NEON (SP fp) 
-C++ code                      :    0.431     4159.    4159.1 (  1 2.1)    4159.1 +                                  TIME(s)   MFLOPS      MOPS     FOP   IPC 
-NEON vmla 128bit A            :    0.208     8625.    8625.(  1 4.3)    8625.8 +VFP fmuls (32bit x1) n8       :    0.364     2490.    2490.4  (  1.0 1.6) 
-NEON vmla  64bit A            :    0.208     8626.    8626.(  1 4.3)    8626.9 +VFP fadds (32bit x1) n8       :    0.327     2771.8     2771.8  (  1.1.8) 
-NEON vfma 128bit A            :        -          -          -    -          - +VFP fmacs (32bit x1) n8       :    0.522     3475.3     1737.6  (  2.0 1.1) 
-NEON vmla 128bit B            :    0.216     8307.9     8307.9 (  1 4.1)    8307.9 +VFP vfma.f32 (32bit x1) n8    :        -          -          -         - 
-NEON vmla  64bit B            :    0.217     8255.4     8255.4 (  4.1)    8255.4 +NEON vmul.f32 (32bit x2) n8   :    0.318     5712.    2856.2  (  2.0 1.9) 
-NEON vfma 128bit B            :        -          -          -    -          - +NEON vadd.f32 (32bit x2) n8   :    0.326     5558.3     2779.2  (  2.0 1.8) 
-NEON vfma 128bit C            :        -          -          -             +NEON vmla.f32 (32bit x2) n8   :    0.580     6254.    1563.6  (  4.0 1.0) 
-Average                       :    0.256     7595.0     7595.0 (  1 3.8)    7595.0 +NEON vfma.f32 (32bit x2) n8   :        -          -          -         - 
-Highest                       :    0.208     8626.    8626.(  1 4.3)    8626.9+NEON vmul.f32 (32bit x4) n8   :    0.621     5841.3     1460.3  (  4.0 1.0) 
 +NEON vadd.f32 (32bit x4) n8   :    0.621     5846.3     1461.6  (  4.0 1.0) 
 +NEON vmla.f32 (32bit x4) n8   :    0.621    11687.8     1461.0  (  8.0 1.0) 
 +NEON vfma.f32 (32bit x4) n8   :        -          -          -       -   - 
 +VFP fmuls (32bit x1) ns4      :    0.606     1496.2     1496.2  (  1.0 1.0) 
 +VFP fadds (32bit x1) ns4      :    0.607     1495.3     1495.3  (  1.0 1.0) 
 +VFP fmacs (32bit x1) ns4      :    1.210     1499.1      749.5  (  2.0 0.5) 
 +VFP vfma.f32 (32bit x1) ns4   :        -          -          -         
 +NEON vmul.f32 (32bit x2) ns4  :    0.604     3001.9     1500.9  (  2.1.0) 
 +NEON vadd.f32 (32bit x2) ns4  :    0.605     3001.0     1500.5  (  2.0 1.0) 
 +NEON vmla.f32 (32bit x2) ns4  :    1.221     2972.8      743.2  (  4.0 0.5) 
 +NEON vfma.f32 (32bit x2) ns4  :        -          -          -         - 
 +NEON vmul.f32 (32bit x4) ns4  :    0.620     5852.9     1463.2  (  4.0 1.0) 
 +NEON vadd.f32 (32bit x4) ns4  :    0.619     5857.8     1464.4  (  4.1.0) 
 +NEON vmla.f32 (32bit x4) ns4  :    1.209     6004.6      750.6  (  8.0 0.5) 
 +NEON vfma.f32 (32bit x4) ns4  :        -          -          -       -   - 
 +VFP fmuls (32bit x1) n1       :    0.604     1501.2     1501.2  (  1.0 1.0) 
 +VFP fadds (32bit x1) n1       :    0.604     1501.3     1501.3  (  1.0 1.0) 
 +VFP fmacs (32bit x1) n1       :    2.417      750.6      375.3  (  2.0 0.2) 
 +VFP vfma.f32 (32bit x1) n1    :        -          -          -         - 
 +NEON vmul.f32 (32bit x2) n1   :    0.604     3002.7     1501.4  (  2.0 1.0) 
 +NEON vadd.f32 (32bit x2) n1   :    0.604     3002.7     1501.4  (  2.0 1.0) 
 +NEON vmla.f32 (32bit x2) n1   :    2.417     1501.4      375.3  (  4.0 0.2) 
 +NEON vfma.f32 (32bit x2) n1   :        -          -          -         
 +NEON vmul.f32 (32bit x4) n1   :    0.619     5858.7     1464.7  (  4.0 1.0) 
 +NEON vadd.f32 (32bit x4) n1   :    0.619     5858.7     1464.7  (  4.0 1.0) 
 +NEON vmla.f32 (32bit x4) n1   :    2.417     3002.2      375.3  (  8.0 0.2) 
 +NEON vfma.f32 (32bit x4) n1   :        -          -          -         - 
 +NEON vmul.f32 (32bit x4) n12  :    0.922     5901.4     1475.3  (  4.0 1.0) 
 +NEON vadd.f32 (32bit x4) n12  :    0.922     5903.    1475.8   4.0 1.0) 
 +NEON vmla.f32 (32bit x4) n12  :    0.923    11800.8     1475.1  (  8.0 1.0) 
 +NEON vfma.f32 (32bit x4) n12  :        -          -          -         - 
 +Average                       :    0.843     4346.    1474.4  (  3.3 1.0) 
 +Highest                       :    0.318    11800.8     2856.2  (  8.0 1.9)
  
  
-* VFP/NEON (single fp) multi-thread +* Group 0:  Thread=1  Clock=1.512000 GHz  (mask:f) 
-                                  TIME(s)   MFLOPS      MOPS    FOP IPC  max MFLOPS +* VFP/NEON (DP fp) 
-VFP fmuls (32bit x1) n8       :    0.336     7148.    3574.(  1.8)    7148.2 +                                  TIME(s)   MFLOPS      MOPS     FOP   IPC 
-VFP fadds (32bit x1) n8       :    0.301     7984.    3992.(  2 2.0)    7984.0 +VFP fmuld (64bit x1) n8       :    0.345     2629.    2629.7  (  1.0 1.7) 
-VFP fmacs (32bit x1) n8       :    0.301    15935.4     3983.9 (  4 2.0  15935.4 +VFP faddd (64bit x1) n8       :    0.317     2859.    2859.4  (  1.0 1.9) 
-VFP vfma.f32 (32bit x1) n8    :        -          -          -    -          - +VFP fmacd (64bit x1) n8       :    0.332     5459.    2729.  2.0 1.8) 
-NEON vmul.f32 (32bit x2) n8   :    0.300    15996.9     3999.2 (  4 2.0)   15996.9 +VFP vfma.f64 (64bit x1) n8    :        -          -          -         
-NEON vadd.f32 (32bit x2) n8   :    0.302    15904.8     3976.2 (  4 2.0)   15904.8 +VFP fmuld (64bit x1) ns4      :    0.604     1501.    1501.0  (  1.0 1.0) 
-NEON vmla.f32 (32bit x2) n8   :    0.301    31924.0     3990.5 (  2.0)   31924.0 +VFP faddd (64bit x1) ns4      :    0.604     1501.    1501.2  (  1.0 1.0) 
-NEON vfma.f32 (32bit x2) n8   :        -          -          -    -          - +VFP fmacd (64bit x1) ns4      :    1.218     1489.6      744.8  (  2.0 0.5
-NEON vmul.f32 (32bit x4) n8   :    0.599    16019.5     2002.4 (  8 1.0)   16019.5 +VFP vfma.f64 (64bit x1) ns4   :        -          -          -         
-NEON vadd.f32 (32bit x4) n8   :    0.600    15987.2     1998.4 (  1.0  15987.2 +VFP fmuld (64bit x1) n1       :    0.605     1500.    1500.4  (  1.0 1.0) 
-NEON vmla.f32 (32bit x4) n8   :    0.601    31941.5     1996.3 ( 16 1.0)   31941.5 +VFP faddd (64bit x1) n1       :    0.604     1501.    1501.1  (  1.0 1.0) 
-NEON vfma.f32 (32bit x4) n8   :        -          -          -             +VFP fmacd (64bit x1) n1       :    2.419      750.1      375.1  (  2.0 0.2
-VFP fmuls (32bit x1) ns4      :    0.599     4004.    2002.0 (  1.0)    4004.1 +VFP vfma.f64 (64bit x1) n1    :        -          -          -         
-VFP fadds (32bit x1) ns4      :    0.606     3961.9     1981.0 (  2 1.0)    3961.9 +Average                       :    0.783     2132.4     1704.7  (  1.1.1) 
-VFP fmacs (32bit x1) ns4      :    1.053     4558.1     1139.5 (  4 0.6)    4558.1 +Highest                       :    0.317     5459.3     2859.4  (  2.0 1.9)
-VFP vfma.f32 (32bit x1) ns4   :        -          -          -    -          - +
-NEON vmul.f32 (32bit x2) ns4  :    0.599     8009.    2002.2 (  1.0)    8009.0 +
-NEON vadd.f32 (32bit x2) ns4  :    0.601     7981.9     1995.5 (  4 1.0)    7981.9 +
-NEON vmla.f32 (32bit x2) ns4  :    1.050     9146.3     1143.3 (  8 0.6)    9146.3 +
-NEON vfma.f32 (32bit x2) ns4  :        -          -          -    -          - +
-NEON vmul.f32 (32bit x4) ns4  :    0.599    16014.8     2001.9 (  8 1.0)   16014.8 +
-NEON vadd.f32 (32bit x4) ns4  :    0.604    15897.6     1987.(  8 1.0)   15897.6 +
-NEON vmla.f32 (32bit x4) ns4  :    1.049    18307.6     1144.2 ( 16 0.6  18307.6 +
-NEON vfma.f32 (32bit x4) ns4  :        -          -          -             +
-VFP fmuls (32bit x1) n1       :    0.300     8006.    4003.4 (  2 2.0)    8006.7 +
-VFP fadds (32bit x1) n1       :    0.300     7998.    3999.(  2 2.0)    7998.8 +
-VFP fmacs (32bit x1) n1       :    1.812     2649.0      662.3 (  4 0.3   2649.0 +
-VFP vfma.f32 (32bit x1) n1                    -          -    -          - +
-NEON vmul.f32 (32bit x2) n1   :    0.300    15994.5     3998.6 (  4 2.0)   15994.+
-NEON vadd.f32 (32bit x2) n1   :    0.300    16006.1     4001.5 (  2.0)   16006.1 +
-NEON vmla.f32 (32bit x2) n1   :    1.804     5322.5      665.3 (  8 0.3   5322.5 +
-NEON vfma.f32 (32bit x2) n1   :        -          -          -             +
-NEON vmul.f32 (32bit x4) n1   :    0.602    15955.7     1994.5 (  8 1.0)   15955.7 +
-NEON vadd.f32 (32bit x4) n1   :    0.603    15922.4     1990.(  1.0)   15922.4 +
-NEON vmla.f32 (32bit x4) n1   :    1.801    10657.9      666.1 ( 16 0.3  10657.9 +
-NEON vfma.f32 (32bit x4) n1   :        -          -          -    -          - +
-NEON vmul.f32 (32bit x4) n12  :    0.900    15998.6     1999.8 (  8 1.0)   15998.6 +
-NEON vadd.f32 (32bit x4) n12  :    0.900    15994.6     1999.3 (  8 1.0)   15994.6 +
-NEON vmla.f32 (32bit x4) n12  :    0.898    32053.6     2003.4 ( 16 1.0)   32053.6 +
-NEON vfma.f32 (32bit x4) n12  :        -          -          -    -          - +
-Average                       :    0.697    13642.8     2429.8 (  7 1.2)   13642.+
-Highest                       :    0.300    32053.6     4003.4 ( 16 2.0  32053.6+
  
  
-* VFP/NEON (double fp) multi-thread +* Group 0:  Thread=4  Clock=1.512000 GHz  (mask:f) 
-                                  TIME(s)   MFLOPS      MOPS    FOP IPC  max MFLOPS +* VFP/NEON (SP fp) multi-thread 
-VFP fmuld (64bit x1) n8       :    0.313     7678.1     3839.0 (  1.9)    7678.1 +                                  TIME(s)   MFLOPS      MOPS     FOP   IPC 
-VFP faddd (64bit x1) n8       :    0.300     8007.    4003.(  2 2.0)    8007.2 +VFP fmuls (32bit x1) n8       :    0.339    10701.7     2675.4  (  4.0 1.8) 
-VFP fmacd (64bit x1) n8       :    0.299    16035.    4008.9 (  2.0)   16035.5 +VFP fadds (32bit x1) n8       :    0.323    11245.3     2811.3  (  4.0 1.9) 
-VFP vfma.f64 (64bit x1) n8    :        -          -          -             +VFP fmacs (32bit x1) n8       :    0.527    13773.3     1721.7  (  8.0 1.1) 
-VFP fmuld (64bit x1) ns4      :    0.600     3999.    1999.(  1.0)    3999.4 +VFP vfma.f32 (32bit x1) n8    :        -          -          -       -   - 
-VFP faddd (64bit x1) ns4      :    0.605     3964.    1982.(  1.0)    3964.8 +NEON vmul.f32 (32bit x2) n8   :    0.322    22549.4     2818.7  (  8.0 1.9) 
-VFP fmacd (64bit x1) ns4      :    1.051     4565.6     1141.(  0.6   4565.6 +NEON vadd.f32 (32bit x2) n8   :    0.328    22128.0     2766.0  (  8.0 1.8) 
-VFP vfma.f64 (64bit x1) ns4   :        -          -          -             +NEON vmla.f32 (32bit x2) n8   :    0.591    24570.6     1535.7  ( 16.0 1.0) 
-VFP fmuld (64bit x1n1       :    0.300     8010.1     4005.1 (  2 2.0)    8010.1 +NEON vfma.f32 (32bit x2) n8   :        -          -          -       -   - 
-VFP faddd (64bit x1) n1       :    0.299     8017.1     4008.(  2 2.0)    8017.+NEON vmul.f32 (32bit x4) n8   :    0.626    23194.    1449. ( 16.0 1.0) 
-VFP fmacd (64bit x1) n1       :    1.806     2658.0      664.(  4 0.3)    2658.0 +NEON vadd.f32 (32bit x4) n8   :    0.630    23050.    1440.6  ( 16.0 1.0) 
-VFP vfma.f64 (64bit x1) n1    :        -          -          -             +NEON vmla.f32 (32bit x4) n8   :    0.630    46066.7     1439.6  ( 32.0 1.0) 
-Average                       :    0.619     6992.    2850.(  1.4)    6992.9 +NEON vfma.f32 (32bit x4) n8   :        -          -          -         
-Highest                       :    0.299    16035.    4008.9 (  2.0)   16035.5+VFP fmuls (32bit x1) ns4      :    0.613     5915.    1478.9  (  4.0 1.0) 
 +VFP fadds (32bit x1) ns4      :    0.608     5971.    1492.8  (  4.0 1.0) 
 +VFP fmacs (32bit x1) ns4      :    1.219     5952.8      744.1  (  8.0 0.5
 +VFP vfma.f32 (32bit x1) ns4   :        -          -          -         
 +NEON vmul.f32 (32bit x2ns4  :    0.609    11918.0     1489.8  (  8.0 1.0) 
 +NEON vadd.f32 (32bit x2) ns4  :    0.607    11947.7     1493.5  (  8.0 1.0) 
 +NEON vmla.f32 (32bit x2) ns4  :    1.227    11827.9      739. ( 16.0 0.5) 
 +NEON vfma.f32 (32bit x2) ns4  :        -          -          -         - 
 +NEON vmul.f32 (32bit x4) ns4  :    0.623    23296.9     1456.1  ( 16.0 1.0) 
 +NEON vadd.f32 (32bit x4) ns4  :    0.623    23288.7     1455.5  ( 16.0 1.0) 
 +NEON vmla.f32 (32bit x4) ns4  :    1.214    23903.3      747.0  ( 32.0 0.5) 
 +NEON vfma.f32 (32bit x4) ns4  :        -          -          -         - 
 +VFP fmuls (32bit x1) n1       :    0.612     5934.1     1483.5  (  4.0 1.0) 
 +VFP fadds (32bit x1) n1       :    0.609     5958.9     1489.7  (  4.1.0) 
 +VFP fmacs (32bit x1) n1       :    2.438     2977.1      372.1  (  8.0 0.2) 
 +VFP vfma.f32 (32bit x1) n1    :        -          -          -         
 +NEON vmul.f32 (32bit x2) n1   :    0.609    11916.6     1489.6  (  8.0 1.0) 
 +NEON vadd.f32 (32bit x2) n1   :    0.609    11913.6     1489.2  (  8.0 1.0) 
 +NEON vmla.f32 (32bit x2) n1   :    2.439     5950.3      371.9  ( 16.0 0.2) 
 +NEON vfma.f32 (32bit x2) n1   :        -          -          -         - 
 +NEON vmul.f32 (32bit x4) n1   :    0.626    23197.    1449.8  ( 16.0 1.0) 
 +NEON vadd.f32 (32bit x4) n1   :    0.626    23180.7     1448.8  ( 16.0 1.0) 
 +NEON vmla.f32 (32bit x4) n1   :    2.440    11897.9      371.8  32.0 0.2) 
 +NEON vfma.f32 (32bit x4) n1   :        -          -          -         - 
 +NEON vmul.f32 (32bit x4) n12  :    0.929    23441.0     1465.1  ( 16.0 1.0) 
 +NEON vadd.f32 (32bit x4) n12  :    0.930    23401.3     1462.6  ( 16.0 1.0) 
 +NEON vmla.f32 (32bit x4) n12  :    0.928    46918.9     1466. ( 32.0 1.0) 
 +NEON vfma.f32 (32bit x4) n12  :        -          -          -         
 +Average                       :    0.848    17266.3     1470.5  ( 13.3 1.0) 
 +Highest                       :    0.322    46918.9     2818.7  ( 32.0 1.9)
  
  
-Matrix 4x4 multi-thread +Group 0:  Thread=4  Clock=1.512000 GHz  (mask:f) 
-                                  TIME(s)   MFLOPS      MOPS    FOP IPC  max MFLOPS +* VFP/NEON (DP fp) multi-thread 
-C++ code                      :    0.449     7978.    3989.(  2 2.0)    7978.2 +                                  TIME(s)   MFLOPS      MOPS     FOP   IPC 
-NEON vmla 128bit A            :    0.208    17198.    8599.(  4.3  17198.1 +VFP fmuld (64bit x1) n8       :    0.354    10241.    2560.2  (  4.0 1.7) 
-NEON vmla  64bit A            :    0.208    17207.    8603.(  2 4.3)   17207.9 +VFP faddd (64bit x1) n8       :    0.320    11325.    2831.3  (  4.0 1.9
-NEON vfma 128bit A            :        -          -          -             +VFP fmacd (64bit x1) n8       :    0.334    21746.    2718.3  (  8.0 1.8) 
-NEON vmla 128bit B            :    0.216    16566.    8283.(  4.1)   16566.0 +VFP vfma.f64 (64bit x1) n8    :        -          -          -         
-NEON vmla  64bit B            :    0.216    16579.    8289.(  4.1)   16579.0 +VFP fmuld (64bit x1) ns4      :    0.608     5969.    1492.3  (  4.1.0) 
-NEON vfma 128bit B            :        -          -          -             +VFP faddd (64bit x1) ns4      :    0.608     5965.    1491.3  (  4.1.0) 
-NEON vfma 128bit C            :        -          -          -             +VFP fmacd (64bit x1) ns4      :    1.224     5930.4      741.3  (  8.0 0.5) 
-Average                       :    0.260    15105.    7552.(  3.7  15105.8 +VFP vfma.f64 (64bit x1) ns4   :        -          -          -         
-Highest                       :    0.208    17207.    8603.(  2 4.3)   17207.9+VFP fmuld (64bit x1) n1       :    0.609     5957.9     1489.5  (  4.0 1.0) 
 +VFP faddd (64bit x1) n1       :    0.609     5961.5     1490.4  (  4.0 1.0) 
 +VFP fmacd (64bit x1) n1       :    2.432     2984.7      373.1  (  8.0 0.2) 
 +VFP vfma.f64 (64bit x1) n1    :        -          -          -         
 +Average                       :    0.789     8453.    1687.5  (  5.1.1
 +Highest                       :    0.320    21746.    2831.3  (  8.0 1.9)
  
  
-cpu0  1512000 408000 +* Group 1:  Thread=1  Clock=2.016000 GHz  (mask:30) 
-cpu1  1512000 408000 +* VFP/NEON (SP fp) 
-cpu2  1512000 408000 +                                  TIME(s)   MFLOPS      MOPS     FOP   IPC 
-cpu3  1512000 408000 +VFP fmuls (32bit x1) n8       :    0.340     3559.3     3559.3  (  1.0 1.8) 
-cpu4  2016000 408000 +VFP fadds (32bit x1) n8       :    0.301     4012.0     4012.0  (  1.0 2.0) 
-cpu5  2016000 408000+VFP fmacs (32bit x1) n8       :    0.301     8027.5     4013.8  (  2.0 2.0) 
 +VFP vfma.f32 (32bit x1) n8    :        -          -          -         - 
 +NEON vmul.f32 (32bit x2) n8   :    0.303     7981.7     3990.8  (  2.0 2.0) 
 +NEON vadd.f32 (32bit x2) n8   :    0.301     8027.1     4013.6  (  2.0 2.0) 
 +NEON vmla.f32 (32bit x2) n8   :    0.302    16030.0     4007.5  (  4.0 2.0) 
 +NEON vfma.f32 (32bit x2) n8   :        -          -          -         - 
 +NEON vmul.f32 (32bit x4) n8   :    0.603     8028.6     2007.2  (  4.0 1.0) 
 +NEON vadd.f32 (32bit x4) n8   :    0.602     8030.9     2007.7  (  4.0 1.0) 
 +NEON vmla.f32 (32bit x4) n8   :    0.603    16059.9     2007.5  (  8.0 1.0) 
 +NEON vfma.f32 (32bit x4) n8   :        -          -          -         - 
 +VFP fmuls (32bit x1) ns4      :    0.602     2007.7     2007.7  (  1.0 1.0) 
 +VFP fadds (32bit x1) ns4      :    0.602     2007.8     2007.8  (  1.0 1.0) 
 +VFP fmacs (32bit x1) ns4      :    1.054     2294.9     1147.5  (  2.0 0.6) 
 +VFP vfma.f32 (32bit x1) ns4   :        -          -          -         - 
 +NEON vmul.f32 (32bit x2) ns4  :    0.602     4015.8     2007.9  (  2.0 1.0) 
 +NEON vadd.f32 (32bit x2) ns4  :    0.602     4015.8     2007.9  (  2.0 1.0) 
 +NEON vmla.f32 (32bit x2) ns4  :    1.054     4589.3     1147.3  (  4.0 0.6) 
 +NEON vfma.f32 (32bit x2) ns4  :        -          -          -         - 
 +NEON vmul.f32 (32bit x4) ns4  :    0.602     8031.7     2007.9  (  4.0 1.0) 
 +NEON vadd.f32 (32bit x4) ns4  :    0.602     8032.5     2008.1  (  4.0 1.0) 
 +NEON vmla.f32 (32bit x4) ns4  :    1.055     9176.5     1147.1  (  8.0 0.6) 
 +NEON vfma.f32 (32bit x4) ns4  :        -          -          -         - 
 +VFP fmuls (32bit x1) n1       :    0.301     4015.6     4015.6  (  1.0 2.0) 
 +VFP fadds (32bit x1) n1       :    0.301     4016.1     4016.1  (  1.0 2.0) 
 +VFP fmacs (32bit x1) n1       :    1.807     1338.5      669.2  (  2.0 0.3) 
 +VFP vfma.f32 (32bit x1) n1    :        -          -          -         - 
 +NEON vmul.f32 (32bit x2) n1   :    0.301     8032.3     4016.1  (  2.0 2.0) 
 +NEON vadd.f32 (32bit x2) n1   :    0.301     8032.0     4016.0  (  2.0 2.0) 
 +NEON vmla.f32 (32bit x2) n1   :    1.808     2676.4      669.1  (  4.0 0.3) 
 +NEON vfma.f32 (32bit x2) n1   :        -          -          -         - 
 +NEON vmul.f32 (32bit x4) n1   :    0.602     8031.9     2008.0  (  4.0 1.0) 
 +NEON vadd.f32 (32bit x4) n1   :    0.602     8031.2     2007.8  (  4.0 1.0) 
 +NEON vmla.f32 (32bit x4) n1   :    1.807     5354.1      669.3  (  8.0 0.3) 
 +NEON vfma.f32 (32bit x4) n1   :        -          -          -         - 
 +NEON vmul.f32 (32bit x4) n12  :    0.904     8031.2     2007.8  (  4.0 1.0) 
 +NEON vadd.f32 (32bit x4) n12  :    0.904     8031.0     2007.8  (  4.0 1.0) 
 +NEON vmla.f32 (32bit x4) n12  :    0.904    16062.4     2007.8  (  8.0 1.0) 
 +NEON vfma.f32 (32bit x4) n12  :        -          -          -         - 
 +Average                       :    0.699     6852.7     2440.6  (  3.3 1.2) 
 +Highest                       :    0.301    16062.4     4016.1  8.0 2.0)
  
-processor : 0 
-model name : ARMv8 Processor rev 4 (v8l) 
-BogoMIPS : 48.00 
-Features : half thumb fastmult vfp edsp neon vfpv3 tls vfpv4 idiva idivt lpae evtstrm aes pmull sha1 sha2 crc32 
-CPU implementer : 0x41 
-CPU architecture: 8 
-CPU variant : 0x0 
-CPU part : 0xd03 
-CPU revision : 4 
  
-processor : 1 +* Group 1 Thread= Clock=2.016000 GHz  (mask:30) 
-model name ARMv8 Processor rev 4 (v8l+* VFP/NEON (DP fp) 
-BogoMIPS 48.00 +                                  TIME(s)   MFLOPS      MOPS     FOP   IPC 
-Features half thumb fastmult vfp edsp neon vfpv3 tls vfpv4 idiva idivt lpae evtstrm aes pmull sha1 sha2 crc32 +VFP fmuld (64bit x1) n8          0.328     3682.8     3682.8   1.0 1.8
-CPU implementer 0x41 +VFP faddd (64bit x1) n8          0.301     4014.0     4014.0  (  1.0 2.0) 
-CPU architecture: 8 +VFP fmacd (64bit x1) n8          0.301     8030.1     4015.1  (  2.0 2.0) 
-CPU variant 0x0 +VFP vfma.f64 (64bit x1) n8                    -          -         - 
-CPU part 0xd03 +VFP fmuld (64bit x1) ns4         0.602     2008.1     2008.1  (  1.0 1.0) 
-CPU revision : 4+VFP faddd (64bit x1) ns4      :    0.603     2007.6     2007.6  (  1.0 1.0) 
 +VFP fmacd (64bit x1) ns4      :    1.054     2294.    1147.4  (  2.0 0.6) 
 +VFP vfma.f64 (64bit x1) ns4                   -          -         - 
 +VFP fmuld (64bit x1) n1          0.301     4016.3     4016.3  (  1.0 2.0) 
 +VFP faddd (64bit x1) n1          0.301     4016.1     4016.1  (  1.0 2.0) 
 +VFP fmacd (64bit x1) n1       :    1.807     1338.6      669.3  (  2.0 0.3) 
 +VFP vfma.f64 (64bit x1) n1    :        -          -          -         - 
 +Average                       :    0.622     3489.8     2841.8  (  1.3 1.4
 +Highest                       :    0.301     8030.1     4016.3  (  2.0 2.0)
  
-processor : 2 
-model name : ARMv8 Processor rev 4 (v8l) 
-BogoMIPS : 48.00 
-Features : half thumb fastmult vfp edsp neon vfpv3 tls vfpv4 idiva idivt lpae evtstrm aes pmull sha1 sha2 crc32 
-CPU implementer : 0x41 
-CPU architecture: 8 
-CPU variant : 0x0 
-CPU part : 0xd03 
-CPU revision : 4 
  
-processor : 3 +* Group 1 Thread=2  Clock=2.016000 GHz  (mask:30) 
-model name ARMv8 Processor rev 4 (v8l+* VFP/NEON (SP fp) multi-thread 
-BogoMIPS 48.00 +                                  TIME(s)   MFLOPS      MOPS     FOP   IPC 
-Features half thumb fastmult vfp edsp neon vfpv3 tls vfpv4 idiva idivt lpae evtstrm aes pmull sha1 sha2 crc32 +VFP fmuls (32bit x1) n8       :    0.333     7254.2     3627.1  (  2.0 1.8) 
-CPU implementer 0x41 +VFP fadds (32bit x1) n8       :    0.302     8015.4     4007.7  (  2.0 2.0) 
-CPU architecture: 8 +VFP fmacs (32bit x1) n8       :    0.302    16041.    4010.3  (  4.0 2.0) 
-CPU variant 0x0 +VFP vfma.f32 (32bit x1) n8                    -          -         - 
-CPU part 0xd03 +NEON vmul.f32 (32bit x2) n8   :    0.302    16035.5     4008.9  (  4.0 2.0) 
-CPU revision : 4+NEON vadd.f32 (32bit x2) n8   :    0.302    16042.2     4010.5  (  4.0 2.0
 +NEON vmla.f32 (32bit x2) n8      0.302    32089.1     4011.1  (  8.0 2.0) 
 +NEON vfma.f32 (32bit x2) n8                   -          -         - 
 +NEON vmul.f32 (32bit x4) n8      0.603    16045.3     2005.7  (  8.0 1.0) 
 +NEON vadd.f32 (32bit x4) n8      0.605    16007.0     2000.9  (  8.0 1.0) 
 +NEON vmla.f32 (32bit x4) n8      0.605    32014.0     2000.9  ( 16.0 1.0) 
 +NEON vfma.f32 (32bit x4) n8                   -          -         - 
 +VFP fmuls (32bit x1) ns4         0.603     4014.7     2007.3  (  2.0 1.0) 
 +VFP fadds (32bit x1) ns4      :    0.603     4014.0     2007.0  (  2.0 1.0) 
 +VFP fmacs (32bit x1) ns4      :    1.055     4584.5     1146.1  (  4.0 0.6) 
 +VFP vfma.f32 (32bit x1) ns4   :        -          -          -         - 
 +NEON vmul.f32 (32bit x2) ns4  :    0.602     8033.0     2008.3  (  4.0 1.0) 
 +NEON vadd.f32 (32bit x2) ns4  :    0.603     8027.9     2007.0  (  4.0 1.0) 
 +NEON vmla.f32 (32bit x2) ns4  :    1.055     9173.4     1146.7  (  8.0 0.6) 
 +NEON vfma.f32 (32bit x2) ns4  :        -          -          -         - 
 +NEON vmul.f32 (32bit x4) ns4  :    0.603    16058.0     2007.2  (  8.0 1.0) 
 +NEON vadd.f32 (32bit x4) ns4  :    0.602    16066.4     2008.3  (  8.0 1.0) 
 +NEON vmla.f32 (32bit x4) ns4  :    1.054    18359.9     1147.5  ( 16.0 0.6) 
 +NEON vfma.f32 (32bit x4) ns4  :        -          -          -         - 
 +VFP fmuls (32bit x1) n1       :    0.301     8028.9     4014.4  (  2.0 2.0) 
 +VFP fadds (32bit x1) n1       :    0.301     8032.6     4016.3  (  2.0 2.0) 
 +VFP fmacs (32bit x1) n1       :    1.808     2675.9      669.0  (  4.0 0.3) 
 +VFP vfma.f32 (32bit x1) n1    :        -          -          -         - 
 +NEON vmul.f32 (32bit x2) n1   :    0.302    16018.6     4004.7  (  4.0 2.0) 
 +NEON vadd.f32 (32bit x2) n1   :    0.301    16058.4     4014.6  (  4.0 2.0) 
 +NEON vmla.f32 (32bit x2) n1   :    1.807     5354.2      669.3  (  8.0 0.3) 
 +NEON vfma.f32 (32bit x2) n1   :        -          -          -         - 
 +NEON vmul.f32 (32bit x4) n1   :    0.603    16043.5     2005.4  (  8.0 1.0) 
 +NEON vadd.f32 (32bit x4) n1   :    0.603    16041.9     2005.2  (  8.0 1.0) 
 +NEON vmla.f32 (32bit x4) n1   :    1.808    10706.7      669.2  ( 16.0 0.3) 
 +NEON vfma.f32 (32bit x4) n1   :        -          -          -         - 
 +NEON vmul.f32 (32bit x4) n12  :    0.904    16062.1     2007.8  (  8.0 1.0) 
 +NEON vadd.f32 (32bit x4) n12  :    0.904    16063.5     2007.9  (  8.0 1.0) 
 +NEON vmla.f32 (32bit x4) n12  :    0.904    32117.4     2007.3  ( 16.0 1.0) 
 +NEON vfma.f32 (32bit x4) n12  :        -          -          -         - 
 +Average                       :    0.699    13702.7     2442.0  (  6.7 1.2) 
 +Highest                       :    0.301    32117.4     4016.3  ( 16.0 2.0)
  
-processor : 4 
-model name : ARMv8 Processor rev 2 (v8l) 
-BogoMIPS : 48.00 
-Features : half thumb fastmult vfp edsp neon vfpv3 tls vfpv4 idiva idivt lpae evtstrm aes pmull sha1 sha2 crc32 
-CPU implementer : 0x41 
-CPU architecture: 8 
-CPU variant : 0x0 
-CPU part : 0xd08 
-CPU revision : 2 
  
-processor 5 +* Group 1 Thread=2  Clock=2.016000 GHz  (mask:30) 
-model name ARMv8 Processor rev 2 (v8l+* VFP/NEON (DP fp) multi-thread 
-BogoMIPS 48.00 +                                  TIME(s)   MFLOPS      MOPS     FOP   IPC 
-Features half thumb fastmult vfp edsp neon vfpv3 tls vfpv4 idiva idivt lpae evtstrm aes pmull sha1 sha2 crc32 +VFP fmuld (64bit x1) n8          0.302     8011.4     4005.7   2.0 2.0
-CPU implementer 0x41 +VFP faddd (64bit x1) n8          0.301     8032.8     4016.4  (  2.0 2.0) 
-CPU architecture: 8 +VFP fmacd (64bit x1) n8          0.302    16013.5     4003.4  (  4.0 2.0) 
-CPU variant 0x0 +VFP vfma.f64 (64bit x1) n8                    -          -         - 
-CPU part 0xd08 +VFP fmuld (64bit x1) ns4         0.602     4015.5     2007.  2.0 1.0) 
-CPU revision : 2 +VFP faddd (64bit x1) ns4         0.603     4013.0     2006.5  (  2.0 1.0) 
- +VFP fmacd (64bit x1) ns4         1.063     4552.2     1138.1  (  4.0 0.6) 
- +VFP vfma.f64 (64bit x1) ns4                   -          -         - 
-ARMv8 Processor rev 4 (v8l)+VFP fmuld (64bit x1) n1       :    0.301     8029.8     4014.9  (  2.0 2.0) 
 +VFP faddd (64bit x1) n1       :    0.302     8014.6     4007.3  (  2.0 2.0) 
 +VFP fmacd (64bit x1) n1       :    1.807     2677.1      669.3  (  4.0 0.3) 
 +VFP vfma.f64 (64bit x1) n1    :        -          -          -         - 
 +Average                       :    0.620     7040.0     2874.  2.7 1.4) 
 +Highest                       :    0.301    16013.5     4016.4  (  4.0 2.0)
  
-2019/01/05 16:06:40  
 </code> </code>
  
行 13587: 行 13642:
  
 <code> <code>
-Windows 10 1703 bash +Date: 20200808 132716 
-Skylake Core i7-6700K 4.0GHz (4.2GHz) +ARCH: x64 (x86_64) 
-RAM 32GB+FPU : SSE SSE2 SSSE3 SSE4.1 SSE4.2 AVX AVX2 FMA3 F16C 
 +Name: Intel(R) Core(TM) i7-6700K CPU @ 4.00GHz
  
 +CPU Thread:  8
 +CPU Core  :  4
 +CPU Group :  1
 +  Group 0: Thread= 8  Clock=4.200000 GHz  (mask:ff)
 +SSE   : yes
 +AVX   : yes
 +FMA   : yes
 +F16C  : yes
 +AVX512: no
  
-ARCHx64 +Total
-FPUSSSE3 SSE4.1 SSE4.2 AVX FMA3 +SingleThread HP max- 
-SingleT SP max: 132.274 GFLOPS +SingleThread SP max:  135.532 GFLOPS 
-SingleT DP max: 62.904 GFLOPS +SingleThread DP max:   67.709 GFLOPS 
-MultiT  SP max: 511.630 GFLOPS +MultiThread  HP max: - 
-MultiT  DP max: 255.417 GFLOPS +MultiThread  SP max:  537.822 GFLOPS 
-CPU core: 8 +MultiThread  DP max:  271.106 GFLOPS
-SSE: yes +
-AVX: yes +
-FMA: yes+
  
-* SSE/AVX (single fp) +Group 0:  Thread=8  Clock=4.200000 GHz  (mask:ff
-SSE mulss (32bit x1) n8       :    0.149     8068.1     8068.1 +  SingleThread HP max- 
-SSE addss (32bit x1) n8          0.152     7909.3     7909.3 +  SingleThread SP max 135.532 GFLOPS 
-FMA vfmaddss (32bit x1) n8    :    0.152    15775.5    15775.5 +  SingleThread DP max:   67.709 GFLOPS 
-SSE mulps (32bit x4) n8       :    0.152    31539.7    31539.7 +  MultiThread  HP max- 
-SSE addps (32bit x4) n8       :    0.152    31566.9    31566.9 +  MultiThread  SP max 537.822 GFLOPS 
-SSE mul+addps (32bit x4) n8   :    0.152    31641.   31641.+  MultiThread  DP max 271.106 GFLOPS
-FMA vfmaddss (32bit x4) n8       0.152    63126.7    63126.7 +
-SSE ml+ad+addps (32bit x4n6 :    0.171    31570.6    31570.6 +
-SSE mulss (32bit x1) ns4         0.300     3994.6     3994.6 +
-SSE addss (32bit x1) ns4         0.292     4116.5     4116.5 +
-SSE mulps (32bit x4) ns4      :    0.291    16488.3    16488.3 +
-SSE addps (32bit x4) ns4      :    0.292    16411.6    16411.6 +
-AVX vmulps (32bit x8) n8      :    0.145    66011.1    66011.1 +
-AVX vaddps (32bit x8) n8      :    0.146    65962.6    65962.6 +
-AVX vmul+addps (32bit x8) n8  :    0.145    66190.5    66190.5 +
-FMA vfmaddps (32bit x8) n8    :    0.145   132274.2   132274.2 +
-AVX vml+ad+adps (32bit x8) n6    0.315    34266.1    34266.1 +
-Average                          0.194    36877.3    36877.3 +
-Highest                          0.145   132274.2   132274.2+
  
  
-* SSE/AVX (double fp) +* Group 0:  Thread=1  Clock=4.200000 GHz  (mask:ff) 
-SSE2 mulsd (64bit x1) n8      :    0.146     8234.    8234.5 +* SSE/AVX (SP fp) 
-SSE2 addsd (64bit x1) n8      :    0.144     8312.    8312.1 +                                  TIME(s)   MFLOPS      MOPS     FOP   IPC 
-FMA  vfmaddsd (64bit x1) n8   :    0.145    16518.1    16518.1 +SSE mulss (32bit x1) n8       :    0.314     8036.    8036.7  (  1.0 1.9) 
-SSE2 mulpd (64bit x2) n8      :    0.148    16244.0    16244.0 +SSE addss (32bit x1) n8       :    0.299     8435.    8435.2  (  1.0 2.0) 
-SSE2 addpd (64bit x2) n8      :    0.152    15782.7    15782.7 +FMA vfmaddss (32bit x1) n8    :    0.298    16933.9     8466.9  (  2.0 2.0) 
-SSE2 mul+addpd (64bit x2) n8  :    0.151    15845.7    15845.7 +FMA vfmaddss (32bit x1) n12   :    0.451    16747.6     8373.8  (  2.0 2.0) 
-FMA  vfmaddsd (64bit x2) n8   :    0.152    31645.   31645.4 +FMA vfma+mlss (32bit x1) n12  :    0.452    12544.3     8362.9  (  1.5 2.0) 
-SSE2 ml+ad+dpd (64bit x2n6  :    0.171    15830.9    15830.9 +FMA vfma+adss (32bit x1) n12  :    0.446    12702.3     8468.2  (  1.5 2.0) 
-SSE2 mulsd (64bit x1) ns4     :    0.304     3942.    3942.7 +SSE mulps (32bit x4) n8       :    0.299    33723.0     8430.7  (  4.0 2.0) 
-SSE2 addsd (64bit x1) ns4     :    0.305     3929.    3929.9 +SSE addps (32bit x4) n8       :    0.298    33872.9     8468.2  (  4.0 2.0) 
-SSE2 mulpd (64bit x2) ns4     :    0.302     7959.    7959.1 +SSE mul+addps (32bit x4) n8   :    0.298    33872.0     8468.0  (  4.0 2.0) 
-SSE2 addpd (64bit x2) ns4     :    0.305     7860.    7860.2 +FMA vfmaddps (32bit x4) n8    :    0.298    67741.0     8467.6  (  8.0 2.0) 
-AVX vmulpd (64bit x4) n8      :    0.153    31454.4    31454.4 +FMA vfmaddps (32bit x4) n12   :    0.446    67744.5     8468.1  (  8.0 2.0) 
-AVX vaddpd (64bit x4) n8      :    0.152    31618.7    31618.7 +FMA vfma+mlps (32bit x4) n12  :    0.446    50806.3     8467.7  (  6.0 2.0) 
-AVX vmul+addpd (64bit x4) n8  :    0.151    31715.6    31715.6 +FMA vfma+adps (32bit x4) n12  :    0.449    50565.6     8427.6  (  6.0 2.0) 
-FMA vfmaddpd (64bit x4) n8    :    0.153    62904.2    62904.2 +SSE ml+ad+adps (32bit x4n9  :    0.340    33329.9     8332.5  (  4.0 2.0) 
-AVX vml_ad_adpd (64bit x4n6 :    0.172    31460.   31460.6 +SSE mulss (32bit x1) ns4      :    0.595     4235.    4235.6  (  1.0 1.0) 
-Average                       :    0.189    20074.0    20074.0 +SSE addss (32bit x1) ns4      :    0.595     4235.    4235.7  (  1.0 1.0) 
-Highest                       :    0.144    62904.2    62904.2+SSE mulps (32bit x4) ns4      :    0.595    16943.    4235.7  (  4.0 1.0) 
 +SSE addps (32bit x4) ns4      :    0.595    16942.    4235.5  (  4.0 1.0) 
 +AVX vmulps (32bit x8) n8      :    0.297    67769.0     8471.1  (  8.0 2.0) 
 +AVX vaddps (32bit x8) n8      :    0.297    67770.9     8471.4  (  8.0 2.0) 
 +AVX vmul+addps (32bit x8) n8  :    0.297    67772.0     8471.5  (  8.0 2.0) 
 +FMA vfmaddps (32bit x8) n8    :    0.297   135532.1     8470.8  ( 16.0 2.0) 
 +FMA vfmaddps (32bit x8) n12   :    0.446   135460.8     8466.3  ( 16.0 2.0) 
 +FMA vfma+mlps (32bit x8) n12  :    0.447   101582.0     8465.2  ( 12.0 2.0) 
 +FMA vfma+adps (32bit x8n12  :    0.451   100600.8     8383.4  ( 12.0 2.0) 
 +AVX vml+ad+adps (32bit x8) n9 :    0.572    39625.7     4953.2  (  8.0 1.2) 
 +Average                       :    0.408    46366.3     7645.0   5.8 1.8) 
 +Highest                       :    0.297   135532.1     8471.5  ( 16.0 2.0)
  
  
-Matrix 4x4 +Group 0:  Thread=1  Clock=4.200000 GHz  (mask:ff) 
-C++ code                      :    0.316     5670.    5670.8 +* SSE/AVX (DP fp) 
-C++ Intrinsic SSE 128bit      :    0.080    22482.6    22482.6 +                                  TIME(s)   MFLOPS      MOPS     FOP   IPC 
-SSE mul/addps  128bit A       :    0.102    17588.8    17588.8 +SSE2 mulsd (64bit x1) n8      :    0.319     7889.    7889.1  (  1.0 1.9) 
-AVX vmul/addps 256bit A       :    0.104    17283.1    17283.1 +SSE2 addsd (64bit x1) n8      :    0.298     8467.0     8467.0  (  1.0 2.0) 
-Average                       :    0.150    15756.3    15756.3 +FMA  vfmaddsd (64bit x1) n8   :    0.298    16935.1     8467.5  (  2.0 2.0) 
-Highest                       :    0.080    22482.6    22482.6+FMA  vfmaddsd (64bit x1) n12  :    0.446    16935.3     8467.6  (  2.0 2.0) 
 +FMA  vfma+mlsd (64bit x1) n12 :    0.449    12618.1     8412.1  (  1.5 2.0) 
 +FMA  vfma+adsd (64bit x1) n12 :    0.449    12642.0     8428.0  (  1.5 2.0) 
 +SSE2 mulpd (64bit x2) n8      :    0.297    16941.6     8470.8  (  2.0 2.0) 
 +SSE2 addpd (64bit x2) n8      :    0.298    16936.1     8468.0  (  2.0 2.0) 
 +SSE2 mul+addpd (64bit x2) n8  :    0.298    16938.0     8469.0  (  2.0 2.0) 
 +FMA  vfmaddpd (64bit x2) n8   :    0.297    33884.5     8471.1  (  4.0 2.0) 
 +FMA  vfmaddpd (64bit x2) n12  :    0.446    33874.7     8468.7  (  4.0 2.0) 
 +FMA  vfma+mlpd (64bit x2) n12 :    0.446    25399.5     8466.5  (  3.0 2.0) 
 +FMA  vfma+adpd (64bit x2) n12 :    0.446    25413.5     8471.2  (  3.0 2.0) 
 +SSE2 ml+ad+dpd (64bit x2) n9  :    0.338    16780.8     8390.4  (  2.0 2.0) 
 +SSE2 mulsd (64bit x1) ns4     :    0.595     4235.5     4235.5  (  1.0 1.0) 
 +SSE2 addsd (64bit x1) ns4     :    0.598     4217.4     4217.4  (  1.0 1.0) 
 +SSE2 mulpd (64bit x2) ns4     :    0.598     8425.7     4212.8   2.0 1.0) 
 +SSE2 addpd (64bit x2) ns4     :    0.596     8458.3     4229.1  (  2.0 1.0) 
 +AVX vmulpd (64bit x4) n8      :    0.298    33863.8     8465.9  (  4.0 2.0) 
 +AVX vaddpd (64bit x4) n8      :    0.298    33858.0     8464.5  (  4.0 2.0) 
 +AVX vmul+addpd (64bit x4) n8  :    0.298    33836.1     8459.0  (  4.0 2.0) 
 +FMA vfmaddpd (64bit x4) n8    :    0.298    67611.8     8451.5  (  8.0 2.0) 
 +FMA vfmaddpd (64bit x4) n12   :    0.447    67709.0     8463.6  (  8.0 2.0) 
 +FMA vfma+mlpd (64bit x4) n12  :    0.447    50713.3     8452.2  (  6.0 2.0) 
 +FMA vfma+adpd (64bit x4) n12  :    0.446    50820.7     8470.1   6.0 2.0) 
 +AVX vml_ad_adpd (64bit x4) n9 :    0.335    33858.6     8464.7  (  4.0 2.0) 
 +Average                       :    0.399    25356.3     7784.4  (  3.1 1.9) 
 +Highest                       :    0.297    67709.0     8471.2  (  8.0 2.0)
  
  
-* SSE/AVX (single fp) multi-thread +* Group 0:  Thread=8  Clock=4.200000 GHz  (mask:ff) 
-SSE mulss (32bit x1) n8       :    0.300    31964.6    31964.6 +* SSE/AVX (SP fp) multi-thread 
-SSE addss (32bit x1) n8       :    0.300    31958.7    31958.7 +                                  TIME(s)   MFLOPS      MOPS     FOP   IPC 
-FMA vfmaddss (32bit x1) n8    :    0.300    63913.1    63913.1 +SSE mulss (32bit x1) n8       :    0.620    32507.6     4063.5  (  8.0 1.0) 
-SSE mulps (32bit x4) n8       :    0.301   127650.7   127650.7 +SSE addss (32bit x1) n8       :    0.610    33023.8     4128.0  (  8.0 1.0) 
-SSE addps (32bit x4) n8       :    0.302   127289.7   127289.7 +FMA vfmaddss (32bit x1) n8    :    0.608    66343.1     4146.4  ( 16.0 1.0) 
-SSE mul+addps (32bit x4) n8   :    0.300   127864.0   127864.0 +FMA vfmaddss (32bit x1) n12   :    0.863    70101.2     4381.3  ( 16.0 1.0) 
-FMA vfmaddss (32bit x4) n8    :    0.308   249677.  249677.3 +FMA vfma+mlss (32bit x1) n12  :    0.928    48899.6     6112.4  (  8.0 1.5) 
-SSE ml+ad+addps (32bit x4) n6 :    0.337   128259.9   128259.9 +FMA vfma+adss (32bit x1) n12  :    0.910    49837.6     6229.7  (  8.0 1.5) 
-SSE mulss (32bit x1) ns4      :    0.303    31631.7    31631.7 +SSE mulps (32bit x4) n8       :    0.589   136993.1     4281.0  ( 32.0 1.0) 
-SSE addss (32bit x1) ns4      :    0.305    31489.1    31489.1 +SSE addps (32bit x4) n8       :    0.589   136852.2     4276.6  ( 32.0 1.0) 
-SSE mulps (32bit x4) ns4      :    0.301   127463.0   127463.0 +SSE mul+addps (32bit x4) n8   :    0.614   131362.0     4105.1  ( 32.0 1.0) 
-SSE addps (32bit x4) ns4      :    0.302   127330.2   127330.2 +FMA vfmaddps (32bit x4) n8    :    0.599   269163.4     4205.7  ( 64.0 1.0) 
-AVX vmulps (32bit x8) n8      :    0.300   256036.7   256036.7 +FMA vfmaddps (32bit x4) n12   :    0.900   268670.1     4198.0  ( 64.0 1.0) 
-AVX vaddps (32bit x8) n8      :    0.300   255702.5   255702.5 +FMA vfma+mlps (32bit x4) n12  :    0.898   202043.6     4209.2  ( 48.0 1.0) 
-AVX vmul+addps (32bit x8) n8  :    0.301   255555.  255555.3 +FMA vfma+adps (32bit x4) n12  :    0.898   201969.6     4207.7  ( 48.0 1.0) 
-FMA vfmaddps (32bit x8) n8    :    0.300   511629.9   511629.9 +SSE ml+ad+adps (32bit x4) n9  :    0.671   135199.8     4225.0  ( 32.0 1.0) 
-AVX vml+ad+adps (32bit x8) n6 :    0.383   225295.7   225295.7 +SSE mulss (32bit x1) ns4      :    0.705    28580.7     3572.6  (  8.0 0.9) 
-Average                       :    0.308   159453.7   159453.7 +SSE addss (32bit x1) ns4      :    0.696    28953.7     3619.2  (  8.0 0.9) 
-Highest                       :    0.300   511629.9   511629.9+SSE mulps (32bit x4) ns4      :    0.620   129990.7     4062.2  ( 32.0 1.0) 
 +SSE addps (32bit x4) ns4      :    0.635   127070.8     3971.0  ( 32.0 0.9) 
 +AVX vmulps (32bit x8) n8      :    0.622   259114.7     4048.7  ( 64.0 1.0) 
 +AVX vaddps (32bit x8) n8      :    0.577   279698.0     4370.3  ( 64.0 1.0) 
 +AVX vmul+addps (32bit x8) n8  :    0.594   271449.8     4241.4  ( 64.0 1.0) 
 +FMA vfmaddps (32bit x8) n8    :    0.600   537822.3     4201.7  (128.0 1.0) 
 +FMA vfmaddps (32bit x8) n12   :    0.902   536249.8     4189.5  (128.0 1.0) 
 +FMA vfma+mlps (32bit x8) n12  :    0.892   406643.8     4235.9  ( 96.0 1.0) 
 +FMA vfma+adps (32bit x8) n12  :    0.860   421872.1     4394.5  ( 96.0 1.0) 
 +AVX vml+ad+adps (32bit x8) n9 :    0.650   279223.9     4362.9  ( 64.0 1.0) 
 +Average                       :    0.717   195755.3     4309.2  ( 46.2 1.0) 
 +Highest                       :    0.577   537822.3     6229.7  (128.0 1.5)
  
  
-* SSE/AVX (double fp) multi-thread +* Group 0:  Thread=8  Clock=4.200000 GHz  (mask:ff) 
-SSE2 mulsd (64bit x1) n8      :    0.302    31776.5    31776.5 +* SSE/AVX (DP fp) multi-thread 
-SSE2 addsd (64bit x1) n8      :    0.300    31957.5    31957.5 +                                  TIME(s)   MFLOPS      MOPS     FOP   IPC 
-FMA  vfmaddsd (64bit x1) n8   :    0.300    63905.2    63905.2 +SSE2 mulsd (64bit x1) n8      :    0.596    33802.4     4225.3  (  8.0 1.0) 
-SSE2 mulpd (64bit x2) n8      :    0.306    62653.0    62653.0 +SSE2 addsd (64bit x1) n8      :    0.595    33885.9     4235.7  (  8.0 1.0) 
-SSE2 addpd (64bit x2) n8      :    0.300    63899.9    63899.9 +FMA  vfmaddsd (64bit x1) n8   :    0.595    67767.2     4235.5  ( 16.0 1.0) 
-SSE2 mul+addpd (64bit x2) n8  :    0.304    63122.8    63122.8 +FMA  vfmaddsd (64bit x1) n12  :    0.893    67747.1     4234.2  ( 16.0 1.0) 
-FMA  vfmaddsd (64bit x2) n8   :    0.298   128936.1   128936.1 +FMA  vfma+mlsd (64bit x1) n12 :    0.892    50829.3     6353.7  (  8.0 1.5) 
-SSE2 ml+ad+dpd (64bit x2) n6  :    0.337    64083.5    64083.5 +FMA  vfma+adsd (64bit x1) n12 :    0.892    50831.7     6354.0  (  8.0 1.5) 
-SSE2 mulsd (64bit x1) ns4     :    0.302    31806.5    31806.5 +SSE2 mulpd (64bit x2) n8      :    0.595    67767.3     4235.5  ( 16.0 1.0) 
-SSE2 addsd (64bit x1) ns4     :    0.301    31897.7    31897.7 +SSE2 addpd (64bit x2) n8      :    0.595    67771.9     4235.7  ( 16.0 1.0) 
-SSE2 mulpd (64bit x2) ns4     :    0.301    63712.9    63712.9 +SSE2 mul+addpd (64bit x2) n8  :    0.595    67772.2     4235.8  ( 16.0 1.0) 
-SSE2 addpd (64bit x2) ns4     :    0.302    63649.1    63649.1 +FMA  vfmaddpd (64bit x2) n8   :    0.595   135534.4     4235.5  ( 32.0 1.0) 
-AVX vmulpd (64bit x4) n8      :    0.299   128248.4   128248.4 +FMA  vfmaddpd (64bit x2) n12  :    0.892   135552.5     4236.0  ( 32.0 1.0) 
-AVX vaddpd (64bit x4) n8      :    0.300   127804.0   127804.0 +FMA  vfma+mlpd (64bit x2) n12 :    0.892   101658.3     4235.8  ( 24.0 1.0) 
-AVX vmul+addpd (64bit x4) n8  :    0.300   127795.5   127795.5 +FMA  vfma+adpd (64bit x2) n12 :    0.892   101663.5     4236.0  ( 24.0 1.0) 
-FMA vfmaddpd (64bit x4) n8    :    0.301   255416.8   255416.8 +SSE2 ml+ad+dpd (64bit x2) n9  :    0.668    67866.5     4241.7  ( 16.0 1.0) 
-AVX vml_ad_adpd (64bit x4) n6 :    0.328   131806.2   131806.+SSE2 mulsd (64bit x1) ns4     :    0.596    33826.1     4228.3  (  8.0 1.0) 
-Average                       :    0.305    86616.0    86616.0 +SSE2 addsd (64bit x1) ns4     :    0.595    33881.8     4235.2  (  8.0 1.0) 
-Highest                       :    0.298   255416.8   255416.+SSE2 mulpd (64bit x2) ns4     :    0.595    67764.5     4235.3  ( 16.0 1.0) 
- +SSE2 addpd (64bit x2) ns4     :    0.597    67507.8     4219.2  ( 16.0 1.0) 
- +AVX vmulpd (64bit x4) n8      :    0.594   135789.8     4243.4  ( 32.0 1.0) 
-* Matrix 4x4 multi-thread +AVX vaddpd (64bit x4) n8      :    0.595   135544.9     4235.8  ( 32.0 1.0) 
-C++ code                      :    0.535    26787.3    26787.3 +AVX vmul+addpd (64bit x4) n8  :    0.595   135546.5     4235.8  ( 32.0 1.0) 
-C++ Intrinsic SSE 128bit      :    0.112   127645.6   127645.+FMA vfmaddpd (64bit x4) n8    :    0.595   271062.5     4235.4  ( 64.0 1.0) 
-SSE mul/addps  128bit A       :    0.161    88930.8    88930.8 +FMA vfmaddpd (64bit x4) n12   :    0.892   271105.6     4236.0  ( 64.0 1.0) 
-AVX vmul/addps 256bit A       :    0.116   123912.0   123912.0 +FMA vfma+mlpd (64bit x4) n12  :    0.892   203317.4     4235.8  ( 48.0 1.0) 
-Average                       :    0.231    91818.9    91818.9 +FMA vfma+adpd (64bit x4) n12  :    0.892   203325.8     4236. ( 48.1.0) 
-Highest                       :    0.112   127645.6   127645.6+AVX vml_ad_adpd (64bit x4) n9 :    0.661   137169.6     4286.6  ( 32.0 1.0) 
 +Average                       :    0.703   105626.6     4399.7  ( 24.6 1.0) 
 +Highest                       :    0.594   271105.6     6354.0  ( 64.0 1.5)
  
 </code> </code>
行 13715: 行 13812:
  
  
 +==== Intel Ice Lake (AMD64 x86_64 x64) SSE4.2/AVX2/FMA3/AVX512F,CD,VL,BW,DQ,VNNI ====
  
  
 +++++Intel Core i5-1030NG7 1.1GHz (3.5GHz) 4 core 8 thread Windows 10|
  
-==== AMD Ryzen 1800X (AMD64 x86_64 x64) SSE4.2/AVX2/FMA3 ====+<code> 
 +Date: 20200810 185418 
 +ARCH: x64 (x86_64) 
 +FPU : SSE SSE2 SSSE3 SSE4.1 SSE4.2 AVX AVX2 FMA3 F16C AVX512F/BW/DQ/VL/VNNI 
 +Name:  
 +CPU Thread: 
 +CPU Core  :  4 
 +CPU Group :  1 
 +  Group 0: Thread8  Clock=1.100000 GHz  (mask:0) 
 +SSE   : yes 
 +AVX   : yes 
 +FMA   : yes 
 +F16C  : yes 
 +AVX512: yes 
 + 
 +Total: 
 +SingleThread HP max: - 
 +SingleThread SP max:  111.310 GFLOPS 
 +SingleThread DP max:   55.593 GFLOPS 
 +MultiThread  HP max: - 
 +MultiThread  SP max:  413.685 GFLOPS 
 +MultiThread  DP max:  204.351 GFLOPS 
 + 
 +Group 0:  Thread=8  Clock=1.100000 GHz  (mask:0) 
 +  SingleThread HP max: - 
 +  SingleThread SP max:  111.310 GFLOPS 
 +  SingleThread DP max:   55.593 GFLOPS 
 +  MultiThread  HP max: - 
 +  MultiThread  SP max:  413.685 GFLOPS 
 +  MultiThread  DP max:  204.351 GFLOPS 
 + 
 + 
 +* Group 0:  Thread=1  Clock=1.100000 GHz  (mask:0) 
 +* SSE/AVX (SP fp) 
 +                                      TIME(s)   MFLOPS      MOPS     FOP   IPC 
 +SSE mulss (32bit x1) n8           :    0.104     6337.3     6337.3  (  1.0 5.8) 
 +SSE addss (32bit x1) n8           :    0.101     6505.5     6505.5  (  1.0 5.9) 
 +FMA vfmaddss (32bit x1) n8        :    0.101    13027.6     6513.8  (  2.0 5.9) 
 +FMA vfmaddss (32bit x1) n12       :    0.143    13885.0     6942.5  (  2.0 6.3) 
 +FMA vfma+mlss (32bit x1) n12      :    0.143    10399.8     6933.2  (  1.5 6.3) 
 +FMA vfma+adss (32bit x1) n12      :    0.142    10437.5     6958.3  (  1.5 6.3) 
 +SSE mulps (32bit x4) n8           :    0.101    26090.0     6522.5  (  4.0 5.9) 
 +SSE addps (32bit x4) n8           :    0.101    26027.5     6506.9  (  4.0 5.9) 
 +SSE mul+addps (32bit x4) n8       :    0.102    25995.0     6498.  4.0 5.9) 
 +FMA vfmaddps (32bit x4) n8        :    0.102    51919.4     6489.9  (  8.0 5.9) 
 +FMA vfmaddps (32bit x4) n12       :    0.143    55295.3     6911.9  (  8.0 6.3) 
 +FMA vfma+mlps (32bit x4) n12      :    0.142    41781.8     6963.6  (  6.0 6.3) 
 +FMA vfma+adps (32bit x4) n12      :    0.143    41652.9     6942.2  (  6.0 6.3) 
 +SSE ml+ad+adps (32bit x4) n9      :    0.108    27519.6     6879.9  (  4.0 6.3) 
 +SSE mulss (32bit x1) ns4          :    0.190     3467.6     3467.6  (  1.0 3.2) 
 +SSE addss (32bit x1) ns4          :    0.190     3466.8     3466.8  (  1.0 3.2) 
 +SSE mulps (32bit x4) ns4          :    0.190    13906.4     3476.6  (  4.0 3.2) 
 +SSE addps (32bit x4) ns4          :    0.190    13867.9     3467.0  (  4.0 3.2) 
 +AVX vmulps (32bit x8) n8          :    0.095    55597.1     6949.6  (  8.0 6.3) 
 +AVX vaddps (32bit x8) n8          :    0.095    55388.9     6923.6  (  8.0 6.3) 
 +AVX vmul+addps (32bit x8) n8      :    0.095    55612.9     6951.6  (  8.0 6.3) 
 +FMA vfmaddps (32bit x8) n8        :    0.122    86880.7     5430.0  ( 16.0 4.9) 
 +FMA vfmaddps (32bit x8) n12       :    0.143   110981.1     6936.3  ( 16.0 6.3) 
 +FMA vfma+mlps (32bit x8) n12      :    0.142    83413.5     6951.1  ( 12.0 6.3) 
 +FMA vfma+adps (32bit x8) n12      :    0.144    82441.6     6870.1  ( 12.0 6.2) 
 +AVX vml+ad+adps (32bit x8) n9     :    0.202    29339.7     3667.5  (  8.0 3.3) 
 +AVX512 vmulps (32bit x16) n12     :    0.295    53719.7     3357.5  ( 16.0 3.1) 
 +AVX512 vaddps (32bit x16) n12     :    0.293    54028.2     3376.8  ( 16.0 3.1) 
 +AVX512 vfmaddps (32bit x16) n12   :    0.293   108003.4     3375.1  ( 32.0 3.1) 
 +AVX512 vfma+mps (32bit x16) n12   :    0.293    81034.9     3376.5  ( 24.0 3.1) 
 +AVX512 vfma+aps (32bit x16) n12   :    0.293    81173.3     3382.2  ( 24.0 3.1) 
 +AVX512 vmulps (32bit x8) n12      :    0.144    55154.4     6894.3  (  8.0 6.3) 
 +AVX512 vaddps (32bit x8) n12      :    0.142    55624.6     6953.1  (  8.0 6.3) 
 +AVX512 vfmaddps (32bit x8) n12    :    0.142   111310.2     6956.9  ( 16.0 6.3) 
 +Average                           :    0.158    45626.1     5768.7  (  8.7 5.2) 
 +Highest                           :    0.095   111310.2     6963.6  ( 32.0 6.3) 
 + 
 + 
 +* Group 0:  Thread=1  Clock=1.100000 GHz  (mask:0) 
 +* SSE/AVX (DP fp) 
 +                                      TIME(s)   MFLOPS      MOPS     FOP   IPC 
 +SSE2 mulsd (64bit x1) n8          :    0.143     4607.0     4607.0  (  1.0 4.2) 
 +SSE2 addsd (64bit x1) n8          :    0.102     6494.8     6494.8  (  1.0 5.9) 
 +FMA  vfmaddsd (64bit x1) n8       :    0.102    12997.0     6498.5  (  2.0 5.9) 
 +FMA  vfmaddsd (64bit x1) n12      :    0.142    13910.1     6955.0  (  2.0 6.3) 
 +FMA  vfma+mlsd (64bit x1) n12     :    0.143    10395.1     6930.1  (  1.5 6.3) 
 +FMA  vfma+adsd (64bit x1) n12     :    0.143    10382.1     6921.4  (  1.5 6.3) 
 +SSE2 mulpd (64bit x2) n8          :    0.102    12983.3     6491.7  (  2.0 5.9) 
 +SSE2 addpd (64bit x2) n8          :    0.102    12988.4     6494.2  (  2.0 5.9) 
 +SSE2 mul+addpd (64bit x2) n8      :    0.101    13026.5     6513.2  (  2.0 5.9) 
 +FMA  vfmaddpd (64bit x2) n8       :    0.103    25747.8     6437.0  (  4.0 5.9) 
 +FMA  vfmaddpd (64bit x2) n12      :    0.143    27767.1     6941.8  (  4.0 6.3) 
 +FMA  vfma+mlpd (64bit x2) n12     :    0.142    20892.0     6964.0  (  3.0 6.3) 
 +FMA  vfma+adpd (64bit x2) n12     :    0.144    20638.5     6879.5  (  3.0 6.3) 
 +SSE2 ml+ad+dpd (64bit x2) n9      :    0.108    13686.9     6843.4  (  2.0 6.2) 
 +SSE2 mulsd (64bit x1) ns4         :    0.190     3475.3     3475.3  (  1.0 3.2) 
 +SSE2 addsd (64bit x1) ns4         :    0.191     3463.5     3463.5  (  1.0 3.1) 
 +SSE2 mulpd (64bit x2) ns4         :    0.191     6928.2     3464.1  (  2.0 3.1) 
 +SSE2 addpd (64bit x2) ns4         :    0.190     6957.4     3478.7  (  2.0 3.2) 
 +AVX vmulpd (64bit x4) n8          :    0.096    27464.0     6866.0  (  4.0 6.2) 
 +AVX vaddpd (64bit x4) n8          :    0.095    27868.4     6967.1  (  4.0 6.3) 
 +AVX vmul+addpd (64bit x4) n8      :    0.095    27776.9     6944.2  (  4.0 6.3) 
 +FMA vfmaddpd (64bit x4) n8        :    0.101    52105.9     6513.2  (  8.0 5.9) 
 +FMA vfmaddpd (64bit x4) n12       :    0.143    55476.2     6934.5  (  8.0 6.3) 
 +FMA vfma+mlpd (64bit x4) n12      :    0.143    41631.3     6938.6  (  6.0 6.3) 
 +FMA vfma+adpd (64bit x4) n12      :    0.142    41748.7     6958.1  (  6.0 6.3) 
 +AVX vml_ad_adpd (64bit x4) n9     :    0.107    27790.8     6947.7  (  4.0 6.3) 
 +AVX512 vmulpd (64bit x8) n12      :    0.294    26935.4     3366.9  (  8.0 3.1) 
 +AVX512 vaddpd (64bit x8) n12      :    0.294    26918.9     3364.9  (  8.0 3.1) 
 +AVX512 vfmaddpd (64bit x8) n12    :    0.294    53835.4     3364.7  ( 16.0 3.1) 
 +AVX512 vfma+mpd (64bit x8) n12    :    0.293    40495.9     3374.7  ( 12.0 3.1) 
 +AVX512 vfma+apd (64bit x8) n12    :    0.293    40512.9     3376.1  ( 12.0 3.1) 
 +Average                           :    0.157    23158.1     5734.5  (  4.4 5.2) 
 +Highest                           :    0.095    55476.2     6967.1  ( 16.0 6.3) 
 + 
 + 
 +* Group 0:  Thread=8  Clock=1.100000 GHz  (mask:0) 
 +* SSE/AVX (SP fp) multi-thread 
 +                                      TIME(s)   MFLOPS      MOPS     FOP   IPC 
 +SSE mulss (32bit x1) n8           :    0.244    21628.1     2703.5  (  8.0 2.5) 
 +SSE addss (32bit x1) n8           :    0.207    25501.0     3187.6  (  8.0 2.9) 
 +FMA vfmaddss (32bit x1) n8        :    0.207    51050.5     3190.7  ( 16.0 2.9) 
 +FMA vfmaddss (32bit x1) n12       :    0.310    51031.1     3189.4  ( 16.0 2.9) 
 +FMA vfma+mlss (32bit x1) n12      :    0.310    38279.6     4785.0  (  8.0 4.3) 
 +FMA vfma+adss (32bit x1) n12      :    0.310    38294.5     4786.8  (  8.0 4.4) 
 +SSE mulps (32bit x4) n8           :    0.207   102060.0     3189.4  ( 32.0 2.9) 
 +SSE addps (32bit x4) n8           :    0.207   101944.3     3185.8  ( 32.0 2.9) 
 +SSE mul+addps (32bit x4) n8       :    0.207   101863.1     3183.2  ( 32.0 2.9) 
 +FMA vfmaddps (32bit x4) n8        :    0.207   204040.2     3188.1  ( 64.0 2.9) 
 +FMA vfmaddps (32bit x4) n12       :    0.310   204328.4     3192.6  ( 64.0 2.9) 
 +FMA vfma+mlps (32bit x4) n12      :    0.310   153210.2     3191.9  ( 48.0 2.9) 
 +FMA vfma+adps (32bit x4) n12      :    0.310   153202.8     3191.7  ( 48.0 2.9) 
 +SSE ml+ad+adps (32bit x4) n9      :    0.233   102156.6     3192.4  ( 32.0 2.9) 
 +SSE mulss (32bit x1) ns4          :    0.231    22819.0     2852.4  (  8.0 2.6) 
 +SSE addss (32bit x1) ns4          :    0.232    22796.0     2849.5  (  8.0 2.6) 
 +SSE mulps (32bit x4) ns4          :    0.232    90991.3     2843.5  ( 32.0 2.6) 
 +SSE addps (32bit x4) ns4          :    0.232    91226.8     2850.8  ( 32.0 2.6) 
 +AVX vmulps (32bit x8) n8          :    0.207   204198.0     3190.6  ( 64.0 2.9) 
 +AVX vaddps (32bit x8) n8          :    0.207   204240.5     3191.3  ( 64.0 2.9) 
 +AVX vmul+addps (32bit x8) n8      :    0.207   204291.9     3192.1  ( 64.0 2.9) 
 +FMA vfmaddps (32bit x8) n8        :    0.207   407368.1     3182.6  (128.0 2.9) 
 +FMA vfmaddps (32bit x8) n12       :    0.311   407750.8     3185.6  (128.0 2.9) 
 +FMA vfma+mlps (32bit x8) n12      :    0.311   305974.6     3187.2  ( 96.0 2.9) 
 +FMA vfma+adps (32bit x8) n12      :    0.310   306219.1     3189.8  ( 96.0 2.9) 
 +AVX vml+ad+adps (32bit x8) n9     :    0.262   181174.2     2830.8  ( 64.0 2.6) 
 +AVX512 vmulps (32bit x16) n12     :    0.680   186291.0     1455.4  (128.0 1.3) 
 +AVX512 vaddps (32bit x16) n12     :    0.682   185795.5     1451.5  (128.0 1.3) 
 +AVX512 vfmaddps (32bit x16) n12   :    0.682   371673.9     1451.9  (256.0 1.3) 
 +AVX512 vfma+mps (32bit x16) n12   :    0.683   278186.7     1448.9  (192.0 1.3) 
 +AVX512 vfma+aps (32bit x16) n12   :    0.683   278194.9     1448.9  (192.0 1.3) 
 +AVX512 vmulps (32bit x8) n12      :    0.316   200275.6     3129.3  ( 64.0 2.8) 
 +AVX512 vaddps (32bit x8) n12      :    0.310   204165.1     3190.1  ( 64.0 2.9) 
 +AVX512 vfmaddps (32bit x8) n12    :    0.306   413685.0     3231.9  (128.0 2.9) 
 +Average                           :    0.320   173997.3     2962.1  ( 69.2 2.7) 
 +Highest                           :    0.207   413685.0     4786.8  (256.0 4.4) 
 + 
 + 
 +* Group 0:  Thread=8  Clock=1.100000 GHz  (mask:0) 
 +* SSE/AVX (DP fp) multi-thread 
 +                                      TIME(s)   MFLOPS      MOPS     FOP   IPC 
 +SSE2 mulsd (64bit x1) n8          :    0.244    21634.6     2704.3  (  8.0 2.5) 
 +SSE2 addsd (64bit x1) n8          :    0.207    25508.6     3188.6  (  8.0 2.9) 
 +FMA  vfmaddsd (64bit x1) n8       :    0.207    51001.7     3187.6  ( 16.0 2.9) 
 +FMA  vfmaddsd (64bit x1) n12      :    0.311    50924.6     3182.8  ( 16.0 2.9) 
 +FMA  vfma+mlsd (64bit x1) n12     :    0.310    38294.8     4786.8  (  8.0 4.4) 
 +FMA  vfma+adsd (64bit x1) n12     :    0.310    38309.1     4788.6  (  8.0 4.4) 
 +SSE2 mulpd (64bit x2) n8          :    0.207    51029.3     3189.3  ( 16.0 2.9) 
 +SSE2 addpd (64bit x2) n8          :    0.207    51025.8     3189.1  ( 16.0 2.9) 
 +SSE2 mul+addpd (64bit x2) n8      :    0.207    51019.7     3188.7  ( 16.0 2.9) 
 +FMA  vfmaddpd (64bit x2) n8       :    0.207   101970.4     3186.6  ( 32.0 2.9) 
 +FMA  vfmaddpd (64bit x2) n12      :    0.311   101845.6     3182.7  ( 32.0 2.9) 
 +FMA  vfma+mlpd (64bit x2) n12     :    0.311    76450.3     3185.4  ( 24.0 2.9) 
 +FMA  vfma+adpd (64bit x2) n12     :    0.310    76611.1     3192.1  ( 24.0 2.9) 
 +SSE2 ml+ad+dpd (64bit x2) n9      :    0.233    51085.6     3192.8  ( 16.0 2.9) 
 +SSE2 mulsd (64bit x1) ns4         :    0.232    22757.1     2844.6  (  8.0 2.6) 
 +SSE2 addsd (64bit x1) ns4         :    0.235    22456.0     2807.0  (  8.0 2.6) 
 +SSE2 mulpd (64bit x2) ns4         :    0.232    45565.8     2847.9  ( 16.0 2.6) 
 +SSE2 addpd (64bit x2) ns4         :    0.231    45703.8     2856.5  ( 16.0 2.6) 
 +AVX vmulpd (64bit x4) n8          :    0.207   102169.6     3192.8  ( 32.0 2.9) 
 +AVX vaddpd (64bit x4) n8          :    0.207   101864.1     3183.3  ( 32.0 2.9) 
 +AVX vmul+addpd (64bit x4) n8      :    0.207   102073.9     3189.8  ( 32.0 2.9) 
 +FMA vfmaddpd (64bit x4) n8        :    0.207   203845.3     3185.1  ( 64.0 2.9) 
 +FMA vfmaddpd (64bit x4) n12       :    0.314   201503.0     3148.5  ( 64.0 2.9) 
 +FMA vfma+mlpd (64bit x4) n12      :    0.314   151182.5     3149.6  ( 48.0 2.9) 
 +FMA vfma+adpd (64bit x4) n12      :    0.318   149330.6     3111.1  ( 48.0 2.8) 
 +AVX vml_ad_adpd (64bit x4) n9     :    0.246    96515.9     3016.1  ( 32.0 2.7) 
 +AVX512 vmulpd (64bit x8) n12      :    0.682    92879.9     1451.2  ( 64.0 1.3) 
 +AVX512 vaddpd (64bit x8) n12      :    0.682    92855.7     1450.9  ( 64.0 1.3) 
 +AVX512 vfmaddpd (64bit x8) n12    :    0.682   185899.7     1452.3  (128.0 1.3) 
 +AVX512 vfma+mpd (64bit x8) n12    :    0.682   139318.3     1451.2  ( 96.0 1.3) 
 +AVX512 vfma+apd (64bit x8) n12    :    0.682   139338.1     1451.4  ( 96.0 1.3) 
 +Average                           :    0.321    86515.2     2939.8  ( 35.1 2.7) 
 +Highest                           :    0.207   203845.3     4788.6  (128.0 4.4) 
 + 
 +</code> 
 + 
 +++++ 
 + 
 + 
 + 
 +==== AMD Zen (AMD64 x86_64 x64) SSE4.2/AVX2/FMA3 ====
  
  
行 13724: 行 14018:
  
 <code> <code>
-Windows 10 1703 bash +Date: 20200624 215250 
-RYZEN 7 1800X 3.6GHz (4.0GHz8 core 16 thread +ARCH: x64 (x86_64
-RAM 32GB+FPU : SSE SSE2 SSSE3 SSE4.1 SSE4.2 AVX AVX2 FMA3 F16C 
 +Name: AMD Ryzen 7 1800X Eight-Core Processor         
  
 +CPU Thread: 16
 +CPU Core  :  8
 +CPU Group :  1
 +  Group 0: Thread=16  Clock=3.600000 GHz  (mask:ffff)
 +SSE   : yes
 +AVX   : yes
 +FMA   : yes
 +F16C  : yes
 +AVX512: no
  
-ARCHx64 +Total
-FPUSSSE3 SSE4.1 SSE4.2 AVX FMA3 +SingleThread HP max- 
-SingleT SP max: 64.943 GFLOPS +SingleThread SP max:   62.298 GFLOPS 
-SingleT DP max: 31.178 GFLOPS +SingleThread DP max:   30.845 GFLOPS 
-MultiT  SP max: 513.464 GFLOPS +MultiThread  HP max: - 
-MultiT  DP max: 265.291 GFLOPS +MultiThread  SP max:  465.706 GFLOPS 
-CPU core: 16 +MultiThread  DP max:  228.360 GFLOPS
-SSE: yes +
-AVX: yes +
-FMA: yes+
  
-* SSE/AVX (single fp) +Group 0 Thread=16  Clock=3.600000 GHz  (mask:ffff
-SSE mulss (32bit x1) n8          0.168     7149.    7149.+  SingleThread HP max- 
-SSE addss (32bit x1) n8          0.147     8182.1     8182.1 +  SingleThread SP max:   62.298 GFLOPS 
-FMA vfmaddss (32bit x1n8    :    0.184    13063.9    13063.9 +  SingleThread DP max  30.845 GFLOPS 
-SSE mulps (32bit x4) n8          0.148    32522.5    32522.5 +  MultiThread  HP max- 
-SSE addps (32bit x4) n8          0.148    32468.4    32468.4 +  MultiThread  SP max 465.706 GFLOPS 
-SSE mul+addps (32bit x4) n8   :    0.112    43002.7    43002.7 +  MultiThread  DP max 228.360 GFLOPS
-FMA vfmaddss (32bit x4) n8       0.190    50537.8    50537.8 +
-SSE ml+ad+addps (32bit x4) n6    0.111    48543.7    48543.7 +
-SSE mulss (32bit x1) ns4         0.225     5338.4     5338.4 +
-SSE addss (32bit x1) ns4         0.222     5409.9     5409.9 +
-SSE mulps (32bit x4) ns4      :    0.222    21655.1    21655.1 +
-SSE addps (32bit x4) ns4      :    0.228    21011.3    21011.3 +
-AVX vmulps (32bit x8) n8      :    0.295    32491.2    32491.2 +
-AVX vaddps (32bit x8) n8      :    0.295    32505.0    32505.0 +
-AVX vmul+addps (32bit x8) n8  :    0.148    64943.4    64943.4 +
-FMA vfmaddps (32bit x8) n8    :    0.302    63654.8    63654.8 +
-AVX vml+ad+adps (32bit x8) n6 :    0.302    35749.4    35749.4 +
-Average                       :    0.203    30484.0    30484.0 +
-Highest                       :    0.111    64943.4    64943.4+
  
  
-* SSE/AVX (double fp) +* Group 0:  Thread=1  Clock=3.600000 GHz  (mask:ffff) 
-SSE2 mulsd (64bit x1) n8      :    0.159     7553.    7553.3 +* SSE/AVX (SP fp) 
-SSE2 addsd (64bit x1) n8      :    0.147     8162.    8162.3 +                                  TIME(s)   MFLOPS      MOPS     FOP   IPC 
-FMA  vfmaddsd (64bit x1) n8   :    0.185    13000.9    13000.9 +SSE mulss (32bit x1) n8       :    0.293     7364.    7364.8  (  1.0 2.0) 
-SSE2 mulpd (64bit x2n8      :    0.148    16196.   16196.3 +SSE addss (32bit x1) n8       :    0.292     7402.    7402.6  (  1.0 2.1) 
-SSE2 addpd (64bit x2) n8      :    0.148    16204.0    16204.0 +FMA vfmaddss (32bit x1) n8    :    0.354    12192.9     6096.5  (  2.0 1.7) 
-SSE2 mul+addpd (64bit x2) n8  :    0.148    16254.4    16254.4 +FMA vfmaddss (32bit x1) n12   :    0.433    14958.4     7479.2  (  2.0 2.1) 
-FMA  vfmaddsd (64bit x2) n8   :    0.191    25160.7    25160.7 +FMA vfma+mlss (32bit x1n12  :    0.437    11109.7     7406.4  (  1.5 2.1) 
-SSE2 ml+ad+dpd (64bit x2n6  :    0.155    17432.   17432.7 +FMA vfma+adss (32bit x1) n12  :    0.365    13318.0     8878.7  (  1.5 2.5) 
-SSE2 mulsd (64bit x1) ns4     :    0.296     4054.3     4054.3 +SSE mulps (32bit x4) n8       :    0.286    30206.1     7551.5  (  4.0 2.1) 
-SSE2 addsd (64bit x1) ns4     :    0.222     5413.    5413.0 +SSE addps (32bit x4) n8       :    0.290    29800.5     7450.1  (  4.0 2.1) 
-SSE2 mulpd (64bit x2) ns4     :    0.296     8107.4     8107.4 +SSE mul+addps (32bit x4) n8   :    0.216    39986.9     9996.7  (  4.0 2.8) 
-SSE2 addpd (64bit x2) ns4     :    0.225    10670.8    10670.8 +FMA vfmaddps (32bit x4) n8    :    0.352    49085.7     6135.7   8.0 1.7) 
-AVX vmulpd (64bit x4) n8      :    0.301    15973.3    15973.3 +FMA vfmaddps (32bit x4) n12   :    0.429    60387.3     7548.4  (  8.0 2.1) 
-AVX vaddpd (64bit x4) n8      :    0.296    16240.2    16240.2 +FMA vfma+mlps (32bit x4) n12  :    0.436    44592.1     7432.0  (  6.0 2.1) 
-AVX vmul+addpd (64bit x4) n8  :    0.156    30721.8    30721.8 +FMA vfma+adps (32bit x4) n12  :    0.367    53029.3     8838.2  (  6.0 2.5) 
-FMA vfmaddpd (64bit x4n8    :    0.308    31178.   31178.2 +SSE ml+ad+adps (32bit x4n9  :    0.221    44044.   11011.1  (  4.0 3.1) 
-AVX vml_ad_adpd (64bit x4n6 :    0.224    24110.3    24110.3 +SSE mulss (32bit x1) ns4      :    0.425     5078.3     5078.3   1.0 1.4) 
-Average                       :    0.212    15672.6    15672.6 +SSE addss (32bit x1) ns4      :    0.429     5034.    5034.3  (  1.0 1.4) 
-Highest                       :    0.147    31178.   31178.2+SSE mulps (32bit x4) ns4      :    0.421    20526.6     5131.6  (  4.0 1.4) 
 +SSE addps (32bit x4) ns4      :    0.424    20358.2     5089.6  (  4.0 1.4) 
 +AVX vmulps (32bit x8) n8      :    0.575    30037.4     3754.7  (  8.0 1.0) 
 +AVX vaddps (32bit x8) n8      :    0.562    30733.1     3841.6  (  8.0 1.1) 
 +AVX vmul+addps (32bit x8) n8  :    0.277    62298.1     7787.3  (  8.0 2.2) 
 +FMA vfmaddps (32bit x8) n8    :    0.572    60396.0     3774.8  ( 16.0 1.0) 
 +FMA vfmaddps (32bit x8n12   :    0.857    60509.4     3781.8  ( 16.0 1.1) 
 +FMA vfma+mlps (32bit x8) n12  :    0.852    45653.0     3804.4  ( 12.0 1.1) 
 +FMA vfma+adps (32bit x8) n12  :    0.646    60217.6     5018.1  ( 12.0 1.4) 
 +AVX vml+ad+adps (32bit x8n9 :    0.563    34543.2     4317.9  (  8.0 1.2) 
 +Average                       :    0.438    32802.5     6423.3  (  5.8 1.8) 
 +Highest                       :    0.216    62298.   11011.1  ( 16.0 3.1)
  
  
-Matrix 4x4 +Group 0:  Thread=1  Clock=3.600000 GHz  (mask:ffff) 
-C++ code                      :    0.126    14256.3    14256.3 +* SSE/AVX (DP fp) 
-C++ Intrinsic SSE 128bit      :    0.075    23777.9    23777.9 +                                  TIME(s)   MFLOPS      MOPS     FOP   IPC 
-SSE mul/addps  128bit A       :    0.110    16320.1    16320.1 +SSE2 mulsd (64bit x1) n8      :    0.295     7325.4     7325.4  (  1.0 2.0) 
-AVX vmul/addps 256bit A       :    0.120    14947.5    14947.5 +SSE2 addsd (64bit x1) n8      :    0.281     7687.4     7687.4  (  1.0 2.1) 
-Average                       :    0.108    17325.5    17325.5 +FMA  vfmaddsd (64bit x1) n8   :    0.354    12206.7     6103.3   2.0 1.7) 
-Highest                       :    0.075    23777.9    23777.9+FMA  vfmaddsd (64bit x1) n12  :    0.429    15103.3     7551.7  (  2.0 2.1) 
 +FMA  vfma+mlsd (64bit x1) n12 :    0.460    10566.2     7044.1  (  1.5 2.0) 
 +FMA  vfma+adsd (64bit x1) n12 :    0.356    13660.4     9106.9   1.5 2.5) 
 +SSE2 mulpd (64bit x2) n8      :    0.286    15127.0     7563.5  (  2.0 2.1) 
 +SSE2 addpd (64bit x2) n8      :    0.283    15291.6     7645.8  (  2.0 2.1) 
 +SSE2 mul+addpd (64bit x2) n8  :    0.283    15257.6     7628.8  (  2.0 2.1
 +FMA  vfmaddpd (64bit x2) n8   :    0.353    24485.0     6121.3  (  4.0 1.7) 
 +FMA  vfmaddpd (64bit x2) n12  :    0.420    30844.8     7711.2  (  4.0 2.1) 
 +FMA  vfma+mlpd (64bit x2) n12 :    0.461    21077.2     7025.7  (  3.0 2.0) 
 +FMA  vfma+adpd (64bit x2) n12 :    0.354    27446.3     9148.8  (  3.0 2.5) 
 +SSE2 ml+ad+dpd (64bit x2) n9  :    0.277    17524.8     8762.4  (  2.0 2.4) 
 +SSE2 mulsd (64bit x1) ns4     :    0.560     3856.5     3856.5  (  1.0 1.1) 
 +SSE2 addsd (64bit x1) ns4     :    0.433     4987.8     4987.8  (  1.0 1.4) 
 +SSE2 mulpd (64bit x2) ns4     :    0.576     7502.3     3751.1  (  2.0 1.0) 
 +SSE2 addpd (64bit x2) ns4     :    0.434     9959.4     4979.7  (  2.0 1.4) 
 +AVX vmulpd (64bit x4) n8      :    0.570    15147.5     3786.9  (  4.0 1.1) 
 +AVX vaddpd (64bit x4) n8      :    0.566    15274.7     3818.7  (  4.0 1.1) 
 +AVX vmul+addpd (64bit x4) n8  :    0.299    28886.1     7221.5   4.0 2.0) 
 +FMA vfmaddpd (64bit x4) n8    :    0.566    30545.4     3818.2  (  8.0 1.1) 
 +FMA vfmaddpd (64bit x4) n12   :    0.862    30056.6     3757.1  (  8.0 1.0) 
 +FMA vfma+mlpd (64bit x4) n12  :    0.850    22877.5     3812.9  (  6.0 1.1) 
 +FMA vfma+adpd (64bit x4) n12  :    0.666    29194.2     4865.7  (  6.0 1.4) 
 +AVX vml_ad_adpd (64bit x4) n9 :    0.437    22232.3     5558.1  (  4.0 1.5
 +Average                       :    0.450    17466.3     6178.5   3.1 1.7) 
 +Highest                       :    0.277    30844.8     9148.8  (  8.0 2.5)
  
  
-* SSE/AVX (single fp) multi-thread +* Group 0:  Thread=16  Clock=3.600000 GHz  (mask:ffff) 
-SSE mulss (32bit x1) n8       :    0.496    38675.4    38675.4 +* SSE/AVX (SP fp) multi-thread 
-SSE addss (32bit x1) n8       :    0.288    66718.3    66718.3 +                                  TIME(s)   MFLOPS      MOPS     FOP   IPC 
-FMA vfmaddss (32bit x1) n8    :    0.310   123861.4   123861.4 +SSE mulss (32bit x1) n8       :    0.586    58975.6     3686.0  ( 16.0 1.0) 
-SSE mulps (32bit x4) n8       :    0.306   250813.2   250813.2 +SSE addss (32bit x1) n8       :    0.585    59055.5     3691.0  ( 16.0 1.0) 
-SSE addps (32bit x4) n8       :    0.287   267235.5   267235.5 +FMA vfmaddss (32bit x1) n8    :    0.587   117773.3     3680.4  ( 32.0 1.0) 
-SSE mul+addps (32bit x4) n8   :    0.210   365064.1   365064.1 +FMA vfmaddss (32bit x1) n12   :    0.899   115318.0     3603.7  ( 32.0 1.0) 
-FMA vfmaddss (32bit x4) n8    :    0.301   509660.  509660.7 +FMA vfma+mlss (32bit x1) n12  :    0.878    88567.6     5535.5  ( 16.0 1.5) 
-SSE ml+ad+addps (32bit x4) n6 :    0.259   333839.5   333839.5 +FMA vfma+adss (32bit x1) n12  :    1.009    77086.8     4817.9  ( 16.0 1.3) 
-SSE mulss (32bit x1) ns4      :    0.309    62036.9    62036.9 +SSE mulps (32bit x4) n8       :    0.579   238822.1     3731.6  ( 64.0 1.0) 
-SSE addss (32bit x1) ns4      :    0.309    62200.5    62200.5 +SSE addps (32bit x4) n8       :    0.578   239148.0     3736.7  ( 64.0 1.0) 
-SSE mulps (32bit x4) ns4      :    0.304   252974.4   252974.4 +SSE mul+addps (32bit x4) n8   :    0.308   449479.1     7023.1  ( 64.0 2.0) 
-SSE addps (32bit x4) ns4      :    0.300   256381.2   256381.2 +FMA vfmaddps (32bit x4) n8    :    0.607   455290.2     3557.0  (128.0 1.0) 
-AVX vmulps (32bit x8) n8      :    0.557   275645.2   275645.2 +FMA vfmaddps (32bit x4) n12   :    0.896   462846.3     3616.0  (128.0 1.0) 
-AVX vaddps (32bit x8) n8      :    0.577   266243.7   266243.7 +FMA vfma+mlps (32bit x4) n12  :    0.917   339139.4     3532.7  ( 96.0 1.0) 
-AVX vmul+addps (32bit x8) n8  :    0.388   395735.5   395735.5 +FMA vfma+adps (32bit x4) n12  :    1.050   296196.1     3085.4  ( 96.0 0.9) 
-FMA vfmaddps (32bit x8) n8    :    0.598   513464.  513464.2 +SSE ml+ad+adps (32bit x4) n9  :    0.473   329119.9     5142.5  ( 64.0 1.4) 
-AVX vml+ad+adps (32bit x8) n6 :    0.454   380420.7   380420.7 +SSE mulss (32bit x1) ns4      :    0.589    58633.9     3664.6  ( 16.0 1.0) 
-Average                       :    0.368   260057.1   260057.1 +SSE addss (32bit x1) ns4      :    0.593    58281.8     3642.6  ( 16.0 1.0) 
-Highest                       :    0.210   513464.2   513464.2+SSE mulps (32bit x4) ns4      :    0.593   233316.5     3645.6  ( 64.0 1.0) 
 +SSE addps (32bit x4) ns4      :    0.592   233434.6     3647.4  ( 64.0 1.0) 
 +AVX vmulps (32bit x8) n8      :    1.161   238135.4     1860.4  (128.0 0.5) 
 +AVX vaddps (32bit x8) n8      :    1.165   237289.3     1853.8  (128.0 0.5) 
 +AVX vmul+addps (32bit x8) n8  :    0.638   433097.6     3383.6  (128.0 0.9) 
 +FMA vfmaddps (32bit x8) n8    :    1.214   455327.7     1778.6  (256.0 0.5) 
 +FMA vfmaddps (32bit x8) n12   :    1.826   454323.9     1774.7  (256.0 0.5) 
 +FMA vfma+mlps (32bit x8) n12  :    1.849   336452.6     1752.4  (192.0 0.5) 
 +FMA vfma+adps (32bit x8) n12  :    1.525   407849.4     2124.2  (192.0 0.6) 
 +AVX vml+ad+adps (32bit x8) n9 :    0.929   334667.9     2614.6  (128.0 0.7) 
 +Average                       :    0.870   261831.9     3468.5  ( 92.3 1.0) 
 +Highest                       :    0.308   462846.3     7023.1  (256.0 2.0)
  
  
-* SSE/AVX (double fp) multi-thread +* Group 0:  Thread=16  Clock=3.600000 GHz  (mask:ffff) 
-SSE2 mulsd (64bit x1) n8      :    0.500    38438.0    38438.0 +* SSE/AVX (DP fp) multi-thread 
-SSE2 addsd (64bit x1) n8      :    0.299    64246.9    64246.9 +                                  TIME(s)   MFLOPS      MOPS     FOP   IPC 
-FMA  vfmaddsd (64bit x1) n8   :    0.318   120914.  120914.8 +SSE2 mulsd (64bit x1) n8      :    0.583    59307.2     3706.7  ( 16.0 1.0) 
-SSE2 mulpd (64bit x2) n8      :    0.305   125952.0   125952.0 +SSE2 addsd (64bit x1) n8      :    0.590    58559.5     3660.0  ( 16.0 1.0) 
-SSE2 addpd (64bit x2) n8      :    0.293   130910.1   130910.1 +FMA  vfmaddsd (64bit x1) n8   :    0.612   113029.5     3532.2  ( 32.0 1.0) 
-SSE2 mul+addpd (64bit x2) n8  :    0.209   183836.7   183836.7 +FMA  vfmaddsd (64bit x1) n12  :    0.908   114144.3     3567.0  ( 32.0 1.0) 
-FMA  vfmaddsd (64bit x2) n8   :    0.300   255720.  255720.4 +FMA  vfma+mlsd (64bit x1) n12 :    0.923    84260.4     5266.3  ( 16.0 1.5) 
-SSE2 ml+ad+dpd (64bit x2) n6  :    0.249   173153.2   173153.2 +FMA  vfma+adsd (64bit x1) n12 :    1.072    72518.0     4532.4  ( 16.0 1.3) 
-SSE2 mulsd (64bit x1) ns4     :    0.329    58366.5    58366.5 +SSE2 mulpd (64bit x2) n8      :    0.593   116492.3     3640.4  ( 32.0 1.0) 
-SSE2 addsd (64bit x1) ns4     :    0.299    64181.6    64181.6 +SSE2 addpd (64bit x2) n8      :    0.585   118131.6     3691.6  ( 32.0 1.0) 
-SSE2 mulpd (64bit x2) ns4     :    0.330   116494.6   116494.6 +SSE2 mul+addpd (64bit x2) n8  :    0.368   188056.6     5876.8  ( 32.0 1.6) 
-SSE2 addpd (64bit x2) ns4     :    0.303   126936.3   126936.3 +FMA  vfmaddpd (64bit x2) n8   :    0.619   223170.8     3487.0  ( 64.0 1.0) 
-AVX vmulpd (64bit x4) n8      :    0.568   135279.1   135279.1 +FMA  vfmaddpd (64bit x2) n12  :    0.921   225205.3     3518.8  ( 64.0 1.0) 
-AVX vaddpd (64bit x4) n8      :    0.575   133544.8   133544.8 +FMA  vfma+mlpd (64bit x2) n12 :    0.923   168557.6     3511.6  ( 48.0 1.0) 
-AVX vmul+addpd (64bit x4) n8  :    0.396   194182.6   194182.6 +FMA  vfma+adpd (64bit x2) n12 :    1.073   144992.1     3020.7  ( 48.0 0.8) 
-FMA vfmaddpd (64bit x4) n8    :    0.579   265291.  265291.4 +SSE2 ml+ad+dpd (64bit x2) n9  :    0.488   159217.0     4975.5  ( 32.0 1.4) 
-AVX vml_ad_adpd (64bit x4) n6 :    0.420   205647.2   205647.2 +SSE2 mulsd (64bit x1) ns4     :    0.626    55186.6     3449.2  ( 16.0 1.0) 
-Average                       :    0.369   140770.4   140770.4 +SSE2 addsd (64bit x1) ns4     :    0.591    58517.1     3657.3  ( 16.0 1.0) 
-Highest                       :    0.209   265291.4   265291.4+SSE2 mulpd (64bit x2) ns4     :    0.626   110337.6     3448.1  ( 32.0 1.0) 
 +SSE2 addpd (64bit x2) ns4     :    0.598   115499.9     3609.4  ( 32.0 1.0) 
 +AVX vmulpd (64bit x4) n8      :    1.152   119979.8     1874.7  ( 64.0 0.5) 
 +AVX vaddpd (64bit x4) n8      :    1.161   119067.1     1860.4  ( 64.0 0.5) 
 +AVX vmul+addpd (64bit x4) n8  :    0.697   198461.0     3101.0  ( 64.0 0.9) 
 +FMA vfmaddpd (64bit x4) n8    :    1.218   227047.1     1773.8  (128.0 0.5) 
 +FMA vfmaddpd (64bit x4) n12   :    1.847   224553.7     1754.3  (128.0 0.5) 
 +FMA vfma+mlpd (64bit x4) n12  :    1.837   169359.6     1764.2  ( 96.0 0.5) 
 +FMA vfma+adpd (64bit x4) n12  :    1.534   202816.4     2112.7  ( 96.0 0.6) 
 +AVX vml_ad_adpd (64bit x4) n9 :    0.873   178047.2     2782.0  ( 64.0 0.8) 
 +Average                       :    0.885   139404.4     3352.8  ( 49.2 0.9) 
 +Highest                       :    0.368   227047.1     5876.8  (128.0 1.6)
  
 +</code>
  
-* Matrix 4x4 multi-thread +++++ 
-C++ code                      :    0.345    83031.4    83031.4 + 
-C++ Intrinsic SSE 128bit      :    0.131   218780.0   218780.0 + 
-SSE mul/addps  128bit A       :    0.201   142798.1   142798.1 + 
-AVX vmul/addps 256bit A       :    0.210   136732.6   136732.6 + 
-Average                       :    0.222   145335.5   145335.5 + 
-Highest                       :    0.131   218780.0   218780.0+ 
 + 
 +==== AMD Zen2 (AMD64 x86_64 x64) SSE4.2/AVX2/FMA3 ==== 
 + 
 + 
 +++++Ryzen 9 3950X 3.5GHz (4.7GHz) 16 core 32 thread Windows 10| 
 + 
 +<code
 +Date: 20200808 195918 
 +ARCH: x64 (x86_64) 
 +FPU : SSE SSE2 SSSE3 SSE4.1 SSE4.2 AVX AVX2 FMA3 F16C 
 +Name: AMD Ryzen 9 3950X 16-Core Processor             
 + 
 +CPU Thread: 32 
 +CPU Core  : 16 
 +CPU Group :  1 
 +  Group 0: Thread=32  Clock=3.493000 GHz  (mask:ffffffff) 
 +SSE   : yes 
 +AVX   : yes 
 +FMA   : yes 
 +F16C  : yes 
 +AVX512: no 
 + 
 +Total: 
 +SingleThread HP max: - 
 +SingleThread SP max:  128.305 GFLOPS 
 +SingleThread DP max:   63.384 GFLOPS 
 +MultiThread  HP max: - 
 +MultiThread  SP max: 1888.789 GFLOPS 
 +MultiThread  DP max:  938.944 GFLOPS 
 + 
 +Group 0:  Thread=32  Clock=3.493000 GHz  (mask:ffffffff) 
 +  SingleThread HP max: - 
 +  SingleThread SP max:  128.305 GFLOPS 
 +  SingleThread DP max:   63.384 GFLOPS 
 +  MultiThread  HP max: - 
 +  MultiThread  SP max: 1888.789 GFLOPS 
 +  MultiThread  DP max:  938.944 GFLOPS 
 + 
 + 
 +* Group 0:  Thread=1  Clock=3.493000 GHz  (mask:ffffffff) 
 +* SSE/AVX (SP fp) 
 +                                  TIME(s)   MFLOPS      MOPS     FOP   IPC 
 +SSE mulss (32bit x1) n8       :    0.235     8927.2     8927.2  (  1.0 2.6) 
 +SSE addss (32bit x1) n8       :    0.234     8944.2     8944.2  (  1.0 2.6) 
 +FMA vfmaddss (32bit x1) n8    :    0.306    13713.8     6856.9  (  2.0 2.0) 
 +FMA vfmaddss (32bit x1) n12   :    0.351    17894.5     8947.2  (  2.0 2.6) 
 +FMA vfma+mlss (32bit x1) n12  :    0.352    13403.3     8935.5  (  1.5 2.6) 
 +FMA vfma+adss (32bit x1) n12  :    0.294    16051.8    10701.2  (  1.5 3.1) 
 +SSE mulps (32bit x4) n8       :    0.234    35829.9     8957.5  (  4.0 2.6) 
 +SSE addps (32bit x4) n8       :    0.234    35775.8     8943.9  (  4.0 2.6) 
 +SSE mul+addps (32bit x4) n8   :    0.177    47417.4    11854.3  (  4.0 3.4) 
 +FMA vfmaddps (32bit x4) n8    :    0.294    57079.2     7134.9  (  8.0 2.0) 
 +FMA vfmaddps (32bit x4) n12   :    0.352    71522.5     8940.3  (  8.0 2.6) 
 +FMA vfma+mlps (32bit x4) n12  :    0.354    53337.4     8889.6  (  6.0 2.5) 
 +FMA vfma+adps (32bit x4) n12  :    0.296    63794.3    10632.4  (  6.0 3.0) 
 +SSE ml+ad+adps (32bit x4) n9  :    0.211    44684.7    11171.2  (  4.0 3.2) 
 +SSE mulss (32bit x1) ns4      :    0.349     6000.9     6000.9  (  1.0 1.7) 
 +SSE addss (32bit x1) ns4      :    0.350     5993.1     5993.1  (  1.0 1.7) 
 +SSE mulps (32bit x4) ns4      :    0.350    23943.3     5985.8  (  4.0 1.7) 
 +SSE addps (32bit x4) ns4      :    0.349    23994.9     5998.7  (  4.0 1.7) 
 +AVX vmulps (32bit x8) n8      :    0.248    67674.4     8459.3  (  8.0 2.4) 
 +AVX vaddps (32bit x8) n8      :    0.249    67317.9     8414.7  (  8.0 2.4) 
 +AVX vmul+addps (32bit x8) n8  :    0.152   110575.9    13822.0   8.0 4.0) 
 +FMA vfmaddps (32bit x8) n8    :    0.306   109502.0     6843.9  ( 16.0 2.0) 
 +FMA vfmaddps (32bit x8) n12   :    0.397   126591.7     7912.0  ( 16.0 2.3) 
 +FMA vfma+mlps (32bit x8) n12  :    0.391    96466.3     8038.9  ( 12.0 2.3) 
 +FMA vfma+adps (32bit x8) n12  :    0.315   119759.2     9979.9  ( 12.0 2.9) 
 +AVX vml+ad+adps (32bit x8) n9 :    0.335    56261.1     7032.6  (  8.0 2.0) 
 +Average                       :    0.297    50094.5     8627.6  (  5.8 2.5) 
 +Highest                       :    0.152   126591.7    13822.0  ( 16.0 4.0) 
 + 
 + 
 +* Group 0:  Thread=1  Clock=3.493000 GHz  (mask:ffffffff) 
 +SSE/AVX (DP fp) 
 +                                  TIME(s)   MFLOPS      MOPS     FOP   IPC 
 +SSE2 mulsd (64bit x1) n8      :    0.237     8832.5     8832.5  (  1.0 2.5) 
 +SSE2 addsd (64bit x1) n8      :    0.236     8881.2     8881.2  (  1.0 2.5) 
 +FMA  vfmaddsd (64bit x1) n8   :    0.296    14153.0     7076.5  (  2.0 2.0) 
 +FMA  vfmaddsd (64bit x1) n12  :    0.354    17776.6     8888.3  (  2.0 2.5) 
 +FMA  vfma+mlsd (64bit x1) n12 :    0.357    13220.3     8813.5  (  1.5 2.5) 
 +FMA  vfma+adsd (64bit x1) n12 :    0.295    15973.3    10648.9  (  1.5 3.0) 
 +SSE2 mulpd (64bit x2) n8      :    0.236    17749.4     8874.7  (  2.0 2.5) 
 +SSE2 addpd (64bit x2) n8      :    0.237    17707.4     8853.7  (  2.0 2.5) 
 +SSE2 mul+addpd (64bit x2) n8  :    0.177    23667.6    11833.8  (  2.0 3.4) 
 +FMA  vfmaddpd (64bit x2) n8   :    0.296    28284.4     7071.1   4.0 2.0) 
 +FMA  vfmaddpd (64bit x2) n12  :    0.353    35638.1     8909.5  (  4.0 2.6) 
 +FMA  vfma+mlpd (64bit x2) n12 :    0.356    26526.1     8842.0  (  3.0 2.5) 
 +FMA  vfma+adpd (64bit x2) n12 :    0.296    31889.2    10629.7  (  3.0 3.0) 
 +SSE2 ml+ad+dpd (64bit x2) n9  :    0.213    22149.1    11074.6  (  2.0 3.2) 
 +SSE2 mulsd (64bit x1) ns4     :    0.356     5894.5     5894.5  (  1.0 1.7) 
 +SSE2 addsd (64bit x1) ns4     :    0.355     5909.9     5909.9  (  1.0 1.7) 
 +SSE2 mulpd (64bit x2) ns4     :    0.354    11834.5     5917.2  (  2.0 1.7) 
 +SSE2 addpd (64bit x2) ns4     :    0.352    11918.9     5959.4  (  2.0 1.7) 
 +AVX vmulpd (64bit x4) n8      :    0.250    33522.5     8380.6  (  4.0 2.4) 
 +AVX vaddpd (64bit x4) n8      :    0.250    33518.6     8379.6  (  4.0 2.4) 
 +AVX vmul+addpd (64bit x4) n8  :    0.160    52309.3    13077.3  (  4.0 3.7) 
 +FMA vfmaddpd (64bit x4) n8    :    0.307    54577.4     6822.2  (  8.0 2.0) 
 +FMA vfmaddpd (64bit x4) n12   :    0.397    63384.1     7923.0  (  8.0 2.3) 
 +FMA vfma+mlpd (64bit x4) n12  :    0.394    47859.6     7976.6  (  6.0 2.3) 
 +FMA vfma+adpd (64bit x4) n12  :    0.316    59672.9     9945.5  (  6.0 2.8) 
 +AVX vml_ad_adpd (64bit x4) n9 :    0.188    50150.2    12537.6  (  4.0 3.6) 
 +Average                       :    0.293    27423.1     8767.4  (  3.1 2.5) 
 +Highest                       :    0.160    63384.1    13077.3  (  8.0 3.7) 
 + 
 + 
 +* Group 0:  Thread=32  Clock=3.493000 GHz  (mask:ffffffff) 
 +* SSE/AVX (SP fp) multi-thread 
 +                                  TIME(s)   MFLOPS      MOPS     FOP   IPC 
 +SSE mulss (32bit x1) n8       :    0.501   133984.9     4187.0  ( 32.0 1.2) 
 +SSE addss (32bit x1) n8       :    0.503   133342.3     4166.9  ( 32.0 1.2) 
 +FMA vfmaddss (32bit x1) n8    :    0.504   266323.0     4161.3  ( 64.0 1.2) 
 +FMA vfmaddss (32bit x1) n12   :    0.756   266218.2     4159.7  ( 64.0 1.2) 
 +FMA vfma+mlss (32bit x1) n12  :    0.766   196915.8     6153.6  ( 32.0 1.8) 
 +FMA vfma+adss (32bit x1) n12  :    0.859   175676.6     5489.9  ( 32.0 1.6) 
 +SSE mulps (32bit x4) n8       :    0.501   535702.0     4185.2  (128.0 1.2) 
 +SSE addps (32bit x4) n8       :    0.500   537052.2     4195.7  (128.0 1.2) 
 +SSE mul+addps (32bit x4) n8   :    0.262  1025605.1     8012.5  (128.0 2.3) 
 +FMA vfmaddps (32bit x4) n8    :    0.506  1060612.9     4143.0  (256.0 1.2) 
 +FMA vfmaddps (32bit x4) n12   :    0.757  1062707.3     4151.2  (256.0 1.2) 
 +FMA vfma+mlps (32bit x4) n12  :    0.770   784237.1     4084.6  (192.0 1.2) 
 +FMA vfma+adps (32bit x4) n12  :    0.831   726585.3     3784.3  (192.0 1.1) 
 +SSE ml+ad+adps (32bit x4) n9  :    0.386   781589.6     6106.2  (128.0 1.7) 
 +SSE mulss (32bit x1) ns4      :    0.499   134495.7     4203.0  ( 32.0 1.2) 
 +SSE addss (32bit x1) ns4      :    0.497   135005.8     4218.9  ( 32.0 1.2) 
 +SSE mulps (32bit x4) ns4      :    0.498   538516.2     4207.2  (128.0 1.2) 
 +SSE addps (32bit x4) ns4      :    0.500   536973.7     4195.1  (128.0 1.2) 
 +AVX vmulps (32bit x8) n8      :    0.514  1043773.8     4077.2  (256.0 1.2) 
 +AVX vaddps (32bit x8) n8      :    0.518  1035798.2     4046.1  (256.0 1.2) 
 +AVX vmul+addps (32bit x8) n8  :    0.354  1513704.0     5912.9  (256.0 1.7) 
 +FMA vfmaddps (32bit x8) n8    :    0.568  1888789.4     3689.0  (512.0 1.1) 
 +FMA vfmaddps (32bit x8) n12   :    0.871  1847787.5     3609.0  (512.0 1.0) 
 +FMA vfma+mlps (32bit x8) n12  :    0.834  1446926.4     3768.0  (384.0 1.1) 
 +FMA vfma+adps (32bit x8) n12  :    0.689  1751695.3     4561.7  (384.0 1.3) 
 +AVX vml+ad+adps (32bit x8) n9 :    0.456  1323814.1     5171.1  (256.0 1.5) 
 +Average                       :    0.585   803224.3     4563.1  (184.6 1.3) 
 +Highest                       :    0.262  1888789.4     8012.5  (512.0 2.3) 
 + 
 + 
 +* Group 0:  Thread=32  Clock=3.493000 GHz  (mask:ffffffff) 
 +* SSE/AVX (DP fp) multi-thread 
 +                                  TIME(s)   MFLOPS      MOPS     FOP   IPC 
 +SSE2 mulsd (64bit x1) n8      :    0.502   133678.8     4177.5  ( 32.0 1.2) 
 +SSE2 addsd (64bit x1) n8      :    0.504   133028.9     4157.2  ( 32.0 1.2) 
 +FMA  vfmaddsd (64bit x1) n8   :    0.507   264705.8     4136.0  ( 64.0 1.2) 
 +FMA  vfmaddsd (64bit x1) n12  :    0.761   264410.5     4131.4  ( 64.0 1.2) 
 +FMA  vfma+mlsd (64bit x1) n12 :    0.768   196535.0     6141.7  ( 32.0 1.8) 
 +FMA  vfma+adsd (64bit x1) n12 :    0.838   180003.0     5625.1  ( 32.0 1.6) 
 +SSE2 mulpd (64bit x2) n8      :    0.497   269617.0     4212.8  ( 64.0 1.2) 
 +SSE2 addpd (64bit x2) n8      :    0.494   271369.0     4240.1  ( 64.0 1.2) 
 +SSE2 mul+addpd (64bit x2) n8  :    0.278   483345.2     7552.3  ( 64.0 2.2) 
 +FMA  vfmaddpd (64bit x2) n8   :    0.504   532172.7     4157.6  (128.0 1.2) 
 +FMA  vfmaddpd (64bit x2) n12  :    0.757   531281.4     4150.6  (128.0 1.2) 
 +FMA  vfma+mlpd (64bit x2) n12 :    0.768   392747.7     4091.1  ( 96.0 1.2) 
 +FMA  vfma+adpd (64bit x2) n12 :    0.842   358338.5     3732.7  ( 96.0 1.1) 
 +SSE2 ml+ad+dpd (64bit x2) n9  :    0.386   390483.3     6101.3  ( 64.0 1.7) 
 +SSE2 mulsd (64bit x1) ns4     :    0.503   133463.3     4170.7  ( 32.0 1.2) 
 +SSE2 addsd (64bit x1) ns4     :    0.501   133828.2     4182.1  ( 32.0 1.2) 
 +SSE2 mulpd (64bit x2) ns4     :    0.500   268326.3     4192.6  ( 64.0 1.2) 
 +SSE2 addpd (64bit x2) ns4     :    0.501   267562.5     4180.7  ( 64.0 1.2) 
 +AVX vmulpd (64bit x4) n8      :    0.521   515027.6     4023.7  (128.0 1.2) 
 +AVX vaddpd (64bit x4) n8      :    0.527   509168.2     3977.9  (128.0 1.1) 
 +AVX vmul+addpd (64bit x4) n8  :    0.366   733490.5     5730.4  (128.0 1.6) 
 +FMA vfmaddpd (64bit x4) n8    :    0.571   938944.0     3667.7  (256.0 1.1) 
 +FMA vfmaddpd (64bit x4) n12   :    0.875   919685.3     3592.5  (256.0 1.0) 
 +FMA vfma+mlpd (64bit x4) n12  :    0.839   719403.6     3746.9  (192.0 1.1) 
 +FMA vfma+adpd (64bit x4) n12  :    0.693   870577.3     4534.3  (192.0 1.3) 
 +AVX vml_ad_adpd (64bit x4) n9 :    0.370   815114.2     6368.1  (128.0 1.8) 
 +Average                       :    0.584   431781.1     4576.0  ( 98.5 1.3) 
 +Highest                       :    0.278   938944.0     7552.3  (256.0 2.2)
  
 </code> </code>
  
 ++++ ++++
 +
 +
 +
  
  
  
  
opengl/vfpbenchlog.1578155834.txt.gz · 最終更新: 2020/01/05 01:37 by oga

Donate Powered by PHP Valid HTML5 Valid CSS Driven by DokuWiki