ユーザ用ツール

サイト用ツール


opengl:vfpbenchlog

差分

このページの2つのバージョン間の差分を表示します。

この比較画面へのリンク

両方とも前のリビジョン前のリビジョン
次のリビジョン
前のリビジョン
opengl:vfpbenchlog [2019/01/05 17:58] – [ARM Cortex-A53 (ARMv8A AArch64 arm64) FPU+NEON] ogaopengl:vfpbenchlog [2020/12/30 23:46] (現在) – [結果一覧] oga
行 7: 行 7:
  
 ~~NOTOC~~ ~~NOTOC~~
 +
  
 ===== 結果一覧 ===== ===== 結果一覧 =====
  
 +^ Device  ^ Clock ^ Thread ^  Single Thread                      ^^^  Multi Thread                     ^^^
 +^ :::     ^ :::   ^ :::    ^  Half-p    ^   Single-p  ^  Double-p  ^  Half-p    Single-p  ^  Double-p  ^
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/AMD%20Ryzen%209%203950X%2016-Core%20Processor.txt|AMD Ryzen 9 3950X 16-Core Processor                                   ]]  |  3.493 GHz |  16/32 |     -- |   128.305 |    63.384 |     -- |  1888.789 |   938.944 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/AMD%20Ryzen%207%20PRO%204750G%20with%20Radeon%20Graphics.txt|AMD Ryzen 7 PRO 4750G with Radeon Graphics                            ]]  |  3.593 GHz |  8/16 |     -- |   141.717 |    70.860 |     -- |  1119.103 |   558.094 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/Intel%28R%29%20Core%28TM%29%20i7-4790K%20CPU%20%40%204.00GHz.txt|Intel(R) Core(TM) i7-4790K CPU @ 4.00GHz                              ]]  |  4.400 GHz |  4/8 |     -- |   140.704 |    70.256 |     -- |   539.429 |   268.944 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/Intel%28R%29%20Core%28TM%29%20i7-6700K%20CPU%20%40%204.00GHz.txt|Intel(R) Core(TM) i7-6700K CPU @ 4.00GHz                              ]]  |  4.200 GHz |  4/8 |     -- |   135.532 |    67.709 |     -- |   537.822 |   271.106 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/AMD%20Ryzen%207%201800X%20Eight-Core%20Processor.txt|AMD Ryzen 7 1800X Eight-Core Processor                                ]]  |  3.600 GHz |  8/16 |     -- |    62.298 |    30.845 |     -- |   465.706 |   228.360 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/Apple%20M1%20arm64%20MacBook%20Air%20Late%202020_macOS.txt|Apple M1 arm64 MacBook Air Late 2020_macOS                            ]]  |  3.200 GHz |  8/8 |   153.108 |    76.576 |    38.314 |   838.481 |   418.500 |   209.847 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/Intel%28R%29%20Core%28TM%29%20i5-1030NG7%20CPU%20%40%201.10GHz_macOS.txt|Intel(R) Core(TM) i5-1030NG7 CPU @ 1.10GHz_macOS                      ]]  |  1.100 GHz |  4/8 |     -- |   111.310 |    55.593 |     -- |   413.685 |   204.351 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/AMD%20Ryzen%205%203400G%20with%20Radeon%20Vega%20Graphics_cTDP35W.txt|AMD Ryzen 5 3400G with Radeon Vega Graphics_cTDP35W                   ]]  |  3.700 GHz |  4/8 |     -- |    64.323 |    32.149 |     -- |   239.429 |   119.606 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/Apple%20A11%20iPhone%20X.txt|Apple A11 iPhone X                                                    ]]  |  2.390 GHz |  6/6 |     -- |    50.968 |    25.414 |     -- |   236.143 |   116.185 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/Intel%28R%29%20Core%28TM%29%20i7-3615QM%20CPU%20%40%202.30GHz.txt|Intel(R) Core(TM) i7-3615QM CPU @ 2.30GHz                             ]]  |  2.301 GHz |  4/8 |     -- |    51.748 |    26.067 |     -- |   193.427 |    96.951 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/Apple%20M1%20Rosetta%20x86_64%20MacBook%20Air%20Late%202020_macOS.txt|Apple M1 Rosetta x86_64 MacBook Air Late 2020_macOS                   ]]  |  2.400 GHz |  8/8 |     -- |    34.142 |    17.064 |     -- |   192.912 |    96.515 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/Qualcomm%20Technologies%2C%20Inc%20SDM845%20Pixel3.txt|Qualcomm Technologies, Inc SDM845 Pixel3                              ]]  |  2.803 GHz |  8/8 |    44.356 |    22.274 |    11.150 |   278.633 |   139.238 |    69.642 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/Qualcomm%20Technologies%2C%20Inc%20MSM8998%20835%20EssentialPhone.txt|Qualcomm Technologies, Inc MSM8998 835 EssentialPhone                 ]]  |  2.458 GHz |  8/8 |     -- |    19.547 |     9.776 |     -- |   134.506 |    67.276 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/MT8183%20FireHD10%282019%29.txt|MT8183 FireHD10(2019)                                                 ]]  |  1.989 GHz |  8/8 |     -- |    15.868 |     7.305 |     -- |   125.541 |    57.218 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/AMD%20A10-7870K%20Radeon%20R7%2C%2012%20Compute%20Cores%204C%2B8G.txt|AMD A10-7870K Radeon R7, 12 Compute Cores 4C+8G                       ]]  |  3.900 GHz |  2/4 |     -- |    62.240 |    31.120 |     -- |   124.508 |    62.259 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/Hisilicon%20Kirin710%20P30Lite.txt|Hisilicon Kirin710 P30Lite                                            ]]  |  2.189 GHz |  8/8 |     -- |    17.423 |     8.709 |     -- |   117.542 |    58.569 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/Apple%20A10%20iPad%207.txt|Apple A10 iPad 7                                                      ]]  |  2.340 GHz |  2/2 |     -- |    54.102 |    26.972 |     -- |   103.423 |    50.847 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/Intel%28R%29%20Core%28TM%29%20i5-3210M%20CPU%20%40%202.50GHz.txt|Intel(R) Core(TM) i5-3210M CPU @ 2.50GHz                              ]]  |  2.501 GHz |  2/4 |     -- |    48.911 |    24.474 |     -- |    89.003 |    42.626 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/Apple%20A9%20iPad%205.txt|Apple A9 iPad 5                                                       ]]  |  1.850 GHz |  2/2 |     -- |    42.569 |    14.718 |     -- |    85.180 |    29.387 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/RK3399%20ChromebookFlipC101PA.txt|RK3399 ChromebookFlipC101PA                                           ]]  |  2.016 GHz |  6/6 |     -- |    16.062 |     8.030 |     -- |    79.036 |    37.760 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/Qualcomm%20Technologies%2C%20Inc%20MSM8937_430_ZenFone3MaxZC553KL.txt|Qualcomm Technologies, Inc MSM8937_430_ZenFone3MaxZC553KL             ]]  |  1.401 GHz |  8/8 |     -- |    10.959 |     5.497 |     -- |    78.350 |    39.069 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/Qualcomm%20Technologies%2C%20Inc%20MSM8992%20808%20Nexus5X.txt|Qualcomm Technologies, Inc MSM8992 808 Nexus5X                        ]]  |  1.824 GHz |  6/6 |     -- |    14.524 |     7.261 |     -- |    73.978 |    37.008 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/Apple%20A9%20iPhone%20SE.txt|Apple A9 iPhone SE                                                    ]]  |  1.850 GHz |  2/2 |     -- |    42.370 |    14.597 |     -- |    73.316 |    27.426 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/Apple%20A8X%20iPad%20Air2.txt|Apple A8X iPad Air2                                                   ]]  |  1.500 GHz |  3/3 |     -- |    23.997 |    11.971 |     -- |    71.878 |    35.941 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/Qualcomm%20MSM%208974%20HAMMERHEAD%20%28Flattened%20Device%20Tree%29%20800%20Nexus5.txt|Qualcomm MSM 8974 HAMMERHEAD (Flattened Device Tree) 800 Nexus5       ]]  |  2.266 GHz |  4/4 |     -- |    16.454 |     3.385 |     -- |    65.470 |    13.868 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/Intel%28R%29%20Celeron%28R%29%20CPU%20%20J1900%20%20%40%201.99GHz.txt|Intel(R) Celeron(R) CPU  J1900  @ 1.99GHz                             ]]  |  2.416 GHz |  4/4 |     -- |    14.477 |     3.619 |     -- |    57.778 |    14.438 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/Intel%28R%29%20Atom%28TM%29%20x7-Z8700%20%20CPU%20%40%201.60GHz_GPDWIN.txt|Intel(R) Atom(TM) x7-Z8700  CPU @ 1.60GHz_GPDWIN                      ]]  |  1.601 GHz |  4/4 |     -- |    14.259 |     3.585 |     -- |    57.101 |    14.184 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/NVIDIA%20Tegra4%20tegratab%20TegraNote7.txt|NVIDIA Tegra4 tegratab TegraNote7                                     ]]  |  1.810 GHz |  4/4 |     -- |    14.090 |     2.610 |     -- |    50.955 |     9.795 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/BCM2711%20Raspberry%20Pi%204%20Model%20B%20Rev%201.11.txt|BCM2711 Raspberry Pi 4 Model B Rev 1.11                               ]]  |  1.500 GHz |  4/4 |     -- |    11.972 |     5.984 |     -- |    47.921 |    23.960 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/NVIDIA_TegraX1_JetsonNano.txt|NVIDIA_TegraX1_JetsonNano                                             ]]  |  1.428 GHz |  4/4 |     -- |    11.401 |     5.702 |     -- |    45.510 |    22.763 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/Apple%20A8%20Apple%20TV%20HD.txt|Apple A8 Apple TV HD                                                  ]]  |  1.500 GHz |  2/2 |     -- |    22.204 |    11.107 |     -- |    44.145 |    21.667 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/QCT%20APQ8064%20FLO%20Snapdragon%20S4%20Pro%20Nexus7%282013%29.txt|QCT APQ8064 FLO Snapdragon S4 Pro Nexus7(2013)                        ]]  |  1.512 GHz |  4/4 |     -- |    10.950 |     2.297 |     -- |    43.660 |     9.229 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/Apple%20A7%20iPad%20mini%202.txt|Apple A7 iPad mini 2                                                  ]]  |  1.300 GHz |  2/2 |     -- |    20.415 |    10.231 |     -- |    40.904 |    20.443 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/Apple%20A7%20iPhone%205S.txt|Apple A7 iPhone 5S                                                    ]]  |  1.300 GHz |  2/2 |     -- |    20.086 |     9.990 |     -- |    40.146 |    20.237 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/BCM2837%20Raspberry%20Pi%203%20Model%20B%20Rev%201.2.txt|BCM2837 Raspberry Pi 3 Model B Rev 1.2                                ]]  |  1.200 GHz |  4/4 |     -- |     9.400 |     4.299 |     -- |    37.230 |    17.211 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/NVIDIA%20TegraK1%20Nexus9.txt|NVIDIA TegraK1 Nexus9                                                 ]]  |  2.499 GHz |  2/2 |     -- |    18.122 |     9.089 |     -- |    36.290 |    18.101 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/Apple%20A8%20iPod%20touch%206.txt|Apple A8 iPod touch 6                                                 ]]  |  1.100 GHz |  2/2 |     -- |    17.958 |     8.973 |     -- |    35.796 |    17.899 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/Intel%28R%29%20Atom%28TM%29%20CPU%20%20Z3745%20%20%40%201.33GHz_MeMOPad7ME176C.txt|Intel(R) Atom(TM) CPU  Z3745  @ 1.33GHz_MeMOPad7ME176C                ]]  |  1.862 GHz |  4/4 |     -- |     8.927 |     2.783 |     -- |    35.631 |    11.140 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/MT8135%20FireHD6%282014%29.txt|MT8135 FireHD6(2014)                                                  ]]  |  1.508 GHz |  4/4 |     -- |    12.001 |     2.400 |     -- |    28.816 |     7.135 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/Apple%20S6%20Watch%20Series%206.txt|Apple S6 Watch Series 6                                               ]]  |  1.500 GHz |  2/2 |    25.256 |    12.629 |     6.314 |    50.421 |    25.223 |    12.600 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/Intel%28R%29%20Atom%28TM%29%20CPU%20Z2560%20%20%40%201.60GHz_Fonepad7ME372CL.txt|Intel(R) Atom(TM) CPU Z2560  @ 1.60GHz_Fonepad7ME372CL                ]]  |  1.600 GHz |  2/4 |     -- |     7.588 |     1.544 |     -- |    18.566 |     3.241 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/Intel%28R%29%20Celeron%28R%29%202957U%20%40%201.40GHz.txt|Intel(R) Celeron(R) 2957U @ 1.40GHz                                   ]]  |  1.400 GHz |  2/2 |     -- |     8.927 |     4.464 |     -- |    17.850 |     8.928 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/Apple%20A6%20iPhone%205.txt|Apple A6 iPhone 5                                                     ]]  |  1.300 GHz |  2/2 |     -- |     9.873 |     1.379 |     -- |    17.146 |     3.142 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/BCM2836%20Raspberry%20Pi%202%20Model%20B%20Rev%201.1.txt|BCM2836 Raspberry Pi 2 Model B Rev 1.1                                ]]  |  0.900 GHz |  4/4 |     -- |     1.777 |     0.871 |     -- |     7.023 |     3.444 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/Apple%20S2%20Watch%20Series%202.txt|Apple S2 Watch Series 2                                               ]]  |  0.520 GHz |  2/2 |     -- |     1.023 |     0.502 |     -- |     1.841 |     0.899 |
 +| [[https://github.com/hiroog/vfpbench/blob/flatlib/log/BCM2835%20Raspberry%20Pi%20Model%20B.txt|BCM2835 Raspberry Pi Model B                                          ]]  |  0.700 GHz |  1/1 |     -- |     0.637 |     0.637 |     -- |     0.637 |     0.629 |
 +
 +
 +
 +
 +  * Half-p, Single-p, Dobule-p の単位は GFLOPS
 +  * Multi Thread Single-p が大きい順に並んでいます。
 +  * Apple M1/A10~ など Apple OS 上の big.LITTLE CPU では LITTLE core の正しい計測ができていません。Multi Thread のスコアは不正確で実際より大きな値が出ています。Single Thread の値だけ見るようにしてください。
 +
 +
 +
 +
 +----
 +
 +==== 旧リスト ====
  
 ^ Device                      ^ OS      ^ SoC                    ^ CPU                  ^ FPU              ^    ^ clock    ^Single-SP^Single-DP^ Multi-SP ^ Multi-DP ^ ^ Device                      ^ OS      ^ SoC                    ^ CPU                  ^ FPU              ^    ^ clock    ^Single-SP^Single-DP^ Multi-SP ^ Multi-DP ^
-| PC AMD Ryzen 7 1800X        | Win10   | AMD Ryzen 7 1800X      Ryzen         | x64    | SSE4.2/AVX2/FMA3 |  |   3.6GHz |  64.943 |  31.178  513.464 |  265.291 +| PC AMD Ryzen 9 3950X        | Win10   | AMD Ryzen 9 3950X      Zen2          | x64    | SSE4.2/AVX2/FMA3 | 16 |   3.5GHz |  132.173 |  66.092 1904.671 |  949.919 
-| PC Intel Core i7-6700K      | Win10   | Intel Core i7-6700K    | Skylake       | x64    | SSE4.2/AVX2/FMA3 |  4 |   4.0GHz |  132.274 |  62.904 |  511.630 |  255.417 +| PC Intel Core i7-6700K      | Win10   | Intel Core i7-6700K    | Skylake       | x64    | SSE4.2/AVX2/FMA3 |  4 |   4.0GHz |  135.577 |  67.698 |  542.267 |  271.127 
-| PC Intel Core i7-4790K      | Ubuntu  | Intel Core i7-4790K    | Haswell       | x64    | SSE4.2/AVX2/FMA3 |  4 |   4.0GHz |  85.112 |  31.917 |  510.509 |  128.452 |+| PC Intel Core i7-4790K      | Ubuntu  | Intel Core i7-4790K    | Haswell       | x64    | SSE4.2/AVX2/FMA3 |  4 |   4.0GHz |  140.339 |  46.722 |  537.865 |  268.264 | 
 +| PC AMD Ryzen 7 1800X        | Win10   | AMD Ryzen 7 1800X      | Zen           | x64    | SSE4.2/AVX2/FMA3 |  8 |   3.6GHz |  62.467 |  30.860 |  474.832 |  237.482 |
 | Apple Mac mini Late 2012    | OSX.10  | Intel Core i7-3615QM   | Ivy Birdge    | x64    | SSE4.2/AVX        4 |   2.3GHz |  51.427 |  25.693 |  194.698 |   96.913 | | Apple Mac mini Late 2012    | OSX.10  | Intel Core i7-3615QM   | Ivy Birdge    | x64    | SSE4.2/AVX        4 |   2.3GHz |  51.427 |  25.693 |  194.698 |   96.913 |
 | Apple MacBook Pro Late 2011 | OSX.10  | Intel Core i7-2720QM   | Sandy Bridge  | x64    | SSE4.2/AVX        4 |   2.2GHz |  52.260 |  26.137 |  162.316 |   74.049 | | Apple MacBook Pro Late 2011 | OSX.10  | Intel Core i7-2720QM   | Sandy Bridge  | x64    | SSE4.2/AVX        4 |   2.2GHz |  52.260 |  26.137 |  162.316 |   74.049 |
 +| Google Pixel 3              | A10     | Snapdragon 845         | Kryo 385(A75/55) | ARMv8.2A | AArch64      8 |   2.8GHz |  22.274 |  11.150 |  139.238 |   69.642 |
 +| Essential Phone PH-1        | A10     | Snapdragon 835         | Kryo (A73/53) | ARMv8A | AArch64          |  8 |  2.45GHz |  19.547 |   9.776 |  134.506 |   67.276 |
 +| Amazon Fire HD 10 2019      | A9.0    | Mediatek MT8183        | A73/A53       | ARMv8A | AArch64          |  8 |   2.0GHz |  15.868 |   7.305 |  125.541 |   57.218 |
 +| PC AMD A10-7870K            | Win10   | AMD A10-7870K          | Steamroller   | x64    | SSE4.2/AVX/FMA3  |  2 |   3.9GHz |  64.743 |  32.400 |  124.500 |   62.247 |
 | Apple MacBook Pro Late 2013 | OSX.10  | Intel Core i5-3210M    | Ivy Birdge    | x64    | SSE4.2/AVX        2 |   2.5GHz |  48.604 |  24.317 |   90.247 |   45.223 | | Apple MacBook Pro Late 2013 | OSX.10  | Intel Core i5-3210M    | Ivy Birdge    | x64    | SSE4.2/AVX        2 |   2.5GHz |  48.604 |  24.317 |   90.247 |   45.223 |
 | iPhone SE                   | iOS9.3  | Apple A9               | Twister       | ARMv8A | AArch64          |  2 |  1.85GHz |  41.857 |  14.545 |   81.071 |   28.333 | | iPhone SE                   | iOS9.3  | Apple A9               | Twister       | ARMv8A | AArch64          |  2 |  1.85GHz |  41.857 |  14.545 |   81.071 |   28.333 |
 +| Chromebook Flip C101PA      | Chrome  | RockChip RK3399        | A72 + A53     | ARMv8A | AArch64          |  6 |   2.0GHz |  16.062 |   8.030 |   79.036 |   37.760 |
 | NVIDIA SHIELD Tablet        | A4.4    | NVIDIA Tegra K1        | Cortex-A15    | ARMv7A | VFPv4 NEON        4 |   2.2GHz |  17.136 |   3.431 |   70.174 |   14.036 | | NVIDIA SHIELD Tablet        | A4.4    | NVIDIA Tegra K1        | Cortex-A15    | ARMv7A | VFPv4 NEON        4 |   2.2GHz |  17.136 |   3.431 |   70.174 |   14.036 |
 | Apple iPad A8X              | i8.0    | Apple A8X              | Typhoon       | ARMv8A | AArch64          |  3 |   1.5GHz |  23.568 |  11.751 |   68.591 |   33.968 | | Apple iPad A8X              | i8.0    | Apple A8X              | Typhoon       | ARMv8A | AArch64          |  3 |   1.5GHz |  23.568 |  11.751 |   68.591 |   33.968 |
行 28: 行 97:
 | NVIDIA Tegra Note 7         | A4.4    | NVIDIA Tegra 4         | Cortex-A15    | ARMv7A | VFPv4 NEON        4 |   1.8GHz |  13.371 |   2.655 |   51.345 |    9.860 | | NVIDIA Tegra Note 7         | A4.4    | NVIDIA Tegra 4         | Cortex-A15    | ARMv7A | VFPv4 NEON        4 |   1.8GHz |  13.371 |   2.655 |   51.345 |    9.860 |
 | PC Intel N3150 Braswell     | Ubuntu  | Intel Celeron N3150    | Airmont       | x64    | SSE4.2            4 |   1.6GHz |  12.468 |   3.117 |   49.679 |   12.469 | | PC Intel N3150 Braswell     | Ubuntu  | Intel Celeron N3150    | Airmont       | x64    | SSE4.2            4 |   1.6GHz |  12.468 |   3.117 |   49.679 |   12.469 |
 +| Raspberry Pi 4              | Ubuntu  | Broadcomm BCM2711      | Cortex-A72    | ARMv8A | AArch64          |  4 |   1.5GHz |  11.973 |   5.987 |   47.925 |   23.962 |
 | ASUS Nexus 7 2013           | A4.4    | Qualcomm S4 APQ8064    | Krait         | ARMv7A | VFPv4 NEON        4 |   1.5GHz |  11.947 |   3.005 |   47.808 |   11.751 | | ASUS Nexus 7 2013           | A4.4    | Qualcomm S4 APQ8064    | Krait         | ARMv7A | VFPv4 NEON        4 |   1.5GHz |  11.947 |   3.005 |   47.808 |   11.751 |
 | HTC J butterfly HTL21       | A4.1    | Qualcomm S4 APQ8064    | Krait         | ARMv7A | VFPv4 NEON        4 |   1.5GHz |  11.883 |   2.967 |   46.954 |   11.778 | | HTC J butterfly HTL21       | A4.1    | Qualcomm S4 APQ8064    | Krait         | ARMv7A | VFPv4 NEON        4 |   1.5GHz |  11.883 |   2.967 |   46.954 |   11.778 |
 +| NVIDIA Jetson nano          | Ubuntu  | NVIDIA Tegra X1        | Cortex-A57    | ARMv8A | AArch64          |  4 |   1.43GHz |  11.404 |  5.702 |   45.454 |   22.727 |
 | Apple TV (2015)             | tv9.0   | Apple A8               | Typhoon       | ARMv8A | AArch64          |  2 |   1.4GHz |  22.197 |  11.105 |   44.331 |   22.084 | | Apple TV (2015)             | tv9.0   | Apple A8               | Typhoon       | ARMv8A | AArch64          |  2 |   1.4GHz |  22.197 |  11.105 |   44.331 |   22.084 |
 | Apple iPhone 5s             | i8.0    | Apple A7               | Cyclone       | ARMv8A | AArch64          |  2 |   1.3GHz |  20.621 |  10.313 |   40.871 |   20.480 | | Apple iPhone 5s             | i8.0    | Apple A7               | Cyclone       | ARMv8A | AArch64          |  2 |   1.3GHz |  20.621 |  10.313 |   40.871 |   20.480 |
行 7590: 行 7661:
 ---- ----
  
----- + 
-----+ 
 + 
 ===== Mobile CPU 64bit ===== ===== Mobile CPU 64bit =====
  
行 8793: 行 8866:
  
 ++++ ++++
 +
 +
 +
 +
 +
 +==== Qualcomm Kryo (ARMv8A AArch64 arm64) FPU+NEON ====
 +
 +
 +
 +
 +++++ZenFone AR Snapdragon 821 big core Kryo 2.3G4Hz x2 ARM64 (AArch64) Android 7.0|
 +
 +<code>
 +ARCH: ARMv8A 3
 +FPU: AArch64 NEON
 +SingleT SP max: 18.681 GFLOPS
 +SingleT DP max: 9.263 GFLOPS
 +MultiT  SP max: 37.407 GFLOPS
 +MultiT  DP max: 18.549 GFLOPS
 +CPU core: 2
 +FPHP  : no
 +SIMDHP: no
 +
 +* FPU/NEON (single fp)
 +                                  TIME(s)   MFLOPS      MOPS    FOP IPC  max MFLOPS
 +FPU fmul (32bit x1) n8        :    0.284     4229.4     4229.4 (  1 1.8)    4229.4
 +FPU fadd (32bit x1) n8        :    0.141     8492.3     8492.3 (  1 3.6)    8492.3
 +FPU fmadd (32bit x1) n8       :    0.321     7471.9     3736.0 (  2 1.6)    7471.9
 +NEON fmul.2s (32bit x2) n8    :    0.257     9336.7     4668.4 (  2 2.0)    9336.7
 +NEON fadd.2s (32bit x2) n8    :    0.141    16984.7     8492.3 (  2 3.6)   16984.7
 +NEON fmla.2s (32bit x2) n8    :    0.257    18681.0     4670.3 (  4 2.0)   18681.0
 +NEON fmul.4s (32bit x4) n8    :    0.514     9341.5     2335.4 (  4 1.0)    9341.5
 +NEON fadd.4s (32bit x4) n8    :    0.275    17435.6     4358.9 (  4 1.9)   17435.6
 +NEON fmla.4s (32bit x4) n8    :    0.520    18448.6     2306.1 (  8 1.0)   18448.6
 +FPU fmul (32bit x1) ns4       :    0.644     1864.5     1864.5 (  1 0.8)    1864.5
 +FPU fadd (32bit x1) ns4       :    0.387     3103.5     3103.5 (  1 1.3)    3103.5
 +FPU fmadd (32bit x1) ns4      :    0.514     4670.5     2335.2 (  2 1.0)    4670.5
 +NEON fmul.2s (32bit x2) ns4   :    0.643     3734.4     1867.2 (  2 0.8)    3734.4
 +NEON fadd.2s (32bit x2) ns4   :    0.386     6223.7     3111.8 (  2 1.3)    6223.7
 +NEON fmla.2s (32bit x2) ns4   :    0.643     7470.0     1867.5 (  4 0.8)    7470.0
 +NEON fmul.4s (32bit x4) ns4   :    0.642     7472.9     1868.2 (  4 0.8)    7472.9
 +NEON fadd.4s (32bit x4) ns4   :    0.409    11735.6     2933.9 (  4 1.3)   11735.6
 +NEON fmla.4s (32bit x4) ns4   :    0.643    14938.8     1867.3 (  8 0.8)   14938.8
 +FPU fmul (32bit x1) n1        :    0.257     4671.0     4671.0 (  1 2.0)    4671.0
 +FPU fadd (32bit x1) n1        :    0.141     8492.8     8492.8 (  1 3.6)    8492.8
 +FPU fmadd (32bit x1) n1       :    2.570      933.9      466.9 (  2 0.2)     933.9
 +NEON fmul.2s (32bit x2) n1    :    0.257     9340.9     4670.5 (  2 2.0)    9340.9
 +NEON fadd.2s (32bit x2) n1    :    0.141    16986.1     8493.0 (  2 3.6)   16986.1
 +NEON fmla.2s (32bit x2) n1    :    2.056     2334.8      583.7 (  4 0.2)    2334.8
 +NEON fmul.4s (32bit x4) n1    :    0.514     9330.3     2332.6 (  4 1.0)    9330.3
 +NEON fadd.4s (32bit x4) n1    :    0.275    17457.1     4364.3 (  4 1.9)   17457.1
 +NEON fmla.4s (32bit x4) n1    :    2.056     4669.4      583.7 (  8 0.2)    4669.4
 +NEON fmul.4s (32bit x4) n12   :    0.771     9341.0     2335.3 (  4 1.0)    9341.0
 +NEON fadd.4s (32bit x4) n12   :    0.405    17791.8     4448.0 (  4 1.9)   17791.8
 +NEON fmla.4s (32bit x4) n12   :    0.777    18521.2     2315.1 (  8 1.0)   18521.2
 +Average                       :    0.595     9716.9     3595.5 (  3 1.5)    9716.9
 +Highest                       :    0.141    18681.0     8493.0 (  8 3.6)   18681.0
 +
 +
 +* FPU/NEON (double fp)
 +                                  TIME(s)   MFLOPS      MOPS    FOP IPC  max MFLOPS
 +FPU fmul (64bit x1) n8        :    0.278     4313.5     4313.5 (  1 1.8)    4313.5
 +FPU fadd (64bit x1) n8        :    0.154     7785.3     7785.3 (  1 3.3)    7785.3
 +FPU fmadd (64bit x1) n8       :    0.385     6227.1     3113.6 (  2 1.3)    6227.1
 +NEON fmul.2d (64bit x2) n8    :    0.514     4670.4     2335.2 (  2 1.0)    4670.4
 +NEON fadd.2d (64bit x2) n8    :    0.275     8727.1     4363.6 (  2 1.9)    8727.1
 +NEON fmla.2d (64bit x2) n8    :    0.520     9226.9     2306.7 (  4 1.0)    9226.9
 +FPU fmul (64bit x1) ns4       :    0.771     1556.7     1556.7 (  1 0.7)    1556.7
 +FPU fadd (64bit x1) ns4       :    0.385     3113.9     3113.9 (  1 1.3)    3113.9
 +FPU fmadd (64bit x1) ns4      :    0.514     4670.6     2335.3 (  2 1.0)    4670.6
 +NEON fmul.2d (64bit x2) ns4   :    0.771     3112.4     1556.2 (  2 0.7)    3112.4
 +NEON fadd.2d (64bit x2) ns4   :    0.409     5868.7     2934.4 (  2 1.3)    5868.7
 +NEON fmla.2d (64bit x2) ns4   :    0.771     6226.6     1556.6 (  4 0.7)    6226.6
 +FPU fmul (64bit x1) n1        :    0.257     4661.0     4661.0 (  1 2.0)    4661.0
 +FPU fadd (64bit x1) n1        :    0.154     7787.3     7787.3 (  1 3.3)    7787.3
 +FPU fmadd (64bit x1) n1       :    3.084      778.2      389.1 (  2 0.2)     778.2
 +NEON fmul.2d (64bit x2) n1    :    0.514     4667.0     2333.5 (  2 1.0)    4667.0
 +NEON fadd.2d (64bit x2) n1    :    0.275     8726.1     4363.0 (  2 1.9)    8726.1
 +NEON fmla.2d (64bit x2) n1    :    2.056     2334.9      583.7 (  4 0.2)    2334.9
 +NEON fmul.2d (64bit x2) n12   :    0.771     4670.5     2335.3 (  2 1.0)    4670.5
 +NEON fadd.2d (64bit x2) n12   :    0.405     8896.4     4448.2 (  2 1.9)    8896.4
 +NEON fmla.2d (64bit x2) n12   :    0.777     9262.8     2315.7 (  4 1.0)    9262.8
 +Average                       :    0.669     5584.9     3166.1 (  2 1.4)    5584.9
 +Highest                       :    0.154     9262.8     7787.3 (  4 3.3)    9262.8
 +
 +
 +* Matrix 4x4
 +                                  TIME(s)   MFLOPS      MOPS    FOP IPC  max MFLOPS
 +C++ code                      :    0.192     9316.9     9316.9 (  1 4.0)    9316.9
 +NEON fmla.4s 128bit A         :    0.181     9884.4     9884.4 (  1 4.2)    9884.4
 +NEON fmla.4s 128bit B         :    0.160    11189.4    11189.4 (  1 4.8)   11189.4
 +Average                       :    0.178    10130.2    10130.2 (  1 4.3)   10130.2
 +Highest                       :    0.160    11189.4    11189.4 (  1 4.8)   11189.4
 +
 +
 +* FPU/NEON (single fp) multi-thread
 +                                  TIME(s)   MFLOPS      MOPS    FOP IPC  max MFLOPS
 +FPU fmul (32bit x1) n8        :    0.289     8310.1     4155.1 (  2 1.8)    8310.1
 +FPU fadd (32bit x1) n8        :    0.141    17003.7     8501.8 (  2 3.6)   17003.7
 +FPU fmadd (32bit x1) n8       :    0.321    14958.0     3739.5 (  4 1.6)   14958.0
 +NEON fmul.2s (32bit x2) n8    :    0.257    18702.1     4675.5 (  4 2.0)   18702.1
 +NEON fadd.2s (32bit x2) n8    :    0.141    34006.9     8501.7 (  4 3.6)   34006.9
 +NEON fmla.2s (32bit x2) n8    :    0.257    37406.9     4675.9 (  8 2.0)   37406.9
 +NEON fmul.4s (32bit x4) n8    :    0.514    18694.8     2336.8 (  8 1.0)   18694.8
 +NEON fadd.4s (32bit x4) n8    :    0.275    34934.6     4366.8 (  8 1.9)   34934.6
 +NEON fmla.4s (32bit x4) n8    :    0.520    36945.7     2309.1 ( 16 1.0)   36945.7
 +FPU fmul (32bit x1) ns4       :    0.642     3737.5     1868.8 (  2 0.8)    3737.5
 +FPU fadd (32bit x1) ns4       :    0.385     6230.9     3115.5 (  2 1.3)    6230.9
 +FPU fmadd (32bit x1) ns4      :    0.513     9351.9     2338.0 (  4 1.0)    9351.9
 +NEON fmul.2s (32bit x2) ns4   :    0.642     7481.5     1870.4 (  4 0.8)    7481.5
 +NEON fadd.2s (32bit x2) ns4   :    0.385    12468.3     3117.1 (  4 1.3)   12468.3
 +NEON fmla.2s (32bit x2) ns4   :    0.643    14938.0     1867.3 (  8 0.8)   14938.0
 +NEON fmul.4s (32bit x4) ns4   :    0.642    14962.5     1870.3 (  8 0.8)   14962.5
 +NEON fadd.4s (32bit x4) ns4   :    0.409    23500.5     2937.6 (  8 1.3)   23500.5
 +NEON fmla.4s (32bit x4) ns4   :    0.642    29926.9     1870.4 ( 16 0.8)   29926.9
 +FPU fmul (32bit x1) n1        :    0.257     9351.7     4675.8 (  2 2.0)    9351.7
 +FPU fadd (32bit x1) n1        :    0.141    17001.5     8500.8 (  2 3.6)   17001.5
 +FPU fmadd (32bit x1) n1       :    2.567     1870.1      467.5 (  4 0.2)    1870.1
 +NEON fmul.2s (32bit x2) n1    :    0.257    18704.8     4676.2 (  4 2.0)   18704.8
 +NEON fadd.2s (32bit x2) n1    :    0.141    34007.3     8501.8 (  4 3.6)   34007.3
 +NEON fmla.2s (32bit x2) n1    :    2.053     4675.8      584.5 (  8 0.2)    4675.8
 +NEON fmul.4s (32bit x4) n1    :    0.513    18695.7     2337.0 (  8 1.0)   18695.7
 +NEON fadd.4s (32bit x4) n1    :    0.275    34960.7     4370.1 (  8 1.9)   34960.7
 +NEON fmla.4s (32bit x4) n1    :    2.053     9351.2      584.5 ( 16 0.2)    9351.2
 +NEON fmul.4s (32bit x4) n12   :    0.770    18699.6     2337.5 (  8 1.0)   18699.6
 +NEON fadd.4s (32bit x4) n12   :    0.405    35569.9     4446.2 (  8 1.9)   35569.9
 +NEON fmla.4s (32bit x4) n12   :    0.776    37094.3     2318.4 ( 16 1.0)   37094.3
 +Average                       :    0.594    19451.5     3597.3 (  7 1.5)   19451.5
 +Highest                       :    0.141    37406.9     8501.8 ( 16 3.6)   37406.9
 +
 +
 +* FPU/NEON (double fp) multi-thread
 +                                  TIME(s)   MFLOPS      MOPS    FOP IPC  max MFLOPS
 +FPU fmul (64bit x1) n8        :    0.285     8432.6     4216.3 (  2 1.8)    8432.6
 +FPU fadd (64bit x1) n8        :    0.154    15589.2     7794.6 (  2 3.3)   15589.2
 +FPU fmadd (64bit x1) n8       :    0.385    12469.0     3117.2 (  4 1.3)   12469.0
 +NEON fmul.2d (64bit x2) n8    :    0.513     9352.0     2338.0 (  4 1.0)    9352.0
 +NEON fadd.2d (64bit x2) n8    :    0.275    17474.9     4368.7 (  4 1.9)   17474.9
 +NEON fmla.2d (64bit x2) n8    :    0.520    18473.3     2309.2 (  8 1.0)   18473.3
 +FPU fmul (64bit x1) ns4       :    0.770     3117.4     1558.7 (  2 0.7)    3117.4
 +FPU fadd (64bit x1) ns4       :    0.385     6233.7     3116.8 (  2 1.3)    6233.7
 +FPU fmadd (64bit x1) ns4      :    0.513     9350.7     2337.7 (  4 1.0)    9350.7
 +NEON fmul.2d (64bit x2) ns4   :    0.770     6235.2     1558.8 (  4 0.7)    6235.2
 +NEON fadd.2d (64bit x2) ns4   :    0.408    11751.8     2937.9 (  4 1.3)   11751.8
 +NEON fmla.2d (64bit x2) ns4   :    0.770    12465.5     1558.2 (  8 0.7)   12465.5
 +FPU fmul (64bit x1) n1        :    0.257     9349.4     4674.7 (  2 2.0)    9349.4
 +FPU fadd (64bit x1) n1        :    0.154    15584.4     7792.2 (  2 3.3)   15584.4
 +FPU fmadd (64bit x1) n1       :    3.080     1558.4      389.6 (  4 0.2)    1558.4
 +NEON fmul.2d (64bit x2) n1    :    0.513     9351.1     2337.8 (  4 1.0)    9351.1
 +NEON fadd.2d (64bit x2) n1    :    0.275    17467.3     4366.8 (  4 1.9)   17467.3
 +NEON fmla.2d (64bit x2) n1    :    2.056     4668.5      583.6 (  8 0.2)    4668.5
 +NEON fmul.2d (64bit x2) n12   :    0.770     9352.7     2338.2 (  4 1.0)    9352.7
 +NEON fadd.2d (64bit x2) n12   :    0.404    17812.1     4453.0 (  4 1.9)   17812.1
 +NEON fmla.2d (64bit x2) n12   :    0.776    18549.1     2318.6 (  8 1.0)   18549.1
 +Average                       :    0.668    11173.2     3165.1 (  4 1.4)   11173.2
 +Highest                       :    0.154    18549.1     7794.6 (  8 3.3)   18549.1
 +
 +
 +* Matrix 4x4 multi-thread
 +                                  TIME(s)   MFLOPS      MOPS    FOP IPC  max MFLOPS
 +C++ code                      :    0.202    17703.0     8851.5 (  2 3.8)   17703.0
 +NEON fmla.4s 128bit A         :    0.181    19749.5     9874.7 (  2 4.2)   19749.5
 +NEON fmla.4s 128bit B         :    0.160    22370.6    11185.3 (  2 4.8)   22370.6
 +Average                       :    0.181    19941.0     9970.5 (  2 4.3)   19941.0
 +Highest                       :    0.160    22370.6    11185.3 (  2 4.8)   22370.6
 +
 +
 +cpu0  2188800 307200
 +cpu1  2188800 307200
 +cpu2  2342400 307200
 +cpu3  2342400 307200
 +
 +Processor : AArch64 Processor rev 1 (aarch64)
 +processor : 0
 +BogoMIPS : 38.40
 +Features : fp asimd evtstrm aes pmull sha1 sha2 crc32
 +CPU implementer : 0x51
 +CPU architecture: 8
 +CPU variant : 0x2
 +CPU part : 0x201
 +CPU revision : 1
 +
 +processor : 1
 +BogoMIPS : 38.40
 +Features : fp asimd evtstrm aes pmull sha1 sha2 crc32
 +CPU implementer : 0x51
 +CPU architecture: 8
 +CPU variant : 0x2
 +CPU part : 0x201
 +CPU revision : 1
 +
 +processor : 2
 +BogoMIPS : 38.40
 +Features : fp asimd evtstrm aes pmull sha1 sha2 crc32
 +CPU implementer : 0x51
 +CPU architecture: 8
 +CPU variant : 0x2
 +CPU part : 0x205
 +CPU revision : 1
 +
 +processor : 3
 +BogoMIPS : 38.40
 +Features : fp asimd evtstrm aes pmull sha1 sha2 crc32
 +CPU implementer : 0x51
 +CPU architecture: 8
 +CPU variant : 0x2
 +CPU part : 0x205
 +CPU revision : 1
 +
 +Hardware : Qualcomm Technologies, Inc MSM8996pro
 +
 +Qualcomm Technologies, Inc MSM8996pro
 +
 +2019/01/05 16:46:03 
 +</code>
 +
 +++++
 +
 +++++ZenFone AR Snapdragon 821 little core Kryo 2.18GHz x2 ARM64 (AArch64) Android 7.0|
 +
 +<code>
 +ARCH: ARMv8A 3
 +FPU: AArch64 NEON
 +SingleT SP max: 12.599 GFLOPS
 +SingleT DP max: 6.259 GFLOPS
 +MultiT  SP max: 25.304 GFLOPS
 +MultiT  DP max: 12.507 GFLOPS
 +CPU core: 2
 +FPHP  : no
 +SIMDHP: no
 +
 +* FPU/NEON (single fp)
 +                                  TIME(s)   MFLOPS      MOPS    FOP IPC  max MFLOPS
 +FPU fmul (32bit x1) n8        :    0.407     2947.1     2947.1 (  1 1.3)    2947.1
 +FPU fadd (32bit x1) n8        :    0.209     5742.0     5742.0 (  1 2.6)    5742.0
 +FPU fmadd (32bit x1) n8       :    0.476     5044.2     2522.1 (  2 1.2)    5044.2
 +NEON fmul.2s (32bit x2) n8    :    0.380     6311.2     3155.6 (  2 1.4)    6311.2
 +NEON fadd.2s (32bit x2) n8    :    0.210    11446.6     5723.3 (  2 2.6)   11446.6
 +NEON fmla.2s (32bit x2) n8    :    0.381    12598.8     3149.7 (  4 1.4)   12598.8
 +NEON fmul.4s (32bit x4) n8    :    0.765     6276.2     1569.1 (  4 0.7)    6276.2
 +NEON fadd.4s (32bit x4) n8    :    0.409    11736.7     2934.2 (  4 1.3)   11736.7
 +NEON fmla.4s (32bit x4) n8    :    0.771    12458.3     1557.3 (  8 0.7)   12458.3
 +FPU fmul (32bit x1) ns4       :    0.951     1261.9     1261.9 (  1 0.6)    1261.9
 +FPU fadd (32bit x1) ns4       :    0.571     2102.6     2102.6 (  1 1.0)    2102.6
 +FPU fmadd (32bit x1) ns4      :    0.761     3153.2     1576.6 (  2 0.7)    3153.2
 +NEON fmul.2s (32bit x2) ns4   :    0.951     2524.6     1262.3 (  2 0.6)    2524.6
 +NEON fadd.2s (32bit x2) ns4   :    0.571     4201.4     2100.7 (  2 1.0)    4201.4
 +NEON fmla.2s (32bit x2) ns4   :    0.953     5039.0     1259.8 (  4 0.6)    5039.0
 +NEON fmul.4s (32bit x4) ns4   :    0.964     4978.3     1244.6 (  4 0.6)    4978.3
 +NEON fadd.4s (32bit x4) ns4   :    0.607     7910.9     1977.7 (  4 0.9)    7910.9
 +NEON fmla.4s (32bit x4) ns4   :    0.953    10077.9     1259.7 (  8 0.6)   10077.9
 +FPU fmul (32bit x1) n1        :    0.381     3153.2     3153.2 (  1 1.4)    3153.2
 +FPU fadd (32bit x1) n1        :    0.209     5731.4     5731.4 (  1 2.6)    5731.4
 +FPU fmadd (32bit x1) n1       :    3.812      629.6      314.8 (  2 0.1)     629.6
 +NEON fmul.2s (32bit x2) n1    :    0.381     6305.5     3152.8 (  2 1.4)    6305.5
 +NEON fadd.2s (32bit x2) n1    :    0.210    11438.4     5719.2 (  2 2.6)   11438.4
 +NEON fmla.2s (32bit x2) n1    :    3.046     1575.9      394.0 (  4 0.2)    1575.9
 +NEON fmul.4s (32bit x4) n1    :    0.761     6308.5     1577.1 (  4 0.7)    6308.5
 +NEON fadd.4s (32bit x4) n1    :    0.408    11771.3     2942.8 (  4 1.3)   11771.3
 +NEON fmla.4s (32bit x4) n1    :    3.046     3151.2      393.9 (  8 0.2)    3151.2
 +NEON fmul.4s (32bit x4) n12   :    1.144     6296.2     1574.0 (  4 0.7)    6296.2
 +NEON fadd.4s (32bit x4) n12   :    0.599    12011.5     3002.9 (  4 1.4)   12011.5
 +NEON fmla.4s (32bit x4) n12   :    1.151    12506.4     1563.3 (  8 0.7)   12506.4
 +Average                       :    0.881     6556.3     2428.9 (  3 1.1)    6556.3
 +Highest                       :    0.209    12598.8     5742.0 (  8 2.6)   12598.8
 +
 +
 +* FPU/NEON (double fp)
 +                                  TIME(s)   MFLOPS      MOPS    FOP IPC  max MFLOPS
 +FPU fmul (64bit x1) n8        :    0.402     2987.9     2987.9 (  1 1.4)    2987.9
 +FPU fadd (64bit x1) n8        :    0.230     5218.2     5218.2 (  1 2.4)    5218.2
 +FPU fmadd (64bit x1) n8       :    0.575     4172.6     2086.3 (  2 1.0)    4172.6
 +NEON fmul.2d (64bit x2) n8    :    0.761     3154.9     1577.4 (  2 0.7)    3154.9
 +NEON fadd.2d (64bit x2) n8    :    0.407     5894.4     2947.2 (  2 1.3)    5894.4
 +NEON fmla.2d (64bit x2) n8    :    0.771     6223.1     1555.8 (  4 0.7)    6223.1
 +FPU fmul (64bit x1) ns4       :    1.142     1051.0     1051.0 (  1 0.5)    1051.0
 +FPU fadd (64bit x1) ns4       :    0.571     2101.8     2101.8 (  1 1.0)    2101.8
 +FPU fmadd (64bit x1) ns4      :    0.762     3148.9     1574.5 (  2 0.7)    3148.9
 +NEON fmul.2d (64bit x2) ns4   :    1.142     2102.4     1051.2 (  2 0.5)    2102.4
 +NEON fadd.2d (64bit x2) ns4   :    0.605     3964.0     1982.0 (  2 0.9)    3964.0
 +NEON fmla.2d (64bit x2) ns4   :    1.141     4206.5     1051.6 (  4 0.5)    4206.5
 +FPU fmul (64bit x1) n1        :    0.383     3129.6     3129.6 (  1 1.4)    3129.6
 +FPU fadd (64bit x1) n1        :    0.232     5163.4     5163.4 (  1 2.4)    5163.4
 +FPU fmadd (64bit x1) n1       :    4.578      524.2      262.1 (  2 0.1)     524.2
 +NEON fmul.2d (64bit x2) n1    :    0.762     3150.2     1575.1 (  2 0.7)    3150.2
 +NEON fadd.2d (64bit x2) n1    :    0.407     5895.7     2947.9 (  2 1.3)    5895.7
 +NEON fmla.2d (64bit x2) n1    :    3.168     1515.2      378.8 (  4 0.2)    1515.2
 +NEON fmul.2d (64bit x2) n12   :    1.143     3150.6     1575.3 (  2 0.7)    3150.6
 +NEON fadd.2d (64bit x2) n12   :    0.599     6006.9     3003.4 (  2 1.4)    6006.9
 +NEON fmla.2d (64bit x2) n12   :    1.150     6259.4     1564.8 (  4 0.7)    6259.4
 +Average                       :    0.997     3762.9     2132.6 (  2 1.0)    3762.9
 +Highest                       :    0.230     6259.4     5218.2 (  4 2.4)    6259.4
 +
 +
 +* Matrix 4x4
 +                                  TIME(s)   MFLOPS      MOPS    FOP IPC  max MFLOPS
 +C++ code                      :    0.277     6468.7     6468.7 (  1 3.0)    6468.7
 +NEON fmla.4s 128bit A         :    0.268     6681.9     6681.9 (  1 3.1)    6681.9
 +NEON fmla.4s 128bit B         :    0.237     7550.2     7550.2 (  1 3.4)    7550.2
 +Average                       :    0.261     6900.3     6900.3 (  1 3.2)    6900.3
 +Highest                       :    0.237     7550.2     7550.2 (  1 3.4)    7550.2
 +
 +
 +* FPU/NEON (single fp) multi-thread
 +                                  TIME(s)   MFLOPS      MOPS    FOP IPC  max MFLOPS
 +FPU fmul (32bit x1) n8        :    0.396     6065.9     3033.0 (  2 1.4)    6065.9
 +FPU fadd (32bit x1) n8        :    0.214    11231.7     5615.8 (  2 2.6)   11231.7
 +FPU fmadd (32bit x1) n8       :    0.475    10108.5     2527.1 (  4 1.2)   10108.5
 +NEON fmul.2s (32bit x2) n8    :    0.380    12635.4     3158.9 (  4 1.4)   12635.4
 +NEON fadd.2s (32bit x2) n8    :    0.209    22995.6     5748.9 (  4 2.6)   22995.6
 +NEON fmla.2s (32bit x2) n8    :    0.379    25303.8     3163.0 (  8 1.4)   25303.8
 +NEON fmul.4s (32bit x4) n8    :    0.761    12608.9     1576.1 (  8 0.7)   12608.9
 +NEON fadd.4s (32bit x4) n8    :    0.409    23474.8     2934.3 (  8 1.3)   23474.8
 +NEON fmla.4s (32bit x4) n8    :    0.779    24650.8     1540.7 ( 16 0.7)   24650.8
 +FPU fmul (32bit x1) ns4       :    0.951     2523.3     1261.6 (  2 0.6)    2523.3
 +FPU fadd (32bit x1) ns4       :    0.571     4205.8     2102.9 (  2 1.0)    4205.8
 +FPU fmadd (32bit x1) ns4      :    0.763     6289.8     1572.5 (  4 0.7)    6289.8
 +NEON fmul.2s (32bit x2) ns4   :    0.954     5029.4     1257.4 (  4 0.6)    5029.4
 +NEON fadd.2s (32bit x2) ns4   :    0.574     8359.0     2089.8 (  4 1.0)    8359.0
 +NEON fmla.2s (32bit x2) ns4   :    0.952    10082.8     1260.3 (  8 0.6)   10082.8
 +NEON fmul.4s (32bit x4) ns4   :    0.957    10031.9     1254.0 (  8 0.6)   10031.9
 +NEON fadd.4s (32bit x4) ns4   :    0.602    15951.3     1993.9 (  8 0.9)   15951.3
 +NEON fmla.4s (32bit x4) ns4   :    0.946    20305.1     1269.1 ( 16 0.6)   20305.1
 +FPU fmul (32bit x1) n1        :    0.379     6331.5     3165.7 (  2 1.4)    6331.5
 +FPU fadd (32bit x1) n1        :    0.211    11398.3     5699.2 (  2 2.6)   11398.3
 +FPU fmadd (32bit x1) n1       :    3.807     1261.0      315.2 (  4 0.1)    1261.0
 +NEON fmul.2s (32bit x2) n1    :    0.379    12652.5     3163.1 (  4 1.4)   12652.5
 +NEON fadd.2s (32bit x2) n1    :    0.209    23004.2     5751.0 (  4 2.6)   23004.2
 +NEON fmla.2s (32bit x2) n1    :    3.044     3153.5      394.2 (  8 0.2)    3153.5
 +NEON fmul.4s (32bit x4) n1    :    0.757    12680.9     1585.1 (  8 0.7)   12680.9
 +NEON fadd.4s (32bit x4) n1    :    0.407    23604.5     2950.6 (  8 1.3)   23604.5
 +NEON fmla.4s (32bit x4) n1    :    3.043     6310.0      394.4 ( 16 0.2)    6310.0
 +NEON fmul.4s (32bit x4) n12   :    1.145    12575.9     1572.0 (  8 0.7)   12575.9
 +NEON fadd.4s (32bit x4) n12   :    0.603    23861.3     2982.7 (  8 1.4)   23861.3
 +NEON fmla.4s (32bit x4) n12   :    1.147    25101.3     1568.8 ( 16 0.7)   25101.3
 +Average                       :    0.880    13126.3     2430.0 (  7 1.1)   13126.3
 +Highest                       :    0.209    25303.8     5751.0 ( 16 2.6)   25303.8
 +
 +
 +* FPU/NEON (double fp) multi-thread
 +                                  TIME(s)   MFLOPS      MOPS    FOP IPC  max MFLOPS
 +FPU fmul (64bit x1) n8        :    0.414     5800.9     2900.4 (  2 1.3)    5800.9
 +FPU fadd (64bit x1) n8        :    0.230    10431.7     5215.9 (  2 2.4)   10431.7
 +FPU fmadd (64bit x1) n8       :    0.573     8371.2     2092.8 (  4 1.0)    8371.2
 +NEON fmul.2d (64bit x2) n8    :    0.759     6321.9     1580.5 (  4 0.7)    6321.9
 +NEON fadd.2d (64bit x2) n8    :    0.407    11797.4     2949.4 (  4 1.3)   11797.4
 +NEON fmla.2d (64bit x2) n8    :    0.769    12475.7     1559.5 (  8 0.7)   12475.7
 +FPU fmul (64bit x1) ns4       :    1.144     2097.2     1048.6 (  2 0.5)    2097.2
 +FPU fadd (64bit x1) ns4       :    0.570     4210.9     2105.4 (  2 1.0)    4210.9
 +FPU fmadd (64bit x1) ns4      :    0.764     6279.5     1569.9 (  4 0.7)    6279.5
 +NEON fmul.2d (64bit x2) ns4   :    1.139     4212.9     1053.2 (  4 0.5)    4212.9
 +NEON fadd.2d (64bit x2) ns4   :    0.606     7926.0     1981.5 (  4 0.9)    7926.0
 +NEON fmla.2d (64bit x2) ns4   :    1.140     8424.3     1053.0 (  8 0.5)    8424.3
 +FPU fmul (64bit x1) n1        :    0.380     6321.8     3160.9 (  2 1.4)    6321.8
 +FPU fadd (64bit x1) n1        :    0.229    10484.1     5242.0 (  2 2.4)   10484.1
 +FPU fmadd (64bit x1) n1       :    4.578     1048.6      262.1 (  4 0.1)    1048.6
 +NEON fmul.2d (64bit x2) n1    :    0.764     6281.5     1570.4 (  4 0.7)    6281.5
 +NEON fadd.2d (64bit x2) n1    :    0.407    11799.8     2949.9 (  4 1.3)   11799.8
 +NEON fmla.2d (64bit x2) n1    :    3.050     3147.4      393.4 (  8 0.2)    3147.4
 +NEON fmul.2d (64bit x2) n12   :    1.141     6308.4     1577.1 (  4 0.7)    6308.4
 +NEON fadd.2d (64bit x2) n12   :    0.600    12008.4     3002.1 (  4 1.4)   12008.4
 +NEON fmla.2d (64bit x2) n12   :    1.151    12507.4     1563.4 (  8 0.7)   12507.4
 +Average                       :    0.991     7536.0     2134.8 (  4 1.0)    7536.0
 +Highest                       :    0.229    12507.4     5242.0 (  8 2.4)   12507.4
 +
 +
 +* Matrix 4x4 multi-thread
 +                                  TIME(s)   MFLOPS      MOPS    FOP IPC  max MFLOPS
 +C++ code                      :    0.292    12273.5     6136.8 (  2 2.8)   12273.5
 +NEON fmla.4s 128bit A         :    0.269    13317.3     6658.6 (  2 3.0)   13317.3
 +NEON fmla.4s 128bit B         :    0.237    15105.5     7552.7 (  2 3.5)   15105.5
 +Average                       :    0.266    13565.4     6782.7 (  2 3.1)   13565.4
 +Highest                       :    0.237    15105.5     7552.7 (  2 3.5)   15105.5
 +
 +
 +cpu0  2188800 307200
 +cpu1  2188800 307200
 +cpu2  2342400 307200
 +cpu3  2342400 307200
 +
 +Processor : AArch64 Processor rev 1 (aarch64)
 +processor : 0
 +BogoMIPS : 38.40
 +Features : fp asimd evtstrm aes pmull sha1 sha2 crc32
 +CPU implementer : 0x51
 +CPU architecture: 8
 +CPU variant : 0x2
 +CPU part : 0x201
 +CPU revision : 1
 +
 +processor : 1
 +BogoMIPS : 38.40
 +Features : fp asimd evtstrm aes pmull sha1 sha2 crc32
 +CPU implementer : 0x51
 +CPU architecture: 8
 +CPU variant : 0x2
 +CPU part : 0x201
 +CPU revision : 1
 +
 +processor : 2
 +BogoMIPS : 38.40
 +Features : fp asimd evtstrm aes pmull sha1 sha2 crc32
 +CPU implementer : 0x51
 +CPU architecture: 8
 +CPU variant : 0x2
 +CPU part : 0x205
 +CPU revision : 1
 +
 +processor : 3
 +BogoMIPS : 38.40
 +Features : fp asimd evtstrm aes pmull sha1 sha2 crc32
 +CPU implementer : 0x51
 +CPU architecture: 8
 +CPU variant : 0x2
 +CPU part : 0x205
 +CPU revision : 1
 +
 +Hardware : Qualcomm Technologies, Inc MSM8996pro
 +
 +Qualcomm Technologies, Inc MSM8996pro
 +
 +2019/01/05 16:44:55 
 +</code>
 +
 +++++
 +
 +
 +
 +==== Qualcomm Kryo 280 (Cortex-A73 + A53) (ARMv8A AArch64 arm64) FPU+ASIMD ====
 +
 +
 +++++Essential Phone PH-1 Snapdragon 835 Kryo 280 2.45GHz x4 + 1.9GHz x4 ARM64 (AArch64) Android 9.0|
 +
 +<code>
 +Date: 20200810 123729
 +ARCH: ARMv8A AArch64
 +FPU : ASIMD(AArch64 NEON)
 +Name: Qualcomm Technologies, Inc MSM8998 835 EssentialPhone
 +
 +CPU Thread:  8
 +CPU Core  :  8
 +CPU Group :  2
 +  Group 0: Thread= 4  Clock=1.900800 GHz  (mask:f)
 +  Group 1: Thread= 4  Clock=2.457600 GHz  (mask:f0)
 +NEON   : yes
 +FMA    : yes
 +FPHP   : no
 +SIMDHP : no
 +DotProd: no
 +
 +Total:
 +SingleThread HP max: -
 +SingleThread SP max:   19.547 GFLOPS
 +SingleThread DP max:    9.776 GFLOPS
 +MultiThread  HP max: -
 +MultiThread  SP max:  134.506 GFLOPS
 +MultiThread  DP max:   67.276 GFLOPS
 +
 +Group 0:  Thread=4  Clock=1.900800 GHz  (mask:f)
 +  SingleThread HP max: -
 +  SingleThread SP max:   14.783 GFLOPS
 +  SingleThread DP max:    7.401 GFLOPS
 +  MultiThread  HP max: -
 +  MultiThread  SP max:   59.194 GFLOPS
 +  MultiThread  DP max:   29.625 GFLOPS
 +
 +Group 1:  Thread=4  Clock=2.457600 GHz  (mask:f0)
 +  SingleThread HP max: -
 +  SingleThread SP max:   19.547 GFLOPS
 +  SingleThread DP max:    9.776 GFLOPS
 +  MultiThread  HP max: -
 +  MultiThread  SP max:   75.312 GFLOPS
 +  MultiThread  DP max:   37.650 GFLOPS
 +
 +
 +* Group 0:  Thread=1  Clock=1.900800 GHz  (mask:f)
 +* FPU/NEON (SP fp)
 +                                      TIME(s)   MFLOPS      MOPS     FOP   IPC
 +FPU fmul (32bit x1) n8            :    0.335     3407.9     3407.9  (  1.0 1.8)
 +FPU fadd (32bit x1) n8            :    0.319     3577.4     3577.4  (  1.0 1.9)
 +FPU fmadd (32bit x1) n8           :    0.609     3747.1     1873.5  (  2.0 1.0)
 +NEON fmul.2s (32bit x2) n8        :    0.318     7171.4     3585.7  (  2.0 1.9)
 +NEON fadd.2s (32bit x2) n8        :    0.318     7163.2     3581.6  (  2.0 1.9)
 +NEON fmla.2s (32bit x2) n8        :    0.318    14338.8     3584.7  (  4.0 1.9)
 +NEON fmul.4s (32bit x4) n8        :    0.622     7332.1     1833.0  (  4.0 1.0)
 +NEON fadd.4s (32bit x4) n8        :    0.623     7324.3     1831.1  (  4.0 1.0)
 +NEON fmla.4s (32bit x4) n8        :    0.621    14685.5     1835.7  (  8.0 1.0)
 +FPU fmul (32bit x1) ns4           :    0.606     1882.1     1882.1  (  1.0 1.0)
 +FPU fadd (32bit x1) ns4           :    0.607     1879.2     1879.2  (  1.0 1.0)
 +FPU fmadd (32bit x1) ns4          :    0.607     3755.0     1877.5  (  2.0 1.0)
 +NEON fmul.2s (32bit x2) ns4       :    0.608     3753.1     1876.5  (  2.0 1.0)
 +NEON fadd.2s (32bit x2) ns4       :    0.607     3757.4     1878.7  (  2.0 1.0)
 +NEON fmla.2s (32bit x2) ns4       :    1.225     3724.4      931.1  (  4.0 0.5)
 +NEON fmul.4s (32bit x4) ns4       :    0.622     7329.3     1832.3  (  4.0 1.0)
 +NEON fadd.4s (32bit x4) ns4       :    0.622     7330.0     1832.5  (  4.0 1.0)
 +NEON fmla.4s (32bit x4) ns4       :    1.215     7511.6      938.9  (  8.0 0.5)
 +FPU fmul (32bit x1) n1            :    0.607     1877.9     1877.9  (  1.0 1.0)
 +FPU fadd (32bit x1) n1            :    0.607     1879.1     1879.1  (  1.0 1.0)
 +FPU fmadd (32bit x1) n1           :    4.855      469.8      234.9  (  2.0 0.1)
 +NEON fmul.2s (32bit x2) n1        :    0.607     3757.5     1878.8  (  2.0 1.0)
 +NEON fadd.2s (32bit x2) n1        :    0.607     3756.5     1878.3  (  2.0 1.0)
 +NEON fmla.2s (32bit x2) n1        :    2.428     1878.8      469.7  (  4.0 0.2)
 +NEON fmul.4s (32bit x4) n1        :    0.623     7326.7     1831.7  (  4.0 1.0)
 +NEON fadd.4s (32bit x4) n1        :    0.623     7327.1     1831.8  (  4.0 1.0)
 +NEON fmla.4s (32bit x4) n1        :    2.429     3756.8      469.6  (  8.0 0.2)
 +NEON fmul.4s (32bit x4) n12       :    0.926     7392.2     1848.0  (  4.0 1.0)
 +NEON fadd.4s (32bit x4) n12       :    0.926     7390.4     1847.6  (  4.0 1.0)
 +NEON fmla.4s (32bit x4) n12       :    0.926    14772.2     1846.5  (  8.0 1.0)
 +Average                           :    0.899     5708.5     1931.1  (  3.3 1.0)
 +Highest                           :    0.318    14772.2     3585.7  (  8.0 1.9)
 +
 +
 +* Group 0:  Thread=1  Clock=1.900800 GHz  (mask:f)
 +* FPU/NEON (DP fp)
 +                                      TIME(s)   MFLOPS      MOPS     FOP   IPC
 +FPU fmul (64bit x1) n8            :    0.318     3588.3     3588.3  (  1.0 1.9)
 +FPU fadd (64bit x1) n8            :    0.333     3420.3     3420.3  (  1.0 1.8)
 +FPU fmadd (64bit x1) n8           :    0.615     3709.5     1854.8  (  2.0 1.0)
 +NEON fmul.2d (64bit x2) n8        :    0.622     3668.2     1834.1  (  2.0 1.0)
 +NEON fadd.2d (64bit x2) n8        :    0.622     3665.6     1832.8  (  2.0 1.0)
 +NEON fmla.2d (64bit x2) n8        :    0.623     7324.9     1831.2  (  4.0 1.0)
 +FPU fmul (64bit x1) ns4           :    0.607     1879.1     1879.1  (  1.0 1.0)
 +FPU fadd (64bit x1) ns4           :    0.607     1878.3     1878.3  (  1.0 1.0)
 +FPU fmadd (64bit x1) ns4          :    0.684     3335.8     1667.9  (  2.0 0.9)
 +NEON fmul.2d (64bit x2) ns4       :    0.623     3661.7     1830.8  (  2.0 1.0)
 +NEON fadd.2d (64bit x2) ns4       :    0.625     3651.3     1825.7  (  2.0 1.0)
 +NEON fmla.2d (64bit x2) ns4       :    1.213     3761.7      940.4  (  4.0 0.5)
 +FPU fmul (64bit x1) n1            :    0.606     1880.8     1880.8  (  1.0 1.0)
 +FPU fadd (64bit x1) n1            :    0.607     1877.3     1877.3  (  1.0 1.0)
 +FPU fmadd (64bit x1) n1           :    4.851      470.2      235.1  (  2.0 0.1)
 +NEON fmul.2d (64bit x2) n1        :    0.621     3671.2     1835.6  (  2.0 1.0)
 +NEON fadd.2d (64bit x2) n1        :    0.621     3671.2     1835.6  (  2.0 1.0)
 +NEON fmla.2d (64bit x2) n1        :    2.425     1881.0      470.2  (  4.0 0.2)
 +NEON fmul.2d (64bit x2) n12       :    0.926     3696.1     1848.1  (  2.0 1.0)
 +NEON fadd.2d (64bit x2) n12       :    0.926     3695.1     1847.5  (  2.0 1.0)
 +NEON fmla.2d (64bit x2) n12       :    0.925     7398.4     1849.6  (  4.0 1.0)
 +Average                           :    0.952     3418.4     1812.5  (  2.1 1.0)
 +Highest                           :    0.318     7398.4     3588.3  (  4.0 1.9)
 +
 +
 +* Group 0:  Thread=4  Clock=1.900800 GHz  (mask:f)
 +* FPU/NEON (SP fp) multi-thread
 +                                      TIME(s)   MFLOPS      MOPS     FOP   IPC
 +FPU fmul (32bit x1) n8            :    0.334    13666.0     3416.5  (  4.0 1.8)
 +FPU fadd (32bit x1) n8            :    0.320    14246.0     3561.5  (  4.0 1.9)
 +FPU fmadd (32bit x1) n8           :    0.606    15061.9     1882.7  (  8.0 1.0)
 +NEON fmul.2s (32bit x2) n8        :    0.319    28609.4     3576.2  (  8.0 1.9)
 +NEON fadd.2s (32bit x2) n8        :    0.318    28688.6     3586.1  (  8.0 1.9)
 +NEON fmla.2s (32bit x2) n8        :    0.318    57306.2     3581.6  ( 16.0 1.9)
 +NEON fmul.4s (32bit x4) n8        :    0.623    29292.0     1830.8  ( 16.0 1.0)
 +NEON fadd.4s (32bit x4) n8        :    0.623    29296.3     1831.0  ( 16.0 1.0)
 +NEON fmla.4s (32bit x4) n8        :    0.622    58721.2     1835.0  ( 32.0 1.0)
 +FPU fmul (32bit x1) ns4           :    0.607     7515.9     1879.0  (  4.0 1.0)
 +FPU fadd (32bit x1) ns4           :    0.607     7521.4     1880.3  (  4.0 1.0)
 +FPU fmadd (32bit x1) ns4          :    0.609    14992.5     1874.1  (  8.0 1.0)
 +NEON fmul.2s (32bit x2) ns4       :    0.606    15061.0     1882.6  (  8.0 1.0)
 +NEON fadd.2s (32bit x2) ns4       :    0.607    15034.9     1879.4  (  8.0 1.0)
 +NEON fmla.2s (32bit x2) ns4       :    1.227    14876.2      929.8  ( 16.0 0.5)
 +NEON fmul.4s (32bit x4) ns4       :    0.622    29354.4     1834.7  ( 16.0 1.0)
 +NEON fadd.4s (32bit x4) ns4       :    0.621    29381.6     1836.3  ( 16.0 1.0)
 +NEON fmla.4s (32bit x4) ns4       :    1.214    30067.5      939.6  ( 32.0 0.5)
 +FPU fmul (32bit x1) n1            :    0.609     7496.6     1874.2  (  4.0 1.0)
 +FPU fadd (32bit x1) n1            :    0.621     7340.6     1835.2  (  4.0 1.0)
 +FPU fmadd (32bit x1) n1           :    4.855     1879.1      234.9  (  8.0 0.1)
 +NEON fmul.2s (32bit x2) n1        :    0.608    15003.8     1875.5  (  8.0 1.0)
 +NEON fadd.2s (32bit x2) n1        :    0.607    15024.3     1878.0  (  8.0 1.0)
 +NEON fmla.2s (32bit x2) n1        :    2.425     7523.4      470.2  ( 16.0 0.2)
 +NEON fmul.4s (32bit x4) n1        :    0.621    29364.2     1835.3  ( 16.0 1.0)
 +NEON fadd.4s (32bit x4) n1        :    0.623    29273.6     1829.6  ( 16.0 1.0)
 +NEON fmla.4s (32bit x4) n1        :    2.431    15015.4      469.2  ( 32.0 0.2)
 +NEON fmul.4s (32bit x4) n12       :    0.925    29578.9     1848.7  ( 16.0 1.0)
 +NEON fadd.4s (32bit x4) n12       :    0.925    29578.3     1848.6  ( 16.0 1.0)
 +NEON fmla.4s (32bit x4) n12       :    0.927    59069.6     1845.9  ( 32.0 1.0)
 +Average                           :    0.899    22828.0     1929.4  ( 13.3 1.0)
 +Highest                           :    0.318    59069.6     3586.1  ( 32.0 1.9)
 +
 +
 +* Group 0:  Thread=4  Clock=1.900800 GHz  (mask:f)
 +* FPU/NEON (DP fp) multi-thread
 +                                      TIME(s)   MFLOPS      MOPS     FOP   IPC
 +FPU fmul (64bit x1) n8            :    0.321    14232.9     3558.2  (  4.0 1.9)
 +FPU fadd (64bit x1) n8            :    0.333    13683.0     3420.8  (  4.0 1.8)
 +FPU fmadd (64bit x1) n8           :    0.614    14859.9     1857.5  (  8.0 1.0)
 +NEON fmul.2d (64bit x2) n8        :    0.622    14665.8     1833.2  (  8.0 1.0)
 +NEON fadd.2d (64bit x2) n8        :    0.622    14673.4     1834.2  (  8.0 1.0)
 +NEON fmla.2d (64bit x2) n8        :    0.623    29311.8     1832.0  ( 16.0 1.0)
 +FPU fmul (64bit x1) ns4           :    0.618     7378.3     1844.6  (  4.0 1.0)
 +FPU fadd (64bit x1) ns4           :    0.608     7505.6     1876.4  (  4.0 1.0)
 +FPU fmadd (64bit x1) ns4          :    0.685    13321.0     1665.1  (  8.0 0.9)
 +NEON fmul.2d (64bit x2) ns4       :    0.623    14653.8     1831.7  (  8.0 1.0)
 +NEON fadd.2d (64bit x2) ns4       :    0.623    14636.3     1829.5  (  8.0 1.0)
 +NEON fmla.2d (64bit x2) ns4       :    1.214    15033.2      939.6  ( 16.0 0.5)
 +FPU fmul (64bit x1) n1            :    0.607     7518.1     1879.5  (  4.0 1.0)
 +FPU fadd (64bit x1) n1            :    0.608     7508.2     1877.0  (  4.0 1.0)
 +FPU fmadd (64bit x1) n1           :    4.862     1876.7      234.6  (  8.0 0.1)
 +NEON fmul.2d (64bit x2) n1        :    0.625    14589.9     1823.7  (  8.0 1.0)
 +NEON fadd.2d (64bit x2) n1        :    0.621    14682.3     1835.3  (  8.0 1.0)
 +NEON fmla.2d (64bit x2) n1        :    2.427     7517.2      469.8  ( 16.0 0.2)
 +NEON fmul.2d (64bit x2) n12       :    0.925    14790.9     1848.9  (  8.0 1.0)
 +NEON fadd.2d (64bit x2) n12       :    0.937    14598.7     1824.8  (  8.0 1.0)
 +NEON fmla.2d (64bit x2) n12       :    0.924    29625.1     1851.6  ( 16.0 1.0)
 +Average                           :    0.954    13650.6     1808.0  (  8.4 1.0)
 +Highest                           :    0.321    29625.1     3558.2  ( 16.0 1.9)
 +
 +
 +* Group 1:  Thread=1  Clock=2.457600 GHz  (mask:f0)
 +* FPU/NEON (SP fp)
 +                                      TIME(s)   MFLOPS      MOPS     FOP   IPC
 +FPU fmul (32bit x1) n8            :    0.317     4649.7     4649.7  (  1.0 1.9)
 +FPU fadd (32bit x1) n8            :    0.317     4650.9     4650.9  (  1.0 1.9)
 +FPU fmadd (32bit x1) n8           :    0.604     4883.4     2441.7  (  2.0 1.0)
 +NEON fmul.2s (32bit x2) n8        :    0.318     9277.6     4638.8  (  2.0 1.9)
 +NEON fadd.2s (32bit x2) n8        :    0.317     9308.3     4654.2  (  2.0 1.9)
 +NEON fmla.2s (32bit x2) n8        :    0.317    18615.9     4654.0  (  4.0 1.9)
 +NEON fmul.4s (32bit x4) n8        :    0.603     9773.7     2443.4  (  4.0 1.0)
 +NEON fadd.4s (32bit x4) n8        :    0.604     9772.4     2443.1  (  4.0 1.0)
 +NEON fmla.4s (32bit x4) n8        :    0.604    19545.9     2443.2  (  8.0 1.0)
 +FPU fmul (32bit x1) ns4           :    0.603     2443.4     2443.4  (  1.0 1.0)
 +FPU fadd (32bit x1) ns4           :    0.605     2438.0     2438.0  (  1.0 1.0)
 +FPU fmadd (32bit x1) ns4          :    0.754     3909.5     1954.8  (  2.0 0.8)
 +NEON fmul.2s (32bit x2) ns4       :    0.604     4885.9     2442.9  (  2.0 1.0)
 +NEON fadd.2s (32bit x2) ns4       :    0.603     4887.2     2443.6  (  2.0 1.0)
 +NEON fmla.2s (32bit x2) ns4       :    1.057     5578.7     1394.7  (  4.0 0.6)
 +NEON fmul.4s (32bit x4) ns4       :    0.604     9771.5     2442.9  (  4.0 1.0)
 +NEON fadd.4s (32bit x4) ns4       :    0.604     9771.6     2442.9  (  4.0 1.0)
 +NEON fmla.4s (32bit x4) ns4       :    1.057    11160.5     1395.1  (  8.0 0.6)
 +FPU fmul (32bit x1) n1            :    0.317     4653.7     4653.7  (  1.0 1.9)
 +FPU fadd (32bit x1) n1            :    0.317     4653.3     4653.3  (  1.0 1.9)
 +FPU fmadd (32bit x1) n1           :    4.225      698.0      349.0  (  2.0 0.1)
 +NEON fmul.2s (32bit x2) n1        :    0.317     9311.6     4655.8  (  2.0 1.9)
 +NEON fadd.2s (32bit x2) n1        :    0.317     9309.8     4654.9  (  2.0 1.9)
 +NEON fmla.2s (32bit x2) n1        :    1.810     3258.4      814.6  (  4.0 0.3)
 +NEON fmul.4s (32bit x4) n1        :    0.604     9772.2     2443.1  (  4.0 1.0)
 +NEON fadd.4s (32bit x4) n1        :    0.604     9770.7     2442.7  (  4.0 1.0)
 +NEON fmla.4s (32bit x4) n1        :    1.811     6514.2      814.3  (  8.0 0.3)
 +NEON fmul.4s (32bit x4) n12       :    0.905     9775.3     2443.8  (  4.0 1.0)
 +NEON fadd.4s (32bit x4) n12       :    0.905     9775.1     2443.8  (  4.0 1.0)
 +NEON fmla.4s (32bit x4) n12       :    0.905    19547.0     2443.4  (  8.0 1.0)
 +Average                           :    0.784     8078.8     2841.0  (  3.3 1.2)
 +Highest                           :    0.317    19547.0     4655.8  (  8.0 1.9)
 +
 +
 +* Group 1:  Thread=1  Clock=2.457600 GHz  (mask:f0)
 +* FPU/NEON (DP fp)
 +                                      TIME(s)   MFLOPS      MOPS     FOP   IPC
 +FPU fmul (64bit x1) n8            :    0.317     4650.1     4650.1  (  1.0 1.9)
 +FPU fadd (64bit x1) n8            :    0.317     4650.3     4650.3  (  1.0 1.9)
 +FPU fmadd (64bit x1) n8           :    0.604     4885.3     2442.6  (  2.0 1.0)
 +NEON fmul.2d (64bit x2) n8        :    0.603     4887.2     2443.6  (  2.0 1.0)
 +NEON fadd.2d (64bit x2) n8        :    0.603     4887.4     2443.7  (  2.0 1.0)
 +NEON fmla.2d (64bit x2) n8        :    0.603     9774.2     2443.5  (  4.0 1.0)
 +FPU fmul (64bit x1) ns4           :    0.603     2443.8     2443.8  (  1.0 1.0)
 +FPU fadd (64bit x1) ns4           :    0.603     2443.4     2443.4  (  1.0 1.0)
 +FPU fmadd (64bit x1) ns4          :    0.531     5553.1     2776.6  (  2.0 1.1)
 +NEON fmul.2d (64bit x2) ns4       :    0.603     4886.9     2443.4  (  2.0 1.0)
 +NEON fadd.2d (64bit x2) ns4       :    0.603     4886.7     2443.4  (  2.0 1.0)
 +NEON fmla.2d (64bit x2) ns4       :    1.056     5585.0     1396.3  (  4.0 0.6)
 +FPU fmul (64bit x1) n1            :    0.317     4654.4     4654.4  (  1.0 1.9)
 +FPU fadd (64bit x1) n1            :    0.317     4653.6     4653.6  (  1.0 1.9)
 +FPU fmadd (64bit x1) n1           :    4.224      698.1      349.1  (  2.0 0.1)
 +NEON fmul.2d (64bit x2) n1        :    0.603     4886.7     2443.4  (  2.0 1.0)
 +NEON fadd.2d (64bit x2) n1        :    0.603     4887.1     2443.6  (  2.0 1.0)
 +NEON fmla.2d (64bit x2) n1        :    1.810     3258.0      814.5  (  4.0 0.3)
 +NEON fmul.2d (64bit x2) n12       :    0.905     4887.6     2443.8  (  2.0 1.0)
 +NEON fadd.2d (64bit x2) n12       :    0.905     4888.0     2444.0  (  2.0 1.0)
 +NEON fmla.2d (64bit x2) n12       :    0.905     9775.8     2444.0  (  4.0 1.0)
 +Average                           :    0.840     4863.0     2652.9  (  2.1 1.1)
 +Highest                           :    0.317     9775.8     4654.4  (  4.0 1.9)
 +
 +
 +* Group 1:  Thread=4  Clock=2.457600 GHz  (mask:f0)
 +* FPU/NEON (SP fp) multi-thread
 +                                      TIME(s)   MFLOPS      MOPS     FOP   IPC
 +FPU fmul (32bit x1) n8            :    0.335    17600.7     4400.2  (  4.0 1.8)
 +FPU fadd (32bit x1) n8            :    0.329    17915.7     4478.9  (  4.0 1.8)
 +FPU fmadd (32bit x1) n8           :    0.627    18811.0     2351.4  (  8.0 1.0)
 +NEON fmul.2s (32bit x2) n8        :    0.329    35832.1     4479.0  (  8.0 1.8)
 +NEON fadd.2s (32bit x2) n8        :    0.329    35831.5     4478.9  (  8.0 1.8)
 +NEON fmla.2s (32bit x2) n8        :    0.329    71648.0     4478.0  ( 16.0 1.8)
 +NEON fmul.4s (32bit x4) n8        :    0.627    37622.6     2351.4  ( 16.0 1.0)
 +NEON fadd.4s (32bit x4) n8        :    0.627    37624.2     2351.5  ( 16.0 1.0)
 +NEON fmla.4s (32bit x4) n8        :    0.627    75249.0     2351.5  ( 32.0 1.0)
 +FPU fmul (32bit x1) ns4           :    0.627     9406.6     2351.7  (  4.0 1.0)
 +FPU fadd (32bit x1) ns4           :    0.627     9406.1     2351.5  (  4.0 1.0)
 +FPU fmadd (32bit x1) ns4          :    0.784    15047.0     1880.9  (  8.0 0.8)
 +NEON fmul.2s (32bit x2) ns4       :    0.627    18812.7     2351.6  (  8.0 1.0)
 +NEON fadd.2s (32bit x2) ns4       :    0.627    18811.6     2351.4  (  8.0 1.0)
 +NEON fmla.2s (32bit x2) ns4       :    1.097    21498.8     1343.7  ( 16.0 0.5)
 +NEON fmul.4s (32bit x4) ns4       :    0.627    37622.6     2351.4  ( 16.0 1.0)
 +NEON fadd.4s (32bit x4) ns4       :    0.627    37623.8     2351.5  ( 16.0 1.0)
 +NEON fmla.4s (32bit x4) ns4       :    1.097    42998.4     1343.7  ( 32.0 0.5)
 +FPU fmul (32bit x1) n1            :    0.329    17914.3     4478.6  (  4.0 1.8)
 +FPU fadd (32bit x1) n1            :    0.329    17914.5     4478.6  (  4.0 1.8)
 +FPU fmadd (32bit x1) n1           :    4.390     2687.4      335.9  (  8.0 0.1)
 +NEON fmul.2s (32bit x2) n1        :    0.329    35829.5     4478.7  (  8.0 1.8)
 +NEON fadd.2s (32bit x2) n1        :    0.329    35830.3     4478.8  (  8.0 1.8)
 +NEON fmla.2s (32bit x2) n1        :    1.881    12541.3      783.8  ( 16.0 0.3)
 +NEON fmul.4s (32bit x4) n1        :    0.627    37625.7     2351.6  ( 16.0 1.0)
 +NEON fadd.4s (32bit x4) n1        :    0.627    37623.9     2351.5  ( 16.0 1.0)
 +NEON fmla.4s (32bit x4) n1        :    1.881    25082.9      783.8  ( 32.0 0.3)
 +NEON fmul.4s (32bit x4) n12       :    0.941    37622.9     2351.4  ( 16.0 1.0)
 +NEON fadd.4s (32bit x4) n12       :    0.941    37622.0     2351.4  ( 16.0 1.0)
 +NEON fmla.4s (32bit x4) n12       :    0.940    75312.2     2353.5  ( 32.0 1.0)
 +Average                           :    0.815    31099.0     2732.5  ( 13.3 1.1)
 +Highest                           :    0.329    75312.2     4479.0  ( 32.0 1.8)
 +
 +
 +* Group 1:  Thread=4  Clock=2.457600 GHz  (mask:f0)
 +* FPU/NEON (DP fp) multi-thread
 +                                      TIME(s)   MFLOPS      MOPS     FOP   IPC
 +FPU fmul (64bit x1) n8            :    0.329    17914.1     4478.5  (  4.0 1.8)
 +FPU fadd (64bit x1) n8            :    0.329    17915.2     4478.8  (  4.0 1.8)
 +FPU fmadd (64bit x1) n8           :    0.627    18811.1     2351.4  (  8.0 1.0)
 +NEON fmul.2d (64bit x2) n8        :    0.627    18810.7     2351.3  (  8.0 1.0)
 +NEON fadd.2d (64bit x2) n8        :    0.627    18813.0     2351.6  (  8.0 1.0)
 +NEON fmla.2d (64bit x2) n8        :    0.627    37620.8     2351.3  ( 16.0 1.0)
 +FPU fmul (64bit x1) ns4           :    0.627     9406.9     2351.7  (  4.0 1.0)
 +FPU fadd (64bit x1) ns4           :    0.627     9406.5     2351.6  (  4.0 1.0)
 +FPU fmadd (64bit x1) ns4          :    0.554    21294.7     2661.8  (  8.0 1.1)
 +NEON fmul.2d (64bit x2) ns4       :    0.627    18809.6     2351.2  (  8.0 1.0)
 +NEON fadd.2d (64bit x2) ns4       :    0.627    18809.9     2351.2  (  8.0 1.0)
 +NEON fmla.2d (64bit x2) ns4       :    1.097    21500.3     1343.8  ( 16.0 0.5)
 +FPU fmul (64bit x1) n1            :    0.329    17915.9     4479.0  (  4.0 1.8)
 +FPU fadd (64bit x1) n1            :    0.329    17916.5     4479.1  (  4.0 1.8)
 +FPU fmadd (64bit x1) n1           :    4.389     2687.6      335.9  (  8.0 0.1)
 +NEON fmul.2d (64bit x2) n1        :    0.627    18812.4     2351.6  (  8.0 1.0)
 +NEON fadd.2d (64bit x2) n1        :    0.627    18813.0     2351.6  (  8.0 1.0)
 +NEON fmla.2d (64bit x2) n1        :    1.881    12541.2      783.8  ( 16.0 0.3)
 +NEON fmul.2d (64bit x2) n12       :    0.941    18813.3     2351.7  (  8.0 1.0)
 +NEON fadd.2d (64bit x2) n12       :    0.941    18813.3     2351.7  (  8.0 1.0)
 +NEON fmla.2d (64bit x2) n12       :    0.940    37650.4     2353.1  ( 16.0 1.0)
 +Average                           :    0.873    18717.9     2552.9  (  8.4 1.0)
 +Highest                           :    0.329    37650.4     4479.1  ( 16.0 1.8)
 +
 +
 +</code>
 +
 +++++
 +
 +
 +
 +==== Qualcomm Kryo 385 (Cortex-A75 + A55) (ARMv8.2A AArch64 arm64) FPU+ASIMD+HALFFP ====
 +
 +
 +++++Pixel 3 Snapdragon 845 Kryo 385 2.8GHz x4 + 1.77GHz x4 ARM64 (AArch64) Android 9.0|
 +
 +<code>
 +Date: 20200808 162535
 +ARCH: ARMv8.2A AArch64
 +FPU : ASIMD(AArch64 NEON) FPHP ASIMDHP
 +Name: Qualcomm Technologies, Inc SDM845 Pixel3
 +
 +CPU Thread:  8
 +CPU Core  :  8
 +CPU Group :  2
 +  Group 0: Thread= 4  Clock=1.766400 GHz  (mask:f)
 +  Group 1: Thread= 4  Clock=2.803200 GHz  (mask:f0)
 +NEON   : yes
 +FMA    : yes
 +FPHP   : yes
 +SIMDHP : yes
 +DotProd: no
 +
 +Total:
 +SingleThread HP max:   44.356 GFLOPS
 +SingleThread SP max:   22.274 GFLOPS
 +SingleThread DP max:   11.150 GFLOPS
 +MultiThread  HP max:  278.633 GFLOPS
 +MultiThread  SP max:  139.238 GFLOPS
 +MultiThread  DP max:   69.642 GFLOPS
 +
 +Group 0:  Thread=4  Clock=1.766400 GHz  (mask:f)
 +  SingleThread HP max:   27.433 GFLOPS
 +  SingleThread SP max:   13.732 GFLOPS
 +  SingleThread DP max:    6.862 GFLOPS
 +  MultiThread  HP max:  109.853 GFLOPS
 +  MultiThread  SP max:   54.836 GFLOPS
 +  MultiThread  DP max:   27.445 GFLOPS
 +
 +Group 1:  Thread=4  Clock=2.803200 GHz  (mask:f0)
 +  SingleThread HP max:   44.356 GFLOPS
 +  SingleThread SP max:   22.274 GFLOPS
 +  SingleThread DP max:   11.150 GFLOPS
 +  MultiThread  HP max:  168.780 GFLOPS
 +  MultiThread  SP max:   84.402 GFLOPS
 +  MultiThread  DP max:   42.197 GFLOPS
 +
 +
 +* Group 0:  Thread=1  Clock=1.766400 GHz  (mask:f)
 +* FPU/NEON (HP fp)
 +                                  TIME(s)   MFLOPS      MOPS     FOP   IPC
 +FPU fmul (16bit x1) n8        :    0.319     3318.8     3318.8  (  1.0 1.9)
 +FPU fadd (16bit x1) n8        :    0.334     3175.3     3175.3  (  1.0 1.8)
 +FPU fmadd (16bit x1) n8       :    0.334     6353.4     3176.7  (  2.0 1.8)
 +NEON fmul.4h (16bit x4) n8    :    0.319    13302.8     3325.7  (  4.0 1.9)
 +NEON fadd.4h (16bit x4) n8    :    0.320    13263.4     3315.9  (  4.0 1.9)
 +NEON fmla.4h (16bit x4) n8    :    0.319    26604.2     3325.5  (  8.0 1.9)
 +NEON fmul.8h (16bit x8) n8    :    0.623    13616.4     1702.1  (  8.0 1.0)
 +NEON fadd.8h (16bit x8) n8    :    0.623    13619.7     1702.5  (  8.0 1.0)
 +NEON fmla.8h (16bit x8) n8    :    0.623    27220.4     1701.3  ( 16.0 1.0)
 +FPU fmul (16bit x1) ns4       :    0.608     1744.6     1744.6  (  1.0 1.0)
 +FPU fadd (16bit x1) ns4       :    0.608     1744.3     1744.3  (  1.0 1.0)
 +FPU fmadd (16bit x1) ns4      :    0.608     3488.1     1744.1  (  2.0 1.0)
 +NEON fmul.4h (16bit x4) ns4   :    0.607     6981.7     1745.4  (  4.0 1.0)
 +NEON fadd.4h (16bit x4) ns4   :    0.607     6979.8     1744.9  (  4.0 1.0)
 +NEON fmla.4h (16bit x4) ns4   :    0.607    13971.3     1746.4  (  8.0 1.0)
 +NEON fmul.8h (16bit x8) ns4   :    0.622    13629.1     1703.6  (  8.0 1.0)
 +NEON fadd.8h (16bit x8) ns4   :    0.623    13618.0     1702.3  (  8.0 1.0)
 +NEON fmla.8h (16bit x8) ns4   :    0.625    27146.8     1696.7  ( 16.0 1.0)
 +FPU fmul (16bit x1) n1        :    0.608     1744.1     1744.1  (  1.0 1.0)
 +FPU fadd (16bit x1) n1        :    0.608     1743.5     1743.5  (  1.0 1.0)
 +FPU fmadd (16bit x1) n1       :    2.433      871.3      435.7  (  2.0 0.2)
 +NEON fmul.4h (16bit x4) n1    :    0.608     6978.2     1744.6  (  4.0 1.0)
 +NEON fadd.4h (16bit x4) n1    :    0.608     6974.7     1743.7  (  4.0 1.0)
 +NEON fmla.4h (16bit x4) n1    :    2.431     3487.7      436.0  (  8.0 0.2)
 +NEON fmul.8h (16bit x8) n1    :    0.622    13627.2     1703.4  (  8.0 1.0)
 +NEON fadd.8h (16bit x8) n1    :    0.623    13601.9     1700.2  (  8.0 1.0)
 +NEON fmla.8h (16bit x8) n1    :    2.432     6973.9      435.9  ( 16.0 0.2)
 +NEON fmul.8h (16bit x8) n12   :    0.926    13738.3     1717.3  (  8.0 1.0)
 +NEON fadd.8h (16bit x8) n12   :    0.927    13721.2     1715.1  (  8.0 1.0)
 +NEON fmla.8h (16bit x8) n12   :    0.927    27432.5     1714.5  ( 16.0 1.0)
 +Average                       :    0.769    10689.1     1905.0  (  6.3 1.1)
 +Highest                       :    0.319    27432.5     3325.7  ( 16.0 1.9)
 +
 +
 +* Group 0:  Thread=1  Clock=1.766400 GHz  (mask:f)
 +* FPU/NEON (SP fp)
 +                                  TIME(s)   MFLOPS      MOPS     FOP   IPC
 +FPU fmul (32bit x1) n8        :    0.335     3167.5     3167.5  (  1.0 1.8)
 +FPU fadd (32bit x1) n8        :    0.319     3322.8     3322.8  (  1.0 1.9)
 +FPU fmadd (32bit x1) n8       :    0.320     6631.7     3315.9  (  2.0 1.9)
 +NEON fmul.2s (32bit x2) n8    :    0.319     6635.3     3317.6  (  2.0 1.9)
 +NEON fadd.2s (32bit x2) n8    :    0.319     6636.5     3318.3  (  2.0 1.9)
 +NEON fmla.2s (32bit x2) n8    :    0.320    13261.5     3315.4  (  4.0 1.9)
 +NEON fmul.4s (32bit x4) n8    :    0.624     6794.9     1698.7  (  4.0 1.0)
 +NEON fadd.4s (32bit x4) n8    :    0.624     6797.2     1699.3  (  4.0 1.0)
 +NEON fmla.4s (32bit x4) n8    :    0.623    13610.0     1701.2  (  8.0 1.0)
 +FPU fmul (32bit x1) ns4       :    0.608     1742.1     1742.1  (  1.0 1.0)
 +FPU fadd (32bit x1) ns4       :    0.608     1742.7     1742.7  (  1.0 1.0)
 +FPU fmadd (32bit x1) ns4      :    0.608     3485.2     1742.6  (  2.0 1.0)
 +NEON fmul.2s (32bit x2) ns4   :    0.608     3485.6     1742.8  (  2.0 1.0)
 +NEON fadd.2s (32bit x2) ns4   :    0.607     3490.3     1745.1  (  2.0 1.0)
 +NEON fmla.2s (32bit x2) ns4   :    0.608     6972.8     1743.2  (  4.0 1.0)
 +NEON fmul.4s (32bit x4) ns4   :    0.622     6810.8     1702.7  (  4.0 1.0)
 +NEON fadd.4s (32bit x4) ns4   :    0.624     6796.2     1699.0  (  4.0 1.0)
 +NEON fmla.4s (32bit x4) ns4   :    0.624    13597.0     1699.6  (  8.0 1.0)
 +FPU fmul (32bit x1) n1        :    0.609     1740.0     1740.0  (  1.0 1.0)
 +FPU fadd (32bit x1) n1        :    0.607     1745.3     1745.3  (  1.0 1.0)
 +FPU fmadd (32bit x1) n1       :    2.431      871.8      435.9  (  2.0 0.2)
 +NEON fmul.2s (32bit x2) n1    :    0.609     3482.7     1741.4  (  2.0 1.0)
 +NEON fadd.2s (32bit x2) n1    :    0.608     3486.9     1743.4  (  2.0 1.0)
 +NEON fmla.2s (32bit x2) n1    :    2.432     1743.1      435.8  (  4.0 0.2)
 +NEON fmul.4s (32bit x4) n1    :    0.623     6800.5     1700.1  (  4.0 1.0)
 +NEON fadd.4s (32bit x4) n1    :    0.625     6788.1     1697.0  (  4.0 1.0)
 +NEON fmla.4s (32bit x4) n1    :    2.431     3488.0      436.0  (  8.0 0.2)
 +NEON fmul.4s (32bit x4) n12   :    0.927     6861.7     1715.4  (  4.0 1.0)
 +NEON fadd.4s (32bit x4) n12   :    0.927     6858.8     1714.7  (  4.0 1.0)
 +NEON fmla.4s (32bit x4) n12   :    0.926    13731.7     1716.5  (  8.0 1.0)
 +Average                       :    0.769     5752.6     1907.9  (  3.3 1.1)
 +Highest                       :    0.319    13731.7     3322.8  (  8.0 1.9)
 +
 +
 +* Group 0:  Thread=1  Clock=1.766400 GHz  (mask:f)
 +* FPU/NEON (DP fp)
 +                                  TIME(s)   MFLOPS      MOPS     FOP   IPC
 +FPU fmul (64bit x1) n8        :    0.319     3321.5     3321.5  (  1.0 1.9)
 +FPU fadd (64bit x1) n8        :    0.334     3172.3     3172.3  (  1.0 1.8)
 +FPU fmadd (64bit x1) n8       :    0.335     6335.7     3167.8  (  2.0 1.8)
 +NEON fmul.2d (64bit x2) n8    :    0.623     3404.1     1702.1  (  2.0 1.0)
 +NEON fadd.2d (64bit x2) n8    :    0.623     3401.8     1700.9  (  2.0 1.0)
 +NEON fmla.2d (64bit x2) n8    :    0.624     6795.5     1698.9  (  4.0 1.0)
 +FPU fmul (64bit x1) ns4       :    0.607     1745.5     1745.5  (  1.0 1.0)
 +FPU fadd (64bit x1) ns4       :    0.607     1746.1     1746.1  (  1.0 1.0)
 +FPU fmadd (64bit x1) ns4      :    0.608     3489.1     1744.5  (  2.0 1.0)
 +NEON fmul.2d (64bit x2) ns4   :    0.622     3406.3     1703.1  (  2.0 1.0)
 +NEON fadd.2d (64bit x2) ns4   :    0.625     3390.1     1695.0  (  2.0 1.0)
 +NEON fmla.2d (64bit x2) ns4   :    0.627     6762.6     1690.7  (  4.0 1.0)
 +FPU fmul (64bit x1) n1        :    0.610     1738.5     1738.5  (  1.0 1.0)
 +FPU fadd (64bit x1) n1        :    0.608     1743.9     1743.9  (  1.0 1.0)
 +FPU fmadd (64bit x1) n1       :    2.432      871.5      435.7  (  2.0 0.2)
 +NEON fmul.2d (64bit x2) n1    :    0.622     3407.6     1703.8  (  2.0 1.0)
 +NEON fadd.2d (64bit x2) n1    :    0.623     3402.2     1701.1  (  2.0 1.0)
 +NEON fmla.2d (64bit x2) n1    :    2.430     1744.9      436.2  (  4.0 0.2)
 +NEON fmul.2d (64bit x2) n12   :    0.927     3430.7     1715.3  (  2.0 1.0)
 +NEON fadd.2d (64bit x2) n12   :    0.927     3431.0     1715.5  (  2.0 1.0)
 +NEON fmla.2d (64bit x2) n12   :    0.927     6861.6     1715.4  (  4.0 1.0)
 +Average                       :    0.793     3504.9     1809.2  (  2.1 1.0)
 +Highest                       :    0.319     6861.6     3321.5  (  4.0 1.9)
 +
 +
 +* Group 0:  Thread=4  Clock=1.766400 GHz  (mask:f)
 +* FPU/NEON (HP fp) multi-thread
 +                                  TIME(s)   MFLOPS      MOPS     FOP   IPC
 +FPU fmul (16bit x1) n8        :    0.322    13169.4     3292.4  (  4.0 1.9)
 +FPU fadd (16bit x1) n8        :    0.339    12507.7     3126.9  (  4.0 1.8)
 +FPU fmadd (16bit x1) n8       :    0.335    25329.4     3166.2  (  8.0 1.8)
 +NEON fmul.4h (16bit x4) n8    :    0.320    52913.5     3307.1  ( 16.0 1.9)
 +NEON fadd.4h (16bit x4) n8    :    0.321    52853.6     3303.3  ( 16.0 1.9)
 +NEON fmla.4h (16bit x4) n8    :    0.321   105636.1     3301.1  ( 32.0 1.9)
 +NEON fmul.8h (16bit x8) n8    :    0.625    54302.0     1696.9  ( 32.0 1.0)
 +NEON fadd.8h (16bit x8) n8    :    0.623    54438.4     1701.2  ( 32.0 1.0)
 +NEON fmla.8h (16bit x8) n8    :    0.632   107374.5     1677.7  ( 64.0 0.9)
 +FPU fmul (16bit x1) ns4       :    0.615     6889.2     1722.3  (  4.0 1.0)
 +FPU fadd (16bit x1) ns4       :    0.609     6959.0     1739.8  (  4.0 1.0)
 +FPU fmadd (16bit x1) ns4      :    0.607    13962.3     1745.3  (  8.0 1.0)
 +NEON fmul.4h (16bit x4) ns4   :    0.613    27659.1     1728.7  ( 16.0 1.0)
 +NEON fadd.4h (16bit x4) ns4   :    0.609    27837.4     1739.8  ( 16.0 1.0)
 +NEON fmla.4h (16bit x4) ns4   :    0.609    55659.0     1739.3  ( 32.0 1.0)
 +NEON fmul.8h (16bit x8) ns4   :    0.626    54152.4     1692.3  ( 32.0 1.0)
 +NEON fadd.8h (16bit x8) ns4   :    0.623    54437.2     1701.2  ( 32.0 1.0)
 +NEON fmla.8h (16bit x8) ns4   :    0.623   108907.8     1701.7  ( 64.0 1.0)
 +FPU fmul (16bit x1) n1        :    0.608     6969.2     1742.3  (  4.0 1.0)
 +FPU fadd (16bit x1) n1        :    0.607     6980.4     1745.1  (  4.0 1.0)
 +FPU fmadd (16bit x1) n1       :    2.435     3481.5      435.2  (  8.0 0.2)
 +NEON fmul.4h (16bit x4) n1    :    0.607    27921.8     1745.1  ( 16.0 1.0)
 +NEON fadd.4h (16bit x4) n1    :    0.608    27906.0     1744.1  ( 16.0 1.0)
 +NEON fmla.4h (16bit x4) n1    :    2.433    13938.4      435.6  ( 32.0 0.2)
 +NEON fmul.8h (16bit x8) n1    :    0.627    54113.0     1691.0  ( 32.0 1.0)
 +NEON fadd.8h (16bit x8) n1    :    0.622    54490.1     1702.8  ( 32.0 1.0)
 +NEON fmla.8h (16bit x8) n1    :    2.436    27840.8      435.0  ( 64.0 0.2)
 +NEON fmul.8h (16bit x8) n12   :    0.928    54823.2     1713.2  ( 32.0 1.0)
 +NEON fadd.8h (16bit x8) n12   :    0.935    54405.5     1700.2  ( 32.0 1.0)
 +NEON fmla.8h (16bit x8) n12   :    0.926   109840.3     1716.3  ( 64.0 1.0)
 +Average                       :    0.772    42589.9     1896.3  ( 25.1 1.1)
 +Highest                       :    0.320   109840.3     3307.1  ( 64.0 1.9)
 +
 +
 +* Group 0:  Thread=4  Clock=1.766400 GHz  (mask:f)
 +* FPU/NEON (SP fp) multi-thread
 +                                  TIME(s)   MFLOPS      MOPS     FOP   IPC
 +FPU fmul (32bit x1) n8        :    0.336    12617.5     3154.4  (  4.0 1.8)
 +FPU fadd (32bit x1) n8        :    0.322    13185.6     3296.4  (  4.0 1.9)
 +FPU fmadd (32bit x1) n8       :    0.322    26347.1     3293.4  (  8.0 1.9)
 +NEON fmul.2s (32bit x2) n8    :    0.320    26467.9     3308.5  (  8.0 1.9)
 +NEON fadd.2s (32bit x2) n8    :    0.321    26401.9     3300.2  (  8.0 1.9)
 +NEON fmla.2s (32bit x2) n8    :    0.323    52475.1     3279.7  ( 16.0 1.9)
 +NEON fmul.4s (32bit x4) n8    :    0.628    26989.3     1686.8  ( 16.0 1.0)
 +NEON fadd.4s (32bit x4) n8    :    0.626    27107.1     1694.2  ( 16.0 1.0)
 +NEON fmla.4s (32bit x4) n8    :    0.628    53977.4     1686.8  ( 32.0 1.0)
 +FPU fmul (32bit x1) ns4       :    0.611     6938.5     1734.6  (  4.0 1.0)
 +FPU fadd (32bit x1) ns4       :    0.625     6779.9     1695.0  (  4.0 1.0)
 +FPU fmadd (32bit x1) ns4      :    0.608    13934.5     1741.8  (  8.0 1.0)
 +NEON fmul.2s (32bit x2) ns4   :    0.608    13953.2     1744.1  (  8.0 1.0)
 +NEON fadd.2s (32bit x2) ns4   :    0.608    13942.8     1742.8  (  8.0 1.0)
 +NEON fmla.2s (32bit x2) ns4   :    0.612    27698.3     1731.1  ( 16.0 1.0)
 +NEON fmul.4s (32bit x4) ns4   :    0.628    26990.8     1686.9  ( 16.0 1.0)
 +NEON fadd.4s (32bit x4) ns4   :    0.623    27225.3     1701.6  ( 16.0 1.0)
 +NEON fmla.4s (32bit x4) ns4   :    0.623    54416.4     1700.5  ( 32.0 1.0)
 +FPU fmul (32bit x1) n1        :    0.610     6948.6     1737.1  (  4.0 1.0)
 +FPU fadd (32bit x1) n1        :    0.608     6967.6     1741.9  (  4.0 1.0)
 +FPU fmadd (32bit x1) n1       :    2.439     3475.9      434.5  (  8.0 0.2)
 +NEON fmul.2s (32bit x2) n1    :    0.610    13895.0     1736.9  (  8.0 1.0)
 +NEON fadd.2s (32bit x2) n1    :    0.608    13944.9     1743.1  (  8.0 1.0)
 +NEON fmla.2s (32bit x2) n1    :    2.451     6917.9      432.4  ( 16.0 0.2)
 +NEON fmul.4s (32bit x4) n1    :    0.625    27142.9     1696.4  ( 16.0 1.0)
 +NEON fadd.4s (32bit x4) n1    :    0.630    26929.2     1683.1  ( 16.0 1.0)
 +NEON fmla.4s (32bit x4) n1    :    2.445    13872.3      433.5  ( 32.0 0.2)
 +NEON fmul.4s (32bit x4) n12   :    0.943    26971.9     1685.7  ( 16.0 1.0)
 +NEON fadd.4s (32bit x4) n12   :    0.936    27179.3     1698.7  ( 16.0 1.0)
 +NEON fmla.4s (32bit x4) n12   :    0.928    54835.9     1713.6  ( 32.0 1.0)
 +Average                       :    0.774    22884.3     1897.2  ( 13.3 1.1)
 +Highest                       :    0.320    54835.9     3308.5  ( 32.0 1.9)
 +
 +
 +* Group 0:  Thread=4  Clock=1.766400 GHz  (mask:f)
 +* FPU/NEON (DP fp) multi-thread
 +                                  TIME(s)   MFLOPS      MOPS     FOP   IPC
 +FPU fmul (64bit x1) n8        :    0.320    13254.5     3313.6  (  4.0 1.9)
 +FPU fadd (64bit x1) n8        :    0.334    12685.9     3171.5  (  4.0 1.8)
 +FPU fmadd (64bit x1) n8       :    0.335    25283.7     3160.5  (  8.0 1.8)
 +NEON fmul.2d (64bit x2) n8    :    0.626    13534.5     1691.8  (  8.0 1.0)
 +NEON fadd.2d (64bit x2) n8    :    0.628    13500.3     1687.5  (  8.0 1.0)
 +NEON fmla.2d (64bit x2) n8    :    0.624    27196.3     1699.8  ( 16.0 1.0)
 +FPU fmul (64bit x1) ns4       :    0.609     6962.4     1740.6  (  4.0 1.0)
 +FPU fadd (64bit x1) ns4       :    0.615     6896.3     1724.1  (  4.0 1.0)
 +FPU fmadd (64bit x1) ns4      :    0.613    13820.5     1727.6  (  8.0 1.0)
 +NEON fmul.2d (64bit x2) ns4   :    0.624    13580.9     1697.6  (  8.0 1.0)
 +NEON fadd.2d (64bit x2) ns4   :    0.633    13393.2     1674.2  (  8.0 0.9)
 +NEON fmla.2d (64bit x2) ns4   :    0.624    27188.1     1699.3  ( 16.0 1.0)
 +FPU fmul (64bit x1) n1        :    0.609     6963.3     1740.8  (  4.0 1.0)
 +FPU fadd (64bit x1) n1        :    0.608     6973.8     1743.4  (  4.0 1.0)
 +FPU fmadd (64bit x1) n1       :    2.442     3472.4      434.1  (  8.0 0.2)
 +NEON fmul.2d (64bit x2) n1    :    0.627    13531.7     1691.5  (  8.0 1.0)
 +NEON fadd.2d (64bit x2) n1    :    0.623    13613.9     1701.7  (  8.0 1.0)
 +NEON fmla.2d (64bit x2) n1    :    2.457     6901.2      431.3  ( 16.0 0.2)
 +NEON fmul.2d (64bit x2) n12   :    0.937    13568.7     1696.1  (  8.0 1.0)
 +NEON fadd.2d (64bit x2) n12   :    0.957    13285.9     1660.7  (  8.0 0.9)
 +NEON fmla.2d (64bit x2) n12   :    0.950    26778.5     1673.7  ( 16.0 0.9)
 +Average                       :    0.800    13923.1     1798.2  (  8.4 1.0)
 +Highest                       :    0.320    27196.3     3313.6  ( 16.0 1.9)
 +
 +
 +* Group 1:  Thread=1  Clock=2.803200 GHz  (mask:f0)
 +* FPU/NEON (HP fp)
 +                                  TIME(s)   MFLOPS      MOPS     FOP   IPC
 +FPU fmul (16bit x1) n8        :    0.308     5467.3     5467.3  (  1.0 2.0)
 +FPU fadd (16bit x1) n8        :    0.307     5474.7     5474.7  (  1.0 2.0)
 +FPU fmadd (16bit x1) n8       :    0.383     8782.4     4391.2  (  2.0 1.6)
 +NEON fmul.4h (16bit x4) n8    :    0.305    22089.8     5522.4  (  4.0 2.0)
 +NEON fadd.4h (16bit x4) n8    :    0.304    22142.5     5535.6  (  4.0 2.0)
 +NEON fmla.4h (16bit x4) n8    :    0.304    44283.6     5535.5  (  8.0 2.0)
 +NEON fmul.8h (16bit x8) n8    :    0.608    22145.2     2768.2  (  8.0 1.0)
 +NEON fadd.8h (16bit x8) n8    :    0.609    22110.9     2763.9  (  8.0 1.0)
 +NEON fmla.8h (16bit x8) n8    :    0.607    44326.9     2770.4  ( 16.0 1.0)
 +FPU fmul (16bit x1) ns4       :    0.460     3653.0     3653.0  (  1.0 1.3)
 +FPU fadd (16bit x1) ns4       :    0.464     3626.9     3626.9  (  1.0 1.3)
 +FPU fmadd (16bit x1) ns4      :    0.476     7070.6     3535.3  (  2.0 1.3)
 +NEON fmul.4h (16bit x4) ns4   :    0.458    14674.5     3668.6  (  4.0 1.3)
 +NEON fadd.4h (16bit x4) ns4   :    0.455    14771.6     3692.9  (  4.0 1.3)
 +NEON fmla.4h (16bit x4) ns4   :    0.754    17843.6     2230.4  (  8.0 0.8)
 +NEON fmul.8h (16bit x8) ns4   :    0.604    22268.9     2783.6  (  8.0 1.0)
 +NEON fadd.8h (16bit x8) ns4   :    0.604    22264.3     2783.0  (  8.0 1.0)
 +NEON fmla.8h (16bit x8) ns4   :    0.757    35564.8     2222.8  ( 16.0 0.8)
 +FPU fmul (16bit x1) n1        :    0.304     5533.7     5533.7  (  1.0 2.0)
 +FPU fadd (16bit x1) n1        :    0.303     5548.7     5548.7  (  1.0 2.0)
 +FPU fmadd (16bit x1) n1       :    3.023     1112.7      556.4  (  2.0 0.2)
 +NEON fmul.4h (16bit x4) n1    :    0.302    22273.0     5568.2  (  4.0 2.0)
 +NEON fadd.4h (16bit x4) n1    :    0.302    22291.3     5572.8  (  4.0 2.0)
 +NEON fmla.4h (16bit x4) n1    :    1.819     7397.1      924.6  (  8.0 0.3)
 +NEON fmul.8h (16bit x8) n1    :    0.606    22201.1     2775.1  (  8.0 1.0)
 +NEON fadd.8h (16bit x8) n1    :    0.607    22159.7     2770.0  (  8.0 1.0)
 +NEON fmla.8h (16bit x8) n1    :    1.822    14771.4      923.2  ( 16.0 0.3)
 +NEON fmul.8h (16bit x8) n12   :    0.911    22163.8     2770.5  (  8.0 1.0)
 +NEON fadd.8h (16bit x8) n12   :    0.911    22148.3     2768.5  (  8.0 1.0)
 +NEON fmla.8h (16bit x8) n12   :    0.910    44355.9     2772.2  ( 16.0 1.0)
 +Average                       :    0.686    18350.6     3563.7  (  6.3 1.3)
 +Highest                       :    0.302    44355.9     5572.8  ( 16.0 2.0)
 +
 +
 +* Group 1:  Thread=1  Clock=2.803200 GHz  (mask:f0)
 +* FPU/NEON (SP fp)
 +                                  TIME(s)   MFLOPS      MOPS     FOP   IPC
 +FPU fmul (32bit x1) n8        :    0.302     5578.1     5578.1  (  1.0 2.0)
 +FPU fadd (32bit x1) n8        :    0.301     5580.7     5580.7  (  1.0 2.0)
 +FPU fmadd (32bit x1) n8       :    0.382     8796.1     4398.0  (  2.0 1.6)
 +NEON fmul.2s (32bit x2) n8    :    0.302    11156.8     5578.4  (  2.0 2.0)
 +NEON fadd.2s (32bit x2) n8    :    0.302    11130.7     5565.3  (  2.0 2.0)
 +NEON fmla.2s (32bit x2) n8    :    0.302    22252.9     5563.2  (  4.0 2.0)
 +NEON fmul.4s (32bit x4) n8    :    0.603    11156.5     2789.1  (  4.0 1.0)
 +NEON fadd.4s (32bit x4) n8    :    0.605    11118.1     2779.5  (  4.0 1.0)
 +NEON fmla.4s (32bit x4) n8    :    0.607    22171.6     2771.5  (  8.0 1.0)
 +FPU fmul (32bit x1) ns4       :    0.458     3668.8     3668.8  (  1.0 1.3)
 +FPU fadd (32bit x1) ns4       :    0.464     3622.2     3622.2  (  1.0 1.3)
 +FPU fmadd (32bit x1) ns4      :    0.470     7159.6     3579.8  (  2.0 1.3)
 +NEON fmul.2s (32bit x2) ns4   :    0.462     7285.8     3642.9  (  2.0 1.3)
 +NEON fadd.2s (32bit x2) ns4   :    0.461     7302.5     3651.2  (  2.0 1.3)
 +NEON fmla.2s (32bit x2) ns4   :    0.758     8877.3     2219.3  (  4.0 0.8)
 +NEON fmul.4s (32bit x4) ns4   :    0.604    11136.3     2784.1  (  4.0 1.0)
 +NEON fadd.4s (32bit x4) ns4   :    0.604    11134.5     2783.6  (  4.0 1.0)
 +NEON fmla.4s (32bit x4) ns4   :    0.760    17711.8     2214.0  (  8.0 0.8)
 +FPU fmul (32bit x1) n1        :    0.305     5519.3     5519.3  (  1.0 2.0)
 +FPU fadd (32bit x1) n1        :    0.305     5513.6     5513.6  (  1.0 2.0)
 +FPU fmadd (32bit x1) n1       :    3.040     1106.7      553.4  (  2.0 0.2)
 +NEON fmul.2s (32bit x2) n1    :    0.304    11079.4     5539.7  (  2.0 2.0)
 +NEON fadd.2s (32bit x2) n1    :    0.305    11035.2     5517.6  (  2.0 2.0)
 +NEON fmla.2s (32bit x2) n1    :    1.816     3703.8      926.0  (  4.0 0.3)
 +NEON fmul.4s (32bit x4) n1    :    0.609    11055.8     2763.9  (  4.0 1.0)
 +NEON fadd.4s (32bit x4) n1    :    0.608    11067.4     2766.9  (  4.0 1.0)
 +NEON fmla.4s (32bit x4) n1    :    1.823     7380.3      922.5  (  8.0 0.3)
 +NEON fmul.4s (32bit x4) n12   :    0.914    11045.9     2761.5  (  4.0 1.0)
 +NEON fadd.4s (32bit x4) n12   :    0.913    11051.1     2762.8  (  4.0 1.0)
 +NEON fmla.4s (32bit x4) n12   :    0.912    22121.2     2765.1  (  8.0 1.0)
 +Average                       :    0.687     9950.7     3569.4  (  3.3 1.3)
 +Highest                       :    0.301    22252.9     5580.7  (  8.0 2.0)
 +
 +
 +* Group 1:  Thread=1  Clock=2.803200 GHz  (mask:f0)
 +* FPU/NEON (DP fp)
 +                                  TIME(s)   MFLOPS      MOPS     FOP   IPC
 +FPU fmul (64bit x1) n8        :    0.301     5579.0     5579.0  (  1.0 2.0)
 +FPU fadd (64bit x1) n8        :    0.301     5579.3     5579.3  (  1.0 2.0)
 +FPU fmadd (64bit x1) n8       :    0.383     8783.6     4391.8  (  2.0 1.6)
 +NEON fmul.2d (64bit x2) n8    :    0.604     5571.8     2785.9  (  2.0 1.0)
 +NEON fadd.2d (64bit x2) n8    :    0.604     5565.9     2782.9  (  2.0 1.0)
 +NEON fmla.2d (64bit x2) n8    :    0.608    11063.3     2765.8  (  4.0 1.0)
 +FPU fmul (64bit x1) ns4       :    0.469     3586.5     3586.5  (  1.0 1.3)
 +FPU fadd (64bit x1) ns4       :    0.466     3611.1     3611.1  (  1.0 1.3)
 +FPU fmadd (64bit x1) ns4      :    0.476     7061.7     3530.8  (  2.0 1.3)
 +NEON fmul.2d (64bit x2) ns4   :    0.615     5472.6     2736.3  (  2.0 1.0)
 +NEON fadd.2d (64bit x2) ns4   :    0.614     5479.7     2739.8  (  2.0 1.0)
 +NEON fmla.2d (64bit x2) ns4   :    0.768     8764.2     2191.0  (  4.0 0.8)
 +FPU fmul (64bit x1) n1        :    0.308     5455.8     5455.8  (  1.0 1.9)
 +FPU fadd (64bit x1) n1        :    0.307     5471.7     5471.7  (  1.0 2.0)
 +FPU fmadd (64bit x1) n1       :    3.046     1104.3      552.2  (  2.0 0.2)
 +NEON fmul.2d (64bit x2) n1    :    0.607     5539.4     2769.7  (  2.0 1.0)
 +NEON fadd.2d (64bit x2) n1    :    0.608     5530.7     2765.3  (  2.0 1.0)
 +NEON fmla.2d (64bit x2) n1    :    1.828     3679.6      919.9  (  4.0 0.3)
 +NEON fmul.2d (64bit x2) n12   :    0.922     5471.6     2735.8  (  2.0 1.0)
 +NEON fadd.2d (64bit x2) n12   :    0.922     5472.4     2736.2  (  2.0 1.0)
 +NEON fmla.2d (64bit x2) n12   :    0.921    10954.5     2738.6  (  4.0 1.0)
 +Average                       :    0.747     5942.8     3258.4  (  2.1 1.2)
 +Highest                       :    0.301    11063.3     5579.3  (  4.0 2.0)
 +
 +
 +* Group 1:  Thread=4  Clock=2.803200 GHz  (mask:f0)
 +* FPU/NEON (HP fp) multi-thread
 +                                  TIME(s)   MFLOPS      MOPS     FOP   IPC
 +FPU fmul (16bit x1) n8        :    0.319    21091.6     5272.9  (  4.0 1.9)
 +FPU fadd (16bit x1) n8        :    0.319    21094.1     5273.5  (  4.0 1.9)
 +FPU fmadd (16bit x1) n8       :    0.404    33329.7     4166.2  (  8.0 1.5)
 +NEON fmul.4h (16bit x4) n8    :    0.319    84394.0     5274.6  ( 16.0 1.9)
 +NEON fadd.4h (16bit x4) n8    :    0.319    84371.8     5273.2  ( 16.0 1.9)
 +NEON fmla.4h (16bit x4) n8    :    0.319   168755.2     5273.6  ( 32.0 1.9)
 +NEON fmul.8h (16bit x8) n8    :    0.638    84391.0     2637.2  ( 32.0 0.9)
 +NEON fadd.8h (16bit x8) n8    :    0.638    84381.8     2636.9  ( 32.0 0.9)
 +NEON fmla.8h (16bit x8) n8    :    0.638   168764.2     2636.9  ( 64.0 0.9)
 +FPU fmul (16bit x1) ns4       :    0.484    13902.3     3475.6  (  4.0 1.2)
 +FPU fadd (16bit x1) ns4       :    0.487    13826.5     3456.6  (  4.0 1.2)
 +FPU fmadd (16bit x1) ns4      :    0.505    26643.9     3330.5  (  8.0 1.2)
 +NEON fmul.4h (16bit x4) ns4   :    0.485    55444.0     3465.2  ( 16.0 1.2)
 +NEON fadd.4h (16bit x4) ns4   :    0.483    55771.9     3485.7  ( 16.0 1.2)
 +NEON fmla.4h (16bit x4) ns4   :    0.798    67472.6     2108.5  ( 32.0 0.8)
 +NEON fmul.8h (16bit x8) ns4   :    0.638    84390.8     2637.2  ( 32.0 0.9)
 +NEON fadd.8h (16bit x8) ns4   :    0.638    84369.3     2636.5  ( 32.0 0.9)
 +NEON fmla.8h (16bit x8) ns4   :    0.797   134981.8     2109.1  ( 64.0 0.8)
 +FPU fmul (16bit x1) n1        :    0.319    21092.1     5273.0  (  4.0 1.9)
 +FPU fadd (16bit x1) n1        :    0.319    21088.6     5272.2  (  4.0 1.9)
 +FPU fmadd (16bit x1) n1       :    3.190     4218.2      527.3  (  8.0 0.2)
 +NEON fmul.4h (16bit x4) n1    :    0.319    84362.3     5272.6  ( 16.0 1.9)
 +NEON fadd.4h (16bit x4) n1    :    0.319    84353.3     5272.1  ( 16.0 1.9)
 +NEON fmla.4h (16bit x4) n1    :    1.914    28120.1      878.8  ( 32.0 0.3)
 +NEON fmul.8h (16bit x8) n1    :    0.638    84355.7     2636.1  ( 32.0 0.9)
 +NEON fadd.8h (16bit x8) n1    :    0.638    84365.0     2636.4  ( 32.0 0.9)
 +NEON fmla.8h (16bit x8) n1    :    1.914    56233.2      878.6  ( 64.0 0.3)
 +NEON fmul.8h (16bit x8) n12   :    0.957    84356.8     2636.2  ( 32.0 0.9)
 +NEON fadd.8h (16bit x8) n12   :    0.957    84360.9     2636.3  ( 32.0 0.9)
 +NEON fmla.8h (16bit x8) n12   :    0.957   168727.4     2636.4  ( 64.0 0.9)
 +Average                       :    0.722    69767.0     3390.2  ( 25.1 1.2)
 +Highest                       :    0.319   168764.2     5274.6  ( 64.0 1.9)
 +
 +
 +* Group 1:  Thread=4  Clock=2.803200 GHz  (mask:f0)
 +* FPU/NEON (SP fp) multi-thread
 +                                  TIME(s)   MFLOPS      MOPS     FOP   IPC
 +FPU fmul (32bit x1) n8        :    0.319    21088.7     5272.2  (  4.0 1.9)
 +FPU fadd (32bit x1) n8        :    0.319    21089.7     5272.4  (  4.0 1.9)
 +FPU fmadd (32bit x1) n8       :    0.403    33350.9     4168.9  (  8.0 1.5)
 +NEON fmul.2s (32bit x2) n8    :    0.319    42171.7     5271.5  (  8.0 1.9)
 +NEON fadd.2s (32bit x2) n8    :    0.319    42178.9     5272.4  (  8.0 1.9)
 +NEON fmla.2s (32bit x2) n8    :    0.320    84163.3     5260.2  ( 16.0 1.9)
 +NEON fmul.4s (32bit x4) n8    :    0.638    42178.4     2636.2  ( 16.0 0.9)
 +NEON fadd.4s (32bit x4) n8    :    0.638    42176.0     2636.0  ( 16.0 0.9)
 +NEON fmla.4s (32bit x4) n8    :    0.638    84357.5     2636.2  ( 32.0 0.9)
 +FPU fmul (32bit x1) ns4       :    0.483    13918.9     3479.7  (  4.0 1.2)
 +FPU fadd (32bit x1) ns4       :    0.486    13849.6     3462.4  (  4.0 1.2)
 +FPU fmadd (32bit x1) ns4      :    0.500    26910.5     3363.8  (  8.0 1.2)
 +NEON fmul.2s (32bit x2) ns4   :    0.485    27727.5     3465.9  (  8.0 1.2)
 +NEON fadd.2s (32bit x2) ns4   :    0.484    27787.1     3473.4  (  8.0 1.2)
 +NEON fmla.2s (32bit x2) ns4   :    0.798    33743.0     2108.9  ( 16.0 0.8)
 +NEON fmul.4s (32bit x4) ns4   :    0.638    42179.4     2636.2  ( 16.0 0.9)
 +NEON fadd.4s (32bit x4) ns4   :    0.638    42176.8     2636.0  ( 16.0 0.9)
 +NEON fmla.4s (32bit x4) ns4   :    0.798    67481.7     2108.8  ( 32.0 0.8)
 +FPU fmul (32bit x1) n1        :    0.319    21088.5     5272.1  (  4.0 1.9)
 +FPU fadd (32bit x1) n1        :    0.319    21086.2     5271.6  (  4.0 1.9)
 +FPU fmadd (32bit x1) n1       :    3.190     4217.9      527.2  (  8.0 0.2)
 +NEON fmul.2s (32bit x2) n1    :    0.319    42178.8     5272.3  (  8.0 1.9)
 +NEON fadd.2s (32bit x2) n1    :    0.319    42180.9     5272.6  (  8.0 1.9)
 +NEON fmla.2s (32bit x2) n1    :    1.914    14059.6      878.7  ( 16.0 0.3)
 +NEON fmul.4s (32bit x4) n1    :    0.638    42166.1     2635.4  ( 16.0 0.9)
 +NEON fadd.4s (32bit x4) n1    :    0.638    42179.5     2636.2  ( 16.0 0.9)
 +NEON fmla.4s (32bit x4) n1    :    1.914    28119.1      878.7  ( 32.0 0.3)
 +NEON fmul.4s (32bit x4) n12   :    0.957    42171.1     2635.7  ( 16.0 0.9)
 +NEON fadd.4s (32bit x4) n12   :    0.957    42164.0     2635.3  ( 16.0 0.9)
 +NEON fmla.4s (32bit x4) n12   :    0.957    84401.6     2637.6  ( 32.0 0.9)
 +Average                       :    0.722    37818.1     3390.5  ( 13.3 1.2)
 +Highest                       :    0.319    84401.6     5272.6  ( 32.0 1.9)
 +
 +
 +* Group 1:  Thread=4  Clock=2.803200 GHz  (mask:f0)
 +* FPU/NEON (DP fp) multi-thread
 +                                  TIME(s)   MFLOPS      MOPS     FOP   IPC
 +FPU fmul (64bit x1) n8        :    0.319    21090.4     5272.6  (  4.0 1.9)
 +FPU fadd (64bit x1) n8        :    0.319    21091.1     5272.8  (  4.0 1.9)
 +FPU fmadd (64bit x1) n8       :    0.405    33247.0     4155.9  (  8.0 1.5)
 +NEON fmul.2d (64bit x2) n8    :    0.638    21092.3     2636.5  (  8.0 0.9)
 +NEON fadd.2d (64bit x2) n8    :    0.638    21084.8     2635.6  (  8.0 0.9)
 +NEON fmla.2d (64bit x2) n8    :    0.638    42165.7     2635.4  ( 16.0 0.9)
 +FPU fmul (64bit x1) ns4       :    0.489    13761.0     3440.3  (  4.0 1.2)
 +FPU fadd (64bit x1) ns4       :    0.485    13883.6     3470.9  (  4.0 1.2)
 +FPU fmadd (64bit x1) ns4      :    0.494    27244.1     3405.5  (  8.0 1.2)
 +NEON fmul.2d (64bit x2) ns4   :    0.638    21091.8     2636.5  (  8.0 0.9)
 +NEON fadd.2d (64bit x2) ns4   :    0.638    21093.4     2636.7  (  8.0 0.9)
 +NEON fmla.2d (64bit x2) ns4   :    0.798    33738.5     2108.7  ( 16.0 0.8)
 +FPU fmul (64bit x1) n1        :    0.319    21091.2     5272.8  (  4.0 1.9)
 +FPU fadd (64bit x1) n1        :    0.319    21090.4     5272.6  (  4.0 1.9)
 +FPU fmadd (64bit x1) n1       :    3.189     4218.9      527.4  (  8.0 0.2)
 +NEON fmul.2d (64bit x2) n1    :    0.638    21092.7     2636.6  (  8.0 0.9)
 +NEON fadd.2d (64bit x2) n1    :    0.638    21092.3     2636.5  (  8.0 0.9)
 +NEON fmla.2d (64bit x2) n1    :    1.914    14061.5      878.8  ( 16.0 0.3)
 +NEON fmul.2d (64bit x2) n12   :    0.957    21091.7     2636.5  (  8.0 0.9)
 +NEON fadd.2d (64bit x2) n12   :    0.957    21082.4     2635.3  (  8.0 0.9)
 +NEON fmla.2d (64bit x2) n12   :    0.957    42196.5     2637.3  ( 16.0 0.9)
 +Average                       :    0.780    22742.9     3116.2  (  8.4 1.1)
 +Highest                       :    0.319    42196.5     5272.8  ( 16.0 1.9)
 +
 +
 +</code>
 +
 +++++
 +
  
  
行 9547: 行 10820:
  
  
 +
 +
 +
 +++++Chromebook Flip C101PA RK3399 little core 1.5GHz x4 ARM64 (AArch64) android 7.1|
 +
 +<code>
 +ARCH: ARMv7A 2
 +FPU: VFPv3-D32 NEON
 +SingleT SP max: 11.778 GFLOPS
 +SingleT DP max: 5.460 GFLOPS
 +MultiT  SP max: 47.213 GFLOPS
 +MultiT  DP max: 21.726 GFLOPS
 +CPU core: 4
 +NEON: yes
 +FMA : no
 +
 +* VFP/NEON (single fp)
 +                                  TIME(s)   MFLOPS      MOPS    FOP IPC  max MFLOPS
 +VFP fmuls (32bit x1) n8       :    0.482     2487.4     2487.4 (  1 1.6)    2487.4
 +VFP fadds (32bit x1) n8       :    0.440     2728.9     2728.9 (  1 1.8)    2728.9
 +VFP fmacs (32bit x1) n8       :    0.638     3759.7     1879.8 (  2 1.2)    3759.7
 +VFP vfma.f32 (32bit x1) n8    :        -          -          -    -          -
 +NEON vmul.f32 (32bit x2) n8   :    0.439     5462.1     2731.1 (  2 1.8)    5462.1
 +NEON vadd.f32 (32bit x2) n8   :    0.419     5722.0     2861.0 (  2 1.9)    5722.0
 +NEON vmla.f32 (32bit x2) n8   :    0.440    10914.3     2728.6 (  4 1.8)   10914.3
 +NEON vfma.f32 (32bit x2) n8   :        -          -          -    -          -
 +NEON vmul.f32 (32bit x4) n8   :    0.819     5858.5     1464.6 (  4 1.0)    5858.5
 +NEON vadd.f32 (32bit x4) n8   :    0.821     5849.9     1462.5 (  4 1.0)    5849.9
 +NEON vmla.f32 (32bit x4) n8   :    0.819    11717.7     1464.7 (  8 1.0)   11717.7
 +NEON vfma.f32 (32bit x4) n8   :        -          -          -    -          -
 +VFP fmuls (32bit x1) ns4      :    0.799     1501.6     1501.6 (  1 1.0)    1501.6
 +VFP fadds (32bit x1) ns4      :    0.799     1501.7     1501.7 (  1 1.0)    1501.7
 +VFP fmacs (32bit x1) ns4      :    1.607     1493.7      746.9 (  2 0.5)    1493.7
 +VFP vfma.f32 (32bit x1) ns4   :        -          -          -    -          -
 +NEON vmul.f32 (32bit x2) ns4  :    0.805     2979.7     1489.9 (  2 1.0)    2979.7
 +NEON vadd.f32 (32bit x2) ns4  :    0.811     2957.8     1478.9 (  2 1.0)    2957.8
 +NEON vmla.f32 (32bit x2) ns4  :    1.613     2975.6      743.9 (  4 0.5)    2975.6
 +NEON vfma.f32 (32bit x2) ns4  :        -          -          -    -          -
 +NEON vmul.f32 (32bit x4) ns4  :    0.819     5861.5     1465.4 (  4 1.0)    5861.5
 +NEON vadd.f32 (32bit x4) ns4  :    0.819     5862.1     1465.5 (  4 1.0)    5862.1
 +NEON vmla.f32 (32bit x4) ns4  :    1.605     5980.8      747.6 (  8 0.5)    5980.8
 +NEON vfma.f32 (32bit x4) ns4  :        -          -          -    -          -
 +VFP fmuls (32bit x1) n1       :    0.799     1501.7     1501.7 (  1 1.0)    1501.7
 +VFP fadds (32bit x1) n1       :    0.799     1502.0     1502.0 (  1 1.0)    1502.0
 +VFP fmacs (32bit x1) n1       :    3.203      749.4      374.7 (  2 0.2)     749.4
 +VFP vfma.f32 (32bit x1) n1    :        -          -          -    -          -
 +NEON vmul.f32 (32bit x2) n1   :    0.799     3004.1     1502.0 (  2 1.0)    3004.1
 +NEON vadd.f32 (32bit x2) n1   :    0.799     3004.5     1502.2 (  2 1.0)    3004.5
 +NEON vmla.f32 (32bit x2) n1   :    3.209     1495.8      373.9 (  4 0.2)    1495.8
 +NEON vfma.f32 (32bit x2) n1   :        -          -          -    -          -
 +NEON vmul.f32 (32bit x4) n1   :    0.819     5860.3     1465.1 (  4 1.0)    5860.3
 +NEON vadd.f32 (32bit x4) n1   :    0.819     5862.1     1465.5 (  4 1.0)    5862.1
 +NEON vmla.f32 (32bit x4) n1   :    3.203     2997.6      374.7 (  8 0.2)    2997.6
 +NEON vfma.f32 (32bit x4) n1   :        -          -          -    -          -
 +NEON vmul.f32 (32bit x4) n12  :    1.219     5908.8     1477.2 (  4 1.0)    5908.8
 +NEON vadd.f32 (32bit x4) n12  :    1.221     5895.3     1473.8 (  4 1.0)    5895.3
 +NEON vmla.f32 (32bit x4) n12  :    1.223    11778.1     1472.3 (  8 1.0)   11778.1
 +NEON vfma.f32 (32bit x4) n12  :        -          -          -    -          -
 +Average                       :    1.104     4505.8     1514.5 (  3 1.0)    4505.8
 +Highest                       :    0.419    11778.1     2861.0 (  8 1.9)   11778.1
 +
 +
 +* VFP/NEON (double fp)
 +                                  TIME(s)   MFLOPS      MOPS    FOP IPC  max MFLOPS
 +VFP fmuld (64bit x1) n8       :    0.434     2762.5     2762.5 (  1 1.8)    2762.5
 +VFP faddd (64bit x1) n8       :    0.441     2720.5     2720.5 (  1 1.8)    2720.5
 +VFP fmacd (64bit x1) n8       :    0.440     5460.1     2730.0 (  2 1.8)    5460.1
 +VFP vfma.f64 (64bit x1) n8    :        -          -          -    -          -
 +VFP fmuld (64bit x1) ns4      :    0.799     1501.8     1501.8 (  1 1.0)    1501.8
 +VFP faddd (64bit x1) ns4      :    0.799     1501.3     1501.3 (  1 1.0)    1501.3
 +VFP fmacd (64bit x1) ns4      :    1.615     1486.0      743.0 (  2 0.5)    1486.0
 +VFP vfma.f64 (64bit x1) ns4   :        -          -          -    -          -
 +VFP fmuld (64bit x1) n1       :    0.799     1501.9     1501.9 (  1 1.0)    1501.9
 +VFP faddd (64bit x1) n1       :    0.800     1500.8     1500.8 (  1 1.0)    1500.8
 +VFP fmacd (64bit x1) n1       :    3.197      750.6      375.3 (  2 0.2)     750.6
 +VFP vfma.f64 (64bit x1) n1    :        -          -          -    -          -
 +Average                       :    1.036     2131.7     1704.1 (  1 1.1)    2131.7
 +Highest                       :    0.434     5460.1     2762.5 (  2 1.8)    5460.1
 +
 +
 +* Matrix 4x4
 +                                  TIME(s)   MFLOPS      MOPS    FOP IPC  max MFLOPS
 +C++ code                      :    0.930     1927.2     1927.2 (  1 1.3)    1927.2
 +NEON vmla 128bit A            :    0.943     1899.5     1899.5 (  1 1.3)    1899.5
 +NEON vmla  64bit A            :    1.028     1742.8     1742.8 (  1 1.2)    1742.8
 +NEON vfma 128bit A            :        -          -          -    -          -
 +NEON vmla 128bit B            :    0.485     3695.1     3695.1 (  1 2.4)    3695.1
 +NEON vmla  64bit B            :    0.634     2826.9     2826.9 (  1 1.9)    2826.9
 +NEON vfma 128bit B            :        -          -          -    -          -
 +NEON vfma 128bit C            :        -          -          -    -          -
 +Average                       :    0.804     2418.3     2418.3 (  1 1.6)    2418.3
 +Highest                       :    0.485     3695.1     3695.1 (  1 2.4)    3695.1
 +
 +
 +* VFP/NEON (single fp) multi-thread
 +                                  TIME(s)   MFLOPS      MOPS    FOP IPC  max MFLOPS
 +VFP fmuls (32bit x1) n8       :    0.483     9932.3     2483.1 (  4 1.6)    9932.3
 +VFP fadds (32bit x1) n8       :    0.441    10888.0     2722.0 (  4 1.8)   10888.0
 +VFP fmacs (32bit x1) n8       :    0.637    15077.4     1884.7 (  8 1.2)   15077.4
 +VFP vfma.f32 (32bit x1) n8    :        -          -          -    -          -
 +NEON vmul.f32 (32bit x2) n8   :    0.442    21700.5     2712.6 (  8 1.8)   21700.5
 +NEON vadd.f32 (32bit x2) n8   :    0.422    22732.1     2841.5 (  8 1.9)   22732.1
 +NEON vmla.f32 (32bit x2) n8   :    0.442    43471.2     2716.9 ( 16 1.8)   43471.2
 +NEON vfma.f32 (32bit x2) n8   :        -          -          -    -          -
 +NEON vmul.f32 (32bit x4) n8   :    0.822    23351.4     1459.5 ( 16 1.0)   23351.4
 +NEON vadd.f32 (32bit x4) n8   :    0.820    23400.6     1462.5 ( 16 1.0)   23400.6
 +NEON vmla.f32 (32bit x4) n8   :    0.822    46723.9     1460.1 ( 32 1.0)   46723.9
 +NEON vfma.f32 (32bit x4) n8   :        -          -          -    -          -
 +VFP fmuls (32bit x1) ns4      :    0.801     5991.9     1498.0 (  4 1.0)    5991.9
 +VFP fadds (32bit x1) ns4      :    0.800     5998.0     1499.5 (  4 1.0)    5998.0
 +VFP fmacs (32bit x1) ns4      :    1.608     5970.4      746.3 (  8 0.5)    5970.4
 +VFP vfma.f32 (32bit x1) ns4   :        -          -          -    -          -
 +NEON vmul.f32 (32bit x2) ns4  :    0.800    11999.7     1500.0 (  8 1.0)   11999.7
 +NEON vadd.f32 (32bit x2) ns4  :    0.802    11968.6     1496.1 (  8 1.0)   11968.6
 +NEON vmla.f32 (32bit x2) ns4  :    1.616    11882.7      742.7 ( 16 0.5)   11882.7
 +NEON vfma.f32 (32bit x2) ns4  :        -          -          -    -          -
 +NEON vmul.f32 (32bit x4) ns4  :    0.820    23406.6     1462.9 ( 16 1.0)   23406.6
 +NEON vadd.f32 (32bit x4) ns4  :    0.820    23415.0     1463.4 ( 16 1.0)   23415.0
 +NEON vmla.f32 (32bit x4) ns4  :    1.602    23969.8      749.1 ( 32 0.5)   23969.8
 +NEON vfma.f32 (32bit x4) ns4  :        -          -          -    -          -
 +VFP fmuls (32bit x1) n1       :    0.813     5906.8     1476.7 (  4 1.0)    5906.8
 +VFP fadds (32bit x1) n1       :    0.803     5975.9     1494.0 (  4 1.0)    5975.9
 +VFP fmacs (32bit x1) n1       :    3.205     2995.4      374.4 (  8 0.2)    2995.4
 +VFP vfma.f32 (32bit x1) n1    :        -          -          -    -          -
 +NEON vmul.f32 (32bit x2) n1   :    0.801    11989.8     1498.7 (  8 1.0)   11989.8
 +NEON vadd.f32 (32bit x2) n1   :    0.800    12000.9     1500.1 (  8 1.0)   12000.9
 +NEON vmla.f32 (32bit x2) n1   :    3.202     5996.0      374.8 ( 16 0.2)    5996.0
 +NEON vfma.f32 (32bit x2) n1   :        -          -          -    -          -
 +NEON vmul.f32 (32bit x4) n1   :    0.821    23396.5     1462.3 ( 16 1.0)   23396.5
 +NEON vadd.f32 (32bit x4) n1   :    0.821    23380.9     1461.3 ( 16 1.0)   23380.9
 +NEON vmla.f32 (32bit x4) n1   :    3.206    11979.3      374.4 ( 32 0.2)   11979.3
 +NEON vfma.f32 (32bit x4) n1   :        -          -          -    -          -
 +NEON vmul.f32 (32bit x4) n12  :    1.222    23571.0     1473.2 ( 16 1.0)   23571.0
 +NEON vadd.f32 (32bit x4) n12  :    1.220    23611.0     1475.7 ( 16 1.0)   23611.0
 +NEON vmla.f32 (32bit x4) n12  :    1.220    47213.3     1475.4 ( 32 1.0)   47213.3
 +NEON vfma.f32 (32bit x4) n12  :        -          -          -    -          -
 +Average                       :    1.104    17996.6     1511.4 ( 13 1.0)   17996.6
 +Highest                       :    0.422    47213.3     2841.5 ( 32 1.9)   47213.3
 +
 +
 +* VFP/NEON (double fp) multi-thread
 +                                  TIME(s)   MFLOPS      MOPS    FOP IPC  max MFLOPS
 +VFP fmuld (64bit x1) n8       :    0.445    10788.2     2697.0 (  4 1.8)   10788.2
 +VFP faddd (64bit x1) n8       :    0.441    10882.6     2720.7 (  4 1.8)   10882.6
 +VFP fmacd (64bit x1) n8       :    0.442    21726.5     2715.8 (  8 1.8)   21726.5
 +VFP vfma.f64 (64bit x1) n8    :        -          -          -    -          -
 +VFP fmuld (64bit x1) ns4      :    0.800     6001.8     1500.4 (  4 1.0)    6001.8
 +VFP faddd (64bit x1) ns4      :    0.800     6002.3     1500.6 (  4 1.0)    6002.3
 +VFP fmacd (64bit x1) ns4      :    1.619     5929.5      741.2 (  8 0.5)    5929.5
 +VFP vfma.f64 (64bit x1) ns4   :        -          -          -    -          -
 +VFP fmuld (64bit x1) n1       :    0.801     5989.1     1497.3 (  4 1.0)    5989.1
 +VFP faddd (64bit x1) n1       :    0.800     5996.4     1499.1 (  4 1.0)    5996.4
 +VFP fmacd (64bit x1) n1       :    3.200     2999.8      375.0 (  8 0.2)    2999.8
 +VFP vfma.f64 (64bit x1) n1    :        -          -          -    -          -
 +Average                       :    1.039     8479.6     1694.1 (  5 1.1)    8479.6
 +Highest                       :    0.441    21726.5     2720.7 (  8 1.8)   21726.5
 +
 +
 +* Matrix 4x4 multi-thread
 +                                  TIME(s)   MFLOPS      MOPS    FOP IPC  max MFLOPS
 +C++ code                      :    0.952     7532.1     1883.0 (  4 1.2)    7532.1
 +NEON vmla 128bit A            :    0.944     7591.3     1897.8 (  4 1.3)    7591.3
 +NEON vmla  64bit A            :    1.032     6948.2     1737.0 (  4 1.1)    6948.2
 +NEON vfma 128bit A            :        -          -          -    -          -
 +NEON vmla 128bit B            :    0.486    14762.6     3690.7 (  4 2.4)   14762.6
 +NEON vmla  64bit B            :    0.635    11293.9     2823.5 (  4 1.9)   11293.9
 +NEON vfma 128bit B            :        -          -          -    -          -
 +NEON vfma 128bit C            :        -          -          -    -          -
 +Average                       :    0.810     9625.6     2406.4 (  4 1.6)    9625.6
 +Highest                       :    0.486    14762.6     3690.7 (  4 2.4)   14762.6
 +
 +
 +cpu0  1512000 408000
 +cpu1  1512000 408000
 +cpu2  1512000 408000
 +cpu3  1512000 408000
 +cpu4  2016000 408000
 +cpu5  2016000 408000
 +
 +processor : 0
 +model name : ARMv8 Processor rev 4 (v8l)
 +BogoMIPS : 48.00
 +Features : half thumb fastmult vfp edsp neon vfpv3 tls vfpv4 idiva idivt lpae evtstrm aes pmull sha1 sha2 crc32
 +CPU implementer : 0x41
 +CPU architecture: 8
 +CPU variant : 0x0
 +CPU part : 0xd03
 +CPU revision : 4
 +
 +processor : 1
 +model name : ARMv8 Processor rev 4 (v8l)
 +BogoMIPS : 48.00
 +Features : half thumb fastmult vfp edsp neon vfpv3 tls vfpv4 idiva idivt lpae evtstrm aes pmull sha1 sha2 crc32
 +CPU implementer : 0x41
 +CPU architecture: 8
 +CPU variant : 0x0
 +CPU part : 0xd03
 +CPU revision : 4
 +
 +processor : 2
 +model name : ARMv8 Processor rev 4 (v8l)
 +BogoMIPS : 48.00
 +Features : half thumb fastmult vfp edsp neon vfpv3 tls vfpv4 idiva idivt lpae evtstrm aes pmull sha1 sha2 crc32
 +CPU implementer : 0x41
 +CPU architecture: 8
 +CPU variant : 0x0
 +CPU part : 0xd03
 +CPU revision : 4
 +
 +processor : 3
 +model name : ARMv8 Processor rev 4 (v8l)
 +BogoMIPS : 48.00
 +Features : half thumb fastmult vfp edsp neon vfpv3 tls vfpv4 idiva idivt lpae evtstrm aes pmull sha1 sha2 crc32
 +CPU implementer : 0x41
 +CPU architecture: 8
 +CPU variant : 0x0
 +CPU part : 0xd03
 +CPU revision : 4
 +
 +processor : 4
 +model name : ARMv8 Processor rev 2 (v8l)
 +BogoMIPS : 48.00
 +Features : half thumb fastmult vfp edsp neon vfpv3 tls vfpv4 idiva idivt lpae evtstrm aes pmull sha1 sha2 crc32
 +CPU implementer : 0x41
 +CPU architecture: 8
 +CPU variant : 0x0
 +CPU part : 0xd08
 +CPU revision : 2
 +
 +processor : 5
 +model name : ARMv8 Processor rev 2 (v8l)
 +BogoMIPS : 48.00
 +Features : half thumb fastmult vfp edsp neon vfpv3 tls vfpv4 idiva idivt lpae evtstrm aes pmull sha1 sha2 crc32
 +CPU implementer : 0x41
 +CPU architecture: 8
 +CPU variant : 0x0
 +CPU part : 0xd08
 +CPU revision : 2
 +
 +
 +ARMv8 Processor rev 4 (v8l)
 +
 +2019/01/05 16:05:42 
 +</code>
 +
 +
 +
 +++++
  
  
行 9709: 行 11230:
  
  
-++++Nexus 5X Snapdragon 808 MSM8992 big core A57 1.82GHz x4 ARM64 (AArch64) android 8.1|+++++Nexus 5X Snapdragon 808 MSM8992 big core A57 1.82GHz x2 ARM64 (AArch64) android 8.1|
  
 <code> <code>
行 10280: 行 11801:
  
 ++++ ++++
 +
 +
 +
 +
 +
 +
 +
 +++++Chromebook Flip C101PA RK3399 big core 2.0GHz x2 ARM64 (AArch64) android 7.1|
 +
 +<code>
 +Date: 20200808 172338
 +ARCH: ARMv7A
 +FPU : VFPv4-D32 NEON
 +Name: RK3399 ChromebookFlipC101PA
 +CPU Thread:  6
 +CPU Core  :  6
 +CPU Group :  2
 +  Group 0: Thread= 4  Clock=1.512000 GHz  (mask:f)
 +  Group 1: Thread= 2  Clock=2.016000 GHz  (mask:30)
 +NEON   : yes
 +FMA    : yes
 +FPHP   : no
 +SIMDHP : no
 +DotProd: no
 +
 +Total:
 +SingleThread HP max: -
 +SingleThread SP max:   16.062 GFLOPS
 +SingleThread DP max:    8.030 GFLOPS
 +MultiThread  HP max: -
 +MultiThread  SP max:   79.036 GFLOPS
 +MultiThread  DP max:   37.760 GFLOPS
 +
 +Group 0:  Thread=4  Clock=1.512000 GHz  (mask:f)
 +  SingleThread HP max: -
 +  SingleThread SP max:   11.801 GFLOPS
 +  SingleThread DP max:    5.459 GFLOPS
 +  MultiThread  HP max: -
 +  MultiThread  SP max:   46.919 GFLOPS
 +  MultiThread  DP max:   21.746 GFLOPS
 +
 +Group 1:  Thread=2  Clock=2.016000 GHz  (mask:30)
 +  SingleThread HP max: -
 +  SingleThread SP max:   16.062 GFLOPS
 +  SingleThread DP max:    8.030 GFLOPS
 +  MultiThread  HP max: -
 +  MultiThread  SP max:   32.117 GFLOPS
 +  MultiThread  DP max:   16.013 GFLOPS
 +
 +
 +* Group 0:  Thread=1  Clock=1.512000 GHz  (mask:f)
 +* VFP/NEON (SP fp)
 +                                  TIME(s)   MFLOPS      MOPS     FOP   IPC
 +VFP fmuls (32bit x1) n8       :    0.364     2490.4     2490.4  (  1.0 1.6)
 +VFP fadds (32bit x1) n8       :    0.327     2771.8     2771.8  (  1.0 1.8)
 +VFP fmacs (32bit x1) n8       :    0.522     3475.3     1737.6  (  2.0 1.1)
 +VFP vfma.f32 (32bit x1) n8    :        -          -          -         -
 +NEON vmul.f32 (32bit x2) n8   :    0.318     5712.4     2856.2  (  2.0 1.9)
 +NEON vadd.f32 (32bit x2) n8   :    0.326     5558.3     2779.2  (  2.0 1.8)
 +NEON vmla.f32 (32bit x2) n8   :    0.580     6254.5     1563.6  (  4.0 1.0)
 +NEON vfma.f32 (32bit x2) n8   :        -          -          -         -
 +NEON vmul.f32 (32bit x4) n8   :    0.621     5841.3     1460.3  (  4.0 1.0)
 +NEON vadd.f32 (32bit x4) n8   :    0.621     5846.3     1461.6  (  4.0 1.0)
 +NEON vmla.f32 (32bit x4) n8   :    0.621    11687.8     1461.0  (  8.0 1.0)
 +NEON vfma.f32 (32bit x4) n8   :        -          -          -         -
 +VFP fmuls (32bit x1) ns4      :    0.606     1496.2     1496.2  (  1.0 1.0)
 +VFP fadds (32bit x1) ns4      :    0.607     1495.3     1495.3  (  1.0 1.0)
 +VFP fmacs (32bit x1) ns4      :    1.210     1499.1      749.5  (  2.0 0.5)
 +VFP vfma.f32 (32bit x1) ns4   :        -          -          -         -
 +NEON vmul.f32 (32bit x2) ns4  :    0.604     3001.9     1500.9  (  2.0 1.0)
 +NEON vadd.f32 (32bit x2) ns4  :    0.605     3001.0     1500.5  (  2.0 1.0)
 +NEON vmla.f32 (32bit x2) ns4  :    1.221     2972.8      743.2  (  4.0 0.5)
 +NEON vfma.f32 (32bit x2) ns4  :        -          -          -         -
 +NEON vmul.f32 (32bit x4) ns4  :    0.620     5852.9     1463.2  (  4.0 1.0)
 +NEON vadd.f32 (32bit x4) ns4  :    0.619     5857.8     1464.4  (  4.0 1.0)
 +NEON vmla.f32 (32bit x4) ns4  :    1.209     6004.6      750.6  (  8.0 0.5)
 +NEON vfma.f32 (32bit x4) ns4  :        -          -          -         -
 +VFP fmuls (32bit x1) n1       :    0.604     1501.2     1501.2  (  1.0 1.0)
 +VFP fadds (32bit x1) n1       :    0.604     1501.3     1501.3  (  1.0 1.0)
 +VFP fmacs (32bit x1) n1       :    2.417      750.6      375.3  (  2.0 0.2)
 +VFP vfma.f32 (32bit x1) n1    :        -          -          -         -
 +NEON vmul.f32 (32bit x2) n1   :    0.604     3002.7     1501.4  (  2.0 1.0)
 +NEON vadd.f32 (32bit x2) n1   :    0.604     3002.7     1501.4  (  2.0 1.0)
 +NEON vmla.f32 (32bit x2) n1   :    2.417     1501.4      375.3  (  4.0 0.2)
 +NEON vfma.f32 (32bit x2) n1   :        -          -          -         -
 +NEON vmul.f32 (32bit x4) n1   :    0.619     5858.7     1464.7  (  4.0 1.0)
 +NEON vadd.f32 (32bit x4) n1   :    0.619     5858.7     1464.7  (  4.0 1.0)
 +NEON vmla.f32 (32bit x4) n1   :    2.417     3002.2      375.3  (  8.0 0.2)
 +NEON vfma.f32 (32bit x4) n1   :        -          -          -         -
 +NEON vmul.f32 (32bit x4) n12  :    0.922     5901.4     1475.3  (  4.0 1.0)
 +NEON vadd.f32 (32bit x4) n12  :    0.922     5903.3     1475.8  (  4.0 1.0)
 +NEON vmla.f32 (32bit x4) n12  :    0.923    11800.8     1475.1  (  8.0 1.0)
 +NEON vfma.f32 (32bit x4) n12  :        -          -          -         -
 +Average                       :    0.843     4346.8     1474.4  (  3.3 1.0)
 +Highest                       :    0.318    11800.8     2856.2  (  8.0 1.9)
 +
 +
 +* Group 0:  Thread=1  Clock=1.512000 GHz  (mask:f)
 +* VFP/NEON (DP fp)
 +                                  TIME(s)   MFLOPS      MOPS     FOP   IPC
 +VFP fmuld (64bit x1) n8       :    0.345     2629.7     2629.7  (  1.0 1.7)
 +VFP faddd (64bit x1) n8       :    0.317     2859.4     2859.4  (  1.0 1.9)
 +VFP fmacd (64bit x1) n8       :    0.332     5459.3     2729.6  (  2.0 1.8)
 +VFP vfma.f64 (64bit x1) n8    :        -          -          -         -
 +VFP fmuld (64bit x1) ns4      :    0.604     1501.0     1501.0  (  1.0 1.0)
 +VFP faddd (64bit x1) ns4      :    0.604     1501.2     1501.2  (  1.0 1.0)
 +VFP fmacd (64bit x1) ns4      :    1.218     1489.6      744.8  (  2.0 0.5)
 +VFP vfma.f64 (64bit x1) ns4   :        -          -          -         -
 +VFP fmuld (64bit x1) n1       :    0.605     1500.4     1500.4  (  1.0 1.0)
 +VFP faddd (64bit x1) n1       :    0.604     1501.1     1501.1  (  1.0 1.0)
 +VFP fmacd (64bit x1) n1       :    2.419      750.1      375.1  (  2.0 0.2)
 +VFP vfma.f64 (64bit x1) n1    :        -          -          -         -
 +Average                       :    0.783     2132.4     1704.7  (  1.3 1.1)
 +Highest                       :    0.317     5459.3     2859.4  (  2.0 1.9)
 +
 +
 +* Group 0:  Thread=4  Clock=1.512000 GHz  (mask:f)
 +* VFP/NEON (SP fp) multi-thread
 +                                  TIME(s)   MFLOPS      MOPS     FOP   IPC
 +VFP fmuls (32bit x1) n8       :    0.339    10701.7     2675.4  (  4.0 1.8)
 +VFP fadds (32bit x1) n8       :    0.323    11245.3     2811.3  (  4.0 1.9)
 +VFP fmacs (32bit x1) n8       :    0.527    13773.3     1721.7  (  8.0 1.1)
 +VFP vfma.f32 (32bit x1) n8    :        -          -          -         -
 +NEON vmul.f32 (32bit x2) n8   :    0.322    22549.4     2818.7  (  8.0 1.9)
 +NEON vadd.f32 (32bit x2) n8   :    0.328    22128.0     2766.0  (  8.0 1.8)
 +NEON vmla.f32 (32bit x2) n8   :    0.591    24570.6     1535.7  ( 16.0 1.0)
 +NEON vfma.f32 (32bit x2) n8   :        -          -          -         -
 +NEON vmul.f32 (32bit x4) n8   :    0.626    23194.3     1449.6  ( 16.0 1.0)
 +NEON vadd.f32 (32bit x4) n8   :    0.630    23050.2     1440.6  ( 16.0 1.0)
 +NEON vmla.f32 (32bit x4) n8   :    0.630    46066.7     1439.6  ( 32.0 1.0)
 +NEON vfma.f32 (32bit x4) n8   :        -          -          -         -
 +VFP fmuls (32bit x1) ns4      :    0.613     5915.5     1478.9  (  4.0 1.0)
 +VFP fadds (32bit x1) ns4      :    0.608     5971.0     1492.8  (  4.0 1.0)
 +VFP fmacs (32bit x1) ns4      :    1.219     5952.8      744.1  (  8.0 0.5)
 +VFP vfma.f32 (32bit x1) ns4   :        -          -          -         -
 +NEON vmul.f32 (32bit x2) ns4  :    0.609    11918.0     1489.8  (  8.0 1.0)
 +NEON vadd.f32 (32bit x2) ns4  :    0.607    11947.7     1493.5  (  8.0 1.0)
 +NEON vmla.f32 (32bit x2) ns4  :    1.227    11827.9      739.2  ( 16.0 0.5)
 +NEON vfma.f32 (32bit x2) ns4  :        -          -          -         -
 +NEON vmul.f32 (32bit x4) ns4  :    0.623    23296.9     1456.1  ( 16.0 1.0)
 +NEON vadd.f32 (32bit x4) ns4  :    0.623    23288.7     1455.5  ( 16.0 1.0)
 +NEON vmla.f32 (32bit x4) ns4  :    1.214    23903.3      747.0  ( 32.0 0.5)
 +NEON vfma.f32 (32bit x4) ns4  :        -          -          -         -
 +VFP fmuls (32bit x1) n1       :    0.612     5934.1     1483.5  (  4.0 1.0)
 +VFP fadds (32bit x1) n1       :    0.609     5958.9     1489.7  (  4.0 1.0)
 +VFP fmacs (32bit x1) n1       :    2.438     2977.1      372.1  (  8.0 0.2)
 +VFP vfma.f32 (32bit x1) n1    :        -          -          -         -
 +NEON vmul.f32 (32bit x2) n1   :    0.609    11916.6     1489.6  (  8.0 1.0)
 +NEON vadd.f32 (32bit x2) n1   :    0.609    11913.6     1489.2  (  8.0 1.0)
 +NEON vmla.f32 (32bit x2) n1   :    2.439     5950.3      371.9  ( 16.0 0.2)
 +NEON vfma.f32 (32bit x2) n1   :        -          -          -         -
 +NEON vmul.f32 (32bit x4) n1   :    0.626    23197.0     1449.8  ( 16.0 1.0)
 +NEON vadd.f32 (32bit x4) n1   :    0.626    23180.7     1448.8  ( 16.0 1.0)
 +NEON vmla.f32 (32bit x4) n1   :    2.440    11897.9      371.8  ( 32.0 0.2)
 +NEON vfma.f32 (32bit x4) n1   :        -          -          -         -
 +NEON vmul.f32 (32bit x4) n12  :    0.929    23441.0     1465.1  ( 16.0 1.0)
 +NEON vadd.f32 (32bit x4) n12  :    0.930    23401.3     1462.6  ( 16.0 1.0)
 +NEON vmla.f32 (32bit x4) n12  :    0.928    46918.9     1466.2  ( 32.0 1.0)
 +NEON vfma.f32 (32bit x4) n12  :        -          -          -         -
 +Average                       :    0.848    17266.3     1470.5  ( 13.3 1.0)
 +Highest                       :    0.322    46918.9     2818.7  ( 32.0 1.9)
 +
 +
 +* Group 0:  Thread=4  Clock=1.512000 GHz  (mask:f)
 +* VFP/NEON (DP fp) multi-thread
 +                                  TIME(s)   MFLOPS      MOPS     FOP   IPC
 +VFP fmuld (64bit x1) n8       :    0.354    10241.0     2560.2  (  4.0 1.7)
 +VFP faddd (64bit x1) n8       :    0.320    11325.3     2831.3  (  4.0 1.9)
 +VFP fmacd (64bit x1) n8       :    0.334    21746.4     2718.3  (  8.0 1.8)
 +VFP vfma.f64 (64bit x1) n8    :        -          -          -         -
 +VFP fmuld (64bit x1) ns4      :    0.608     5969.4     1492.3  (  4.0 1.0)
 +VFP faddd (64bit x1) ns4      :    0.608     5965.2     1491.3  (  4.0 1.0)
 +VFP fmacd (64bit x1) ns4      :    1.224     5930.4      741.3  (  8.0 0.5)
 +VFP vfma.f64 (64bit x1) ns4   :        -          -          -         -
 +VFP fmuld (64bit x1) n1       :    0.609     5957.9     1489.5  (  4.0 1.0)
 +VFP faddd (64bit x1) n1       :    0.609     5961.5     1490.4  (  4.0 1.0)
 +VFP fmacd (64bit x1) n1       :    2.432     2984.7      373.1  (  8.0 0.2)
 +VFP vfma.f64 (64bit x1) n1    :        -          -          -         -
 +Average                       :    0.789     8453.5     1687.5  (  5.3 1.1)
 +Highest                       :    0.320    21746.4     2831.3  (  8.0 1.9)
 +
 +
 +* Group 1:  Thread=1  Clock=2.016000 GHz  (mask:30)
 +* VFP/NEON (SP fp)
 +                                  TIME(s)   MFLOPS      MOPS     FOP   IPC
 +VFP fmuls (32bit x1) n8       :    0.340     3559.3     3559.3  (  1.0 1.8)
 +VFP fadds (32bit x1) n8       :    0.301     4012.0     4012.0  (  1.0 2.0)
 +VFP fmacs (32bit x1) n8       :    0.301     8027.5     4013.8  (  2.0 2.0)
 +VFP vfma.f32 (32bit x1) n8    :        -          -          -         -
 +NEON vmul.f32 (32bit x2) n8   :    0.303     7981.7     3990.8  (  2.0 2.0)
 +NEON vadd.f32 (32bit x2) n8   :    0.301     8027.1     4013.6  (  2.0 2.0)
 +NEON vmla.f32 (32bit x2) n8   :    0.302    16030.0     4007.5  (  4.0 2.0)
 +NEON vfma.f32 (32bit x2) n8   :        -          -          -         -
 +NEON vmul.f32 (32bit x4) n8   :    0.603     8028.6     2007.2  (  4.0 1.0)
 +NEON vadd.f32 (32bit x4) n8   :    0.602     8030.9     2007.7  (  4.0 1.0)
 +NEON vmla.f32 (32bit x4) n8   :    0.603    16059.9     2007.5  (  8.0 1.0)
 +NEON vfma.f32 (32bit x4) n8   :        -          -          -         -
 +VFP fmuls (32bit x1) ns4      :    0.602     2007.7     2007.7  (  1.0 1.0)
 +VFP fadds (32bit x1) ns4      :    0.602     2007.8     2007.8  (  1.0 1.0)
 +VFP fmacs (32bit x1) ns4      :    1.054     2294.9     1147.5  (  2.0 0.6)
 +VFP vfma.f32 (32bit x1) ns4   :        -          -          -         -
 +NEON vmul.f32 (32bit x2) ns4  :    0.602     4015.8     2007.9  (  2.0 1.0)
 +NEON vadd.f32 (32bit x2) ns4  :    0.602     4015.8     2007.9  (  2.0 1.0)
 +NEON vmla.f32 (32bit x2) ns4  :    1.054     4589.3     1147.3  (  4.0 0.6)
 +NEON vfma.f32 (32bit x2) ns4  :        -          -          -         -
 +NEON vmul.f32 (32bit x4) ns4  :    0.602     8031.7     2007.9  (  4.0 1.0)
 +NEON vadd.f32 (32bit x4) ns4  :    0.602     8032.5     2008.1  (  4.0 1.0)
 +NEON vmla.f32 (32bit x4) ns4  :    1.055     9176.5     1147.1  (  8.0 0.6)
 +NEON vfma.f32 (32bit x4) ns4  :        -          -          -         -
 +VFP fmuls (32bit x1) n1       :    0.301     4015.6     4015.6  (  1.0 2.0)
 +VFP fadds (32bit x1) n1       :    0.301     4016.1     4016.1  (  1.0 2.0)
 +VFP fmacs (32bit x1) n1       :    1.807     1338.5      669.2  (  2.0 0.3)
 +VFP vfma.f32 (32bit x1) n1    :        -          -          -         -
 +NEON vmul.f32 (32bit x2) n1   :    0.301     8032.3     4016.1  (  2.0 2.0)
 +NEON vadd.f32 (32bit x2) n1   :    0.301     8032.0     4016.0  (  2.0 2.0)
 +NEON vmla.f32 (32bit x2) n1   :    1.808     2676.4      669.1  (  4.0 0.3)
 +NEON vfma.f32 (32bit x2) n1   :        -          -          -         -
 +NEON vmul.f32 (32bit x4) n1   :    0.602     8031.9     2008.0  (  4.0 1.0)
 +NEON vadd.f32 (32bit x4) n1   :    0.602     8031.2     2007.8  (  4.0 1.0)
 +NEON vmla.f32 (32bit x4) n1   :    1.807     5354.1      669.3  (  8.0 0.3)
 +NEON vfma.f32 (32bit x4) n1   :        -          -          -         -
 +NEON vmul.f32 (32bit x4) n12  :    0.904     8031.2     2007.8  (  4.0 1.0)
 +NEON vadd.f32 (32bit x4) n12  :    0.904     8031.0     2007.8  (  4.0 1.0)
 +NEON vmla.f32 (32bit x4) n12  :    0.904    16062.4     2007.8  (  8.0 1.0)
 +NEON vfma.f32 (32bit x4) n12  :        -          -          -         -
 +Average                       :    0.699     6852.7     2440.6  (  3.3 1.2)
 +Highest                       :    0.301    16062.4     4016.1  (  8.0 2.0)
 +
 +
 +* Group 1:  Thread=1  Clock=2.016000 GHz  (mask:30)
 +* VFP/NEON (DP fp)
 +                                  TIME(s)   MFLOPS      MOPS     FOP   IPC
 +VFP fmuld (64bit x1) n8       :    0.328     3682.8     3682.8  (  1.0 1.8)
 +VFP faddd (64bit x1) n8       :    0.301     4014.0     4014.0  (  1.0 2.0)
 +VFP fmacd (64bit x1) n8       :    0.301     8030.1     4015.1  (  2.0 2.0)
 +VFP vfma.f64 (64bit x1) n8    :        -          -          -         -
 +VFP fmuld (64bit x1) ns4      :    0.602     2008.1     2008.1  (  1.0 1.0)
 +VFP faddd (64bit x1) ns4      :    0.603     2007.6     2007.6  (  1.0 1.0)
 +VFP fmacd (64bit x1) ns4      :    1.054     2294.8     1147.4  (  2.0 0.6)
 +VFP vfma.f64 (64bit x1) ns4   :        -          -          -         -
 +VFP fmuld (64bit x1) n1       :    0.301     4016.3     4016.3  (  1.0 2.0)
 +VFP faddd (64bit x1) n1       :    0.301     4016.1     4016.1  (  1.0 2.0)
 +VFP fmacd (64bit x1) n1       :    1.807     1338.6      669.3  (  2.0 0.3)
 +VFP vfma.f64 (64bit x1) n1    :        -          -          -         -
 +Average                       :    0.622     3489.8     2841.8  (  1.3 1.4)
 +Highest                       :    0.301     8030.1     4016.3  (  2.0 2.0)
 +
 +
 +* Group 1:  Thread=2  Clock=2.016000 GHz  (mask:30)
 +* VFP/NEON (SP fp) multi-thread
 +                                  TIME(s)   MFLOPS      MOPS     FOP   IPC
 +VFP fmuls (32bit x1) n8       :    0.333     7254.2     3627.1  (  2.0 1.8)
 +VFP fadds (32bit x1) n8       :    0.302     8015.4     4007.7  (  2.0 2.0)
 +VFP fmacs (32bit x1) n8       :    0.302    16041.3     4010.3  (  4.0 2.0)
 +VFP vfma.f32 (32bit x1) n8    :        -          -          -         -
 +NEON vmul.f32 (32bit x2) n8   :    0.302    16035.5     4008.9  (  4.0 2.0)
 +NEON vadd.f32 (32bit x2) n8   :    0.302    16042.2     4010.5  (  4.0 2.0)
 +NEON vmla.f32 (32bit x2) n8   :    0.302    32089.1     4011.1  (  8.0 2.0)
 +NEON vfma.f32 (32bit x2) n8   :        -          -          -         -
 +NEON vmul.f32 (32bit x4) n8   :    0.603    16045.3     2005.7  (  8.0 1.0)
 +NEON vadd.f32 (32bit x4) n8   :    0.605    16007.0     2000.9  (  8.0 1.0)
 +NEON vmla.f32 (32bit x4) n8   :    0.605    32014.0     2000.9  ( 16.0 1.0)
 +NEON vfma.f32 (32bit x4) n8   :        -          -          -         -
 +VFP fmuls (32bit x1) ns4      :    0.603     4014.7     2007.3  (  2.0 1.0)
 +VFP fadds (32bit x1) ns4      :    0.603     4014.0     2007.0  (  2.0 1.0)
 +VFP fmacs (32bit x1) ns4      :    1.055     4584.5     1146.1  (  4.0 0.6)
 +VFP vfma.f32 (32bit x1) ns4   :        -          -          -         -
 +NEON vmul.f32 (32bit x2) ns4  :    0.602     8033.0     2008.3  (  4.0 1.0)
 +NEON vadd.f32 (32bit x2) ns4  :    0.603     8027.9     2007.0  (  4.0 1.0)
 +NEON vmla.f32 (32bit x2) ns4  :    1.055     9173.4     1146.7  (  8.0 0.6)
 +NEON vfma.f32 (32bit x2) ns4  :        -          -          -         -
 +NEON vmul.f32 (32bit x4) ns4  :    0.603    16058.0     2007.2  (  8.0 1.0)
 +NEON vadd.f32 (32bit x4) ns4  :    0.602    16066.4     2008.3  (  8.0 1.0)
 +NEON vmla.f32 (32bit x4) ns4  :    1.054    18359.9     1147.5  ( 16.0 0.6)
 +NEON vfma.f32 (32bit x4) ns4  :        -          -          -         -
 +VFP fmuls (32bit x1) n1       :    0.301     8028.9     4014.4  (  2.0 2.0)
 +VFP fadds (32bit x1) n1       :    0.301     8032.6     4016.3  (  2.0 2.0)
 +VFP fmacs (32bit x1) n1       :    1.808     2675.9      669.0  (  4.0 0.3)
 +VFP vfma.f32 (32bit x1) n1    :        -          -          -         -
 +NEON vmul.f32 (32bit x2) n1   :    0.302    16018.6     4004.7  (  4.0 2.0)
 +NEON vadd.f32 (32bit x2) n1   :    0.301    16058.4     4014.6  (  4.0 2.0)
 +NEON vmla.f32 (32bit x2) n1   :    1.807     5354.2      669.3  (  8.0 0.3)
 +NEON vfma.f32 (32bit x2) n1   :        -          -          -         -
 +NEON vmul.f32 (32bit x4) n1   :    0.603    16043.5     2005.4  (  8.0 1.0)
 +NEON vadd.f32 (32bit x4) n1   :    0.603    16041.9     2005.2  (  8.0 1.0)
 +NEON vmla.f32 (32bit x4) n1   :    1.808    10706.7      669.2  ( 16.0 0.3)
 +NEON vfma.f32 (32bit x4) n1   :        -          -          -         -
 +NEON vmul.f32 (32bit x4) n12  :    0.904    16062.1     2007.8  (  8.0 1.0)
 +NEON vadd.f32 (32bit x4) n12  :    0.904    16063.5     2007.9  (  8.0 1.0)
 +NEON vmla.f32 (32bit x4) n12  :    0.904    32117.4     2007.3  ( 16.0 1.0)
 +NEON vfma.f32 (32bit x4) n12  :        -          -          -         -
 +Average                       :    0.699    13702.7     2442.0  (  6.7 1.2)
 +Highest                       :    0.301    32117.4     4016.3  ( 16.0 2.0)
 +
 +
 +* Group 1:  Thread=2  Clock=2.016000 GHz  (mask:30)
 +* VFP/NEON (DP fp) multi-thread
 +                                  TIME(s)   MFLOPS      MOPS     FOP   IPC
 +VFP fmuld (64bit x1) n8       :    0.302     8011.4     4005.7  (  2.0 2.0)
 +VFP faddd (64bit x1) n8       :    0.301     8032.8     4016.4  (  2.0 2.0)
 +VFP fmacd (64bit x1) n8       :    0.302    16013.5     4003.4  (  4.0 2.0)
 +VFP vfma.f64 (64bit x1) n8    :        -          -          -         -
 +VFP fmuld (64bit x1) ns4      :    0.602     4015.5     2007.8  (  2.0 1.0)
 +VFP faddd (64bit x1) ns4      :    0.603     4013.0     2006.5  (  2.0 1.0)
 +VFP fmacd (64bit x1) ns4      :    1.063     4552.2     1138.1  (  4.0 0.6)
 +VFP vfma.f64 (64bit x1) ns4   :        -          -          -         -
 +VFP fmuld (64bit x1) n1       :    0.301     8029.8     4014.9  (  2.0 2.0)
 +VFP faddd (64bit x1) n1       :    0.302     8014.6     4007.3  (  2.0 2.0)
 +VFP fmacd (64bit x1) n1       :    1.807     2677.1      669.3  (  4.0 0.3)
 +VFP vfma.f64 (64bit x1) n1    :        -          -          -         -
 +Average                       :    0.620     7040.0     2874.4  (  2.7 1.4)
 +Highest                       :    0.301    16013.5     4016.4  (  4.0 2.0)
 +
 +</code>
 +
 +++++
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
  
  
行 11790: 行 13642:
  
 <code> <code>
-Windows 10 1703 bash +Date: 20200808 132716 
-Skylake Core i7-6700K 4.0GHz (4.2GHz) +ARCH: x64 (x86_64) 
-RAM 32GB+FPU : SSE SSE2 SSSE3 SSE4.1 SSE4.2 AVX AVX2 FMA3 F16C 
 +Name: Intel(R) Core(TM) i7-6700K CPU @ 4.00GHz
  
 +CPU Thread:  8
 +CPU Core  :  4
 +CPU Group :  1
 +  Group 0: Thread= 8  Clock=4.200000 GHz  (mask:ff)
 +SSE   : yes
 +AVX   : yes
 +FMA   : yes
 +F16C  : yes
 +AVX512: no
  
-ARCHx64 +Total
-FPUSSSE3 SSE4.1 SSE4.2 AVX FMA3 +SingleThread HP max- 
-SingleT SP max: 132.274 GFLOPS +SingleThread SP max:  135.532 GFLOPS 
-SingleT DP max: 62.904 GFLOPS +SingleThread DP max:   67.709 GFLOPS 
-MultiT  SP max: 511.630 GFLOPS +MultiThread  HP max: - 
-MultiT  DP max: 255.417 GFLOPS +MultiThread  SP max:  537.822 GFLOPS 
-CPU core: 8 +MultiThread  DP max:  271.106 GFLOPS
-SSE: yes +
-AVX: yes +
-FMA: yes+
  
-* SSE/AVX (single fp) +Group 0:  Thread=8  Clock=4.200000 GHz  (mask:ff
-SSE mulss (32bit x1) n8       :    0.149     8068.1     8068.1 +  SingleThread HP max- 
-SSE addss (32bit x1) n8          0.152     7909.3     7909.3 +  SingleThread SP max 135.532 GFLOPS 
-FMA vfmaddss (32bit x1) n8    :    0.152    15775.5    15775.5 +  SingleThread DP max:   67.709 GFLOPS 
-SSE mulps (32bit x4) n8       :    0.152    31539.7    31539.7 +  MultiThread  HP max- 
-SSE addps (32bit x4) n8       :    0.152    31566.9    31566.9 +  MultiThread  SP max 537.822 GFLOPS 
-SSE mul+addps (32bit x4) n8   :    0.152    31641.   31641.+  MultiThread  DP max 271.106 GFLOPS
-FMA vfmaddss (32bit x4) n8       0.152    63126.7    63126.7 +
-SSE ml+ad+addps (32bit x4n6 :    0.171    31570.6    31570.6 +
-SSE mulss (32bit x1) ns4         0.300     3994.6     3994.6 +
-SSE addss (32bit x1) ns4         0.292     4116.5     4116.5 +
-SSE mulps (32bit x4) ns4      :    0.291    16488.3    16488.3 +
-SSE addps (32bit x4) ns4      :    0.292    16411.6    16411.6 +
-AVX vmulps (32bit x8) n8      :    0.145    66011.1    66011.1 +
-AVX vaddps (32bit x8) n8      :    0.146    65962.6    65962.6 +
-AVX vmul+addps (32bit x8) n8  :    0.145    66190.5    66190.5 +
-FMA vfmaddps (32bit x8) n8    :    0.145   132274.2   132274.2 +
-AVX vml+ad+adps (32bit x8) n6    0.315    34266.1    34266.1 +
-Average                          0.194    36877.3    36877.3 +
-Highest                          0.145   132274.2   132274.2+
  
  
-* SSE/AVX (double fp) +* Group 0:  Thread=1  Clock=4.200000 GHz  (mask:ff) 
-SSE2 mulsd (64bit x1) n8      :    0.146     8234.    8234.5 +* SSE/AVX (SP fp) 
-SSE2 addsd (64bit x1) n8      :    0.144     8312.    8312.1 +                                  TIME(s)   MFLOPS      MOPS     FOP   IPC 
-FMA  vfmaddsd (64bit x1) n8   :    0.145    16518.1    16518.1 +SSE mulss (32bit x1) n8       :    0.314     8036.    8036.7  (  1.0 1.9) 
-SSE2 mulpd (64bit x2) n8      :    0.148    16244.0    16244.0 +SSE addss (32bit x1) n8       :    0.299     8435.    8435.2  (  1.0 2.0) 
-SSE2 addpd (64bit x2) n8      :    0.152    15782.7    15782.7 +FMA vfmaddss (32bit x1) n8    :    0.298    16933.9     8466.9  (  2.0 2.0) 
-SSE2 mul+addpd (64bit x2) n8  :    0.151    15845.7    15845.7 +FMA vfmaddss (32bit x1) n12   :    0.451    16747.6     8373.8  (  2.0 2.0) 
-FMA  vfmaddsd (64bit x2) n8   :    0.152    31645.   31645.4 +FMA vfma+mlss (32bit x1) n12  :    0.452    12544.3     8362.9  (  1.5 2.0) 
-SSE2 ml+ad+dpd (64bit x2n6  :    0.171    15830.9    15830.9 +FMA vfma+adss (32bit x1) n12  :    0.446    12702.3     8468.2  (  1.5 2.0) 
-SSE2 mulsd (64bit x1) ns4     :    0.304     3942.    3942.7 +SSE mulps (32bit x4) n8       :    0.299    33723.0     8430.7  (  4.0 2.0) 
-SSE2 addsd (64bit x1) ns4     :    0.305     3929.    3929.9 +SSE addps (32bit x4) n8       :    0.298    33872.9     8468.2  (  4.0 2.0) 
-SSE2 mulpd (64bit x2) ns4     :    0.302     7959.    7959.1 +SSE mul+addps (32bit x4) n8   :    0.298    33872.0     8468.0  (  4.0 2.0) 
-SSE2 addpd (64bit x2) ns4     :    0.305     7860.    7860.2 +FMA vfmaddps (32bit x4) n8    :    0.298    67741.0     8467.6  (  8.0 2.0) 
-AVX vmulpd (64bit x4) n8      :    0.153    31454.4    31454.4 +FMA vfmaddps (32bit x4) n12   :    0.446    67744.5     8468.1  (  8.0 2.0) 
-AVX vaddpd (64bit x4) n8      :    0.152    31618.7    31618.7 +FMA vfma+mlps (32bit x4) n12  :    0.446    50806.3     8467.7  (  6.0 2.0) 
-AVX vmul+addpd (64bit x4) n8  :    0.151    31715.6    31715.6 +FMA vfma+adps (32bit x4) n12  :    0.449    50565.6     8427.6  (  6.0 2.0) 
-FMA vfmaddpd (64bit x4) n8    :    0.153    62904.2    62904.2 +SSE ml+ad+adps (32bit x4n9  :    0.340    33329.9     8332.5  (  4.0 2.0) 
-AVX vml_ad_adpd (64bit x4n6 :    0.172    31460.   31460.6 +SSE mulss (32bit x1) ns4      :    0.595     4235.    4235.6  (  1.0 1.0) 
-Average                       :    0.189    20074.0    20074.0 +SSE addss (32bit x1) ns4      :    0.595     4235.    4235.7  (  1.0 1.0) 
-Highest                       :    0.144    62904.2    62904.2+SSE mulps (32bit x4) ns4      :    0.595    16943.    4235.7  (  4.0 1.0) 
 +SSE addps (32bit x4) ns4      :    0.595    16942.    4235.5  (  4.0 1.0) 
 +AVX vmulps (32bit x8) n8      :    0.297    67769.0     8471.1  (  8.0 2.0) 
 +AVX vaddps (32bit x8) n8      :    0.297    67770.9     8471.4  (  8.0 2.0) 
 +AVX vmul+addps (32bit x8) n8  :    0.297    67772.0     8471.5  (  8.0 2.0) 
 +FMA vfmaddps (32bit x8) n8    :    0.297   135532.1     8470.8  ( 16.0 2.0) 
 +FMA vfmaddps (32bit x8) n12   :    0.446   135460.8     8466.3  ( 16.0 2.0) 
 +FMA vfma+mlps (32bit x8) n12  :    0.447   101582.0     8465.2  ( 12.0 2.0) 
 +FMA vfma+adps (32bit x8n12  :    0.451   100600.8     8383.4  ( 12.0 2.0) 
 +AVX vml+ad+adps (32bit x8) n9 :    0.572    39625.7     4953.2  (  8.0 1.2) 
 +Average                       :    0.408    46366.3     7645.0   5.8 1.8) 
 +Highest                       :    0.297   135532.1     8471.5  ( 16.0 2.0)
  
  
-Matrix 4x4 +Group 0:  Thread=1  Clock=4.200000 GHz  (mask:ff) 
-C++ code                      :    0.316     5670.    5670.8 +* SSE/AVX (DP fp) 
-C++ Intrinsic SSE 128bit      :    0.080    22482.6    22482.6 +                                  TIME(s)   MFLOPS      MOPS     FOP   IPC 
-SSE mul/addps  128bit A       :    0.102    17588.8    17588.8 +SSE2 mulsd (64bit x1) n8      :    0.319     7889.    7889.1  (  1.0 1.9) 
-AVX vmul/addps 256bit A       :    0.104    17283.1    17283.1 +SSE2 addsd (64bit x1) n8      :    0.298     8467.0     8467.0  (  1.0 2.0) 
-Average                       :    0.150    15756.3    15756.3 +FMA  vfmaddsd (64bit x1) n8   :    0.298    16935.1     8467.5  (  2.0 2.0) 
-Highest                       :    0.080    22482.6    22482.6+FMA  vfmaddsd (64bit x1) n12  :    0.446    16935.3     8467.6  (  2.0 2.0) 
 +FMA  vfma+mlsd (64bit x1) n12 :    0.449    12618.1     8412.1  (  1.5 2.0) 
 +FMA  vfma+adsd (64bit x1) n12 :    0.449    12642.0     8428.0  (  1.5 2.0) 
 +SSE2 mulpd (64bit x2) n8      :    0.297    16941.6     8470.8  (  2.0 2.0) 
 +SSE2 addpd (64bit x2) n8      :    0.298    16936.1     8468.0  (  2.0 2.0) 
 +SSE2 mul+addpd (64bit x2) n8  :    0.298    16938.0     8469.0  (  2.0 2.0) 
 +FMA  vfmaddpd (64bit x2) n8   :    0.297    33884.5     8471.1  (  4.0 2.0) 
 +FMA  vfmaddpd (64bit x2) n12  :    0.446    33874.7     8468.7  (  4.0 2.0) 
 +FMA  vfma+mlpd (64bit x2) n12 :    0.446    25399.5     8466.5  (  3.0 2.0) 
 +FMA  vfma+adpd (64bit x2) n12 :    0.446    25413.5     8471.2  (  3.0 2.0) 
 +SSE2 ml+ad+dpd (64bit x2) n9  :    0.338    16780.8     8390.4  (  2.0 2.0) 
 +SSE2 mulsd (64bit x1) ns4     :    0.595     4235.5     4235.5  (  1.0 1.0) 
 +SSE2 addsd (64bit x1) ns4     :    0.598     4217.4     4217.4  (  1.0 1.0) 
 +SSE2 mulpd (64bit x2) ns4     :    0.598     8425.7     4212.8   2.0 1.0) 
 +SSE2 addpd (64bit x2) ns4     :    0.596     8458.3     4229.1  (  2.0 1.0) 
 +AVX vmulpd (64bit x4) n8      :    0.298    33863.8     8465.9  (  4.0 2.0) 
 +AVX vaddpd (64bit x4) n8      :    0.298    33858.0     8464.5  (  4.0 2.0) 
 +AVX vmul+addpd (64bit x4) n8  :    0.298    33836.1     8459.0  (  4.0 2.0) 
 +FMA vfmaddpd (64bit x4) n8    :    0.298    67611.8     8451.5  (  8.0 2.0) 
 +FMA vfmaddpd (64bit x4) n12   :    0.447    67709.0     8463.6  (  8.0 2.0) 
 +FMA vfma+mlpd (64bit x4) n12  :    0.447    50713.3     8452.2  (  6.0 2.0) 
 +FMA vfma+adpd (64bit x4) n12  :    0.446    50820.7     8470.1   6.0 2.0) 
 +AVX vml_ad_adpd (64bit x4) n9 :    0.335    33858.6     8464.7  (  4.0 2.0) 
 +Average                       :    0.399    25356.3     7784.4  (  3.1 1.9) 
 +Highest                       :    0.297    67709.0     8471.2  (  8.0 2.0)
  
  
-* SSE/AVX (single fp) multi-thread +* Group 0:  Thread=8  Clock=4.200000 GHz  (mask:ff) 
-SSE mulss (32bit x1) n8       :    0.300    31964.6    31964.6 +* SSE/AVX (SP fp) multi-thread 
-SSE addss (32bit x1) n8       :    0.300    31958.7    31958.7 +                                  TIME(s)   MFLOPS      MOPS     FOP   IPC 
-FMA vfmaddss (32bit x1) n8    :    0.300    63913.1    63913.1 +SSE mulss (32bit x1) n8       :    0.620    32507.6     4063.5  (  8.0 1.0) 
-SSE mulps (32bit x4) n8       :    0.301   127650.7   127650.7 +SSE addss (32bit x1) n8       :    0.610    33023.8     4128.0  (  8.0 1.0) 
-SSE addps (32bit x4) n8       :    0.302   127289.7   127289.7 +FMA vfmaddss (32bit x1) n8    :    0.608    66343.1     4146.4  ( 16.0 1.0) 
-SSE mul+addps (32bit x4) n8   :    0.300   127864.0   127864.0 +FMA vfmaddss (32bit x1) n12   :    0.863    70101.2     4381.3  ( 16.0 1.0) 
-FMA vfmaddss (32bit x4) n8    :    0.308   249677.  249677.3 +FMA vfma+mlss (32bit x1) n12  :    0.928    48899.6     6112.4  (  8.0 1.5) 
-SSE ml+ad+addps (32bit x4) n6 :    0.337   128259.9   128259.9 +FMA vfma+adss (32bit x1) n12  :    0.910    49837.6     6229.7  (  8.0 1.5) 
-SSE mulss (32bit x1) ns4      :    0.303    31631.7    31631.7 +SSE mulps (32bit x4) n8       :    0.589   136993.1     4281.0  ( 32.0 1.0) 
-SSE addss (32bit x1) ns4      :    0.305    31489.1    31489.1 +SSE addps (32bit x4) n8       :    0.589   136852.2     4276.6  ( 32.0 1.0) 
-SSE mulps (32bit x4) ns4      :    0.301   127463.0   127463.0 +SSE mul+addps (32bit x4) n8   :    0.614   131362.0     4105.1  ( 32.0 1.0) 
-SSE addps (32bit x4) ns4      :    0.302   127330.2   127330.2 +FMA vfmaddps (32bit x4) n8    :    0.599   269163.4     4205.7  ( 64.0 1.0) 
-AVX vmulps (32bit x8) n8      :    0.300   256036.7   256036.7 +FMA vfmaddps (32bit x4) n12   :    0.900   268670.1     4198.0  ( 64.0 1.0) 
-AVX vaddps (32bit x8) n8      :    0.300   255702.5   255702.5 +FMA vfma+mlps (32bit x4) n12  :    0.898   202043.6     4209.2  ( 48.0 1.0) 
-AVX vmul+addps (32bit x8) n8  :    0.301   255555.  255555.3 +FMA vfma+adps (32bit x4) n12  :    0.898   201969.6     4207.7  ( 48.0 1.0) 
-FMA vfmaddps (32bit x8) n8    :    0.300   511629.9   511629.9 +SSE ml+ad+adps (32bit x4) n9  :    0.671   135199.8     4225.0  ( 32.0 1.0) 
-AVX vml+ad+adps (32bit x8) n6 :    0.383   225295.7   225295.7 +SSE mulss (32bit x1) ns4      :    0.705    28580.7     3572.6  (  8.0 0.9) 
-Average                       :    0.308   159453.7   159453.7 +SSE addss (32bit x1) ns4      :    0.696    28953.7     3619.2  (  8.0 0.9) 
-Highest                       :    0.300   511629.9   511629.9+SSE mulps (32bit x4) ns4      :    0.620   129990.7     4062.2  ( 32.0 1.0) 
 +SSE addps (32bit x4) ns4      :    0.635   127070.8     3971.0  ( 32.0 0.9) 
 +AVX vmulps (32bit x8) n8      :    0.622   259114.7     4048.7  ( 64.0 1.0) 
 +AVX vaddps (32bit x8) n8      :    0.577   279698.0     4370.3  ( 64.0 1.0) 
 +AVX vmul+addps (32bit x8) n8  :    0.594   271449.8     4241.4  ( 64.0 1.0) 
 +FMA vfmaddps (32bit x8) n8    :    0.600   537822.3     4201.7  (128.0 1.0) 
 +FMA vfmaddps (32bit x8) n12   :    0.902   536249.8     4189.5  (128.0 1.0) 
 +FMA vfma+mlps (32bit x8) n12  :    0.892   406643.8     4235.9  ( 96.0 1.0) 
 +FMA vfma+adps (32bit x8) n12  :    0.860   421872.1     4394.5  ( 96.0 1.0) 
 +AVX vml+ad+adps (32bit x8) n9 :    0.650   279223.9     4362.9  ( 64.0 1.0) 
 +Average                       :    0.717   195755.3     4309.2  ( 46.2 1.0) 
 +Highest                       :    0.577   537822.3     6229.7  (128.0 1.5)
  
  
-* SSE/AVX (double fp) multi-thread +* Group 0:  Thread=8  Clock=4.200000 GHz  (mask:ff) 
-SSE2 mulsd (64bit x1) n8      :    0.302    31776.5    31776.5 +* SSE/AVX (DP fp) multi-thread 
-SSE2 addsd (64bit x1) n8      :    0.300    31957.5    31957.5 +                                  TIME(s)   MFLOPS      MOPS     FOP   IPC 
-FMA  vfmaddsd (64bit x1) n8   :    0.300    63905.2    63905.2 +SSE2 mulsd (64bit x1) n8      :    0.596    33802.4     4225.3  (  8.0 1.0) 
-SSE2 mulpd (64bit x2) n8      :    0.306    62653.0    62653.0 +SSE2 addsd (64bit x1) n8      :    0.595    33885.9     4235.7  (  8.0 1.0) 
-SSE2 addpd (64bit x2) n8      :    0.300    63899.9    63899.9 +FMA  vfmaddsd (64bit x1) n8   :    0.595    67767.2     4235.5  ( 16.0 1.0) 
-SSE2 mul+addpd (64bit x2) n8  :    0.304    63122.8    63122.8 +FMA  vfmaddsd (64bit x1) n12  :    0.893    67747.1     4234.2  ( 16.0 1.0) 
-FMA  vfmaddsd (64bit x2) n8   :    0.298   128936.1   128936.1 +FMA  vfma+mlsd (64bit x1) n12 :    0.892    50829.3     6353.7  (  8.0 1.5) 
-SSE2 ml+ad+dpd (64bit x2) n6  :    0.337    64083.5    64083.5 +FMA  vfma+adsd (64bit x1) n12 :    0.892    50831.7     6354.0  (  8.0 1.5) 
-SSE2 mulsd (64bit x1) ns4     :    0.302    31806.5    31806.5 +SSE2 mulpd (64bit x2) n8      :    0.595    67767.3     4235.5  ( 16.0 1.0) 
-SSE2 addsd (64bit x1) ns4     :    0.301    31897.7    31897.7 +SSE2 addpd (64bit x2) n8      :    0.595    67771.9     4235.7  ( 16.0 1.0) 
-SSE2 mulpd (64bit x2) ns4     :    0.301    63712.9    63712.9 +SSE2 mul+addpd (64bit x2) n8  :    0.595    67772.2     4235.8  ( 16.0 1.0) 
-SSE2 addpd (64bit x2) ns4     :    0.302    63649.1    63649.1 +FMA  vfmaddpd (64bit x2) n8   :    0.595   135534.4     4235.5  ( 32.0 1.0) 
-AVX vmulpd (64bit x4) n8      :    0.299   128248.4   128248.4 +FMA  vfmaddpd (64bit x2) n12  :    0.892   135552.5     4236.0  ( 32.0 1.0) 
-AVX vaddpd (64bit x4) n8      :    0.300   127804.0   127804.0 +FMA  vfma+mlpd (64bit x2) n12 :    0.892   101658.3     4235.8  ( 24.0 1.0) 
-AVX vmul+addpd (64bit x4) n8  :    0.300   127795.5   127795.5 +FMA  vfma+adpd (64bit x2) n12 :    0.892   101663.5     4236.0  ( 24.0 1.0) 
-FMA vfmaddpd (64bit x4) n8    :    0.301   255416.8   255416.8 +SSE2 ml+ad+dpd (64bit x2) n9  :    0.668    67866.5     4241.7  ( 16.0 1.0) 
-AVX vml_ad_adpd (64bit x4) n6 :    0.328   131806.2   131806.+SSE2 mulsd (64bit x1) ns4     :    0.596    33826.1     4228.3  (  8.0 1.0) 
-Average                       :    0.305    86616.0    86616.0 +SSE2 addsd (64bit x1) ns4     :    0.595    33881.8     4235.2  (  8.0 1.0) 
-Highest                       :    0.298   255416.8   255416.+SSE2 mulpd (64bit x2) ns4     :    0.595    67764.5     4235.3  ( 16.0 1.0) 
- +SSE2 addpd (64bit x2) ns4     :    0.597    67507.8     4219.2  ( 16.0 1.0) 
- +AVX vmulpd (64bit x4) n8      :    0.594   135789.8     4243.4  ( 32.0 1.0) 
-* Matrix 4x4 multi-thread +AVX vaddpd (64bit x4) n8      :    0.595   135544.9     4235.8  ( 32.0 1.0) 
-C++ code                      :    0.535    26787.3    26787.3 +AVX vmul+addpd (64bit x4) n8  :    0.595   135546.5     4235.8  ( 32.0 1.0) 
-C++ Intrinsic SSE 128bit      :    0.112   127645.6   127645.+FMA vfmaddpd (64bit x4) n8    :    0.595   271062.5     4235.4  ( 64.0 1.0) 
-SSE mul/addps  128bit A       :    0.161    88930.8    88930.8 +FMA vfmaddpd (64bit x4) n12   :    0.892   271105.6     4236.0  ( 64.0 1.0) 
-AVX vmul/addps 256bit A       :    0.116   123912.0   123912.0 +FMA vfma+mlpd (64bit x4) n12  :    0.892   203317.4     4235.8  ( 48.0 1.0) 
-Average                       :    0.231    91818.9    91818.9 +FMA vfma+adpd (64bit x4) n12  :    0.892   203325.8     4236. ( 48.1.0) 
-Highest                       :    0.112   127645.6   127645.6+AVX vml_ad_adpd (64bit x4) n9 :    0.661   137169.6     4286.6  ( 32.0 1.0) 
 +Average                       :    0.703   105626.6     4399.7  ( 24.6 1.0) 
 +Highest                       :    0.594   271105.6     6354.0  ( 64.0 1.5)
  
 </code> </code>
行 11918: 行 13812:
  
  
 +==== Intel Ice Lake (AMD64 x86_64 x64) SSE4.2/AVX2/FMA3/AVX512F,CD,VL,BW,DQ,VNNI ====
  
  
 +++++Intel Core i5-1030NG7 1.1GHz (3.5GHz) 4 core 8 thread Windows 10|
  
-==== AMD Ryzen 1800X (AMD64 x86_64 x64) SSE4.2/AVX2/FMA3 ====+<code> 
 +Date: 20200810 185418 
 +ARCH: x64 (x86_64) 
 +FPU : SSE SSE2 SSSE3 SSE4.1 SSE4.2 AVX AVX2 FMA3 F16C AVX512F/BW/DQ/VL/VNNI 
 +Name:  
 +CPU Thread: 
 +CPU Core  :  4 
 +CPU Group :  1 
 +  Group 0: Thread8  Clock=1.100000 GHz  (mask:0) 
 +SSE   : yes 
 +AVX   : yes 
 +FMA   : yes 
 +F16C  : yes 
 +AVX512: yes 
 + 
 +Total: 
 +SingleThread HP max: - 
 +SingleThread SP max:  111.310 GFLOPS 
 +SingleThread DP max:   55.593 GFLOPS 
 +MultiThread  HP max: - 
 +MultiThread  SP max:  413.685 GFLOPS 
 +MultiThread  DP max:  204.351 GFLOPS 
 + 
 +Group 0:  Thread=8  Clock=1.100000 GHz  (mask:0) 
 +  SingleThread HP max: - 
 +  SingleThread SP max:  111.310 GFLOPS 
 +  SingleThread DP max:   55.593 GFLOPS 
 +  MultiThread  HP max: - 
 +  MultiThread  SP max:  413.685 GFLOPS 
 +  MultiThread  DP max:  204.351 GFLOPS 
 + 
 + 
 +* Group 0:  Thread=1  Clock=1.100000 GHz  (mask:0) 
 +* SSE/AVX (SP fp) 
 +                                      TIME(s)   MFLOPS      MOPS     FOP   IPC 
 +SSE mulss (32bit x1) n8           :    0.104     6337.3     6337.3  (  1.0 5.8) 
 +SSE addss (32bit x1) n8           :    0.101     6505.5     6505.5  (  1.0 5.9) 
 +FMA vfmaddss (32bit x1) n8        :    0.101    13027.6     6513.8  (  2.0 5.9) 
 +FMA vfmaddss (32bit x1) n12       :    0.143    13885.0     6942.5  (  2.0 6.3) 
 +FMA vfma+mlss (32bit x1) n12      :    0.143    10399.8     6933.2  (  1.5 6.3) 
 +FMA vfma+adss (32bit x1) n12      :    0.142    10437.5     6958.3  (  1.5 6.3) 
 +SSE mulps (32bit x4) n8           :    0.101    26090.0     6522.5  (  4.0 5.9) 
 +SSE addps (32bit x4) n8           :    0.101    26027.5     6506.9  (  4.0 5.9) 
 +SSE mul+addps (32bit x4) n8       :    0.102    25995.0     6498.  4.0 5.9) 
 +FMA vfmaddps (32bit x4) n8        :    0.102    51919.4     6489.9  (  8.0 5.9) 
 +FMA vfmaddps (32bit x4) n12       :    0.143    55295.3     6911.9  (  8.0 6.3) 
 +FMA vfma+mlps (32bit x4) n12      :    0.142    41781.8     6963.6  (  6.0 6.3) 
 +FMA vfma+adps (32bit x4) n12      :    0.143    41652.9     6942.2  (  6.0 6.3) 
 +SSE ml+ad+adps (32bit x4) n9      :    0.108    27519.6     6879.9  (  4.0 6.3) 
 +SSE mulss (32bit x1) ns4          :    0.190     3467.6     3467.6  (  1.0 3.2) 
 +SSE addss (32bit x1) ns4          :    0.190     3466.8     3466.8  (  1.0 3.2) 
 +SSE mulps (32bit x4) ns4          :    0.190    13906.4     3476.6  (  4.0 3.2) 
 +SSE addps (32bit x4) ns4          :    0.190    13867.9     3467.0  (  4.0 3.2) 
 +AVX vmulps (32bit x8) n8          :    0.095    55597.1     6949.6  (  8.0 6.3) 
 +AVX vaddps (32bit x8) n8          :    0.095    55388.9     6923.6  (  8.0 6.3) 
 +AVX vmul+addps (32bit x8) n8      :    0.095    55612.9     6951.6  (  8.0 6.3) 
 +FMA vfmaddps (32bit x8) n8        :    0.122    86880.7     5430.0  ( 16.0 4.9) 
 +FMA vfmaddps (32bit x8) n12       :    0.143   110981.1     6936.3  ( 16.0 6.3) 
 +FMA vfma+mlps (32bit x8) n12      :    0.142    83413.5     6951.1  ( 12.0 6.3) 
 +FMA vfma+adps (32bit x8) n12      :    0.144    82441.6     6870.1  ( 12.0 6.2) 
 +AVX vml+ad+adps (32bit x8) n9     :    0.202    29339.7     3667.5  (  8.0 3.3) 
 +AVX512 vmulps (32bit x16) n12     :    0.295    53719.7     3357.5  ( 16.0 3.1) 
 +AVX512 vaddps (32bit x16) n12     :    0.293    54028.2     3376.8  ( 16.0 3.1) 
 +AVX512 vfmaddps (32bit x16) n12   :    0.293   108003.4     3375.1  ( 32.0 3.1) 
 +AVX512 vfma+mps (32bit x16) n12   :    0.293    81034.9     3376.5  ( 24.0 3.1) 
 +AVX512 vfma+aps (32bit x16) n12   :    0.293    81173.3     3382.2  ( 24.0 3.1) 
 +AVX512 vmulps (32bit x8) n12      :    0.144    55154.4     6894.3  (  8.0 6.3) 
 +AVX512 vaddps (32bit x8) n12      :    0.142    55624.6     6953.1  (  8.0 6.3) 
 +AVX512 vfmaddps (32bit x8) n12    :    0.142   111310.2     6956.9  ( 16.0 6.3) 
 +Average                           :    0.158    45626.1     5768.7  (  8.7 5.2) 
 +Highest                           :    0.095   111310.2     6963.6  ( 32.0 6.3) 
 + 
 + 
 +* Group 0:  Thread=1  Clock=1.100000 GHz  (mask:0) 
 +* SSE/AVX (DP fp) 
 +                                      TIME(s)   MFLOPS      MOPS     FOP   IPC 
 +SSE2 mulsd (64bit x1) n8          :    0.143     4607.0     4607.0  (  1.0 4.2) 
 +SSE2 addsd (64bit x1) n8          :    0.102     6494.8     6494.8  (  1.0 5.9) 
 +FMA  vfmaddsd (64bit x1) n8       :    0.102    12997.0     6498.5  (  2.0 5.9) 
 +FMA  vfmaddsd (64bit x1) n12      :    0.142    13910.1     6955.0  (  2.0 6.3) 
 +FMA  vfma+mlsd (64bit x1) n12     :    0.143    10395.1     6930.1  (  1.5 6.3) 
 +FMA  vfma+adsd (64bit x1) n12     :    0.143    10382.1     6921.4  (  1.5 6.3) 
 +SSE2 mulpd (64bit x2) n8          :    0.102    12983.3     6491.7  (  2.0 5.9) 
 +SSE2 addpd (64bit x2) n8          :    0.102    12988.4     6494.2  (  2.0 5.9) 
 +SSE2 mul+addpd (64bit x2) n8      :    0.101    13026.5     6513.2  (  2.0 5.9) 
 +FMA  vfmaddpd (64bit x2) n8       :    0.103    25747.8     6437.0  (  4.0 5.9) 
 +FMA  vfmaddpd (64bit x2) n12      :    0.143    27767.1     6941.8  (  4.0 6.3) 
 +FMA  vfma+mlpd (64bit x2) n12     :    0.142    20892.0     6964.0  (  3.0 6.3) 
 +FMA  vfma+adpd (64bit x2) n12     :    0.144    20638.5     6879.5  (  3.0 6.3) 
 +SSE2 ml+ad+dpd (64bit x2) n9      :    0.108    13686.9     6843.4  (  2.0 6.2) 
 +SSE2 mulsd (64bit x1) ns4         :    0.190     3475.3     3475.3  (  1.0 3.2) 
 +SSE2 addsd (64bit x1) ns4         :    0.191     3463.5     3463.5  (  1.0 3.1) 
 +SSE2 mulpd (64bit x2) ns4         :    0.191     6928.2     3464.1  (  2.0 3.1) 
 +SSE2 addpd (64bit x2) ns4         :    0.190     6957.4     3478.7  (  2.0 3.2) 
 +AVX vmulpd (64bit x4) n8          :    0.096    27464.0     6866.0  (  4.0 6.2) 
 +AVX vaddpd (64bit x4) n8          :    0.095    27868.4     6967.1  (  4.0 6.3) 
 +AVX vmul+addpd (64bit x4) n8      :    0.095    27776.9     6944.2  (  4.0 6.3) 
 +FMA vfmaddpd (64bit x4) n8        :    0.101    52105.9     6513.2  (  8.0 5.9) 
 +FMA vfmaddpd (64bit x4) n12       :    0.143    55476.2     6934.5  (  8.0 6.3) 
 +FMA vfma+mlpd (64bit x4) n12      :    0.143    41631.3     6938.6  (  6.0 6.3) 
 +FMA vfma+adpd (64bit x4) n12      :    0.142    41748.7     6958.1  (  6.0 6.3) 
 +AVX vml_ad_adpd (64bit x4) n9     :    0.107    27790.8     6947.7  (  4.0 6.3) 
 +AVX512 vmulpd (64bit x8) n12      :    0.294    26935.4     3366.9  (  8.0 3.1) 
 +AVX512 vaddpd (64bit x8) n12      :    0.294    26918.9     3364.9  (  8.0 3.1) 
 +AVX512 vfmaddpd (64bit x8) n12    :    0.294    53835.4     3364.7  ( 16.0 3.1) 
 +AVX512 vfma+mpd (64bit x8) n12    :    0.293    40495.9     3374.7  ( 12.0 3.1) 
 +AVX512 vfma+apd (64bit x8) n12    :    0.293    40512.9     3376.1  ( 12.0 3.1) 
 +Average                           :    0.157    23158.1     5734.5  (  4.4 5.2) 
 +Highest                           :    0.095    55476.2     6967.1  ( 16.0 6.3) 
 + 
 + 
 +* Group 0:  Thread=8  Clock=1.100000 GHz  (mask:0) 
 +* SSE/AVX (SP fp) multi-thread 
 +                                      TIME(s)   MFLOPS      MOPS     FOP   IPC 
 +SSE mulss (32bit x1) n8           :    0.244    21628.1     2703.5  (  8.0 2.5) 
 +SSE addss (32bit x1) n8           :    0.207    25501.0     3187.6  (  8.0 2.9) 
 +FMA vfmaddss (32bit x1) n8        :    0.207    51050.5     3190.7  ( 16.0 2.9) 
 +FMA vfmaddss (32bit x1) n12       :    0.310    51031.1     3189.4  ( 16.0 2.9) 
 +FMA vfma+mlss (32bit x1) n12      :    0.310    38279.6     4785.0  (  8.0 4.3) 
 +FMA vfma+adss (32bit x1) n12      :    0.310    38294.5     4786.8  (  8.0 4.4) 
 +SSE mulps (32bit x4) n8           :    0.207   102060.0     3189.4  ( 32.0 2.9) 
 +SSE addps (32bit x4) n8           :    0.207   101944.3     3185.8  ( 32.0 2.9) 
 +SSE mul+addps (32bit x4) n8       :    0.207   101863.1     3183.2  ( 32.0 2.9) 
 +FMA vfmaddps (32bit x4) n8        :    0.207   204040.2     3188.1  ( 64.0 2.9) 
 +FMA vfmaddps (32bit x4) n12       :    0.310   204328.4     3192.6  ( 64.0 2.9) 
 +FMA vfma+mlps (32bit x4) n12      :    0.310   153210.2     3191.9  ( 48.0 2.9) 
 +FMA vfma+adps (32bit x4) n12      :    0.310   153202.8     3191.7  ( 48.0 2.9) 
 +SSE ml+ad+adps (32bit x4) n9      :    0.233   102156.6     3192.4  ( 32.0 2.9) 
 +SSE mulss (32bit x1) ns4          :    0.231    22819.0     2852.4  (  8.0 2.6) 
 +SSE addss (32bit x1) ns4          :    0.232    22796.0     2849.5  (  8.0 2.6) 
 +SSE mulps (32bit x4) ns4          :    0.232    90991.3     2843.5  ( 32.0 2.6) 
 +SSE addps (32bit x4) ns4          :    0.232    91226.8     2850.8  ( 32.0 2.6) 
 +AVX vmulps (32bit x8) n8          :    0.207   204198.0     3190.6  ( 64.0 2.9) 
 +AVX vaddps (32bit x8) n8          :    0.207   204240.5     3191.3  ( 64.0 2.9) 
 +AVX vmul+addps (32bit x8) n8      :    0.207   204291.9     3192.1  ( 64.0 2.9) 
 +FMA vfmaddps (32bit x8) n8        :    0.207   407368.1     3182.6  (128.0 2.9) 
 +FMA vfmaddps (32bit x8) n12       :    0.311   407750.8     3185.6  (128.0 2.9) 
 +FMA vfma+mlps (32bit x8) n12      :    0.311   305974.6     3187.2  ( 96.0 2.9) 
 +FMA vfma+adps (32bit x8) n12      :    0.310   306219.1     3189.8  ( 96.0 2.9) 
 +AVX vml+ad+adps (32bit x8) n9     :    0.262   181174.2     2830.8  ( 64.0 2.6) 
 +AVX512 vmulps (32bit x16) n12     :    0.680   186291.0     1455.4  (128.0 1.3) 
 +AVX512 vaddps (32bit x16) n12     :    0.682   185795.5     1451.5  (128.0 1.3) 
 +AVX512 vfmaddps (32bit x16) n12   :    0.682   371673.9     1451.9  (256.0 1.3) 
 +AVX512 vfma+mps (32bit x16) n12   :    0.683   278186.7     1448.9  (192.0 1.3) 
 +AVX512 vfma+aps (32bit x16) n12   :    0.683   278194.9     1448.9  (192.0 1.3) 
 +AVX512 vmulps (32bit x8) n12      :    0.316   200275.6     3129.3  ( 64.0 2.8) 
 +AVX512 vaddps (32bit x8) n12      :    0.310   204165.1     3190.1  ( 64.0 2.9) 
 +AVX512 vfmaddps (32bit x8) n12    :    0.306   413685.0     3231.9  (128.0 2.9) 
 +Average                           :    0.320   173997.3     2962.1  ( 69.2 2.7) 
 +Highest                           :    0.207   413685.0     4786.8  (256.0 4.4) 
 + 
 + 
 +* Group 0:  Thread=8  Clock=1.100000 GHz  (mask:0) 
 +* SSE/AVX (DP fp) multi-thread 
 +                                      TIME(s)   MFLOPS      MOPS     FOP   IPC 
 +SSE2 mulsd (64bit x1) n8          :    0.244    21634.6     2704.3  (  8.0 2.5) 
 +SSE2 addsd (64bit x1) n8          :    0.207    25508.6     3188.6  (  8.0 2.9) 
 +FMA  vfmaddsd (64bit x1) n8       :    0.207    51001.7     3187.6  ( 16.0 2.9) 
 +FMA  vfmaddsd (64bit x1) n12      :    0.311    50924.6     3182.8  ( 16.0 2.9) 
 +FMA  vfma+mlsd (64bit x1) n12     :    0.310    38294.8     4786.8  (  8.0 4.4) 
 +FMA  vfma+adsd (64bit x1) n12     :    0.310    38309.1     4788.6  (  8.0 4.4) 
 +SSE2 mulpd (64bit x2) n8          :    0.207    51029.3     3189.3  ( 16.0 2.9) 
 +SSE2 addpd (64bit x2) n8          :    0.207    51025.8     3189.1  ( 16.0 2.9) 
 +SSE2 mul+addpd (64bit x2) n8      :    0.207    51019.7     3188.7  ( 16.0 2.9) 
 +FMA  vfmaddpd (64bit x2) n8       :    0.207   101970.4     3186.6  ( 32.0 2.9) 
 +FMA  vfmaddpd (64bit x2) n12      :    0.311   101845.6     3182.7  ( 32.0 2.9) 
 +FMA  vfma+mlpd (64bit x2) n12     :    0.311    76450.3     3185.4  ( 24.0 2.9) 
 +FMA  vfma+adpd (64bit x2) n12     :    0.310    76611.1     3192.1  ( 24.0 2.9) 
 +SSE2 ml+ad+dpd (64bit x2) n9      :    0.233    51085.6     3192.8  ( 16.0 2.9) 
 +SSE2 mulsd (64bit x1) ns4         :    0.232    22757.1     2844.6  (  8.0 2.6) 
 +SSE2 addsd (64bit x1) ns4         :    0.235    22456.0     2807.0  (  8.0 2.6) 
 +SSE2 mulpd (64bit x2) ns4         :    0.232    45565.8     2847.9  ( 16.0 2.6) 
 +SSE2 addpd (64bit x2) ns4         :    0.231    45703.8     2856.5  ( 16.0 2.6) 
 +AVX vmulpd (64bit x4) n8          :    0.207   102169.6     3192.8  ( 32.0 2.9) 
 +AVX vaddpd (64bit x4) n8          :    0.207   101864.1     3183.3  ( 32.0 2.9) 
 +AVX vmul+addpd (64bit x4) n8      :    0.207   102073.9     3189.8  ( 32.0 2.9) 
 +FMA vfmaddpd (64bit x4) n8        :    0.207   203845.3     3185.1  ( 64.0 2.9) 
 +FMA vfmaddpd (64bit x4) n12       :    0.314   201503.0     3148.5  ( 64.0 2.9) 
 +FMA vfma+mlpd (64bit x4) n12      :    0.314   151182.5     3149.6  ( 48.0 2.9) 
 +FMA vfma+adpd (64bit x4) n12      :    0.318   149330.6     3111.1  ( 48.0 2.8) 
 +AVX vml_ad_adpd (64bit x4) n9     :    0.246    96515.9     3016.1  ( 32.0 2.7) 
 +AVX512 vmulpd (64bit x8) n12      :    0.682    92879.9     1451.2  ( 64.0 1.3) 
 +AVX512 vaddpd (64bit x8) n12      :    0.682    92855.7     1450.9  ( 64.0 1.3) 
 +AVX512 vfmaddpd (64bit x8) n12    :    0.682   185899.7     1452.3  (128.0 1.3) 
 +AVX512 vfma+mpd (64bit x8) n12    :    0.682   139318.3     1451.2  ( 96.0 1.3) 
 +AVX512 vfma+apd (64bit x8) n12    :    0.682   139338.1     1451.4  ( 96.0 1.3) 
 +Average                           :    0.321    86515.2     2939.8  ( 35.1 2.7) 
 +Highest                           :    0.207   203845.3     4788.6  (128.0 4.4) 
 + 
 +</code> 
 + 
 +++++ 
 + 
 + 
 + 
 +==== AMD Zen (AMD64 x86_64 x64) SSE4.2/AVX2/FMA3 ====
  
  
行 11927: 行 14018:
  
 <code> <code>
-Windows 10 1703 bash +Date: 20200624 215250 
-RYZEN 7 1800X 3.6GHz (4.0GHz8 core 16 thread +ARCH: x64 (x86_64
-RAM 32GB+FPU : SSE SSE2 SSSE3 SSE4.1 SSE4.2 AVX AVX2 FMA3 F16C 
 +Name: AMD Ryzen 7 1800X Eight-Core Processor         
  
 +CPU Thread: 16
 +CPU Core  :  8
 +CPU Group :  1
 +  Group 0: Thread=16  Clock=3.600000 GHz  (mask:ffff)
 +SSE   : yes
 +AVX   : yes
 +FMA   : yes
 +F16C  : yes
 +AVX512: no
  
-ARCHx64 +Total
-FPUSSSE3 SSE4.1 SSE4.2 AVX FMA3 +SingleThread HP max- 
-SingleT SP max: 64.943 GFLOPS +SingleThread SP max:   62.298 GFLOPS 
-SingleT DP max: 31.178 GFLOPS +SingleThread DP max:   30.845 GFLOPS 
-MultiT  SP max: 513.464 GFLOPS +MultiThread  HP max: - 
-MultiT  DP max: 265.291 GFLOPS +MultiThread  SP max:  465.706 GFLOPS 
-CPU core: 16 +MultiThread  DP max:  228.360 GFLOPS
-SSE: yes +
-AVX: yes +
-FMA: yes+
  
-* SSE/AVX (single fp) +Group 0 Thread=16  Clock=3.600000 GHz  (mask:ffff
-SSE mulss (32bit x1) n8          0.168     7149.    7149.+  SingleThread HP max- 
-SSE addss (32bit x1) n8          0.147     8182.1     8182.1 +  SingleThread SP max:   62.298 GFLOPS 
-FMA vfmaddss (32bit x1n8    :    0.184    13063.9    13063.9 +  SingleThread DP max  30.845 GFLOPS 
-SSE mulps (32bit x4) n8          0.148    32522.5    32522.5 +  MultiThread  HP max- 
-SSE addps (32bit x4) n8          0.148    32468.4    32468.4 +  MultiThread  SP max 465.706 GFLOPS 
-SSE mul+addps (32bit x4) n8   :    0.112    43002.7    43002.7 +  MultiThread  DP max 228.360 GFLOPS
-FMA vfmaddss (32bit x4) n8       0.190    50537.8    50537.8 +
-SSE ml+ad+addps (32bit x4) n6    0.111    48543.7    48543.7 +
-SSE mulss (32bit x1) ns4         0.225     5338.4     5338.4 +
-SSE addss (32bit x1) ns4         0.222     5409.9     5409.9 +
-SSE mulps (32bit x4) ns4      :    0.222    21655.1    21655.1 +
-SSE addps (32bit x4) ns4      :    0.228    21011.3    21011.3 +
-AVX vmulps (32bit x8) n8      :    0.295    32491.2    32491.2 +
-AVX vaddps (32bit x8) n8      :    0.295    32505.0    32505.0 +
-AVX vmul+addps (32bit x8) n8  :    0.148    64943.4    64943.4 +
-FMA vfmaddps (32bit x8) n8    :    0.302    63654.8    63654.8 +
-AVX vml+ad+adps (32bit x8) n6 :    0.302    35749.4    35749.4 +
-Average                       :    0.203    30484.0    30484.0 +
-Highest                       :    0.111    64943.4    64943.4+
  
  
-* SSE/AVX (double fp) +* Group 0:  Thread=1  Clock=3.600000 GHz  (mask:ffff) 
-SSE2 mulsd (64bit x1) n8      :    0.159     7553.    7553.3 +* SSE/AVX (SP fp) 
-SSE2 addsd (64bit x1) n8      :    0.147     8162.    8162.3 +                                  TIME(s)   MFLOPS      MOPS     FOP   IPC 
-FMA  vfmaddsd (64bit x1) n8   :    0.185    13000.9    13000.9 +SSE mulss (32bit x1) n8       :    0.293     7364.    7364.8  (  1.0 2.0) 
-SSE2 mulpd (64bit x2n8      :    0.148    16196.   16196.3 +SSE addss (32bit x1) n8       :    0.292     7402.    7402.6  (  1.0 2.1) 
-SSE2 addpd (64bit x2) n8      :    0.148    16204.0    16204.0 +FMA vfmaddss (32bit x1) n8    :    0.354    12192.9     6096.5  (  2.0 1.7) 
-SSE2 mul+addpd (64bit x2) n8  :    0.148    16254.4    16254.4 +FMA vfmaddss (32bit x1) n12   :    0.433    14958.4     7479.2  (  2.0 2.1) 
-FMA  vfmaddsd (64bit x2) n8   :    0.191    25160.7    25160.7 +FMA vfma+mlss (32bit x1n12  :    0.437    11109.7     7406.4  (  1.5 2.1) 
-SSE2 ml+ad+dpd (64bit x2n6  :    0.155    17432.   17432.7 +FMA vfma+adss (32bit x1) n12  :    0.365    13318.0     8878.7  (  1.5 2.5) 
-SSE2 mulsd (64bit x1) ns4     :    0.296     4054.3     4054.3 +SSE mulps (32bit x4) n8       :    0.286    30206.1     7551.5  (  4.0 2.1) 
-SSE2 addsd (64bit x1) ns4     :    0.222     5413.    5413.0 +SSE addps (32bit x4) n8       :    0.290    29800.5     7450.1  (  4.0 2.1) 
-SSE2 mulpd (64bit x2) ns4     :    0.296     8107.4     8107.4 +SSE mul+addps (32bit x4) n8   :    0.216    39986.9     9996.7  (  4.0 2.8) 
-SSE2 addpd (64bit x2) ns4     :    0.225    10670.8    10670.8 +FMA vfmaddps (32bit x4) n8    :    0.352    49085.7     6135.7   8.0 1.7) 
-AVX vmulpd (64bit x4) n8      :    0.301    15973.3    15973.3 +FMA vfmaddps (32bit x4) n12   :    0.429    60387.3     7548.4  (  8.0 2.1) 
-AVX vaddpd (64bit x4) n8      :    0.296    16240.2    16240.2 +FMA vfma+mlps (32bit x4) n12  :    0.436    44592.1     7432.0  (  6.0 2.1) 
-AVX vmul+addpd (64bit x4) n8  :    0.156    30721.8    30721.8 +FMA vfma+adps (32bit x4) n12  :    0.367    53029.3     8838.2  (  6.0 2.5) 
-FMA vfmaddpd (64bit x4n8    :    0.308    31178.   31178.2 +SSE ml+ad+adps (32bit x4n9  :    0.221    44044.   11011.1  (  4.0 3.1) 
-AVX vml_ad_adpd (64bit x4n6 :    0.224    24110.3    24110.3 +SSE mulss (32bit x1) ns4      :    0.425     5078.3     5078.3   1.0 1.4) 
-Average                       :    0.212    15672.6    15672.6 +SSE addss (32bit x1) ns4      :    0.429     5034.    5034.3  (  1.0 1.4) 
-Highest                       :    0.147    31178.   31178.2+SSE mulps (32bit x4) ns4      :    0.421    20526.6     5131.6  (  4.0 1.4) 
 +SSE addps (32bit x4) ns4      :    0.424    20358.2     5089.6  (  4.0 1.4) 
 +AVX vmulps (32bit x8) n8      :    0.575    30037.4     3754.7  (  8.0 1.0) 
 +AVX vaddps (32bit x8) n8      :    0.562    30733.1     3841.6  (  8.0 1.1) 
 +AVX vmul+addps (32bit x8) n8  :    0.277    62298.1     7787.3  (  8.0 2.2) 
 +FMA vfmaddps (32bit x8) n8    :    0.572    60396.0     3774.8  ( 16.0 1.0) 
 +FMA vfmaddps (32bit x8n12   :    0.857    60509.4     3781.8  ( 16.0 1.1) 
 +FMA vfma+mlps (32bit x8) n12  :    0.852    45653.0     3804.4  ( 12.0 1.1) 
 +FMA vfma+adps (32bit x8) n12  :    0.646    60217.6     5018.1  ( 12.0 1.4) 
 +AVX vml+ad+adps (32bit x8n9 :    0.563    34543.2     4317.9  (  8.0 1.2) 
 +Average                       :    0.438    32802.5     6423.3  (  5.8 1.8) 
 +Highest                       :    0.216    62298.   11011.1  ( 16.0 3.1)
  
  
-Matrix 4x4 +Group 0:  Thread=1  Clock=3.600000 GHz  (mask:ffff) 
-C++ code                      :    0.126    14256.3    14256.3 +* SSE/AVX (DP fp) 
-C++ Intrinsic SSE 128bit      :    0.075    23777.9    23777.9 +                                  TIME(s)   MFLOPS      MOPS     FOP   IPC 
-SSE mul/addps  128bit A       :    0.110    16320.1    16320.1 +SSE2 mulsd (64bit x1) n8      :    0.295     7325.4     7325.4  (  1.0 2.0) 
-AVX vmul/addps 256bit A       :    0.120    14947.5    14947.5 +SSE2 addsd (64bit x1) n8      :    0.281     7687.4     7687.4  (  1.0 2.1) 
-Average                       :    0.108    17325.5    17325.5 +FMA  vfmaddsd (64bit x1) n8   :    0.354    12206.7     6103.3   2.0 1.7) 
-Highest                       :    0.075    23777.9    23777.9+FMA  vfmaddsd (64bit x1) n12  :    0.429    15103.3     7551.7  (  2.0 2.1) 
 +FMA  vfma+mlsd (64bit x1) n12 :    0.460    10566.2     7044.1  (  1.5 2.0) 
 +FMA  vfma+adsd (64bit x1) n12 :    0.356    13660.4     9106.9   1.5 2.5) 
 +SSE2 mulpd (64bit x2) n8      :    0.286    15127.0     7563.5  (  2.0 2.1) 
 +SSE2 addpd (64bit x2) n8      :    0.283    15291.6     7645.8  (  2.0 2.1) 
 +SSE2 mul+addpd (64bit x2) n8  :    0.283    15257.6     7628.8  (  2.0 2.1
 +FMA  vfmaddpd (64bit x2) n8   :    0.353    24485.0     6121.3  (  4.0 1.7) 
 +FMA  vfmaddpd (64bit x2) n12  :    0.420    30844.8     7711.2  (  4.0 2.1) 
 +FMA  vfma+mlpd (64bit x2) n12 :    0.461    21077.2     7025.7  (  3.0 2.0) 
 +FMA  vfma+adpd (64bit x2) n12 :    0.354    27446.3     9148.8  (  3.0 2.5) 
 +SSE2 ml+ad+dpd (64bit x2) n9  :    0.277    17524.8     8762.4  (  2.0 2.4) 
 +SSE2 mulsd (64bit x1) ns4     :    0.560     3856.5     3856.5  (  1.0 1.1) 
 +SSE2 addsd (64bit x1) ns4     :    0.433     4987.8     4987.8  (  1.0 1.4) 
 +SSE2 mulpd (64bit x2) ns4     :    0.576     7502.3     3751.1  (  2.0 1.0) 
 +SSE2 addpd (64bit x2) ns4     :    0.434     9959.4     4979.7  (  2.0 1.4) 
 +AVX vmulpd (64bit x4) n8      :    0.570    15147.5     3786.9  (  4.0 1.1) 
 +AVX vaddpd (64bit x4) n8      :    0.566    15274.7     3818.7  (  4.0 1.1) 
 +AVX vmul+addpd (64bit x4) n8  :    0.299    28886.1     7221.5   4.0 2.0) 
 +FMA vfmaddpd (64bit x4) n8    :    0.566    30545.4     3818.2  (  8.0 1.1) 
 +FMA vfmaddpd (64bit x4) n12   :    0.862    30056.6     3757.1  (  8.0 1.0) 
 +FMA vfma+mlpd (64bit x4) n12  :    0.850    22877.5     3812.9  (  6.0 1.1) 
 +FMA vfma+adpd (64bit x4) n12  :    0.666    29194.2     4865.7  (  6.0 1.4) 
 +AVX vml_ad_adpd (64bit x4) n9 :    0.437    22232.3     5558.1  (  4.0 1.5
 +Average                       :    0.450    17466.3     6178.5   3.1 1.7) 
 +Highest                       :    0.277    30844.8     9148.8  (  8.0 2.5)
  
  
-* SSE/AVX (single fp) multi-thread +* Group 0:  Thread=16  Clock=3.600000 GHz  (mask:ffff) 
-SSE mulss (32bit x1) n8       :    0.496    38675.4    38675.4 +* SSE/AVX (SP fp) multi-thread 
-SSE addss (32bit x1) n8       :    0.288    66718.3    66718.3 +                                  TIME(s)   MFLOPS      MOPS     FOP   IPC 
-FMA vfmaddss (32bit x1) n8    :    0.310   123861.4   123861.4 +SSE mulss (32bit x1) n8       :    0.586    58975.6     3686.0  ( 16.0 1.0) 
-SSE mulps (32bit x4) n8       :    0.306   250813.2   250813.2 +SSE addss (32bit x1) n8       :    0.585    59055.5     3691.0  ( 16.0 1.0) 
-SSE addps (32bit x4) n8       :    0.287   267235.5   267235.5 +FMA vfmaddss (32bit x1) n8    :    0.587   117773.3     3680.4  ( 32.0 1.0) 
-SSE mul+addps (32bit x4) n8   :    0.210   365064.1   365064.1 +FMA vfmaddss (32bit x1) n12   :    0.899   115318.0     3603.7  ( 32.0 1.0) 
-FMA vfmaddss (32bit x4) n8    :    0.301   509660.  509660.7 +FMA vfma+mlss (32bit x1) n12  :    0.878    88567.6     5535.5  ( 16.0 1.5) 
-SSE ml+ad+addps (32bit x4) n6 :    0.259   333839.5   333839.5 +FMA vfma+adss (32bit x1) n12  :    1.009    77086.8     4817.9  ( 16.0 1.3) 
-SSE mulss (32bit x1) ns4      :    0.309    62036.9    62036.9 +SSE mulps (32bit x4) n8       :    0.579   238822.1     3731.6  ( 64.0 1.0) 
-SSE addss (32bit x1) ns4      :    0.309    62200.5    62200.5 +SSE addps (32bit x4) n8       :    0.578   239148.0     3736.7  ( 64.0 1.0) 
-SSE mulps (32bit x4) ns4      :    0.304   252974.4   252974.4 +SSE mul+addps (32bit x4) n8   :    0.308   449479.1     7023.1  ( 64.0 2.0) 
-SSE addps (32bit x4) ns4      :    0.300   256381.2   256381.2 +FMA vfmaddps (32bit x4) n8    :    0.607   455290.2     3557.0  (128.0 1.0) 
-AVX vmulps (32bit x8) n8      :    0.557   275645.2   275645.2 +FMA vfmaddps (32bit x4) n12   :    0.896   462846.3     3616.0  (128.0 1.0) 
-AVX vaddps (32bit x8) n8      :    0.577   266243.7   266243.7 +FMA vfma+mlps (32bit x4) n12  :    0.917   339139.4     3532.7  ( 96.0 1.0) 
-AVX vmul+addps (32bit x8) n8  :    0.388   395735.5   395735.5 +FMA vfma+adps (32bit x4) n12  :    1.050   296196.1     3085.4  ( 96.0 0.9) 
-FMA vfmaddps (32bit x8) n8    :    0.598   513464.  513464.2 +SSE ml+ad+adps (32bit x4) n9  :    0.473   329119.9     5142.5  ( 64.0 1.4) 
-AVX vml+ad+adps (32bit x8) n6 :    0.454   380420.7   380420.7 +SSE mulss (32bit x1) ns4      :    0.589    58633.9     3664.6  ( 16.0 1.0) 
-Average                       :    0.368   260057.1   260057.1 +SSE addss (32bit x1) ns4      :    0.593    58281.8     3642.6  ( 16.0 1.0) 
-Highest                       :    0.210   513464.2   513464.2+SSE mulps (32bit x4) ns4      :    0.593   233316.5     3645.6  ( 64.0 1.0) 
 +SSE addps (32bit x4) ns4      :    0.592   233434.6     3647.4  ( 64.0 1.0) 
 +AVX vmulps (32bit x8) n8      :    1.161   238135.4     1860.4  (128.0 0.5) 
 +AVX vaddps (32bit x8) n8      :    1.165   237289.3     1853.8  (128.0 0.5) 
 +AVX vmul+addps (32bit x8) n8  :    0.638   433097.6     3383.6  (128.0 0.9) 
 +FMA vfmaddps (32bit x8) n8    :    1.214   455327.7     1778.6  (256.0 0.5) 
 +FMA vfmaddps (32bit x8) n12   :    1.826   454323.9     1774.7  (256.0 0.5) 
 +FMA vfma+mlps (32bit x8) n12  :    1.849   336452.6     1752.4  (192.0 0.5) 
 +FMA vfma+adps (32bit x8) n12  :    1.525   407849.4     2124.2  (192.0 0.6) 
 +AVX vml+ad+adps (32bit x8) n9 :    0.929   334667.9     2614.6  (128.0 0.7) 
 +Average                       :    0.870   261831.9     3468.5  ( 92.3 1.0) 
 +Highest                       :    0.308   462846.3     7023.1  (256.0 2.0)
  
  
-* SSE/AVX (double fp) multi-thread +* Group 0:  Thread=16  Clock=3.600000 GHz  (mask:ffff) 
-SSE2 mulsd (64bit x1) n8      :    0.500    38438.0    38438.0 +* SSE/AVX (DP fp) multi-thread 
-SSE2 addsd (64bit x1) n8      :    0.299    64246.9    64246.9 +                                  TIME(s)   MFLOPS      MOPS     FOP   IPC 
-FMA  vfmaddsd (64bit x1) n8   :    0.318   120914.  120914.8 +SSE2 mulsd (64bit x1) n8      :    0.583    59307.2     3706.7  ( 16.0 1.0) 
-SSE2 mulpd (64bit x2) n8      :    0.305   125952.0   125952.0 +SSE2 addsd (64bit x1) n8      :    0.590    58559.5     3660.0  ( 16.0 1.0) 
-SSE2 addpd (64bit x2) n8      :    0.293   130910.1   130910.1 +FMA  vfmaddsd (64bit x1) n8   :    0.612   113029.5     3532.2  ( 32.0 1.0) 
-SSE2 mul+addpd (64bit x2) n8  :    0.209   183836.7   183836.7 +FMA  vfmaddsd (64bit x1) n12  :    0.908   114144.3     3567.0  ( 32.0 1.0) 
-FMA  vfmaddsd (64bit x2) n8   :    0.300   255720.  255720.4 +FMA  vfma+mlsd (64bit x1) n12 :    0.923    84260.4     5266.3  ( 16.0 1.5) 
-SSE2 ml+ad+dpd (64bit x2) n6  :    0.249   173153.2   173153.2 +FMA  vfma+adsd (64bit x1) n12 :    1.072    72518.0     4532.4  ( 16.0 1.3) 
-SSE2 mulsd (64bit x1) ns4     :    0.329    58366.5    58366.5 +SSE2 mulpd (64bit x2) n8      :    0.593   116492.3     3640.4  ( 32.0 1.0) 
-SSE2 addsd (64bit x1) ns4     :    0.299    64181.6    64181.6 +SSE2 addpd (64bit x2) n8      :    0.585   118131.6     3691.6  ( 32.0 1.0) 
-SSE2 mulpd (64bit x2) ns4     :    0.330   116494.6   116494.6 +SSE2 mul+addpd (64bit x2) n8  :    0.368   188056.6     5876.8  ( 32.0 1.6) 
-SSE2 addpd (64bit x2) ns4     :    0.303   126936.3   126936.3 +FMA  vfmaddpd (64bit x2) n8   :    0.619   223170.8     3487.0  ( 64.0 1.0) 
-AVX vmulpd (64bit x4) n8      :    0.568   135279.1   135279.1 +FMA  vfmaddpd (64bit x2) n12  :    0.921   225205.3     3518.8  ( 64.0 1.0) 
-AVX vaddpd (64bit x4) n8      :    0.575   133544.8   133544.8 +FMA  vfma+mlpd (64bit x2) n12 :    0.923   168557.6     3511.6  ( 48.0 1.0) 
-AVX vmul+addpd (64bit x4) n8  :    0.396   194182.6   194182.6 +FMA  vfma+adpd (64bit x2) n12 :    1.073   144992.1     3020.7  ( 48.0 0.8) 
-FMA vfmaddpd (64bit x4) n8    :    0.579   265291.  265291.4 +SSE2 ml+ad+dpd (64bit x2) n9  :    0.488   159217.0     4975.5  ( 32.0 1.4) 
-AVX vml_ad_adpd (64bit x4) n6 :    0.420   205647.2   205647.2 +SSE2 mulsd (64bit x1) ns4     :    0.626    55186.6     3449.2  ( 16.0 1.0) 
-Average                       :    0.369   140770.4   140770.4 +SSE2 addsd (64bit x1) ns4     :    0.591    58517.1     3657.3  ( 16.0 1.0) 
-Highest                       :    0.209   265291.4   265291.4+SSE2 mulpd (64bit x2) ns4     :    0.626   110337.6     3448.1  ( 32.0 1.0) 
 +SSE2 addpd (64bit x2) ns4     :    0.598   115499.9     3609.4  ( 32.0 1.0) 
 +AVX vmulpd (64bit x4) n8      :    1.152   119979.8     1874.7  ( 64.0 0.5) 
 +AVX vaddpd (64bit x4) n8      :    1.161   119067.1     1860.4  ( 64.0 0.5) 
 +AVX vmul+addpd (64bit x4) n8  :    0.697   198461.0     3101.0  ( 64.0 0.9) 
 +FMA vfmaddpd (64bit x4) n8    :    1.218   227047.1     1773.8  (128.0 0.5) 
 +FMA vfmaddpd (64bit x4) n12   :    1.847   224553.7     1754.3  (128.0 0.5) 
 +FMA vfma+mlpd (64bit x4) n12  :    1.837   169359.6     1764.2  ( 96.0 0.5) 
 +FMA vfma+adpd (64bit x4) n12  :    1.534   202816.4     2112.7  ( 96.0 0.6) 
 +AVX vml_ad_adpd (64bit x4) n9 :    0.873   178047.2     2782.0  ( 64.0 0.8) 
 +Average                       :    0.885   139404.4     3352.8  ( 49.2 0.9) 
 +Highest                       :    0.368   227047.1     5876.8  (128.0 1.6)
  
 +</code>
  
-* Matrix 4x4 multi-thread +++++ 
-C++ code                      :    0.345    83031.4    83031.4 + 
-C++ Intrinsic SSE 128bit      :    0.131   218780.0   218780.0 + 
-SSE mul/addps  128bit A       :    0.201   142798.1   142798.1 + 
-AVX vmul/addps 256bit A       :    0.210   136732.6   136732.6 + 
-Average                       :    0.222   145335.5   145335.5 + 
-Highest                       :    0.131   218780.0   218780.0+ 
 + 
 +==== AMD Zen2 (AMD64 x86_64 x64) SSE4.2/AVX2/FMA3 ==== 
 + 
 + 
 +++++Ryzen 9 3950X 3.5GHz (4.7GHz) 16 core 32 thread Windows 10| 
 + 
 +<code
 +Date: 20200808 195918 
 +ARCH: x64 (x86_64) 
 +FPU : SSE SSE2 SSSE3 SSE4.1 SSE4.2 AVX AVX2 FMA3 F16C 
 +Name: AMD Ryzen 9 3950X 16-Core Processor             
 + 
 +CPU Thread: 32 
 +CPU Core  : 16 
 +CPU Group :  1 
 +  Group 0: Thread=32  Clock=3.493000 GHz  (mask:ffffffff) 
 +SSE   : yes 
 +AVX   : yes 
 +FMA   : yes 
 +F16C  : yes 
 +AVX512: no 
 + 
 +Total: 
 +SingleThread HP max: - 
 +SingleThread SP max:  128.305 GFLOPS 
 +SingleThread DP max:   63.384 GFLOPS 
 +MultiThread  HP max: - 
 +MultiThread  SP max: 1888.789 GFLOPS 
 +MultiThread  DP max:  938.944 GFLOPS 
 + 
 +Group 0:  Thread=32  Clock=3.493000 GHz  (mask:ffffffff) 
 +  SingleThread HP max: - 
 +  SingleThread SP max:  128.305 GFLOPS 
 +  SingleThread DP max:   63.384 GFLOPS 
 +  MultiThread  HP max: - 
 +  MultiThread  SP max: 1888.789 GFLOPS 
 +  MultiThread  DP max:  938.944 GFLOPS 
 + 
 + 
 +* Group 0:  Thread=1  Clock=3.493000 GHz  (mask:ffffffff) 
 +* SSE/AVX (SP fp) 
 +                                  TIME(s)   MFLOPS      MOPS     FOP   IPC 
 +SSE mulss (32bit x1) n8       :    0.235     8927.2     8927.2  (  1.0 2.6) 
 +SSE addss (32bit x1) n8       :    0.234     8944.2     8944.2  (  1.0 2.6) 
 +FMA vfmaddss (32bit x1) n8    :    0.306    13713.8     6856.9  (  2.0 2.0) 
 +FMA vfmaddss (32bit x1) n12   :    0.351    17894.5     8947.2  (  2.0 2.6) 
 +FMA vfma+mlss (32bit x1) n12  :    0.352    13403.3     8935.5  (  1.5 2.6) 
 +FMA vfma+adss (32bit x1) n12  :    0.294    16051.8    10701.2  (  1.5 3.1) 
 +SSE mulps (32bit x4) n8       :    0.234    35829.9     8957.5  (  4.0 2.6) 
 +SSE addps (32bit x4) n8       :    0.234    35775.8     8943.9  (  4.0 2.6) 
 +SSE mul+addps (32bit x4) n8   :    0.177    47417.4    11854.3  (  4.0 3.4) 
 +FMA vfmaddps (32bit x4) n8    :    0.294    57079.2     7134.9  (  8.0 2.0) 
 +FMA vfmaddps (32bit x4) n12   :    0.352    71522.5     8940.3  (  8.0 2.6) 
 +FMA vfma+mlps (32bit x4) n12  :    0.354    53337.4     8889.6  (  6.0 2.5) 
 +FMA vfma+adps (32bit x4) n12  :    0.296    63794.3    10632.4  (  6.0 3.0) 
 +SSE ml+ad+adps (32bit x4) n9  :    0.211    44684.7    11171.2  (  4.0 3.2) 
 +SSE mulss (32bit x1) ns4      :    0.349     6000.9     6000.9  (  1.0 1.7) 
 +SSE addss (32bit x1) ns4      :    0.350     5993.1     5993.1  (  1.0 1.7) 
 +SSE mulps (32bit x4) ns4      :    0.350    23943.3     5985.8  (  4.0 1.7) 
 +SSE addps (32bit x4) ns4      :    0.349    23994.9     5998.7  (  4.0 1.7) 
 +AVX vmulps (32bit x8) n8      :    0.248    67674.4     8459.3  (  8.0 2.4) 
 +AVX vaddps (32bit x8) n8      :    0.249    67317.9     8414.7  (  8.0 2.4) 
 +AVX vmul+addps (32bit x8) n8  :    0.152   110575.9    13822.0   8.0 4.0) 
 +FMA vfmaddps (32bit x8) n8    :    0.306   109502.0     6843.9  ( 16.0 2.0) 
 +FMA vfmaddps (32bit x8) n12   :    0.397   126591.7     7912.0  ( 16.0 2.3) 
 +FMA vfma+mlps (32bit x8) n12  :    0.391    96466.3     8038.9  ( 12.0 2.3) 
 +FMA vfma+adps (32bit x8) n12  :    0.315   119759.2     9979.9  ( 12.0 2.9) 
 +AVX vml+ad+adps (32bit x8) n9 :    0.335    56261.1     7032.6  (  8.0 2.0) 
 +Average                       :    0.297    50094.5     8627.6  (  5.8 2.5) 
 +Highest                       :    0.152   126591.7    13822.0  ( 16.0 4.0) 
 + 
 + 
 +* Group 0:  Thread=1  Clock=3.493000 GHz  (mask:ffffffff) 
 +SSE/AVX (DP fp) 
 +                                  TIME(s)   MFLOPS      MOPS     FOP   IPC 
 +SSE2 mulsd (64bit x1) n8      :    0.237     8832.5     8832.5  (  1.0 2.5) 
 +SSE2 addsd (64bit x1) n8      :    0.236     8881.2     8881.2  (  1.0 2.5) 
 +FMA  vfmaddsd (64bit x1) n8   :    0.296    14153.0     7076.5  (  2.0 2.0) 
 +FMA  vfmaddsd (64bit x1) n12  :    0.354    17776.6     8888.3  (  2.0 2.5) 
 +FMA  vfma+mlsd (64bit x1) n12 :    0.357    13220.3     8813.5  (  1.5 2.5) 
 +FMA  vfma+adsd (64bit x1) n12 :    0.295    15973.3    10648.9  (  1.5 3.0) 
 +SSE2 mulpd (64bit x2) n8      :    0.236    17749.4     8874.7  (  2.0 2.5) 
 +SSE2 addpd (64bit x2) n8      :    0.237    17707.4     8853.7  (  2.0 2.5) 
 +SSE2 mul+addpd (64bit x2) n8  :    0.177    23667.6    11833.8  (  2.0 3.4) 
 +FMA  vfmaddpd (64bit x2) n8   :    0.296    28284.4     7071.1   4.0 2.0) 
 +FMA  vfmaddpd (64bit x2) n12  :    0.353    35638.1     8909.5  (  4.0 2.6) 
 +FMA  vfma+mlpd (64bit x2) n12 :    0.356    26526.1     8842.0  (  3.0 2.5) 
 +FMA  vfma+adpd (64bit x2) n12 :    0.296    31889.2    10629.7  (  3.0 3.0) 
 +SSE2 ml+ad+dpd (64bit x2) n9  :    0.213    22149.1    11074.6  (  2.0 3.2) 
 +SSE2 mulsd (64bit x1) ns4     :    0.356     5894.5     5894.5  (  1.0 1.7) 
 +SSE2 addsd (64bit x1) ns4     :    0.355     5909.9     5909.9  (  1.0 1.7) 
 +SSE2 mulpd (64bit x2) ns4     :    0.354    11834.5     5917.2  (  2.0 1.7) 
 +SSE2 addpd (64bit x2) ns4     :    0.352    11918.9     5959.4  (  2.0 1.7) 
 +AVX vmulpd (64bit x4) n8      :    0.250    33522.5     8380.6  (  4.0 2.4) 
 +AVX vaddpd (64bit x4) n8      :    0.250    33518.6     8379.6  (  4.0 2.4) 
 +AVX vmul+addpd (64bit x4) n8  :    0.160    52309.3    13077.3  (  4.0 3.7) 
 +FMA vfmaddpd (64bit x4) n8    :    0.307    54577.4     6822.2  (  8.0 2.0) 
 +FMA vfmaddpd (64bit x4) n12   :    0.397    63384.1     7923.0  (  8.0 2.3) 
 +FMA vfma+mlpd (64bit x4) n12  :    0.394    47859.6     7976.6  (  6.0 2.3) 
 +FMA vfma+adpd (64bit x4) n12  :    0.316    59672.9     9945.5  (  6.0 2.8) 
 +AVX vml_ad_adpd (64bit x4) n9 :    0.188    50150.2    12537.6  (  4.0 3.6) 
 +Average                       :    0.293    27423.1     8767.4  (  3.1 2.5) 
 +Highest                       :    0.160    63384.1    13077.3  (  8.0 3.7) 
 + 
 + 
 +* Group 0:  Thread=32  Clock=3.493000 GHz  (mask:ffffffff) 
 +* SSE/AVX (SP fp) multi-thread 
 +                                  TIME(s)   MFLOPS      MOPS     FOP   IPC 
 +SSE mulss (32bit x1) n8       :    0.501   133984.9     4187.0  ( 32.0 1.2) 
 +SSE addss (32bit x1) n8       :    0.503   133342.3     4166.9  ( 32.0 1.2) 
 +FMA vfmaddss (32bit x1) n8    :    0.504   266323.0     4161.3  ( 64.0 1.2) 
 +FMA vfmaddss (32bit x1) n12   :    0.756   266218.2     4159.7  ( 64.0 1.2) 
 +FMA vfma+mlss (32bit x1) n12  :    0.766   196915.8     6153.6  ( 32.0 1.8) 
 +FMA vfma+adss (32bit x1) n12  :    0.859   175676.6     5489.9  ( 32.0 1.6) 
 +SSE mulps (32bit x4) n8       :    0.501   535702.0     4185.2  (128.0 1.2) 
 +SSE addps (32bit x4) n8       :    0.500   537052.2     4195.7  (128.0 1.2) 
 +SSE mul+addps (32bit x4) n8   :    0.262  1025605.1     8012.5  (128.0 2.3) 
 +FMA vfmaddps (32bit x4) n8    :    0.506  1060612.9     4143.0  (256.0 1.2) 
 +FMA vfmaddps (32bit x4) n12   :    0.757  1062707.3     4151.2  (256.0 1.2) 
 +FMA vfma+mlps (32bit x4) n12  :    0.770   784237.1     4084.6  (192.0 1.2) 
 +FMA vfma+adps (32bit x4) n12  :    0.831   726585.3     3784.3  (192.0 1.1) 
 +SSE ml+ad+adps (32bit x4) n9  :    0.386   781589.6     6106.2  (128.0 1.7) 
 +SSE mulss (32bit x1) ns4      :    0.499   134495.7     4203.0  ( 32.0 1.2) 
 +SSE addss (32bit x1) ns4      :    0.497   135005.8     4218.9  ( 32.0 1.2) 
 +SSE mulps (32bit x4) ns4      :    0.498   538516.2     4207.2  (128.0 1.2) 
 +SSE addps (32bit x4) ns4      :    0.500   536973.7     4195.1  (128.0 1.2) 
 +AVX vmulps (32bit x8) n8      :    0.514  1043773.8     4077.2  (256.0 1.2) 
 +AVX vaddps (32bit x8) n8      :    0.518  1035798.2     4046.1  (256.0 1.2) 
 +AVX vmul+addps (32bit x8) n8  :    0.354  1513704.0     5912.9  (256.0 1.7) 
 +FMA vfmaddps (32bit x8) n8    :    0.568  1888789.4     3689.0  (512.0 1.1) 
 +FMA vfmaddps (32bit x8) n12   :    0.871  1847787.5     3609.0  (512.0 1.0) 
 +FMA vfma+mlps (32bit x8) n12  :    0.834  1446926.4     3768.0  (384.0 1.1) 
 +FMA vfma+adps (32bit x8) n12  :    0.689  1751695.3     4561.7  (384.0 1.3) 
 +AVX vml+ad+adps (32bit x8) n9 :    0.456  1323814.1     5171.1  (256.0 1.5) 
 +Average                       :    0.585   803224.3     4563.1  (184.6 1.3) 
 +Highest                       :    0.262  1888789.4     8012.5  (512.0 2.3) 
 + 
 + 
 +* Group 0:  Thread=32  Clock=3.493000 GHz  (mask:ffffffff) 
 +* SSE/AVX (DP fp) multi-thread 
 +                                  TIME(s)   MFLOPS      MOPS     FOP   IPC 
 +SSE2 mulsd (64bit x1) n8      :    0.502   133678.8     4177.5  ( 32.0 1.2) 
 +SSE2 addsd (64bit x1) n8      :    0.504   133028.9     4157.2  ( 32.0 1.2) 
 +FMA  vfmaddsd (64bit x1) n8   :    0.507   264705.8     4136.0  ( 64.0 1.2) 
 +FMA  vfmaddsd (64bit x1) n12  :    0.761   264410.5     4131.4  ( 64.0 1.2) 
 +FMA  vfma+mlsd (64bit x1) n12 :    0.768   196535.0     6141.7  ( 32.0 1.8) 
 +FMA  vfma+adsd (64bit x1) n12 :    0.838   180003.0     5625.1  ( 32.0 1.6) 
 +SSE2 mulpd (64bit x2) n8      :    0.497   269617.0     4212.8  ( 64.0 1.2) 
 +SSE2 addpd (64bit x2) n8      :    0.494   271369.0     4240.1  ( 64.0 1.2) 
 +SSE2 mul+addpd (64bit x2) n8  :    0.278   483345.2     7552.3  ( 64.0 2.2) 
 +FMA  vfmaddpd (64bit x2) n8   :    0.504   532172.7     4157.6  (128.0 1.2) 
 +FMA  vfmaddpd (64bit x2) n12  :    0.757   531281.4     4150.6  (128.0 1.2) 
 +FMA  vfma+mlpd (64bit x2) n12 :    0.768   392747.7     4091.1  ( 96.0 1.2) 
 +FMA  vfma+adpd (64bit x2) n12 :    0.842   358338.5     3732.7  ( 96.0 1.1) 
 +SSE2 ml+ad+dpd (64bit x2) n9  :    0.386   390483.3     6101.3  ( 64.0 1.7) 
 +SSE2 mulsd (64bit x1) ns4     :    0.503   133463.3     4170.7  ( 32.0 1.2) 
 +SSE2 addsd (64bit x1) ns4     :    0.501   133828.2     4182.1  ( 32.0 1.2) 
 +SSE2 mulpd (64bit x2) ns4     :    0.500   268326.3     4192.6  ( 64.0 1.2) 
 +SSE2 addpd (64bit x2) ns4     :    0.501   267562.5     4180.7  ( 64.0 1.2) 
 +AVX vmulpd (64bit x4) n8      :    0.521   515027.6     4023.7  (128.0 1.2) 
 +AVX vaddpd (64bit x4) n8      :    0.527   509168.2     3977.9  (128.0 1.1) 
 +AVX vmul+addpd (64bit x4) n8  :    0.366   733490.5     5730.4  (128.0 1.6) 
 +FMA vfmaddpd (64bit x4) n8    :    0.571   938944.0     3667.7  (256.0 1.1) 
 +FMA vfmaddpd (64bit x4) n12   :    0.875   919685.3     3592.5  (256.0 1.0) 
 +FMA vfma+mlpd (64bit x4) n12  :    0.839   719403.6     3746.9  (192.0 1.1) 
 +FMA vfma+adpd (64bit x4) n12  :    0.693   870577.3     4534.3  (192.0 1.3) 
 +AVX vml_ad_adpd (64bit x4) n9 :    0.370   815114.2     6368.1  (128.0 1.8) 
 +Average                       :    0.584   431781.1     4576.0  ( 98.5 1.3) 
 +Highest                       :    0.278   938944.0     7552.3  (256.0 2.2)
  
 </code> </code>
  
 ++++ ++++
 +
 +
 +
  
  
  
  
opengl/vfpbenchlog.1546678722.txt.gz · 最終更新: 2019/01/05 17:58 by oga

Donate Powered by PHP Valid HTML5 Valid CSS Driven by DokuWiki