ai:localllm:nemotron3super_120b

差分

このページの2つのバージョン間の差分を表示します。

この比較画面へのリンク

--- ai:localllm:nemotron3super_120b [2026/03/13 17:02] – [Nemotron 3 Super 120B-A12B を Local PC で動かす] oga
+++ ai:localllm:nemotron3super_120b [2026/03/16 13:26] (現在) – [RAM 96GB + VRAM 16GB Linux (PC Spec 3)] oga
@@ 行 1: / 行 1: @@
 ====== Nemotron 3 Super 120b-a12b (120b) ======
@@ 行 5: / 行 7: @@
   * PC Spec 1
-    * CPU: Ryzen 7 9700X
+    * CPU: Ryzen 7 9700X (65W Default)
     * RAM: DDR5-5600 128GB
     * GPU: GeForce RTX 5060Ti 16GB
@@ 行 11: / 行 13: @@
     * CPU: Ryzen 9 3950X (65W Eco-Mode)
     * RAM: DDR4-3200 128GB
+    * GPU: GeForce RTX 4060Ti 16GB
+  * PC Spec 3
+    * CPU: Core i7-13700
+    * RAM: DDR5-5600 96GB
     * GPU: GeForce RTX 4060Ti 16GB
+  * qwen3.5 122b-a10b よりも速度は落ちますが context length を増やせます。RAM 96GB + VRAM 16GB で qwen3.5 は ctx 40k でしたが nemotron 3 super では 64k 以上使えるようです。
 ^ 量子化      ^ Size        ^ OS           ^ CPU               ^ RAM           ^ RAM    ^ GPU                      ^ Window  ^           token/s ^ software          ^   ^
-| UD_Q4_K_XL  |     77 GB | Ubuntu 24.04  | Ryzen 9 3950X (65W)  | DDR4-3200     |  128GB | GeForce RTX 4060Ti 16GB  |    4096 |     **8.3 tps** | llama.cpp b8319   |   |
+| UD_Q4_K_XL  |     78 GB | Ubuntu 24.04  | Ryzen 9 3950X (65W)  | DDR4-3200     |  128GB | GeForce RTX 4060Ti 16GB  |    4096 |     **8.3 tps** | llama.cpp b8319   |   |
 | Q4_K_M      |     80 GB | Ubuntu 24.04  | Ryzen 9 3950X (65W)  | DDR4-3200     |  128GB | GeForce RTX 4060Ti 16GB  |    4096 |   ** 9.22 tps** | llama.cpp b8319   |   |
 | Q4_K_M      |     80 GB | Windows11     | Ryzen 7 9700X        | DDR5-5600     |  128GB | GeForce RTX 5060Ti 16GB  |    4096 |  ** 11.18 tps** | LMStudio 0.4.6 CUDA 12 v2.7.0  | cpu=82  |
-| Q4_K_M      |     80 GB | Windows11     | Ryzen 7 9700X        | DDR5-5600     |  128GB | GeForce RTX 5060Ti 16GB  |    4096 |   ** 9.18 tps** | llama.cpp CUDA12 b8303  |   |
+| Q4_K_M      |     80 GB | Windows11     | Ryzen 7 9700X        | DDR5-5600     |  128GB | GeForce RTX 5060Ti 16GB  |    4096 |  ** 11.43 tps** | llama.cpp CUDA12 b8303  |   |
+| UD_Q4_K_XL  |     78 GB | Windows11     | Ryzen 7 9700X        | DDR5-5600     |  128GB | GeForce RTX 5060Ti 16GB  |    4096 |  ** 10.89 tps** | llama.cpp CUDA12 b8303  |   |
+| UD_Q6_K_XL  |    109 GB | Windows11     | Ryzen 7 9700X        | DDR5-5600     |  128GB | GeForce RTX 5060Ti 16GB  |    4096 |   ** 7.92 tps** | llama.cpp CUDA12 b8303  |   |
 ----
+===== Agent 用設定例 =====
+==== RAM 96GB + VRAM 16GB Linux (PC Spec 3) ====
+一応 --ctx-size 68608 でも動きました。これ以上はメモリが不足します。
+<code bash>
+llama-server --model NVIDIA-Nemotron-3-Super-120B-A12B-Q4_K_M-00001-of-00003.gguf --alias NVIDIA-Nemotron-3-Super-120B-A12B --ctx-size 65536 -ctk bf16 -ctv bf16 -t 16 -np 1 --host 0.0.0.0 --port 8080 --temp 0.6 --min-p 0.0 --top-p 0.95
+</code>

ai/localllm/nemotron3super_120b.1773388957.txt.gz · 最終更新: 2026/03/13 17:02 by oga