| 量子化 | Size | OS | CPU | RAM | RAM | GPU | ctx | token/s | software | |
|---|---|---|---|---|---|---|---|---|---|---|
| Q4_K_M | 69 GB | Windows11 | Ryzen 7 9700X | DDR5-5600 | 128GB | GeForce RTX 5060Ti 16GB | 4096 | 17.07 tps | llama.cpp CUDA 12 b8429 | PC1 |
| Q4_K_M | 69 GB | Windows11 | Ryzen 7 9700X | DDR5-5600 | 128GB | GeForce RTX 5060Ti 16GB | 4096 | 15.89 tps | LMStudio 0.4.7 CUDA 12 v2.7.1 | PC1 gpu=48,cpu=42 |
| Q4_K_M | 69 GB | Ubuntu 24.04 | Ryzen 9 3950X | DDR4-3200 | 128GB | GeForce RTX 4060Ti 16GB | 4096 | 14.70 tps | llama.cpp CUDA 12 b8482 | PC2 -t 16 |
| Q4_K_M | 69 GB | Ubuntu 24.04 | Core i7-13700 | DDR5-5600 | 96GB | GeForce RTX 4060Ti 16GB | 4096 | 18.79 tps | llama.cpp CUDA 12 b8446 | PC3 -t 16 |
| UD_Q4_K_XL | 71 GB | Ubuntu 24.04 | Core i7-13700 | DDR5-5600 | 96GB | GeForce RTX 4060Ti 16GB | 4096 | 15.94 tps | llama.cpp CUDA 12 b8446 | PC3 -t 16 |
| Q4_K_M | 69 GB | Windows11 | Ryzen 9 AI Max+ 395 | LPDDR5-8000 | 128GB | Radeon 8060S | 4096 | 24.90 tps | LMStudio 0.4.6 Vulkan | PC4 EVO-X2 |
| Q4_K_M | 69 GB | Windows11 | Ryzen 9 AI Max+ 395 | LPDDR5-8000 | 128GB | Radeon 8060S | 4096 | 27.59 tps | llama.cpp Vulkan b8429 | PC4 EVO-X2 |
| Q4_K_M | 69 GB | Windows11 | Ryzen 7 5700X | DDR4-3200 | 96GB | Radeon RX 9060 XT 16GB | 4096 | 11.86 tps | llama.cpp Vulkan b8502 | PC5 -t 8 |
| Q4_K_M | 69 GB | Windows11 | Ryzen 7 7840HS | DDR5-5600 | 128GB | Radeon 780M (未使用) | 4096 | 5.06 tps | llama.cpp CPU b8468 | PC6 CPU Only |
Context Length を 64K くらいに増やす場合は “Number of layers for whitch to force MoE weight onto CPU” を 44~ に変更
メモリに余裕があるため Context Length は大きく増やせます。
llama-server --model Qweun3.5-122B-A10B-UD-Q4_K_XL-00001-of-00003.gguf --mmproj mmproj-BF16.gguf --alias Qweun3.5-122B-A10B -t 8 --ctx-size 65536 --host 0.0.0.0 --port 8080 --temp 0.6 --min-p 0.0 --top-p 0.95 --top-k 20
RAM 128GB あれば ctx 128K も設定できますが生成速度は 10 tps 未満に落ちます。
RAM 96GB では mmproj を外しています。 長いコンテキストが入った場合にメモリ不足で落ちるようなら ctx size は 40k くらいまでに減らします。
llama-server --model Qweun3.5-122B-A10B-Q4_K_M-00001-of-00003.gguf --alias Qweun3.5-122B-A10B -t 8 --ctx-size 65536 --host 0.0.0.0 --port 8080 --temp 0.6 --min-p 0.0 --top-p 0.95 --top-k 20
–no-mmap が必須なので注意llama-server --model Qweun3.5-122B-A10B-Q4_K_M-00001-of-00002.gguf --mmproj mmproj-Qwen3.5-122B-A10B-BF16.gguf --alias Qweun3.5-122B-A10B --ctx-size 131072 --no-mmap --host 0.0.0.0 --port 8080 --temp 0.6 --min-p 0.0 --top-p 0.95 --top-k 20