| 量子化 | Size | OS | CPU | RAM | RAM | GPU | ctx | token/s | software | |
|---|---|---|---|---|---|---|---|---|---|---|
| Q4_K_M | 67 GB | Windows11 | Ryzen 7 9700X | DDR5-5600 | 128GB | GeForce RTX 5060Ti 16GB | 4096 | 12.89 tps | LMStudio 0.4.6 CUDA 12 v2.7.1 | PC1 gpu=5, cpu=0 |
| Q4_K_M | 67 GB | Windows11 | Ryzen 7 9700X | DDR5-5600 | 128GB | GeForce RTX 5060Ti 16GB | 4096 | 13.77 tps | llama.cpp CUDA 12 b8407 | PC1 |
| Q4_K_M | 67 GB | Ubuntu 24.04 | Ryzen 9 3950X (65W) | DDR4-3200 | 128GB | GeForce RTX 4060Ti 16GB | 4096 | 10.70 tps | llama.cpp CUDA 12 b8416 | PC2 |
| Q4_K_M | 67 GB | Ubuntu 24.04 | Core i7-13700 | DDR5-5600 | 96GB | GeForce RTX 4060Ti 16GB | 4096 | 15.36 tps | llama.cpp CUDA 12 b8429 | PC3 |
| Q4_K_M | 67 GB | Windows11 | Ryzen AI Max+ 395 | LPDDR5-8000 | 128GB | Radeon 8060S | 4096 | 32.53 tps | LMStudio 0.4.6 Vulkan v2.7.1 | PC4 EVO-X2 |
| Q4_K_M | 67 GB | Windows11 | Ryzen AI Max+ 395 | LPDDR5-8000 | 128GB | Radeon 8060S | 4096 | 33.78 tps | llama.cpp Vulkan b8429 | PC4 EVO-X2 |
| Q4_K_M | 67 GB | Windows11 | Ryzen 7 5700X | DDR4-3200 | 96GB | Radeon RX 9060 XT 16GB | 4096 | 11.27 tps | llama.cpp Vulkan b8429 | PC5 |
llama-server --model Mistral-Small-4-119B-2603-Q4_K_M-00001-of-00002.gguf --alias Mistral-Small-4-119B-2603 --ctx-size 4096 -t 16 --host 0.0.0.0 --port 8080 --temp 1.0 --top-p 1.0
llama-server --model Mistral-Small-4-119B-2603-Q4_K_M-00001-of-00002.gguf --alias Mistral-Small-4-119B-2603 --ctx-size 4096 -t 32 --host 0.0.0.0 --port 8080 --temp 1.0 --top-p 1.0
llama-server --model Mistral-Small-4-119B-2603-Q4_K_M-00001-of-00002.gguf --alias Mistral-Small-4-119B-2603 --ctx-size 4096 -t 24 --host 0.0.0.0 --port 8080 --temp 1.0 --top-p 1.0
BIOS (UEFI) で VRAM 割当を 96GB に変更しています。この場合 –no-mmap が必須です。全部 VRAM に乗るので (CPU 未使用なので) CPU のスレッドプールを最大に上げる必要がありません。
llama-server --model Mistral-Small-4-119B-2603-Q4_K_M-00001-of-00002.gguf --alias Mistral-Small-4-119B-2603 --ctx-size 4096 -t 16 --host 0.0.0.0 --port 8080 --temp 1.0 --top-p 1.0 --no-mmap
llama-server --model Mistral-Small-4-119B-2603-Q4_K_M-00001-of-00002.gguf --alias Mistral-Small-4-119B-2603 --ctx-size 4096 -t 16 --host 0.0.0.0 --port 8080 --temp 1.0 --top-p 1.0