目次

Mistral Small 4 119B-2603 (119b)

Mistral Small 4 119B-2603 を Local PC で動かす

量子化 Size OS CPU RAM RAM GPU ctx token/s software
Q4_K_M 67 GB Windows11 Ryzen 7 9700X DDR5-5600 128GB GeForce RTX 5060Ti 16GB 4096 12.89 tps LMStudio 0.4.6 CUDA 12 v2.7.1 PC1 gpu=5, cpu=0
Q4_K_M 67 GB Windows11 Ryzen 7 9700X DDR5-5600 128GB GeForce RTX 5060Ti 16GB 4096 13.77 tps llama.cpp CUDA 12 b8407 PC1
Q4_K_M 67 GB Ubuntu 24.04 Ryzen 9 3950X (65W) DDR4-3200 128GB GeForce RTX 4060Ti 16GB 4096 10.70 tps llama.cpp CUDA 12 b8416 PC2
Q4_K_M 67 GB Ubuntu 24.04 Core i7-13700 DDR5-5600 96GB GeForce RTX 4060Ti 16GB 4096 15.36 tps llama.cpp CUDA 12 b8429 PC3
Q4_K_M 67 GB Windows11 Ryzen AI Max+ 395 LPDDR5-8000 128GB Radeon 8060S 4096 32.53 tps LMStudio 0.4.6 Vulkan v2.7.1 PC4 EVO-X2
Q4_K_M 67 GB Windows11 Ryzen AI Max+ 395 LPDDR5-8000 128GB Radeon 8060S 4096 33.78 tps llama.cpp Vulkan b8429 PC4 EVO-X2
Q4_K_M 67 GB Windows11 Ryzen 7 5700X DDR4-3200 96GB Radeon RX 9060 XT 16GB 4096 11.27 tps llama.cpp Vulkan b8429 PC5

設定など

llama.cpp

PC1 Ryzen 7 9700X + DDR5-5600 128GB + GeForce RTX 5060Ti 16GB + Windows 11

llama-server --model Mistral-Small-4-119B-2603-Q4_K_M-00001-of-00002.gguf --alias Mistral-Small-4-119B-2603 --ctx-size 4096 -t 16 --host 0.0.0.0 --port 8080 --temp 1.0 --top-p 1.0

PC2 Ryzen 9 3950X + DDR4-3200 128GB + GeForce RTX 4060Ti 16GB + Linux Ubuntu 24.04LTS

llama-server --model Mistral-Small-4-119B-2603-Q4_K_M-00001-of-00002.gguf --alias Mistral-Small-4-119B-2603 --ctx-size 4096 -t 32 --host 0.0.0.0 --port 8080 --temp 1.0 --top-p 1.0

PC3 Core i7-13700 + DDR5-5600 96GB + GeForce RTX 4060Ti 16GB + Linux Ubuntu 24.04LTS

llama-server --model Mistral-Small-4-119B-2603-Q4_K_M-00001-of-00002.gguf --alias Mistral-Small-4-119B-2603 --ctx-size 4096 -t 24 --host 0.0.0.0 --port 8080 --temp 1.0 --top-p 1.0

PC4 EVO-X2 Ryzen AI Max+ 395 + LPDDR5-8000 128GB + Radeon 8060S + Windows 11

BIOS (UEFI) で VRAM 割当を 96GB に変更しています。この場合 –no-mmap が必須です。全部 VRAM に乗るので (CPU 未使用なので) CPU のスレッドプールを最大に上げる必要がありません。

llama-server --model Mistral-Small-4-119B-2603-Q4_K_M-00001-of-00002.gguf --alias Mistral-Small-4-119B-2603 --ctx-size 4096 -t 16 --host 0.0.0.0 --port 8080 --temp 1.0 --top-p 1.0 --no-mmap

PC5 Ryzen 7 5700X + DDR4-3200 96GB + Radeon RX 9060 XT 16GB + Windows 11

llama-server --model Mistral-Small-4-119B-2603-Q4_K_M-00001-of-00002.gguf --alias Mistral-Small-4-119B-2603 --ctx-size 4096 -t 16 --host 0.0.0.0 --port 8080 --temp 1.0 --top-p 1.0