目次

Qwen3.5 122B-A10B (122b)

Qwen3.5 122B-A10B を Local PC で動かす

量子化 Size OS CPU RAM RAM GPU ctx token/s software
Q4_K_M 69 GB Windows11 Ryzen 7 9700X DDR5-5600 128GB GeForce RTX 5060Ti 16GB 4096 17.07 tps llama.cpp CUDA 12 b8429 PC1
Q4_K_M 69 GB Windows11 Ryzen 7 9700X DDR5-5600 128GB GeForce RTX 5060Ti 16GB 4096 15.89 tps LMStudio 0.4.7 CUDA 12 v2.7.1 PC1 gpu=48,cpu=42
Q4_K_M 69 GB Ubuntu 24.04 Ryzen 9 3950X DDR4-3200 128GB GeForce RTX 4060Ti 16GB 4096 14.70 tps llama.cpp CUDA 12 b8482 PC2 -t 16
Q4_K_M 69 GB Ubuntu 24.04 Core i7-13700 DDR5-5600 96GB GeForce RTX 4060Ti 16GB 4096 18.79 tps llama.cpp CUDA 12 b8446 PC3 -t 16
UD_Q4_K_XL 71 GB Ubuntu 24.04 Core i7-13700 DDR5-5600 96GB GeForce RTX 4060Ti 16GB 4096 15.94 tps llama.cpp CUDA 12 b8446 PC3 -t 16
Q4_K_M 69 GB Windows11 Ryzen 9 AI Max+ 395 LPDDR5-8000 128GB Radeon 8060S 4096 24.90 tps LMStudio 0.4.6 Vulkan PC4 EVO-X2
Q4_K_M 69 GB Windows11 Ryzen 9 AI Max+ 395 LPDDR5-8000 128GB Radeon 8060S 4096 27.59 tps llama.cpp Vulkan b8429 PC4 EVO-X2
Q4_K_M 69 GB Windows11 Ryzen 7 5700X DDR4-3200 96GB Radeon RX 9060 XT 16GB 4096 11.86 tps llama.cpp Vulkan b8502 PC5 -t 8
Q4_K_M 69 GB Windows11 Ryzen 7 7840HS DDR5-5600 128GB Radeon 780M (未使用) 4096 5.06 tps llama.cpp CPU b8468 PC6 CPU Only

設定など

LMStudio

PC1 Ryzen 7 9700X + DDR5-5600 128GB + GeForce RTX 5060Ti 16GB + Windows 11

Context Length を 64K くらいに増やす場合は “Number of layers for whitch to force MoE weight onto CPU” を 44~ に変更

PC4 EVO-X2 Ryzen AI Max+ 395 + LPDDR5-8000 128GB + Radeon 8060S + Windows 11

メモリに余裕があるため Context Length は大きく増やせます。


Agent 用設定例

llama.cpp

PC1 Ryzen 7 9700X + DDR5-5600 128GB + GeForce RTX 5060Ti 16GB + Windows 11

llama-server --model Qweun3.5-122B-A10B-UD-Q4_K_XL-00001-of-00003.gguf --mmproj mmproj-BF16.gguf --alias Qweun3.5-122B-A10B -t 8 --ctx-size 65536 --host 0.0.0.0 --port 8080 --temp 0.6 --min-p 0.0 --top-p 0.95 --top-k 20

RAM 128GB あれば ctx 128K も設定できますが生成速度は 10 tps 未満に落ちます。

PC3 Core i7-13700 + DDR5-5600 96GB + GeForce RTX 4060Ti 16GB + Linux Ubuntu 24.04LTS

RAM 96GB では mmproj を外しています。 長いコンテキストが入った場合にメモリ不足で落ちるようなら ctx size は 40k くらいまでに減らします。

llama-server --model Qweun3.5-122B-A10B-Q4_K_M-00001-of-00003.gguf --alias Qweun3.5-122B-A10B -t 8 --ctx-size 65536 --host 0.0.0.0 --port 8080 --temp 0.6 --min-p 0.0 --top-p 0.95 --top-k 20

PC4 EVO-X2 Ryzen AI Max+ 395 + LPDDR5-8000 128GB + Radeon 8060S + Windows 11

llama-server --model Qweun3.5-122B-A10B-Q4_K_M-00001-of-00002.gguf --mmproj mmproj-Qwen3.5-122B-A10B-BF16.gguf --alias Qweun3.5-122B-A10B --ctx-size 131072 --no-mmap --host 0.0.0.0 --port 8080 --temp 0.6 --min-p 0.0 --top-p 0.95 --top-k 20

LMStudio

PC4 EVO-X2 Ryzen AI Max+ 395 + LPDDR5-8000 128GB + Radeon 8060S + Windows 11