Qwen3.5 122B-A10B (122b)

Qwen3.5 122B-A10B を Local PC で動かす

量子化	Size	OS	CPU	RAM	RAM	GPU	ctx	token/s	software
Q4_K_M	69 GB	Windows11	Ryzen 7 9700X	DDR5-5600	128GB	GeForce RTX 5060Ti 16GB	4096	17.07 tps	llama.cpp CUDA 12 b8429	PC1
Q4_K_M	69 GB	Windows11	Ryzen 7 9700X	DDR5-5600	128GB	GeForce RTX 5060Ti 16GB	4096	15.89 tps	LMStudio 0.4.7 CUDA 12 v2.7.1	PC1 gpu=48,cpu=42
Q4_K_M	69 GB	Ubuntu 24.04	Ryzen 9 3950X	DDR4-3200	128GB	GeForce RTX 4060Ti 16GB	4096	14.70 tps	llama.cpp CUDA 12 b8482	PC2 `-t 16`
Q4_K_M	69 GB	Ubuntu 24.04	Core i7-13700	DDR5-5600	96GB	GeForce RTX 4060Ti 16GB	4096	18.79 tps	llama.cpp CUDA 12 b8446	PC3 `-t 16`
UD_Q4_K_XL	71 GB	Ubuntu 24.04	Core i7-13700	DDR5-5600	96GB	GeForce RTX 4060Ti 16GB	4096	15.94 tps	llama.cpp CUDA 12 b8446	PC3 `-t 16`
Q4_K_M	69 GB	Windows11	Ryzen 9 AI Max+ 395	LPDDR5-8000	128GB	Radeon 8060S	4096	24.90 tps	LMStudio 0.4.6 Vulkan	PC4 EVO-X2
Q4_K_M	69 GB	Windows11	Ryzen 9 AI Max+ 395	LPDDR5-8000	128GB	Radeon 8060S	4096	27.59 tps	llama.cpp Vulkan b8429	PC4 EVO-X2
Q4_K_M	69 GB	Windows11	Ryzen 7 5700X	DDR4-3200	96GB	Radeon RX 9060 XT 16GB	4096	11.86 tps	llama.cpp Vulkan b8502	PC5 `-t 8`
Q4_K_M	69 GB	Windows11	Ryzen 7 7840HS	DDR5-5600	128GB	Radeon 780M (未使用)	4096	5.06 tps	llama.cpp CPU b8468	PC6 CPU Only

PC 1
- CPU: Ryzen 7 9700X (65W Default)
- RAM: DDR5-5600 128GB (128bit)
- GPU: GeForce RTX 5060Ti 16GB
PC 2
- CPU: Ryzen 9 3950X
- RAM: DDR4-3200 128GB (128bit)
- GPU: GeForce RTX 4060Ti 16GB
PC 3
- CPU: Core i7-13700
- RAM: DDR5-5600 96GB (128bit)
- GPU: GeForce RTX 4060Ti 16GB
PC 4 EVO-X2
- CPU: Ryzen AI Max+ 395
- RAM: LPDDR5-8000 128GB (256bit)
- GPU: Radeon 8060S
PC 5
- CPU: Ryzen 7 5700X
- RAM: DDR4-3200 96GB (128bit)
- GPU: Radeon RX 9060 XT 16GB

RAM が 96GB 以上あれば 4bit 量子化版が動作します。
パフォーマンスは GPU 側の VRAM 容量次第です。
パラメータ総数は gpt-oss 120b とほぼ同等ですが、Active パラメータ数が 2倍なのでその分速度は落ちます。
gpt-oss 120b と違い画像入力に対応しています。

設定など

注意: 計測時は、OS の電力設定を Performance (Windows の場合は最適なパフォーマンス) にしています。

LMStudio

PC1 Ryzen 7 9700X + DDR5-5600 128GB + GeForce RTX 5060Ti 16GB + Windows 11

GPU Driver : 576.88
UEFI (BIOS) の TDP はデフォルトの 65W。Windows 上では「最適なパフォーマンス」を選択
LMStudio 0.4.4
- Runtime : CUDA 12 llama.cpp (Windows) v2.4.0
- GPU Offload : 48
- CPU Thread Pool Size : 8
- Evaluation Batch Size: 512
- Max Concurrent Predictions: 4
- Unified KV Cache : true
- Keep Model in Memory : true
- Try mmap() : true
- Number of layers for whitch to force MoE weight onto CPU : 43 (Q4_K_M)
- Flash Attention : true

Context Length を 64K くらいに増やす場合は “Number of layers for whitch to force MoE weight onto CPU” を 44～に変更

PC4 EVO-X2 Ryzen AI Max+ 395 + LPDDR5-8000 128GB + Radeon 8060S + Windows 11

参考にしたページ
- LILTING CHANNEL: Qwen 3.5がRadeon 8060Sで全滅した原因はAMDドライバだった

GPU Driver : Adrenalin 26.2.2
UEFI (BIOS) で VRAM 割当を 96GB に設定し、Performance Mode での測定。Windows 上でも「最適なパフォーマンス」を選択
仮想メモリを自動管理もしくは 96GB 以上に変更
1. 設定→システム→バージョン情報→システムの詳細設定
2. 「詳細設定」タブ→パフォーマンス欄の「設定」→「詳細設定」タブ→仮想メモリ欄の「変更」
3. 「全てのドライブのページングファイルのサイズを自動的に管理する」のチェックを入れる。
4. 「OK」を数回押して全てのダイアログを閉じる
- もし固定サイズにするなら
  1. “カスタムサイズ” を選択して、初期サイズと最大サイズ両方に「98304」を入れる
  2. 「設定」をクリック (← 重要)
  3. 「OK」を数回押して全てのダイアログを閉じる
LMStudio 0.4.6
- Runtime : Vulkan llama.cpp (Windows) v2.5.1
- GPU Offload : 48
- Evaluation Batch Size: 512
- Max Concurrent Predictions: 4
- Unified KV Cache : true
- Keep Model in Memory : true
- Try mmap() : false
- Number of layers for whitch to force MoE weight onto CPU : 0
- Flash Attention : true

メモリに余裕があるため Context Length は大きく増やせます。

Agent 用設定例

llama.cpp

PC1 Ryzen 7 9700X + DDR5-5600 128GB + GeForce RTX 5060Ti 16GB + Windows 11

–ctx-size 65536 (64K)
image (vision) 対応
UD_Q4_K_XL

llama-server --model Qweun3.5-122B-A10B-UD-Q4_K_XL-00001-of-00003.gguf --mmproj mmproj-BF16.gguf --alias Qweun3.5-122B-A10B -t 8 --ctx-size 65536 --host 0.0.0.0 --port 8080 --temp 0.6 --min-p 0.0 --top-p 0.95 --top-k 20

RAM 128GB あれば ctx 128K も設定できますが生成速度は 10 tps 未満に落ちます。

PC3 Core i7-13700 + DDR5-5600 96GB + GeForce RTX 4060Ti 16GB + Linux Ubuntu 24.04LTS

RAM 96GB では mmproj を外しています。長いコンテキストが入った場合にメモリ不足で落ちるようなら ctx size は 40k くらいまでに減らします。

llama-server --model Qweun3.5-122B-A10B-Q4_K_M-00001-of-00003.gguf --alias Qweun3.5-122B-A10B -t 8 --ctx-size 65536 --host 0.0.0.0 --port 8080 --temp 0.6 --min-p 0.0 --top-p 0.95 --top-k 20

PC4 EVO-X2 Ryzen AI Max+ 395 + LPDDR5-8000 128GB + Radeon 8060S + Windows 11

b8368
BIOS (UEFI) で VRAM 割当を 96GB に変更
–no-mmap が必須なので注意
GPU ドライバは最新にすること (LILTING CHANNEL: Qwen 3.5がRadeon 8060Sで全滅した原因はAMDドライバだった)

llama-server --model Qweun3.5-122B-A10B-Q4_K_M-00001-of-00002.gguf --mmproj mmproj-Qwen3.5-122B-A10B-BF16.gguf --alias Qweun3.5-122B-A10B --ctx-size 131072 --no-mmap --host 0.0.0.0 --port 8080 --temp 0.6 --min-p 0.0 --top-p 0.95 --top-k 20

LMStudio

PC4 EVO-X2 Ryzen AI Max+ 395 + LPDDR5-8000 128GB + Radeon 8060S + Windows 11

GPU Driver : Adrenalin 26.2.2
UEFI (BIOS) で VRAM 割当を 96GB に設定
仮想メモリを自動管理もしくは 96GB 以上に変更
1. 設定→システム→バージョン情報→システムの詳細設定
2. 「詳細設定」タブ→パフォーマンス欄の「設定」→「詳細設定」タブ→仮想メモリ欄の「変更」
3. 「全てのドライブのページングファイルのサイズを自動的に管理する」のチェックを入れる。
4. 「OK」を数回押して全てのダイアログを閉じる
- もし固定サイズにするなら
  1. “カスタムサイズ” を選択して、初期サイズと最大サイズ両方に「98304」を入れる
  2. 「設定」をクリック (← 重要)
  3. 「OK」を数回押して全てのダイアログを閉じる
LMStudio 0.4.6
- Runtime : Vulkan llama.cpp (Windows) v2.7.0
- Context Length : 131072
- GPU Offload : 48
- Evaluation Batch Size: 512
- Max Concurrent Predictions: 4
- Unified KV Cache : true
- Keep Model in Memory : false
- Try mmap() : false
- Number of layers for whitch to force MoE weight onto CPU : 0
- Flash Attention : true

目次

Qwen3.5 122B-A10B (122b)

Qwen3.5 122B-A10B を Local PC で動かす

設定など

LMStudio

PC1 Ryzen 7 9700X + DDR5-5600 128GB + GeForce RTX 5060Ti 16GB + Windows 11

PC4 EVO-X2 Ryzen AI Max+ 395 + LPDDR5-8000 128GB + Radeon 8060S + Windows 11

Agent 用設定例

llama.cpp

PC1 Ryzen 7 9700X + DDR5-5600 128GB + GeForce RTX 5060Ti 16GB + Windows 11

PC3 Core i7-13700 + DDR5-5600 96GB + GeForce RTX 4060Ti 16GB + Linux Ubuntu 24.04LTS

PC4 EVO-X2 Ryzen AI Max+ 395 + LPDDR5-8000 128GB + Radeon 8060S + Windows 11

LMStudio

PC4 EVO-X2 Ryzen AI Max+ 395 + LPDDR5-8000 128GB + Radeon 8060S + Windows 11