ai:localllm:qwen3_5_122b
目次
Qwen3.5 122B-A10B (122b)
Qwen3.5 122B-A10B を Local PC で動かす
| 量子化 | Size | OS | CPU | RAM | RAM | GPU | ctx | token/s | software | |
|---|---|---|---|---|---|---|---|---|---|---|
| Q4_K_M | 69 GB | Windows11 | Ryzen 7 9700X | DDR5-5600 | 128GB | GeForce RTX 5060Ti 16GB | 4096 | 17.07 tps | llama.cpp CUDA 12 b8429 | PC1 |
| Q4_K_M | 69 GB | Windows11 | Ryzen 7 9700X | DDR5-5600 | 128GB | GeForce RTX 5060Ti 16GB | 4096 | 15.89 tps | LMStudio 0.4.7 CUDA 12 v2.7.1 | PC1 gpu=48,cpu=42 |
| Q4_K_M | 69 GB | Ubuntu 24.04 | Ryzen 9 3950X | DDR4-3200 | 128GB | GeForce RTX 4060Ti 16GB | 4096 | 14.70 tps | llama.cpp CUDA 12 b8482 | PC2 -t 16 |
| Q4_K_M | 69 GB | Ubuntu 24.04 | Core i7-13700 | DDR5-5600 | 96GB | GeForce RTX 4060Ti 16GB | 4096 | 18.79 tps | llama.cpp CUDA 12 b8446 | PC3 -t 16 |
| UD_Q4_K_XL | 71 GB | Ubuntu 24.04 | Core i7-13700 | DDR5-5600 | 96GB | GeForce RTX 4060Ti 16GB | 4096 | 15.94 tps | llama.cpp CUDA 12 b8446 | PC3 -t 16 |
| Q4_K_M | 69 GB | Windows11 | Ryzen 9 AI Max+ 395 | LPDDR5-8000 | 128GB | Radeon 8060S | 4096 | 24.90 tps | LMStudio 0.4.6 Vulkan | PC4 EVO-X2 |
| Q4_K_M | 69 GB | Windows11 | Ryzen 9 AI Max+ 395 | LPDDR5-8000 | 128GB | Radeon 8060S | 4096 | 27.59 tps | llama.cpp Vulkan b8429 | PC4 EVO-X2 |
| Q4_K_M | 69 GB | Windows11 | Ryzen 7 5700X | DDR4-3200 | 96GB | Radeon RX 9060 XT 16GB | 4096 | 11.86 tps | llama.cpp Vulkan b8502 | PC5 -t 8 |
| Q4_K_M | 69 GB | Windows11 | Ryzen 7 7840HS | DDR5-5600 | 128GB | Radeon 780M (未使用) | 4096 | 5.06 tps | llama.cpp CPU b8468 | PC6 CPU Only |
- PC 1
- CPU: Ryzen 7 9700X (65W Default)
- RAM: DDR5-5600 128GB (128bit)
- GPU: GeForce RTX 5060Ti 16GB
- PC 2
- CPU: Ryzen 9 3950X
- RAM: DDR4-3200 128GB (128bit)
- GPU: GeForce RTX 4060Ti 16GB
- PC 3
- CPU: Core i7-13700
- RAM: DDR5-5600 96GB (128bit)
- GPU: GeForce RTX 4060Ti 16GB
- PC 4 EVO-X2
- CPU: Ryzen AI Max+ 395
- RAM: LPDDR5-8000 128GB (256bit)
- GPU: Radeon 8060S
- PC 5
- CPU: Ryzen 7 5700X
- RAM: DDR4-3200 96GB (128bit)
- GPU: Radeon RX 9060 XT 16GB
- RAM が 96GB 以上あれば 4bit 量子化版が動作します。
- パフォーマンスは GPU 側の VRAM 容量次第です。
- パラメータ総数は gpt-oss 120b とほぼ同等ですが、Active パラメータ数が 2倍なのでその分速度は落ちます。
- gpt-oss 120b と違い画像入力に対応しています。
設定など
- 注意: 計測時は、OS の電力設定を Performance (Windows の場合は最適なパフォーマンス) にしています。
LMStudio
PC1 Ryzen 7 9700X + DDR5-5600 128GB + GeForce RTX 5060Ti 16GB + Windows 11
- GPU Driver : 576.88
- UEFI (BIOS) の TDP はデフォルトの 65W。Windows 上では「最適なパフォーマンス」を選択
- LMStudio 0.4.4
- Runtime : CUDA 12 llama.cpp (Windows) v2.4.0
- GPU Offload : 48
- CPU Thread Pool Size : 8
- Evaluation Batch Size: 512
- Max Concurrent Predictions: 4
- Unified KV Cache : true
- Keep Model in Memory : true
- Try mmap() : true
- Number of layers for whitch to force MoE weight onto CPU : 43 (Q4_K_M)
- Flash Attention : true
Context Length を 64K くらいに増やす場合は “Number of layers for whitch to force MoE weight onto CPU” を 44~ に変更
PC4 EVO-X2 Ryzen AI Max+ 395 + LPDDR5-8000 128GB + Radeon 8060S + Windows 11
- 参考にしたページ
- GPU Driver : Adrenalin 26.2.2
- UEFI (BIOS) で VRAM 割当を 96GB に設定し、Performance Mode での測定。Windows 上でも「最適なパフォーマンス」を選択
- 仮想メモリを自動管理もしくは 96GB 以上に変更
- 設定→システム→バージョン情報→システムの詳細設定
- 「詳細設定」タブ→パフォーマンス欄の「設定」→「詳細設定」タブ→仮想メモリ欄の「変更」
- 「全てのドライブのページングファイルのサイズを自動的に管理する」のチェックを入れる。
- 「OK」を数回押して全てのダイアログを閉じる
- もし固定サイズにするなら
- “カスタムサイズ” を選択して、初期サイズと最大サイズ両方に「98304」を入れる
- 「設定」をクリック (← 重要)
- 「OK」を数回押して全てのダイアログを閉じる
- LMStudio 0.4.6
- Runtime : Vulkan llama.cpp (Windows) v2.5.1
- GPU Offload : 48
- Evaluation Batch Size: 512
- Max Concurrent Predictions: 4
- Unified KV Cache : true
- Keep Model in Memory : true
- Try mmap() : false
- Number of layers for whitch to force MoE weight onto CPU : 0
- Flash Attention : true
メモリに余裕があるため Context Length は大きく増やせます。
Agent 用設定例
llama.cpp
PC1 Ryzen 7 9700X + DDR5-5600 128GB + GeForce RTX 5060Ti 16GB + Windows 11
- –ctx-size 65536 (64K)
- image (vision) 対応
- UD_Q4_K_XL
llama-server --model Qweun3.5-122B-A10B-UD-Q4_K_XL-00001-of-00003.gguf --mmproj mmproj-BF16.gguf --alias Qweun3.5-122B-A10B -t 8 --ctx-size 65536 --host 0.0.0.0 --port 8080 --temp 0.6 --min-p 0.0 --top-p 0.95 --top-k 20
RAM 128GB あれば ctx 128K も設定できますが生成速度は 10 tps 未満に落ちます。
PC3 Core i7-13700 + DDR5-5600 96GB + GeForce RTX 4060Ti 16GB + Linux Ubuntu 24.04LTS
RAM 96GB では mmproj を外しています。 長いコンテキストが入った場合にメモリ不足で落ちるようなら ctx size は 40k くらいまでに減らします。
llama-server --model Qweun3.5-122B-A10B-Q4_K_M-00001-of-00003.gguf --alias Qweun3.5-122B-A10B -t 8 --ctx-size 65536 --host 0.0.0.0 --port 8080 --temp 0.6 --min-p 0.0 --top-p 0.95 --top-k 20
PC4 EVO-X2 Ryzen AI Max+ 395 + LPDDR5-8000 128GB + Radeon 8060S + Windows 11
- b8368
- BIOS (UEFI) で VRAM 割当を 96GB に変更
–no-mmapが必須なので注意- GPU ドライバは最新にすること (LILTING CHANNEL: Qwen 3.5がRadeon 8060Sで全滅した原因はAMDドライバだった)
llama-server --model Qweun3.5-122B-A10B-Q4_K_M-00001-of-00002.gguf --mmproj mmproj-Qwen3.5-122B-A10B-BF16.gguf --alias Qweun3.5-122B-A10B --ctx-size 131072 --no-mmap --host 0.0.0.0 --port 8080 --temp 0.6 --min-p 0.0 --top-p 0.95 --top-k 20
LMStudio
PC4 EVO-X2 Ryzen AI Max+ 395 + LPDDR5-8000 128GB + Radeon 8060S + Windows 11
- GPU Driver : Adrenalin 26.2.2
- UEFI (BIOS) で VRAM 割当を 96GB に設定
- 仮想メモリを自動管理もしくは 96GB 以上に変更
- 設定→システム→バージョン情報→システムの詳細設定
- 「詳細設定」タブ→パフォーマンス欄の「設定」→「詳細設定」タブ→仮想メモリ欄の「変更」
- 「全てのドライブのページングファイルのサイズを自動的に管理する」のチェックを入れる。
- 「OK」を数回押して全てのダイアログを閉じる
- もし固定サイズにするなら
- “カスタムサイズ” を選択して、初期サイズと最大サイズ両方に「98304」を入れる
- 「設定」をクリック (← 重要)
- 「OK」を数回押して全てのダイアログを閉じる
- LMStudio 0.4.6
- Runtime : Vulkan llama.cpp (Windows) v2.7.0
- Context Length : 131072
- GPU Offload : 48
- Evaluation Batch Size: 512
- Max Concurrent Predictions: 4
- Unified KV Cache : true
- Keep Model in Memory : false
- Try mmap() : false
- Number of layers for whitch to force MoE weight onto CPU : 0
- Flash Attention : true
ai/localllm/qwen3_5_122b.txt · 最終更新: by oga
