ユーザ用ツール

サイト用ツール


ai:localllm:qwen3_5_122b

Qwen3.5 122B-A10B (122b)

Qwen3.5 122B-A10B を Local PC で動かす

量子化 Size OS CPU RAM RAM GPU ctx token/s software
Q4_K_M 69 GB Windows11 Ryzen 7 9700X DDR5-5600 128GB GeForce RTX 5060Ti 16GB 4096 17.07 tps llama.cpp CUDA 12 b8429 PC1
Q4_K_M 69 GB Windows11 Ryzen 7 9700X DDR5-5600 128GB GeForce RTX 5060Ti 16GB 4096 15.89 tps LMStudio 0.4.7 CUDA 12 v2.7.1 PC1 gpu=48,cpu=42
Q4_K_M 69 GB Ubuntu 24.04 Ryzen 9 3950X DDR4-3200 128GB GeForce RTX 4060Ti 16GB 4096 14.70 tps llama.cpp CUDA 12 b8482 PC2 -t 16
Q4_K_M 69 GB Ubuntu 24.04 Core i7-13700 DDR5-5600 96GB GeForce RTX 4060Ti 16GB 4096 18.79 tps llama.cpp CUDA 12 b8446 PC3 -t 16
UD_Q4_K_XL 71 GB Ubuntu 24.04 Core i7-13700 DDR5-5600 96GB GeForce RTX 4060Ti 16GB 4096 15.94 tps llama.cpp CUDA 12 b8446 PC3 -t 16
Q4_K_M 69 GB Windows11 Ryzen 9 AI Max+ 395 LPDDR5-8000 128GB Radeon 8060S 4096 24.90 tps LMStudio 0.4.6 Vulkan PC4 EVO-X2
Q4_K_M 69 GB Windows11 Ryzen 9 AI Max+ 395 LPDDR5-8000 128GB Radeon 8060S 4096 27.59 tps llama.cpp Vulkan b8429 PC4 EVO-X2
Q4_K_M 69 GB Windows11 Ryzen 7 5700X DDR4-3200 96GB Radeon RX 9060 XT 16GB 4096 11.86 tps llama.cpp Vulkan b8502 PC5 -t 8
Q4_K_M 69 GB Windows11 Ryzen 7 7840HS DDR5-5600 128GB Radeon 780M (未使用) 4096 5.06 tps llama.cpp CPU b8468 PC6 CPU Only
  • PC 1
    • CPU: Ryzen 7 9700X (65W Default)
    • RAM: DDR5-5600 128GB (128bit)
    • GPU: GeForce RTX 5060Ti 16GB
  • PC 2
    • CPU: Ryzen 9 3950X
    • RAM: DDR4-3200 128GB (128bit)
    • GPU: GeForce RTX 4060Ti 16GB
  • PC 3
    • CPU: Core i7-13700
    • RAM: DDR5-5600 96GB (128bit)
    • GPU: GeForce RTX 4060Ti 16GB
  • PC 4 EVO-X2
    • CPU: Ryzen AI Max+ 395
    • RAM: LPDDR5-8000 128GB (256bit)
    • GPU: Radeon 8060S
  • PC 5
    • CPU: Ryzen 7 5700X
    • RAM: DDR4-3200 96GB (128bit)
    • GPU: Radeon RX 9060 XT 16GB
  • RAM が 96GB 以上あれば 4bit 量子化版が動作します。
  • パフォーマンスは GPU 側の VRAM 容量次第です。
  • パラメータ総数は gpt-oss 120b とほぼ同等ですが、Active パラメータ数が 2倍なのでその分速度は落ちます。
  • gpt-oss 120b と違い画像入力に対応しています。

設定など

  • 注意: 計測時は、OS の電力設定を Performance (Windows の場合は最適なパフォーマンス) にしています。

LMStudio

PC1 Ryzen 7 9700X + DDR5-5600 128GB + GeForce RTX 5060Ti 16GB + Windows 11

  • GPU Driver : 576.88
  • UEFI (BIOS) の TDP はデフォルトの 65W。Windows 上では「最適なパフォーマンス」を選択
  • LMStudio 0.4.4
    • Runtime : CUDA 12 llama.cpp (Windows) v2.4.0
    • GPU Offload : 48
    • CPU Thread Pool Size : 8
    • Evaluation Batch Size: 512
    • Max Concurrent Predictions: 4
    • Unified KV Cache : true
    • Keep Model in Memory : true
    • Try mmap() : true
    • Number of layers for whitch to force MoE weight onto CPU : 43 (Q4_K_M)
    • Flash Attention : true

Context Length を 64K くらいに増やす場合は “Number of layers for whitch to force MoE weight onto CPU” を 44~ に変更

PC4 EVO-X2 Ryzen AI Max+ 395 + LPDDR5-8000 128GB + Radeon 8060S + Windows 11

  • GPU Driver : Adrenalin 26.2.2
  • UEFI (BIOS) で VRAM 割当を 96GB に設定し、Performance Mode での測定。Windows 上でも「最適なパフォーマンス」を選択
  • 仮想メモリを自動管理もしくは 96GB 以上に変更
    1. 設定→システム→バージョン情報→システムの詳細設定
    2. 「詳細設定」タブ→パフォーマンス欄の「設定」→「詳細設定」タブ→仮想メモリ欄の「変更」
    3. 「全てのドライブのページングファイルのサイズを自動的に管理する」のチェックを入れる。
    4. 「OK」を数回押して全てのダイアログを閉じる
    • もし固定サイズにするなら
      1. “カスタムサイズ” を選択して、初期サイズと最大サイズ両方に「98304」を入れる
      2. 「設定」をクリック (← 重要)
      3. 「OK」を数回押して全てのダイアログを閉じる
  • LMStudio 0.4.6
    • Runtime : Vulkan llama.cpp (Windows) v2.5.1
    • GPU Offload : 48
    • Evaluation Batch Size: 512
    • Max Concurrent Predictions: 4
    • Unified KV Cache : true
    • Keep Model in Memory : true
    • Try mmap() : false
    • Number of layers for whitch to force MoE weight onto CPU : 0
    • Flash Attention : true

メモリに余裕があるため Context Length は大きく増やせます。


Agent 用設定例

llama.cpp

PC1 Ryzen 7 9700X + DDR5-5600 128GB + GeForce RTX 5060Ti 16GB + Windows 11

  • –ctx-size 65536 (64K)
  • image (vision) 対応
  • UD_Q4_K_XL
llama-server --model Qweun3.5-122B-A10B-UD-Q4_K_XL-00001-of-00003.gguf --mmproj mmproj-BF16.gguf --alias Qweun3.5-122B-A10B -t 8 --ctx-size 65536 --host 0.0.0.0 --port 8080 --temp 0.6 --min-p 0.0 --top-p 0.95 --top-k 20

RAM 128GB あれば ctx 128K も設定できますが生成速度は 10 tps 未満に落ちます。

PC3 Core i7-13700 + DDR5-5600 96GB + GeForce RTX 4060Ti 16GB + Linux Ubuntu 24.04LTS

RAM 96GB では mmproj を外しています。 長いコンテキストが入った場合にメモリ不足で落ちるようなら ctx size は 40k くらいまでに減らします。

llama-server --model Qweun3.5-122B-A10B-Q4_K_M-00001-of-00003.gguf --alias Qweun3.5-122B-A10B -t 8 --ctx-size 65536 --host 0.0.0.0 --port 8080 --temp 0.6 --min-p 0.0 --top-p 0.95 --top-k 20

PC4 EVO-X2 Ryzen AI Max+ 395 + LPDDR5-8000 128GB + Radeon 8060S + Windows 11

llama-server --model Qweun3.5-122B-A10B-Q4_K_M-00001-of-00002.gguf --mmproj mmproj-Qwen3.5-122B-A10B-BF16.gguf --alias Qweun3.5-122B-A10B --ctx-size 131072 --no-mmap --host 0.0.0.0 --port 8080 --temp 0.6 --min-p 0.0 --top-p 0.95 --top-k 20

LMStudio

PC4 EVO-X2 Ryzen AI Max+ 395 + LPDDR5-8000 128GB + Radeon 8060S + Windows 11

  • GPU Driver : Adrenalin 26.2.2
  • UEFI (BIOS) で VRAM 割当を 96GB に設定
  • 仮想メモリを自動管理もしくは 96GB 以上に変更
    1. 設定→システム→バージョン情報→システムの詳細設定
    2. 「詳細設定」タブ→パフォーマンス欄の「設定」→「詳細設定」タブ→仮想メモリ欄の「変更」
    3. 「全てのドライブのページングファイルのサイズを自動的に管理する」のチェックを入れる。
    4. 「OK」を数回押して全てのダイアログを閉じる
    • もし固定サイズにするなら
      1. “カスタムサイズ” を選択して、初期サイズと最大サイズ両方に「98304」を入れる
      2. 「設定」をクリック (← 重要)
      3. 「OK」を数回押して全てのダイアログを閉じる
  • LMStudio 0.4.6
    • Runtime : Vulkan llama.cpp (Windows) v2.7.0
    • Context Length : 131072
    • GPU Offload : 48
    • Evaluation Batch Size: 512
    • Max Concurrent Predictions: 4
    • Unified KV Cache : true
    • Keep Model in Memory : false
    • Try mmap() : false
    • Number of layers for whitch to force MoE weight onto CPU : 0
    • Flash Attention : true
ai/localllm/qwen3_5_122b.txt · 最終更新: by oga

Donate Powered by PHP Valid HTML5 Valid CSS Driven by DokuWiki