ユーザ用ツール

サイト用ツール


ai:localllm:gptoss120b

gpt-oss 120b (1200億) パラメータのモデルを自分のパソコン上で動かす

gpt-oss 120b はパラメータ数が多いですが、RAM が 96GB 以上あるパソコンなら動作します。 もちろん高速な VRM を搭載した GPU が必要です。

OS CPU RAM RAM GPU Window token/s software
Windows11 Ryzen 9 AI+ 395 LPDDR5X-8000 128GB RADEON 8060S 4096 47.52 tps LMStudio 0.4.2 EVO-X2
Windows11 Ryzen 7 9700X DDR5-5600 128GB GeForce RTX 5060Ti 16GB 4096 23.81 tps LMStudio 0.4.2

Local LLM とパラメータ数

2025/08/05 に登場した gpt-oss は、巨大なパラメータ数を持ちながら PC 上でも比較的高速に動作する非常に画期的なモデルでした。

CPU のメモリ帯域は巨大なパラメータ数のモデルを扱うには遅すぎるので、数倍から十数倍高速な GPU の VRAM に格納しておく必要があります。 ところが VRAM は高価であり簡単に拡張できるものではありません。 LLM を載せられるほど大きな VRAM を載せた GPU は数十万円~数百万円くらいします。

個人で手に入る 10万円前後の GPU の VRAM 容量で言えばだいたい多くて 16GB です。 24GB ~ 32GB になると、30~60万円クラスに跳ね上がります。

VRAM 16GB に完全に載せられる Local LLM のサイズはおよそ 14b までです。 例えば qwen3:14b の場合はちょうど 16GB の VRAM に収まり、かつ Context Window サイズも 16K まで指定できます。 要約のような小さいタスクであればこれで十分で、パソコンでもかなり高速に動作します。 比較的性能の低い GeForce RTX 4060 Ti 16GB (ctx 4096) でも 28 tps ほどで動きます。

ですが、Tool を多用したり少々複雑なタスクを Agent として走らせたり、コーディングなどの専門知識が必要なケースだと 14b では安定して動作できないケースがあります。 そのためタスクによってはより上位の 32b や 70b が欲しくなります。

RAM さえ大量に詰めば VRAM がなくても CPU 上で動くのですが、32b でも CPU では 2 tps (Token/sec) 前後、VRAM 16GB の GPU を併用しても 6 tps 程度しか出ません。 70b に至っては、CPU だと 1 tps、VRAM 16GB の GPU 併用でも 2 tps 未満と実用には程遠い速度でした。

各パラメータ数のモデルにおける速度の比較はこちらのページに掲載しています

gpt-oss 120b

この問題が gpt-oss 120b で一気に解決します。 32b でも CPU のみで 2 tps 前後、70b に至っては 1 tps 程度しか出なかったものが、gpt-oss 120b では 5~6 tps と数倍の速度が出ていることがわかります。 さらに GPU 利用時は 13~18 tps 出ており、32b を ollama + GPU x2 で走らせていた場合よりもパフォーマンスが高くなっています。

Linux 24.04 + Ryzen 9 3950X + RAM 96GB + RTX 4060Ti 16GB / RTX 2070 Super 8GB
model params CPU のみ token/s CPU+GPU token/s MoE software GPU
gpt-oss 120b 13.53 tps Y LMStudio 0.3.23 RTX 2070 Super 8GB
gpt-oss 120b 5.25 tps 5.87 tps Y ollama 0.11.3 RTX 4060 Ti 16GB
llama3.3 70b 1.00 tps 1.39 tps N ollama 0.11.3 RTX 4060 Ti 16GB
qwen3 32b 1.84 tps 4.33 tps N ollama 0.11.3 RTX 4060 Ti 16GB
  • ↑使用環境: Linux Ubuntu-24.04LTS : Ryzen 9 3950X + DDR4-3200 96GB + GeForce RTX 4060Ti 16GB/GeForce RTX 2070 Super 8GB
Windows 11 + Ryzen 7 9700X + RAM 96GB + RTX 5060Ti 16GB
model params CPU のみ token/s CPU+GPU token/s MoE software GPU
gpt-oss 120b 17.97 tps Y LMStudio 0.3.23 RTX 5060 Ti 16GB
gpt-oss 120b 6.29 tps 6.37 tps Y ollama 0.11.4 RTX 5060 Ti 16GB
llama3.3 70b 1.58 tps 1.21 tps N ollama 0.11.4 RTX 5060 Ti 16GB
qwen3 32b 4.72 tps 2.19 tps N ollama 0.11.4 RTX 5060 Ti 16GB
  • ↑使用環境: Linux Ubuntu-24.04LTS : Ryzen 9 3950X + DDR4-3200 96GB + GeForce RTX 4060Ti 16GB

VRAM ほどメモリ帯域がない System RAM でこれだけ速度が出ているのは gpt-oss が MoE だからです。 実際のアクティブパラメータが 5.1b なのでメモリ帯域をそこまで必要としていません。

MoE を採用した LLM 自体は他にもあります。 例えば qwen3 30B-A3.3B や DeepSeek-R1 671B などが有名でしょう。 ですが、大きすぎず小さすぎず、120b と一般的な PC の RAM でぎりぎり手が届く範囲で十分大きなパラメータ数を持っている点がそれまでのモデルとは違っていました。 メインメモリ 96GB + VRAM 8GB~16GB で現実的なパフォーマンスで動くので、gpt-oss-120b は 14b では少々物足りないような複雑なタスクを走らせるのにはぴったりです。

さまざまな環境での速度比較 (2025/08)

以下は gpt-oss 120b をさまざまな環境で走らせた場合の比較です。 これら数値は 2025/08 に測定したもので、使用したソフトウエアのバージョンも当時のものです。

OSCPURAMRAMGPUVRAMMemoryCPUGPUWindowtoken/s software optoin driver
(A)Linux 24.043950XDDR4-320096GB4060Ti 16GB16GB70GB77%23%81925.87 tpsollama 0.11.3
(B)Linux 24.043950XDDR4-320096GB66GB100%0%81925.25 tpsollama 0.11.3 NoGPU
(C)Linux 24.043950XDDR4-320096GB4060Ti 16GB16GB68GB76%24%40966.08 tpsollama 0.11.4
(D)Linux 24.043950XDDR4-320096GB4060Ti x216+16=32GB75GB58%42%81926.95 tpsollama 0.11.4
(F)Linux 24.043950XDDR4-320096GB66GB100%0%40965.37 tpsollama 0.11.4 NoGPU
(G)Linux 24.043950XDDR4-320096GB2020Super8GB67GB90%10%40967.63 tpsollama 0.11.5
(H)Linux 24.043950XDDR4-320096GB2020Super8GB65GB89%11%40967.92 tpsollama 0.11.5OLLAMA_FLASH_ATTENTION OLLAMA_NEW_ESTIMATES
(I)Linux 24.043950XDDR4-320096GB2020Super8GB65GB89%11%40967.76 tpsollama 0.11.6OLLAMA_FLASH_ATTENTION OLLAMA_NEW_ESTIMATES
(J)Linux 25.043950XDDR4-320096GBRX9060XT16GB65GB76%24%40968.72 tpsollama 0.11.10OLLAMA_FLASH_ATTENTION OLLAMA_NEW_ESTIMATES
(K)Linux 24.043950XDDR4-320096GB2070Super8GB 409613.53 tpsLMStudio 0.3.23
(L)ollama turbo??????0%100% 3480 tps turbo 2025/8/7
(M)ollama turbo??????0%100% 3108 tps turbo 2025/8/14
(N)Windows119700XDDR5-560096GB5060Ti 16GB16GB68GB79%21%40966.37 tpsollama 0.11.4 576.52
(O)Windows119700XDDR5-560096GB5060Ti 16GB16GB65GB78%22%409610.24 tpsollama 0.11.5OLLAMA_FLASH_ATTENTION OLLAMA_NEW_ESTIMATES576.52
(P)Windows119700XDDR5-560096GB5060Ti 16GB16GB65GB78%22%409610.24 tpsollama 0.11.6OLLAMA_FLASH_ATTENTION OLLAMA_NEW_ESTIMATES576.52
(Q)Windows119700XDDR5-560096GB5060Ti 16GB16GB 409617.97 tpsLMStudio 0.3.23 576.52
(R)Windows119700XDDR5-560096GB66GB100%0%40966.29 tpsollama 0.11.4 NoGPU
(S)Windows119700XDDR5-560096GB69GB100%0%81926.33 tpsollama 0.11.4 NoGPU
(T)Windows119700XDDR5-560096GB65GB100%0%40969.13 tpsollama 0.11.5OLLAMA_FLASH_ATTENTION OLLAMA_NEW_ESTIMATESNoGPU
(U)Windows11i7-13700DDR4-320064GB4060Ti 16GB16GB67GB77%23%40964.40 tpsollama 0.11.5
(V)Windows11i7-13700DDR4-320064GB4060Ti 16GB16GB65GB78%22%40964.55 tpsollama 0.11.5OLLAMA_FLASH_ATTENTION OLLAMA_NEW_ESTIMATES
(W)Windows117840HSDDR5-5600128GBRadeon 780M8GB 40968.50 tpsLMStudio 0.3.23
(X)Windows117840HSDDR5-5600128GB65GB100%0%81927.58 tpsollama 0.11.7OLLAMA_FLASH_ATTENTION OLLAMA_NEW_ESTIMATESNoGPU

(L)/(M) の Ollama-Cloud は当時は Ollama-Turbo と呼ばれていました。 当初 (2025/08/07~14) は有料プランのみで、かつ利用者がまだすくなかったためか 3000 tps 以上と非常に高速です。 (ただしリリース直後は Function Calling (Tool) にバグがありきちんと動いていなかった)

その後の gpt-oss 120b (2026/02)

その後メインメモリにも高速な RAM を採用し、かつ大容量 (128GB) 搭載した PC がいくつか発表されています。 これらのマシンでは更に高速に動作させることが可能です。

Device 最大RAM 最大メモリ速度 最大メモリ帯域
Mac M4 Pro 64GB LPDDR5X-8533 256bit 273 GB/s
Mac M4 Max 128GB LPDDR5X-8533 512bit 546 GB/s
Mac M3 Ultra 512GB LPDDR5-6400 1024bit 819 GB/s
Ryzen 9 AI+ 395 128GB LPDDR5X-8000 256bit 256 GB/s
DGX Spark 128GB LPDDR5X-8533 256bit 273 GB/s

例えば Ryzen 9 AI+ 395 を搭載した GMKTec EVO-X2 の 128GB モデルは、昨年 (2025年) は 30万円前後と比較的安価に購入可能でした。 EVO-X2 では ctx window 4K で簡単な内容なら現在は 47 tps くらいで動作しています。 また ctx も 64K くらまでなら設定可能です。入力トークンが増えると速度は遅くなります。

以下は 2026年 2月時点での測定です。ソフトウエアも更新されており、パラメータ設定なども修正したためパフォーマンスは上がっています。

OS CPU RAM RAM GPU Window token/s software
Windows11 Ryzen 9 AI+ 395 LPDDR5X-8000 128GB RADEON 8060S 4096 47.52 tps LMStudio 0.4.2 Evo-X2 VRAM 64GB 設定
Windows11 Ryzen 7 9700X DDR5-5600 128GB RTX 5060Ti 16GB 4096 23.19 tps LMStudio 0.4.2 Number of layers for which to force MoE ~ 29
ai/localllm/gptoss120b.txt · 最終更新: by oga

Donate Powered by PHP Valid HTML5 Valid CSS Driven by DokuWiki