gpt-oss 120b (120b)

gpt-oss 120b を Local PC で動かす

gpt-oss 120b はパラメータ数が多いですが、RAM が 96GB 以上あるパソコンで動作します。

量子化	Size	OS	CPU	RAM	RAM	GPU	ctx	token/s	software
MXFP4	59 GB	Windows11	Ryzen 7 9700X	DDR5-5600	128GB	GeForce RTX 5060Ti 16GB	4096	23.81 tps	LMStudio 0.4.2	PC1 gpu=36, cpu=32
MXFP4	59 GB	Windows11	Ryzen 7 9700X	DDR5-5600	128GB	GeForce RTX 5060Ti 16GB	4096	24.34 tps	llama.cpp CUDA 12 b8429	PC1 `-t 8`
MXFP4	59 GB	Ubuntu 25.10	Ryzen 9 3950X	DDR4-3200	128GB	CPU Only	4096	10.57 tps	llama.cpp CPU b8482	PC2 `-t 16`
MXFP4	59 GB	Ubuntu 25.10	Ryzen 9 3950X	DDR4-3200	128GB	GeForce RTX 4060Ti 16GB	4096	21.30 tps	llama.cpp CUDA 12 b8482	PC2 `-t 16`
MXFP4	59 GB	Ubuntu 24.04	Core i7-13700	DDR5-5600	96GB	GeForce RTX 4060Ti 16GB	4096	26.87 tps	llama.cpp CUDA 12 b8446	PC3 `-t 16`
MXFP4	59 GB	Ubuntu 24.04	Core i7-13700	DDR5-5600	96GB	GeForce RTX 4060Ti 16GB	4096	27.56 tps	llama.cpp CUDA 12 b8446	PC3 `-t 8`
MXFP4	59 GB	Windows11	Ryzen 9 AI+ 395	LPDDR5X-8000	128GB	Radeon 8060S	4096	47.52 tps	LMStudio 0.4.2	PC4 EVO-X2
MXFP4	59 GB	Windows11	Ryzen 7 5700X	DDR4-3200	96GB	Radeon RX 9060 XT 16GB	4096	16.93 tps	llama.cpp Vulkan b8502	PC5 `-t 8`
MXFP4	59 GB	Windows11	Ryzen 7 7840HS	DDR5-5600	128GB	CPU Only	4096	10.31 tps	llama.cpp CPU b8468	PC6 (冷却次第)

PC 1
- CPU: Ryzen 7 9700X (65W Default)
- RAM: DDR5-5600 128GB (128bit)
- GPU: GeForce RTX 5060Ti 16GB
PC 2
- CPU: Ryzen 9 3950X
- RAM: DDR4-3200 128GB (128bit)
- GPU: GeForce RTX 4060Ti 16GB
PC 3
- CPU: Core i7-13700
- RAM: DDR5-5600 96GB (128bit)
- GPU: GeForce RTX 4060Ti 16GB
PC 4 EVO-X2
- CPU: Ryzen AI Max+ 395
- RAM: LPDDR5-8000 128GB (256bit)
- GPU: Radeon 8060S
PC 5
- CPU: Ryzen 7 5700X
- RAM: DDR4-3200 96GB (128bit)
- GPU: Radeon RX 9060 XT 16GB
PC 6
- CPU: Ryzen 7 7840HS
- RAM: DDR5-5600 128GB (128bit)
- GPU: Radeon 780M

Local LLM とパラメータ数

2025/08/05 に登場した gpt-oss は、巨大なパラメータ数を持ちながら PC 上でも比較的高速に動作する非常に画期的なモデルでした。

CPU のメモリ帯域は巨大なパラメータ数のモデルを扱うには遅すぎるので、数倍から十数倍高速な GPU の VRAM に格納しておく必要があります。ところが VRAM は高価であり簡単に拡張できるものではありません。 LLM を載せられるほど大きな VRAM を載せた GPU は数十万円～数百万円くらいします。

個人で手に入る 10万円前後の GPU の VRAM 容量で言えばだいたい多くて 16GB です。 24GB ～ 32GB になると、30～60万円クラスに跳ね上がります。

VRAM 16GB に完全に載せられる Local LLM のサイズはおよそ 14b までです。例えば qwen3:14b の場合はちょうど 16GB の VRAM に収まり、かつ Context Window サイズも 16K まで指定できます。要約のような小さいタスクであればこれで十分で、パソコンでもかなり高速に動作します。比較的性能の低い GeForce RTX 4060 Ti 16GB (ctx 4096) でも 28 tps ほどで動きます。

ですが、Tool を多用したり少々複雑なタスクを Agent として走らせたり、コーディングなどの専門知識が必要なケースだと 14b では安定して動作できないケースがあります。そのためタスクによってはより上位の 32b や 70b が欲しくなります。

RAM さえ大量に詰めば VRAM がなくても CPU 上で動くのですが、32b でも CPU では 2 tps (Token/sec) 前後、VRAM 16GB の GPU を併用しても 6 tps 程度しか出ません。 70b に至っては、CPU だと 1 tps、VRAM 16GB の GPU 併用でも 2 tps 未満と実用には程遠い速度でした。

各パラメータ数のモデルにおける速度の比較はこちらのページに掲載しています

Ollama でマルチ GPU 推論

2025/05/25 15:43

gpt-oss 120b

この問題が gpt-oss 120b で一気に解決します。 32b でも CPU のみで 2 tps 前後、70b に至っては 1 tps 程度しか出なかったものが、gpt-oss 120b では 5～6 tps と数倍の速度が出ていることがわかります。さらに GPU 利用時は 13～18 tps 出ており、32b を ollama + GPU x2 で走らせていた場合よりもパフォーマンスが高くなっています。

Linux 24.04 + Ryzen 9 3950X + RAM 96GB + RTX 4060Ti 16GB / RTX 2070 Super 8GB
model	params	CPU のみ token/s	CPU+GPU token/s	MoE	software	GPU
gpt-oss	120b		13.53 tps	Y	LMStudio 0.3.23	RTX 2070 Super 8GB
gpt-oss	120b	5.25 tps	5.87 tps	Y	ollama 0.11.3	RTX 4060 Ti 16GB
llama3.3	70b	1.00 tps	1.39 tps	N	ollama 0.11.3	RTX 4060 Ti 16GB
qwen3	32b	1.84 tps	4.33 tps	N	ollama 0.11.3	RTX 4060 Ti 16GB

↑使用環境: Linux Ubuntu-24.04LTS : Ryzen 9 3950X + DDR4-3200 96GB + GeForce RTX 4060Ti 16GB/GeForce RTX 2070 Super 8GB

Windows 11 + Ryzen 7 9700X + RAM 96GB + RTX 5060Ti 16GB
model	params	CPU のみ token/s	CPU+GPU token/s	MoE	software	GPU
gpt-oss	120b		17.97 tps	Y	LMStudio 0.3.23	RTX 5060 Ti 16GB
gpt-oss	120b	6.29 tps	6.37 tps	Y	ollama 0.11.4	RTX 5060 Ti 16GB
llama3.3	70b	1.58 tps	1.21 tps	N	ollama 0.11.4	RTX 5060 Ti 16GB
qwen3	32b	4.72 tps	2.19 tps	N	ollama 0.11.4	RTX 5060 Ti 16GB

↑使用環境: Linux Ubuntu-24.04LTS : Ryzen 9 3950X + DDR4-3200 96GB + GeForce RTX 4060Ti 16GB

VRAM ほどメモリ帯域がない System RAM でこれだけ速度が出ているのは gpt-oss が MoE だからです。実際のアクティブパラメータが 5.1b なのでメモリ帯域をそこまで必要としていません。

MoE を採用した LLM 自体は他にもあります。例えば qwen3 30B-A3.3B や DeepSeek-R1 671B などが有名でしょう。ですが、大きすぎず小さすぎず、120b と一般的な PC の RAM でぎりぎり手が届く範囲で十分大きなパラメータ数を持っている点がそれまでのモデルとは違っていました。メインメモリ 96GB + VRAM 8GB～16GB で現実的なパフォーマンスで動くので、gpt-oss-120b は 14b では少々物足りないような複雑なタスクを走らせるのにはぴったりです。

さまざまな環境での速度比較 (2025/08)

以下は gpt-oss 120b をさまざまな環境で走らせた場合の比較です。これら数値は 2025/08 に測定したもので、使用したソフトウエアのバージョンも当時のものです。

	OS	CPU	RAM	RAM	GPU	VRAM	Memory	CPU	GPU	Window	token/s	software	optoin	driver
(A)	Linux 24.04	3950X	DDR4-3200	96GB	4060Ti 16GB	16GB	70GB	77%	23%	8192	5.87 tps	ollama 0.11.3
(B)	Linux 24.04	3950X	DDR4-3200	96GB	–	–	66GB	100%	0%	8192	5.25 tps	ollama 0.11.3		NoGPU
(C)	Linux 24.04	3950X	DDR4-3200	96GB	4060Ti 16GB	16GB	68GB	76%	24%	4096	6.08 tps	ollama 0.11.4
(D)	Linux 24.04	3950X	DDR4-3200	96GB	4060Ti x2	16+16=32GB	75GB	58%	42%	8192	6.95 tps	ollama 0.11.4
(F)	Linux 24.04	3950X	DDR4-3200	96GB	–	–	66GB	100%	0%	4096	5.37 tps	ollama 0.11.4		NoGPU
(G)	Linux 24.04	3950X	DDR4-3200	96GB	2020Super	8GB	67GB	90%	10%	4096	7.63 tps	ollama 0.11.5
(H)	Linux 24.04	3950X	DDR4-3200	96GB	2020Super	8GB	65GB	89%	11%	4096	7.92 tps	ollama 0.11.5	OLLAMA_FLASH_ATTENTION OLLAMA_NEW_ESTIMATES
(I)	Linux 24.04	3950X	DDR4-3200	96GB	2020Super	8GB	65GB	89%	11%	4096	7.76 tps	ollama 0.11.6	OLLAMA_FLASH_ATTENTION OLLAMA_NEW_ESTIMATES
(J)	Linux 25.04	3950X	DDR4-3200	96GB	RX9060XT	16GB	65GB	76%	24%	4096	8.72 tps	ollama 0.11.10	OLLAMA_FLASH_ATTENTION OLLAMA_NEW_ESTIMATES
(K)	Linux 24.04	3950X	DDR4-3200	96GB	2070Super	8GB				4096	13.53 tps	LMStudio 0.3.23
(L)	ollama turbo	?	?	?	?	?	?	0%	100%		3480 tps	turbo 2025/8/7
(M)	ollama turbo	?	?	?	?	?	?	0%	100%		3108 tps	turbo 2025/8/14
(N)	Windows11	9700X	DDR5-5600	96GB	5060Ti 16GB	16GB	68GB	79%	21%	4096	6.37 tps	ollama 0.11.4		576.52
(O)	Windows11	9700X	DDR5-5600	96GB	5060Ti 16GB	16GB	65GB	78%	22%	4096	10.24 tps	ollama 0.11.5	OLLAMA_FLASH_ATTENTION OLLAMA_NEW_ESTIMATES	576.52
(P)	Windows11	9700X	DDR5-5600	96GB	5060Ti 16GB	16GB	65GB	78%	22%	4096	10.24 tps	ollama 0.11.6	OLLAMA_FLASH_ATTENTION OLLAMA_NEW_ESTIMATES	576.52
(Q)	Windows11	9700X	DDR5-5600	96GB	5060Ti 16GB	16GB				4096	17.97 tps	LMStudio 0.3.23		576.52
(R)	Windows11	9700X	DDR5-5600	96GB	–	–	66GB	100%	0%	4096	6.29 tps	ollama 0.11.4		NoGPU
(S)	Windows11	9700X	DDR5-5600	96GB	–	–	69GB	100%	0%	8192	6.33 tps	ollama 0.11.4		NoGPU
(T)	Windows11	9700X	DDR5-5600	96GB	–	–	65GB	100%	0%	4096	9.13 tps	ollama 0.11.5	OLLAMA_FLASH_ATTENTION OLLAMA_NEW_ESTIMATES	NoGPU
(U)	Windows11	i7-13700	DDR4-3200	64GB	4060Ti 16GB	16GB	67GB	77%	23%	4096	4.40 tps	ollama 0.11.5
(V)	Windows11	i7-13700	DDR4-3200	64GB	4060Ti 16GB	16GB	65GB	78%	22%	4096	4.55 tps	ollama 0.11.5	OLLAMA_FLASH_ATTENTION OLLAMA_NEW_ESTIMATES
(W)	Windows11	7840HS	DDR5-5600	128GB	Radeon 780M	8GB				4096	8.50 tps	LMStudio 0.3.23
(X)	Windows11	7840HS	DDR5-5600	128GB	–	–	65GB	100%	0%	8192	7.58 tps	ollama 0.11.7	OLLAMA_FLASH_ATTENTION OLLAMA_NEW_ESTIMATES	NoGPU

(L)/(M) の Ollama-Cloud は当時は Ollama-Turbo と呼ばれていました。当初 (2025/08/07～14) は有料プランのみで、かつ利用者がまだすくなかったためか 3000 tps 以上と非常に高速です。 (ただしリリース直後は Function Calling (Tool) にバグがありきちんと動いていなかった)

その後の gpt-oss 120b (2026/02)

その後メインメモリにも高速な RAM を採用し、かつ大容量 (128GB) 搭載した PC がいくつか発表されています。これらのマシンでは更に高速に動作させることが可能です。

Device	最大RAM	最大メモリ速度	最大メモリ帯域
Mac M4 Pro	64GB	LPDDR5X-8533 256bit	273 GB/s
Mac M4 Max	128GB	LPDDR5X-8533 512bit	546 GB/s
Mac M3 Ultra	512GB	LPDDR5-6400 1024bit	819 GB/s
Ryzen 9 AI+ 395	128GB	LPDDR5X-8000 256bit	256 GB/s
DGX Spark	128GB	LPDDR5X-8533 256bit	273 GB/s

例えば Ryzen 9 AI+ 395 を搭載した GMKTec EVO-X2 の 128GB モデルは、昨年 (2025年) は 30万円前後と比較的安価に購入可能でした。 EVO-X2 では ctx window 4K で簡単な内容なら現在は 47 tps くらいで動作しています。また ctx も 64K くらまでなら設定可能です。入力トークンが増えると速度は遅くなります。

以下は 2026年 2月時点での測定です。ソフトウエアも更新されており、パラメータ設定なども修正したためパフォーマンスは上がっています。

OS	CPU	RAM	RAM	GPU	Window	token/s	software
Windows11	Ryzen 9 AI+ 395	LPDDR5X-8000	128GB	RADEON 8060S	4096	47.52 tps	LMStudio 0.4.2	Evo-X2 VRAM 64GB 設定
Windows11	Ryzen 7 9700X	DDR5-5600	128GB	RTX 5060Ti 16GB	4096	23.19 tps	LMStudio 0.4.2	Number of layers for which to force MoE ～ 29