gpt-oss 120b はパラメータ数が多いですが、RAM が 96GB 以上あるパソコンなら動作します。 もちろん高速な VRM を搭載した GPU が必要です。
| OS | CPU | RAM | RAM | GPU | Window | token/s | software | |
|---|---|---|---|---|---|---|---|---|
| Windows11 | Ryzen 9 AI+ 395 | LPDDR5X-8000 | 128GB | RADEON 8060S | 4096 | 47.52 tps | LMStudio 0.4.2 | EVO-X2 |
| Windows11 | Ryzen 7 9700X | DDR5-5600 | 128GB | GeForce RTX 5060Ti 16GB | 4096 | 23.81 tps | LMStudio 0.4.2 |
2025/08/05 に登場した gpt-oss は、巨大なパラメータ数を持ちながら PC 上でも比較的高速に動作する非常に画期的なモデルでした。
CPU のメモリ帯域は巨大なパラメータ数のモデルを扱うには遅すぎるので、数倍から十数倍高速な GPU の VRAM に格納しておく必要があります。 ところが VRAM は高価であり簡単に拡張できるものではありません。 LLM を載せられるほど大きな VRAM を載せた GPU は数十万円~数百万円くらいします。
個人で手に入る 10万円前後の GPU の VRAM 容量で言えばだいたい多くて 16GB です。 24GB ~ 32GB になると、30~60万円クラスに跳ね上がります。
VRAM 16GB に完全に載せられる Local LLM のサイズはおよそ 14b までです。 例えば qwen3:14b の場合はちょうど 16GB の VRAM に収まり、かつ Context Window サイズも 16K まで指定できます。 要約のような小さいタスクであればこれで十分で、パソコンでもかなり高速に動作します。 比較的性能の低い GeForce RTX 4060 Ti 16GB (ctx 4096) でも 28 tps ほどで動きます。
ですが、Tool を多用したり少々複雑なタスクを Agent として走らせたり、コーディングなどの専門知識が必要なケースだと 14b では安定して動作できないケースがあります。 そのためタスクによってはより上位の 32b や 70b が欲しくなります。
RAM さえ大量に詰めば VRAM がなくても CPU 上で動くのですが、32b でも CPU では 2 tps (Token/sec) 前後、VRAM 16GB の GPU を併用しても 6 tps 程度しか出ません。 70b に至っては、CPU だと 1 tps、VRAM 16GB の GPU 併用でも 2 tps 未満と実用には程遠い速度でした。
各パラメータ数のモデルにおける速度の比較はこちらのページに掲載しています
| 2025/05/25 15:43 |
この問題が gpt-oss 120b で一気に解決します。 32b でも CPU のみで 2 tps 前後、70b に至っては 1 tps 程度しか出なかったものが、gpt-oss 120b では 5~6 tps と数倍の速度が出ていることがわかります。 さらに GPU 利用時は 13~18 tps 出ており、32b を ollama + GPU x2 で走らせていた場合よりもパフォーマンスが高くなっています。
| Linux 24.04 + Ryzen 9 3950X + RAM 96GB + RTX 4060Ti 16GB / RTX 2070 Super 8GB | ||||||
|---|---|---|---|---|---|---|
| model | params | CPU のみ token/s | CPU+GPU token/s | MoE | software | GPU |
| gpt-oss | 120b | 13.53 tps | Y | LMStudio 0.3.23 | RTX 2070 Super 8GB | |
| gpt-oss | 120b | 5.25 tps | 5.87 tps | Y | ollama 0.11.3 | RTX 4060 Ti 16GB |
| llama3.3 | 70b | 1.00 tps | 1.39 tps | N | ollama 0.11.3 | RTX 4060 Ti 16GB |
| qwen3 | 32b | 1.84 tps | 4.33 tps | N | ollama 0.11.3 | RTX 4060 Ti 16GB |
| Windows 11 + Ryzen 7 9700X + RAM 96GB + RTX 5060Ti 16GB | ||||||
|---|---|---|---|---|---|---|
| model | params | CPU のみ token/s | CPU+GPU token/s | MoE | software | GPU |
| gpt-oss | 120b | 17.97 tps | Y | LMStudio 0.3.23 | RTX 5060 Ti 16GB | |
| gpt-oss | 120b | 6.29 tps | 6.37 tps | Y | ollama 0.11.4 | RTX 5060 Ti 16GB |
| llama3.3 | 70b | 1.58 tps | 1.21 tps | N | ollama 0.11.4 | RTX 5060 Ti 16GB |
| qwen3 | 32b | 4.72 tps | 2.19 tps | N | ollama 0.11.4 | RTX 5060 Ti 16GB |
VRAM ほどメモリ帯域がない System RAM でこれだけ速度が出ているのは gpt-oss が MoE だからです。 実際のアクティブパラメータが 5.1b なのでメモリ帯域をそこまで必要としていません。
MoE を採用した LLM 自体は他にもあります。 例えば qwen3 30B-A3.3B や DeepSeek-R1 671B などが有名でしょう。 ですが、大きすぎず小さすぎず、120b と一般的な PC の RAM でぎりぎり手が届く範囲で十分大きなパラメータ数を持っている点がそれまでのモデルとは違っていました。 メインメモリ 96GB + VRAM 8GB~16GB で現実的なパフォーマンスで動くので、gpt-oss-120b は 14b では少々物足りないような複雑なタスクを走らせるのにはぴったりです。
以下は gpt-oss 120b をさまざまな環境で走らせた場合の比較です。 これら数値は 2025/08 に測定したもので、使用したソフトウエアのバージョンも当時のものです。
| OS | CPU | RAM | RAM | GPU | VRAM | Memory | CPU | GPU | Window | token/s | software | optoin | driver | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| (A) | Linux 24.04 | 3950X | DDR4-3200 | 96GB | 4060Ti 16GB | 16GB | 70GB | 77% | 23% | 8192 | 5.87 tps | ollama 0.11.3 | ||
| (B) | Linux 24.04 | 3950X | DDR4-3200 | 96GB | – | – | 66GB | 100% | 0% | 8192 | 5.25 tps | ollama 0.11.3 | NoGPU | |
| (C) | Linux 24.04 | 3950X | DDR4-3200 | 96GB | 4060Ti 16GB | 16GB | 68GB | 76% | 24% | 4096 | 6.08 tps | ollama 0.11.4 | ||
| (D) | Linux 24.04 | 3950X | DDR4-3200 | 96GB | 4060Ti x2 | 16+16=32GB | 75GB | 58% | 42% | 8192 | 6.95 tps | ollama 0.11.4 | ||
| (F) | Linux 24.04 | 3950X | DDR4-3200 | 96GB | – | – | 66GB | 100% | 0% | 4096 | 5.37 tps | ollama 0.11.4 | NoGPU | |
| (G) | Linux 24.04 | 3950X | DDR4-3200 | 96GB | 2020Super | 8GB | 67GB | 90% | 10% | 4096 | 7.63 tps | ollama 0.11.5 | ||
| (H) | Linux 24.04 | 3950X | DDR4-3200 | 96GB | 2020Super | 8GB | 65GB | 89% | 11% | 4096 | 7.92 tps | ollama 0.11.5 | OLLAMA_FLASH_ATTENTION OLLAMA_NEW_ESTIMATES | |
| (I) | Linux 24.04 | 3950X | DDR4-3200 | 96GB | 2020Super | 8GB | 65GB | 89% | 11% | 4096 | 7.76 tps | ollama 0.11.6 | OLLAMA_FLASH_ATTENTION OLLAMA_NEW_ESTIMATES | |
| (J) | Linux 25.04 | 3950X | DDR4-3200 | 96GB | RX9060XT | 16GB | 65GB | 76% | 24% | 4096 | 8.72 tps | ollama 0.11.10 | OLLAMA_FLASH_ATTENTION OLLAMA_NEW_ESTIMATES | |
| (K) | Linux 24.04 | 3950X | DDR4-3200 | 96GB | 2070Super | 8GB | 4096 | 13.53 tps | LMStudio 0.3.23 | |||||
| (L) | ollama turbo | ? | ? | ? | ? | ? | ? | 0% | 100% | 3480 tps | turbo 2025/8/7 | |||
| (M) | ollama turbo | ? | ? | ? | ? | ? | ? | 0% | 100% | 3108 tps | turbo 2025/8/14 | |||
| (N) | Windows11 | 9700X | DDR5-5600 | 96GB | 5060Ti 16GB | 16GB | 68GB | 79% | 21% | 4096 | 6.37 tps | ollama 0.11.4 | 576.52 | |
| (O) | Windows11 | 9700X | DDR5-5600 | 96GB | 5060Ti 16GB | 16GB | 65GB | 78% | 22% | 4096 | 10.24 tps | ollama 0.11.5 | OLLAMA_FLASH_ATTENTION OLLAMA_NEW_ESTIMATES | 576.52 |
| (P) | Windows11 | 9700X | DDR5-5600 | 96GB | 5060Ti 16GB | 16GB | 65GB | 78% | 22% | 4096 | 10.24 tps | ollama 0.11.6 | OLLAMA_FLASH_ATTENTION OLLAMA_NEW_ESTIMATES | 576.52 |
| (Q) | Windows11 | 9700X | DDR5-5600 | 96GB | 5060Ti 16GB | 16GB | 4096 | 17.97 tps | LMStudio 0.3.23 | 576.52 | ||||
| (R) | Windows11 | 9700X | DDR5-5600 | 96GB | – | – | 66GB | 100% | 0% | 4096 | 6.29 tps | ollama 0.11.4 | NoGPU | |
| (S) | Windows11 | 9700X | DDR5-5600 | 96GB | – | – | 69GB | 100% | 0% | 8192 | 6.33 tps | ollama 0.11.4 | NoGPU | |
| (T) | Windows11 | 9700X | DDR5-5600 | 96GB | – | – | 65GB | 100% | 0% | 4096 | 9.13 tps | ollama 0.11.5 | OLLAMA_FLASH_ATTENTION OLLAMA_NEW_ESTIMATES | NoGPU |
| (U) | Windows11 | i7-13700 | DDR4-3200 | 64GB | 4060Ti 16GB | 16GB | 67GB | 77% | 23% | 4096 | 4.40 tps | ollama 0.11.5 | ||
| (V) | Windows11 | i7-13700 | DDR4-3200 | 64GB | 4060Ti 16GB | 16GB | 65GB | 78% | 22% | 4096 | 4.55 tps | ollama 0.11.5 | OLLAMA_FLASH_ATTENTION OLLAMA_NEW_ESTIMATES | |
| (W) | Windows11 | 7840HS | DDR5-5600 | 128GB | Radeon 780M | 8GB | 4096 | 8.50 tps | LMStudio 0.3.23 | |||||
| (X) | Windows11 | 7840HS | DDR5-5600 | 128GB | – | – | 65GB | 100% | 0% | 8192 | 7.58 tps | ollama 0.11.7 | OLLAMA_FLASH_ATTENTION OLLAMA_NEW_ESTIMATES | NoGPU |
(L)/(M) の Ollama-Cloud は当時は Ollama-Turbo と呼ばれていました。 当初 (2025/08/07~14) は有料プランのみで、かつ利用者がまだすくなかったためか 3000 tps 以上と非常に高速です。 (ただしリリース直後は Function Calling (Tool) にバグがありきちんと動いていなかった)
その後メインメモリにも高速な RAM を採用し、かつ大容量 (128GB) 搭載した PC がいくつか発表されています。 これらのマシンでは更に高速に動作させることが可能です。
| Device | 最大RAM | 最大メモリ速度 | 最大メモリ帯域 |
|---|---|---|---|
| Mac M4 Pro | 64GB | LPDDR5X-8533 256bit | 273 GB/s |
| Mac M4 Max | 128GB | LPDDR5X-8533 512bit | 546 GB/s |
| Mac M3 Ultra | 512GB | LPDDR5-6400 1024bit | 819 GB/s |
| Ryzen 9 AI+ 395 | 128GB | LPDDR5X-8000 256bit | 256 GB/s |
| DGX Spark | 128GB | LPDDR5X-8533 256bit | 273 GB/s |
例えば Ryzen 9 AI+ 395 を搭載した GMKTec EVO-X2 の 128GB モデルは、昨年 (2025年) は 30万円前後と比較的安価に購入可能でした。 EVO-X2 では ctx window 4K で簡単な内容なら現在は 47 tps くらいで動作しています。 また ctx も 64K くらまでなら設定可能です。入力トークンが増えると速度は遅くなります。
以下は 2026年 2月時点での測定です。ソフトウエアも更新されており、パラメータ設定なども修正したためパフォーマンスは上がっています。
| OS | CPU | RAM | RAM | GPU | Window | token/s | software | |
|---|---|---|---|---|---|---|---|---|
| Windows11 | Ryzen 9 AI+ 395 | LPDDR5X-8000 | 128GB | RADEON 8060S | 4096 | 47.52 tps | LMStudio 0.4.2 | Evo-X2 VRAM 64GB 設定 |
| Windows11 | Ryzen 7 9700X | DDR5-5600 | 128GB | RTX 5060Ti 16GB | 4096 | 23.19 tps | LMStudio 0.4.2 | Number of layers for which to force MoE ~ 29 |