ai:localllm:gptoss120b
差分
このページの2つのバージョン間の差分を表示します。
| 両方とも前のリビジョン前のリビジョン次のリビジョン | 前のリビジョン | ||
| ai:localllm:gptoss120b [2026/02/11 20:36] – [Local LLM とパラメータ数] oga | ai:localllm:gptoss120b [2026/02/11 20:44] (現在) – [Local LLM とパラメータ数] oga | ||
|---|---|---|---|
| 行 13: | 行 13: | ||
| VRAM 16GB に完全に載せられる Local LLM のサイズはおよそ 14b までです。 | VRAM 16GB に完全に載せられる Local LLM のサイズはおよそ 14b までです。 | ||
| - | 例えば qwen3:14b の場合は | + | 例えば qwen3:14b の場合はちょうど |
| 要約のような小さいタスクであればこれで十分で、パソコンでもかなり高速に動作します。 | 要約のような小さいタスクであればこれで十分で、パソコンでもかなり高速に動作します。 | ||
| + | 比較的性能の低い GeForce RTX 4060 Ti 16GB (ctx 4096) でも 28 tps ほどで動きます。 | ||
| + | |||
| ですが、Tool を多用したり少々複雑なタスクを Agent として走らせたり、コーディングなどの専門知識が必要なケースだと 14b は少々心もとなくなってきます。 | ですが、Tool を多用したり少々複雑なタスクを Agent として走らせたり、コーディングなどの専門知識が必要なケースだと 14b は少々心もとなくなってきます。 | ||
| - | そのためタスクによってはより上位の 32b や 70b などを使ってみたくなります。 | + | そのためタスクによってはより上位の 32b や 70b が欲しいでしょう。 |
| RAM さえ大量に詰めば CPU 上で動くことは動くのですが、32b でも CPU では 2 tps (Token/sec) 前後、VRAM 16GB の GPU を併用しても 6 tps 程度しか出ません。 | RAM さえ大量に詰めば CPU 上で動くことは動くのですが、32b でも CPU では 2 tps (Token/sec) 前後、VRAM 16GB の GPU を併用しても 6 tps 程度しか出ません。 | ||
| 行 28: | 行 30: | ||
| </ | </ | ||
| + | |||
| + | ===== gpt-oss: | ||
ai/localllm/gptoss120b.1770809770.txt.gz · 最終更新: by oga
