ai:localllm:gptoss120b

差分

このページの2つのバージョン間の差分を表示します。

この比較画面へのリンク

--- ai:localllm:gptoss120b [2026/02/11 20:35] – oga
+++ ai:localllm:gptoss120b [2026/02/11 20:44] (現在) – [Local LLM とパラメータ数] oga
@@ 行 13: / 行 13: @@
 VRAM 16GB に完全に載せられる Local LLM のサイズはおよそ 14b までです。
-例えば qwen3:14b の場合は VRAM 16GB に 100% 収まり、かつ Context Window サイズも 16K まで指定できます。
+例えば qwen3:14b の場合はちょうど 16GB の VRAM に収まり、かつ Context Window サイズも 16K まで指定できます。
 要約のような小さいタスクであればこれで十分で、パソコンでもかなり高速に動作します。
+比較的性能の低い GeForce RTX 4060 Ti 16GB (ctx 4096) でも 28 tps ほどで動きます。
 ですが、Tool を多用したり少々複雑なタスクを Agent として走らせたり、コーディングなどの専門知識が必要なケースだと 14b は少々心もとなくなってきます。
-そのためタスクによってはより上位の 32b や 70b などを使ってみたくなります。
+そのためタスクによってはより上位の 32b や 70b が欲しいでしょう。
 RAM さえ大量に詰めば CPU 上で動くことは動くのですが、32b でも CPU では 2 tps (Token/sec) 前後、VRAM 16GB の GPU を併用しても 6 tps 程度しか出ません。
@@ 行 24: / 行 26: @@
 各パラメータ数のモデルにおける速度の比較は[[:ai:ollama|こちらのページ]]に掲載しています
-  * [[:ai:ollama]
+<pagelist&date&nouser&list>
+  * [[:ai:ollama]]
+</pagelist>
+===== gpt-oss:120b の速度 =====

ai/localllm/gptoss120b.1770809731.txt.gz · 最終更新: 2026/02/11 20:35 by oga