OpenClaw で独自の画像認識モデルを設定する (Local VLM)

OpenClaw は特に何も設定しなくても画像認識を行うことができます。 Slack / Discord などのチャットにアップロードした画像は、その画像について答えることが可能です。

またローカル PC 上などに置いてある画像ファイルについては、LLM (VLM) を使って認識させることができます。推奨されているハイエンド系のモデルである claude/gpt-5/gemini はどれもがマルチモーダルに対応しているためです。

画像認識への対応状況は、openclaw models list –all コマンドで確認することができます。対応しているモデルの場合は “text+image” と表示されているはずです。

画像認識用モデルの定義

Local LLM を使用した場合は、必ずしもそのモデルが画像認識 (Vision) に対応しているとは限りません。例えば gpt-oss や qwen3 などは非対応です。その場合は、画像認識時に利用する代わりのモデルを別に定義しておくことができます。

以下の例のように、通常使用するモデルを agents.defaults.model.primary に設定し、画像認識時に使用するモデルは agents.defaults.imageModel.primary に設定します。

  ～
 
  "agents": {
    "defaults": {
 
      "model": {
        "primary": "ollamaturbo/glm-5:cloud"
      },
 
      "imageModel": {
        "primary": "lmstudiolocalpc/qwen/qwen3-vl-8b"
      },
 
 
      ～
 
    }
  },
 
  ～

もちろん agents.defaults.model.primary のモデルが Vision に対応している場合は imageModel.primary の設定は不要です。