アジャイル・ロボット向け視覚言語モデル（VLM）のファイン・チューニング

A man in a lab coat operates a control panel near a robotic arm and laptop displaying a 3D model.

アジャイル・ロボット向け視覚言語モデル（VLM）のファイン・チューニングアジャイル・ロボット向け視覚言語モデル（VLM）のファイン・チューニング

筆者：ジョルジョ・マンガニーニ（Giorgio Manganini）、ジュリア・ヴィローネ（Giulia Vilone）、マーク・ラングトリー（Mark Langtry）、プラシャント・ヴィスワナート（Prashanth Viswanath）、ジム・ギボンズ（Jim Gibbons）、ポール・ヘラティ（Paul Heraty）

2025年9月24日

アナログ・デバイセズがデータへの依存度を低減し、モデル開発を加速する方法

私たちは皆、今頃までにはロボットが私たちの身の回りの至る所に存在していると思っていました。しかしロボットに基本的な動作を教えるコストは、しばしばハードウェア自体の価格を上回ります。実際、ロボットの総所有コスト（TCO）は、統合、オペレーター研修、メンテナンス、サイバー・セキュリティ、賠償責任保険などを考慮すると、多くの場合、定価よりも50%から100%高くなります。¹

ロボットに新しいスキルを教えたいですか？それとも動作を改善したいですか？新しい構成に投資する必要があります。この制限により、特に製品の種類が多く少量生産の業界において、ロボットの導入が遅れていました。だからこそ、カスタム内装ではなく車体を作るロボットをよく目にするのです。

人間のように世界を理解するロボットには、センサーやコードだけでは不十分です。様々なモダリティにわたって解釈し推論する能力が必要です。アナログ・デバイセズは、視覚言語モデル（VLM）がそのギャップを埋める方法を探っています。目標は、ロボットが環境をより効果的に理解できるようにすることです。理想としては、限られた訓練データであっても、アナログ・デバイセズがロボットが賢く行動する手助けができることです。

ロボットにおけるデータ課題への対応

あらゆる人工知能（AI）のトレーニングにおける最初のステップは、データに関わります。ロボット工学におけるコンピュータの視覚的課題は、しばしばサンプルの訓練データの不足に悩まされることにあります。新規の大規模データ・セットの収集とラベル付けは、時間と費用がかかります。

VLMは、膨大なインターネット規模のデータ・セットで事前学習されており、有力な解決策を提供します。VLMは、これまで見たことのないタスクにおいて強力なゼロショット性能を発揮し、複雑なマルチモーダル入力を処理する能力を備えています。

アナログ・デバイセズのアイルランドのリムリック拠点チームは最近の研究において、VLMをロボット・フレームワークに統合し、以下の目的を達成しました：

物体の状態を認識
空間環境を認識
タスク実行前に内部状態を検証

この手法により、ロボットは視覚的および言語的な手がかりを用いて文脈的に推論することが可能となります。また、タスク間の柔軟性と適応性も向上させます。このアプローチにより、事前にプログラムされた柔軟性に欠けたロジックへの依存度が低下し、システムは環境変動に対する耐性を高めました。

オーバーヘッドのないファイン・チューニング

もう一つの大きな課題は、モデルを特定の用途に適応させることです。汎用VLMを対象のロボット・アプリケーションに適合させるため、チームは低ランク適応（LoRA）を用いたパラメータの効率的ファイン・チューニング（PEFT）を採用しました。この手法ではベース・モデルを固定化し、ごく少数の追加パラメータのみをファイン・チューニングします。その結果は？完全なファイン・チューニングと同等の精度を保ちつつ、計算コストとストレージ・コストを大幅に削減します。

このチームは182枚の画像で学習し、102枚で検証を行い、低データ環境におけるPEFTの有効性を実証しました。この効率性により、計算リソースやデータが限られているロボット・チームでもVLMをより容易に利用できるようになります。

PEFTはより迅速な実験もサポートします。チューニングの負担を最小化することで、チームは様々なモデル・アーキテクチャやタスク構成を迅速に反復検証し、多額なトレーニング・コストを発生させることなく最適な解決策を特定することができました。

実環境テストからの主な知見

ロボット工学におけるVLMの可能性は明らかである一方、実世界での実装にはいくつかの課題が浮上しました：

空間認識力：モデルは、雑然としたまたは動的なシーンにおける物体間の関係性、因果関係、物理的相互作用の理解に苦労しました。
プロンプト感度：多くの言語モデルと同様に、出力は大きく異なっていました。微妙な表現の変化から顕著な差異が生じ、慎重なプロンプト設計が必要となりました。
統合の複雑さ：カスタマイズにはモデル・アーキテクチャの深い理解が必要です。これにはタスク固有の手がかりの追加とマルチモーダル整合性の管理が含まれます。

これらの課題に対処するため、チームはより豊富なテキスト入力とプロンプト・エンジニアリング技術を採用しました。これらのプロンプトは、モデルをより信頼性の高い出力を生成する方向へと導きました。たとえば、質問の言い換えや背景情報の追加により、物体検出精度と状態分類が向上しました。

もう一つの重要な発見は、ヒューマン・イン・ザ・ループ（HITL）評価の重要性でした。ユーザーとのライブ対話中、チームは、モデルが微妙な質問にどう応答するかを観察し、堅牢性のギャップを特定し、アプローチを反復的に改善しました。

人とロボットの自然な対話に向けた構築

VLMは、単なる視覚の向上にとどまらず、より自然で、インタラクティブで、汎用的なロボットへの一歩です。また、キャプション生成、視覚的質問応答（VQA）、推論といった視覚と言語を組み合わせたタスクにも対応できます。説明可能なAI（XAI）の原則に沿い、VLMは知覚とコミュニケーションの両方にとって理想的です。

チームはVLMを用いて、3つの主要な利点を備えたロボット・エージェントを作成しました：

新たなシナリオや動的な環境への適応性の向上
大規模なラベル付きデータ・セットや手作業で作成されたルールへの依存度の低減
自然言語によるコミュニケーションの改善

チームはこれらの原則を適用し、人間とロボットの会話におけるユーザー体験を向上させました。このような状況では、ロボットが計画や行動を人間の言葉で説明することで、信頼を育み使いやすさを向上させます。オペレーターは柔軟なコマンド出し、ロボットからのフィードバックを自然言語で受け取ることができます。その後、オペレーターはロボットが動作する前に、自身の指示に合わせてロボットの計画を調整できます。

今後の展望

チームの取り組みは、拡張性がありデータ効率に優れたロボット・ポリシーに向けた重要な一歩を象徴しています。

VLMが進化を続ける中、チームは以下の分野に成長の可能性を見出しています：

圧縮、最適化されたモデルを用いたエッジ・デバイスへの展開
ベンチマーク駆動型評価による明確な安全性評価
VLMと強化学習およびセンサー・フュージョンを組み合わせた、より豊かな文脈理解の実現

もう一つの将来的な方向性として、視覚言語行動（VLA）モデルの探求が挙げられます。これは行動、計画、実行を統合し、ロボットが視覚的知覚と自然言語理解に基づいて物理的な行動を決定、実行することを可能にします。VLAは単一システム内で「認識-理解-行動」のループを直接閉じ、LLM/VLMの現実世界での行動における汎化能力を拡張します。

アナログ・デバイセズは、既にこれらのモデルの一部を探求し、リムリックにあるアナログ・デバイセズのCatalyst^™ハブにおいて実ロボットへの初の実装を試みました。

結論

VLMは次世代ロボットにおいて基盤的な役割を果たします。そこではシステムはより少ない事例から学習し、より直感的に相互作用し、人間のようによどみなくタスクを横断的に法則化します。ロボットに自分のやり方を教える機会さえあるかもしれません。

出典：

¹ 「How much do robots cost? 2025 price breakdown.（ロボットはいくらですか？2025年の価格内訳。）」Standard Bots、2025年8月。