機械学習サロゲートを使用した迅速なロボット・トレーニング

Robotic arm placing a box onto an autonomous mobile robot in a warehouse.

機械学習サロゲートを使用したロボット・トレーニングのための高速センサー・シミュレーション機械学習サロゲートを使用したロボット・トレーニングのための高速センサー・シミュレーション

筆者：フィリップ・シャロス（Philip Sharos）、主任エンジニア、エッジAI

2026年1月20日

物理世界でのロボットのトレーニングには時間がかかり、費用がかさみ、規模の拡大が困難です。AIポリシーを開発するロボット技術者は、高品質なデータに依存しています。特に柔軟性のある物体を拾い上げる動作、雑然とした環境での移動といった複雑なタスクにおいてはそうです。これらのタスクは、ロボットが使用するセンサー、モーター、その他の部品からのデータに依存しています。しかし、現実世界でこのデータを生成するには時間がかかり、大規模なハードウェアのインフラストラクチャが必要となります。

シミュレーションは拡張性のある代替手段を提供します。複数のロボット動作のシナリオを並行して実行することで、チームはデータ収集に必要な時間を大幅に短縮することができます。しかし、ほとんどのシミュレーション環境では、性能か物理的精度かといったトレードオフが生じます。

現実世界に極めて近い完璧なモデルは、しばしば膨大な計算量と時間を必要とします。こうした高精度ですが遅いシミュレーションでは生成データ量が少なくなるため、有用性が低下します。そのため多くの開発者は速度向上のための簡略化を選択しますが、その結果としてトレーニングと導入の間に乖離が生じます。これは一般的にシミュレーションと現実のギャップとして知られる現象です。これは、シミュレーションのみで訓練されたロボットが現実世界で苦戦することを意味します。ノイズ、干渉、欠陥を含む実際のセンサー・データによって、そのポリシーは混乱することになります。

この課題に対処しシミュレーションを加速するために、アナログ・デバイセズは機械学習ベースのサロゲート・モデルを開発しました。アナログ・デバイセズのテストでは、このサロゲート・モデルは、実際のセンサー出力の重要な特性を維持しつつ、間接Time of Flight（iToF）センサーの挙動をほぼリアルタイムでシミュレートしました。このモデルは、ロボット・ポリシーの拡張可能で現実的なトレーニングにおいて真の加速的ブレークスルーを提供し、複雑なシミュレーションにおける今後の道筋を示すものです。

現実世界の精度でセンサーをシミュレート

アナログ・デバイセズのADTF3175などのiToFセンサーは、ロボット知覚で広く採用されています。これらのセンサーは規則的なパターンで光を照射し、その反射を計算することで深度を測定します。現実世界では、センサーは読出しノイズを示すため、信頼性の高いロボット・ポリシーを学習する場合にはこの干渉を考慮することが不可欠となります。しかし、ほとんどのシミュレーション環境は理想化されたセンサー・データを提供します。たとえば、NVIDIAのIsaac Sim™は、現実世界のセンサーのノイズの多い出力ではなく、幾何学に基づいたクリーンな深度マップを提供します。

このギャップを埋めるため、以前アナログ・デバイセズは、ピクセル・レベルでiToFセンサーの挙動をモデル化する物理ベースのシミュレータを開発していました。正確ではありますが、このシミュレータは、フル・フレームでリアルタイムに使用するには遅すぎました。わずか毎秒0.008フレーム（FPS）という速度は、毎秒数千シーンを必要とするAIポリシーのトレーニングでは現実的ではありませんでした。

機械学習を用いたシミュレーションの高速化

この画期的な成果は、機械学習を用いて高忠実シミュレータの出力をエミュレートすることから得られました。アナログ・デバイセズは、高精度なホワイト・ボックス・シミュレータの挙動を近似するサロゲート・モデルとして、多層パーセプトロン（MLP）モデルを訓練しました。重要な点は、チームはこのサロゲート・モデルを、平均的な出力を学習させるだけでなく、元のモデルの変動性とノイズ特性を反映するように設計したことです。

このサロゲート・モデルは、そのタスクを以下の3つのサブタスクに分解します。

予想される深度測定値を予測する。
不確実性を考慮した標準偏差を推定する。
ピクセルの深度測定値が無効または未解決となるかどうかを予測する。

サロゲート・モデルはこの確率的出力を利用し、元のシミュレータの本質的で確率的な挙動を捉えつつ、推論を劇的に高速化します。その結果、17FPSで動作するシミュレーションが実現しました。これは高忠実モデルから約1%の誤差を維持しつつ、リアルタイム利用に十分な速度です。

Isaac Simにおける現実世界の検証

サロゲート・モデル構築後、チームはこれをNVIDIAのIsaac Sim環境に統合しました。ペグの挿入タスクを実行するロボット・アームのデジタル・ツインを用いたテストでは、モデルが元のシミュレータの出力を忠実に再現することが確認されました。この出力には標準シミュレーションでは存在しないノイズさえ含まれていました。

現実世界のiToFセンサーは近赤外（NIR）領域の光学効果に敏感ですが、この特性は標準シミュレーションではしばしば無視されます。さらに、iToFの性能は表面材料によって異なります。両方の挙動を考慮しサロゲート・モデルで再現するため、チームは高速代理推論を採用し、物理実験におけるセンサー挙動との整合性を高めるため、シミュレーション対象物の近赤外反射率を調整しました。

この手法により、特に光沢のない表面において、シミュレーション・データと実センサー・データの差異を低減することができました。不完全ながらも、これらの改良によりシミュレーションと現実のギャップを最小限に抑える大きな進展がありました。チームは現在、基盤となる物理モデルやグラフィックス・パイプラインの変更を含むさらなる改善を積極的に模索中です。

今後の展望：忠実度と汎用性の向上

このサロゲート・モデルは、ロボット・トレーニングのワークフローにおけるiToFセンサーの高速かつ現実的なシミュレーションを実現するための基盤となります。しかし、これは第一歩に過ぎません。新たな取り組みでは、物理情報型ニューラル演算子（PINO）モデルを用いて精度の向上、必要な訓練データ量の削減、そして様々なシーンやタスクへの汎化を実現します。

将来的には、中間的なホワイト・ボックス・シミュレータを不要にすることを目指します。現実世界のセンサー・データで直接モデルを学習させることで、シミュレータは手動調整やシーン固有のキャリブレーションを必要とせず、多様な環境により容易に適応できるようになります。

これらの進展により、実環境へのロボットシステム導入に必要な時間とコストが劇的に削減される可能性があります。理想的には、この研究が物流、製造、製品検査などの分野における導入を促進すると思われます。

Robotic arm visualized using indirect time-of-flight depth sensing. — Franka FR3シミュレーション・シーン向けToF機械学習サロゲート・モデルの出力