【記事更新】私のブックマーク「ロボット領域におけるフィジカルAI」 | 人工知能学会 (The Japanese Society for Artificial Intelligence)

私のブックマーク

ロボット領域におけるフィジカルAI

松嶋　達也（東京大学）

1．はじめに

　近年，テキストや画像の世界で成功を収めた深層学習や基盤モデルの技術が，物理世界で直接作用する「フィジカル AI（Physical AI）」の領域へと急速に波及している．言語指示を理解し，新規の環境や物体，タスクに対して汎化能力を発揮するロボットシステムの実現は，長年の夢から現実のものとなりつつある．本稿では，ロボット領域におけるフィジカル AIの最前線をキャッチアップするための重要論文，データセット，およびソフトウェア・エコシステムを紹介する．

2．サーベイ・オーバビュー

　まずは，領域全体の俯瞰ふかんと，近年のフィジカル AI領域で重要となっている「身体性（Embodiment）」と基盤モデルを結び付ける方法を理解するための資料を紹介する．

Foundation models in robotics: Applications, challenges, and the future
　基盤モデルをロボットシステムで応用した研究を網羅的に整理した，包括的なサーベイ論文．認識，推論，行動生成といった機能ごとに既存研究がどのように分類されるかを体系的にまとめており，領域の全体像をつかむのに適している．GitHub上で関連論文のリストも公開されている（2024年で更新は停止している模様）．
Real-world robot applications of foundation models: A review
　本稿筆者らによる，基盤モデルの実ロボット応用に関する実践的なサーベイ論文．大規模言語モデル（LLM）や視覚言語モデル（VLM）をロボットシステムに組み込んで柔軟なプランニングを実現する方法から，End-toEndな視覚行動モデル（VLA）の構築方法までを詳細に解説している．
基盤モデルとロボットの融合マルチモーダル AIでロボットはどう変わるのか
　 Real-world robot applications of foundation models: A reviewのサーベイ論文をベースにしつつ，深層学習やロボティクスの基礎知識を補完してまとめられた日本語の専門書である．VLAモデルをはじめとする最新の動向を平易な言葉で解説しており，国内のエンジニアや学生にとって有用．AIをロボットシステムに統合する際の具体的な実装イメージをつかむのに適している．
Vision-language-action models for robotics: A review towards real-world applications
　近年主流となりつつある VLAモデルに特化し，そのモデルアーキテクチャ，学習手法，データセットを網羅的に比較・整理した論文である．多種多様なモデルの特徴がわかりやすく分類されており，目的に応じたモデル選定の指針を与えてくれる．付随するWebサイトでは最新の VLAモデルリストが随時更新されている．
MIRU 2025チュートリアル講演「ロボット基盤モデルの最前線」
　Vision-language-action models for robotics: A review towards real-world applicationsの VLAサーベイの著者の一人である河原塚健人氏が，画像の認識・理解シンポジウム（MIRU 2025）で講演した際のチュートリアル資料である．論文内で記述されたエッセンスが，豊富な画像や図解とともに直感的にまとめられている．最新の研究トレンドを視覚的にすばやく，かつ効率的に把握したい場合に最適なリソース．

3．事前学習済みの基盤モデル（LLM・VLM）のロボット活用

Code as policies: Language model programs for embodied control
　あらかじめ用意されたロボットの認識 APIと制御 API群を組み合わせ，LLMにロボットを動かすための Pythonコードを自動生成させる研究である．コード生成 LLMの高い推論能力を物理世界の制御に転用し，言語指示からの複雑なタスク計画を可能にした．
Eureka: Human-level reward design via coding large language models
　タスクの目的や環境に関する自然言語の説明から，強化学習用の報酬関数を LLMに設計させるフレームワークである．生成された関数で方策を学習し，その結果のフィードバックを基に LLMがコードを修正・改善する自己ループを構築している．専門家が手作業で行っていたヒューリスティックな報酬設計を自動化し，人間を超えるパフォーマンスの獲得に成功した．
DrEureka: Language model guided sim-to-real transfer
　Eureka: Human-level reward design via coding large language modelsの Eurekaの仕組みを発展させ，シミュレーション環境で学習した方策を現実世界のロボットへゼロショットで転移（Sim-to-Real）させる手法を提案した研究である．LLMが報酬関数だけでなく，ドメイン乱択化（Domain Randomization）における物理パラメータの分布も設計することで，ロバストな制御を実現している．バランスボールの上で四脚ロボットが歩行するといった高難易度な実機デモ動画も大きな話題を呼んだ．
CLIP-Fields: Weakly supervised semantic fields for robotic memory
　ロボットが撮影した画像の埋込み特徴量（Embedding）と三次元点群入力から，ニューラル場表現（InstantNGP）を用いて空間のセマンティックマップを構築する手法．環境内の「どこに何があるか」を言語や画像の特徴として保持できるため，テキスト指示による柔軟なナビゲーションが可能になる．明示的なアノテーションを必要としない弱教師あり学習の枠組みで，ロボットの空間記憶を実現．
VoxPoser: Composable 3D value maps for robotic manipulation with language models
　テキストで与えられたタスク説明に基づき，LLMが三次元空間上のコストマップを作成するプログラムを出力する．VLMが認識した物体の視覚的なアフォーダンスマップとこれを組み合わせることで，追加のデータ学習なしにロボットアームのゼロショット動作計画を可能にしている．従来のトラジェクトリ最適化手法と LLMの推論能力を統合した代表例．

4．代表的な VLAモデル

RT-1: Robotics transformer for real-world control at scale
　大規模な実機ロボットの操作データを用いて，言語指示と画像入力から直接制御コマンドを出力する Transformerベースの視覚言語行動モデルである．長期間かけて収集された 13万件ものエピソードを活用し，未知のタスクや環境に対する実世界での高い汎化性能を実証．その後の VLA研究のベースラインとなり，ロボット学習におけるデータスケールの重要性を示した論文．
RT-2: Vision-language-action models transfer web knowledge to robotic control
　RT-1の構造を発展させ，Web上の膨大な視覚・言語データとロボットの操作データを共同学習（Co-training）させた VLAモデル．これにより，ロボットデータだけでは学習しきれない世界の一般的な知識や概念を制御に反映できるようになった．ロボット特有の操作スキルと，Webデータ由来の強力な意味的推論能力を融合させた．
PaLM-E: An embodied multimodal language model
　ロボットのカメラ画像やセンサの連続的な状態値をテキストと同様の「トークン」として扱い，巨大な LLMの入力空間に直接統合したマルチモーダル基盤モデル．単一のモデルで視覚的な問答からロボットのタスク計画までを End-to-Endで解くことができ，高い性能を示した．ロボットの身体性（Embodiment）を言語モデルに組み込む具体的なアーキテクチャを提示した研究である．
Octo: An open-source generalist robot policy
　世界中のさまざまな研究機関から集められた多様なロボットのデータ（Open X-Embodimentデータセット）を用いて学習された，オープンソースの汎用ロボット方策モデルである．カメラの構成やハードウェアの構造が異なっても柔軟に適応できるアーキテクチャを採用しており，ユーザは自前の少量のデータで容易にファインチューニングが行える．コミュニティ主導で開発され，汎用ロボットモデルの民主化を大きく推進した．
OpenVLA: An open-source vision-language-action model
　Llama 2などの強力なオープンソース LLMを視覚バックボーンと組み合わせ，実用的なパラメータサイズで構築されたオープンな VLA基盤である．既存のモデルと比べて学習効率や推論速度が高く設計されており，研究者が限られた計算資源でも扱いやすいように工夫されている．すぐに動かせるコードや重みが公開されている．
π₀
　AIが物理世界を理解し操作するための「汎用的な物理知能」の獲得を目指して構築された，視覚言語行動モデル．言語や視覚情報に加え，多様なロボットのセンサデータを統合して学習する枠組みを模索している．単一のタスクに特化するのではなく，人間のように未経験の事象にも適応できる柔軟なロボットシステムの実現に向けた野心的な試みとして注目された．
π_0.5: A vision-language-action model with open-world generalization
　Physical Intelligence社によるπ₀の後継モデルであり，未知の環境や物体にも適応できる「オープンワールドの汎化」を強力に推し進めた VLAモデルである．Web上の大規模マルチモーダルデータと多様なロボットの操作軌道を共同学習（Co-training）させることで，高度な意味的推論と物理的なスキルの両立を実現している．高次なタスク計画と低レイヤの連続動作生成を統合している．
GR00T N1: An open foundation model for generalist humanoid robots
　NVIDIAの研究チームが汎用ヒューマノイドロボット向けに構築したオープンな VLA基盤モデルである．高性能な GPUシミュレーションで生成された膨大な合成データと実機データを組み合わせ，人型ロボット特有の複雑な全身協調動作を学習している．ヒューマノイドの制御において，シミュレーションと AI基盤モデルをどのように融合させるかを示す重要なリファレンス．
A careful examination of large behavior models for multitask dexterous manipulation
　Toyota Research Institute（TRI）が提案した，拡散ポリシー（Diffusion Policy）をベースとする大規模行動モデル（Large Behavior Model：LBM）の構築に関する論文である．UMIと呼ばれる手持ち型のグリッパーデバイスで収集された人間のデモンストレーションデータを効果的に活用．マルチタスクにおいて器用なマニピュレーションを学習させるための，データ規模とアーキテクチャの最適なバランスについて詳細に分析．
A systematic study of data modalities and strategies for co-training large behavior models for robot manipulation
　A careful examination of large behavior models for multitask dexterous manipulationの LBMをさらに拡張し，ロボットの行動学習においてどのようなデータモダリティや学習戦略が有効かを体系的に調査した研究．多様なデータソースを共同学習させる際に発生する干渉問題を防ぎ，シナジーを生み出すための具体的な手法を明らかにしている．汎用的な動作モデルを学習させるための方法を示した．
Gemini robotics: Bringing AI into the physical world
　Google DeepMindが自社の強力なマルチモーダル基盤モデル「Gemini」の推論能力を，ロボット制御に直接適用した強力な VLAフレームワーク．Geminiの高い視覚理解力と文脈把握力を生かすことで，曖昧な言語指示や複雑な視覚環境下でも的確なタスク実行を可能にしている．
Gemini robotics 1.5: Pushing the frontier of generalist robots with advanced embodied reasoning, thinking, and motion transfer
　前世代の Gemini Roboticsを進化させ，複雑なタスクに対して「行動する前に思考する」高度な推論能力（Gemini-Robotics-ER 1.5）を実装した VLAシステム．内的推論を経てから実際の動作に移ることで，これまでにない長尺かつ多段階のタスク実行を可能にした．さらに，あるロボットで学習したスキルを異なるロボットへ専用の再学習なしに転移する，クロスエンボディメント（ロボット間の転移）能力も実証している．

5．国際会議

Conference Robot Learning（CoRL）
　機械学習とロボティクスの交差点に特化した，ロボット学習分野における最高峰のトップティア国際会議である．ディープラーニングや強化学習を用いた最先端のロボット制御技術が集結し，近年では VLAモデル開発に関連する技術の採択件数が多い．フィジカル AI領域のコアなトレンドをいち早くつかむために外せない最重要カンファレンス．
Robotics: Science and Systems（RSS）
　アルゴリズムや数学的基盤を重視する，ロボット学習分野で最も権威があり採択率の低いトップカンファレンスの一つ．単一セッション形式で行われるため発表の質が極めて高く，拡散ポリシー（Diffusion Policy）など近年の VLA開発の土台となる重要研究の採択が多く見られる．システム全体の実装だけでなく，学習アルゴリズム自体のブレークスルーを追うのに適している．
IEEE International Conference onRobotics and Automation（ICRA）
　ロボティクスおよびオートメーション全般を網羅する，世界最大規模の国際会議．ハードウェア設計からシステム統合まで幅広いトピックが扱われるが，近年は LLMや VLMをはじめとする基盤モデルの各産業への応用に関するセッションが急激に存在感を増している．VLAを活用した具体的なロボットシステムの実装報告も増加しており，社会実装の最前線を知ることができる．