【記事更新】私のブックマーク「一人称視点映像解析」 | 人工知能学会 (The Japanese Society for Artificial Intelligence)

私のブックマーク

一人称視点映像解析

八木　拓真（産業技術総合研究所）

1．はじめに

　動画像解析の分野は，これまで防犯カメラやスマートフォンカメラといった第三者の視点から撮影されたものが用いられてきました．しかしながら，こうした三人称視点（third-person view，または exocentric view）から撮影された動画像は，必ずしも私達自身が体験するさまざまな出来事（生活，作業，コミュニケーションなど）を反映したものとは言えませんでした．そこで，ほかならない私達人間自身の視点，一人称視点（first-person view，または egocentric view）から観測される自身・他者，環境の理解を考えよう，というのが一人称視点映像解析の発想です．
　一人称視点映像とは，人の頭や首に小型のカメラを装着して，その人自身の一人称視点から撮影された映像のことです．一人称視点映像はカメラ装着者自身および周辺環境を精細かつ連続して捉え，視線や音声，手姿勢といった追加の手掛かりを使用できるため，人の意図・技能・非言語行動といった人のより詳細な振舞いの理解に向けたチャレンジを提供してきました．障がい者支援・ AR/VRデバイス・作業支援・ロボティクスなどの幅広い応用先をもち，その人自身に埋め込まれた，その人自身の生活向上のための人工知能を目指して，さらなる探求が望まれています．
　本記事では，一人称視点映像解析の分野を知るために有益な情報源を浅く広く紹介します．

2．タスク

　一人称視点映像解析は装着型のウェアラブルカメラを用いて記録した映像の解析技術の総称であるため，タスクは多岐にわたります．大まかには，解析の対象別に三つに分けられます．

カメラ装着者（一人称）の認識：装着者自身の行動や状態の認識．装着者の行動・意図認識，全身姿勢・手姿勢の推定，将来行動予測，視線（装着者が目を向けた位置）推定，作業手順の認識
一人称視点映像に映る他者（二人称）の認識：他者の検出識別，アイコンタクト・顔表情の認識，共同注意の検出，発話者の推定など，装着者の視点から見た他者の振舞いの理解
周辺環境の認識：装着者の位置推定，三次元地図の復元，物体検出・追跡，手─物体間の相互作用の認識，物体状態の認識

3．一人称視点映像の特徴

　一人称視点映像は，（i）装着者の目の前のインタラクションを詳細に映す，（ii）装着者の移動に合わせてカメラが移動する，（iii）装着者自身が画面に映らず，装着者の居る環境・文脈がわかりにくい場合がある，という特徴をもちます．
　カメラが装着者に合わせて移動することによって生じる自己運動は，装着者の意図や注意に関する有用な情報を含む一方，人の身体や物体の前景運動の区別を困難にします．
　そこで，ホモグラフィやオプティカルフロー（例：RAFT）を用いて背景運動を除去することがしばしば行われます．また，装着者の周辺の三次元環境地図を Structure from Motion（例：Mai, J., et al.: EgoLoc: Revisiting 3D object localization from egocentric videos with visual queries, Proc. of the IEEE/CVF Int. Conf. of Computer Vision, pp. 45-47（2023））を用いて復元することで，三次元環境中の人の移動パターンの分析や環境中の物体位置の回答といったシーンの全体像を考慮した推論が行えるようになります．

4．一人称視点映像解析の活用先

4･1　障がい者支援

　人の日常行動の一人称視点映像を記録することにより，障がいなどによって生活に制限を抱える人の活動の支援を行えます．

Microsoft SenseCam：一人称視点の画像を定期的に記録する首掛け型のライフログカメラです．撮影した画像を見返すことにより記憶に問題を抱える人が過去の出来事を思い出すのを支援します．
VizWiz：視覚障がい者自身がスマートフォンなどを通じて自身の目の前の写真を撮影し，その写真中の質問に対して答える AIシステムの開発が行われています．
Likitlersuang, J., et al.: Egocentric video: A new tool for capturing hand use of individuals with spinal cord injury at home, J. of Neuroengineering and Rehabilitation,Vol. 16, 83（2019）：上肢にまひを負った患者の手の機能を一人称視点映像から認識しています．
Yagi, T., et al.: GO-Finder: A registration-free wearable system for assisting users in finding lost objects via hand-held object discovery, Proc. of the 26th Int. Conf. on Intelligent User Interface, pp. 139-149（2021）：筆者らが発表した，もの探し行動支援システムです．一人称視点映像中から手に持った物体を検出・クラスタリングし，特定の物体を最後に見た瞬間の場面を提示することで，もの探しを支援します．
Human I/O: Detecting situational impairments with large language models：流しの音でテレビの音声が聞こえないといった，ユーザの状況に応じて誘発される障がいの原因を一人称視点映像および音声から検出するシステムを提案しています．

4･2　技能作業の認識と支援

　ARグラスなどのデバイスから観測される一人称視点映像をリアルタイムで解析することで，製造業などの作業における作業者の技能の熟練度を認識し，必要な支援を提供することができます．

EgoProceL：多様なアクティビティ（料理，組立など）の一人称視点映像に対してその手順に関する時刻アノテーションを提供しています．
Assembly101：玩具の組立て作業を題材とした一人称視点を含む多視点映像およびその組立て行動に関するアノテーションからなるデータセットです．
HoloAssist：一人称視点映像を介して教示者が作業者に指示を出す状況での会話を収録し，映像から作業誤りなどを自動検出する手法を検討しています．
Doughty, H., et al.: Who’s better? Who’s best? Pairwise deep ranking for skill determination, Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition, pp. 6057-6066（2018）：さまざまな手作業の熟練度を一人称視点映像から推定する手法を提案しています．
Ego-Exo4D：バスケットボールや料理といった人の技能行動について，時刻同期された一人称・三人称視点映像およびその内容に関する熟練者のコメントに関するアノテーションを提供しています．
ExpertAF：Ego-Exo4Dデータセットを利用して，映像から行為者の技能レベルおよびその改善点に関する文章を生成するモデルを提案しています．

4･3　ロボティクス

　人が行動する様子を記録した一人称視点映像は，ロボットの方策学習にも用いることができます．

Kumar, A., et al.: Learning navigation subroutines from egocentric videos, Conference on Robot Learning, pp. 617-626（2020）：歩行する様子を記録した一人称視点映像から台車ロボットの移動のためのサブルーチンを学習しています．
Nagarajan, T. and Grauman, K.: Shaping embodied agent behavior with activity-context priors from egocentric video, Advances in Neural Information Processing Systems, Vol. 34（2021）：家庭用ロボットの効率的な方策学習のために，人の行動とそれが生起するコンテキストの対応関係を一人称視点映像から学習しています．

4･4　幼児の視点からの学習

　幼児の発達過程をその受ける刺激から分析することは，人間・AIの学習に有用な知見を与えてくれます．

Bambach, S., et al.: Toddler-inspired visual object learning, Advances in Neural Information Processing Systems, Vol.31（2018）では，幼児が遊ぶ一人称視点映像から効率良く物体検出器を学習できることを示しています．
BabyViewでは，6～ 30か月の幼児の頭部にヘルメット型のウェアラブルカメラを装着し，定期的に幼児の視点から見た映像を記録することで，人がいかに視覚能力を獲得するか，人らしい AIシステムの実現に向けた分析を行っています．

5．総説

　一人称視点映像解析は，センサ・計算機を衣服などに装着するウェアラブルコンピューティングと密接に関係しています．一人称視点映像解析のなりたちを含む初期の総説としては，Mann, S., et al.: An Introduction to the 3rd workshop on egocentric（first-person）vision, Proc.of the IEEE Conf. on Computer Vision and Pattern Recognition Workshops, pp. 827-832（2014）および Kanade, T. and Herbert, M.: First-person vision, Proc. of the IEEE,Vol.100, No.8, pp.2442-2453（2012）があります．
　一人称ビジョン分野の要素技術および将来展望をまとめたサーベイとしては，Plizzari, C., et al.: An outlook into the future of egocentric vision, Int. J. of Computer Vision（2024）があります．
　日本語での一人称視点映像解析に関する解説としては筆者が執筆した，八木拓真：イマドキノ一人称ビジョン─「私」の目から見える世界を理解する技術─，コンピュータビジョン最前線 Winter2023，pp. 9-48，共立出版（2023）があります．

6．データセット

　一人称視点映像はインターネット上に流通していないため，世界各国でデータセットが独自に収集されています．

EGTEA Gaze＋：視線情報付きの一人称視点映像データセットとして長く使われています．
Charades-Ego：視点間のドメインギャップの理解のため，数秒間の短い行動の一人称・三人称視点映像の組を収録しています．
EPIC-KITCHENS：100時間分の調理映像を収録した定番データセットの一つです．環境音のアノテーションを含む EPIC-SOUNDSや物体単位のセグメンテーションを付与した VISORなど，多数の派生データセットが存在します．
Ego4D：世界中の一般の人の一人称視点映像を約3600時間分集めた最大規模のデータセットです．使用申請を行えば Ego4D Visualizerでその内容を閲覧できます．派生データセットとしては長時間映像理解ベンチマークである EgoSchema，参照表現物体探索ベンチマークである RefEgoなどがあります．
HOI4D：手を用いた作業の時空間的理解（空間三次元＋時間一次元）のためのベンチマーク群を提供しています．
AssemblyHands：AR・VRグラスからの手姿勢の自動検出に向けて，三次元手姿勢の正確なアノテーションを付与しています．
UnrealEgo2/RW：VR・ARゴーグルなどに搭載されることを想定した下向きカメラからの装着者の全身姿勢推定のためのデータセットです．
EgoObjects：一人称視点映像中に出現する日常物体の検出・識別のためのデータセットです．
EgoTracks：視点が変化する一人称視点映像のための物体追跡アノテーションおよびベースラインモデルを提供しています．
FineBio：筆者らが収集した生物学実験の自動記録に向けた映像データセットです．
Modeling Multimodal Social Interactions：厳密には一人称視点映像ではありませんが，多人数の会話理解のための映像ベンチマークを提供しています．

7．モデル・ツール

EgoVLP：Ego4Dデータセットに含まれる言語アノテーションを利用した強力な映像─言語モデルです．
EgoVideo：一人称視点映像解析の複数のタスクに有効な基盤モデルを提供しています．
hand_object_detector：一人称視点画像から手および操作物体を検出する便利なモデルです．
Welcome To EGO4D!：Ego4Dデータセットの映像・アノテーションおよびベースラインモデルがまとまっています．
CVAT：動画像に対するアノテーションツールの定番の一つです．
ELAN：本来は会話の書き起こしのためのアノテーションツールですが，一人称視点映像に対するアノテーションにも使用できます．
EASG：行為者と周辺物体との関係を詳細にアノテーションするための専用アノテーションツールです．
Ramblr.ai：一人称視点映像中の詳細なインタラクションを効率良くアノテーションできる半自動アノテーションサービスを提供しています．
EgoBlur：一人称視点映像中に映る第三者のプライバシ保護のため，人の顔およびナンバープレートに自動でぼかしをかけるモデルを提供しています．

8．デバイス

GoPro：アクションカメラの定番ですが，一人称視点映像解析においてももっともよく用いられています．
Tobii Pro Glasses：視線計測機能を備えたメガネ型ウェアラブルカメラの定番です．
Pupil Labs：同じく視線計測機能を備えたウェアラブルカメラとしてしばしば用いられています．
Vuzix：産業用途に特化したスマートグラスです．
LINKLET：遠隔通話機能をもつ首掛け型のウェアラブルカメラです．
Microsoft HoloLens：映像記録から ARによる情報提示までを一気通貫で行えるためデモなどで良く用いられています．
Project Aria Glasses：Meta社がデータ収集専用に開発したメガネ型ウェアラブルカメラです．

9．参考となる書籍・Webサイト

諏訪正樹，堀浩一編：一人称研究のすすめ知能研究の新しい潮流，近代科学社（2015）：一人称視点映像解析を扱ったものではありませんが，ある人の一人称視点から見た体験を科学的に分析しようとする試みを集積しています．
原島純，橋本敦史：キッチン・インフォマティクス料理を支える自然言語処理と画像処理，オーム社（2021）：一人称視点映像解析でも出現する，料理を題材とした高度な動画像処理を網羅しています．
Awesome Egocentric Vision，Egocentric Vision：一人称視点映像解析の論文をタスク別に網羅しています．
一人称視点映像解析の基礎と応用（CVIMチュートリアル）：筆者が発表した一人称視点映像解析の基礎および応用に関するチュートリアルスライドです．
カメラ画像利活用ガイドブック ver3.0：一人称視点映像を含む動画像を収録する際に事業者が配慮すべき事項を取りまとめています．

10．研究室

　一人称視点映像解析の研究をリードする研究者・研究グループを紹介します．

11．ワークショップ

　Computer Vision and Pattern Recognition（CVPR），International Conference on Computer Vision（ICCV），European Conference on Computer Vision（ECCV）などのコンピュータビジョン分野の国際会議において，半年～1年に1回のペースで一人称視点映像解析を題材としたワークショップが開催されています．従来，データセットごとに個別のチャレンジが提供されてきましたが（例：EPIC@CVPR23），2024年より Joint Egocentric Vision Workshopとして共同ワークショップとして開催されるようになりました．また，ウェアラブルセンサからの身体運動の認識に特化したワークショップとして EgoMotionがあります．

12．一人称視点映像解析の今後

　これまで，人物行動認識・物体認識や人物姿勢推定といった知覚タスクが取り組まれてきましたが，EgoTaskQA，EgoTV，EgoThinkを始めとして，一人称視点から装着者の行動の意図・環境の状態・タスクの達成度といったより抽象的な概念の認識・推論が取り組まれるようになっています．大規模言語モデルの普及を踏まえ，今後一人称視点映像からより高度な推論を行うための試みが増えると思われます．

13．おわりに

　コミュニティの普及活動の甲斐あって，最近は一人称視点映像解析を専門としない方にも一人称視点映像を使ってもらえるようになりつつあります．人を置き換えるのではない，人と共生する人工知能を考えるうえで，一人称視点からの認識技術がその役割を果たすことを期待しています．
　本記事が一人称視点映像解析に興味をもつきっかけになれば幸いです．