5月30日 (木) 15:30~17:10 G会場
テーマ
「マルチモダリティ革命ー大規模事前学習済みモデルの新たな視点を探るー」
概要
ハードウェア及びソフトウェアの進歩を背景に,深層学習モデルの発展は顕著であり,特に大規模事前学習済みモデルの進展は目覚ましいものとなっています.例えば,自然言語処理分野ではOpenAIのGPT-4やGoogleのGemini 1.5 Proが知られています.また,これと同時に,自然言語処理と画像,音声など複数のモダリティを統合した大規模事前学習済みモデルの研究も盛んに行われています.実際に,画像と自然言語を組み合わせたモデルにはGPT-4V,CLIP,Stable diffusion等があり,また,自然言語と音声を組み合わせたモデルとしてはWhisper等が挙げられます.
この進展により,研究を始めたばかりの学生たちにとっては,大規模事前学習済みモデルの性能は圧倒的に思え,既に未解決な問題など無いのではないかという無力感を感じるのではないでしょうか.一方で,以前できなかったことができるようになっているということはすなわち,これらのモデルが新たな研究機会を提供していることも事実です.そのため,重要なことは,大規模事前学習済みモデルの出現により何ができるようになったかを理解し,どのように捉えると問題解決に活かせるかを考えることであるのではないでしょうか.
このことから,本企画では,大規模事前学習済みモデルがマルチモダリティを扱う研究においてどのように活用できるか,また現時点での限界はどこにあるかについて探求します.具体的には,大規模事前学習モデルを用いてマルチモダリティを扱っている,異なる分野の3名の研究者をお招きし,招待講演及び対談を行っていただくことで,これらのモデルの応用範囲について深く掘り下げます.これによって,基盤モデルの進展がもたらす新たな視点を提供し,マルチモダリティ研究における研究テーマの発掘に貢献することを目指します.
講演者
品川 政太朗 氏
(SB Intuitions/奈良先端大)
ChatGPTをはじめとする基盤モデルの進展は,各研究分野に大きな転換期をもたらしています.研究をはじめたばかりの学生の方は,自分の研究に意味があるのか,自分にできることがあるのかという不安を抱えてらっしゃるかもしれません.しかし,基盤モデルの登場は,私たちの生活を劇的に改善する可能性を秘めています.これらのモデルが普及し,コモディティ化する過程で,今のうちに研究を通して基盤モデルに親しみ,扱いに慣れておくことは将来的にもメリットがあると考えます.幸い,基盤モデルの小規模化やOpenAIのAPIサービスなどのおかげで,基盤モデルを使うハードルは下がってきており,研究の初期検討としてできることは広がっています.「とりあえずまずは触って遊んでみましょう!」というのが私からのメッセージです.面白いことに,実際に基盤モデルを使ってみると,扱いにくさやポンコツさというのがありありと見えてきます.本講演では,そういった基盤モデルの現状や,今後の基盤モデルとの付き合い方について,自身が関わってきたVision and Language+対話研究の経験も交えて紹介したいと思います.
増村 亮 氏
(日本電信電話株式会社 人間情報研究所 特別研究員)
本講演では,NTTで研究開発を進めるマルチモーダル基盤モデル「MediaGnosis」の研究開発を紹介する.「MediaGnosis」では,音声音響処理・画像映像処理・自然言語処理・マルチモーダル処理の様々な機能を,全体で統合モデルとしてモデル化することを目指しており,これにより,モデル学習時には様々な学習データを同時に活用することで知識獲得効率の高いモデル化が可能,また推論時には様々な機能を複合的に組み合わせた複雑な推論を高速高精度に実現可能となる.これまで我々が検討してきた技術やアプリケーションを例にとりながらその詳細を説明するとともに,今後目指すべき方向性についても議論したい.
松嶋 達也 氏
(東京大学大学院工学系研究科 松尾研究室 特任研究員)
多様で大規模なデータセットを用いて訓練された基盤モデルは,視覚や聴覚, 言語の間の関係性を適切に捉えることのできる統一的なモデルとして,物体認識や音声認識のみならず,対話やQ&A, 画像生成などで急速に活用されている.本発表では,大規模言語モデル,大規模視覚言語モデルに代表される基盤モデルを活用し,知能的に振る舞うロボットの研究開発に関して議論する.また,ロボットが実世界で行動することで蓄積されるデータセットを活用して,より制御と密接に結びついたロボティクス領域固有の基盤モデル(いわばロボット基盤モデル)の構築に向けた取り組みに関しても紹介する.