第92回人工知能セミナー (2024.7.3)「マルチモーダル情報処理の最新動向」
2024年6月11日
人工知能学会 企画委員会
主催: | (一社)人工知能学会 |
---|---|
日時: | 2024年7月3日(水)13:00-17:30 |
開催: | ハイブリッド開催 |
オフライン会場: | 〒100-0005 東京都千代田区丸の内1-1-3 日本生命丸の内ガーデンタワー3F AP東京丸の内 ROOM I+H |
オフライン定員: | 60席 |
オンライン定員: | zoomウェビナー 500名程度 |
参加費: | 価格はオンライン・オフライン共通です。 正・賛助会員 6,000円(不課税) 非会員 9,900円(10%消費税込み) 学生会員 2,000円(不課税) 学生非会員 2,970円(10%消費税込み) |
照会先: | account[at]ai-gakkai.or.jp |
講演概要
近年、深層学習モデルの発展などとともに、テキスト、画像、音声、ロボティクスなどの様々な情報を統合して処理する「マルチモーダル情報処理」の研究が急速に発展しています。学術界だけでなく、産業界でもGPT-4Vをはじめとする生成AIを活用した高性能なサービス開発が進んでおり、大きな注目を集めています。しかし、マルチモーダル情報処理の発展が著しいため、最新動向をタイムリーに把握することが困難になりつつあります。
そこで本セミナーでは、マルチモーダル情報処理の研究を進めてこられた研究者の皆様をお招きし、現在のマルチモーダルモデルの研究動向をご紹介いただきます。スピーカーとして、マルチモーダルインタラクションご専門の中野有紀子氏(成蹊大学)、ビジョン&ランゲージご専門の牛久祥孝氏(オムロンサイニックエックス)、対話ロボットご専門の吉野幸一郎氏(理化学研究所)にご登壇いただく予定です。
このセミナーを通じて、マルチモーダル情報処理の全体像を俯瞰するとともに、これからこの分野の研究および開発を始めようとしている方々に新たな視点やきっかけを提供することを目指します。ぜひご参加ください。
講演内容
中野有紀子 氏(成蹊大学 理工学部 教授)
- 講演タイトル:マルチモーダルインタラクションの研究方法と研究動向
- 講演概要:
マルチモーダルインタラクションの研究では、言語、音声、表情、ジェスチャ等、複数のコミュニケーションモダリティの情報を統合して、人対人、人対機械のインタラクションを分析・モデル化する。本講演では、コミュニケーションにおけるマルチモダリティについて基礎的な概念を解説したのち、マルチモーダルデータの分析方法、機械学習によるモデル化手法について述べる。また、応用の可能性も含めた研究動向についても議論する。 - 講演者紹介:
1990年東京大学大学院教育学研究科修士課程修了。同年、日本電信電話(株)入社。2002年MITMedia Arts & Sciences修士課程修了。JST社会技術研究開発センター専門研究員、東京農工大学大学院工学府特任准教授、成蹊大学理工学部情報科学科准教授を経て、現在、成蹊大学理工学部教授。2019年カーネギーメロン大学客員研究員。マルチモーダルインタラクションのモデル化、言語・非言語コミュニケーションが可能な会話エージェントの研究に従事。博士(情報理工学)。
牛久祥孝 氏(オムロンサイニックエックス株式会社)
- 講演タイトル:ビジョン&ランゲージ
- 講演概要:
画像と自然言語を融合的に理解し生成するビジョン&ランゲージの研究は、深層学習による相互参入障壁の解消に伴って、この10年間で大きな研究分野に成長した。最近では大規模データを大規模モデルで学習する基盤モデルの一環として、Vision Language Model (VLM)を構築して利活用する研究も多い。本講演ではこうしたビジョン&ランゲージの研究分野を俯瞰し、その将来について議論したい。 - 講演者紹介:
2014年東京大学大学院情報理工学系研究科博士課程修了、NTTコミュニケーション科学基礎研究所入所。2016年東京大学情報理工学系研究科講師。2018年よりオムロンサイニックエックス株式会社Principal Investigator、現在に至る。主としてコンピュータビジョンや自然言語処理を対象として、機械学習によるクロスメディア理解やAIロボット駆動科学の研究に従事。
吉野幸一郎 氏(理化学研究所)
- 講演タイトル:対話ロボットにおける基盤モデルの利活用
- 講演概要:
大規模言語モデルはその汎用性の高さから様々な応用が取り沙汰されています。その中でもロボティクス分野における活用では、言語による推論だけでなく、ロボットが扱う視覚、触覚、アクチュエーションなどとの接続で目覚ましい成果を挙げており、基盤モデルと言うべきなくてはならないものとなりつつあります。本講演ではこれまでロボティクス研究において何が難しかったか、それを基盤モデルがどのように解決したか、今後残された課題は何か、といった内容について概観します。 - 講演者紹介:
理化学研究所チームリーダーおよび奈良先端科学技術大学院大学客員教授。2014年京都大学大学院情報学研究科博士後期課程修了。日本学術振興会特別研究員(PD)、奈良先端科学技術大学院大学情報科学研究科助教等を経て、2020年より理化学研究所知識獲得・対話チームチームリーダー。人工知能学会から研究会優秀賞(2013年度および2020年度)等受賞。人工知能学会言語・音声理解と対話処理研究会専門委員、IEEE SLTCMember、ARR ActionEditor、SIGdial理事、DSTC運営委員、言語処理学会理事、情報処理学会シニア会員、日本ロボット学会員。
ターゲット
以下のような方をターゲットとします。人工知能学会の学会員でない方でもご参加いただけます。各講演では機械学習の基礎知識をお持ちの方を対象としておりますので、その点ご留意ください。
- 新たにマルチモーダル領域の研究を始めてみたいという研究者・開発者
- 自然言語処理、画像処理等の関連領域の研究をしていて、マルチモーダル領域の情報を収集したい研究者・開発者
プログラム
13:00-13:05 | オープニング |
13:05-14:15 | マルチモーダルインタラクションの研究方法と研究動向(中野先生) |
14:15-14:20 | 休憩 |
14:20-15:30 | ビジョン&ランゲージ(牛久先生) |
15:30-15:35 | 休憩 |
15:35-16:45 | 対話ロボットにおける基盤モデルの利活用(吉野先生) |
16:45-16:55 | 休憩& セッティング |
16:55-17:25 | パネルディスカッション |
17:25-17:30 | クロージング |
録画コンテンツのオンデマンド視聴について
本セミナーの様子は運営サイドで録画いたします。録画の内容はセミナー終了後の一定期間に限って、参加者限定で視聴できるようにする予定です。
個人のPCやスマホやカメラ等に許可なく録画・撮影されることのないようお願いいたします。
ただし、不測の事情により運営サイドの判断で配信を停止する場合がございますことをご承知おきください。
また、本セミナーの内容は人工知能学会公式YouTubeチャンネルで後日公開する予定です。こちらは一部を抜粋して公開いたしますので、全ての内容を見てみたい方はセミナーへのご参加をお願いいたします。
第92回人工知能セミナー 参加申し込み
人工知能学会に未加入の方は、この機会にぜひ本学会のご入会をご検討ください。
→入会案内のページ
第92回人工知能セミナーへのお申込みフォームはこちら(Peatix)
Peatix:参加申込
参加申込みいただけますと、開催日前日までにご登録のメールアドレス宛にZoom URLなど参加方法等に関する情報を送付致します。