【記事更新】私のブックマーク「音声対話における非言語生成」 | 人工知能学会 (The Japanese Society for Artificial Intelligence)

私のブックマーク

音声対話における非言語生成

井上　昂治（京都大学，大阪大学）

1．はじめに：LLM時代における「非言語」

　大規模言語モデル（LLM）の登場により，人間と自然言語で対話するシステムは，私達の日常に広く浸透しつつあります．その代表格である ChatGPTや Geminiは，今や社会のさまざまな活動において不可欠な存在になりつつあるといえるでしょう．これらの技術は，高度な対話システムや会話ロボットといった応用研究を強力に推進する一方で，人間どうしのコミュニケーションの仕組みを解き明かすという科学的探究にも貢献する可能性を秘めています．しかし，人間どうしの対話では，LLMが得意とする言語情報だけでなく，非言語情報もまた決定的に重要な役割を担っています．すなわち人間は，発話内容だけでなく，多様な非言語的手段を用いて感情や意図を伝え合い，それによって円滑な対人関係を築き，ひいては社会生活を営んでいます．
　そこで本稿では，この非言語情報のうち音声対話において特に重要とされる，ターンテイキング（話者交替），相づち，頷うなずき，フィラー，笑いに焦点を当て，これらの振舞いを理解するための理論的背景，機械学習モデル，そして関連するデータセットについて，筆者が普段よくアクセスするリンクをまとめます．なお，「非言語」に対応する英語表現には “Non-verbal”や“Non-linguistic”などがありますが，それぞれが指す範囲や研究分野は必ずしも一致しません．例えば，本稿で用いる「非言語（Non-linguistic）」は相づちや笑いを含みますが，「Non-verbal」ではあまり含まず，主に視線やジェスチャを扱うことが多いです．また，以降で紹介する文献は当該分野における主要な成果のごく一部であること，本稿が韻律や表情といったすべての非言語的振舞いを網羅するものではないことにあらかじめご留意ください．

2．ターンテイキング

　ターンテイキングは，会話において発話を開始するタイミングを参与者どうしが調整するための仕組みです．会話分析の研究では，Sacksらの順番交替規則をはじめさまざまな理論が検討されてきました．

　また，ターンテイキングの言語的な違いを網羅的に調査した研究として，以下もあげておきます．

Universals and cultural variation in turn-taking in conversation

　日本語においてもターンテイキングの理論的研究がなされており，以下が参考になります．

　ターンテイキングを音声対話システムや会話ロボットに実装するにあたって，最も単純なアプローチは一定時間の沈黙を検出したらシステムが発話を開始するというタイムアウト方式ですが，それではユーザのターンに割り込んだり，不自然な間が空いたりといった問題が生じます．したがって，ユーザ発話の音声や言語（あるいは画像）の情報からユーザのターン終了をいかに正確に予測するかがその問題設定となります．ターンテイキング予測のモデルについては下記が参考になります．

　近年では，Transformerをベースとした二者の音声を入力とする Voice Activity Projectionモデルに注目が集まっており，リアルタイム実装や会話ロボットへの応用も進められています．

　機械学習モデルを学習するためのデータセットとして，英語では以下があげられます．

　日本語の場合は以下のデータが参考になります．

　また，上記のデータセットを含めて，対話データを網羅したリストとして下記が便利です．

　ここまでは 1対1（dyadic）の対話を前提としていましたが，3人以上の場面，つまり多人数会話におけるターンテイキングはより複雑なものになります．以下はその仕組みを理解するために参考になる文献とよく使用されるデータセットです．

　さらに，ターンテイキングは後述する他の非言語的振舞いとも密接に関係しています．後述するもの以外では，視線や呼吸との関係性も調査されています．

3．相づち

　相づちとは，聞き手による「うん」や「へー」といった短い応答であり，話し手のターンの継続を促したり，話に対する理解・興味を示したりといった役割があります．相づちの種類や役割などに関する理論的背景を理解するには以下の文献が参考になります．

　ユーザの発話に対してシステムの相づちを生成するには，そのタイミングと種類を予測する必要があります．また，問題設定として，ユーザの発話区間ごとに予測を行う場合と毎時間フレームで連続的に予測を行う場合の 2種類があります．相づちは英語では backchannel（あるいは reactive token）と呼ばれることからも，ユーザの発話終了を待たずに相づちを発話することが必要であるため，後者の連続的な方法が望ましいですが，学習データの不均衡性などの問題から実現は難しいです．しかし，近年では自己教師あり事前学習モデルの導入やファインチューニング手法の改善（マルチタスク学習など）により，連続的なモデルでも十分な精度が実現されつつあります．以下に参考となる研究をあげます．

　また，相づちの韻律パターンについても，話し手への同調（entrainment）という観点からこれを実現する方法が提案されています．

　モデルの学習に使用されるデータセットは，主に前述の SWITCHBOARDコーパスに対して Dialog Act（対話行為）のラベルを付与したものです．
　このラベルセットのうち「Acknowledge（Backchannel）」のラベルが付与された発話を相づちとみなしています．

Processing the Switchboard Dialogue Act Corpus

4．頷　き

　頷きは，相づちと同様に聞き手によって生成される非言語的振舞いの一つです．相づちが音声的であるのに対して，頷きは視覚的なものであり，両者は生起するタイミングや種類に密接な関係があることが知られています．
　頷きの理論的背景については先にあげた会話分析に加えて，以下が参考になります．

　頷きの動作を予測（生成）するモデルとしては以下の研究があげられます．

　使用されるデータセットとしては代表的なものは明確ではありませんが，以下のワークショップで提案されているベンチマークや最近発表されたデータセットなどが有用でしょう．

　特に，GENEA Challengeでは話し手だけでなく，聞き手のジェスチャ生成に取り組んでいる研究も報告されており，これらは聞き手の頷きを包含しているともいえます．

5．フィラー

　フィラーは「あのー」や「えーっと」といった言い淀よどみ表現であり，一見すると不要なようにも思われますが，沈黙を埋める「つなぎ」として機能したり，ターンの取得・保持に関わったりと，自然で円滑な対話を実現するために重要な役割を果たしています．フィラーの役割やアノテーションについて理解するために参考になる文献を以下にあげます．

　フィラーのタイミングや種類を予測する研究については，筆者らの研究を含めて以下があげられます．

　また，フィラーに関するデータセットについては，上記であげた音声対話データでの書き起こしをそのまま使用することが多いようです．

6．笑　い

　対話における笑いは共感表出や関係構築において重要な役割を果たしています．また，笑い声の種類は多種多様で，ポジティブからネガティブまでさまざまな反応を自然に表現することが可能です．対話における笑いについての理論的背景を理解するのに参考になる文献を以下にあげます．

　笑い声（音声）や笑顔（映像）を生成する技術は充実してきましたが（ここでは割愛），日常の自然な対話における笑いの適切なタイミングを予測することは難しいため，筆者らは相手が笑ったときに自分も一緒に笑うかを判断する状況に絞って，笑いを生成するシステムを実現しました．

　笑いについてのデータセットとしては，例えば，上述の SWITCHBOARDには Laughterのタグが付与されており，これを利用することができます．
　また，笑いのタイミングや種類をアノテーションする際に参考になる文献を以下にあげておきます．

7．さいごに：本当に非言語は必要？

　最近では，二者の音声を常時入力・出力可能な Full-Duplex（全二重）型音声対話システムに関する研究が進んでいます．この技術は，前述の非言語的振舞いを包括的かつ一貫して生成する可能性を秘めており，今後の動向に注目が集まっています．現時点では，制御性や LLMとの統合などに課題がありますが，これらは徐々に改善されていくでしょう．以下に関連する文献をあげます．

　このようなモデルが発展していく際には，これまでの研究で培われてきた理論的背景やアノテーションの方法などが生かされ，より大規模なデータセット構築や問題設定，そして評価方法の洗練化において統合されていくでしょう．さらには，構築された大規模非言語生成モデルを人間社会における複雑なインタラクションにおいてどのように活用していくかが普及の肝となり，そこでこれまでの非言語生成の知見が参照されていくはずです．
　さて，ここまで読まれた方の中には，非言語的振舞い生成の研究の面白さや奥深さを感じる一方で，「それって AIに本当に必要？」という疑問をもつ方もいるかもしれません．これら一連の研究の目的は，技術的な貢献のみならず，科学的な発見にも支えられています．特に後者では，人間のコミュニケーションの仕組みを理解することが目標であり，それがまた会話 AIやロボット，コミュニケーション支援システムなど技術面にも循環的に還元されるのが理想です．しかしながら，人間らしさの追求がディープフェイクや AIシステムへの過度な依存など，負の側面を助長するリスクも考えられます．技術の発展と社会との調和を適切に見極めていくことも，今後重要な課題となるでしょう．

8．謝　辞

　本記事を執筆する際に，臼田泰如先生（静岡理工科大学），加藤利梓さん（京都大学），また編集委員の稲葉通将先生（電気通信大学）にレビューをしていただきました．この場を借りて感謝申し上げます．