私のブックマーク
音声対話における非言語生成
井上 昂治(京都大学,大阪大学)
1.はじめに:LLM時代における「非言語」
大規模言語モデル(LLM)の登場により,人間と自然言語で対話するシステムは,私達の日常に広く浸透しつつあります.その代表格である ChatGPTや Geminiは,今や社会のさまざまな活動において不可欠な存在になりつつあるといえるでしょう.これらの技術は,高度な対話システムや会話ロボットといった応用研究を強力に推進する一方で,人間どうしのコミュニケーションの仕組みを解き明かすという科学的探究にも貢献する可能性を秘めています.しかし,人間どうしの対話では,LLMが得意とする言語情報だけでなく,非言語情報もまた決定的に重要な役割を担っています.すなわち人間は,発話内容だけでなく,多様な非言語的手段を用いて感情や意図を伝え合い,それによって円滑な対人関係を築き,ひいては社会生活を営んでいます.
そこで本稿では,この非言語情報のうち音声対話において特に重要とされる,ターンテイキング(話者交替),相づち,頷うなずき,フィラー,笑いに焦点を当て,これらの振舞いを理解するための理論的背景,機械学習モデル,そして関連するデータセットについて,筆者が普段よくアクセスするリンクをまとめます.なお,「非言語」に対応する英語表現には “Non-verbal”や“Non-linguistic”などがありますが,それぞれが指す範囲や研究分野は必ずしも一致しません.例えば,本稿で用いる「非言語(Non-linguistic)」は相づちや笑いを含みますが,「Non-verbal」ではあまり含まず,主に視線やジェスチャを扱うことが多いです.また,以降で紹介する文献は当該分野における主要な成果のごく一部であること,本稿が韻律や表情といったすべての非言語的振舞いを網羅するものではないことにあらかじめご留意ください.
2.ターンテイキング
ターンテイキングは,会話において発話を開始するタイミングを参与者どうしが調整するための仕組みです.会話分析の研究では,Sacksらの順番交替規則をはじめさまざまな理論が検討されてきました.
- A simplest systematics for the organization of turn-taking for conversation
- 会話分析基本論集
- Turn organization: One intersection of grammar and interaction
- Timing in turn-taking and its implications for processing models of language
また,ターンテイキングの言語的な違いを網羅的に調査した研究として,以下もあげておきます.
日本語においてもターンテイキングの理論的研究がなされており,以下が参考になります.
- 会話・対話・談話研究のための分析単位 :ターン構成単位(TCU)
- 円滑な話者交替はいかにして成立するか─会話コーパスの分析に基づく考察─
- 会話の聞き手はいつ話し始めるか :日本語の話者交替規則は過ぎ去った完結点に遡及して適用される
ターンテイキングを音声対話システムや会話ロボットに実装するにあたって,最も単純なアプローチは一定時間の沈黙を検出したらシステムが発話を開始するというタイムアウト方式ですが,それではユーザのターンに割り込んだり,不自然な間が空いたりといった問題が生じます.したがって,ユーザ発話の音声や言語(あるいは画像)の情報からユーザのターン終了をいかに正確に予測するかがその問題設定となります.ターンテイキング予測のモデルについては下記が参考になります.
- 円滑な対話進行のための音声からの情報抽出
- Turn-taking in Conversational Systems and Human-Robot Interaction: A Review
- A Survey of Recent Advances on Turn-taking Modeling in Spoken Dialogue Systems
近年では,Transformerをベースとした二者の音声を入力とする Voice Activity Projectionモデルに注目が集まっており,リアルタイム実装や会話ロボットへの応用も進められています.
- Voice Activity Projection: Self-supervised Learning of Turn-taking Events
- Predictive Modeling of Turn-Taking in Spoken Dialogue:Computational Approaches for the Analysis of Turn-Taking in Humans and Spoken Dialogue Systems
- Real-time and Continuous Turn-taking Prediction Using Voice Activity Projection
- Applying General Turn-taking Models to Conversational Human-Robot Interaction
- A Noise-Robust Turn-Taking System for Real-World Dialogue Robots: A Field Experiment
機械学習モデルを学習するためのデータセットとして,英語では以下があげられます.
日本語の場合は以下のデータが参考になります.
また,上記のデータセットを含めて,対話データを網羅したリストとして下記が便利です.
ここまでは 1対1(dyadic)の対話を前提としていましたが,3人以上の場面,つまり多人数会話におけるターンテイキングはより複雑なものになります.以下はその仕組みを理解するために参考になる文献とよく使用されるデータセットです.
さらに,ターンテイキングは後述する他の非言語的振舞いとも密接に関係しています.後述するもの以外では,視線や呼吸との関係性も調査されています.
- Some functions of gaze-direction in social interaction
- Gaze and turn-taking behavior in casual conversational interactions
- The Role of Eye Gaze in Regulating Turn Taking in Conversations: A Systematized Review of Methods and Findings
- Using Respiration to Predict Who Will Speak Next and When in Multiparty Meetings
- Video-based Respiratory Waveform Estimation in Dialogue: A Novel Task and Dataset for Human-Machine Interaction
3.相づち
相づちとは,聞き手による「うん」や「へー」といった短い応答であり,話し手のターンの継続を促したり,話に対する理解・興味を示したりといった役割があります.相づちの種類や役割などに関する理論的背景を理解するには以下の文献が参考になります.
- Using Language
- The conversational use of reactive tokens in English, Japanese, and Mandarin
- 会話分析
- 対話におけるあいづち表現の認定とその問題点について
- Prosodic features which cue back-channel responses in English and Japanese
ユーザの発話に対してシステムの相づちを生成するには,そのタイミングと種類を予測する必要があります.また,問題設定として,ユーザの発話区間ごとに予測を行う場合と毎時間フレームで連続的に予測を行う場合の 2種類があります.相づちは英語では backchannel(あるいは reactive token)と呼ばれることからも,ユーザの発話終了を待たずに相づちを発話することが必要であるため,後者の連続的な方法が望ましいですが,学習データの不均衡性などの問題から実現は難しいです.しかし,近年では自己教師あり事前学習モデルの導入やファインチューニング手法の改善(マルチタスク学習など)により,連続的なモデルでも十分な精度が実現されつつあります.以下に参考となる研究をあげます.
- Yeah, Right, Uh-Huh: A Deep Learning Backchannel Predictor
- Prediction and Generation of Backchannel Form for Attentive Listening Systems
- Attentive listening system with backchanneling, response generation and flexible turn-taking
- Prediction of Turn-taking Using Multitask Learning with Prediction of Backchannels and Fillers
- Multimodal and Multitask Approach to Listener’s Backchannel Prediction: Can Prediction of Turn-changing and Turn-management Willingness Improve Backchannel Modeling?
- Prediction of Various Backchannel Utterances Based on Multimodal Information
- Joint streaming model for backchannel prediction and automatic speech recognition
- Yeah, Un, Oh: Continuous and Real-time Backchannel Prediction with Fine-tuning of Voice Activity Projection
また,相づちの韻律パターンについても,話し手への同調(entrainment)という観点からこれを実現する方法が提案されています.
- Pitch similarity in the vicinity of backchannels
- Entrainment and Turn-Taking in Human-Human Dialogue
- Entrainment Analysis and Prosody Prediction of Subsequent Interlocutor’s Backchannels in Dialogue
モデルの学習に使用されるデータセットは,主に前述の SWITCHBOARDコーパスに対して Dialog Act(対話行為)のラベルを付与したものです.
このラベルセットのうち「Acknowledge(Backchannel)」のラベルが付与された発話を相づちとみなしています.
4.頷 き
頷きは,相づちと同様に聞き手によって生成される非言語的振舞いの一つです.相づちが音声的であるのに対して,頷きは視覚的なものであり,両者は生起するタイミングや種類に密接な関係があることが知られています.
頷きの理論的背景については先にあげた会話分析に加えて,以下が参考になります.
- Conversation management in contrast: Listener response in Japanese and American English
- 非言語行動である「うなずき」の機能とその役割への一考察
- うなずき運動とあいづちとの相互作用
- 多人数会話におけるうなずきの会話制御としての機能分析
- 相槌の形態と頷きとの共起関係
- 相槌の形態と頷きの物理的特徴の関係
- 反復的うなずきのセグメンテーション単位に関する分析
- Analysis of relationship between head motion events and speech in dialogue conversations
頷きの動作を予測(生成)するモデルとしては以下の研究があげられます.
- Automatic Generation of Head Nods using Utterance Texts
- Generation of nodding, head tilting and eye gazing for human-robot dialogue interaction
- A probabilistic multimodal approach for predicting listener backchannels
- A Regression-based Approach to Modeling Addressee Backchannels
- 相槌の特徴に一致した頷き生成モデル
- 発話音声に基づく身体的インタラクションロボットシステム
- 多人数会話におけるマルチモーダル聞き手反応予測
- アバター傾聴対話システムにおける多様な頷きのリアルタイム予測
使用されるデータセットとしては代表的なものは明確ではありませんが,以下のワークショップで提案されているベンチマークや最近発表されたデータセットなどが有用でしょう.
特に,GENEA Challengeでは話し手だけでなく,聞き手のジェスチャ生成に取り組んでいる研究も報告されており,これらは聞き手の頷きを包含しているともいえます.
- “Am I listening?”, Evaluating the Quality of Generated Data-driven Listening Motion
- The KCL-SAIR team’s entry to the GENEA Challenge 2023 Exploring Role-based Gesture Generation in Dyadic Interactions: Listener vs. Speaker
5.フィラー
フィラーは「あのー」や「えーっと」といった言い淀み表現であり,一見すると不要なようにも思われますが,沈黙を埋める「つなぎ」として機能したり,ターンの取得・保持に関わったりと,自然で円滑な対話を実現するために重要な役割を果たしています.フィラーの役割やアノテーションについて理解するために参考になる文献を以下にあげます.
- Features and Roles of Filled Pauses in Speech Communication: A corpus-based study of spontaneous speech
- 日本語フィラーの音声形式とその特徴について─聞き手とのインタラクションの程度を指標として─
- Filler Word Detection and Classification:A Dataset and Benchmark
フィラーのタイミングや種類を予測する研究については,筆者らの研究を含めて以下があげられます.
- Evaluating Sampling-based Filler Insertion with Spontaneous TTS
- Generating Fillers based on Dialog Act Pairs for Smooth Turn-Taking by Humanoid Robot
- Smooth Turn-taking by a Robot Using an Online Continuous Model to Generate Turn-taking Cues
また,フィラーに関するデータセットについては,上記であげた音声対話データでの書き起こしをそのまま使用することが多いようです.
6.笑 い
対話における笑いは共感表出や関係構築において重要な役割を果たしています.また,笑い声の種類は多種多様で,ポジティブからネガティブまでさまざまな反応を自然に表現することが可能です.対話における笑いについての理論的背景を理解するのに参考になる文献を以下にあげます.
- Laughter in Interaction
- Laughter: A Scientific Investigation
- Contagious laughter: Laughter is a sufficient stimulus for laughs and smiles
- Time for laughter
- Classification of social laughter in natural conversational speech
笑い声(音声)や笑顔(映像)を生成する技術は充実してきましたが(ここでは割愛),日常の自然な対話における笑いの適切なタイミングを予測することは難しいため,筆者らは相手が笑ったときに自分も一緒に笑うかを判断する状況に絞って,笑いを生成するシステムを実現しました.
- Can a robot laugh with you?: Shared laughter generation for empathetic spoken dialogue
- 共感を表出する音声対話システムのための共有笑い生成
笑いについてのデータセットとしては,例えば,上述の SWITCHBOARDには Laughterのタグが付与されており,これを利用することができます.
また,笑いのタイミングや種類をアノテーションする際に参考になる文献を以下にあげておきます.
- When do we laugh?
- Towards an Annotation Scheme for Complex Laughter in Speech Corpora
- 私たちはなぜ,いつ,どのように笑うのか
7.さいごに:本当に非言語は必要?
最近では,二者の音声を常時入力・出力可能な Full-Duplex(全二重)型音声対話システムに関する研究が進んでいます.この技術は,前述の非言語的振舞いを包括的かつ一貫して生成する可能性を秘めており,今後の動向に注目が集まっています.現時点では,制御性や LLMとの統合などに課題がありますが,これらは徐々に改善されていくでしょう.以下に関連する文献をあげます.
- Moshi: a speech-text foundation model for real-time dialogue
- Towards a Japanese Full-duplex Spoken Dialogue System
- WavChat: A Survey of Spoken Dialogue Models
このようなモデルが発展していく際には,これまでの研究で培われてきた理論的背景やアノテーションの方法などが生かされ,より大規模なデータセット構築や問題設定,そして評価方法の洗練化において統合されていくでしょう.さらには,構築された大規模非言語生成モデルを人間社会における複雑なインタラクションにおいてどのように活用していくかが普及の肝となり,そこでこれまでの非言語生成の知見が参照されていくはずです.
さて,ここまで読まれた方の中には,非言語的振舞い生成の研究の面白さや奥深さを感じる一方で,「それって AIに本当に必要?」という疑問をもつ方もいるかもしれません.これら一連の研究の目的は,技術的な貢献のみならず,科学的な発見にも支えられています.特に後者では,人間のコミュニケーションの仕組みを理解することが目標であり,それがまた会話 AIやロボット,コミュニケーション支援システムなど技術面にも循環的に還元されるのが理想です.しかしながら,人間らしさの追求がディープフェイクや AIシステムへの過度な依存など,負の側面を助長するリスクも考えられます.技術の発展と社会との調和を適切に見極めていくことも,今後重要な課題となるでしょう.
8.謝 辞
本記事を執筆する際に,臼田泰如先生(静岡理工科大学),加藤利梓さん(京都大学),また編集委員の稲葉通将先生(電気通信大学)にレビューをしていただきました.この場を借りて感謝申し上げます.