私のブックマーク
対話システムと会話分析
徳久 良子((株)豊田中央研究所)
1.は じ め に
対話コーパスの規模の拡大や,深層学習などの技術の進化により,ここ数年で対話システムの応答生成の精度は大きく向上した.音声処理や画像処理などと同様に,対話システムにおいても「end-to-end 深層学習(end-to-end deep learning)」が全盛だ.「end-to-end 深層学習」とは,入力と出力のペアを学習器が“よしなに” 学習する方法で,大規模なコーパスと強力な学習器を用いることで,多くの分野で従来より高い性能が実現されている.対話システムでは,Facebook AI ResearchのBlenderbot や,MicrosoftのDialoGPTがオープンソース化されており,大規模な対話コーパスを用意すれば独自の発話生成モデルを学習することも可能となった.
一方,「会話分析(Conversation Analysis)」とは,1960 年代半ばに社会学者サックス(Sacks, H.)によって始められた学問で,会話をはじめとする人々の相互行為がどのように秩序立てられているかを明らかにすることを目的としている.相互行為の一つに日常会話があり,会話分析では会話を分析対象とすることが多い.会話分析の手続きに従い厳密に対話を分析することにより,一見無秩序に見える人と人との対話が,実は合理性のある相互行為であることが明らかにされつつある.
本稿の冒頭で,ここ数年で対話システムの応答生成の精度が大きく向上したと述べたが,対話システムがあらゆる状況で人と同じように自然に対話できるようになったわけではない.そこで,会話分析をはじめとしてさまざまな分析的なアプローチを対話システムの設計や改良に利用する取組みがなされている.これらは,人と人(あるいは人と対話システム)との対話の特徴をよく知ったうえで対話システムを設計したり,対話システムに足りない要素を明らかにすることで対話システムの性能をさらに向上させるという取組みである.本稿では,会話分析のエッセンスをまとめるとともに,対話システムの設計や改良に対して会話分析をはじめとする分析手法がどのように使われるかを紹介する.
2.会話分析とは
会話分析とは,会話をはじめとする人々の相互行為が,どのような秩序をもって,どのように組織されているかを明らかにする学問である.日常会話は人々の社会生活の基盤であるため,会話分析では分析対象を対話に置くことが多い.対話を分析する際には,理論的な枠組みを構築してからデータを分析するというトップダウンの方式ではなく,録音・録画されたデータを詳細に観察することによって現象を明らかにするというボトムアップの方式が取られる.注意深く対話を観察するための手続きや,会話分析の基本的な概念がまとめられた教科書がいくつか出版されている.
2・ 1 会話分析の教科書
- 「会話分析入門」(串田秀也・平本 毅・林 誠):会話分析の基礎を学ぶうえで非常にわかりやすい一冊である.データ収集から会話分析の方法までをわかりやすくまとめられているため,会話分析の基本的な手続きを学びたい方にお薦めである.
- 「会話分析の基礎」(高木智世・細田由利・森田 笑):相互行為として会話を分析する際の視点や,会話分析が目指すものがわかりやすくまとめられている.
- 「基礎からわかる会話コミュニケーションの分析法」(高梨克也):書き言葉に限定せずにマルチモーダル情報も含めたうえでのコミュニケーションの分析方法についてわかりやすくまとまっている.
- 「対話と談話(言語と計算)」(石崎雅人・伝 康晴):対話と談話の基本的な概念を学ぶうえでは欠かせない一冊であろう.会話分析に限らず,対話や談話に関わる基本的な概念も学ぶことができる.
- 「会話分析基本論集(H. サックス・E. A. シェグロフ・G. ジェファソン 著,西阪 仰 訳)」:会話分析に関する基礎的な論文が邦訳された一冊で,会話分析の基本的な論文を日本語で網羅したい方にお勧めである.
2・ 2 会話分析の教科書
会話分析の用語の詳細は上記で紹介した本にも記載されているが,以下の対話例を用いて代表的な用語を解説する.
─────
対話例A:
A1 話者1:明日って部活あるの?
A2 話者2:あるよ
A3 話者1:何時まで?
A4 話者2:明日は18 時まで
A5 話者1:オーケー
対話例B:
B1 話者1:このマイクはいくら?
B2 話者2:千円しないぐらい
B3 話者1:安い
─────
- 発話(utterance)とターン(turn):話者交替(turn-taking:順番交替とも呼ばれる)が起きるまで,一人の話者が話し続ける区間のことをターンと呼ぶ.一つのターンには複数の発話が含まれる場合もある.
- 隣接ペア(adjacency pair):対話例A のA1「明日って部活あるの?」─ A2「あるよ」や,A3「何時まで?」─A4「明日は18 時まで」のように隣接したターンで構成される.隣接ペアの先行部分を第1 部分(A1「明日って部活あるの?」),後続部分を第2 部分(A2「あるよ」)と呼ぶ.これらは無秩序に隣接しているわけではなく,人と人とのやり取りの中では隣接ペアの第1 部分は決まった形の第2 部分を要求する.「醤油とって」といわれて「(黙って醤油を渡す)」といったように,必ずしも応答が発話を伴うわけではないが,それでも基本的には人と人とのやり取りはある程度のルールと秩序のもとに成り立っている.
隣接ペアについては,「人工知能学会誌」連載チュートリアル「多人数インタラクションの分析方法〔第4 回〕会話・対話・談話研究のための分析単位─隣接ペア─」(伝 康晴)がわかりやすい. - 連鎖終結の第3部分(sequence closing third):隣接ペアの第1・第2部分の後に,しばしば3番目の発話が後続することがある.具体的には,対話例AのA5 や,対話例BのB3 で,「連鎖終結の第3部分」と呼ばれる.受諾の発話(対話例AのA5)や,評価の発話(対話例BのB3)が来ることが多い.連鎖終結の第3部分(sequence closing third)と呼ばれるように,この発話があることで,発話の連鎖が終結される.
2・ 3 対話コーパス
会話分析にとっても,end-to-end 深層学習による対話システムにとっても,大規模な対話コーパスは欠かせない.以下に,代表的な対話コーパスを紹介する.
- Open Subtitles:英語や日本語をはじめとして,62 種類の言語に対して,映画やテレビのセリフを収録したコーパスである.多言語対話コーパスとしては最も規模の大きなものであろう.Haggingface のDataset からも入手できる(open_subtitles).
- Persona-Chat:提示された5文のペルソナ情報(ネコを飼っているなど)に従って話者が特定のペルソナになりきり,テキストチャットで対話したコーパスである.NIPS 2018 のコンペティションで使われたデータがHaggingface のDataset から入手できる(personachat_truecased).
- CoCoA::価格交渉を行う対話のデータセットである.1,402個の商品について6,682対話が収録されている.
- bAbI:Facebook AI Research が公開しているデータセットで,主に文脈を考慮したうえでのQuestion Answering タスクを意識してつくられたコーパスである.
- E2E Dataset:End-to-end 対話システムを構築するために整備されたデータセットで,英語でレストラン検索をした50 万発話が収録されている.検索の際の各スロットに対する値のタグ付けもされている.Haggingface のDataset からも入手できる(e2e_nlg).
- BSD コーパス(ビジネスシーン対話コーパス):「対面対話(2名での仕事上の対話)」,「電話対応」,「雑談」,「会議(複数名での対話)」などのさまざまなビジネスシーンにおける対話が収録されており,日本語と英語の対訳コーパスでもある.Haggingface のDataset からも入手できる(bsd_ja_en).
- 日本語日常会話コーパス:日本語日常会話コーパスは,さまざまな日常場面における自然な対話をバランス良く収めたコーパスで,映像付きの日常会話コーパスは世界で初めての試みである.さまざまな場面における会話を収集するため, 性別・年齢などの観点からバランスを考慮して選別された40名の協力者に機材機器を3 か月程度貸し出し,協力者の日常生活で自然に生じる会話を収録している.発話は書き起こしされたうえで談話行為が付与されている.
- 名古屋大学会話コーパス:人と人との雑談129対話(約100時間分)が書き起こしされている.人と人との日本語雑談コーパスとしては非常に規模が大きい.
- 対話破綻検出チャレンジ:人と対話システムとが対話した1,146対話が収録されている.対話システムの応答には,その応答が破綻しているかどうか(応答として適切であるかどうか)のタグが付与されている.
3.対話システムと会話分析
3・ 1 隣接ペアとend-to-end 深層学習
End-to-End 時代における対話システムの研究動向(吉野幸一郎)にあるように,近年の対話システムは,入力と出力のペアを与えてそれらをニューラルネットワークで学習する方法が主流となっている.
ここで,会話分析が相互行為の分析の基本的な単位としている隣接ペア(adjacency pair)と,end-to-end 深層学習とは,どちらも「入力と出力がペアがスタートである」という点で非常に親和性が高い.一方で,会話分析を学んだ方にとっては自明であるが,隣り合うすべてのターンが隣接ペアになるわけではなく,また,連鎖終結の第3部分の存在からわかるように,「第1部分+第2部分+第3部分」の三つ組で一つの対話のまとまりを構成する場合も少なくない.したがって,end-to-end 深層学習モデルを構築する際にどの発話とどの発話をペアにするかや,大局的な談話の管理をどのようにend-to-end 深層学習に取り入れるかが鍵となると考えられる.
3・ 2 対話システムの設計への応用
人工知能学会 言語・音声理解と対話処理研究会(SIG-SLUD)では,毎年秋に「対話システムシンポジウム」を開いており,その中で,ここ数年「対話システムライブコンペティション」を実施している(第1回,第2回,第3回,第4回;第4回は今年の11月末に開催予定である).昨年(第3回)の「シチュエーショントラック」の1位と2位は,人文系の方が構築したシステムが独占した(対話ログはこちらから閲覧できる).これらのシステムは,人と人との対話の分析を通してこれまでに得られている知見を,対話システムの設計に生かす形で構築されていた.これらのシステムが工学研究者が構築したシステムよりも勝ったという結果は,会話分析などによって得られる知見が対話システムの設計にも役立つことを示唆している.
3・ 3 対話システムの評価への応用
また,会話分析のアプローチに限定した分析ではないが,「アンドロイドERICA の傾聴対話システム─人間による傾聴との比較評価─」(井上昂治・ララ ディベッシュ・山本賢太・中村 静・高梨克也・河原達也)では,アンドロイドERICA による傾聴と,オペレータによる傾聴とを比較し,現状の対話システムと人間とのギャップについて詳しく評価している.対話システムの振舞いを詳しく分析することで,対話システムの改良につなげるという基本的な思想は,本稿で述べたいことと近い.また,対話システムの評価方法として有名なPARADISEでも,システムとユーザの対話ログをexpert が分析した結果が評価値として使われている.その他の評価方法についてはSurvey on evaluation methods for dialogue systemを参考にされたい.
4.論文誌・国際会議
対話システム研究は,対話システムの学会のほか,テキスト情報を扱う自然言語処理の学会や,身体的な情報も加えたマルチモーダル系の学会や,ロボティクス関連の学会などで発表される.以下に,代表的なものをまとめる.
論文誌
- Dialogue and Discourse,Computational Linguistics,Speech Communitation,TACL,
IEEE/ACM Transactions on Audio Speech and Language Processing
対話研究
自然言語処理
人工知能
音声言語処理
マルチモーダル・ヒューマンコンピュータインタラクション
ロボティクス
5.お わ り に
本稿では,会話分析のエッセンスをまとめるとともに,その工学的な応用を紹介した.会話分析をはじめとしたさまざまな分析的なアプローチを対話システムの設計や改良に役立てることで,対話システムの応答生成モデルはさらに良いものになると考える.なお,対話システムに関しては,東中竜一郎先生の『私のブックマーク「対話システム」』にまとまっている.また,情報処理学会の小特集「身近になった対話システム」でも対話システムの現状や課題がよくまとめられているので,こちらもあわせてご覧いただきたい.