【記事更新】教養知識としてのAI 〔第6回〕音声対話・画像認識AI のやさしい話


第6回
音声対話・画像認識AI のやさしい話
Basic Knowledge of Speech Communication and Visual Recognition AI

佐々木 励  LINE株式会社 AI カンパニー
Rei Sasaki  LINE Corporation AI Company

Keywords: speech recognition, natural language dialogue, speech synthesis, optical character recognition(OCR), face recognition

1.音声対話の社会実装

 AI 技術が発展していくことで,さまざまな領域への社会実装が進んでいます.

 その一つがスマートスピーカです.スマートスピーカは,「ねぇ,Clova」などの起動ワードの後に,天気の確認,音楽の再生,メッセージ送受信などを,音声対話によって実現できるデバイスです.音声だけで対話ができるため,デバイスから離れた場所から手のふさがった状態でも利用できる利便性があります.また,宅内だけでなく,クルマの運転中でも,カーナビの操作などで音声対話は利用されています.運転中の「ながらスマホ」による事故を防ぐという,社会課題を解決することもできます.例えば,LINE カーナビにはAI アシスタント「Clova」が搭載されており,音声による目的地設定などが可能です.
 さらに,電話での音声対話においてもAI の社会実装が進んでいます.レストラン予約に代表されるように,電話での対応に対する需要はいまだに多いですが,ユーザにとっては電話がつながりにくく,店舗にとっては人手の確保が困難という社会課題があり,AI による解決が期待されます.例えば,レストラン「俺のGrill&Bakery 大手町」では,AI 電話応対サービス「LINE AiCall」の実証実験が行われました.

2.音声対話のテクノロジー

 音声対話AI は,音声認識・対話システム・音声合成の各技術の組合せで実現されます.

2・1 音 声 認 識

 音声認識は,音声をテキストに変換する技術です.STT(Speech ToText)やASR(Automatic SpeechRecognition)とも呼ばれます.音声波形をテキストに変換する際,いきなり音声波形をテキストに変換するのではなく,2 段階に分けて変換します. 文字と音声波形とを直接対応付けるのは難しいので,1 段階目では「音響モデル」を用いて文字よりも細かい分け方(サブワード)である音素まで変換します. 例えば「きみ」というテキストは「k」,「i」,「m」,「i」という四つの音素に分かれます. しかし実は同じ「i」という音素でも前後の音素で音声の特徴は異なります. そこで前後にどのような音素があるかを考慮した「トライフォン」という単位で認識することが有効です. 一方で認識の単位は深層学習の発展により変化しつつあるところでもあり,トライフォンを介さずに音素もしくは文字単位で直接出力するような形式も用いられるようになりつつあります. 2 段階目は「言語モデル」を用いて,音素の組合せを意味のある言葉に変換します.例えば,音響モデルが音素の系列「k」,「i」,「m」,「i」を出力する場合,言語モデルはそれを「君」に変換します.スマートスピーカなどで利用されるインターネット越しの音声(VoIP)と電話網の音声では,音響モデルが異なります.VoIP のサンプリング周波数が16 kHzに対し,電話は8 kHzという違いがあり,電話音声ではいわゆる無声摩擦音と呼ばれる「s」などの音素を認識する際に有用な高い周波数の特徴を認識に使用することができません.また,英語などと日本語では,言語モデルも異なります.例えば,音素列「k」,「i」,「m」,「i」は,英語なら「key me」かもしれませんが,日本語なら「君」,「黄身」,「気味」などの可能性があり,それらを識別できる言語モデルが必要です.

2・2 対話システム

 対話システムは,入力されたテキストを解析し,対話の流れを管理して,適切な回答を生成してテキストで出力する技術です.最近急速に普及しているチャットボットも,対話システムの一種といえます.自然言語処理(Natural Language Processing)や自然言語理解(Natural LanguageUnderstanding)の技術が使われます.
 対話システムには,大きく分けると,明確なタスクの達成を目標とする「タスク指向型」と,雑談のように明確な目標をもたない「非タスク指向型」の二通りがあります.さらに,タスク指向型には,一問一答のような「FAQ 型」,フローチャートのように質問と回答が分岐する「シナリオ型」,必要な項目を埋める「スロットフィリング型」などがあります.FAQ 型では,ユーザの質問に対して,できるだけ適切な回答を返すことが求められます.シナリオ型では,ユーザの意図をできるだけ自然に絞り込んでいく会話設計が求められます.スロットフィリング型では,例えばレストラン予約の場合,日時・人数・名前などの必要な項目を正しく認識することが求められます.

2・3 音 声 合 成

 音声合成は,テキストを音声に変換する技術です.TTS(Text To Speech)とも呼ばれます.
 音声合成は,音声認識と逆方向の変換であり,類似した技術だと考えられがちですが,違いがあります.まず,音声認識と違い,アクセントやイントネーションなど韻律情報を制御する必要があります.また,品質評価の観点も異なります.音声認識では,音声の波形が正しい文字に変換されているか(文字認識率),正しい日本語の文章に変換されているか(文章認識率)など,客観的な評価をします.一方,音声合成では,読み方やアクセントが正しいかという客観的な評価に加えて,音質がクリアで人間に近いか・抑揚が内容に適しているか(穏やか,感情豊か)など,主観的な評価をする必要があります.

3.音声対話のデザイン

 音声対話AI の社会実装には,テクノロジーだけでなく,社会に受け入れられるデザインも必要です.
 スマートスピーカでは,人が話しかけやすくする工夫が必要です.例えば,Clova では,顔付きのキャラクタにして,親近感をもってもらえるようなデザインにしました.また,キャラクタと一緒に暮らす世界を目指すGateboxでは,汎用的に使われるアナウンサーのような穏やかな声ではなく,感情豊かな可愛らしい声を実現する特別な音声合成を開発しました.これは,人工知能の一分野である,HAI(HumanAgent Interaction:人間と人間から認知される人工的他者との相互作用を研究する学問)やHRI(Human RobotInteraction:人とロボットとの相互作用を広範に研究する学問)などとも深く関連します.
 また,電話応対システムの場合には,スマートスピーカとの話し方の違いを考慮することも大切です.例えば,スマートスピーカでは,音楽を聴くなどのコマンド指示の発話が多く,また,対話が失敗して終了してもユーザはすぐに再開ができます.一方,電話では,ユーザの発話の意図が曖昧な場合も多く,無音が続いた場合でも,電話をすぐに切るとユーザ体験を損ねるため,何度か聞き返すなどの会話のデザインが必要です.

4.画像認識の社会実装

 音声対話だけなく画像認識でもAI の社会実装が進んでいます.
 レシートや請求書などは,紙の印字や手書きが多く,それらを家計簿や経費管理のシステムに入力する手間が掛かります.その課題を文字認識(OCR)で解決することができます.例えば,LINE家計簿では,レシートをスマートフォンで撮影し,OCR で金額・日付などを自動で読み取っています.

 また,イベント会場やオフィスなどでは,入場時に本人確認のために長い行列になります.その課題を顔認識で解決することができます.例えば,開発者向けカンファレンスLINE Developer Day2019 では,入場受付で顔認識システムを導入し,スムーズな受付を実現しました.
 さらに,銀行口座の開設などでは,現在,運転免許証のコピーを送付するなどの手間が掛かっています.その課題をOCR と顔認識を組み合わせたオンライン本人確認技術eKYC(electronicKnow Your Customer)で解決することができます.例えば,渋谷区では,行政サービス申請におけるオンライン本人確認の実証実験が始まっています.

5.画像認識のテクノロジー

 画像認識の対象は,文字,顔,物体,情景(シーン)などさまざまですが,ここでは文字認識(OCR)と顔認識を紹介します.

5・1 文字認識(OCR)

 OCR(Optical Character Recognition)は,画像から文字を認識する技術です.
 OCR には,大きく二つのステップがあります.画像から文字の領域を「検出」し,その文字の数値や漢字などの文字列を「認識」します.
 英語などに比べると,日本語の文字認識は非常に難しいです.なぜなら,英語は横書きの26 文字だけですが,日本語は縦書きもあり3 000 文字以上の種類が存在し,検出も認識も複雑な処理が必要になるためです.
 OCR の品質評価では,国際学術会議ICDAR(International Conferenceon Document Analysis and Recognition)が開催しているコンペティションがあり,指定された共通の学習データおよび評価データで競います.そこで我々は,屋外の撮影画像から日本語・英語などのテキストや単語を検出・認識するなど,いくつかの領域で世界No.1になりました.その一因として,少量のデータでも品質の高い認識を行うAI を開発した点があります.具体的には,少ない学習データから,類似の書体や筆跡を生成して学習データに加えることで,学習対象を増やし,認識精度を上げています.
 また,社会実装では,汎用的で中程度の精度のAI より,特化した高精度のAI のほうが役立ちます.例えば,レシートや運転免許証などのフォーマットに特化したモデルを開発することで実用的な認識精度を実現しています.

5・2 顔  認  識

 顔認識は,画像から人の顔を検出し,対象者を認識する技術です.
 顔認識には,大きく三つのステップがあります.画像から顔の領域を「検出」し,その顔の「特徴量抽出」をし,その特徴量に近い対象者を探す「最近傍探索」を行います.
 我々は,この「検出」と「特徴量抽出」のモデルを軽量化し,ユーザ側にある端末で認識処理を行うエッジコンピューティングで実現することで,社会実装を進めています.なぜなら,画像というサイズの大きなデータをクラウドに送信しないことで処理速度が速くなり,また,顔画像をサーバに保持しないことでプライバシー保護も実現しやすいためです.具体的には,現在普及しているスペックのタブレット上で,1 秒以内の処理を実現しています.

6.AI の社会実装に向けて

 AI 技術はソフトウェアプログラムですが,プログラムを学んでいなくても,ユーザとしてAI は気軽に扱えるようになってきました.LINE も,テクノロジーとデザインを掛け合わせて,人にやさしいAI を提供していきます.