私のブックマーク
ウェブ検索と信憑性(Web Search and Information Credibility)
山本 祐輔(静岡大学)
はじめに
ウェブは私たちの生活を支える重要な知識基盤となっています。一方で,フェイクニュースに代表されるように,ウェブ情報の信憑性が社会問題となりつつあります。本ブックマークでは,信憑性指向のウェブ情報アクセスシステムの実現する上で重要と思われる下記項目に関して,関連情報を整理・紹介いたします:
- 情報信憑性の構成要素とユーザ側の意識
- 情報信憑性の評価アルゴリズム
- ウェブ情報の信憑性の判断支援システム
- 信憑性判断と認知バイアス
研究トピック
信憑性の構成要素
情報の信憑性に関する研究は,1950年代から社会心理学分野で行われてきました。一般的に情報の信憑性は,客観的な特性である真偽(authenticity)もしくは正確さ(accuracy)と見なされる傾向にあります。社会心理学分野では,信憑性は「主観的な特性であり,受け手や対象とする情報によって「正しさ」の解釈が異なるもの」とされています。Hovland[1]をはじめとする多くの社会心理学者は,「コミュニケーションと説得」という文脈で,信憑性の構成要素や信憑性判断メカニズムに関する研究を行ってきました。これまでの研究によると,信憑性は以下の2要素から大きく影響を受けるということが明らかにされています。
- 信頼性(trustworthiness):道徳性や優良性に関する要素(例:公正さ,偏見の有無)
- 専門性(expertise):情報発信者が有する知識やスキルに関連する要素
社会心理学分野で信憑性に関する研究が始まった当時は,信憑性の対象として新聞等のオールドメディアに焦点が当てた研究がなされていました。2000年代に入ってからはウェブ情報の信憑性に焦点をあて,その構成要素を明らかにしようとする研究が行われています。UC Santa BarbaraのMetzgerのサーベイ論文[2]は,ウェブ情報の信憑性の構成要素を体系的に知るうえで貴重な資料です。
図書館学分野では,真偽が不確かなウェブ情報の信憑性を判断するためのチェックリスト指標が提案されてきました。代表的な指標はKapounによって提案された指標[3]です。Kapounは情報の信憑性を判断する際には,「正確さ(accuracy)」「権威性(authority)」「客観性(objectivity)」「鮮度(currency)」「網羅性(coverage)」の5指標に注意を払うよう提案しています。同様のチェックリストとして, UC Berkeley Libraryのチェック指標[4]などが存在します。
ウェブ情報の信憑性に対するユーザ側の意識
どういったウェブ情報に対して信憑性を感じるか(あるいは感じないか)を大規模に調査した研究としてはStanford大学のFoggの研究[5],UC Santa BarbaraのMetzgerの研究[6]があります。また,アドビシステムズ株式会社が行った調査(The State of Content: Rules of Engagement[7])によると,日本のミレニアル世代の約8割がウェブ上のコンテンツの信憑性を疑わない傾向にあることが明らかになっています。
特定のウェブ情報に焦点を絞って,ウェブ情報の信憑性に対するユーザの意識を調査した研究事例もあります。ウェブ検索エンジンに対するユーザの信憑性に関する研究としては,Nakamuraらが行った研究事例[8]が挙げられます。
信憑性評価アルゴリズム
信憑性の高いウェブ情報を獲得を支援するために,様々な観点から信憑性評価アルゴリズムの研究開発がなされています。以下にアルゴリズムの例を挙げます。
情報検索,データマイニング分野では,代表的な問題設定としてtruth discovery問題が挙げられます。Truth discovery問題は,「海辺のカフカの作者は村上春樹」といったファクトの信憑性を,同じ主題(この例では海辺のカフカの作者)に対するウェブ上のファクト情報を集めたときに「ファクト間に矛盾がないか」を評価する問題です。この問題に対する基本的なアルゴリズムとして,2007年にTruthFinder[9]アルゴリズムが提案されています。その後,latent credibility analysisアルゴリズム[10]など様々な改良アルゴリズムが提案されています。また,truth discovery問題から派生して,矛盾のあるファクトがウェブページ中に含まれる程度に着目することで,ウェブページの信憑性を評価するアルゴリズムも提案されています(論文[11])。Truth discoveryアルゴリズムの動向については,Liらのサーベイ論文[12]に整理されています。
情報信憑性に関連する特定の観点に着目して,ウェブ情報を評価するアルゴリズムも提案されています。AdlerらはWikipediaの編集履歴に着目し,文が編集されずに残ってきた期間を信憑性の指標とし, Wikipedia記事中の文の信憑性を評価するアルゴリズム[13]を提案しています。Suryantoらは,Yahoo! AnswerのようなコミュニティQAサイトに投稿された回答の信憑性の一観点として,回答内容の専門性を評価するアルゴリズム[14]を提案しています。Dongらはウェブページに記載された時間およびウェブページにリンクが張られた時間から対象ぺージの生成時期を推定し,ウェブページの鮮度を評価する手法[15]を提案しています。
こまかいことを考えずに,あらかじめ信憑性の高い情報と低い情報に関するデータを収集し,教師あり学習で信憑性の有無の分類器を構築するアプローチも多数行われています。例えば,CastilloらはTwitter上のツイート情報の信憑性判定アルゴリズム[16]を提案しています。自然言語処理では,言語的特徴量からテキストの嘘情報を判定するアルゴリズムが多数提案されています( 論文1[17], 論文2[18])。これらアルゴリズムの開発・評価の肝となるデータセットも開発されています。以下は,フェイクニュースの公開データセットの例です。
評価アルゴリズムを信憑性判断に有効活用するためには,アルゴリズムが対象としている情報の種類,および信憑性評価の観点を把握しておくことが重要です。
信憑性の判断支援システム
玉石混淆のウェブ情報の信憑性問題に対応するため,情報信憑性の評価アルゴリズムの開発が進められていますが,計算機による信憑性判定にも限界があります。それゆえ,信憑性判断の成否は最終的には人間側に委ねられることになります。そこで,最終的に人間がウェブ情報の信憑性判断を行うことを前提に,判断支援に焦点を絞ったシステムも提案されています。
Ennalsらが開発したDispute Finder[22]は,閲覧中のウェブページ中のセンテンスに対する反証がウェブ上に存在する場合,そのセンテンスをハイライトすることで疑わしいセンテンスに注意を促すシステムです。Suhらは,Wikipedia記事の信憑性判断を支援するために,Wikipedia上の記事の編集履歴を可視化するシステムWikiDashboard[23]を提案しています。Leongらは,疑わしいと思った知識に対して,証拠となるセンテンスを検索するためのシステム[24]を提案しています。Sunらは特定の2つのトピックを比較するために適切なウェブページを検索するシステムComparative Web Search[25]システムを提案しています。最後に手前味噌ですが,筆者はウェブ検索結果の信憑性判断支援を行うCowSearch[26]システムを提案しました。CowSearchは,信憑性判断の際に重要とされる指標に沿ってウェブ検索結果のスコアを可視化し,ユーザが重要視した信憑性評価軸に応じてウェブ検索結果を再ランキングするシステムです。
信憑性判断と認知バイアス
上で紹介したように,信憑性判断に有用と思われる情報を提示することで,人間による信憑性判断を支援するシステムの研究開発が進められています。この種の支援システムをユーザに有効活用してもらうには,意思決定における認知バイアスを考慮してシステムをデザインする必要があります。
認知バイアスとは直感的な思考によって生じる判断の歪みであり,ウェブ情報探索プロセスにおいても様々な認知バイアスが確認されています。例えば,Ieongらは特定のドメインに属しているウェブページなら信用できるとユーザが感じてしまうドメインバイアス[27]の存在を明らかにしています。Lindgaardらは,見た目が綺麗なウェブページを信用してしまう見た目バイアス[28]の存在を明らかにしています。また,Whiteらは検索トピックに対する事前信念と検索行動の関係について分析を行っており,ユーザが検索トピックに関して強い事前信念を持っている場合は,ウェブ検索・閲覧をして様々な情報を見たとしても,事前信念が修正されることは少ないことを明らかにしています(論文[29])。このような認知バイアスが発生してしまうと,上に記したような信憑性判断支援システムが提供されていたとしても,ユーザはそれを利用しない,あるいは自分の信念をネガティブな方向に補強するためにシステムを利用するということが起こりえます。
このような問題に対応するために,認知バイアスを抑制し,ウェブ情報の信憑性の精査行動を促進する情報インタラクションの研究が行われつつあります。例えば,Liaoらは,トピックに関する賛否について情報検索システムを用いて考えるタスクを行うときに,検索結果で表示される各文書の賛否を分類して提示するだけでは,検索者のトピックに対する先入観を解消するには至らず,逆にその先入観を強化する方向に働いてしまうことを明らかにしています。一方で,賛否の分類に加え,各情報の発信者の専門性を併せて提示すると,検索者は自身の先入観に反する情報にも目を向けるようになるということを実験的に明らかにしています(論文[30])。また,Yamamotoらはプライミング効果に着目して,ウェブ情報の信憑性に対する精査行動を促進する検索キーワード推薦手法「クエリプライミング[31]」を提案しています。
国際会議・コミュニティなど
フェイクニュースが社会問題となっていることもあり,今でこそウェブ情報の信憑性に注目が集まっていますが,ウェブ情報の信憑性については2000年代初頭から研究が行われています。
情報検索,データマイニングの分野では,ウェブ情報の信憑性の評価・ランキングアルゴリズムの研究,ウェブ情報の信憑性を判断支援するシステムについて研究が行われています。この分野の重要な国際会議としては以下が挙げられます(2018年11月現在アクセス可能なリンクを掲載しています):
- The Web Conference(旧 WWW conference)[32]
- ACM WSDM(ACM International Conference on Web Search and Data Mining[33]
- ACM SIGIR(ACM SIGIR Conference on Research and Development in Information Retrieval)[34]
- ACM CIKM(ACM Conference on Information and Knowledge Management)[35]
- ACM KDD(ACM SIGKDD Conference on Knowledge Discovery and Data Mining)[36]
自然言語処理の分野では,デマ情報の検出アルゴリズムの研究が盛んです。この分野の重要な国際会議としては以下が挙げられます(2018年11月現在アクセス可能なリンクを掲載しています):
- ACL(Annual Meetings for the Association for Computational Linguistics)[37]
- EMNLP(Empirical Methods in Natural Language Processing)[38]
HCI分野では,ウェブ情報の信憑性判断を支援するシステムや情報の設計に関する研究も行われていますが,ウェブ情報の信憑性判断にかかるユーザの態度・行動の理解に関する研究も多く行われているのが特徴です。この分野の重要な国際会議としては以下が挙げられます(2018年11月現在アクセス可能なリンクを掲載しています):
- ACM CHI(ACM SIGCHI Conference on Human Factors in Computing Systems)[39]
- ACM CSCW(ACM Conference on Computer-Supported Cooperative Work and Social Computing)[40]
またウェブが人間社会に与える影響を学際的に明らかにしようとする新しい研究分野であるウェブサイエンス[41]分野でも,ウェブ情報の信憑性に関する議論がなされています。この分野ならではの要素として,社会学的な視点からウェブ情報の信憑性を研究する事例が比較的多いことが挙げられます。この分野の重要な国際会議としては以下が挙げられます:
おわりに
本稿では,「ウェブ検索と信憑性」をテーマに関連する情報を紹介しました。ウェブから信憑性の高い情報を獲得するための効果的なアプローチを検討するには,アルゴリズム,システム設計,人間理解といった観点から複合的に考えることが重要です。本ブックマークが,ウェブから正確な情報を得るための情報環境を実現する一助になれば幸いです。
[1]https://academic.oup.com/poq/article/15/4/635/1923117
[2]http://www.comm.ucsb.edu/faculty/flanagin/CV/MetzgerFlanaginetal2003%28CY%29.pdf
[3]https://sites.ualberta.ca/~dmiall/Brazil/kapoun.html
[4]http://guides.lib.berkeley.edu/evaluating-resources
[5]https://dl.acm.org/citation.cfm?id=997097
[6]http://www.comm.ucsb.edu/faculty/flanagin/CV/MetzgerFlanaginandZwarun2003(C&E).pdf
[7]https://www.adobe.com/jp/news-room/news/201512/20151218_content_research.html
[8]https://link.springer.com/chapter/10.1007/978-3-540-74851-9_4
[9]https://dl.acm.org/citation.cfm?id=1281309
[10]https://dl.acm.org/citation.cfm?id=2488476
[11]https://dl.acm.org/citation.cfm?id=2777603
[12]https://dl.acm.org/citation.cfm?id=2897352
[13]https://dl.acm.org/citation.cfm?id=1242608&dl=ACM&coll=DL
[14]https://dl.acm.org/citation.cfm?id=1498820
[15]https://dl.acm.org/citation.cfm?id=1718490
[16]https://dl.acm.org/citation.cfm?id=1963500
[17]http://www.aclweb.org/anthology/W16-0802
[18]http://www.aclweb.org/anthology/P17-2067
[19]https://www.cs.ucsb.edu/~william/data/liar_dataset.zip ※要確認※
[20]https://github.com/compsocial/CREDBANK-data
[21]https://github.com/KaiDMML/FakeNewsNet
[22]https://dl.acm.org/citation.cfm?id=1772726
[23]https://dl.acm.org/citation.cfm?id=1357214
[24]https://dl.acm.org/citation.cfm?doid=2396761.2398415
[25]https://dl.acm.org/citation.cfm?id=1135846
[26]https://dl.acm.org/citation.cfm?id=1979126
[27]https://dl.acm.org/citation.cfm?id=2124345
[28]https://dl.acm.org/citation.cfm?id=1959023
[29]https://dl.acm.org/citation.cfm?id=2484053
[30]https://dl.acm.org/citation.cfm?id=2557240
[31]https://dl.acm.org/citation.cfm?id=3176377
[32]http://www.iw3c2.org/
[33]http://www.wsdm-conference.org/
[34]http://sigir.org/sigir2018/
[35]http://www.cikm2018.units.it
[36]https://www.kdd.org/kdd2018/
[37]https://acl2018.org
[38]http://emnlp2018.org
[39]https://chi2018.acm.org
[40]http://cscw.acm.org
[41]https://www.ai-gakkai.or.jp/my-bookmark_vol33-no2/
[42]http://cscw.acm.org