【記事更新】私のブックマーク「反実仮想機械学習」(Counterfactual Machine Learning, CFML)


私のブックマーク

反実仮想機械学習(Counterfactual Machine Learning, CFML)

齋藤 優太(東京工業大学)

はじめに

機械学習の応用において,反実仮想(Counterfactual)─起こり得たけれども実際には起こらなかった状況─についての情報が得られるとうれしい場面が多くある.例えば,「今動いている推薦アルゴリズムを仮に別のアルゴリズムに変えたときにコンバージョン率はどれくらいになるだろうか?」や「あるユーザに仮にクーポンを与えた場合に離反率はどれくらい減少するだろうか?」などの実務現場でよくある問いに答えるためには,反実仮想についての情報を知る必要がある.

反実仮想機械学習(CFML)とは,因果効果を予測したり,過去に何らかの基準で収集された雑多なデータを使って仮想的な施策の性能を評価するなどの,反実仮想の推論を含むタスクを解くための技術の総称である.これにより例えば,オンライン実験(施策を本番環境に導入してその挙動を見るなど,正確だがハイリスクで実装コストが大きな評価方法)を行うことなく過去に集積されたデータのみを用いて,新たなアルゴリズムの性能を知ることが可能になる.すなわち,機械学習を活用した施策改善プロセスで発生する意思決定を手助けしたり,失敗を未然に防ぐことが期待される.

本稿では,一部の界隈で盛り上がりを見せているCFML の参入障壁を取り払うべく,最新の研究や重要資料を紹介する.

研究領域の分類と参考資料

ここでは,CFML の研究を大きく三つの領域に分けて説明し,それぞれについてサーベイする際に助けになるであろう資料や論文を簡単な説明とともに紹介する.なおこの分類は2020 年4 月執筆時点での筆者によるものであり,今後他の分野との関係性が明らかになり,新たに分類すべき研究領域が創出される可能性が十分あることに留意されたい.

Off-Policy Evaluation (OPE) / Off-Policy Learning (OPL)

Off-Policy Evaluation(OPE)の目的は,ある仮想的な介入方策(バンディット方策やpolicy とも呼ばれる)の性能をそれとは異なる方策が集めたログデータを使って評価することである.また,Off-Policy Learning(OPL)の目的は,そのログデータを使ってより良い介入方策を学習によって得ることである.例えば,OPE の技術はアルゴリズムに変更を加える際に,その変更がもたらす性能の変化を,オンライン実験を行う前に見積もることを可能にする.さらに,性能が良さそうなアルゴリズムやハイパーパラメータ,特徴量を選択する際に役立てることもできる.特にTech 企業がもつサービス環境においては,OPE/OPL の理論が仮定している重要な条件が保証されることが多く,主要な応用先として期待されている.

Individual Treatment Effect (ITE) Prediction

ITE Prediction は,(分析者が操作可能な)何らかの介入変数が特定の未知サンプルの目的変数に対して有する個別的因果効果(ITE)を予測するための手法を研究する分野である.例えば,ある広告を見せるときと見せないときで,ユーザの商品購入確率がどれだけ変化するかを予測する問題は典型的な応用例の一つである.ここで問題となるのが,因果効果は観測不可能で目的変数として用いることができず(因果推論の根本問題),教師あり学習をそのまま適用することが不可能だということである.このような状況下で,ITE についてのより良い汎化誤差を達成するアルゴリズムを開発することが主たる興味である.

その他,深層学習を用いて予測精度を追求する研究にLouizos et al. 2017Alaa et al. 2017Schwab et al. 2018Shi et al. 2019 などがある.また,ITE 予測モデルの性能を観測可能なデータのみから評価するための指標を開発する研究として,Alaa and Van der Schaar. 2019Saito and Yasui. 2020 がある.

なおここでは,読者のほとんどが機械学習をバックグラウンドにもっていることを想定して,汎化誤差の最小化で定式化されている論文を紹介した.一方で,この領域には,計量経済学の手法に機械学習を応用するという発展の仕方をしているものも存在する.中でも代表的なものにDouble machine learning(Chernozhukov et al. 2018)Generalized random forests(Athey et al. 2018)がある.前者は,セミパラメトリックモデルにおける局外パラメータの推定に機械学習を用いている.後者は,局所一般化モーメント法における推定方程式の重み関数の計算にRandom forest を応用している.それぞれについて,矢田紘平氏による雑誌『経済セミナー』での記事片桐智志氏のblog 記事が理解の助けになるだろう.

Unbiased Recommender Learning / Unbiased Learning-to-Rank

推薦・検索システムで蓄積されるログデータは,私達が本来取り出したい情報とは異なるものになっていることがほとんどである.これは,データの観測過程が,過去に使っていたアルゴリズムや分析者にコントロール不可能なユーザによる意思決定の影響を受けることに起因する.このいわゆるバイアスの影響を無視してしまうと,単に人気なアイテムが推薦されるモデルが学習され,パーソナライズに失敗するなどの厄介な問題が発生する.Unbiased recommender learning / Unbiased learning-to-rank の目的は,推薦・検索ログデータに潜むバイアスの影響を除去するための手法を開発することである.これはOPE/OPL のモチベーションと基本的に一致するが,情報検索の分野で問題意識とされてきたユーザ由来のバイアスに対処することが求められる点が独特である.モチベーションが実務課題に即したものであり,理論的な精緻さよりも,未解決の問題を発掘して定式化し,それをシンプルな方法で解くという類の貢献が重視されているように感じる.また同じ理由で,GoogleNetflixSpotifyCriteoなどの推薦や検索をサービスの重要な構成要素としてもつ企業が精力的に研究を進めている分野でもある.

また,三つの研究領域を横断した解説資料としては,次のようなものがある.

国際会議

CFML に関連する論文が発表される主要な場を本会議とワークショップに分けて紹介する.

本会議

主に機械学習・人工知能系の会議では,OPE/OPL やITE Prediction 系の理論寄りの論文が,データマイニング・情報検索系の会議では,OPE/OPL を実システムに実装した事例を報告する論文やUnbiased recommender learning /Unbiased learning-to-rank に関する論文が発表される傾向にある.以下にあげる会議以外でもCFML の論文を見掛けることがあるが,まばらである.

機械学習・人工知能系
データマイニング・情報検索系
ワークショップ

いくつかの国際会議では定常的にCFML に関連するワークショップが開催されるようになっている.この分野を専門とする世界の研究者と定期的に顔を合わせることができたり,1 年以内に主要国際会議の本会議で発表されるような内容が散見されることもあり,情報収集のための非常に便利な場になっている.中でも主要なものを以下に紹介する.

その他にも強化学習系やヘルスケア系のワークショップで,OPE/OPL もしくはITE Prediction 系の論文が発表されることがあるため,チェックしてみると良いだろう.

ライブラリ

海外企業の研究所が,CFML に関連するライブラリを開発している.そのうち主要なものを紹介する.

  • EconML
     名前のとおり計量経済学に機械学習を応用する形(例えば,部分線形モデルなどのセミパラメトリックモデルにおける局外パラメータの機械学習による推定など)で構築された手法を中心に,個別的因果効果推定のための手法が多く実装されている.Microsoft Resaerch のALICE projectのメンバが中心となり,比較的活発に開発されている.詳細な説明は,開発者らによるWorkshop 論文(Oprescu et al. 2019)やドキュメントを参照されたい.
  • CausalML
     Uber に所属する研究者が中心となり開発されている.こちらは,機械学習を使ってITE の予測精度を追求するという理念に基づいているため,機械学習寄りの人はEconML よりも扱いやすいだろう.既存の機械学習モデルをそのまま用いるmeta-learners と,決定木のsplit criterion を修正することにより因果推論を行うuplit trees が主に実装されている.EconML よりもTech 企業での応用が意識されており,因果推論モデル学習後に介入戦略を立てる際に役立つ描画のための関数や,特徴量選択のための関数なども豊富に実装されている.詳細な説明は,開発者らによる論文(Chen et al. 2020)やドキュメントを参照されたい.

その他CFML の範疇からは外れるが,DoWhyのような統計的因果推論の手順に自覚的になるための学習に有用なツールも存在する.

CFMLの活用事例

CFML が実際の課題解決に用いられた事例に興味がある実践者の方も多いだろう.ここでは主に海外Tech企業によるCFMLの活用事例を講演動画や論文などの参考資料とともに紹介する.

上記のほかにもUnbiased Learning-to-Rank がバイアスを考慮していないベースライン手法を上回った例として,Google Drive の検索枠におけるCTR 改善(Agarwal et al. 2019), Jinri Toutiao という中国のサービスのニュース推薦におけるCTR 改善(Hu et al. 2019),TripAdvisor のホテル検索枠におけるCTR 改善(Li. 2020)などが,オンライン実験の結果とともに報告されている.

また,本号の特集「人工知能と社会的意思決定」中の『すべての機械学習はA/B テストである』(pp. 517-525)では,筆者らが大規模ファッションE-commerce サイトであるZOZOTOWN の推薦枠を利用して行ったOPEの事例が掲載されており,CFML の実応用を考えている方はそちらも参照されたい.加えて,CFML 勉強会の一つの主要なトピックとして,国内企業のCFML の実装・実証事例報告がなされることがあるため,興味がある方は足を運んでみるとよいだろう.

おわりに

本記事では,CFML の導入資料や代表的な研究,活用事例について紹介した.なお,この研究分野はいまだ発展途上にあり,本記事の内容は2020 年4 月執筆時点における情報であること,機械学習をバックグラウンドとしてもつ人がCFML に参入する際に読むべき資料を意識して執筆したことにご留意願いたい.

最後に,CFML を正しく活用することで,理想的には機械学習を用いた施策改善プロセスにおいて,より正確な意思決定をローリスクに下すことができるようになる.しかし,その実証・実践例はいまだ十分ではない.研究をさらに盛り上げたり実務現場で活用するうえでの知見を得るためにも,企業に実在する実務課題に根ざした実証研究を蓄積する必要がある.実証研究を行ううえで難しいのは,CFMLの研究論文の多くがとてもシンプルな定式化や仮定,データ生成モデルに基づいており,手法をそのまま各実務設定に応用することはできないという点である.実際は,それぞれの実務現場に固有の条件や取られているログデータに基づき既存の手法を修正する,あるいは新たな手法をつくる必要が出てくる.すなわち,CFMLの実証・実践のためには,数少ない専門家と実務課題を抱える企業とが密に連携することが必要不可欠なのである.本記事がCFMLの社会実装に向けた研究や産学連携促進の一助となれば幸いである.

謝辞

本記事を執筆するにあたり貴重なご助言をしてくださった,安井翔太さん(サイバーエージェント AI Lab)にお礼申し上げます.また,一学部学生に本稿執筆の貴重な機会を与えてくださった本誌編集委員会に心より感謝申し上げます.