私のブックマーク
反実仮想機械学習(Counterfactual Machine Learning, CFML)
齋藤 優太(東京工業大学)
はじめに
機械学習の応用において,反実仮想(Counterfactual)─起こり得たけれども実際には起こらなかった状況─についての情報が得られるとうれしい場面が多くある.例えば,「今動いている推薦アルゴリズムを仮に別のアルゴリズムに変えたときにコンバージョン率はどれくらいになるだろうか?」や「あるユーザに仮にクーポンを与えた場合に離反率はどれくらい減少するだろうか?」などの実務現場でよくある問いに答えるためには,反実仮想についての情報を知る必要がある.
反実仮想機械学習(CFML)とは,因果効果を予測したり,過去に何らかの基準で収集された雑多なデータを使って仮想的な施策の性能を評価するなどの,反実仮想の推論を含むタスクを解くための技術の総称である.これにより例えば,オンライン実験(施策を本番環境に導入してその挙動を見るなど,正確だがハイリスクで実装コストが大きな評価方法)を行うことなく過去に集積されたデータのみを用いて,新たなアルゴリズムの性能を知ることが可能になる.すなわち,機械学習を活用した施策改善プロセスで発生する意思決定を手助けしたり,失敗を未然に防ぐことが期待される.
本稿では,一部の界隈で盛り上がりを見せているCFML の参入障壁を取り払うべく,最新の研究や重要資料を紹介する.
研究領域の分類と参考資料
ここでは,CFML の研究を大きく三つの領域に分けて説明し,それぞれについてサーベイする際に助けになるであろう資料や論文を簡単な説明とともに紹介する.なおこの分類は2020 年4 月執筆時点での筆者によるものであり,今後他の分野との関係性が明らかになり,新たに分類すべき研究領域が創出される可能性が十分あることに留意されたい.
Off-Policy Evaluation (OPE) / Off-Policy Learning (OPL)
Off-Policy Evaluation(OPE)の目的は,ある仮想的な介入方策(バンディット方策やpolicy とも呼ばれる)の性能をそれとは異なる方策が集めたログデータを使って評価することである.また,Off-Policy Learning(OPL)の目的は,そのログデータを使ってより良い介入方策を学習によって得ることである.例えば,OPE の技術はアルゴリズムに変更を加える際に,その変更がもたらす性能の変化を,オンライン実験を行う前に見積もることを可能にする.さらに,性能が良さそうなアルゴリズムやハイパーパラメータ,特徴量を選択する際に役立てることもできる.特にTech 企業がもつサービス環境においては,OPE/OPL の理論が仮定している重要な条件が保証されることが多く,主要な応用先として期待されている.
- バンディットと因果推論
CyberAgent, AI Lab 安井 翔太氏のCFML勉強会での発表資料.OPEのモチベーションや解くべき困難が、平易な例を用いて説明されている貴重な日本語資料である. - Tutorial on Real World Interactive Learning (ICML’17, KDD’18)
Microsoft ResearchのAlekh Agarwal氏とJohn Langford氏によるチュートリアル資料.OPEのモチベーションや一般的な定式化、基本的な手法が簡潔に説明されている.チュートリアルの様子はこちらの動画から確認することができる. - Off-policy evaluation -survey-・Off policy learning -survey-
Masatoshi Uehara氏による OPE/OPL分野のサーベイ資料.本稿では省いたOPE/OPLの最新の理論成果や残された研究課題がまとめられていることから、より進んだサーベイをする際に大いに参考になるだろう. - Doubly Robust Off-policy Evaluation with Shrinkage
ICML’19 Workshop on Real-world Sequential Decision Makingでの Microsoft ResearchのMiro Dudík氏による招待講演.講演のメインは、氏らの論文 Su et al. 2019に関する内容だが、前半の導入部分がOPEの定式化や基本的な推定量の良い導入になっている. - Tutorial on Counterfactual Evaluation and Learning (SIGIR’16)
CFMLの最重要人物の一人であるCornell大学のThorsten Joachims氏とMicrosoft ResearchのAdith Swaminathan氏によるSIGIR’16でのチュートリアルのページ.特に応用を意識した観点から、OPLの基本的な定式化がまとめられている. - Doubly robust policy evaluation and learning(Dudik et al. 2011)
ICML’11論文.因果推論におけるDoubly Robust推定量をOPE/OPLに応用しており、OPE/OPLの定式化をつかむのに適した文献である.亜種や強化学習への応用としては、Jiang & Li. 2015, Thomas & Brunskill. 2016, Agarwal et al. 2017, Farajtabar et al. 2018などがある. - Counterfactual risk minimization: Learning from logged bandit feedback(Swaminathan & Joachims. 2015)
ICML’15論文.過去に使っていた方策によって収集されたデータを使って新たな方策を学習する問題を定式化した.詳細は、論文や著者による講演動画を参照されたい.後続研究には、敵対的学習を用いたものAtan et al. 2018、Deep Learning を用いたものJoachims et al. 2018、介入空間が連続的な場合への拡張Kallus & Zhou. 2018, Demirer et al. 2019などが存在する.
Individual Treatment Effect (ITE) Prediction
ITE Prediction は,(分析者が操作可能な)何らかの介入変数が特定の未知サンプルの目的変数に対して有する個別的因果効果(ITE)を予測するための手法を研究する分野である.例えば,ある広告を見せるときと見せないときで,ユーザの商品購入確率がどれだけ変化するかを予測する問題は典型的な応用例の一つである.ここで問題となるのが,因果効果は観測不可能で目的変数として用いることができず(因果推論の根本問題),教師あり学習をそのまま適用することが不可能だということである.このような状況下で,ITE についてのより良い汎化誤差を達成するアルゴリズムを開発することが主たる興味である.
- Estimating individual treatment effect: Generalization bounds and algorithms(Shalit et al. 2017)
ICML’17論文.介入・統制群が判別できないような特徴表現を得た上で潜在的目的変数を予測することで、個別的因果効果の汎化誤差の上界を最小化する.後続研究としては、Yao et al. 2018やDu et al. 2019で予測精度が追求されている.またJohansson et al. 2020では、これらの表現学習に基づいたITE予測手法のサーベイと理論解析がまとめられている. - Bayesian inference of individualized treatment effects using multi-task Gaussian processes(Alaa & Van der Schaar. 2017)
NeurIPS’17論文.Multi-task Gaussian processをITE予測問題に応用することで、IHDPというベンチマークデータセットにおいて高い予測精度を達成している. 同じくGaussian processを応用した研究に同じ研究グループによるAlaa & Van der Schaar. 2018がある. - GANITE: Estimation of individualized treatment effects using generative adversarial nets(Yoon et al. 2018)
ICLR’18 論文.GAN を,個別的因果効果予測に応用している.詳細は,論文や筆者によるblog 記事を参照されたい. - Representation Learning for Causal Inference(AAAI’20)
ITE prediction に関連する2020 年4 月執筆時点における最新のチュートリアル.近年の,予測精度を追求する目的で発展したITE 予測手法が網羅的に説明されている.チュートリアルの主催者らによるサーベイ論文(Yao et al. 2020)も,この分野を俯瞰する際に役立つだろう.またICML’19 で開催されたチュートリアルであるCausal Inference and Stable Learningは,(少しマニアックな話題を含むが)発展的な学習の助けになるだろう.
その他,深層学習を用いて予測精度を追求する研究にLouizos et al. 2017,Alaa et al. 2017,Schwab et al. 2018,Shi et al. 2019 などがある.また,ITE 予測モデルの性能を観測可能なデータのみから評価するための指標を開発する研究として,Alaa and Van der Schaar. 2019 やSaito and Yasui. 2020 がある.
なおここでは,読者のほとんどが機械学習をバックグラウンドにもっていることを想定して,汎化誤差の最小化で定式化されている論文を紹介した.一方で,この領域には,計量経済学の手法に機械学習を応用するという発展の仕方をしているものも存在する.中でも代表的なものにDouble machine learning(Chernozhukov et al. 2018)とGeneralized random forests(Athey et al. 2018)がある.前者は,セミパラメトリックモデルにおける局外パラメータの推定に機械学習を用いている.後者は,局所一般化モーメント法における推定方程式の重み関数の計算にRandom forest を応用している.それぞれについて,矢田紘平氏による雑誌『経済セミナー』での記事,片桐智志氏のblog 記事が理解の助けになるだろう.
Unbiased Recommender Learning / Unbiased Learning-to-Rank
推薦・検索システムで蓄積されるログデータは,私達が本来取り出したい情報とは異なるものになっていることがほとんどである.これは,データの観測過程が,過去に使っていたアルゴリズムや分析者にコントロール不可能なユーザによる意思決定の影響を受けることに起因する.このいわゆるバイアスの影響を無視してしまうと,単に人気なアイテムが推薦されるモデルが学習され,パーソナライズに失敗するなどの厄介な問題が発生する.Unbiased recommender learning / Unbiased learning-to-rank の目的は,推薦・検索ログデータに潜むバイアスの影響を除去するための手法を開発することである.これはOPE/OPL のモチベーションと基本的に一致するが,情報検索の分野で問題意識とされてきたユーザ由来のバイアスに対処することが求められる点が独特である.モチベーションが実務課題に即したものであり,理論的な精緻さよりも,未解決の問題を発掘して定式化し,それをシンプルな方法で解くという類の貢献が重視されているように感じる.また同じ理由で,Google,Netflix,Spotify,Criteoなどの推薦や検索をサービスの重要な構成要素としてもつ企業が精力的に研究を進めている分野でもある.
- Unbiased learning for interactive systems
筆者によるUnbiased Recommender Learning / Unbiased Learning-to-Rank 分野の総まとめ資料.2020 年4月執筆時点までの最新の内容を含む網羅的なサーベイ資料である(本記事公開後も資料のアップデートを継続する予定である). - Unbiased learning to rank: Theory and practice(CIKM’18, ICTIR’18)
Qingyao Ai 氏らによるUnbiased learning-to-rank に関連する話題に特化した貴重なチュートリアル資料.導入として主要なクリック生成モデル(click models)の説明が一通り押さえられている点が秀逸であり,この分野に詳しくない状態でも雰囲気をつかむことができる構成になっている. - Learning to rank in theory and practice(SIGIR’19, TheWebConf’20)
Unbiased leanring-to-rank に関連する2020 年4 月執筆時点における最新のチュートリアル.特に,過去に蓄積されたデータをバイアスを取り除くことで活用するローリスクなunbiased learning-to-rank と正確なデータを一から集めつつ学習を行うハイリスクなonline learning の比較についての詳しい議論がなされている(Part3).詳細な内容は,SIGIR’19 論文Jagerman et al. 2019から確認できる. - Recent trends in personalization: A Netflix perspective
ICML’19 Workshop on Adaptive and Multitask Learning: Algorithms & Systems(ATML’19)でのNetflix Research のJustin Basilico 氏によるInvited Talk.講演の中盤付近で推薦システムにおけるバイアス除去やバンディット・強化学習の活用に関する話題が触れられている.バイアス除去に限らない推薦システム周りのトレンドが網羅された講演になっており,興味がある方は,全体を通して見てみると良いだろう. - Unbiased learning-to-rank with biased feedback(Joachims et al. 2017)
WSDM’17 のベストペーパ.クリックログを用いてランキング学習を行う際に発生するバイアスを除去する方法を提案.手法はとても単純だが,クリック生成モデルの研究とランキング学習の橋渡しをしたという重要な貢献をしている.後続研究には,Wang et al. 2018,Ai et al. 2018,Agarwal et al. 2019a,Agarwal et al. 2019b,Hu et al. 2019などがあり,主にクリック生成モデルの精緻化・バイアスの推定精度向上・pairwise 損失関数への拡張などが議論されている. - Recommendations as treatments(Schnabel et al. 2016)
ICML’16 論文.star ratings などのexplicit feedback が観測される確率が完全にランダムではない場合に発生するバイアスを傾向スコアの考え方を使って除去することを提案している論文.後続研究には,Bonner & Vasile. 2018,Wang et al. 2019,Saito. 2019,Saito. 2020などがあり,主に逆重み付けに起因する分散の問題や傾向スコア推定バイアスの問題などが議論されている. - Unbiased recommender learning from missing-not-at-random implicit feedback(Saito et al. 2020)
WSDM’20 論文.Implicit feedback を使ってpointwise 推薦モデルを学習する際に発生するバイアスの特徴付けとそれを除去する方法を提案している.関連研究のYang et al. 2018では,implicit feedback を用いた推薦モデルの評価の問題が扱われている.
また,三つの研究領域を横断した解説資料としては,次のようなものがある.
- CS7792- Counterfactual Machine Learning(Fall 2018)
Thorsten Joachims 氏によるCornell 大学での講義ページ.ページ下部のReference Material がサーベイの際に非常に有用である.ただし,現在のページは2018 年時点のものであり,最新の研究成果が含まれていないことには注意が必要である(今後最新の内容にアップデートされる可能性がある). - Awesome-causality-algorithms
Ruocheng Guo 氏による,広い意味でのCFML の論文や実装が網羅的にまとめられているリポジトリ.本記事を執筆するうえでも大いに参考にしている. - Counterfactual Inference(NeurIPS’18)slide, video
Susan Athey 氏によるNeurIPS’18 でのチュートリアル.OPE/OPL 系やITE Prediction 系の手法が,計量経済学的な視点をもとにまとめられている.
国際会議
CFML に関連する論文が発表される主要な場を本会議とワークショップに分けて紹介する.
本会議
主に機械学習・人工知能系の会議では,OPE/OPL やITE Prediction 系の理論寄りの論文が,データマイニング・情報検索系の会議では,OPE/OPL を実システムに実装した事例を報告する論文やUnbiased recommender learning /Unbiased learning-to-rank に関する論文が発表される傾向にある.以下にあげる会議以外でもCFML の論文を見掛けることがあるが,まばらである.
機械学習・人工知能系
- Neural Information Processing System(NeurIPS)
- International Conference on Machine Learning(ICML)
- AAAI Conference on Artificial Intelligence(AAAI)
- International Conference on Artificial Intelligence and Statistics(AISTATS)
- International Conference on Learning Representations(ICLR)
データマイニング・情報検索系
- ACM SIGKDD Conference on Knowledge Discovery and Data Mining(KDD)
- International Conference on Web Search and Data Mining(WSDM)
- ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR)
- The Web Conference(TheWebConf)
- ACM Recommender Systems Conference(RecSys)
ワークショップ
いくつかの国際会議では定常的にCFML に関連するワークショップが開催されるようになっている.この分野を専門とする世界の研究者と定期的に顔を合わせることができたり,1 年以内に主要国際会議の本会議で発表されるような内容が散見されることもあり,情報収集のための非常に便利な場になっている.中でも主要なものを以下に紹介する.
- ICML / IJCAI / AAMAS ’18 Workshop on Machine Learning for Causal Inference, Counterfactual Prediction, and Autonomous Action(Causalml)
- NeurIPS’19 Workshop on Causal Machine Learning
- NeurIPS’18 Workshop on Causal Learning
- NeurIPS’17 Workshop on Causal Inference and Machine Learning for Intelligent Decision Making
- NeurIPS’16 Workshop on Inference and Learning of Hypothetical and Counterfactual Interventions in Complex Systems
- RecSys’20 Workshop on Bandit and Reinforcement Learning from User Interactions(REVEAL’20)
- RecSys’19 Workshop on Reinforcement and Robust Estimators for Recommendation(REVEAL’19)
- RecSys’18 Workshop on Offline evaluation for recommender systems(REVEAL’18)
- KDD Cup 2020 Challenges for Modern E-commerce Platform
- ICLR’20 Workshop on Causal learning for decision making
その他にも強化学習系やヘルスケア系のワークショップで,OPE/OPL もしくはITE Prediction 系の論文が発表されることがあるため,チェックしてみると良いだろう.
ライブラリ
海外企業の研究所が,CFML に関連するライブラリを開発している.そのうち主要なものを紹介する.
- EconML
名前のとおり計量経済学に機械学習を応用する形(例えば,部分線形モデルなどのセミパラメトリックモデルにおける局外パラメータの機械学習による推定など)で構築された手法を中心に,個別的因果効果推定のための手法が多く実装されている.Microsoft Resaerch のALICE projectのメンバが中心となり,比較的活発に開発されている.詳細な説明は,開発者らによるWorkshop 論文(Oprescu et al. 2019)やドキュメントを参照されたい. - CausalML
Uber に所属する研究者が中心となり開発されている.こちらは,機械学習を使ってITE の予測精度を追求するという理念に基づいているため,機械学習寄りの人はEconML よりも扱いやすいだろう.既存の機械学習モデルをそのまま用いるmeta-learners と,決定木のsplit criterion を修正することにより因果推論を行うuplit trees が主に実装されている.EconML よりもTech 企業での応用が意識されており,因果推論モデル学習後に介入戦略を立てる際に役立つ描画のための関数や,特徴量選択のための関数なども豊富に実装されている.詳細な説明は,開発者らによる論文(Chen et al. 2020)やドキュメントを参照されたい.
その他CFML の範疇からは外れるが,DoWhyのような統計的因果推論の手順に自覚的になるための学習に有用なツールも存在する.
CFMLの活用事例
CFML が実際の課題解決に用いられた事例に興味がある実践者の方も多いだろう.ここでは主に海外Tech企業によるCFMLの活用事例を講演動画や論文などの参考資料とともに紹介する.
- Artwork personalization at Netflix
Contextual bandit(文脈付きバンディット)の有名な応用事例の一つ.この事例の中で行われている,バンディット方策の事前オフライン評価にOPE の技術(Li et al. 2011)が使われている.詳細はblog postやRecSys’18 のIndustry Sessionでの講演動画を参照されたい. - Reinforcement Learning for Recommender Systems: A Case Study on YouTube
YouTube の動画推薦において,ユーザの状態遷移モデルを学習しつつ長期的な視聴時間の期待値を最大化するために強化学習のOPL を導入した事例報告.バイアスを除去したオフライン学習方法の導入により,オンライン実験で視聴時間の増加や推薦されるアイテム数の増加(popularity bias の排除)が確認された.詳細は,対応する論文(Chen et al. 2019)やWSDM’19 のIndustry Day での講演動画が参考になる. - Improve User Retention with Causal Learning(Du et al. 2019)
KDD’19 Workshop on Causal Discoveryで発表されたUber による論文.リテンション(サービス離反を防ぐこと)を促すためのクーポンによるプロモーションの因果効果推定およびそれに基づいた介入施策の最適化手法が提案されている.Conclusion では,この手法が本番環境に実際に導入されていることが述べられている(arXiv には,より新しいバージョンの論文(Zou et al. 2020)が公開されており,詳細はこちらを参照するとよいだろう).
上記のほかにもUnbiased Learning-to-Rank がバイアスを考慮していないベースライン手法を上回った例として,Google Drive の検索枠におけるCTR 改善(Agarwal et al. 2019), Jinri Toutiao という中国のサービスのニュース推薦におけるCTR 改善(Hu et al. 2019),TripAdvisor のホテル検索枠におけるCTR 改善(Li. 2020)などが,オンライン実験の結果とともに報告されている.
また,本号の特集「人工知能と社会的意思決定」中の『すべての機械学習はA/B テストである』(pp. 517-525)では,筆者らが大規模ファッションE-commerce サイトであるZOZOTOWN の推薦枠を利用して行ったOPEの事例が掲載されており,CFML の実応用を考えている方はそちらも参照されたい.加えて,CFML 勉強会の一つの主要なトピックとして,国内企業のCFML の実装・実証事例報告がなされることがあるため,興味がある方は足を運んでみるとよいだろう.
おわりに
本記事では,CFML の導入資料や代表的な研究,活用事例について紹介した.なお,この研究分野はいまだ発展途上にあり,本記事の内容は2020 年4 月執筆時点における情報であること,機械学習をバックグラウンドとしてもつ人がCFML に参入する際に読むべき資料を意識して執筆したことにご留意願いたい.
最後に,CFML を正しく活用することで,理想的には機械学習を用いた施策改善プロセスにおいて,より正確な意思決定をローリスクに下すことができるようになる.しかし,その実証・実践例はいまだ十分ではない.研究をさらに盛り上げたり実務現場で活用するうえでの知見を得るためにも,企業に実在する実務課題に根ざした実証研究を蓄積する必要がある.実証研究を行ううえで難しいのは,CFMLの研究論文の多くがとてもシンプルな定式化や仮定,データ生成モデルに基づいており,手法をそのまま各実務設定に応用することはできないという点である.実際は,それぞれの実務現場に固有の条件や取られているログデータに基づき既存の手法を修正する,あるいは新たな手法をつくる必要が出てくる.すなわち,CFMLの実証・実践のためには,数少ない専門家と実務課題を抱える企業とが密に連携することが必要不可欠なのである.本記事がCFMLの社会実装に向けた研究や産学連携促進の一助となれば幸いである.
謝辞
本記事を執筆するにあたり貴重なご助言をしてくださった,安井翔太さん(サイバーエージェント AI Lab)にお礼申し上げます.また,一学部学生に本稿執筆の貴重な機会を与えてくださった本誌編集委員会に心より感謝申し上げます.