私のブックマーク
AIアライメント
有路 翔太(コネクシオ株式会社,Xアカウント:@bioshok3)
1.はじめに
2023年は OpenAIのリリースした大規模言語モデルである,GPT-4やそれに基づくチャットボット ChatGPTを皮切りに,汎用的なAIシステムのもたらす潜在的なメリットが取り上げられる一方で,それがもたらす深刻なリスクについても注目が集まりました.
AIシステムのもたらすリスクには,公平性やバイアスの問題,自動運転の安全性など広範な問題が含まれますが,その中でも,特にAIアライメント問題(AI Alignment Problem)の重要性が近年高まっています.これは,AIシステムが,意図しない望ましくない目標ではなく,人間の価値観や関心に合った目標を追求するようにするという問題です.
例えば,2023年3月22日に Future of Life InstituteはGPT-4より強力なAIシステムの学習の6か月の停止を求める公開書簡を提出し,11月にはイギリスのAI Safety Summitにて 28か国(アメリカ,中国含む)と EUが AIが重大なリスクをもたらすことにブレッチリー宣言として同意しています.
背景として,近年のAIの性能向上の研究進捗と比較して,AIアライメント問題に対処するための投資も研究者数も不十分であることが指摘されています.また,AIアライメント問題には未解決の問題が多く知られ,その解決は相当難しい可能性も示唆されている状況から,上記の国際的な動きが活発になっている状況です.
特に最も極端なリスクとして,世界規模で重大な被害をもたらす壊滅的なリスクや存亡リスクがあげられ,それらが高度なAIによって引き起こされることが懸念されています.もともとは20世紀から存在しているトランスヒューマニズム運動が挫折する可能性として,2002年に存亡リスクという言葉が定義され,網羅的に分析されていました.
現在では,例えば効果的利他主義系のコミュニティは,AIによる人類存亡リスクが気候変動,人工的なパンデミック,核戦争と比較して不確実性は高いものの大きいと推定しています.また,2023年の機械学習の専門家を対象にしたアンケート調査では,高度なAIが人類の絶滅につながる可能性を尋ねた質問の回答者中央値は5%となっています.
人によっては,AIによる存亡リスクはほとんどあり得ないという意見もあれば,ほぼ確実に起こるという主張まであります.このように不確実性が高い状況となっていますが,今後数十年,早ければ10年以内に深刻な被害を社会にもたらし得る高度なAIが開発される可能性があるため,AIガバナンスやAIアライメント研究分野に早期に注力する必要があると国際的に考えられるようになりつつあります.
このように,国際的に高度なAIのもたらす深刻なリスク(人類の絶滅も含むリスク)の議論が活発化する中で,日本国内においても今後AIアライメント研究やAIによる存亡リスクについての議論を深刻に捉え返す必要性が出てくるかもしれません.
そこで,本記事ではAIのもたらす深刻なリスクに関する議論の背景とAIアライメント研究やその歴史を調査するのに役立つ資料を紹介します.今後のAIアライメント研究やAIガバナンスの議論の理解の参考になれば幸いです.
なお,筆者は技術のトレンドを予想することに関心をもち,主にAIトレンドの発信をしてきました.2024年1月には,AIのもたらす深刻なリスクに関する議論をまとめていますので,そちらもご覧ください.
2.AIアライメントとは何か
2・1 「AIアライメント」「AI Safety」用語の発祥
AIアライメントという用語自体は,Eliezer Yudkowskyが2001年に提唱したFriendly AIという言葉の代わりに,StuartRusselから提案されたものです.これは,2014年にMIRI(Machine Intelligence ResearchInstitute)の論文で言及されています.Eliezer Yudkowskyは「AIアライメント」の研究分野への文化的な流れを形づくった人物です.2000年にAIシステムの安全性と信頼性を高めることを目的とした非営利研究機関 MIRIを創設しました.
似たような研究領域として AI Safetyという分野もあります.AI Safetyという言葉は通常 AIアライメントという言葉よりも広い意味で使われており,AIシステムの予期せぬ動作や悪用といった問題から,AIシステムのもたらす差別,偏見,誤った情報,プライバシー侵害,民主的制度に対する脅威など,道徳的,政治的,社会的,経済的な幅広い種類のリスクを扱っており,AI倫理やAI政策も含める場合もあります.
実際にイギリスの AI Safety Instituteの定義では,AI Safetyを「AIのもたらす危害の理解,予防,軽減をすること.これらの被害は意図的であるか偶発的であるか,個人,集団,組織,国家,またはグローバルに対して生じる可能性があり,物理的,心理的,社会的,経済的な被害を含む多くのタイプがある」と広範なリスクを包括するように定義しています.
一方でAI Safetyという用語がプライバシーや公平性といった問題とは別に,意図しない有害な動作としての「事故」にフォーカスを当て,AIアライメント分野の扱っている領域と比較的近い意味として狭く使用される場合もあります.
もともとは,2010年に AI Safetyという言葉は,元 Singularity Institute for Artificial Intelligence(現MIRI)の客員研究員の Roman YampolskiyによりつくられたAI Safety Engineeringの略称として定義されました.AI Safety Engineering(AI Safety)という分野は,Machine Ethicsと呼ばれる機械が倫理的な決定をしたり,その権利を考える分野への批判的な考察の結果生まれています.定義された当初は,AI Safety研究の共通のテーマは,超知的なエージェントを密閉されたハードウェアに留め,人類に害を与えないようにすることだったようですが,時が経つにつれて広範な意味をもっていったといえるでしょう.
2・2 AIアライメントという用語のスコープ
このように,AI Safety分野が比較的広い AIのもたらすリスクに関連する分野全体を指す一方で,AIアライメント分野はMachine Learning(ML)Safety,AI Safety分野の一部を指す,もう少し狭い意味で使われています.具体的には,機械学習システムの堅牢性を確保し能力を向上させる研究(例えば自動運転の安全性)や敵対的な MLシステムへのハッキングや悪用を防ぐ研究,AIシステムをモニタリングする研究とは区別される場合があります.
実際に,AIアライメントという単語の狭義の意味では「Aが Hにアライメントされている」とは「Hが望んでいることを Aがやろうとしていること」と定義され,AIシステムのもつ目標を人間の意図した目標と整合させる研究と AIシステムのもつ能力自体を向上させる研究を区別してリサーチ全体を体系化する説明もあります.補足として,特にこのように狭義の意味でアライメントを用語として指し示したい場合は Intent Alignmentという用語が使われる場合があります.
つまり,AIアライメント研究は AIシステムのもつ「能力」とそのシステムがもつ「目標」を暫定的に区別し,AIシステムが追求しようとする目標を人間の意図した目標と整合させることを特に志向する研究分野といえるでしょう.
しかし,この AIアライメントの狭義の定義ではどのような価値や目標を実装するのが望ましいのか? といった倫理の問題が除外されており,意味的に含めたほうが自然なのではないかとする議論もあります.実際に,AIアライメントを人間の価値観に言及して定義する場合も多々あります(こちらの Alternative definitions 参照).
また,どのような価値観を選定するかという観点とアライメントの技術的な問題は分離できないとの指摘や,集団における価値とは何かも含めて技術的なアライメント研究に含める必要性が議論される場合もあります.
つまり,AIアライメントという単語で指し示すスコープは人によって異なっている状況です.まだ,分野自体が若く,AIアライメントという言葉の定義だけでなく,AIの目標をどのように人間の意図した目標に整合させるかも不明瞭な現状は,17世紀の物理学がエネルギーという重要な概念を曖昧にしたまま研究を進めていた状況と似ているともいえるでしょう.
現状では,体系的な AI アライメント研究分野の見取り図は確立されておらず,散発的に理論的・実験的アイディアがそれぞれ並行してプロジェクトとして動いている状態だと考えられます.
3.AIアライメント研究
前章で説明したように現状では,体系的な AIアライメント研究分野の見取り図は確立されておらず,散発的に理論的・実験的アイディアがそれぞれ並行してプロジェクトとして動いている状態だと考えられます.
よってここではおおざっぱに AIアライメント研究分野を実証的,理論的,概念的研究に分類して紹介したいと思います.この分類法は下記の記事を参考にしました.
3・1 AIアライメントの実証的な研究
ここで AIアライメントの実証的な研究というカテゴリーで,現在の AIシステムでアライメント研究を実用的に行おうとしている研究を指したいと思います.現状の AIシステムの延長線上のシステムを Alignすることを Prosaic AI Alignmentとも呼び,主にそれに該当する領域です.
主に報酬の設計ミスによる Specification Gamingに対処する研究(Outer Alignmentに関する研究)と新しい環境下で思ったように汎化しない Goal Misgeneralizationに対処するための研究(Inner Alignmentに関する研究)で分けられます.
§1 Specification Gamingへの対処
Specification Gamingを防ぐよく知られた手法は,ヒューマンフィードバックからの強化学習(RLHF)やInverse Reinforcement Learning(逆強化学習)と呼ばれるものがあります.
しかし,これらは人間のバイアスや盲点を利用してより高い報酬を得る政策を強化する可能性もあるでしょう.
この問題に対処する有望なアプローチはスケーラブルな監視です.これは AIを活用して評価が難しい領域まで人間の監視を拡大することで,Alingnedされた AIシステムをトレーニングするための手法です.スケーラブルな監視には反復蒸留増幅法(IDA)と議論(debate)と呼ばれる手法が知られています.
§2 Goal Misgeneralizationへの対処
Goal Misgeneralizationは未解決の問題ですが,より多様なトレーニングデータを与えること,複数の AIモデルをアンサンブルして異なる結果の場合は警戒する,帰納的バイアスと一般化の理解,機械論的解釈可能性を進めるなどの研究の方向性が考えられています.
ここで機械論的解釈可能性(Mechanistic Interpretability)とは,個々のニューロンのレベルでネットワークを理解することを目的とした研究分野です.ニューロンを理解すると,ニューロンがますます複雑な表現をどのように構築するかを特定し,ニューラルネットワークがどのように機能するかをボトムアップで理解できるようになります.ある意味,中心的なアライメントの問題は,ネットワークが実際に何を学習するのかがわからないという事実から生じています.機械論的解釈可能性の研究が成功すれば,ネットワークが何をしているのか,そしてそれをどのように変更するのかをより深く理解できるようになるでしょう.
こちらの機械論的解釈可能性の紹介記事は日本語で入門的です.
本節を書く際には以下の記事を参考にしました.
また,AIアライメント研究(主に実証的な分野)に関する包括的な Survey論文があります.
3・2 AIアライメントの理論的な研究
AIアライメントの理論的な研究を,アライメントに関連する概念や議論を形式化することに重点を置いた分野として,ここでは指したいと思います.
Agent Foundationと呼ばれる分野は理想化されたエージェント(AIXIなど)と現実世界のエージェントとの間のギャップを埋める理論的枠組みの開発に焦点を当てた MIRI(機械知能研究所)の研究です.具体的には以下の三つのようなギャップが存在します.
- 実世界のエージェントは自分自身のコピーを含む可能性のある環境で行動する
- 実世界のエージェントは,その学習プロセスの物理的な実装と相互作用する可能性がある
- 理想的なベイズ推論者と異なり,実世界のエージェントは自分の信念の意味合いについて不確実性に直面する
上記三つのギャップを満たすようなエージェントが,明確に指定されたインタフェースを介して環境と対話するのではなく,その環境に組み込まれている場合を想定した数学的な形式化の議論を Agent Foundationではしています.
ほか,Agent Foundationに関連して,論理的帰納法,Infra-Bayesianism,有限因数分解集合といったテーマが存在します.
3・3 AIアライメントの概念的な研究
AIアライメントの概念的な研究とは,AIアライメント研究を進めるべき分野の開拓やアイディアの洗練をする分野をここでは指して紹介していきたいと思います.
Alignment Research Center(ARC)の Eliciting latent knowledge(潜在知識の引き出し)というアジェンダでは人間に自分の知っていることを正直に伝えるモデルを取得する方法を模索しています.
自然な抽象化は特にエージェントによって学習される世界に関する自然な抽象化または概念が存在するかどうかを研究しています.
人間の脳を参考にして,AIのアライメントを行おうとする試みである Shard theoryや brain-like-AGI safetyと呼ばれるプロジェクトがあります.
Value Learningは人間の価値観を AGIに取り入れるために提案されている手法です.これは可能性のある多くの価値観や嗜し好こうのセットを考慮し,その可能性によって重み付けされた行動をとる人工学習者の作成を含みます.
Cyborgismとは,人間のオペレータの認知能力を強化・拡張することを目指す人間と機械の組合せのシステムです.この計画では,自律型エージェントに作業を任せるのではなく,「サイボーグ」と呼ばれる特定のシステムを使って,人間の能力を向上させます.
Simulator Theoryは,OpenAIの GPTシリーズなど,大規模な生成モデルの動作を理解するためのオントロジーまたはフレームを指します.大まかに言えば,これらのモデルは,さまざまな忠実度で学習された分布をシミュレートするものと見なされます.
Humans Consulting HCH (HCH)は,人間が質問に答えるために自分自身のシミュレーションを参照できるセットアップを表す再帰的な頭字語です.これは,アライメント問題を解決するための反復増幅提案の議論で使用される概念です.
ほかにアライメント研究というより AIの安全な制御を目的にした AIシステムの安全性を数学的に保証するプログラムである Safeguarded AIという研究プログラムが公開されています.これは Guaranteed-Safe AIと呼ばれる大きなアーキテクチャの枠組みの一つとして捉えることができます.
4.AIアライメントの歴史的背景
歴史を見れば,AIアライメント(AI Alignment)研究分野は Eliezer Yudkowskyの Creating Friendly AI論文(2001)から始まりました.これは,人類に有害な結果ではなく,有益な結果をもたらすSuperIntelligence(超知能)である,「Friendly AI」について分析したものです.ここでいう「Friendly」は,人柄が良く,思いやりがあり,一緒にいて楽しいという普通の意味での「Friendly」を必ずしも意味はせず,少なくとも目標達成のために現実世界で計画を立てられるところまで進歩した「善意の」AI システムを指します.
上記論文は人工知能の開発を加速するために Eliezer Yudkowskyによって設立された MIRIで,人類に有害な結果をもたらさないよう万一に備えての緊急時対応計画として作成された経緯があります.
そしてそのような論文がつくられた思想的背景には,人間の認知機能と身体機能を改変・強化し,生物学的制約を超えて能力と可能性を拡張することを目指すトランスヒューマニズムがあげられます.
もともとは 20世紀から存在してきたトランスヒューマニズム運動ですが,これを挫折させる可能性があるものとして,主にAIのもたらすリスクに着目したのが若い時期の Eliezer Yudkowskyや Nick Bostromでした.彼らは AIによって人類の絶滅を含む存亡的な破局を迎えることで,トランスヒューマニズム運動の目指すべき価値が将来的に失われてしまうことを懸念したのです.二人は2000年代前半からこの問題に焦点を当て,議論を本格化しました.
先ほども出てきた Eliezer Yudkowskyは,人間の意図した目標に AIの目標を整合させる「AIアライメント」の研究分野への文化的な流れを形づくった人物です.2000年に AIシステムの安全性と信頼性を高めることを目的とした非営利研究機関 MIRIを創設し,2009年には blogコミュニティLessWrongを創設します.LessWrongは後に合理主義コミュニティと呼ばれる,AIによる存亡リスクを論じる文化の発祥地となりました.
ここで合理主義コミュニティとはもともと Eliezer Yudkowskyが AIによる存亡リスクに関する議論を他者とする際,機械のもつ合理性と人間の非合理性(認知バイアスなど)とはそもそもなんなのか,また機械と人間の間にある合理と非合理のギャップを説明する必要が出てきたために,形づくられていったコミュニティです.
現在は AIによる存亡リスクを超えたさまざまなトピックが議論されるコミュニティとなっています( Tom Chivers著の邦題:『AIは人間を憎まない』2021年刊行を参考).
Nick BostromはAI要因を含む存亡リスク(人類が存亡的破局を迎える可能性)という概念を 2001年に提唱し,2014年に「Superintelligence:Paths, Dangers, Strategies」という書籍(邦題:『スーパーインテリジェンス:超絶 AIと人類の命運』2017年刊行)を発売したことで広く知られるようになりました.著名人を含め話題を呼びました.
これら二人の形づくった文化は 2010年代に効果的利他主義,長期主義という考え方に影響を与えていきます.
効果的利他主義(Effective Altruism:EA)とは,証拠と理性を使って,ほかの人にできるだけ利益をもたらす方法を見つけ出し,それに基づいて行動を起こすこととされます.主に寄付団体の Giving What We Canと GiveWellが 2011年頃結び付き,効果的利他主義コミュニティが広がっていきました.
この効果的利他主義コミュニティの人々によって2010年代前半頃から合理主義コミュニティの議論をきっかけとして,AIが存亡リスクをもたらすことに危機意識がもたれ始めました.
また,長期主義とは,長期的な将来にプラスの影響を与えることが現代の重要な道徳的優先事項であるという考え方で,効果的利他主義コミュニティを創設した William MacAskillによって 2017年に定義されました.効果的利他主義コミュニティ自体は AI Safety以外にも発展途上国への支援など幅広い活動をしていますが,その中でも長期主義関連の寄付先が AI SafetyやBio security,核兵器リスクなどになります.
効果的利他主義コミュニティの人々や長期主義的な考え方をもつ人々によって上記のように懸念が広まり,AIの安全性に関する会議「The Future of AI:Opportunities and Challenges」も 2015年にプエルトリコ会議,2017年にはその後続となるアシロマ会議が開催されることになります.
このような AI Safetyや AIアライメントを培ってきた文化は,主流の AI Ethicsに関する研究とは離れた文化として理解できます.その文化が広がっていった経路としては,1)Webフォーラムとキャリアアドバイスによるオンラインコミュニティ構築,2)AI予測,3)AI安全性研究,4)懸賞による研究の活性化をあげることができます.
Webフォーラムとしては主に EA Forum,LessWrong,AI Alignment Forumが存在し,AI Safetyや AIアライメントに関連する議論が活発に行われています.キャリアアドバイスの機能としては,効果的利他主義コミュニティ内に 80,000 Hoursという団体があり,未来のコミュニティの形成につなげています.また,合理主義コミュニティ,効果的利他主義コミュニティではしばしば変革的なAI(Transformative AI)と呼ばれる高度な AIの開発時期が予想されており,これらのコミュニティの意思決定の基礎が形づくられています.これらの議論は学界や産業界における AI Safetyに関連する出版物につながっています.そして AI Safetyに関するコンペティションが開かれ,優秀なチームには賞金が与えられています.
先述のように,このような文化にはトランスヒューマニズムを思想的背景とした合理主義,効果的利他主義,長期主義といった考え方を共有するコミュニティがあります.そこから,AIによる存亡リスクへの懸念が生まれ,現在の AIアライメント,AI Safetyの研究分野ができるに至りました.
5.AIアライメント研究関連の資料
5・1 AIアライメント研究や組織の一覧
AIアライメント研究の分野やアイディアは多く存在します.それらを紹介している記事を以下に示します.
- My Overview of the AI Alignment Landscape: A Bird’s Eye View ─ LessWrongの “Agendas to build safe AGI”
- AI alignment resourcesの “Strategy and governance”
- Paul Christiano: Current work in AI alignment ─ EA Forum
- A newcomer’s guide to the technical AI safety field ─ LessWrongの “Conceptual”
- Technical AI Safety Research Landscape [Slides] ─ LessWrong
- An overview of 11proposals for building safe advanced AI ─ LessWrong
- The alignment problem from a deep learning perspective
- AI Alignment: A Comprehensive Survey
また,誰がどこでどのような組織がアライメント研究を現状進めているかの見取り図も,以下に示します.
- Shallow review of live agendas in alignment & safety ─ LessWrongの “Getting it to learn what we want”
- (My understanding of) What Everyone in Technical Alignment is Doing and Why ─ LessWrong
アライメント研究に限らず全般的な AI Alignment/Governanceを含めた見取り図は以下です.
5・2 AIアライメント研究,AIキャリア
AIアライメント研究に関する勉強用コース.機械学習の基礎から AIアライメント研究,さらにはキャリア支援まで学べます.
Center for AI Safetyによる ML Safetyの入門コースです.
5・3 AI Governance,AIキャリア
AI Governanceに関する網羅的な勉強用コース.こちらもキャリア支援についても記載されています.
Biosecurityに関する網羅的な勉強用のコース
5・4 AIによる存亡リスク入門記事など
GiveWellを創始した Holden Karnofskyによる「最も重要な世紀」と呼ばれる blogポストです.今世紀が人類の未来を形づくるうえでとても大切な時期になる可能性を理解できる一連の記事となっています.
80,000 Hoursによる,AIによる,壊滅的なリスクを概説した優れた記事です.
Wait But Whyと呼ばれる有名な blog記事が,AIによる存亡リスクをわかりやすいイラストとともに解説しています.
Holden Karnofskyの blog Cold takesの AIによる脅威を説明した記事です.
- How AIs could defeat humans without “superintelligence”
- 効果的利他主義コミュニティ内でキャリアコンサルタントをしている 80,000 Hoursが「Could AI wipe out humanity?|Most pressing problems」と題するコンテンツを作成しています.
- AIの深刻なリスクを視覚的に理解することができる動画になっています.
また,以下は Open AIの主任科学者である Ilya Sutskeverの超知能のもたらす潜在的なリスクにフォーカスを当てたドキュメンタリーとなっています.
AIのもたらす深刻なリスクに対する危機感が Ilya Sutskeverの表情から伝わってきます.
日本語字幕が EA Japanによりほとんどの動画に付けられており有用な,AI Safetyを啓蒙する YouTubeチャンネルです.
X-riskに関わる組織,blog,教育などの全体像がまとめられています.
5・5 ほか,主要なアライメント関連の Webページ資料
- LessWrong
- AI Alignment Forum
- Metaculus
- Effective Altruism Forum
- Effective Altruism Japan
- Open Philanthropy
- 80,000 Hours
- Timeline of AI safety – Timelines
6.おわりに
ここまで,AIアライメントに関連する用語の発祥から AIアライメント研究の解説をさせていただきました.今後世界的にも AIアライメント研究や AIガバナンスの議論が本格化していく可能性があり,その際の理解の参考になれば幸いです.