【記事更新】私のブックマーク「第一言語獲得から考える人工知能」 | 人工知能学会 (The Japanese Society for Artificial Intelligence)

私のブックマーク

第一言語獲得から考える人工知能

折田　奈甫（早稲田大学理工学術院）

1．はじめに

　深層学習の発展は素晴らしいが，第一言語獲得を研究する言語学者としては「ちょっと待った！」と言いたくなる瞬間がある．例えば，以下のような発言や記述を研究発表や論文などで見聞きすることが増えた．

深層学習のように人間も大量のデータから統計的に学習しているのではないか．刺激の貧困は存在せず，生得的知識など必要ない．子供は白紙の状態から，あるいは最小限の非言語的知識・能力を使って，言葉を大量に聞いて覚えて話せるようになる．
脳についてはわかっていないことが多いので，深層学習を使ったリバースエンジニアリング的な認知科学の研究があってもいいのでは．
ニューラルネットワークは神経科学的に妥当なモデルである．そのうえ，人間が行うような情報処理タスクにおいて高い汎用性と学習能力を示している．ニューラルネットワークは人間の認知メカニズムとして妥当な仮説なのではないか．

　このような主張は深層学習以前の昔からあり，新しくはないのだが，第一言語獲得に関心をもって論文を読んできた筆者からすると軽く衝撃的な内容で，何度遭遇しても慣れない．しかし，さまざまな分野の研究者がそう思っているということは，第一言語獲得という分野の研究成果や考え方が十分に伝わっていないということなのだろう．そしてこのギャップには新しい研究が眠っているのかもしれない．このブックマークでは，上記のような主張を手掛かりに，第一言語獲得の観点から人工知能を考えるときに参考になりそうな文献を紹介したい．

2．刺激の貧困

　刺激の貧困とは，ある言語知識を学習するために必要であろうデータが不十分という意味だが，チョムスキーによって提起された刺激の貧困から始まる議論はそう単純ではなく，慎重に考える必要がある．例えば，言語学者が刺激の貧困が存在すると主張している言語知識について，ある機械学習モデルが「学習」したり，訓練データにはない語の並びを「人のように」判断・生成できたとして，それだけでは刺激の貧困の反証にはならない場合が多い．なぜこのようなケースが刺激の貧困の反証にはならないのかを理解したい読者に薦めたいのが，第一言語獲得に関するモデリング研究を精力的に進めているLisa Pearlによる以下の論文だ．

Pearl, L.: Poverty of the stimulus without tears, Language Learning and Development, Vol. 18, pp. 415-454（2021）

　Pearlによると，刺激の貧困を議論するには次の4 項目を根拠をもって明確に定めなければならない．

正しい仮説は何か
どのような仮説空間になっているか
子供が学習するときにどのようなデータが利用可能か
子供はどのようにして利用可能なデータを学習に用いることができるか

　項目1 の「正しい仮説」とは，学習ターゲット（正解）のことで，そもそもこの仮説自体が議論の対象になる場合もある．背景となる言語理論の違いに端を発することが多い．項目2 は，同じデータから他に推測し得るような仮説があるかを明確にせよという意味で，先行研究と照らし合わせて入念に検討する必要がある．また，データが提示されていても，子供は何らかの理由でそのデータを学習に使えない・使わない可能性があるため，項目3 と4 については，言語獲得のみならず発達心理学などの知見も参照し，明確に仮定を立てなければならない．例えば，言語を処理するときには記憶や実行制御など他の認知機能の使用が不可欠だが，子供のこれらの能力は発達途中であり言語処理に影響する（Mazuka et al. 2009,Courage & Cowan 2008）．また，データそのものが一見十分にありそうだとしても，それが子供が実際に学習に用いるデータと質量ともに近似しているのか，子供のような学習速度で学習するのかなども考慮すべき重要な問題だ．否定証拠や間接証拠についてもPearl 2021 で簡潔にまとめられているので参照されたい．さらに，子供自身がもつバイアスによってデータの分布どおりに学習しない事例も報告されている．この点については次章で紹介する．
　このように，ある言語知識を学習するときにデータが十分か不十分かを議論するには，最低でも上記の4 項目を考慮しなければならない．これらをすべて完璧に満たして研究することは現時点ではほぼ不可能だ．しかし，明らかに無理がある主張なのか，あるいは認知科学的に妥当な主張なのかを判断するうえでは有用な基準だ．少なくとも，ある言語知識がお気に入りの機械学習モデルで学習できたらしいときに，その結果を刺激の貧困への反証だと簡単には解釈できないことは明らかではないだろうか．

3．Input とIntake

　子供が言語知識を学習するときに用いる情報のことを，ここまでは単に「データ」と呼んできたが，本節では「インプット」と「インテイク」として区別して考えるための文献を紹介したい．この区別は言語獲得を考えるうえで非常に重要だが見落としがちである．「インプット」とは子供が外界から得る情報で，「インテイク」とは子供が学習するときに実際に用いる情報のことである．

Lidz, J. and Gagliardi, A.: How nature meets nurture: Universal grammar and statistical learning, Annual Review of Linguistics, Vol. 1, pp. 333-353（2015）

　この論文で紹介されているGagliardi らのツェズ語の名詞クラスの獲得に関する研究では，ツェズ語話者の子供がどのような特徴を使って名詞クラスを分類するのかを調べている．ツェズ語の子供向け発話コーパスの分析から，統計上，生物に関する意味的特徴が名詞クラスを推測するうえで最も信頼性が高く予測しやすい手掛かりであるにもかかわらず，そうではない音韻的特徴のほうを使って名詞クラスの分類がされやすいという結果が報告されている（なぜ音韻的特徴が優先して使われるのかが気になる読者はLidz & Gagliardi 2015 のp. 343 を参照のこと）．つまり，子供が実際に学習に用いるインテイクは，インプットの統計的特徴を必ずしも反映しない．学習に使われるインテイクはインプットの一部であり，学習者の内的な要因によって決まる．ラベル付きのデータや与えられた特徴から学習するのではなく，学習者内部のバイアスによって決まるのだ．
　子供の言語獲得が，インプットの統計的特徴の単なる反映ではないことを示す証拠は多い．例えば，延べ語数では名詞よりも動詞のほうをより多く聞いているにもかかわらず，英語話者の子供の発話初期の産出語彙は圧倒的に名詞が多い（Sandhoffer et al. 2000）．また，英語のインプットでは冠詞が非常に多く出現するにもかかわらず，冠詞の獲得は名詞に遅れる（Bloom 2000）．
　上記のレビュー論文では，生得的言語知識ありきの言語獲得を支持するさまざまな実験が紹介されているが，この類いの仮説に同意しない読者であってもLidz & Gagliardi 2015 の図1 だけはご覧いただきたい．図1 は，過去数十年の先行研究の積み重ねの要約でもある．この図は仮説であって間違っているかもしれない．しかし，言語獲得を科学的に研究するということは，内部で何が起こっているのかを説明できないモデルの入出力を表面的に分析することではなく，図1 のように内部で何が起こっているのかを理解・説明するための探究であるはずだ．

4．データが多ければいいという話ではない

　異分野の研究者と言語獲得のインプットの話をすると，「マルチモーダルな情報を用いて言語を学習しているはずだ．言語情報のみだと不十分かもしれないが，非言語情報を考慮するとインプットは豊富といえるのではないか」というコメントを頻繁に聞く．実際，言語獲得における非言語情報の役割はさまざまな側面から研究されてきた（例：Goldberg 2005，Tomasello 2008）．
　言語以外の要因が言語獲得に影響するというのは自明である．しかし，どのような言語知識に対して，どのような種類のデータが，どの程度，どのように提示されれば学習が可能になるのかを調査した一連の研究を見ると，非言語情報が豊富であれば言語データの不十分さが解消される（あるいは生得的言語知識は必要ない）という単純な話ではないことがわかる．

Gleitman, L. R., Liberman, M. Y., McLemore, C. A. and Partee, B. H.: The impossibility of language acquisition （and how they do it）, Annual Review of Linguistics, Vol. 5, pp. 1-24（2019）

　上記文献では，Lila R. Gleitman と彼女の共同研究者らが行ったさまざまな調査・実験がインタビュー形式でまとめられている．Gleitman らの研究で一貫しているのは，我々が豊富なインプットだと思っているマルチモーダルな情報から子供がいかに「学ばないか」という点であると思う．例えば，状況の観察のみで動詞の意味を当てるのは，大人であっても，高頻度の簡単な動詞であっても，正解率が10％程度と非常に難しい（Gillette et al. 1999）．具体物とそれを指示する名詞の間のマッピングを学ぶときは，単に名詞とその指示対象が同時に出てくる状況（例：犬がいる状況で「いぬ」という言葉を聞く）を何度か経験して学習するのではなく，「これだ！」という確信があるときだけ（たとえ間違っていたとしても）その関係を記憶し，そうではないときは忘れてしまう（Medina et al.2011）．学習者は，言葉とその言葉が使われた状況の共起をすべて記憶して学習するわけではないのだ．つまり，データが多ければいいという話ではなく，「豊かな」マルチモーダル情報は言語獲得の邪魔にさえなり得る．
　一方で，インプットが圧倒的に不足している状況であっても，子供は抽象的な言語の意味や構造を獲得していく．言語的なインプットから隔離された，聴覚障害をもつニカラグアの子供達は，直接的な教示がない中で，自然言語の主要な構造的特徴をもつコミュニケーションシステムを構築する（Brentari & Coppola 2012）．生後8 か月の乳児に人工言語のインプットをたった2 分間与えるだけで，その抽象的なルールを学習するという報告もある（Gervain et al. 2012）．3 章で紹介したLidz & Gagliardi 2015 で紹介されている韓国語の研究では，否定文の解釈が，母語話者の大人と子供のどちらにおいても，まるで1 言語に2 種類の文法が存在するかのように2 通りにきれいに分かれ，養育者の文法とその子供の文法の間に相関がないことが報告されている．この研究の対象である否定を含む文はインプットにはほとんど現れず，現れたとしても文法知識がなければ解釈が難しい．どのようなマルチモーダル情報がどれくらいあれば，これらの学習を説明できるのだろうか．
　虫やネズミなどの動物の行動を見ると，経験による学習がほぼない状態で，しかも人間と比較して極めて小さな脳で，餌探しや帰巣ができる（Freas & Cheng 2022）．動物の記憶や学習に関する生得的能力は否定しないのに，人間の言語能力の話になると，経験から十分に学習できると考える人が多いのはなぜか．Gleitman の言葉を借りると，“Empiricism is innate.”（Gleitman et al. 2019, p. 22）ということなのだろうか．

5．認知モデルとしてのニューラルネットワーク

　最後に，ニューラルネットワークが認知モデルとして適切ではないと主張する論文を紹介したい．深層学習以前のニューラルネットワークモデルについては特に80年代に盛んに議論されたが（例：Fodor & Pylyshyn 1988，Marcus 1998），当時の批判の一部は深層学習以降も生きていると思う．例えば，認知モデルとしての深層学習は，Marr の3 レベル（Marr 1982）のどのレベルに対応するのだろうか．計算論あるいはアルゴリズムレベルであれば，その説明力の低さや実際のインプットとの乖離かいりなどの理由から，こと言語に関しては深層学習を用いる積極的な理由がそもそも見当たらない．実装レベルとしてのニューラルネットワークについては，神経科学的・生物学的に妥当性が疑われている（Gallistel & Matzel 2013，Gallistel & Balsam 2014）．さらに，ニューラルネットワークでは，ニューロンの数が人よりもはるかに少ない虫やネズミの場所・時間・数などに関する学習・記憶のメカニズムが説明できないことも示されている（Gallistel & King 2009）．
　また，Lake らによる以下の論文は，深層学習（広くはパターン認識問題を解く学習モデル）だけでは人間のような学習と思考を行う人工知能は構築できないと論じ，どのような事前知識があれば人間のように学び考える人工知能に近付くかを提案している．

Lake, B. M., Ullman, T. D., Tenenbaum, J. B. and Gershman, S. J.: Building machines that learn and think like people, Behavioral and Brain Sciences, Vol. 40, E253（2017）

　上記論文では，言語の学習については，よくある質問への答えとして短く慎重な推測に留めている（Lake et al. 2017, p. 21）．この論文の方向性で，何らかの言語能力を事前に備えた人工知能による言語獲得の研究がもっとあってよいように思う．特に，言語獲得を可能にする生得的言語能力について長年考えてきた生成文法において培われてきた知識や考え方が，もっと生かされてよいように思う．

6．リンク集

　以下に，現時点で思いつくリソースを列挙する．このリストは，言語学寄りで第一言語獲得を研究する若輩研究者が締切前に慌ててつくったものだと思って見ていただきたい．

6･1　ジャーナル

　書くまでもないが，ジャーナルの名前の抽象度が上がるほど対象とする研究分野が広がりさまざまな分野の研究者に広く読まれる．以下に，筆者が特によく目を通すジャーナルをあげた．言語学専門のジャーナルでも第一言語獲得の研究がたまに掲載されるが，以下のリストには含んでいない．発達心理学を含めると他にもさまざまなジャーナルがある．以下リストはごく一部だと思っていただきたい．

6･2　レビュー

　あまり知らないトピックの概要や最新のまとめを読みたいときは，以下のようなレビュー論文，特集号，最新版のハンドブックなどを参照することが多い．

6･3　学会

　ジャーナルと同様，第一言語獲得の研究はさまざまな分野の学会で発表されている．例えば，国際学会のCogSciは認知科学のさまざまな研究が集まるので楽しい．BUCLD は言語獲得の学会で，毎年議論が盛んで刺激になる．

　隔年で生成文法系の言語獲得の学会もある（GALA：Generative Approaches to Language Acquisition 2022）．
　国内の学会については，日本言語学会や言語系学会連合のWeb サイトを参照されたい．

　ほかにも，国内では小規模の言語獲得・心理言語学関連の研究会がいくつか存在する．Web サイトなどが見つからなかったので，興味がある方は近くの言語学者に尋ねてほしい．

7．おわりに

　本稿では，言語を学習する人工知能について，第一言語獲得の視点から考えるときに参考になりそうな文献などを紹介した．本稿で扱った言語獲得の問題はごく一部であり，全く異なる考えや仮説も存在する．筆者はアメリカ東海岸でPhD のトレーニングを受けたため，本稿ではその影響が色濃く出たと思う．一時は言語知識はデータから十分に学べると考え，データ駆動型のアプローチを取ったこともあった．最近はやはり生得的言語能力が不可欠だと考えている．

謝　辞

　理工系の研究者と言語獲得についてさまざまな議論をする中で考え学ぶことができた．彼らとの議論のおかげで本稿が書けたと思う．また，Computational Psycholinguistics Tokyo（東京大学の大関洋平氏と筆者が共催する研究会）での議論も有意義だった．議論に付き合ってくれた方々に感謝する．