【記事更新】私のブックマーク「語彙学習支援システム」(Support Systems for Second Vocabulary Acquisition)


私のブックマーク

語彙学習支援システム(Support Systems for Second Vocabulary Acquisition)

江原 遥(静岡理工科大学,産業技術総合研究所)

はじめに

 2019 年は,自然言語理解の分野で大きなブレークスルーがあった年であった.特に,語について,従来は綴りなどの表層的な表現しか利用できなかったのに対し,より豊かな意味的情報が利用できるようになってきている.こうした自然言語処理分野の近年のブレークスルーを応用して,人工知能分野ほか,多くの研究現場で苦心されている,学生・教員・研究者の外国語論文の文献調査力・執筆力の向上に役立てられないだろうか?  本稿では,科学技術振興機構(JST)戦略的創造研究推進事業(ACT-I)など,筆者の最近の研究で得た知識をもとに,近年の研究動向をつかむのに有益と思われる学会や論文を紹介する.

読解における語彙学習の重要性

 文献調査(サーベイ)は研究活動の基本であるが,「学生にサーベイするように言っても,日本語の文献しか調べてくれない」というのは,国内の人工知能分野の大学教員の多くが経験していることなのではないだろうか.文献調査(サーベイ)では,読解力が圧倒的に重要である.実は,辞書なしでテキストを十分に読解するためには,延べ語数で少なくともテキスト中の95 ~ 98%の語を知っている必要があるという報告(テキストカバー率),そして,日本の大学生の多数が論文を辞書なしで読むのに十分な英語の語彙サイズを有していないという報告がある.

  • Nation, I.: How large a vocabulary is needed for reading and listening? Canadian Modern Language Review, Vol. 63, No. 1, pp. 59-82(2006)
  • Laufer, B. and Ravenhorst-Kalovski, G. C.: Lexical threshold revisited: Lexical text coverage, learners’ vocabulary size and reading comprehension, Reading in a Foreign Language, Vol. 22, No. 1, pp. 15-30(2010)
  • McLean, S., Hogg, N. and Kramer, B.: Estimations of Japanese university learners’ english vocabulary sizes using the vocabulary size test, Vocabulary Learning and Instruction, Vol. 3, No. 2, pp. 47-55(2014)

 ここで語を「知っている」というのは,単に和訳を暗記しているということではなく,その単語を含む英文の言い換え問題が解ける,文を母語に訳すことができる,など,実際に使われている用例を読むことができるという意味である.学生に英語で文献調査ができるようになってもらうためには,英語の勉強の中でも,特に英語の語彙量を増やす学習の優先度が高いと考えている.もちろん,英語での文献調査を行ってこない原因には,他にも英語の語彙以外の面や語学以外の原因も考えられるが,少なくとも語彙量の少なさについて報告のある日本の大学生について言えば,文献調査など学術的場面での語学力向上のためには,学生の既知語彙を短時間で正確に計測し,覚えるべき語彙の学習を支援することが最優先課題であると筆者は考える.本稿のタイトルを単に「語学学習」ではなく「語彙学習」としたのは,こうした理由からである.テキストカバー率については,筆者の直近の研究で恐縮であるが,学習者が単 語を知っているかが不確かなときに,不確かさを考慮してテキストカバー率がしきい値を超える確率を計算する手法 を提案している(Ehara, In Proc. of ICMLA 2019).

 こうした報告は,通常,人工知能分野の研究者の多くが参照しない,語学学習に関する言語学「応用言語学」(Applied Linguistics)の分野で報告されている.代表的な論文誌としては,下記があげられる.

また、日本に関する情報としては、主に英語母語話者である大学の語学教員による下記の論文誌があげられる。

語彙学習におけるタスク

 語彙学習の目的を平たく言い表せば,「各学習者がまだ覚えていない語の中で,学習すべき語を,効率良く学習する」ということになるだろう.この「,」で区切られた3 点を支援するために,大別して下記の3 点の課題が考えられるので,それぞれについて述べる.

  • ① 各学習者が覚えていない語の推定
  • ② 各学習者が覚えるべき語の推定
  • ③ 各学習者が語を効率良く覚えるための学習法

 最終的な応用としては,上記の3 点を考慮しながら,学習者に覚えるべき語とその意味・用法を繰り返し提示していくような学習支援ソフトウェアが考えられる.

学習者がまだ覚えていない語の推定

 学習者がすでに覚えている事柄を覚えさせることに意味はなく,すでに覚えている事柄を繰り返し覚えるように指示されることは学習者にとって負担になる.したがって,各学習者が所与の語を覚えているかどうかを簡便に精度良く推定することが重要となる.
 応用言語学分野で使われてきた手法は,まず,数十分程度で終わる小規模な語のテストを各学習者に受けてもらい,次に,このテストの結果データを用いて,学習者がテスト外の単語を知っているかどうかを判定する手法である.
 こうした小規模な語のテストとしては,応用言語学分野ではVocabulary Size Test があげられる.

  • Beglar, D. and Nation, P.: A vocabulary size test, The Language Teacher, Vol. 31, No. 7, pp. 9-13(2007)

 このテストは,すべての問題が文中の語の意味を表す正しい選択肢を選ぶ問題になっており,語に複数の意味がある場合などでも文脈を考慮して回答可能なように設計されている.
 こうした語のテスト結果のデータを用いて,学習者がどの語を知っているかどうかを判定する手法も,いくつか提案されている.簡単な手法としては,学習者があるコーパスの単語頻度順に語を覚えていることを仮定し,語彙サイズを推定した後,単語頻度の大きい順に語彙サイズ分の単語を既習と判定する手法である.
 これ以外に,教師あり機械学習を用いた方法もいくつか提案されている.筆者が考案したものは,筆者のWeb ページにまとめているほか,香港市立大学のJohn Lee 先生のグループも,この課題で研究を精力的に進めている.
 また,密接に関連するタスクとしては,テキスト中の「非母語話者,子供,障がい者などにとって読むうえで難しいと思われる語句」を特定するComplex Word Identification(CWI)があげられる.このタスクは,主に,難しいテキストを非母語話者,子供,障がい者などにとって読みやすくする「テキスト簡単化」の前段階として,簡単化すべき語句を特定することが目的とされる.自然言語処理分野で過去2 回shared task が行われている.

データセット

 語学学習者が実際に知っている語については,ベンチマークや訓練のためのデータセットが公開されている.
 まずは,一般的に「単語テスト」でイメージされるような,語の意味を表す正しい選択肢を選ばせる問題を実際に学習者に解いてもらったデータがあげられる.こうした単語テストは語学教育現場の多くで行われていると思われるが,成績情報を外部に公開するわけにはいかないことが多いためか,データがそのまま公開されていることは少ない.
 そこで,筆者は,クラウドソーシングを用いて有償で問題を解いてもらって作成したデータセットを公開している.

 一人当たりが答える語数が1 万語程度以上あれば,学習者が実際にテキストを読めるかどうかを知っている語の比率(テキストカバー率)から判定するタスクの検証などに用いることができる.こうした目的では,筆者の知る限り,下記の二つのデータセットが公開されている.

 その他,実際に語学学習者本人の語彙知識を反映したものではないことに注意が必要であるが,CWI タスクに関連して,下記のデータセットが公開されている.

語の単位について

 語彙サイズなどを考えるときの「語」の単位はどう考えればよいだろうか? 例えば,play とplays は同じ語でまとめるべきだろうが,play とplayer ではどうだろうか? 応用言語学分野の研究では,基本的にはword family という単位を用いており,これは,大まかにいえば複数形や過去形といった語形変化をすべて取り去った形である.したがって,play もplays もplayer もまとめて1 語とカウントしている.
 語に複数の意味がある場合に,文脈を考慮して学習者がどの語義を知っていてどの語義は知らないか,まで推定する手法は,今のところ比較的新しい課題である.少なくとも,従来は多義語の難しさについても,単純な表層の単語頻度のみで推定することが一般的であった.この理由は,テキスト中の語義を文脈から高精度に推定する手法が確立していなかったこと,語のある語義が他の語義からは学習者が意味を推測できないほど離れているかどうかを定量的に測る良い方法がなかったからであると考えられる.
 この点については,自然言語処理分野では,2019 年に文脈を考慮して語をベクトル表現するContextualized Word Embeddings(文脈化単語埋込み)と呼ばれる手法が自然言語理解で大きな成果をあげており,その中でも Bidirectional Encoder Representations from Transformers(BERT) が有名である.

  • Devlin, J., Chang. M.-W., Lee K. and Toutanova, K.: BERT: Pre-training of deep bidirectional transformers for language understanding, In Proc. of NAACL(2019)

 著者の研究で手前味噌になり恐縮だが、BERTを用いた語彙学習に関する研究の準備段階として、直近ではhttp://id.nii.ac.jp/1001/00200656/のような報告をしている。

  • 江原 遥:文脈化単語表現空間上の範囲の学習による語の多義性を考慮した頻度計数法,情処第243 回自然言語処理研究会研究報告,2019-NL-243, No. 10(2019)

覚えるべき単語の推定

 さて,学習者がまだ覚えていない単語が判定できるようになったとして,学習者が覚えるべき単語とは何だろうか?学習者が将来的にほとんど使わないであろう単語を学習しても学習者の利益にならないことを考えると,学習者が将来的に使用する蓋然性が高い単語を優先的に覚えるべきであろう.
 「学習者が将来的に使用する蓋然性が高い単語」を特定するために,広く用いられているのが,母語話者が実際に発した言語を幅広く集めた均衡コーパス(Balanced Corpus)である.均衡コーパス中での単語頻度が高ければ,母語話者との一般的なコミュニケーションをとるうえで重要であると判断できる.
 ただし,学習者の目的が母語話者と一般的なコミュニケーションをとることではなく,学習している言語を用いて,特定の専門的な内容を学ぶことである場合は,均衡コーパス中の単語を学習する優先度が高いとは限らない.こうした,特定の目的のための英語学習をEnglish for Special Purposes(ESP)と呼ばれ,各目的ごとに学習語彙リストが作成されている.語の分野推定は,自然言語処理分野では基礎的課題であるため,例えばトピックモデルなどを用いてこれに寄与するところは大きいと思われる.しかし,実際に,「各専門分野でどのような語が使用されているのか」を集めた検証用のデータをとることが難しいためか,一般的な語彙学習ほどには研究が進んでいない.

効率よく覚える学習法

 まず,単語帳を用いて覚えるか,多読で覚えるか,の問題がある.
 結論から言えば,どちらも長所があり,併用すれば良いが,語彙量を増やす目的では,単語帳を用いたほうが効率的である(時間当たりに覚えられる語が多い)ことがわかっている.
 こうした研究内容は,邦書では下記が詳しい.

  • 中田達也:英単語学習の科学,研究社(2019)

 次に,間隔反復の問題である.時間を空けて何度も復習したほうが記憶が残りやすいことは経験的に知られているが,これが「間隔反復(Spaced Repetition)」といわれる方法である.間隔反復については,語彙学習以外でも研究が進められており,例えば,下記の文献があげられる.

  • Choffin, B., Popineau, F., Bourda, Y. and Vie, J.-J.: DAS3H: Modeling student learning and forgetting for optimally scheduling distributed practice of skills, Proc. of the 12th Int. Conf. on Educational Data Mining(EDM 2019)(2019)

その他の学会

その他に,教育・語学学習の分野の学会としては,下記があげられる.

おわりに

 本稿では,語学学習のうち,特に語彙学習についての研究状況を報告した.
 最後に,語彙以外での,文法や発音の話についても簡単に触れておきたい.まず,文法については,語の用法の中に文法のかなりの部分が含まれており,基本的な構文の学習など以外は,語彙学習の中に文法も含まれると考えている.次に,発音についていえば,人間の言語の発音はかなり構造化された体系をもっており,音声学という形で体系化されている.子音については,調音位置と調音方法などの特徴量で表に表すことができ,母音についても,口を開く大きさと舌の最高点の位置,唇を丸めるか否か(円唇)などの特徴量で表現できる.少なくとも,「聞き分けられない音は発音し分けられない」などということは全くない.
 この分野の今後の展望について,簡単に述べる.語学学習支援は一般に,学習者からのデータを取得するコストが非常に高い.これまでは,用例間の意味的な近さを数値的に表していると信じられる,良い方法がなかった.本当は用例間の意味的な差異も考慮したほうが良いことがわかっていても,信頼性の低い用例の数値表現をデータ取得時に用いることができず,表層的な情報と理解との相関を取り,第二言語学習者の「理解」を理解しようとするしかなかった.
 文脈化単語埋込み技術の発達によって,用例間の意味的近さを,ようやく信頼できる形で数値的に取り扱うことができるようになり,用例間の意味的近さと学習者の語彙知識の相関をとることができるようになった.意味情報が扱いやすくなったことにより,コーパスからの単語頻度という表層情報に依拠した手法から,用例間の意味的近さを利用した方法に変わっていくことが予想される.