【講演概要】

常識概念体系のための基本語彙の選定

○笠原 要 (NTT コミュニケーション科学基礎研究所)、
金杉 友子(NTT アドバンステクノロジ)、
稲子 希望、天野 成昭 (NTT コミュニケーション科学基礎研究所)



言葉の意味に関する情報処理の基盤データベースを目指す``常識概念体系''を構築する第一歩として、 人々の概念的思考で共通して利用している基本的な語の集合(``基本的語彙''呼ぶ) を選定した。 選定の尺度として、心理実験により選定される単語のなじみの深さを表す単語属性である単語親密度を用いた。 過去の研究において12歳児の理解語彙数の推測値が2万5千と報告されており、 別の語彙数調査結果から、同数の語彙を成人の94%が知っていると推測される。 そこで、基本的語彙数を2万5千程度と定めた。国語辞典の見出し語について、 単語親密度に関するデータベースである日本語の語彙特性に含まれていない3万5千語の追加の評定実験を行い、 計9万5千の単語から親密度が高い2万8千語を基本的語彙として選定した。 この基本的語彙の新聞記事(朝日新聞, 14年分)での出現傾向について調査を行い、 延べ語数で約72%まで再現出来ていることを明らかとした。