柏野 和佳子 (国立国語研究所, 東京工業大学)、 立花 幸子、保田 祥(国立国語研究所)
大規模な書籍コーパスをより有効に活用し,テキスト研究を進めるために, 書籍テキストをその形式,内容, 表現に関わる特徴によって分類するための指標を設計した。 第一に,形式の特徴に基づき,構造的に単純な文章タイプ (例:章節構造)であるか,そうではなく, 特徴的なスタイルの文章タイプ(例:対談,Q&A形式,図解,用語解説) であるかを分類する指標を定めた。第二に,主に構造的に単純な文章に対し, その内容,表現の特徴に基づき,「専門度,客観度,硬度, くだけ度,語りかけ性度」という5つの指標を定めた。そして, それら分類指標を用いて,『現代日本語書き言葉均衡コーパス』(BCCWJ) に収録されている図書館サブコーパスの全10,551サンプルの書籍テキストを分類した。 本発表では,その分類結果と,そこから得られた典型例を報告する。 そして,本分類を通し, 図書館サブコーパスにどのような特徴をもつテキストがどのように分布して収録されているのかを, より詳細に把握することができることを示す。