大島 一、西部 みちる、小林 正行、柏野 和佳子 (国立国語研究所)
『現代日本語書き言葉コーパス (BCCWJ)』のサブコーパスにはインターネットから取得されたデータも含まれている。その一つとして,Q&Aサイト「Yahoo!知恵袋」があるが,収録にあたり非日本語文字列要素は削除要素としてマークアップを行っている。本発表ではこの認定における理由と目的を説明し,実際のデータでそれら削除要素表現の出現状況を観察する。