小特集 1-1 現代のテキストコーパス

電子情報通信学会 - IEICE会誌 試し読みサイト
Vol.102 No.6 (2019/6) 目次へ

前の記事へ次の記事へ


1. 言語・音声データとICT

小特集1-1

現代のテキストコーパス

Contemporary Written Corpus of Japanese

山崎 誠

山崎 誠 国立国語研究所言語変化研究領域

Makoto YAMAZAKI, Nonmember (Language Change Division, National Institute for Japanese Language and Linguistics, Tachikawa-shi, 190-8561 Japan).

電子情報通信学会誌 Vol.102 No.6 pp.549-553 2019年6月

©電子情報通信学会2019

1.書き言葉コーパスの展開

 日本語研究におけるコーパスの利用は1990年代から主に言語処理の分野で始まり,21世紀に入る頃からは人文系の日本語研究・日本語教育研究においても,次第に利用されるようになり,現在では現代語研究のみならず,日本語史研究においても盛んに利用されるようになってきた.研究の分野は,語彙,文法,文体,表記,音声,音韻,コミュニケーション,日本語教育,国語教育と多岐にわたる.日本語研究以外でも社会学,心理学などでもコーパスは利用されている.実用的な場面では,国語辞書編纂の基礎資料としても利用されている.

 日本語研究でコーパスという名前が付くデータが登場したのは,「京都大学テキストコーパス」,略称「京大コーパス」が最初であろう.このコーパスは,「毎日新聞」の1995年の記事約4万文に対して,形態論情報(用語),構文情報(用語)を付与したものである(1).なお,公開されているのは,タグのみであり,コーパスを利用するためには原文の新聞記事データを購入しなければならない.京大コーパスは,専ら自然言語処理分野で利用されている.京大コーパスのデータが新聞記事であったことからも分かるように,1980年代後半から各新聞社が自社の記事をテキストファイルとして有料で売り出すようになり,それがコーパスとして利用されるという研究手法が生まれた.ただし,新聞記事データはかなり高額であったため,研究費が潤沢でなく,個人研究の割合が高い人文系日本語研究においては,利用が盛んではなかった.その代わり,「新潮文庫の100冊」が手軽なコーパスの代用としてよく使われた.

 図1は,国立国語研究所の「日本語学・日本語教育文献データベース」でタイトルに「コーパス」を含む文献数の推移を示したものであるが,これからも2000年代から文献数が急増していることが分かる(注1).また,2015~2018年の「コーパス」の頻度は172件であるが,同様の検索における「文法」は193件.「アクセント」は155件であった.このことは,コーパスが日本語研究の中にしっかり根付いたことを表していると言えよう.


続きを読みたい方は、以下のリンクより電子情報通信学会の学会誌の購読もしくは学会に入会登録することで読めるようになります。 また、会員になると豊富な豪華特典が付いてきます。


続きを読む(PDF)   バックナンバーを購入する    入会登録


  

電子情報通信学会 - IEICE会誌はモバイルでお読みいただけます。

電子情報通信学会誌 会誌アプリのお知らせ

電子情報通信学会 - IEICE会誌アプリをダウンロード

  Google Play で手に入れよう

本サイトでは会誌記事の一部を試し読み用として提供しています。