電子情報通信学会 - IEICE会誌 試し読みサイト
© Copyright IEICE. All rights reserved.
|
2. 歴史的な文字・非文字データとICT
小特集2-1
文字データの分析
――機械学習によるくずし字認識の可能性とそのインパクト――
Analysis of Character Data:Potential and Impact of Kuzushiji Recognition by Machine Learning
世界的に見ても,日本は過去の資料(史料)が多く残る国である.一説によると,古典籍(用語)は約300万冊,古文書・古記録は約10億冊がまだ残っているという.これらは過去の日本の文化を今に伝える情報の宝庫であり,日本文化に関する研究を進めるには,より多くの資料(史料)を読み解いていく基礎的な研究が欠かせない.そうした研究を後押しするように,ここ数年,古典籍の大規模なディジタル化とオープン化が急速に広まってきた.そして,Web経由で日本の古典籍や古文書・古記録などの画像にアクセスし,研究に活用する環境も整いつつある.
しかしそこに立ちはだかる大きな障壁が「くずし字」の問題である.もし古典籍画像からそこに書かれたテキストを取り出せれば,全文検索などの技術を用いてコンテンツへのアクセス性を大幅に向上させることができる.しかし,くずし字は日本人でも読める人は少なく,機械によるくずし字OCR(用語)も改良の余地が大きいため,古典籍のテキスト化は難航しているのが現状である.そこで,機械学習に基づくくずし字認識によって,画像テキスト化問題の解決を目指す研究が進みつつある.文字データ公開,コンテスト開催,くずし字認識モデル開発など,くずし字認識研究の最前線と今後の課題を紹介する.
「日本語の歴史的典籍の国際共同研究ネットワーク構築計画(略称:歴史的典籍NW事業)」とは,国文学研究資料館(国文研)で現在進められている文部科学省の大規模学術フロンティア促進事業のことを指す.期間は2014年4月からの10年間である.
続きを読みたい方は、以下のリンクより電子情報通信学会の学会誌の購読もしくは学会に入会登録することで読めるようになります。 また、会員になると豊富な豪華特典が付いてきます。
電子情報通信学会 - IEICE会誌はモバイルでお読みいただけます。
電子情報通信学会 - IEICE会誌アプリをダウンロード