小特集 2-1 文字データの分析――機械学習によるくずし字認識の可能性とそのインパクト――

電子情報通信学会 - IEICE会誌 試し読みサイト
Vol.102 No.6 (2019/6) 目次へ

前の記事へ次の記事へ


2. 歴史的な文字・非文字データとICT

小特集2-1

文字データの分析

――機械学習によるくずし字認識の可能性とそのインパクト――

Analysis of Character Data:Potential and Impact of Kuzushiji Recognition by Machine Learning

北本朝展 カラーヌワット・タリン 宮崎 智 山本和明

北本朝展 正員 情報・システム研究機構データサイエンス共同利用基盤施設人文学オープンデータ共同利用センター

カラーヌワット・タリン 情報・システム研究機構データサイエンス共同利用基盤施設人文学オープンデータ共同利用センター

宮崎 智 正員 東北大学大学院工学研究科通信工学専攻

山本和明 人間文化研究機構国文学研究資料館

Asanobu KITAMOTO, Member, Tarin CLANUWAT, Nonmember (ROIS-DS Center for Open Data in the Humanities, Research Organization of Information and Systems, Tokyo, 101-8430 Japan), Tomo MIYAZAKI, Member (Graduate School of Engineering, Tohoku University, Sendai-shi, 980-8579 Japan), and Kazuaki YAMAMOTO, Nonmember (National Institute of Japanese Literature, Tachikawa-shi, 190-0014 Japan).

電子情報通信学会誌 Vol.102 No.6 pp.563-568 2019年6月

©電子情報通信学会2019

1.は じ め に

 世界的に見ても,日本は過去の資料(史料)が多く残る国である.一説によると,古典籍(用語)は約300万冊,古文書・古記録は約10億冊がまだ残っているという.これらは過去の日本の文化を今に伝える情報の宝庫であり,日本文化に関する研究を進めるには,より多くの資料(史料)を読み解いていく基礎的な研究が欠かせない.そうした研究を後押しするように,ここ数年,古典籍の大規模なディジタル化とオープン化が急速に広まってきた.そして,Web経由で日本の古典籍や古文書・古記録などの画像にアクセスし,研究に活用する環境も整いつつある.

 しかしそこに立ちはだかる大きな障壁が「くずし字」の問題である.もし古典籍画像からそこに書かれたテキストを取り出せれば,全文検索などの技術を用いてコンテンツへのアクセス性を大幅に向上させることができる.しかし,くずし字は日本人でも読める人は少なく,機械によるくずし字OCR(用語)も改良の余地が大きいため,古典籍のテキスト化は難航しているのが現状である.そこで,機械学習に基づくくずし字認識によって,画像テキスト化問題の解決を目指す研究が進みつつある.文字データ公開,コンテスト開催,くずし字認識モデル開発など,くずし字認識研究の最前線と今後の課題を紹介する.

2.歴史的典籍NW事業と古典籍オープンデータ

2.1 歴史的典籍NW事業とは

 「日本語の歴史的典籍の国際共同研究ネットワーク構築計画(略称:歴史的典籍NW事業)」とは,国文学研究資料館(国文研)で現在進められている文部科学省の大規模学術フロンティア促進事業のことを指す.期間は2014年4月からの10年間である.


続きを読みたい方は、以下のリンクより電子情報通信学会の学会誌の購読もしくは学会に入会登録することで読めるようになります。 また、会員になると豊富な豪華特典が付いてきます。


続きを読む(PDF)   バックナンバーを購入する    入会登録


  

電子情報通信学会 - IEICE会誌はモバイルでお読みいただけます。

電子情報通信学会誌 会誌アプリのお知らせ

電子情報通信学会 - IEICE会誌アプリをダウンロード

  Google Play で手に入れよう

本サイトでは会誌記事の一部を試し読み用として提供しています。