特集 3. 【文字認識】文字とは何か? ――深層学習により見えてきた新たな問い――

電子情報通信学会 - IEICE会誌 試し読みサイト
Vol.105 No.5 (2022/5) 目次へ

前の記事へ次の記事へ


特集3. 第2部 画像分野
【文字認識】
文字とは何か?
――深層学習により見えてきた新たな問い――
What Are Letters?: A New Horizon of Document Image Analysis Research by Deep Learning
内田誠一

内田誠一 正員:フェロー 九州大学大学院システム情報科学研究院情報知能工学部門

E-mail uchida@ait.kyushu-u.ac.jp

Seiichi UCHIDA, Fellow (Faculty of Information Science and Electrical Engineering, Kyushu University, Fukuoka-shi, 819-0395 Japan).

電子情報通信学会誌 Vol.105 No.5 pp.371-374 2022年5月

©電子情報通信学会2022

abstract

 文字認識は,画像応用の中でも特に長い歴史を持つ分野である.様々な文字特徴や識別法の提案など膨大な研究がなされてきたが,深層学習により圧倒的な認識精度向上が図られた.データ収集も大規模化が進み,情景内文字や古文書,数式,表,レイアウトといった従来技術では困難であった対象にも深層学習が適用されるようになり,やはり認識精度の大幅な改善につながっている.更に現在,深層学習は「文字と人間との関わり方」を検証可能にしつつある.本稿ではこれら「最近の文字・文書認識技術」及び「今後の展開」について概観する.

キーワード:文字,文字認識,深層ニューラルネットワーク,フォント

1.文字認識小史

 今この瞬間がそうであるように,我々は文字とともに暮らしている.筆記やタイプにより文字を生成し,そして紙面や看板やディスプレイ上の文字を読んで,多様で豊潤なコミュニケーションを成立させている.人類は様々な技術革新を起こしてきた.一方,その歴史を記述する文字自体は,5,000年以上にわたり,ほぼ同じ形態で利用されてきた.人類のコミュニケーションにそれほど適したメディアなのである.

 文字が重要な情報源であることの当然の帰結として,それらを自動認識して利活用したいという考えが起きた.コンピュータ誕生前夜の1929年,Tauschekにより世界初の文字認識(OCR:光学的文字読取り装置)が特許化された.その後は1950年代から商用化が進み,1960年代には郵便区分機(郵便物上の郵便番号を読み取って自動仕分けする機械)の導入が開始された.そして現在は,スキャンされた紙上の文字だけでなく,カメラで撮影された文字も認識可能になった.情景内文字認識と呼ばれるこの技術により,看板やパッケージ表面の装飾的な文字でも,気軽に認識できるようになった.

 文字に関する従来の研究開発の多くは,この文字認識に関するものであり,それらはより高い認識率を目指すものであった.この目標のために,実に様々な特徴や識別手法が試みられてきた.特に前者については,「変形に対して不変でありながら,文字種ごとの識別性を保持する」特徴を抽出すべく,文字ストロークの局所的な方向に基づくもの(方向特徴),文字の概形に関するもの,統計的解析に基づくもの,信号処理に基づくものなど,膨大な提案がなされてきた.ある意味で,文字認識の歴史はこうした特徴抽出の歴史と言ってもよい.もちろん識別手法についても,ありとあらゆる方法が適用されてきた.

2.深層学習のインパクト

2.1 進んでいたのに遅れてやってきたインパクト


続きを読みたい方は、以下のリンクより電子情報通信学会の学会誌の購読もしくは学会に入会登録することで読めるようになります。 また、会員になると豊富な豪華特典が付いてきます。


続きを読む(PDF)   バックナンバーを購入する    入会登録

  

電子情報通信学会 - IEICE会誌はモバイルでお読みいただけます。

電子情報通信学会誌 会誌アプリのお知らせ

電子情報通信学会 - IEICE会誌アプリをダウンロード

  Google Play で手に入れよう

本サイトでは会誌記事の一部を試し読み用として提供しています。