国立国会図書館では著作権の切れた明治初期〜昭和中期の書籍約37万冊をWeb上で公開している。しかしながら他の電子書籍と異なり、この近代デジタルライブラリは画像として公開されているため、テキストでの検索ができない。一般に書籍の画像から文字を読みだすにはOCRが使われるが、現在利用されているOCRではフォントの規格のなかった活版印刷の近代書籍文字は読み取ることができない。本講座では、近代書籍用のOCR研究がどのように始まって、どのような問題点が発覚し、それをどのように解決したかを解説する。また近代書籍用OCRの開発に利用した人工知能技術についても易しく解説する。最後に現在準備が進められている公文書現代文訳プロジェクトについても紹介し、近代デジタルライブラリ用OCRとのコラボの計画についても触れる。
|