初期刊本の画像データを用いた活字の識別の正確かつ効率的な手法を開発した。この手法により, 一般のOCRソフトでは処理できない典型的な初期刊本についても, 大規模なテキストデータ化が可能になると期待される。
次に, 西洋最初の印刷本であるグーテンベルク聖書の画像を対象に本活字識別手法を応用した。識別結果に基づき, 活字を客観的な基準で分析するため, 活字画像のクラスタリングを行い, 活字の鋳造方法についての先行研究を検証した。また, 識別結果に基づきトランスクリプションデータを作成し, XMLによる本文記述を行った。
An efficient and precise method of identifying individual type of the early printed books was developed, which is indispensable in making transcription of early printed books, since ordinary OCR software cannot deal with them. The proposed method is expected to enable to make transcription data of the early printed books on large scale.
The proposed method was applied to the digital images of the first printed book in Europe, the Gutenberg Bible. Cluster analysis of the type images were conducted in order to shed some light objectively on the early metods of making types. Furthremore, Based on the result of the type image recognition, transcription data was also made, and then described in XML format.