現代に生きるほとんどの日本人は「くずし字」で書かれた古典籍を読めず,大量に現存する古典籍の内容がわからなくなりつつある。そこで,負荷の高い翻刻の省力化を目的に,新方式OCRを開発した。くずし字を含む古典籍を対象とした原理検証実験の結果,一定の条件下で,精度80%以上の自動テキストデータ化が可能であることを実証した。新方式OCRでは,文字画像を位置情報とともに切り出した字形データベースを構築。この字形データベースから類似字形検索により翻刻対象古典籍の文字の文字コードを特定する。また,完全自動化ではなく,人手と自動処理を組み合わせた作業工程設計により翻刻の総合的な負荷軽減を目指す。新方式OCRの仕組みと,これを用いた翻刻の現況を報告する。
「これは日本語? なんて書いてあるのだろう?」初めて古文書や古典籍注1)を見たとき,現代に生きる日本人の感想は,こんなものではないだろうか。
「古典籍」といわれる資料には,現在われわれが使っている字形とは異なる変体仮名注2)や,見たことのない漢字が,くずし字注3)で,しかもどこで文字が区切れているのかわからないようなつながった形で記されている。図1にさまざまな版本(はんぽん)内のくずし字サンプルを示す。慣れない目には暗号のように見えるのではないだろうか。
日本には江戸時代から出版文化が花開き,世界でもまれなほど多くの資料が残っているという。その数は100万点を超すというのが妥当1)との説もある。しかし,専門知識をもたない多くの現代人にとって,たかだか百数十年前に出版されたこのような古典籍を読解することは極めて困難になってしまっている。個人的な話で恐縮だが,学生時代に古典籍や古文書の一切を避けて過ごし,1年前からくずし字の勉強を始めた筆者にとっては,「くずし字」は外国語と変わらないように感じられる。多くの,特に理系の研究者にとっても同様ではないか。明治時代の半ばまで,研究者ではない一般の日本人がこれらの古典籍をすらすら読んでいたとは信じられない思いである。
ところで,こうしたたくさん残されている古典籍の大部分は翻刻注4)されていないという。しかも,これらが読める日本人はどんどん減っている。一方で紙資料は劣化していく,という危機的な状況がある。OCR(Optical Character Recognition:光学文字認識)技術の進化により,現代の活字文書の解読正解率は99%を超えるが,2015年現在,市販されているOCRソフトの対象範囲はまだ現代文に限られ,古文書の翻刻には利用できない。少なくとも20年ほど前から,危機感を抱いた多くの研究者が古文書OCRに取り組んでいるが,私たちもそれらの先行研究を踏まえたうえで,印刷会社ならではの取り組みが可能ではないかと考えた。
凸版印刷は,これまで書籍制作などを通じて大量データの取り扱いや文字・テキスト処理・校正・校閲の技術を磨いてきた。2013年からは「高精度全文テキスト化サービス」として,OCR技術を活用することによる各種資料の高精度テキストデータ化を事業として展開している。そうした中,「日本語の歴史的典籍の国際共同研究ネットワーク構築計画」を推進する国文学研究資料館と古典籍のデジタル化に関してディスカッションをする機会があり,翻刻におけるさまざまな課題を把握することができた。また,公立はこだて未来大学の寺沢憲吾准教授から「文書画像検索システム2)」をお借りし,このシステムで採用されているワードスポッティング注5)に基づく画像検索エンジンと,凸版印刷の既存のOCR技術基盤を組み合わせることで,くずし字OCRのプロトタイプ版を開発した。凸版印刷,公立はこだて未来大学,国文学研究資料館の3者の協力の下,原理検証実験を実施し,特定の条件下ではあるが,精度80%以上で翻刻が可能であることを実証することができた。2015年7月,江戸時代以前のくずし字をテキストデータ化する古典籍くずし字を含む新方式OCR技術(新方式OCR技術)の開発として,ニュースリリースを行ったところ,大きな反響があり,私たちの課題認識はそれほど間違ってはいなかったのだろうと考えている。
私たちの取り組みは,「完全自動処理」ではなく,専門家と非専門家と自動処理の分業により,翻刻作業の省力化を目指している点を特徴としている。言い換えると,最も貴重なリソースである専門家の時間を,「校閲」へ集中させるための仕組みを提供することを目的としたシステム開発を行っている。自動処理のOCRのみで,100%の解読精度は目指さず,自信がない文字はあえて「〓(ゲタ)」として残し(OCR業界では「確信度が低い文字はRejectする」と表現することが多い),後工程の「人」に判断を委ねることで,結果的に早く,高精度な翻刻ができると判断している。
翻刻の周辺作業を自動化することで,貴重な専門家の時間を有効に活用できるようになれば,より効率的に,より多くの資料の翻刻ができる。そして,数が集まることで,これまで不可能だったような大量のテキストデータに基づく新しい知識の発見・創出が期待される。また,日本の豊かな古典籍を世界中の研究者が利活用する道へもつながることを信じている。
今回開発した古典籍くずし字を含む新方式OCR技術は,誰も見たことがない画期的な新技術ではなく,これまで積み重ねられてきたさまざまな技術や考え方を組み合わせて整理した,総合的な技術である。この技術が,日本文化の継承と発展に役立つのであれば,たいへんうれしいことである。
古典籍くずし字の翻刻およびテキストデータ化は,下記4つの工程を経て実現する(図2下)。
①対象資料用 字形データベース構築
②前処理
③新規翻刻
④校閲・仕上げ
この作業工程の考え方自体は,現代文でのOCR処理を用いた全文テキスト化工程と大きく変わらない。しかし,古典籍の特色として「くずし字」があるため,②対象資料の前処理の工程において,後述する「文字の区切り」を指定する工程が加わる。古典籍くずし字を含む新方式OCR技術は主として③新規翻刻工程のなかで利用する。
従来の翻刻工程と新方式の翻刻工程の考え方の違いを図2上に示す。従来は専門家が担っていた原文の読み下し,入力などを,自動化および非専門家が担うことで省力化を実現する。
翻刻済みの文献を基に,OCRの照合元となる字形データベースを構築する。
字形データベースは,文字の画像を原則として1文字ずつ区切り,それぞれに対して類似字形検索用インデックスおよびメタデータ(文字コード,どの資料のどの部分から抽出した文字であるかの情報等)を付与する(図3)。1文字ごとではなく,連続した複数文字との照合も可能だが,原理検証段階では実施せず,後の実証事業での検証対象とした。
OCR処理を行うために対象の古典籍をスキャニングにより画像データ化する。一般にOCR精度には画像の質が影響するため,解像度,コントラスト,傾き,ゆがみなどに注意して電子化することが望ましい。必要に応じてごみや汚れを除去する。
3.2.2 文字枠の設定資料に対して文字枠の設定を行う。文字枠はある程度自動で認識させることも可能だが,現時点では,人手により文字枠を1文字ずつ区切る工程を設けた方が効率的である。文字枠の設定は,くずし字を学んでいる学生であれば十分に担えると考える(図4)。
3.2.2で設定した文字枠に対して,字形データベース内の類似字形を検索し(図5),候補文字を類似度が高い順に並べる(図6)。この類似字形の検索に,公立はこだて未来大学の寺沢准教授から貸与いただいた「文書画像検索システム」を利用している。
この処理では,枠で区切られた翻刻対象文字の「画像」に対し,字形データベースの中の複数の「文字画像」から最も近似値となる画像を推定し,その文字画像にひも付く文字コードを適用している。ただし,すべての候補文字の類似度が事前に設定された一定の基準値に満たなかった場合,この段階では対象文字が推定できなかったものと見なし,いったん「〓」記号を適用する。
この文字コード推定処理を翻刻対象とするすべてのページと文字に対して繰り返し実施することで,翻刻の最初の段階が完了する(図7)。原理検証実験では,この段階での精度は約80%であった。
3.3.1で文字コードが決定できず一時的に「〓」記号を設定した文字に対して,再度字形データベースを参照し,候補文字を一覧表示させ,作業者が目視で文字コードを決定する。ここでも作業者が文字コードを決定しえなかった文字は,「〓」記号のまま残す。原理検証実験では,この段階での精度は約95%であった。
3.3.3 翻刻工程3(専門家による校正)非専門家による3.3.2までの工程で文字コードを決定できなかった文字は「〓」として残されているため,古典籍に関する専門家が文脈等から判断して文字コードを決定し翻刻が完了する(あるいは専門家でも文字を決定できずに「〓」のまま残される可能性もある)。
品質保証のため,専門家による確認工程を省略することは現時点では困難であるが,一から専門家が作業する必要があった従来の手法に対して,下読みとして少なくとも80%以上の翻刻が完了しており,残り20%も「〓」として明示されている段階から開始することができるようになれば,かなりの省力化が実現できると考える(図8)。
翻刻工程完了後の資料を基に文字の切り出しを行い,3.1で述べた字形データベースへ反映することができる。
3.5 仕上げ現代人が古典籍に記された内容を理解するためには,翻刻工程の後にもう1段階,漢字・仮名遣いの変更と現代語訳が必要である。
江戸期の和本のひらがなが延々と続くような文章表現は単語の切れ目がわかりにくく,適度に漢字と仮名が交じった漢字・仮名交じり文に慣れた現代人には非常に読みにくいため,仮名をルールに従って漢字に置き換える作業を行う。この際,歴史的仮名遣いを現代仮名遣いに改めることもある。
現代の出版物に,「いとをかし」とは書かれていない。古典籍に「いいね!」とも書かれていない。翻刻文をまず現代語に翻訳することにより,その先の英語をはじめとした多言語への翻訳が容易になる。世界に向けて日本の古典籍の奥深さを発信できる日も近いかもしれない。
OCR精度を測定するにあたって実施した原理検証において,国文学研究資料館より,検証用の対象資料の選定と,資料の画像データおよび翻刻データ貸与の協力を得た(図9)。
「源氏物語」五十四巻五十四冊より「桐壷」の巻 承応3年(1654),八尾勘兵衛版
源氏物語の桐壷巻(1万1,286文字)を字形データベースとし,「帚木(ははきぎ)」冒頭の2,382文字をOCRモードで翻刻した。その結果を図10に示す。多数決処理の結果,確信度が低いとして「〓」に設定した文字を誤認識としてカウントするか否かによって,読み取り正答率の考え方が変わるので,読み取り正答率の線を2通り示す。
字形データベースの大きさ,OCRとしての確信度のどこで切り捨てるべきか,翻刻スピード,専門家による確認作業のコスト等を総合的に考慮し,今後の実証実験の中で最適解を求めていく予定である。
原理検証の結果,読み取り困難であった例を図11に示す。また,検証に利用したのが,仮名中心の資料であったため,漢字の登場頻度が少なく,総じて漢字の読み取り正答率は低かったが,これは字形データベースを拡大していくことで改善される。引き続き,読み取り正答率の向上にむけたルール化と技術検証,字形データベース拡大に取り組んでいく。
「古典籍くずし字を含む新方式OCR技術」には,技術面,運用面においての大きな課題がある。
現在の技術面における重要課題は,「字形データベースの種別の拡大」と「認識速度の向上」である。読者の多くもご存じのように,古典籍と一口にいっても,資料の種類,制作された年代,筆耕者等の違いによりさまざまな形態の文字が存在している。これらを1つの字形データベースで管理しようとするのは現実的ではなく,資料のタイプ別に複数の字形データベースを切り替える仕組み,あるいは最適な字形データベースを計算により推定する仕組みが必要であると考える。字形データベースについては,地道な実証実験の積み重ねによる拡充が必須であると考えており,広く関係者の皆さまの助力を願いたい。最終的には江戸期に制作された版本ならばどのようなものでも精度80%以上で文字認識できるようにしたいと考えている。また,字形データベースを大きくしても実用的なOCRとして機能させるためには,認識速度の大幅な向上が必要になると予想している。認識速度の向上に関しては,検索アルゴリズムの改善,並列処理,大規模分散コンピューティングの採用等による改善施策を検討中である。
また,多くの専門家からご指摘いただいたが,古典籍の翻刻では,字形データベースによる翻刻では原理的に不可能な「文脈的にしか決定し得ない文字」をどのように取り扱うかという大きな問題が存在する。古典籍に限らないことであるが,注釈,かすれ,つぶれ,誤字,ルビの取り扱い等に関するルール策定も求められる。現時点で本技術は,大量に存在し,翻刻されていない版本を主な対象としているが,原理検証で利用した「草子」だけでなく,「物の本」や「地本」,さらには文字種が多様な「写本」への対象範囲拡大も,今後の大きな課題である。
運用面では,くずし字のOCRを実施する前提として,文字枠を人手で区切るという作業を想定しているが,その作業はまったくの素人では難しく,この人員の安定的な確保が必要となる。また,古典籍はその成り立ち上,著作者人格権は失効していることが多いが,それでも,著作隣接権,所有権,肖像権などさまざまな関連する権利の扱いが整備されなければ,翻刻後の利活用はおぼつかない。また,いまだ文字コードから外されている変体仮名の取り扱いについてのルール決めも必要であろう。学術的要請を満たす変体仮名セットはまだない3)。これらも大きな課題である。
古典籍くずし字を含む新方式OCR技術開発のニュースリリース後,予想よりも多くの反響があり,多くのメディアに取り上げていただいた。専門家から「古文書,古典籍のなんたるかをわかっていない」とお叱りを受けることを覚悟していたが,ありがたいことに,ほとんどが温かいご声援とご協力の申し出であった。本件に関心を抱き,さまざまな声を寄せてくださったすべての方に感謝申しあげたい。また,原理検証にあたって,文書画像検索システムを貸与してくださった公立はこだて未来大学の寺沢准教授,新技術開発に至る過程でさまざまなご協力をいただいた国文学研究資料館の皆さまに,心より謝辞を申しあげる。
今回の「古典籍くずし字を含む新方式OCR技術」は,あくまでも原理検証により一定の条件下での有効性が実証され,今後の実用化へつながる道筋がみえた,という段階である。先に述べてきたように,まだ多くの関門があることがわかっており,引き続き実証実験を通じて課題解決に向けた研究開発を進めている最中である。実証実験の結果を踏まえて,この先,2016年度中の実用化とサービス提供を目指している。課題は多いが,どうか今後の取り組みを,温かく見守っていただければ幸いである。
凸版印刷株式会社情報コミュニケーション事業本部ICTソリューションセンターソリューション推進部所属。デジタルアーカイブ担当。電子化,メタデータ設計,システム構築等における事業企画兼渉外窓口担当。
凸版印刷株式会社情報コミュニケーション事業本部トッパンアイデアセンタークリエイティブ本部所属。書籍やデジタルコンテンツ制作における技術開発に従事。