大規模言語モデルチューニングによる非構造ドキュメント画像向けOCRテキスト解析

中田 百科; 江上 尚志; 福地 鈴佳; 久保田 茉莉花; 薬師寺 政和

doi:10.11517/pjsai.JSAI2024.0_4A1GS601

抄録

光学文字認識（OCR）は画像から文字を認識する技術である．深層学習の登場によって継続的に精度が向上しており，書類の電子化等の効率化に貢献できると期待されている．例えば店舗情報を掲載サイトに手動で入稿するには長期の工数が必要だが，店舗が持つドキュメント画像にOCRを適用することで作業を自動化できる．ただし，これらのタスクの多くはOCR結果の羅列だけでは不十分であり，キーとバリューの関係を抽出し整理した上でユーザに提示することが望ましい．表構造が存在する場合は位置情報に基づいて関係抽出できるが，現実の多くは非構造化データのテキストで構成されており，文脈を踏まえて関係を特定する必要がある．こういった画像では品質を確保することが難しく，OCR実用化の障壁となっている．一方で，近年大規模言語モデル（LLM）が盛んに研究されており，複雑な文章においても文脈理解の精度が飛躍的に向上してきている．そこで本研究ではOCR結果にLLMを適用し関係抽出することにした．表構造の少ないドキュメント画像向けに特化した後処理やLLMのファインチューニングによって，高精度に関係抽出する手法を考案し有効性を検証した．

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）