人工知能学会全国大会論文集
Online ISSN : 2758-7347
第38回 (2024)
セッションID: 4A1-GS-6-01
会議情報

大規模言語モデルチューニングによる非構造ドキュメント画像向けOCRテキスト解析
*中田 百科江上 尚志福地 鈴佳久保田 茉莉花薬師寺 政和
著者情報
会議録・要旨集 フリー

詳細
抄録

光学文字認識(OCR)は画像から文字を認識する技術である.深層学習の登場によって継続的に精度が向上しており,書類の電子化等の効率化に貢献できると期待されている.例えば店舗情報を掲載サイトに手動で入稿するには長期の工数が必要だが,店舗が持つドキュメント画像にOCRを適用することで作業を自動化できる.ただし,これらのタスクの多くはOCR結果の羅列だけでは不十分であり,キーとバリューの関係を抽出し整理した上でユーザに提示することが望ましい.表構造が存在する場合は位置情報に基づいて関係抽出できるが,現実の多くは非構造化データのテキストで構成されており,文脈を踏まえて関係を特定する必要がある.こういった画像では品質を確保することが難しく,OCR実用化の障壁となっている.一方で,近年大規模言語モデル(LLM)が盛んに研究されており,複雑な文章においても文脈理解の精度が飛躍的に向上してきている.そこで本研究ではOCR結果にLLMを適用し関係抽出することにした.表構造の少ないドキュメント画像向けに特化した後処理やLLMのファインチューニングによって,高精度に関係抽出する手法を考案し有効性を検証した.

著者関連情報
© 2024 人工知能学会
前の記事 次の記事
feedback
Top