主催: 一般社団法人 人工知能学会
会議名: 2024年度人工知能学会全国大会(第38回)
回次: 38
開催地: アクトシティ浜松+オンライン
開催日: 2024/05/28 - 2024/05/31
光学文字認識(OCR)は画像から文字を認識する技術である.深層学習の登場によって継続的に精度が向上しており,書類の電子化等の効率化に貢献できると期待されている.例えば店舗情報を掲載サイトに手動で入稿するには長期の工数が必要だが,店舗が持つドキュメント画像にOCRを適用することで作業を自動化できる.ただし,これらのタスクの多くはOCR結果の羅列だけでは不十分であり,キーとバリューの関係を抽出し整理した上でユーザに提示することが望ましい.表構造が存在する場合は位置情報に基づいて関係抽出できるが,現実の多くは非構造化データのテキストで構成されており,文脈を踏まえて関係を特定する必要がある.こういった画像では品質を確保することが難しく,OCR実用化の障壁となっている.一方で,近年大規模言語モデル(LLM)が盛んに研究されており,複雑な文章においても文脈理解の精度が飛躍的に向上してきている.そこで本研究ではOCR結果にLLMを適用し関係抽出することにした.表構造の少ないドキュメント画像向けに特化した後処理やLLMのファインチューニングによって,高精度に関係抽出する手法を考案し有効性を検証した.