人工知能学会全国大会論文集
Online ISSN : 2758-7347
第38回 (2024)
セッションID: 4N3-GS-6-01
会議情報

非構造ドキュメント画像向けOCRテキスト解析のための進化計算に基づく自動プロンプトエンジニアリング
*江上 尚志中田 百科福地 鈴佳久保田 茉莉花薬師寺 政和
著者情報
会議録・要旨集 フリー

詳細
抄録

Optical Character Recognition(OCR)は画像から文字抽出する技術であり,これによりドキュメント画像を元にした掲載サイトへの入稿工数を大幅に削減できると期待される.しかし,入稿では文字抽出だけでなく,キーとバリューの関係を抽出する必要がある.表構造が存在する場合これは容易であるが,非構造ドキュメントは多様な形式を有するため高精度な抽出は難しい.近年,大規模言語モデル(Large Language Model, LLM)の進展により,多様な文章の理解が可能になってきた.さらにLLMはタスクに応じた自動プロンプトエンジニアリングにより精度が向上するとされており,OCR結果に適用することで関係抽出の高精度化が期待される.しかし,非構造ドキュメントの最適化には十分なデータを必要とし,LLMの推論回数増加に伴い計算コストの課題が生じる.そこで本研究では,進化計算に基づく自動プロンプトエンジニアリングにミニバッチ法を適用し,少ない推論回数でプロンプトを最適化する手法を開発した.得られたプロンプトによりOCRデータから高精度に関係抽出できることを示した.

著者関連情報
© 2024 人工知能学会
前の記事 次の記事
feedback
Top