非構造ドキュメント画像向けOCRテキスト解析のための進化計算に基づく自動プロンプトエンジニアリング

江上 尚志; 中田 百科; 福地 鈴佳; 久保田 茉莉花; 薬師寺 政和

doi:10.11517/pjsai.JSAI2024.0_4N3GS601

抄録

Optical Character Recognition（OCR）は画像から文字抽出する技術であり，これによりドキュメント画像を元にした掲載サイトへの入稿工数を大幅に削減できると期待される．しかし，入稿では文字抽出だけでなく，キーとバリューの関係を抽出する必要がある．表構造が存在する場合これは容易であるが，非構造ドキュメントは多様な形式を有するため高精度な抽出は難しい．近年，大規模言語モデル（Large Language Model, LLM）の進展により，多様な文章の理解が可能になってきた．さらにLLMはタスクに応じた自動プロンプトエンジニアリングにより精度が向上するとされており，OCR結果に適用することで関係抽出の高精度化が期待される．しかし，非構造ドキュメントの最適化には十分なデータを必要とし，LLMの推論回数増加に伴い計算コストの課題が生じる．そこで本研究では，進化計算に基づく自動プロンプトエンジニアリングにミニバッチ法を適用し，少ない推論回数でプロンプトを最適化する手法を開発した．得られたプロンプトによりOCRデータから高精度に関係抽出できることを示した．

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）