Visual language modelを用いた変状画像に対する所見の自動生成—類似画像検索によるFew-shot learningの導入—

渡邉 優宇人; 小川 直輝; 前田 圭介; 小川 貴弘; 長谷山 美紀

doi:10.11532/jsceiii.4.3_223

抄録

本研究では，インフラ施設の点検過程で作成される点検記録に必要な所見の効率的な作成支援のため，Visual language modelを活用した所見の自動生成手法を提案する．変状画像から認識可能な事柄に加えて，技術者の判断や意見を含む文章である所見は点検記録の作成に不可欠であるが，その直接的な生成に対する議論は依然として少なく，所見の効率的な作成支援に向けた生成技術の実現が期待されている．そこで本稿では，近年，注目されている大規模言語モデルの応用研究である視覚と言語の双方を高精度に理解したテキスト出力を可能とするVisual language modelに対して，変状画像に対する類似画像検索に基づくFew-shot learningを導入することで，少数の変状画像および所見の組から効率的にその関係性を把握可能とする．本稿の最後では，実際の橋梁点検記録に含まれる変状画像から所見を生成する検証により，提案手法の有効性を確認する．

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

J-STAGEへの登録はこちら（無料）