Multimodal Large Language Model を活用した構造物の新規視点画像の自動生成

小野嶋 珠璃; 谷口 慶太郎; 山根 達郎

doi:10.11532/jsceiii.7.1_315

抄録

既設構造物の維持管理において構造物のデジタルツインの活用が期待されている．構造物の点検実務では，可視範囲の情報から未知の状態の仮説を立て検証するプロセスが必要不可欠であり，デジタルツインを活用する場合はサイバー空間で推定した情報を実構造物での検査にフィードバックするプロセスに相当する．そこで本研究では，Structure from Motion (SfM) により取得したカメラ姿勢を活用し，画像生成モデルにより未知の視点からの画像を自動生成する手法を提案した．具体的には，Multimodal Large Language Model を用いて，既知の画像のカメラ姿勢に基づいて未知視点領域の仮想カメラを設定し，その視点の画像を生成する．提案手法を実構造物に適用した結果，視点移動に伴うパース変化が破綻なく表現された．

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

J-STAGEへの登録はこちら（無料）