2022 年 3 巻 J2 号 p. 470-478
本文では,地下鉄トンネル点検時の技術者の一人称視点映像を用いた,Vision Transformerに基づく変状検出手法を提案する.提案手法では,大規模一般画像データセットで学習したVision Transformerに一人称視点映像より取得したフレームを用いてfine tuningを施すことにより,地下鉄トンネル内の変状検出を行う.さらに,Vision Transformerを自己教師あり学習手法であるDINOを用いて学習することにより,変状検出結果の判断根拠となるattention mapの生成を行う.以上により,提案手法は,変状検出の高精度化と検出結果の判断根拠の提示を実現する.本文の最後では,実際の技術者の一人称視点映像を用いた実験を行うことにより,提案手法の有効性を確認する.