主催: 一般社団法人 人工知能学会
会議名: 2023年度人工知能学会全国大会(第37回)
回次: 37
開催地: 熊本城ホール+オンライン
開催日: 2023/06/06 - 2023/06/09
近年の深層学習による画像処理分野において,畳み込みの代わりにAttentionを特徴抽出に用いるVision Transformer(ViT)が高い性能を発揮した.この成果はTransformerが自然言語と画像の両者に対応可能であることを示しており,データのモードに依存しない汎用的なモデルとして期待されている.一方,ViTの派生モデルの多くは特徴抽出の受容野を絞ることで画像処理における頑強性を向上させているため,音声などの時系列データに対する適応力は損なわれている.本研究では,与えられたデータのモードに対して適応的に受容野を最適化する手法を提案する.提案手法を用いたTransformerベースのモデルを作成し,画像と音声の2種類のデータについて実験を行った結果,両者において従来手法以上の性能を発揮した.また,画像データに対して最適化した提案手法は一般的な画像処理フィルタに似た形状に収束した一方で,音声データに対しては長期的な依存関係を抽出する形状に収束しており,提案手法がデータのモードに応じて適した受容野を獲得可能であることが示されている.