受容野の自動最適化によるモードに適応的なTransformerの開発

浅倉 拓也; 井上 中順; 横田 理央; 篠田 浩一

doi:10.11517/pjsai.JSAI2023.0_4I3OS1b05

抄録

近年の深層学習による画像処理分野において，畳み込みの代わりにAttentionを特徴抽出に用いるVision Transformer（ViT）が高い性能を発揮した．この成果はTransformerが自然言語と画像の両者に対応可能であることを示しており，データのモードに依存しない汎用的なモデルとして期待されている．一方，ViTの派生モデルの多くは特徴抽出の受容野を絞ることで画像処理における頑強性を向上させているため，音声などの時系列データに対する適応力は損なわれている．本研究では，与えられたデータのモードに対して適応的に受容野を最適化する手法を提案する．提案手法を用いたTransformerベースのモデルを作成し，画像と音声の2種類のデータについて実験を行った結果，両者において従来手法以上の性能を発揮した．また，画像データに対して最適化した提案手法は一般的な画像処理フィルタに似た形状に収束した一方で，音声データに対しては長期的な依存関係を抽出する形状に収束しており，提案手法がデータのモードに応じて適した受容野を獲得可能であることが示されている．

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）