視覚言語融合タスクにおけるTransformerの自動構造探索

菅沼 雅徳

doi:10.11517/pjsai.JSAI2022.0_3J4OS3b05

抄録

Transformerが提案されて以来，画像認識，自然言語処理，それらの融合タスクなど幅広い分野でその優れた性能を示している．一般的に，深層学習モデルのネットワーク構造が性能に与える影響は大きく，Transformerもその例外ではない．しかし，学習コストの高さから，十分にTransformerの構造探索が実施されておらず，その潜在能力を最大限に発揮しているとは言えないのが現状である．そこで本論文では，まず多種多様なTransformerが構築可能な探索空間を設計し，そしてその膨大な探索空間を高速に探索可能な構造探索手法を提案する．本手法を視覚言語融合タスク上で評価し，探索によって得られたTransformerが標準的なTransformerよりも優れた性能を示すことを実験的に明らかにする．また，探索によって得られた構造を解析することで，どのような構成要素がTransformerでは重要なのかを明らかにする．

著者関連情報

お気に入り & アラート

閲覧履歴

Experimental Operanda for Adult Humans: Comparison of a Touch Screen and a Game Pad

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）