Vision Transformer と BERT を用いた漫画のマルチモーダル識別

青木 尚人; 森 直樹; 岡田 真

doi:10.11517/pjsai.JSAI2022.0_1H4OS17a03

抄録

深層学習の発展を背景として，人工知能 ( AI ) による小説，イラストの自動生成といった分野の研究が盛んである．しかし, 創作の理解は高次の知的作業であり計算機による理解は困難な課題である. 本研究では人間の創作物の中でも代表的なマルチモーダルな創作物である漫画を扱う．漫画は絵と字から構成されるため, 画像処理としての側面と自然言語処理としての側面を持っている. よって本研究では漫画の画像とセリフの分散表現を用いた識別問題を解くことで，画像と自然言語を結びつけて，AIに理解させることを目的とする．画像の分散表現化の手法には Vision Transformer ( ViT ) を用い，自然言語の分散表現化には Bidirectional encoder representations from transformers(BERT) を用いた．それぞれから得られた分散表現を組み合わせて識別器に入れることで作品識別した．結果として Vision Transformer のみを用いた画像識別，BERT のみを用いた自然言語処理の両方の結果を上回る高精度な結果が得られた．

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）