人工知能学会全国大会論文集
Online ISSN : 2758-7347
第36回 (2022)
セッションID: 1H4-OS-17a-03
会議情報

Vision Transformer と BERT を用いた漫画のマルチモーダル識別
*青木 尚人森 直樹岡田 真
著者情報
会議録・要旨集 フリー

詳細
抄録

深層学習の発展を背景として,人工知能 ( AI ) による小説,イラストの自動生成といった分野の研究が盛んである. しかし, 創作の理解は高次の知的作業であり計算機による理解は困難な課題である. 本研究では人間の創作物の中でも代表的なマルチモーダルな創作物である漫画を扱う. 漫画は絵と字から構成されるため, 画像処理としての側面と自然言語処理としての側面を持っている. よって本研究では漫画の画像とセリフの分散表現を用いた識別問題を解くことで,画像と自然言語を結びつけて,AIに理解させることを目的とする. 画像の分散表現化の手法には Vision Transformer ( ViT ) を用い,自然言語の分散表現化には Bidirectional encoder representations from transformers(BERT) を用いた. それぞれから得られた分散表現を組み合わせて識別器に入れることで作品識別した. 結果として Vision Transformer のみを用いた画像識別,BERT のみを用いた自然言語処理の両方の結果を上回る高精度な結果が得られた.

著者関連情報
© 2022 人工知能学会
前の記事 次の記事
feedback
Top