言語から画像を生成する深層学習モデルの挙動に関する考察

藤山 千紘; 小林 一郎

doi:10.11517/pjsai.JSAI2019.0_2L1J902

第33回 (2019)

セッションID: 2L1-J-9-02

DOI https://doi.org/10.11517/pjsai.JSAI2019.0_2L1J902

会議情報

主催: 一般社団法人人工知能学会

会議名: 2019年度人工知能学会全国大会（第33回）

回次: 33

開催地: 新潟県新潟市朱鷺メッセ

開催日: 2019/06/04 - 2019/06/07

言語から画像を生成する深層学習モデルの挙動に関する考察

*藤山千紘, 小林一郎

著者情報

キーワード: 言語と画像のグラウンディング, 深層学習, 画像生成

会議録・要旨集フリー

詳細

抄録

本研究では，ヒトの知能のメカニズムを反映して動作する汎用人工知能の構築に向けた基礎的な取り組みとして，text-to-imageモデルを対象に，計算機構の挙動や特徴表現空間の構造の分析を行う．初めに，入力キャプションから単語の境界情報を欠落させた場合の画像生成を行い，モデルの言語エンコード能力および画像生成能力を調べる．その結果，定性的にも定量的にもキャプション内容に適合する画像を生成し得たが言語の意味の単位をモデルが獲得している様子は確認されなかった．二つ目に，埋め込み空間での単語の意味の構成的特性を分析し，空間を意味する単語間に単語の意味の加法構成性が現れる可能性を示唆する結果を得た．

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）