データからの言語生成におけるスタイルと内容の分離

濵園 侑美; 上原 由衣; 石垣 達也; 宮尾 祐介; 高村 大也; 小林 一郎

doi:10.11517/pjsai.JSAI2023.0_4Xin171

第37回 (2023)

セッションID: 4Xin1-71

DOI https://doi.org/10.11517/pjsai.JSAI2023.0_4Xin171

会議情報

主催: 一般社団法人人工知能学会

会議名: 2023年度人工知能学会全国大会（第37回）

回次: 37

開催地: 熊本城ホール＋オンライン

開催日: 2023/06/06 - 2023/06/09

データからの言語生成におけるスタイルと内容の分離

*濵園侑美, 上原由衣, 石垣達也, 宮尾祐介, 高村大也, 小林一郎

著者情報

キーワード: 自然言語処理, 言語生成, Data-to-text

会議録・要旨集フリー

詳細

抄録

非言語データを入力として文章を生成するdata-to-textのタスクでは，近年さまざまなデータを題材にend-to-end学習を行なうことで，高い生成性能を発揮している．Data-to-textにおいて，特に実世界で得られたデータと文章を用いる場合，入力のデータから目的の文章の属性を予測できず，目的の文章が生成できない場合があると指摘されている．このような予測不可能な属性を含むデータセットを用いる場合，データおよび文章の分析により，不足した属性を獲得し，入力として補うことで，文章の生成精度が向上し，さらにデータの内容をより正しく記述できることが確認されている．つまり，より正しくデータを記述するには，データの他に文章のスタイルを入力する必要があると言える．そこで，本研究ではDisentangledな表現学習による入力文章から文章の内容とスタイルを分離する手法をdata-to-textに適用し，入力データと文章から得られたスタイル表現による文章生成を検証する．さらに，文章から得られたスタイル表現を分類することで，入力データから得られない文章の属性を抽出する方法について検証する．

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）