SDGs日本語データセット及び分類タスクベースラインの作成

張 鑫; 本木 悠介; 曽根岡 侑也; 岩澤 有祐; 松尾 豊

doi:10.11517/pjsai.JSAI2020.0_1D3GS1305

抄録

SDGs（持続可能な開発目標）は社会システムや産業構造を変えている現在、アカデミーによる取組が求められるようになってきた。しかし、日本語リソースが少ないため日本での取組が困難であった。本研究では、日本語のSDGs関連データを大学が公表している資料から集め、データセットを作成した。そして、SDGs分類モデルを構築した。オーギュメンテーション手法として、1. BERT MASKモデルを用いて品詞置き換え 2. Google transferを用いて英訳したものを再度日本語訳した逆翻訳手法を用いた。古典機械学習手法であるトピックモデル(LDA等)及び深層学習モデルであるBERT等を用いて分類を行った。結果は少数データタスクにおいてオーグメンテーションの成果を示す。また、データ数が少ない中で比較的に高い精度を出すことを目指す。

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）