国会および地方議会の会議録に基づく大規模なコーパスと事前学習済み言語モデルの構築

永渕 景祐; 木村 泰知; 門脇 一真; 荒木 健治

doi:10.5715/jnlp.31.707

抄録

本研究では，Web 上に公開されている国会および地方議会の会議録を収集し，大規模な会議録コーパスを構築した．また，会議録コーパスを用いて，いくつかの派生系を含む日本語の政治ドメインに適応した事前学習済み言語モデルを構築した．政治ドメインのタスクでは，提案モデルは従来のモデルよりも優れた性能を示し，汎用ドメインのタスクでも，提案モデルは従来のモデルに匹敵する性能を示した．また，追加の事前学習によるドメイン適応において，学習ステップ数の増加が性能の向上に影響を大きく与えていることや，最初の事前学習で用いたコーパスも併用することで，非適応ドメインの性能を維持しつつ適応ドメインにおける性能を向上させることが可能であることを示した．

著者関連情報

Licensed under CC BY 4.0
https://creativecommons.org/licenses/by/4.0/

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

J-STAGEへの登録はこちら（無料）