自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
一般論文(査読有)
国会および地方議会の会議録に基づく大規模なコーパスと事前学習済み言語モデルの構築
永渕 景祐木村 泰知門脇 一真荒木 健治
著者情報
ジャーナル フリー

2024 年 31 巻 2 号 p. 707-732

詳細
抄録

本研究では,Web 上に公開されている国会および地方議会の会議録を収集し,大規模な会議録コーパスを構築した.また,会議録コーパスを用いて,いくつかの派生系を含む日本語の政治ドメインに適応した事前学習済み言語モデルを構築した.政治ドメインのタスクでは,提案モデルは従来のモデルよりも優れた性能を示し,汎用ドメインのタスクでも,提案モデルは従来のモデルに匹敵する性能を示した.また,追加の事前学習によるドメイン適応において,学習ステップ数の増加が性能の向上に影響を大きく与えていることや,最初の事前学習で用いたコーパスも併用することで,非適応ドメインの性能を維持しつつ適応ドメインにおける性能を向上させることが可能であることを示した.

著者関連情報
© 2024 一般社団法人 言語処理学会
前の記事 次の記事
feedback
Top