国会会議録には専門用語が多く含まれており,文章量も多いため,一般市民がその内容を理解するのは容易ではない.言語モデル(コンピュータが人間の言語を理解し,生成する技術)を活用して国会会議録を要約することができれば,一般市民の理解を促進できると考えられるが,現状では適切な言語モデルを選定することが課題となっている.本研究では,複数の言語モデルが作成した要約文を,自動評価と人手評価を組み合わせて総合的に評価し,国会会議録の要約に適した言語モデルを選定することを目的とする.まず,2022年の国会会議録データ(約6110万字)のなかから20 段落を無作為に抽出し,言語モデルおよび人手によって要約文を作成した.そして,これらの要約文と原文との類似度を,5つの自動評価指標および人手によって評価した.その結果,BERT言語モデルは原文に忠実で適切な単語選択と自然な文章生成を行うことができ,自動評価と人手評価の両方で高い評価を得た.現時点ではBERT言語モデルが国会会議録の要約に最も適切であると考えられる.
抄録全体を表示