2024 年 31 巻 2 号 p. 680-706
言語生成では,生成文の品質を改善する手法としてモデルが出力した上位 N 個の仮説を再びスコア付けしリランキングする手法が用いられる.リランキング手法は,N ベスト出力の中により高品質な仮説が存在することを前提としている.我々はこの前提をより現実的なものに拡張し,N ベスト出力の中には部分的に高品質な仮説が存在するが,その仮説は文全体としては不完全な可能性があると仮定する.本研究ではNベスト出力に含まれる高品質な断片を統合することで,文全体としても高品質な出力を生成する手法を提案する.具体的には,言語生成モデルの N ベスト出力を用いてトークンの正誤予測を行い,誤りと予測されたトークンを負の制約,正しいと予測されたトークンを正の制約として,語彙制約を適用して再度デコードする.これにより,N ベスト出力に含まれていた正しいトークンを含みつつ,誤りを避けた文を生成する.言い換え,要約,翻訳,制約付きテキスト生成における評価実験により,言い換えおよび要約において本手法が強力な N ベスト出力リランキング手法を上回ることが確認された.