主催: 一般社団法人 人工知能学会
会議名: 第34回全国大会(2020)
回次: 34
開催地: Online
開催日: 2020/06/09 - 2020/06/12
本稿では計算機による小説の自動生成を最終的な目標とする段階的な研究として,小説の内容理解の観点から形式段落分割に取り組む.文章の形式段落を推定する場合,対象とする 2 文が同一の形式段落に所属するかどうか,すなわち 2 文間における形式段落としての境界の有無に関する 2 クラス分類問題として捉えることが可能である.その場合,文の数に対する段落の数は小さいため,データ数における不均衡性を考慮する必要がある.我々は,様々な自然言語処理のタスクにおいて高い精度が示されている Bidirectional Encoder Representations from Transformer (BERT) を段落分割の問題に適用した.そこで損失関数として Focal Loss を用いることにより,一般的な損失関数として多用される Cross Entropy Loss を使用する場合と比較してモデルの性能向上を図った.結果として,本稿のために作成したデータセットにおいて提案モデルの有効性を確認することができた.また,モデルに対する入力文の範囲を拡張することで各評価指標の値が向上した.