2024 年 2023 巻 AGI-026 号 p. 32-40
本稿では、8,000編以上の日本語の短いストーリーを手作業で作成したデータセットを紹介する。このデータセットの主な目的は、日本語における同様のデータの不足に対処することである。さらに、クラウドソーシングを通じて、異なる結末文も提供する。元の結末文よりも可能性がわずかに低い結末文を追加するように拡張され、提案したデータセットは現代の大規模言語モデルにとって高難度の課題を提供するテストベンチマークとして利用できる。また、このデータセットは主語と目的語の自動操作などによってさらに拡張され、本研究では3つの主要なタスクで評価される:(a)もっともらしいストーリーの結末の予測、(b)反意語の置換による不自然な文の検出、(c)名詞の入れ替えによる不自然な文の検出。予備実験の結果は、特に名詞が入れ替わった文章を認識するタスクではゼロショットGPT-4が比較的に高い正解率(94%)を示した。一方で、オープンソースの日本語LLMは提案されたストーリーの処理に苦戦していることが明らかになった。