2023 年 12 巻 1 号 p. 33-46
日本語文章を対象とした著者識別に関しては,これ迄提案されてきた特徴量の殆どが文字や単語など文を構成する言語単位に基づいている.文そのものの構造を意識して特徴量化したものが少なく,その実用性も比較的低いと報告されている.本研究では,依存構造にしたがって,文節単位に分解された文をツリー状に展開してから,根に位置する文節とそれと直接につながっている文節を核文節と定義して,それらの分節から抽出したパターンを新しい特徴量NBS(Nucleus Bunsetsu)として提案する.提案の有効性を実証するため,10人の小説家の作品を用いてコーパスを構築し,2群判別と10群判別のシミュレーションを行った.その結果,2群判別の場合,NBSのパフォーマンスが比較対象である文節パターンB型に肉薄し,10群判別では,正解率において2ポイントの差をつけて優位性が示された.両者を結合して用いれば,より優れたパフォーマンスが達成されたことから,文の構造にも著者の特徴が顕著に現れていると結論づけた.