2020 年 30 巻 3 号 p. 390-400
著者識別の分野では様々な特徴量が提案されている.例えば,日本語においては形態素の使用率,助詞の分布,タグのn-gram,文節パターンなどが著者の識別に有効であることが実証された.これらの特徴量は単語,品詞と文節を基本単位として集計したものであるため,著者が慣用的に使用する表現パターンを分析することが困難である.そこで,本稿では著者が慣用的に使用する表現パターン「機能フレーズ」を特徴量として提案し,著者識別における有効性を検証する.本稿では,著者20 名の計400 編の文学作品のコーパスを作成し,既存の特徴量(形態素,タグのbigram,助詞の分布,文節のパターン)と比較分析を行った.その結果, 提案した特徴量には,既存の特徴量に含まれていない著者の文体特徴が含まれており,著者識別に有効であることが実証された.