情報知識学会誌
Online ISSN : 1881-7661
Print ISSN : 0917-1436
ISSN-L : 0917-1436
日本語における機能フレーズを特徴量とした著者識別
黄 善玉金 明哲
著者情報
ジャーナル フリー

2020 年 30 巻 3 号 p. 390-400

詳細
抄録

 著者識別の分野では様々な特徴量が提案されている.例えば,日本語においては形態素の使用率,助詞の分布,タグのn-gram,文節パターンなどが著者の識別に有効であることが実証された.これらの特徴量は単語,品詞と文節を基本単位として集計したものであるため,著者が慣用的に使用する表現パターンを分析することが困難である.そこで,本稿では著者が慣用的に使用する表現パターン「機能フレーズ」を特徴量として提案し,著者識別における有効性を検証する.本稿では,著者20 名の計400 編の文学作品のコーパスを作成し,既存の特徴量(形態素,タグのbigram,助詞の分布,文節のパターン)と比較分析を行った.その結果, 提案した特徴量には,既存の特徴量に含まれていない著者の文体特徴が含まれており,著者識別に有効であることが実証された.

著者関連情報
© 2020 情報知識学会
前の記事 次の記事
feedback
Top