人工知能学会全国大会論文集
Online ISSN : 2758-7347
第17回 (2003)
セッションID: 1C5-05
会議情報

文書データベース
発信者情報が付与されたテキストコーパスの分析について
*相澤 彰子
著者情報
会議録・要旨集 フリー

詳細
抄録
記者名が明らかにされた新聞記事、著者名が付与された論文等のコーパスの分析を試みる。まず、接尾辞木構造を利用して一致度の高い文書グループと最長一致文字列を高速に抽出するクラスタリング手法を提案する。次にこの手法を用いて、テキスト中で再利用される文字列の計量やテキストに対する著者判別およびクレジット記載に関する数量的な分析を行う。
著者関連情報
© 2003 社団法人 人工知能学会
前の記事 次の記事
feedback
Top