日本知能情報ファジィ学会 ファジィ システム シンポジウム 講演論文集
第21回ファジィ システム シンポジウム
セッションID: 7B2-2
会議情報

7B2. WEB
大規模ディレクトリサービスからの新出語抽出に関する考察
*竹下 和敏高間 康史
著者情報
会議録・要旨集 フリー

詳細
抄録

近年、ウェブ上のサイトにおいては様々な専門分野の文書が存在し、日々最新の情報が公開されるため、辞書に載っていない分野特有の新出語が多数存在している。インデキシングや情報抽出などの目的でそれらの文書を計算機で処理する場合、新出語の扱いが問題となる。本稿ではWebディレクトリサービスには分野特有のカテゴリが多数存在していることに着目し、カテゴリ名から新出語を抽出する手法について検討する。新出語の判定法として、検索エンジンにおける検索結果のヒット数、カテゴリの階層の深さ、茶筌の形態素解析による品詞の連結パターンなどに着目し、新出語を抽出する際のそれらの有効性を示す。

著者関連情報
© 2005 日本知能情報ファジィ学会
前の記事 次の記事
feedback
Top