大規模ディレクトリサービスからの新出語抽出に関する考察

竹下 和敏; 高間 康史

doi:10.14864/fss.21.0.22.0

第21回ファジィシステムシンポジウム

セッションID: 7B2-2

DOI https://doi.org/10.14864/fss.21.0.22.0

会議情報

主催: 日本知能情報ファジィ学会

共催: 国際ファジィシステム学会

7B2. WEB

大規模ディレクトリサービスからの新出語抽出に関する考察

*竹下和敏, 高間康史

著者情報

キーワード: 情報検索, ディレクトリサービス, シソーラス, 新出語

会議録・要旨集フリー

詳細

抄録

近年、ウェブ上のサイトにおいては様々な専門分野の文書が存在し、日々最新の情報が公開されるため、辞書に載っていない分野特有の新出語が多数存在している。インデキシングや情報抽出などの目的でそれらの文書を計算機で処理する場合、新出語の扱いが問題となる。本稿ではＷｅｂディレクトリサービスには分野特有のカテゴリが多数存在していることに着目し、カテゴリ名から新出語を抽出する手法について検討する。新出語の判定法として、検索エンジンにおける検索結果のヒット数、カテゴリの階層の深さ、茶筌の形態素解析による品詞の連結パターンなどに着目し、新出語を抽出する際のそれらの有効性を示す。

責任著者(Corresponding author)

J-STAGEへの登録はこちら（無料）