電気関係学会九州支部連合大会講演論文集
平成24年度電気関係学会九州支部連合大会(第65回連合大会)講演論文集
セッションID: 08-1A-15
会議情報

Amebaブログの文書を用いた単語間関連度の算出
*新村 純一渕田 孝康福元 伸也吉本 麻里
著者情報
会議録・要旨集 フリー

詳細
抄録
目的:
近年,検索補助に自然言語処理が使われ,人手を使わず自動で文章や単語の関連度を求める研究が多く行われている.
本研究では,WEBページから切り出した単語から単語間の関連度を求め,人手を使わず言語知識の自動獲得を目的とする.

方法:
クローラーを用いブログサイトAmebaのページを取得し,ブログから文書を抽出する.
AmebaのHTMLの書き方で本文だけを容易に取得できることが判明したのでクロール対象をAmebaに限定した.
文書を形態素解析システムSENを用い単語だけを抽出.
WEBページ間の共起単語数などを元にWEBページ間の関連度を算出.
WEBページと単語間の関連も求め,最終的に単語×単語テーブルを作成し,評価値を決め関連度の算出を行う.
著者関連情報
© 2012 電気関係学会九州支部連合大会委員会
前の記事 次の記事
feedback
Top