Amebaブログの文書を用いた単語間関連度の算出

新村 純一; 渕田 孝康; 福元 伸也; 吉本 麻里

doi:10.11527/jceeek.2012.0_116

平成24年度電気関係学会九州支部連合大会（第65回連合大会）講演論文集

セッションID: 08-1A-15

DOI https://doi.org/10.11527/jceeek.2012.0_116

会議情報

主催: 電気関係学会九州支部連合大会委員会

会議名: 平成24年度電気関係学会九州支部連合大会

回次: 65

開催地: 長崎大学

開催日: 2012/09/24 - 2012/09/25

Amebaブログの文書を用いた単語間関連度の算出

*新村純一, 渕田孝康, 福元伸也, 吉本麻里

著者情報

会議録・要旨集フリー

詳細

抄録

目的：
近年,検索補助に自然言語処理が使われ,人手を使わず自動で文章や単語の関連度を求める研究が多く行われている.
本研究では,WEBページから切り出した単語から単語間の関連度を求め,人手を使わず言語知識の自動獲得を目的とする.

方法：
クローラーを用いブログサイトAmebaのページを取得し,ブログから文書を抽出する.
AmebaのHTMLの書き方で本文だけを容易に取得できることが判明したのでクロール対象をAmebaに限定した.
文書を形態素解析システムSENを用い単語だけを抽出.
WEBページ間の共起単語数などを元にWEBページ間の関連度を算出.
WEBページと単語間の関連も求め,最終的に単語×単語テーブルを作成し,評価値を決め関連度の算出を行う.

責任著者(Corresponding author)

J-STAGEへの登録はこちら（無料）