blogを掲示板と同様の情報源として,定期的に監視し,そこから情報を抽出,発掘するためのシステムを開発している.ホットキーワード抽出でホットな話題をチェックする,評価表現抽出を利用した評判情報検索をする,また,お勧めblogを提案する,などの機能を特徴としている.
Weblogに含まれる評判情報を扱うには,テキスト中の評価表現を抽出し,その表現が肯定・否定のどちらの感情を含んでいるかを特定することが不可欠である.評価表現には,「おいしい」のような,それ自体に肯定・否定の感情が込められているものもあるが,「大きい」といった形容詞のように,評価対象やどの部分が大きいのかといった点を考慮しなければ,肯定・否定の感情がわからないものもあり,それらを機械的に分析することは難しい課題となっている.そこで,文中から評価表現を抽出し,肯定・否定の分類を行うために,我々はラベル付きデータに加えて,ラベルなしデータも学習に組み込むsemi-supervised学習手法を用いることを提案する.実際に我々が収集したWeblogデータに対し,実験による評価を行い,ラベルありデータのみを用いる方法で66.7%の正解率,ラベルなしデータも併せて用いることで70.4%の正解率が得られることがわかった.
Weblog(blog)は,今日のwebコンテンツの中で"個人の関心”を最も良く示しているコンテンツであると考えることができる.我々は,blogをコンテンツ・ブラウジングに取り込むことで,"human-aware”な新たなコンテンツ・ブラウジング体験(contents browsing experience)をユーザに提供することを目指す.本論文では,blogを融合することでコンテンツ・ブラウジングがどう変わるのかについて,我々の取り組みを基に議論する.
近年,Webを介したユーザ間の即時的情報流通が広まりつつある.blogはその一例であり,互いに関連しあうコンテンツが常時生成され続けている.blog記事は情報の即時性の観点からも情報源としても重要となりつつあり,ある意味で世論を反映した知識の宝庫であると考えている.我々は,これらblog情報を解析に基づきWeb情報検索の信頼性を向上させることを目的とした手法を提案する.1)ニュースコンテンツに対して信頼性および適時性の高い補足情報を付加することを目的としたblogスレッドの抽出および解析,および,2)Web検索エンジンの検索精度の向上を目的としたblog情報に基づくトラスト値の算出方式,である.また,各々の手法に対して実験を通じて考察を行ったので報告する.
本稿では,Weblogにおける文書作成のための情報検索および提示システムについて述べる.まず,関連文書の検索手法としてエゴセントリック情報検索を提案する.エゴセントリック検索とは,自分を中心とするネットワークを築き,この上での「自分」と対象情報との距離を重要度評価の尺度に用いる検索手法である.実験の結果,ドキュメント距離およびサイト距離のいずれの手法でエゴセントリックネットワークを作成した場合も,中心に近い情報ほど,ユーザ自身の記述した文書に類似している傾向が確認された.これは情報とユーザの距離を情報検索に利用することの有効性を示していると考えられる.
場logは,近年増加傾向にあるWeblogと,カメラやGPSといった機能が付加された携帯電話端末を用いて,各人が個々に発信した情報を位置情報に基づいて整理し,新たな情報閲覧を可能にするシステムである.このシステムでは,ユーザからメールで送信されたデータと,個人のWeblogから生成されるメタデータを収集し,画像に埋め込まれた位置情報とともにデータベースに登録する.登録されたデータは,場所blogとblog地図という2つのアプリケーションで閲覧可能である.
BlogはWebページの新しい形態であり、情報発信やコミュニケーションの新しい形を生むと考えられる。本研究ではBlogのリンクやトラックバックに着目し、ブログコミュニティの抽出と分析を行う。