本研究では,Wikipediaにおいて信頼度を算出する際に,重要となる著者であるキーパーソンを特定し,それら重要な著者の情報だけを利用して記事の信頼度を算出することによって,全ての著者を利用して信頼度を算出する方法よりも精度の高い信頼度を算出する手法の提案を行う.これは,記事の大部分は少数の著者によって記述されているため,多くの著者の編集はその記事の信頼度には影響しないと考えることができ,それら多くの著者が行った編集を信頼度算出に用いないことにより,信頼度の算出にとって不要なノイズを除去することができると考えたためである.評価実験において信頼度が正しく算出できたかどうかを確かめた結果,確かに信頼度の精度が向上したことを確認することができた.さらに,提案手法を用いることにより,信頼度を計算するための計算コストを削減することも可能となった.
本研究では、Wikipediaにおける編集者の活動を時系列に可視化し分析を行う。編集者を、登録ユーザ、IPユーザ、botの3種類に分類し、編集回数を軸として、編集活動の具体例を示し、編集者の分類別の特徴を考察する。
ウィキペディアでは編集履歴だけではなく,閲覧回数のデータも取得可能であるが,これを用いた研究は多くない.そこで,本研究では閲覧回数の特徴を調査することを目的として,編集回数や検索エンジンのヒット数,ランキングなどとの比較・分析を試みる.
本研究は,Wikipediaの記事の中から,複数の分野にまたがった意外性のある知識を発見することを目的としている.Wikipediaは各記事が1つ以上のカテゴリに属しており,そのカテゴリネットワークはグラフ構造を成している.それらのグラフ上の構造を特徴量として利用し,機械学習により各記事に対して意外性を含む記事であるか否かの判定を行う.例えば,「category:オープンソース」と「category:コーラ」という一見意味的に離れたカテゴリにも,それらのカテゴリに共通して属する「オープンコーラ」という記事が存在する.本研究では,このような意外性のある関係性をもった記事を,機械学習を用いて自動的に発見する手法を提案する.
本研究ではWeb上のフリー百科事典Wikipediaの多言語展開に着目し,各言語版を特徴づけるデータを抽出し,比較を行うシステムを作成した.作成システムによって,各言語版におけるカテゴリの発展の度合いを比較できる.またシステムに問い合わせを行うWebインターフェースを作成した.