用語説明のモデル化において,用語の種類によって説明の観点が異なる点に着目した.動物の観点は「生態」や「形態」,病名の観点は「診断」や「検査」といった見出し語の種類と観点の対応を抽出するためにWikipediaを利用する.さらに,構築した用語説明のモデルを事典的な調べ物を行う検索に応用する.すなわち,Wikipediaを自然言語処理と情報検索に応用した研究である.
本稿は,WikipediaとFolksonomyタグに基づくドメインオントロジー構築支援環境の設計および実装とその評価について述べる.ドメインオントロジー構築に有効である概念間のIs-a関係を抽出するために,文字列処理およびInfoboxテンプレートとのマッチング処理をWikipediaカテゴリツリーに対して行う.抽出したIs-a関係とInfoboxの持つプロパティとの関係に着目することで,プロパティ定義域の獲得を試みる.また,構築の対象とするドメインに必要な入力概念を獲得するために,ドキュメントに付与されているFolksonomyタグの情報を利用する.
現在,我々は世界中の知識ベースの相互利用のためのインフラストラクチャとしてナレッジグリッドを構築している.これらの異分野の知識ベース群を対象として,Wikipediaの情報を用いた知識ベース群連携と異分野にまたがる関連した事象の発見について述べる.
Wikipediaが持つ膨大な内部リンクを解析することによって網羅性の高い連想シソーラスが構築可能である.筆者らは,これまで連想シソーラスを構築するための,Wikipediaをコーパスとした概念の関連度計算手法として,pfibfとリンク共起性解析を提案してきた.本発表では,筆者らの進めるWikipediaから大規模で高精度な連想シソーラスを構築するためのプロジェクトのこれまでの成果と今後の展望を紹介する.
ウィキペディアの履歴データを用いて、成長を、秩序と多様性という観点から捉える。分析では、ジップの法則のように語彙の出現確率に法則性があるか、そしてそれはカテゴリ別にはどのような多様性があるのかを明らかにする。
Wikipediaの記事は、カテゴリシステムによってさまざまな観点からの分類がなされている。この特徴をうまく用いると、個別の記事からだけでは得られない意外な知識の発見につなげることができる。例えば、「麻生太郎」は「日本の内閣総理大臣」というカテゴリに属しているが、一方で「オリンピック射撃競技日本代表選手」というカテゴリにも属している。本研究では、このような意外な知識をWikipediaから大量に発掘することを目的に、Wikipediaカテゴリネットワークに関する統計処理を行い、その結果を分析した。
本研究では、Wikipedia のカテゴリ情報から抽出されたコンセプトクラスに基づく情報推薦モデルを提案する。先ず、Wikipedia からコンセプト構造とコンセプトを表現するインデックス情報を抽出し、それに基づいて、利用者の情報アクセス行動のデータをコンセプトクラスごとに収集するとともに、ショート、ミディアム、ロングといった期間に分けてそれらのデータを解析し、各コンセプトの期間ごとの確率を算出し、利用者に情報を推薦するためのモデルを構築する。
本研究ではインターネット百科事典のWikipediaをコーパスとして利用し,音声認識用言語モデルを構築した.再配布や再利用が可能なWikipediaを用いることにより,音声認識用言語モデルを一般に公開することができる.言語モデル構築にあたって,Wikipediaに対して,不要なデータ除去,読み付与処理などを行った.また,構築した言語モデルを使った音声認識の評価について述べる.
本研究はWikipediaのエントリをブログサイトと対応付け,Wikipediaカテゴリ空間におけるブログサイトの分布の推定を行うことを目的とする.本稿では,各Wikipediaエントリ・カテゴリについて,詳細な記述をしているブログサイトが存在するかどうかの推定を行った結果について報告する.
本稿では,ユーザが入力したクエリから,Wikipediaを用いて拡張クエリを生成するシステムを提案する.この拡張クエリを用いることで,ユーザの検索補助や知識獲得の補助を目的としている.拡張クエリの選出には,関連単語抽出アルゴリズムに加え,Wikipediaページの内部リンクを重視した.実際に作成したシステムを被験者に使用してもらい,アンケートを取る形で評価を行ったところ,本システムが検索補助と知識獲得に対して有効に働いていることが分かった.
日本語,中国語,英語,韓国語のWikipediaを対象とした言語間リンクの分析を行った.(1)言語別Wikipedia間のリンク状況の分析,(2)言語間リンクに用いられる用語と辞書見出し語との比較を行った.言語間リンクの応用として,現在筆者らが開発している多言語情報アクセス支援システムについて述べる.