マイクロブログ(Twitter)上で住まい探しについてつぶやいているユーザーに着目し,タグ付きの「住まい探し行動コーパス」を構築する試みを紹介する.具体的には,マイクロタスク型のクラウドソーシングをTwitterデータに適用し,タイムラインに「潜在ニーズ」「情報収集」「物件見学」「契約」などの住まい探しプロセスを示すタグを付与したコーパスを作成した.その結果,数十人のTwitterユーザーが住まいを探しているプロセスを可視化することができた.このコーパスは,カスタマージャーニーマップの作成や潜在的な顧客へのマーケティングなどへの活用が期待できる.
本研究では,大型ショッピングモールや駅構内のような複合施設における各店舗などの小規模施設に関するツイート発見を行い,関連する施設のWebページを検出し,そのページ上に該当するツイートならびにツイートの集約情報を提示するシステムの構築を目指す.我々はこれまで,ツイートの発信場所とWebページの内容(場所名)を抽出することで,ツイートとWebページをマッピングし,Webページ上に関連するツイートを提示するシステムを構築してきた.本研究では,高さ情報のないツイートに対して複合施設内の各フロアに関するツイート分類を目指す.これにより,Web閲覧ユーザはある複合施設内の各フロアに関する情報を得ることができる.
FacebookやTwitterなどのソーシャルメディアの発展により,友人や同僚がどのような生活を過ごしているのかを知る機会が増え,それによって嫉妬を抱く機会も増えてきている.精神的ストレスを感じないために,自身の嫉妬の強さに応じたソーシャルメディアの利用が重要である.本稿では,ユーザの行動から嫉妬を予測するための基礎研究として,ソーシャルメディア上の嫉妬と実世界上での嫉妬との関係の調査,ユーザの嫉妬の感じやすさとソーシャルメディア上での行動との関係の調査について報告する.
情報検索を行うユーザのモデルは,ランキング学習や評価指標,対話的情報検索にて用いられ,現在もなお情報検索において中心的なトピックとなっている.本講演では,検索ユーザの理解とそのシステムへの応用という2つの側面から,情報検索におけるユーザモデルを紹介する.
交通手段によって,移動速度や移動距離などの特性の違いが存在する.本稿では,入力とするツイート集合の移動速度と移動距離の条件を変更することで,異なる特性の交通手段の経路を抽出しわける手法を提案する.まず,指定された移動速度と移動距離の条件に基づいて,Twitterユーザの連続ツイートの投稿位置と時間から交通手段を利用したと思われるツイートを抽出し,対象区域を細分化した各矩形領域内で近接している二つのツイートをHough変換することで交通路の断片と思われる近似直線を求め,それらをグループ化する.次に,その近似直線群をGoogle Maps上に可視化した結果を分析し,異なる交通手段の経路が抽出されていることを示す.
本研究では,世界中の利用者からリアルタイムの実世界観測情報が多く投稿されるマイクロブログから,ユーザの関心に応じた観測情報を抽出することを目的とする.ユーザの関心を表す単語としてクエリが与えられたとき,ユーザの関心に合致した観測情報は,クエリと意味的関連度の高い単語を,合致しない観測情報は,クエリと意味的関連度の低い単語を多く含むと考えられる.そこで,マイクロブログにて使用される単語間の意味的関連度を,現在までの投稿における単語の共起関係から逐次的に算出し,ユーザからクエリが与えられた時点で,各投稿に含まれる単語のクエリに対する関連度分布を抽出する.これを特徴量とした識別器により,任意のクエリに対し,適切な実世界観測情報の抽出を目指す.
本研究の目的は,ユーザの興味や関心に応じて様々なモダリティの情報へのアクセスを繰り返しつつ時系列データを分析するための支援システムの実現である.時系列データを分析する際には,経時的変化とその変化の要因を把握することが重要である.そこで本稿では,新聞記事と地図,統計データを対象に,ユーザが時系列データの経時的変化とその変化の要因を把握できるようにする可視化インタフェースを提案する.
本稿では,筆者らが開発した実時間と動画時間を用いたコメント抽出手法をニコニコ動画に適用して抽出された動画コメントを紹介する.その面白さの分類を行い,いくつかの事例を用いて面白さの解説を行う.
Twitterの位置情報付きツイートにより,Twitterに投稿されている情報は地理的または時間的観点において,局所的または普遍的な分布を持っている.例えば,レストランに関するツイートでは,地理的観点において普遍的にツイートされるものとして全国チェーンのファミリーレストランがある.反対に局所的にツイートされるものとして,地域ごとに存在するご当地レストランがある.しかし,既存の検索システムでは,ある単語が持つこのような分布を把握することは困難である.そこで,本研究では,都道府県単位でTwitterの位置情報付きツイートを収集し,あるクエリとそのクエリが含まれている位置情報付きツイートの名詞との共起度を求めることにより,局所的単語と普遍的単語を識別し,地理的観点からそれらの分布の可視化を行うシステムを提案する.
Webニュース記事を読む際,1つの記事を読んだだけでは内容の重要性を把握できない場合がある.そこで我々は,ユーザの閲覧している記事と対立している記事を提示することにより,重要性を把握する手助けとなると考え,この対立している記事を自動で検索し提示する手法を提案する.本研究では,ニュースの主題は異なるが内容の似ている記事を対立記事とする.具体的には,ユーザの閲覧している記事から主題となる単語(主題語)と記事の観点(記事アスペクト)を抽出し,この主題語と対立する単語が主題となっている記事に対して閲覧記事と同じ記事アスペクトを持つ記事を対立記事として抽出して表示する手法を提案する.
今日トリップアドバイザーやフォートラベルのような観光地のレビューサイトが普及している.これらレビューサイトには実際に観光地に行ったことのある人がその経験に基づくレビューを書いており,観光地の公式サイトにはない様々なお得な情報が多数記載されている.しかしながら,有用な観光地ほどレビューの量は膨大であり,その中からユーザにとって有用な情報を見つけることは困難である.そこで本研究では観光地のレビューを読んだときに「参考になった」,「知って得をした」と感じる情報を耳より情報と呼び,この耳より情報を抽出する手法を提案する.我々の提案する耳より情報は,ユーザにとって有用であり,そして人々があまり知らない,ある程度レアな情報であると考え,これらを考慮して観光地のレビューから耳より情報の抽出手法を提案する.具体的には観光地のレビューから我々の提案する耳よりキーワードを含む文を有用な情報とし抽出する.抽出された有用な情報をキーワード毎にクラスタリングし,そのクラスタの中心ベクトルを構成する文との類似度からある程度レアな情報を抽出し,そのある程度レアな情報を耳より情報として,ユーザに提示する.
Amazon.comのようなショッピングサイトでは,商品やコンテンツ(アイテム)に対して,感想や意見(レビュー)を閲覧,作成することができる.小説や映画などのストーリーのあるアイテムに対してのレビューには,そのストーリーの内容に関する記述が含まれていることがある.その中には,アイテムをまだ購入していないユーザの楽しみを奪ってしまうような記述(ネタバレ)が存在する可能性がある.我々は,ネタバレがストーリーの展開における位置づけや役割と関係があると考えた.そこで,レビュー文書とは別に,アイテムのストーリーの展開がわかる文書を利用する.本研究では,アイテムごとのストーリーを利用したネタバレの検出手法を提案する.
情報技術の発展により,ユーザはインターネットを通じて容易に情報行為を起こすことが可能になった.ユーザはGoogle検索やYahoo!検索に代表される検索エンジンにクエリを入力ことで,目的とする情報の探索を行っているが,曖昧なクエリを用いて検索した場合,ユーザの意図にそぐわない検索結果が提示されてしまう.そこで,我々はWebページ内に出現する語間の関連性を考慮し,そのクエリのサブトピック,つまり,ユーザの求めるより詳細な内容を推定し,要求に見合う情報を提示する手法の一検討を行う.
John Britton will help you grasp the concepts of distributed version control and effectively begin using the GitHub suite of tools. Explore both Git concepts and typical GitHub workflows through practical demonstrations.
我々は,ドライブ風景を考慮した経路推薦システムの実現を目指している.そのためには,道路ネットワークを構成するリンクに対し,山道風景や海沿い風景,田園風景などといったドライブ風景タグを付与する必要がある.既存の道路ネットワークデータとしては,市販のものやOpenStreetMapなどがあるが,ドライブ風景タグが付与されたものは見当たらない.また,ドライブレコーダで記録された車載カメラの画像からドライブ風景を推定する方法も考えられるが,カメラ角度の微妙なずれや明るさの変化などによりノイズが多く,データの網羅性も低い.そこで,本稿では,Webから網羅的に収集が可能な道路地図画像および航空写真に着目し,ドライブ風景を推定するために有効な画像特徴量について明らかにする.具体的には,収集したドライブレコーダデータを分析し,ドライブ風景の推定に有効と考えられる画像特徴量について仮説を立案し検証した.また,有効と判断された特徴量を含めた学習モデルを構築し,テストデータを用いたドライブ風景ラベルの推定精度の評価を行った.
本研究は,数式入力インタフェースに自然言語処理技術を応用し,インテリジェント化を試みたものである.従来,数式入力にはGUIを使い,分数や指数など,数式構造を表すアイコンテンプレートから選択して,要素を入力し数式を構築する構造ベース入力方式が代表的である.阪大の土方らはこの数式要素をN-gramモデルにより予測し効率を向上させている.本研究では,2011年に提案され,テキストベースの入力に近い,数式曖昧表記変換型数式入力の候補算出アルゴリズムに,構造化パーセプトロンによる機械学習を応用し,インテリジェントな数式予測が行えるようにした.スコア学習のパラメタや高速化のための探索的アルゴリズムによって予測精度が異なるため,最良パラメタについての検討を行った結果,一つのアルゴリズムは,変換候補ベスト1に対する正解率が約79.1%で,ベスト10まで含めると約89.2%になった.一方,もう一つのアルゴリズムではベスト1が約68.5%で,ベスト10まで含めると95.0%と,ほぼ実用レベルに近づいた.まだ,本研究は萌芽的で,学習データの数学分野が限定的ではあるが,これまでの研究結果を報告する.
近年,大量の日本漫画が中国語に翻訳されて中国へ流入し,中国の若者世代を中心に普及している.しかしながら,日本の漫画の台詞には多くのオノマトペが含まれており,これらの翻訳が不完成なため読者には意図や状況,ニュアンスなどが正確に理解されない状況が発生している.我々は,この問題に対応するために,日本語オノマトペが持つ本来の意味をできるだけ損なわずに中国語に変換する手法確立を目指している.本稿では,上記目的を達成するためのひとつのアイディアについて述べる.WWWを利用して日本語オノマトペを説明する比喩文を収集し,これに基づいて中国語の解釈文を生成する処理を考え,その有効性を見積もるために被験者を用いた簡単な検証と考察を行った.
昨今,産学官あらゆる業界でビッグデータ活用が進められており,データ分析ソフトウェアとしてRが注目を集めている.Rはオープンソースソフトウェアのため無償で利用できること,分析パッケージが豊富に提供されていることなど多くの長所を持つが,大規模データを扱えない,実行速度が遅いという短所を持つため,ビッグデータ分析に適さない.本稿では,大規模データ分析が可能なOSSを紹介し,実例を挙げた分析とその結果を報告する.
すでにアカウントをお持ちの場合 サインインはこちら