自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
19 巻, 4 号
選択された号の論文の5件中1~5を表示しています
巻頭言
論文
  • 柴木 優美, 永田 昌明, 山本 和英
    2012 年 19 巻 4 号 p. 229-279
    発行日: 2012/12/14
    公開日: 2013/03/19
    ジャーナル フリー
    Wikipedia を is-a 関係からなる大規模な汎用オントロジーへ再構成した.Wikipedia の記事にはカテゴリが付与され,そのカテゴリは他のカテゴリとリンクして階層構造を作っている.Wikipedia のカテゴリと記事を is-a 関係のオントロジーとして利用するためには以下の課題がある.(1) Wikipedia の上位階層は抽象的なカテゴリで構成されており,これをそのまま利用してオントロジーを構成することは適切でない.(2) Wikipedia のカテゴリ間,及びカテゴリと記事間のリンクの意味関係は厳密に定義されていないため,is-a 関係でないリンク関係が多く存在する.これに対して我々は (1) を解決するため,上位のカテゴリ階層を新しく定義し,Wikipedia の上位階層を削除して置き換えた.さらに (2) を解決するため,Wikipedia のカテゴリ間,及びカテゴリ記事間の not-is-a 関係のリンクを 3 つの手法により自動で判定し切り離すことで,Wikipedia のカテゴリと記事の階層を is-a 関係のオントロジーとなるように整形した.本論文では not-is-a 関係を判定するための 3 つの手法を適用した.これにより,“人”,“組織”,“施設”,“地名”,“地形”,“具体物”,“創作物”,“動植物”,“イベント”の 9 種類の意味属性を最上位カテゴリとした,1 つに統一された is-a 関係のオントロジーを構築した.実験の結果,is-a 関係の精度は,カテゴリ間で適合率 95.3%, 再現率 96.6%,カテゴリ‐記事間で適合率 96.2%,再現率 95.6%と高精度であった.提案手法により,全カテゴリの 84.5%(約 34,000 件),全記事の 88.6%(約 422,000 件)をオントロジー化できた.
  • 藤田 彬, 藤田 央, 田村 直良
    2012 年 19 巻 4 号 p. 281-301
    発行日: 2012/12/14
    公開日: 2013/03/19
    ジャーナル フリー
    本稿では,文章に対する評点と国語教育上扱われる言語的要素についての特徴量から,個々の評価者の文章評価モデルを学習する手法について述べる.また,学習した文章評価モデルにおける素性毎の配分を明示する手法について述べる.評価モデルの学習には SVR を用いる.SVR の教師データには,「表層」「語」「文体」「係り受け」「文章のまとまり」「モダリティ」「内容」というカテゴリに分けられる様々な素性を用意する.これらには日本の国語科教育において扱われる作文の良悪基準に関わる素性が多く含まれる.なおかつ,全ての素性が評価対象文章に設定される論題のトピックに依存しない汎用的なものである.本手法により,文章の総合的な自動評価,個々の評価者が着目する言語的要素の明示,さらに評点決定に寄与する各要素の重みの定量化が実現された.
  • 新納 浩幸, 佐々木 稔
    2012 年 19 巻 4 号 p. 303-327
    発行日: 2012/12/14
    公開日: 2013/03/19
    ジャーナル フリー
    本論文では対象単語の用例集合から,その単語の語義が新語義(辞書に未記載の語義)となっている用例を検出する手法を提案する.ここでのアプローチの基本は,新語義の用例が用例集合中の外れ値になると考え,データマイニング分野の外れ値検出の手法を利用することである.ただし外れ値検出のタスクは教師なしの枠組みになるが,新語義検出という本タスクの性質を考慮すると,一部のデータ(用例)にラベル(対象単語の語義)が付与されているという枠組みで考える方が適切である.そのため本論文では一部のデータにラベルがついているという教師付きの枠組みで外れ値検出を行う.具体的には 2 つの手法(教師付き LOF と生成モデル)を用い,それら出力の共通部分(積集合)を最終的な出力とする.この教師付き LOF と生成モデルの積集合を出力する手法を提案手法とする.実験では SemEval-2 日本語 WSD タスクのデータを用いて,提案手法の有効性を示した.また WSD のアプローチを単独で利用しただけでは,本タスクの解決が困難であることも示した.
  • Hiromitsu Nishizaki, Tomoyosi Akiba, Kiyoaki Aikawa, Tatsuya Kawahara, ...
    2012 年 19 巻 4 号 p. 329-350
    発行日: 2012/12/14
    公開日: 2013/03/19
    ジャーナル フリー
    This paper describes a design of spoken term detection (STD) studies and their evaluating framework at the STD sub-task of the NTCIR-9 IR for Spoken Documents (SpokenDoc) task. STD is the one of information access technologies for spoken documents. The goal of the STD sub-task is to rapidly detect presence of a given query term, consisting of word or a few word sequences spoken, from the spoken documents included in the Corpus of Spontaneous Japanese. To successfully complete the sub-task, we considered the design of the sub-task and the evaluation methods, and arranged the task schedule. Finally, seven teams participated in the STD sub-task and submitted 18 STD results. This paper explains the STD sub-task details we conducted, the data used in the sub-task, how to make transcriptions by speech recognition for data distribution, the evaluation measurement, introduction of the participants’ techniques, and the evaluation results of the task participants.
feedback
Top