自然言語処理

巻頭言

ウエブテキストの背後にあるもの

菊井玄一郎

2012 年 19 巻 4 号 p. 227-228
発行日: 2012/12/14
公開日: 2013/03/19

DOIhttps://doi.org/10.5715/jnlp.19.227

ジャーナルフリー

PDF形式でダウンロード (107K)

論文

カテゴリ名と記事名の意味属性分類に基づく Wikipedia からの上位下位関係オントロジーの構築

柴木優美, 永田昌明, 山本和英

2012 年 19 巻 4 号 p. 229-279
発行日: 2012/12/14
公開日: 2013/03/19

DOIhttps://doi.org/10.5715/jnlp.19.229

ジャーナルフリー

抄録を表示する抄録を非表示にする

Wikipedia を is-a 関係からなる大規模な汎用オントロジーへ再構成した．Wikipedia の記事にはカテゴリが付与され，そのカテゴリは他のカテゴリとリンクして階層構造を作っている．Wikipedia のカテゴリと記事を is-a 関係のオントロジーとして利用するためには以下の課題がある．(1) Wikipedia の上位階層は抽象的なカテゴリで構成されており，これをそのまま利用してオントロジーを構成することは適切でない．(2) Wikipedia のカテゴリ間，及びカテゴリと記事間のリンクの意味関係は厳密に定義されていないため，is-a 関係でないリンク関係が多く存在する．これに対して我々は (1) を解決するため，上位のカテゴリ階層を新しく定義し，Wikipedia の上位階層を削除して置き換えた．さらに (2) を解決するため，Wikipedia のカテゴリ間，及びカテゴリ記事間の not-is-a 関係のリンクを 3 つの手法により自動で判定し切り離すことで，Wikipedia のカテゴリと記事の階層を is-a 関係のオントロジーとなるように整形した．本論文では not-is-a 関係を判定するための 3 つの手法を適用した．これにより，“人”，“組織”，“施設”，“地名”，“地形”，“具体物”，“創作物”，“動植物”，“イベント”の 9 種類の意味属性を最上位カテゴリとした，1 つに統一された is-a 関係のオントロジーを構築した．実験の結果，is-a 関係の精度は，カテゴリ間で適合率 95.3%，再現率 96.6%，カテゴリ‐記事間で適合率 96.2%，再現率 95.6%と高精度であった．提案手法により，全カテゴリの 84.5%（約 34,000 件），全記事の 88.6%（約 422,000 件）をオントロジー化できた．

抄録全体を表示

PDF形式でダウンロード (2426K)
国語教育的評価項目を考慮した機械学習による日本語文章の自動評価と評価モデルの構築

藤田彬, 藤田央, 田村直良

2012 年 19 巻 4 号 p. 281-301
発行日: 2012/12/14
公開日: 2013/03/19

DOIhttps://doi.org/10.5715/jnlp.19.281

ジャーナルフリー

抄録を表示する抄録を非表示にする

本稿では，文章に対する評点と国語教育上扱われる言語的要素についての特徴量から，個々の評価者の文章評価モデルを学習する手法について述べる．また，学習した文章評価モデルにおける素性毎の配分を明示する手法について述べる．評価モデルの学習には SVR を用いる．SVR の教師データには，「表層」「語」「文体」「係り受け」「文章のまとまり」「モダリティ」「内容」というカテゴリに分けられる様々な素性を用意する．これらには日本の国語科教育において扱われる作文の良悪基準に関わる素性が多く含まれる．なおかつ，全ての素性が評価対象文章に設定される論題のトピックに依存しない汎用的なものである．本手法により，文章の総合的な自動評価，個々の評価者が着目する言語的要素の明示，さらに評点決定に寄与する各要素の重みの定量化が実現された．

抄録全体を表示

PDF形式でダウンロード (471K)
外れ値検出手法を利用した新語義の検出

新納浩幸, 佐々木稔

2012 年 19 巻 4 号 p. 303-327
発行日: 2012/12/14
公開日: 2013/03/19

DOIhttps://doi.org/10.5715/jnlp.19.303

ジャーナルフリー

抄録を表示する抄録を非表示にする

本論文では対象単語の用例集合から，その単語の語義が新語義（辞書に未記載の語義）となっている用例を検出する手法を提案する．ここでのアプローチの基本は，新語義の用例が用例集合中の外れ値になると考え，データマイニング分野の外れ値検出の手法を利用することである．ただし外れ値検出のタスクは教師なしの枠組みになるが，新語義検出という本タスクの性質を考慮すると，一部のデータ（用例）にラベル（対象単語の語義）が付与されているという枠組みで考える方が適切である．そのため本論文では一部のデータにラベルがついているという教師付きの枠組みで外れ値検出を行う．具体的には 2 つの手法（教師付き LOF と生成モデル）を用い，それら出力の共通部分（積集合）を最終的な出力とする．この教師付き LOF と生成モデルの積集合を出力する手法を提案手法とする．実験では SemEval-2 日本語 WSD タスクのデータを用いて，提案手法の有効性を示した．また WSD のアプローチを単独で利用しただけでは，本タスクの解決が困難であることも示した．

抄録全体を表示

PDF形式でダウンロード (559K)
Evaluation Framework Design of Spoken Term Detection Study at the NTCIR-9 IR for Spoken Documents Task

Hiromitsu Nishizaki, Tomoyosi Akiba, Kiyoaki Aikawa, Tatsuya Kawahara, ...

2012 年 19 巻 4 号 p. 329-350
発行日: 2012/12/14
公開日: 2013/03/19

DOIhttps://doi.org/10.5715/jnlp.19.329

ジャーナルフリー

抄録を表示する抄録を非表示にする

This paper describes a design of spoken term detection (STD) studies and their evaluating framework at the STD sub-task of the NTCIR-9 IR for Spoken Documents (SpokenDoc) task. STD is the one of information access technologies for spoken documents. The goal of the STD sub-task is to rapidly detect presence of a given query term, consisting of word or a few word sequences spoken, from the spoken documents included in the Corpus of Spontaneous Japanese. To successfully complete the sub-task, we considered the design of the sub-task and the evaluation methods, and arranged the task schedule. Finally, seven teams participated in the STD sub-task and submitted 18 STD results. This paper explains the STD sub-task details we conducted, the data used in the sub-task, how to make transcriptions by speech recognition for data distribution, the evaluation measurement, introduction of the participants’ techniques, and the evaluation results of the task participants.

抄録全体を表示

PDF形式でダウンロード (636K)

J-STAGEへの登録はこちら（無料）