自然言語処理

巻頭言

未解決問題の正体

乾健太郎

2016 年 23 巻 1 号 p. 1-2
発行日: 2016/01/25
公開日: 2016/04/25

DOIhttps://doi.org/10.5715/jnlp.23.1

ジャーナルフリー

PDF形式でダウンロード (142K)

論文

自動要約における誤り分析の枠組み

西川仁

2016 年 23 巻 1 号 p. 3-36
発行日: 2016/01/25
公開日: 2016/04/25

DOIhttps://doi.org/10.5715/jnlp.23.3

ジャーナルフリー

抄録を表示する抄録を非表示にする

本稿では自動要約システムの誤り分析の枠組みを提案する．この誤り分析の枠組みは，要約が満たすべき 3 つの要件と誤った要約が生じる 5 つの原因からなり，要約の誤りをこれらからなる 15 種類の組み合わせに分類する．また，システム要約において 15 種類の誤りのうちどの誤りが生じているかを調査する方法もあわせて提案する．提案する誤り分析の枠組みに基づき，本稿ではまず，システム要約を分析した結果を報告する．さらに，分析の結果に基づいて要約システムを改良し，誤り分析の結果として得られる知見を用いてシステムを改良することでシステム要約の品質が改善されることを示す．

抄録全体を表示

PDF形式でダウンロード (575K)
商品の属性値抽出タスクにおけるエラー分析

新里圭司, 関根聡, 村上浩司

2016 年 23 巻 1 号 p. 37-58
発行日: 2016/01/25
公開日: 2016/04/25

DOIhttps://doi.org/10.5715/jnlp.23.37

ジャーナルフリー

抄録を表示する抄録を非表示にする

本稿では商品の属性値抽出タスクにおけるエラー分析のひとつの事例研究について報告する．具体的には，属性値辞書を用いた単純な辞書マッチに基づく属性値抽出システムを構築し，人手により属性値がアノテーションされたコーパスに対してシステムを適用することで明らかとなる False-positive, False-negative 事例の分析を行った．属性値辞書は商品説明文に含まれる表や箇条書きなどの半構造化データを解析することで得られる自動構築したものを用いた．エラー分析は実際のオンラインショッピングサイトで用いられている 5 つの商品カテゴリから抽出した 100 商品ページに対して行った．そして分析を通してボトムアップ的に各事例の分類を行ってエラーのカテゴリ化を試みた．本稿ではエラーカテゴリおよびその実例を示すだけでなく，誤り事例を無くすために必要な処理・データについても検討する．

抄録全体を表示

PDF形式でダウンロード (523K)
テキストチャットを用いた雑談対話コーパスの構築と対話破綻の分析

東中竜一郎, 船越孝太郎, 荒木雅弘, 塚原裕史, 小林優佳, 水上雅博

2016 年 23 巻 1 号 p. 59-86
発行日: 2016/01/25
公開日: 2016/04/25

DOIhttps://doi.org/10.5715/jnlp.23.59

ジャーナルフリー

抄録を表示する抄録を非表示にする

対話システムが扱う対話は大きく課題指向対話と非課題指向対話（雑談対話）に分けられるが，近年Webからの自動知識獲得が可能になったことなどから，雑談対話への関心が高まってきている．課題指向対話におけるエラーに関しては一定量の先行研究が存在するが，雑談対話に関するエラーの研究はまだ少ない．対話システムがエラーを起こせば対話の破綻が起こり，ユーザが円滑に対話を継続することができなくなる．しかし複雑かつ多様な内部構造を持つ対話システムの内部で起きているエラーを直接分析することは容易ではない．そこで我々はまず，音声誤認識の影響を受けないテキストチャットにおける雑談対話の表層に注目し，破綻の類型化に取り組んだ．本論文では，雑談対話における破綻の類型化のために必要な人・機械間の雑談対話コーパスの構築について報告し，コーパスに含まれる破綻について分析・議論する．

抄録全体を表示

PDF形式でダウンロード (1339K)
機械翻訳システムの誤り分析のための誤り箇所選択手法

赤部晃一, Graham Neubig, Sakriani Sakti, 戸田智基, 中村哲

2016 年 23 巻 1 号 p. 87-117
発行日: 2016/01/25
公開日: 2016/04/25

DOIhttps://doi.org/10.5715/jnlp.23.87

ジャーナルフリー

抄録を表示する抄録を非表示にする

複雑化する機械翻訳システムを比較し，問題点を把握・改善するため，誤り分析が利用される．その手法として，様々なものが提案されているが，多くは単純にシステムの翻訳結果と正解訳の差異に着目して誤りを分類するものであり，人手による分析への活用を目的とするものではなかった．本研究では，人手による誤り分析を効率化する手法として，機械学習の枠組みを導入した誤り箇所選択手法を提案する．学習によって評価の低い訳出と高い訳出を分類するモデルを作成し，評価低下の手がかりを自動的に獲得することで，人手による誤り分析の効率化を図る．実験の結果，提案法を活用することで，人手による誤り分析の効率が向上した．

抄録全体を表示

PDF形式でダウンロード (861K)
「ロボットは東大に入れるか」プロジェクト：代ゼミセンター模試タスクにおけるエラーの分析

松崎拓也, 横野光, 宮尾祐介, 川添愛, 狩野芳伸, 加納隼人, 佐藤理史, 東中竜一郎, 杉山弘晃, 磯崎秀樹, 菊 ...

2016 年 23 巻 1 号 p. 119-159
発行日: 2016/01/25
公開日: 2016/04/25

DOIhttps://doi.org/10.5715/jnlp.23.119

ジャーナルフリー

抄録を表示する抄録を非表示にする

「ロボットは東大に入れるか」は，大学入試試験問題を計算機で解くという挑戦を通じ，言語処理を含む AI 諸技術の再統合と，知的情報処理の新たな課題の発見を目指すプロジェクトである．知的能力の測定を第一目的として設計された入試問題は，AI 技術の恰好のベンチマークであるとともに，人間の受験者と機械のエラー傾向を直接比較することが可能である．本稿では，大手予備校主催のセンター試験形式模試を主たる評価データとして，各科目の解答システムのエラーを分析し，高得点へ向けた今後の課題を明らかにするとともに，分野としての言語処理全体における現在の課題を探る．

抄録全体を表示

PDF形式でダウンロード (2036K)

J-STAGEへの登録はこちら（無料）