自然言語処理

巻頭言

ビッグデータ分析でのテキスト情報の活用

赤峯享

2013 年 20 巻 5 号 p. 627
発行日: 2013/12/13
公開日: 2014/03/13

DOIhttps://doi.org/10.5715/jnlp.20.627

ジャーナルフリー

PDF形式でダウンロード (111K)

論文

ILP-based Inference for Cost-based Abduction on First-order Predicate Logic

Naoya Inoue, Kentaro Inui

2013 年 20 巻 5 号 p. 629-656
発行日: 2013/12/13
公開日: 2014/03/13

DOIhttps://doi.org/10.5715/jnlp.20.629

ジャーナルフリー

抄録を表示する抄録を非表示にする

Abduction is desirable for many natural language processing (NLP) tasks. While recent advances in large-scale knowledge acquisition warrant applying abduction with large knowledge bases to real-life NLP problems, as of yet, no existing approach to abduction has achieved the efficiency necessary to be a practical solution for large-scale reasoning on real-life problems. In this paper, we propose an efficient solution for large-scale abduction. The contributions of our study are as follows: (i) we propose an efficient method of cost-based abduction in first-order predicate logic that avoids computationally expensive grounding procedures; (ii) we formulate the best-explanation search problem as an integer linear programming optimization problem, making our approach extensible; (iii) we show how cutting plane inference, which is an iterative optimization strategy developed in operations research, can be applied to make abduction in first-order logic tractable; and (iv) the abductive inference engine presented in this paper is made publicly available.

抄録全体を表示

PDF形式でダウンロード (636K)
『現代日本語書き言葉均衡コーパス』に対する時間情報表現・事象表現間の時間的順序関係アノテーション

保田祥, 小西光, 浅原正幸, 今田水穂, 前川喜久雄

2013 年 20 巻 5 号 p. 657-681
発行日: 2013/12/13
公開日: 2014/03/13

DOIhttps://doi.org/10.5715/jnlp.20.657

ジャーナルフリー

抄録を表示する抄録を非表示にする

時間情報抽出は大きく分けて時間情報表現抽出，時間情報正規化，時間的順序関係解析の三つのタスクに分類される．一つ目の時間情報表現抽出は，固有表現・数値表現抽出の部分問題として解かれてきた．二つ目の時間情報正規化は書き換え系により解かれることが多い．三つ目のタスクである時間的順序関係解析は，事象の時間軸上への対応付けと言い換えることができる．日本語においては時間的順序関係解析のための言語資源が整備されているとは言い難く，アノテーション基準についても研究者で共有されているものはない．本論文では国際標準である ISO-TimeML を日本語に適応させた時間的順序関係アノテーション基準を示す．我々は『現代日本語書き言葉均衡コーパス』(BCCWJ) の新聞記事の部分集合に対して，動詞・形容詞事象表現に TimeML の 〈EVENT〉 相当タグを付与し，その事象の性質に基づき分類を行った．また，この事象表現と先行研究 (小西, 浅原, 前川 2013) により付与されている時間情報表現との間の関係として，TimeML の 〈TLINK〉 相当タグを付与した．事実に基づき統制可能な時間情報正規化と異なり，事象構造の時間的順序関係の認識は言語受容者間で異なる傾向がある．このようなレベルのアノテーションにおいては唯一無二の正解データを作ることは無意味である．むしろ，言語受容者がいかに多様な判断を行うかを評価する被験者実験的なアノテーションが求められている．そこで，本研究では三人の作業者によるアノテーションにおける時間的順序関係認識の齟齬の傾向を分析した．アノテーション結果から，時間軸上の相対的な順序関係については一致率が高い一方，時区間の境界については一致率が低いことがわかった．

抄録全体を表示

PDF形式でダウンロード (590K)
評価表現と文脈一貫性を利用した教師データ自動生成によるクレーム検出

乾孝司, 梅澤佑介, 山本幹雄

2013 年 20 巻 5 号 p. 683-705
発行日: 2013/12/13
公開日: 2014/03/13

DOIhttps://doi.org/10.5715/jnlp.20.683

ジャーナルフリー

抄録を表示する抄録を非表示にする

本論文では，レビュー文書からクレームが記述された文を自動検出する課題に対して，従来から問題となっていた人手負荷を極力軽減することを指向した次の手続きおよび拡張手法を提案する：(1) 評価表現と文脈一貫性に基づく教師データ自動生成の手続き．(2) 自動生成された教師データの特性を踏まえたナイーブベイズ・モデルの拡張手法．提案手法では，大量のレビュー生文書の集合と評価表現辞書が準備できれば，クレーム検出規則の作成・維持・管理，あるいは，検出規則を自動学習するために必要となる教師データの作成にかかる人手負荷は全くかからない利点をもつ．評価実験を通して，提案手法によって検出対象文の文脈情報を適切に捉えることで，クレーム文の検出精度を向上させることができること，および，人手によって十分な教師データが作成できない状況においては，提案手法によって大量の教師データを自動生成することで，人手を介在させる場合と同等あるいはそれ以上のクレーム検出精度が達成できることを示した．

抄録全体を表示

PDF形式でダウンロード (697K)
k 近傍法とトピックモデルを利用した語義曖昧性解消の領域適応

新納浩幸, 佐々木稔

2013 年 20 巻 5 号 p. 707-726
発行日: 2013/12/13
公開日: 2014/03/13

DOIhttps://doi.org/10.5715/jnlp.20.707

ジャーナルフリー

抄録を表示する抄録を非表示にする

本論文では語義曖昧性解消 (Word Sense Disambiguation, WSD) の領域適応に対する手法を提案する．WSD の領域適応の問題は，2 つの問題に要約できる．1 つは領域間で語義の分布が異なる問題，もう 1 つは領域の変化によりデータスパースネスが生じる問題である．本論文では上記の点を論じ，前者の問題の対策として学習手法に k 近傍法を補助的に用いること，後者の問題の対策としてトピックモデルを用いることを提案する．具体的にはターゲット領域から構築できるトピックモデルによって，ソース領域の訓練データとターゲット領域のテストデータにトピック素性を追加する．拡張された素性ベクトルから SVM を用いて語義識別を行うが，識別の信頼性が低いものには k 近傍法の識別結果を用いる．BCCWJ コーパスの 2 つの領域 PB（書籍）と OC（Yahoo! 知恵袋）から共に頻度が 50 以上の多義語 17 単語を対象にして，WSD の領域適応の実験を行い，提案手法の有効性を示す．別種の領域間における本手法の有効性の確認，領域の一般性を考慮したトピックモデルを WSD に利用する方法，および WSD の領域適応に有効なアンサンブル手法を考案することを今後の課題とする．

抄録全体を表示

PDF形式でダウンロード (580K)
歴史的日本語資料を対象とした形態素解析

小木曽智信, 小町守, 松本裕治

2013 年 20 巻 5 号 p. 727-748
発行日: 2013/12/13
公開日: 2014/03/13

DOIhttps://doi.org/10.5715/jnlp.20.727

ジャーナルフリー

抄録を表示する抄録を非表示にする

単語情報がタグ付けされた本格的な通時コーパスを構築するためには，歴史的な日本語資料の形態素解析が必要とされるが，従来はこれを十分な精度で行うことができなかった．そこで，現代語用の UniDic に語彙の追加を行い，明治時代の文語文と平安時代の仮名文学作品のコーパスを整備することで，「近代文語 UniDic」と「中古和文 UniDic」を作成した．この辞書によりコーパス構築に利用可能な約 96～97% での解析が可能になった．この辞書の学習曲線をもとに歴史的資料の形態素解析辞書に必要な訓練用のタグ付きコーパスのサイズを調査した結果，約 5 万語のコーパスで精度 95% を超える実用的な解析が可能になること，5,000 語程度の少量であっても対象テキストの訓練コーパスを用意することが有効であることを確認した．

抄録全体を表示

PDF形式でダウンロード (516K)

J-STAGEへの登録はこちら（無料）