自然言語処理

巻頭言

ことばへの敏感力

河原大輔

2014 年 21 巻 6 号 p. 1105-1106
発行日: 2014/12/15
公開日: 2015/03/15

DOIhttps://doi.org/10.5715/jnlp.21.1105

ジャーナルフリー

PDF形式でダウンロード (117K)

論文

Noise-aware Character Alignment for Extracting Transliteration Fragments

Katsuhito Sudoh, Shinsuke Mori, Masaaki Nagata

2014 年 21 巻 6 号 p. 1107-1131
発行日: 2014/09/16
公開日: 2015/03/15

DOIhttps://doi.org/10.5715/jnlp.21.1107

ジャーナルフリー

抄録を表示する抄録を非表示にする

This paper proposes a novel noise-aware character alignment method for automatically extracting transliteration fragments in phrase pairs that are extracted from parallel corpora. The proposed method extends a many-to-many Bayesian character alignment method by distinguishing transliteration (signal) parts from non-transliteration (noise) parts. The model can be trained efficiently by a state-based blocked Gibbs sampling algorithm with signal and noise states. The proposed method bootstraps statistical machine transliteration using the extracted transliteration fragments to train transliteration models. In experiments using Japanese-English patent data, the proposed method was able to extract transliteration fragments with much less noise than an IBM-model-based baseline, and achieved better transliteration performance than sample-wise extraction in transliteration bootstrapping.

抄録全体を表示

PDF形式でダウンロード (941K)
「コーパスベース国語辞典」構築のための「古風な語」の分析と記述

柏野和佳子, 奥村学

2014 年 21 巻 6 号 p. 1133-1161
発行日: 2014/12/15
公開日: 2015/03/15

DOIhttps://doi.org/10.5715/jnlp.21.1133

ジャーナルフリー

抄録を表示する抄録を非表示にする

従来の紙版の国語辞典はコンパクトにまとめることが優先され，用例の記述は厳選され，必要最小限にとどめられていた．しかし，電子化編集が容易になり，電子化された国語辞典データや種々のコーパスが活用できるようになった今，豊富な用例を増補した電子化版国語辞典の構築が可能になった．そうした電子化版国語辞典は，人にも計算機にも有用性の高いものと期待される．著者らはその用例記述の際に見出し語のもつ文体的特徴を明記する方法を提案し，より利用価値の高い，電子化版の「コーパスベース国語辞典」の構築を目指している．文体的特徴の記述は，語の理解を助け，文章作成時にはその語を用いる判断の指標になり得るため，作文指導や日本語教育，日本語生成処理といった観点からの期待も高い．本論文では，古さを帯びながらも現代語として用いられる「古風な語」を取り上げる．これに注目する理由は，三点ある．一点目は，現代語の中で用いられる「古風な語」は少なくないにも関わらず，「古語」にまぎれ辞書記述に取り上げ損なってしまう危険性のあるものであること．二点目は，その「古風な語」には，文語の活用形をもつなど，その文法的な扱いに注意の必要なものがあること．三点目は，「古さ」という文体的特徴を的確かつ，効果的に用いることができるよう，十分な用法説明が必要な語であるということ，である．そこで，本論文では，これら三点に留意して「古風な語」の用法をその使用実態に即して分析し，その辞書記述を提案する．はじめに，現行国語辞典5種における「古風な語」の扱いを概観する．次に，「古風な語」の使用実態を『現代日本語書き言葉均衡コーパス』に収録される図書館サブコーパスを用いて分析し，「古風な語」の使用を，(1) 古典の引用，(2) 明治期から戦前まで，(3) 時代・歴史小説，(4) 現代文脈，に4分類する．そして，その 4 分類に基づく「コーパスベース国語辞典」の辞書記述方法を提案する．このような辞書記述は例えば，作文指導や日本語教育，日本語生成処理の際の語選択の参考になるものと期待される．

抄録全体を表示

PDF形式でダウンロード (638K)
Language-independent Approach to High Quality Dependency Selection from Automatic Parses

Gongye Jin, Daisuke Kawahara, Sadao Kurohashi

2014 年 21 巻 6 号 p. 1163-1182
発行日: 2014/12/15
公開日: 2015/03/15

DOIhttps://doi.org/10.5715/jnlp.21.1163

ジャーナルフリー

抄録を表示する抄録を非表示にする

Many knowledge acquisition tasks are tightly dependent on fundamental analysis technologies, such as part of speech (POS) tagging and parsing. Dependency parsing, in particular, has been widely employed for the acquisition of knowledge related to predicate-argument structures. For such tasks, the dependency parsing performance can determine quality of acquired knowledge, regardless of target languages. Therefore, reducing dependency parsing errors and selecting high quality dependencies is of primary importance. In this study, we present a language-independent approach for automatically selecting high quality dependencies from automatic parses. By considering several aspects that affect the accuracy of dependency parsing, we created a set of features for supervised classification of reliable dependencies. Experimental results on seven languages show that our approach can effectively select high quality dependencies from dependency parses.

抄録全体を表示

PDF形式でダウンロード (3005K)
日本語形態素解析における未知語処理の一手法―既知語から派生した表記と未知オノマトペの処理―

笹野遼平, 黒橋禎夫, 奥村学

2014 年 21 巻 6 号 p. 1183-1205
発行日: 2014/12/15
公開日: 2015/03/15

DOIhttps://doi.org/10.5715/jnlp.21.1183

ジャーナルフリー

抄録を表示する抄録を非表示にする

本論文では，形態素解析で使用する辞書に含まれる語から派生した表記，および，未知オノマトペを対象とした日本語形態素解析における効率的な未知語処理手法を提案する．提案する手法は既知語からの派生ルールと未知オノマトペ認識のためのパターンを利用し対象とする未知語の処理を行う．Web から収集した 10 万文を対象とした実験の結果，既存の形態素解析システムに提案手法を導入することにより新たに約 4,500 個の未知語を正しく認識できるのに対し，解析が悪化する箇所は 80 箇所程度，速度低下は 6% のみであることを確認した．

抄録全体を表示

PDF形式でダウンロード (479K)
受身・使役形と能動形間の格交替に関する語彙知識の自動獲得

笹野遼平, 河原大輔, 黒橋禎夫, 奥村学

2014 年 21 巻 6 号 p. 1207-1233
発行日: 2014/12/15
公開日: 2015/03/15

DOIhttps://doi.org/10.5715/jnlp.21.1207

ジャーナルフリー

抄録を表示する抄録を非表示にする

日本語において受身文や使役文を能動文に変換する際，格交替が起こる場合がある．本論文では，対応する受身文・使役文と能動文の格の用例や分布の類似性に着目し，Web から自動構築した大規模格フレームと，人手で記述した少数の格の交替パターンを用いることで，受身文・使役文と能動文の表層格の対応付けに関する知識を自動獲得する手法を提案する．さらに，自動獲得した知識を受身文・使役文の能動文への変換における格交替の推定に利用することによりその有用性を示す．

抄録全体を表示

PDF形式でダウンロード (637K)

J-STAGEへの登録はこちら（無料）