自然言語処理

巻頭言

問題を語る

乾健太郎

2010 年 17 巻 1 号 p. 1_1-1_2
発行日: 2010年
公開日: 2011/06/30

DOIhttps://doi.org/10.5715/jnlp.17.1_1

ジャーナルフリー

PDF形式でダウンロード (133K)

追悼

追悼　池原悟先生

長尾真

2010 年 17 巻 1 号 p. 1_3-1_4
発行日: 2010年
公開日: 2011/06/30

DOIhttps://doi.org/10.5715/jnlp.17.1_3

ジャーナルフリー

PDF形式でダウンロード (154K)
恩師「池原悟」先生への追悼

村上仁一

2010 年 17 巻 1 号 p. 1_5-1_6
発行日: 2010年
公開日: 2011/06/30

DOIhttps://doi.org/10.5715/jnlp.17.1_5

ジャーナルフリー

PDF形式でダウンロード (151K)

論文

単語アライメントを用いた英日機械翻訳文の流暢さの自動評価

吉見毅彦, 小谷克則, 九津見毅, 佐田いち子, 井佐原均

2010 年 17 巻 1 号 p. 1_7-1_28
発行日: 2010年
公開日: 2011/06/30

DOIhttps://doi.org/10.5715/jnlp.17.1_7

ジャーナルフリー

抄録を表示する抄録を非表示にする

本稿では，人間による翻訳（人間訳）と機械翻訳システムによる翻訳（システム訳）を訓練事例とした機械学習によって構築した識別器を用いてシステム訳の流暢さを自動評価する手法について述べる．提案手法では，人間訳とシステム訳の流暢さの違いを表わす手がかりとして，逐語訳（原文と翻訳文での単語同士の対応）に着目した．人間訳とシステム訳における逐語訳の違いを捉えるために，原文と人間訳との間，および原文とシステム訳との間で単語対応付けを行ない，その結果を機械学習のための素性とする．提案手法は，識別器を構築する際に対訳コーパスを必要とするが，評価対象のシステム訳の流暢さを評価する際には参照訳を必要としない．さらに，大量の訓練事例に人手で流暢さの評価値を付与する必要もない．検証実験の結果，提案手法によってシステムレベルでの自動評価が可能であることが示唆された．また，サポートベクターマシンによる機械学習で各素性に付与される重みに基づいてシステム訳に特徴的な素性を特定できるため，このような素性を含む文を観察することによって文レベルでのシステム訳の特徴分析を行なうこともできる．

抄録全体を表示

PDF形式でダウンロード (413K)
候補間の表層的差異に着目した地名の所属国推定

佐野智久, 延澤志保, 岡本紘幸, 鈴木宏哉, 松原正樹, 斎藤博昭

2010 年 17 巻 1 号 p. 1_29-1_54
発行日: 2010年
公開日: 2011/06/30

DOIhttps://doi.org/10.5715/jnlp.17.1_29

ジャーナルフリー

抄録を表示する抄録を非表示にする

地名等の固有名詞は自然言語処理における未知語処理問題の要因の一つであり，これを自動的に認識する手法が盛んに研究されている．本稿では，地名の所属国を自動的に推定することで，未知語としてノイズの原因となる可能性のある地名語句に情報を与えることを目的とする．固有名詞である地名の認識では地名辞書が用いられることが多いが，辞書ベースの手法では，辞書未登録語の問題が避けられない．不特定多数の外国の地名も含めた所属国の推定の実現のため，本稿では，地名辞書や文脈情報を全く使用せず，地名の表層情報のみを利用して，地名の所属国を自動的に判別する手法を提案する．地名については，言語的な類似性や地理的要因によって所属国の判別が困難な場合がある．本稿ではこの点に着目し，所属可能性の低い国の除去による候補の絞込み処理と，所属可能性の高い候補の選択処理との組合せによって，再現率を高く保ったまま適合率の向上を実現した．

抄録全体を表示

PDF形式でダウンロード (621K)
形態論的制約を用いたオンライン未知語獲得

村脇有吾, 黒橋禎夫

2010 年 17 巻 1 号 p. 1_55-1_75
発行日: 2010年
公開日: 2011/06/30

DOIhttps://doi.org/10.5715/jnlp.17.1_55

ジャーナルフリー

抄録を表示する抄録を非表示にする

日本語の形態素解析における未知語問題を解決するために，オンライン未知語獲得という枠組みと，その具体的な実現手法を提案する．オンライン未知語獲得では，形態素解析器と協調して動作する未知語獲得器が，文が解析されるたびに未知語を検出し，その可能な解釈の候補を列挙し，最適な候補を選択する．このうち，列挙は日本語の持つ形態論的制約を利用し，選択は蓄積した複数用例の比較により行う．十分な用例の比較により曖昧性が解消されると，解析器の辞書を直接更新し，獲得された未知語が以降の解析に反映される．実験により，比較的少数の用例から高精度に未知語が獲得され，その結果形態素解析の精度が改善することが示された．

抄録全体を表示

PDF形式でダウンロード (1007K)
文字列を特徴量とし反復度を用いたテキスト分類

尾上徹, 平田勝大, 岡部正幸, 梅村恭司

2010 年 17 巻 1 号 p. 1_77-1_97
発行日: 2010年
公開日: 2011/06/30

DOIhttps://doi.org/10.5715/jnlp.17.1_77

ジャーナルフリー

抄録を表示する抄録を非表示にする

テキスト分類における特徴抽出とは，分類結果を改善するためにテキストの特徴たる単語または文字列を取捨選択する手続きである．ドキュメントセットのすべての部分文字列の数は，通常は非常に膨大であるため，部分文字列を特徴として使用するとき，この操作は重要な役割を果たす．
本研究では，部分文字列の特徴抽出の方法に焦点を当て，反復度と呼ばれる統計量を使って特徴抽出する方法を提案する．反復度は，高確率でドキュメントに二度以上出現する文字列は文書のキーワードであるはずだという仮定に基づく統計量であり，この反復度の性質は，テキスト分類にも有効であると考える．実験では，Zhang ら (Zhang et al. 2006) によって提案された，条件付確率を用いることで分布が類似した文字列をまとめるという手法（以下，条件付確率の方法と記す）と我々の提案する手法の比較を行う．結果の評価には適合率と再現率に基づくF値を用いることとした．ニュース記事とスパムメールの分類実験の結果，我々の提案する反復度を用いた特徴抽出法を用いると，条件付確率の方法を用いるのに比べて，ニュース記事の分類では分類結果を平均 79.65% から平均 83.39% に改善し，スパムメールの分類では分類結果を平均 90.23% から平均 93.15% に改善した．提案手法である反復度を用いる特徴抽出法は Zhang らの提案する条件付確率を用いる特徴抽出法に比べて，ニュース分類記事の分類では平均 3.74%，スパムメールの分類では平均 2.93% だけ結果を改善しており，その両方の実験において結果に有意差があることを確認した．
また，反復度を用いる特徴抽出方法を用いると，単語を特徴集合とする方法を用いる場合と比べて，ニュース記事の分類では分類の結果を平均 83.88% から平均 83.39% と平均 0.49% 低下させることとなったものの，スパムメールの分類では分類の結果を平均 92.11% から平均 93.15% と平均 1.04% 改善した．ニュース記事の分類においては反復度を用いる特徴抽出方法と単語を特徴集合とする方法に有意差は本実験では認められず，スパムメールの分類の結果においては有意差があることを確認した．
この結果が得られた要因について考察すると，条件付確率の方法を用いたほうは一見しただけでは何の部分文字列かわからないほど短い文字列を抽出する傾向にあることが分かった．これは不特定多数の文字列の一部として出現しやすいことを意味しており，文書の特徴になりえないような文字列がこれを含んでいたとき，分類結果がその文字列の影響を受けることを意味する．それに対して反復度で抽出した部分文字列は短い文字列もあるものの，長い文字列や間に空白が挟まった単語をつなぐ部分文字列も捉えているため，特定のものをさす文字列の部分文字列であるといえる．このような何を指しているのかわかりやすいある程度長い部分文字列と，間に空白を挟んだ単語と単語を結ぶような形の部分文字列が分類結果を改善していると考えられる．

抄録全体を表示

PDF形式でダウンロード (404K)
依存関係確率モデルを用いた統計的句アライメント

中澤敏明, 黒橋禎夫

2010 年 17 巻 1 号 p. 1_99-1_120
発行日: 2010年
公開日: 2011/06/30

DOIhttps://doi.org/10.5715/jnlp.17.1_99

ジャーナルフリー

抄録を表示する抄録を非表示にする

語順や言語構造の大きく異なる言語対間の対訳文をアライメントする際に最も重要なことは，言語の構造情報を利用することと，一対多もしくは多対多の対応が生成できることである．本論文では両言語文の依存構造木上での単語や句の依存関係をモデル化した新しい句アライメント手法を提案する．依存関係モデルは木構造上での reordering モデルということができ，非局所的な語順変化を正確に扱うことができる．これは文を単語列として扱う既存の単語アライメント手法にはない利点である．また提案モデルはヒューリスティックなルールを一切用いずに，句となるべき単位の推定を自動的に行うことができる．アライメント実験では，既存の単語アライメント手法と比較して，提案手法にではアライメントの精度を F 値で 8.5 ポイント向上させることができた．

抄録全体を表示

PDF形式でダウンロード (1020K)
項の共有関係と統語パターンを用いた事態間関係獲得

阿部修也, 乾健太郎, 松本裕治

2010 年 17 巻 1 号 p. 1_121-1_139
発行日: 2010年
公開日: 2011/06/30

DOIhttps://doi.org/10.5715/jnlp.17.1_121

ジャーナルフリー

抄録を表示する抄録を非表示にする

行為―効果関係，行為―手段関係のような事態間の関係を大規模コーパスから自動的に獲得する．共起パターンを利用する手法では，事態を表現する述語間で共有される項を認識することが難しいため，述語間で共有される名詞（アンカー）を用いて共有項を獲得し，共起パターンを用いて獲得した所与の関係を満たす述語対と共有項を組み合わせることで，共有項と共に事態間関係を獲得する．このとき 2 種類の異なるアンカーを用いることで，精度を保ったまま再現率を向上できることを確認した．

抄録全体を表示

PDF形式でダウンロード (552K)
名詞句の語彙統語パターンを用いた事態性名詞の項構造解析

小町守, 飯田龍, 乾健太郎, 松本裕治

2010 年 17 巻 1 号 p. 1_141-1_159
発行日: 2010年
公開日: 2011/06/30

DOIhttps://doi.org/10.5715/jnlp.17.1_141

ジャーナルフリー

抄録を表示する抄録を非表示にする

形態素解析や構文解析など自然言語処理の要素技術は成熟しつつあり，意味解析・談話解析といった，より高次な言語処理の研究が盛んになってきた．特に文の意味理解のためには「誰が」「何を」「誰に」といった要素（項）を同定することが重要である．動詞や形容詞を対象にした項構造解析のことを述語項構造解析と呼ぶが，文中の事態を表す表現は動詞や形容詞の他にも名詞も存在することが知られている．そこで，我々は日本語の名詞を対象とした項構造解析タスクを取り上げ，機械学習を用いた自動的な解析手法を提案する．日本語の事態性名詞には事態を指すか否か曖昧性のある名詞があるため，まず事態性の有無を判定する事態性判別タスクと項同定タスクの 2 つに分解し，それぞれ大規模なコーパスから抽出した語彙統語パターンを用いた手法と述語・事態性名詞間の項の共有現象に着目した手法を提案する．

抄録全体を表示

PDF形式でダウンロード (445K)
テキスト結束性を考慮したentity gridに基づく局所的一貫性モデル

横野光, 奥村学

2010 年 17 巻 1 号 p. 1_161-1_182
発行日: 2010年
公開日: 2011/06/30

DOIhttps://doi.org/10.5715/jnlp.17.1_161

ジャーナルフリー

抄録を表示する抄録を非表示にする

本論文ではentity gridを用いたテキストの局所的な一貫性モデルに対する改善について述べる．entity grid ベースの既存モデルに対して，テキスト結束性に寄与する要素である接続関係，参照表現，語彙的結束性，また，より詳細な構文役割の分類を組み込んだモデルを提案し，その性能を検証する．語彙的結束性に関しては，語彙的連鎖を用いたクラスタリングを行う．テキスト中の文の並びに対して，より一貫性のある文の順番の判定と，人手による評価に基づいた要約テキストの比較の 2 種類の実験を行い，その結果，本論文で提案する要素が entity grid モデルの性能の改善に寄与することが明らかになった．

抄録全体を表示

PDF形式でダウンロード (452K)
Measuring the Appropriateness of Automatically Generated Phrasal Paraphrases

Atsushi Fujita, Satoshi Sato

2010 年 17 巻 1 号 p. 1_183-1_219
発行日: 2010年
公開日: 2011/06/30

DOIhttps://doi.org/10.5715/jnlp.17.1_183

ジャーナルフリー

抄録を表示する抄録を非表示にする

The most critical issue in generating and recognizing paraphrases is developing a wide-coverage paraphrase knowledge base. To attain the coverage of paraphrases that should not necessarily be represented at surface level, researchers have attempted to represent them with general transformation patterns. However, this approach does not prevent spurious paraphrases because there is no practical method to assess whether or not each instance of those patterns properly represents a pair of paraphrases. This paper argues on the measurement of the appropriateness of such automatically generated paraphrases, particularly targeting at morpho-syntactic paraphrases of predicate phrases. We first specify the criteria that a pair of expressions must satisfy to be regarded as paraphrases. On the basis of the criteria, we then examine several measures for quantifying the appropriateness of a given pair of expressions as paraphrases of each other. In addition to existing measures, a probabilistic model consisting of two distinct components is examined. The first component of the probabilistic model is a structured N-gram language model that quantifies the grammaticality of automatically generated expressions. The second component approximates the semantic equivalence and substitutability of the given pair of expressions on the basis of the distributional hypothesis. Through an empirical experiment, we found (i) the effectiveness of contextual similarity in combination with the constituent similarity of morpho-syntactic paraphrases and (ii) the versatility of the Web for representing the characteristics of predicate phrases.

抄録全体を表示

PDF形式でダウンロード (393K)
Resolving Direct and Indirect Anaphora for Japanese Definite Noun Phrases

Naoya Inoue, Ryu Iida, Kentaro Inui, Yuji Matsumoto

2010 年 17 巻 1 号 p. 1_221-1_246
発行日: 2010年
公開日: 2011/06/30

DOIhttps://doi.org/10.5715/jnlp.17.1_221

ジャーナルフリー

抄録を表示する抄録を非表示にする

An anaphoric relation can be either direct or indirect. In some cases, the antecedent being referred to lies outside of the discourse its anaphor belongs to. Therefore, an anaphora resolution model needs to consider the following two decisions in parallel: antecedent selection–selecting the antecedent itself, and anaphora type classification–classifying an anaphor into direct anaphora, indirect anaphora or exophora. However, there are non-trivial issues for taking these decisions into account in anaphora resolution models since the anaphora type classification has received little attention in the literature. In this paper, we address three non-trivial issues: (i) how the antecedent selection model should be designed, (ii) what information helps with anaphora type classification, (iii) how the antecedent selection and anaphora type classification should be carried out, taking Japanese as our target language. Our findings are: first, an antecedent selection model should be trained separately for each anaphora type using the information useful for identifying its antecedent. Second, the best candidate antecedent selected by an antecedent selection model provides contextual information useful for anaphora type classification. Finally, the antecedent selection should be carried out before anaphora type classification.

抄録全体を表示

PDF形式でダウンロード (676K)

技術資料

複数の観点で分類した自然言語処理用シソーラス

国分芳宏, 岡野弘行

2010 年 17 巻 1 号 p. 1_247-1_263
発行日: 2010年
公開日: 2011/06/30

DOIhttps://doi.org/10.5715/jnlp.17.1_247

ジャーナルフリー

抄録を表示する抄録を非表示にする

従来の情報検索に特化されたシソーラスではなく，構文解析や用語標準化などの自然言語処理を目的とする 420,000 語規模のシソーラスを開発した．各用語の持つ関係語の数が膨大なため，観点（ファセット）を導入して分類し，探しやすくしたシソーラスである．さらに，差別語，表記の揺れなども区別できる．シソーラスを作成する際の留意点・課題もまとめた．パッケージソフトのカスタマイズ機能およびインターネットや他の辞書との連動機能，用語の標準化などについても紹介した．

抄録全体を表示

PDF形式でダウンロード (879K)

J-STAGEへの登録はこちら（無料）