自然言語処理

末広かり

森辰則

2007 年 14 巻 1 号 p. 1-2
発行日: 2007/01/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.14.1

ジャーナルフリー

PDF形式でダウンロード (265K)
日本語係り受け解析の線形時間アルゴリズム

颯々野学

2007 年 14 巻 1 号 p. 3-18
発行日: 2007/01/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.14.3

ジャーナルフリー

抄録を表示する抄録を非表示にする

日本語係り受け解析を行なう新しいアルゴリズムを述べる.このアルゴリズムによれば, トップレベルの精度を落とすことなく線形時間で係り受け解析が行なえる.本論文では, アルゴリズムの形式的な記述を行ない, その時間計算量を理論的に議論する.加えて, その効率と精度を京大コーパスVersion2を使って実験的にも評価する.改良された係り関係のモデルと提案手法を組み合わせると, 京大コーパスVersion2に対して従来手法よりもよい精度が得られた.

抄録全体を表示

PDF形式でダウンロード (1582K)
意味と親和性のある統語構造を出力する日本語文パーザ

武本裕, 宮崎正弘

2007 年 14 巻 1 号 p. 19-42
発行日: 2007/01/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.14.19

ジャーナルフリー

抄録を表示する抄録を非表示にする

英語に比べて語順が自由で省略の多い日本語は, 句構造解析には不向きとされ, 係り受け解析が一般的となっている.また, 係り受けが交差する入れ子破りが起こる表現や二つの品詞性のある語などは, 句構造解析による木構造ではうまく扱えない.さらに, 現在主流となっている文節構文論 (学校文法) に基づく構文解析では構文解析結果が意味と整合性が良くなく, 時枝文法風の構文解析の方が解析結果に則って意味がうまく説明できることが指摘されている.本論文では, 時枝によって提唱された言語過程説を発展的に継承した三浦の言語モデル (関係意味論に基づく三浦の入れ子構造) とそれらの基づく日本語文法体系 (三浦文法) による文法記述と文法規則適用条件の制御によって上記のような日本語構文解析上の問題を解決する方法を提案する.さらに, このような考えに基づき試作した日本語文パーザによって, 一対多・多対一の係り受け関係, 文中の局所的入れ子構造, 入れ子破りの表現, 主題の「は」と対照の「は」の扱い, 二つの品詞性のある語の扱いにおいて意味的に適切な統語構造が得られることを示した.

抄録全体を表示

PDF形式でダウンロード (3839K)
日本語フレームネットに基づく意味役割推定

肥塚真輔, 岡本紘幸, 斎藤博昭, 小原京子

2007 年 14 巻 1 号 p. 43-66
発行日: 2007/01/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.14.43

ジャーナルフリー

抄録を表示する抄録を非表示にする

本稿では, 日本語フレームネットを背景に, 述語項構造における項の意味役割を推定する統計モデルの定義, および獲得手法を提案する.本モデルの目的は, 表層格では区別できない意味の区別である.本モデルは文と述語から述語項構造を同定して意味役割を付与すべき項を抽出し, それらに適切な意味役割を付与する.評価実験の結果, 尤度が閾値を超える意味役割のみを付与する条件の下, 意味役割を付与すべき項がわかっている文に対して精度77%, 再現率68%, また, 意味役割を付与すべき項がわかっていない文に対して精度63%, 再現率43%で意味役割推定を実現し, 本手法の有効性を示した.また, 同一の表層格をもつ項に対して, 複数の異なる意味役割の付与を実現した.

抄録全体を表示

PDF形式でダウンロード (2291K)
文書拡張によるキーワード抽出

長町健太, 武田善行, 梅村恭司

2007 年 14 巻 1 号 p. 67-86
発行日: 2007/01/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.14.67

ジャーナルフリー

抄録を表示する抄録を非表示にする

キーワード抽出は情報検索に不可欠な技術の一つである.例えば, 検索速度の短縮や検索精度の改善に利用される.既存のキーワード抽出法としては, 語の統計情報や文書の構文上の特徴に基づくものなどがある.その中で, 辞書を一切用いず, 反復度と呼ばれる統計量のみに基づくキーワード抽出法がある.この方法には, 文書数に上限があるとき複合語が一般的な語に分割されて, 長いキーワードとして抽出できないという問題がある.そこで本論文では, 質問拡張のアイデアを利用して複数文書への繰り返し出現という考えを導入する.そして, この考えを元にキーワード抽出法を提案する.結果として, 提案したキーワード抽出法のF値は上がった.また, これまでに取れなかったキーワードが取れるようになった.結論として, キーワード抽出における文書拡張の有用性を報告する.

抄録全体を表示

PDF形式でダウンロード (3123K)
知覚的群化を利用した参照表現の生成

船越孝太郎, 渡辺聖, 徳永健伸

2007 年 14 巻 1 号 p. 87-110
発行日: 2007/01/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.14.87

ジャーナルフリー

抄録を表示する抄録を非表示にする

参照表現とは, 特定の物体を他の物体と混同することなく識別する言語表現である.参照表現の生成に関する従来の研究では, 対象物体固有の属性と異なる2つの物体間の関係を扱ってきた.しかし外見的特徴の差異が少なく他の物体との関係が対象物体の特定に用を成さない場合, 従来の手法では対象物体を特定する自然な参照表現を生成することはできない.この問題に対して我々は知覚的群化を利用した参照表現の生成手法を提案しているが, この手法が扱える状況は強く限定されている.本論文では, 我々が提案した手法を拡張し, より一般的な状況に対応できる参照表現の生成手法を提案する.18人の被験者に対する心理実験をおこない, 本論文の提案手法を実装したシステムが適切な参照表現を生成できることを確認した.

抄録全体を表示

PDF形式でダウンロード (11269K)
機械学習を用いた日本語機能表現のチャンキング

土屋雅稔, 注連隆夫, 高木俊宏, 内元清貴, 松吉俊, 宇津呂武仁, 佐藤理史, 中川聖一

2007 年 14 巻 1 号 p. 111-138
発行日: 2007/01/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.14.111

ジャーナルフリー

抄録を表示する抄録を非表示にする

日本語には, 複数の語がひとかたまりとなって, 全体として1つの機能的な意味を持つ表現が多数存在する.このような表現は機能表現と呼ばれ, 日本語文の構造を理解するために非常に重要である.本論文では, 形態素を単位とするチャンク同定問題として機能表現検出タスクを定式化し, 機械学習手法を適用することにより, 機能表現の検出を実現する方法を提案する.Support Vector Machine (SVM) を用いたチャンカーYamChaを利用して, 機能表現の検出器を実装し, 実際のタグ付きデータを用いて性能評価を行った.機能表現を構成している形態素の数の情報, 機能表現中における形態素の位置情報を素性として参照することにより, F値で約92という高精度の検出器を実現できることを示す.

抄録全体を表示

PDF形式でダウンロード (3247K)
Text Generation for Intermediate Non-native Speakers of English

Xinyu Deng, Jun-ichi Nakamura

2007 年 14 巻 1 号 p. 139-161
発行日: 2007/01/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.14.139

ジャーナルフリー

抄録を表示する抄録を非表示にする

This paper describes the microplanner of the SILK system which can generate texts appropriate for intermediate non-native users on discourse level. Four factors (i.e. nucleus position, between-text-span punctuation, embedded discourse markers and punctuation pattern) are regarded to affect the readability at discourse level. It is the preferences among these factors that decide the readability. Since the number of possible combinations of the preferences is huge, we use Genetic Algorithm to solve such a problem. We adopt two methods to evaluate the system: one is evaluating the reliability of the SILK system by analysing how often it re-generates corpus texts, another is judging readability by human subjects. The evaluation results show that the system is reliable and the generation results are appropriate for intermediate non-native speakers on discourse level.

抄録全体を表示

PDF形式でダウンロード (2097K)
Automatic F-term Classification of Japanese Patent Documents Using the k-Nearest Neighborhood Method and the SMART Weighting

Masaki Murata, Toshiyuki Kanamaru, Tamotsu Shirado, Hitoshi Isahara

2007 年 14 巻 1 号 p. 163-189
発行日: 2007/01/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.14.163

ジャーナルフリー

抄録を表示する抄録を非表示にする

Patent processing is important in various fields such as industry, business, and law. We used F-terms (Schellner 2002) to classify patent documents using the k-nearest neighborhood method. Because the F-term categories are fine-grained, they are useful when we classify patent documents. We clarified the following three points using experiments: i) which variations of the k-nearest neighborhood method are the best for patent classification, ii) which methods of calculating similarity are the best for patent classification, and iii) from which regions of a patent terms should be extracted. In our experiments, we used the patent data used in the F-term categorization task in the NTCIR-5 Patent Workshop (NTCIR committee 2005; Iwayama, Fujii, and Kando 2005). We found that the method of adding the scores of k extracted documents to classify patent documents was the most effective among the variations of the k-nearest neighborhood method used in this study. We also found that SMART (Singhal, Buckley, and Mitra 1996; Singhal, Choi, Hindle, and Pereira 1997), which is known to be effective in information retrieval, was the most effective method of calculating similarity. Finally, when extracting terms, we found that using the abstract and claim regions together was the best method among all the combinations of using abstract, claim, and description regions. The results were confirmed using a statistical test. Moreover, we experimented with changing the amount of training data and found that we obtained better performance when we used more data, which was limited to that provided in the NTCIR-5 Patent Workshop.

抄録全体を表示

PDF形式でダウンロード (2535K)

J-STAGEへの登録はこちら（無料）