自然言語処理

手法の違い

加藤安彦

2001 年 8 巻 3 号 p. 1-2
発行日: 2001/07/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.8.3_1

ジャーナルフリー

PDF形式でダウンロード (254K)
文節重要度と係り受け整合度に基づく日本語文簡約アルゴリズム

小黒玲, 尾関和彦, 張玉潔, 高木一幸

2001 年 8 巻 3 号 p. 3-18
発行日: 2001/07/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.8.3_3

ジャーナルフリー

抄録を表示する抄録を非表示にする

これまで主に検討されてきた文書要約手法は, 文集合から重要文を抽出するものである. この方法によれば, 段落などを要約した結果として誤りのない文の集合が得られる. しかし, 目的によっては更に要約率を上げるため, または段落などの単位での要約が不適当であるときなど, 一文毎の簡約が必要となる場合がある. このような文書要約手法では, 簡約文が日本語として自然な文であることが重要ppである. そこで本論文では, 文の簡約を「原文から, 文節重要度と文節間係り受け整合度の総和が最大になる部分文節列を選択する」問題として定式化し, それを解くための効率の良いアルゴリズムを提案する. 本稿の定式化では簡約文の評価に文節問の係り受け整合度が用いられていることから, 簡約結果は適切な係り受け構造を持つことが期待できる. したがって本手法を用いることにより, 自然で正確な簡約文を高速に生成できる可能性がある. このアルゴリズムを実用するには, 文節重要度と係り受け整合度の適切な設定が不可欠であるが, 本稿ではこれらについては議論せず, アルゴリズムの導出と計算効率, 実装法などに重点を置いて報告する.

抄録全体を表示

PDF形式でダウンロード (2428K)
手指動作記述文間の類似性に基づく手話単語の分類方法

安達久博

2001 年 8 巻 3 号 p. 19-37
発行日: 2001/07/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.8.3_19

ジャーナルフリー

抄録を表示する抄録を非表示にする

手話は視覚言語としての側面を持つため, 手話単語の語構成 (造語法) における特徴の一つとして「写像性」が挙げられる. 例えば, 日本手話の日本語単語見出し「家」に対する手話表現は, 屋根の形を視覚的に写像している. すなわち, 手話表現が概念特徴の一部を視覚的に模倣している点である. 一般に, 概念特徴は定義的特徴と性格的特徴に分類される. ここで, 定義的特徴とは, ある概念の定義に不可欠な特徴素の集合であり, 性格的特徴とは概念を間接的に特徴付ける特徴素の集まりを指す. 例えば, 「家」に対する手話表現は, 定義的特徴としての特徴素からの写像と捉えることができる. 一方, 「破産」に対する手話表現は, 比喩的な表現「家が潰れる」という概念の間接的な記述, すなわち, 性格的特徴を視覚的に写像し「家」の手話表現を提示した後に, 両手を付け合わせる表現で定義されている. すなわち, 一義的には、双方の単語間に概念の類似性はみられないものの, 手指動作特徴の類似性という観点からみると「家」の派生語と捉えることができる. また, 日本語との言語接触により, 日本語の単語見出しの構成要素を借用した複合表現 (例えば, 「青森」は「青い」と「森」から成る.) で構成される単語が少なくない.この借用も広の写像性と捉えることができる. このように, 手指動作特徴の類似性により手話単語を分類することは, 手指動作特徴が担う概念特徴と造語法との関係を明らかにする重要な手がかりの一つを提供できると考える. また, 手話単語を対象とする電子化辞書システムなどにおいては, 手指動作特徴を検索キーとする類似検索機構を実現する上での有益な知識データと捉えることができる. 本論文では, 与えられた手話単語の有限集合を手指動作特徴問の類似性に基づき分類する方法として, 市販の手話辞典に記述されている手指動作記述文間の類似性に着目した手法を提案する. 本手法の特徴は, 手指動作記述文間の類似度を求め, 集合の要素間の同値関係により単語集合を同値類に分割する点にある. 実験により, 提案手法の妥当性を示す結果が得られた.

抄録全体を表示

PDF形式でダウンロード (9273K)
文字間統計情報に基づく口語文字列の自動抽出

延澤志保, 斎藤博昭, 中西正和

2001 年 8 巻 3 号 p. 39-57
発行日: 2001/07/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.8.3_39

ジャーナルフリー

抄録を表示する抄録を非表示にする

統計情報に基づく自然言語処理が盛んになる中で, 訓練データとしてのコーパスの影響は非常に大きい. 生コーパスをそのまま利用する場合には, コーパスの取得が容易であるため, 目的に合ったドメインのコーパスを大量に入手できるという利点がある. しかし, 生コーパスは人間の言語の性質上, 未登録語や未知の言い回し, 非文とされるような文の出現等を多く含むことがほとんどであり, これらが処理の精度の低下を招くという問題がある. 特に, 口語表現の処理は, 電子メールでの利用等利用頻度の高いものであるにも関わらず, 十分に研究されているとは言い難い. 本稿では, 生コーパスに含まれる未知の語句および言い回しに着目し, 電子メール文書内に出現する意味のある文字列を自動的に抽出する実験を行なった結果について報告する. 本システムは事前に与えられた電子メール文書中の各文字の共起確率を利用して, テストコーパスとして与えられた電子メール文書から意味のある文字列を抽出し出力する. 本システムを利用することで, 同じテストコーパスを既存の形態素解析ツールで解析した結果未登録語として処理された文字列の69.06%を抽出することに成功した.

抄録全体を表示

PDF形式でダウンロード (1852K)
A trainable method for pronominal anaphora resolution using shallow information

Michael Paul, Eiichiro Sumita

2001 年 8 巻 3 号 p. 59-85
発行日: 2001/07/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.8.3_59

ジャーナルフリー

抄録を表示する抄録を非表示にする

We propose a corpus-based approach to anaphora resolution of Japanese pronouns combining a machine learning method and statistical information. First, a decision tree trained on an annotated corpus determines the coreference relation of a given anaphor and antecedent candidates and is utilized as a filter in order to reduce the number of potential candidates. In the second step, preference selection is achieved by taking into account the frequency information of coreferential and non-referential pairs tagged in the training corpus as well as distance and counting features within the current discourse.

抄録全体を表示

PDF形式でダウンロード (2477K)
英日機械翻訳における代名詞翻訳の改良

吉見毅彦

2001 年 8 巻 3 号 p. 87-106
発行日: 2001/07/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.8.3_87

ジャーナルフリー

抄録を表示する抄録を非表示にする

代名詞を含む英文を日本語として適格で自然な文に翻訳するためには, 英語の代名詞を日本語の代名詞としてそのまま表現せず, ゼロ代名詞化したり他の表現に置き換えたりする必要がある. ゼロ代名詞化に関しては, 人手で記述された規則による方法が既に提案されている. 本稿では, 1) ゼロ代名詞化に加え, 他の表現に置き換えるべき場合も扱い, 2) 規則を人手で記述するのではなく, 決定木学習によって自動的に学習する方法を示す. 学習に利用する属性は, ゼロ代名詞化に関してこれまでに解明されている言語学的制約や, ゼロ代名詞の復元に関する工学的研究で着目された手がかりを参考にして選択した. 提案手法を我々の英日機械翻訳システムPower E/Jによる訳文に対して適用したところ, ゼロ代名詞化するか否かの判定を行なう場合の精度が79.9%, ゼロ代名詞化するか否かに加え他の表現に書き換えるか否かの判定も行なう場合の精度が72.2%となり, 人手で記述された規則の精度に近い精度が得られた. また, 選択した属性には, 書き換え精度を低下させる属性は含まれておらず, ゼロ代名詞化に関する言語学的制約だけでなく, ゼロ代名詞の復元に関する手がかりも利用できることが明らかになった.

抄録全体を表示

PDF形式でダウンロード (2075K)
Resolving Overlapping Ambiguities and Selecting Correct Word Sequence in Chinese Using Internet Corpus

Dongli Han, Haodong Wu, Teiji Furugori

2001 年 8 巻 3 号 p. 107-121
発行日: 2001/07/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.8.3_107

ジャーナルフリー

抄録を表示する抄録を非表示にする

We propose an effective method for resolving overlapping ambiguities found in sentential analyses of Chinese. It detects the ambiguities by a FBMM scanner, resolves them by using the relevancy value (RV), a statistical measure for word co-occurrences taken from textual data on the Internet, and selects the correct word sequence for the sentence being analyzed. We use contextual information also when RVs are considered not sufficient to resolving the ambiguities and choosing the correct word sequence. An experiment for selecting the desired sequences shows a success rate of about 85%. This result is convincing and far better than those in other comparable studies.

抄録全体を表示

PDF形式でダウンロード (1303K)
日本語-ウイグル語機械翻訳のための格助詞の変換処理

ムフタルマフスット, 小川泰弘, 稲垣康善

2001 年 8 巻 3 号 p. 123-142
発行日: 2001/07/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.8.3_123

ジャーナルフリー

抄録を表示する抄録を非表示にする

日本語とウイグル語は共に膠着語であり, 語順がほぼ同じであるなどの構文的類似性が見られる. そのため, 日本語-ウイグル語機械翻訳においては, 日本語文を形態素解析した後, 逐語訳を行うだけでもある程度の翻訳が可能となる. これは, 名詞や動詞などの自立語の文中での役割が助詞, 助動詞といった付属語によって示されており, そうした付属語においても, 日本語とウイグル語との間で対応関係があるからである. 特に名詞に接続する格助詞は, 文中での他の語との関係を決めるという, 言語構造上重要な機能を持っている. そのため, 格助詞を正しく翻訳できなければ, 違和感のある翻訳文になるだけでなく, ときには致命的に誤った意味となる翻訳文を生成することがある. そこで, 本論文では, 日本語-ウイグル語機械翻訳における格助詞の取り扱いについて論じる. まず, 計算機用日本語基本動詞辞書IPALを用いて動詞と格助詞の使われ方を調べるとともに, それぞれの格助詞の機能に対応するウイグル語格助詞を決定する. さらに, この調査結果から作成した動詞の格パターンを利用して複数の格助詞の訳語候補の中から, 適切な訳語を選択する手法を提案する. また, 本提案手法に対する評価実験では, 環境問題関連の新聞社説3編の日本語138文を対象にし, 我々が本論文で提案するアプローチに基づいて実験を行った. その結果, 99.3%の正解率を得ることができた.

抄録全体を表示

PDF形式でダウンロード (2222K)

J-STAGEへの登録はこちら（無料）