自然言語処理

音声認識と研究プロジェクト

小林哲則

2000 年7 巻2 号 p. 1-2
発行日: 2000/04/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.7.2_1

ジャーナルフリー

PDF形式でダウンロード (194K)
複合語の分野連想語の効率的決定法

辻孝子, 泓田正雄, 森田和宏, 青江順一

2000 年7 巻2 号 p. 3-26
発行日: 2000/04/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.7.2_3

ジャーナルフリー

抄録を表示する抄録を非表示にする

人間は文書全体を読むことなしに, 代表的な単語を見るだけで, <政治>や<スポーツ>などの分野を認知できることから, 文書断片内の数少ない単語情報から分野を的確に決定するための分野連想語の構築は重要な研究課題である. しかし, 文書から連想語を抽出する場合, 複合語の冗長な連想語が多く存在する. 本論文では, 事前に分野体系が定義され, 各分野に文書データが構築されている場合において, 複合語の分野連想語を効率的に決定する手法を提案する. 本手法では, 連想分野を特定する範囲に応じて連想語を五つの水準に分類し, まず複合語以外の単語 (短単位語と呼ぶ) の連想語候補を決定し, 人手で修正を加える. 次に, この短単位語の連想情報を利用して, 膨大な数になる複合語の連想語候補を自動的に絞り込む. 収集された180分野の学習データ (42メガバイト, 15, 435ファイル) に対して提案手法を適用した結果, 88, 782個の候補が8, 405個 (候補数の約9%) の連想語に絞り込まれ, 再現率0. 77以上 (平均0. 85), 想語を利用した264種類の断片文書の分野決定実験より, 複合連想語と短単位連想語による正解率は90%以上となり, 短単位連想語のみの場合より約30%向上することが分かった.

抄録全体を表示

PDF形式でダウンロード (2458K)
英字新聞記事見出し翻訳の自動前編集による改良

吉見毅彦, 佐田いち子

2000 年7 巻2 号 p. 27-43
発行日: 2000/04/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.7.2_27

ジャーナルフリー

抄録を表示する抄録を非表示にする

英字新聞記事の見出しは通常の文の表現形式とは異なる特有の形式をしているため, 従来の英日機械翻訳システムによる見出しの翻訳の品質はあまり高くない. この問題に対して本研究では, 見出しを通常の表現形式に書き換える自動前編集系を既存のシステムに追加することによる解決を目指している. 見出しを通常の表現形式に書き換えれば, より品質の高い翻訳が, システムの既存部分にほとんど変更を加えることなく得られる. 例えば“Sales up sharply in June”という見出しは通常のシステムには受理されない可能性が高いが, “Sales were up sharply in June”のようにbe動詞“were”を補えば従来のシステムでも適切な翻訳が得られるようになる. 本稿では, 見出し特有表現の典型例の一つであるbe動詞の省略現象を対象とし, be動詞が省略されている見出しにbe動詞を正しく補うための書き換え規則を, 形態素解析と粗い構文解析によって得られる情報に基づいて記述する. この方法を, 我々が開発している英日翻訳支援システムPower E/Jに組み込み, 未知データの見出し312件を対象として実験を行なったところ, 再現率81. 2%, 適合率92. 0%の精度が得られた.

抄録全体を表示

PDF形式でダウンロード (1812K)
新聞の用字の面による変動と時系列変動

久野雅樹

2000 年7 巻2 号 p. 45-61
発行日: 2000/04/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.7.2_45

ジャーナルフリー

抄録を表示する抄録を非表示にする

1991年から1997年までの毎日新聞7年分の電子テキスト (約3.4億文字) を対象に, 使用されている文字種すべて (5, 726; 空白文字を除く) について, その出現率 (出現頻度) が, 面種 (e. g., 解説面, スポーツ面, 社会面), 月次, 年次の3つの要因に関して, どの程度まで系統的な変動を示すかを検討した. 5, 726文字種のうち, 16の面種間による出現率の差は69.2%で, 月次による出現率の差は20.3%で, 年次による出現率の差は43.9%で認められた.低出現率の文字 (0.001%・未満) を除いた2, 732文字種では, さらに変動は顕著で, 面種差は98.4%で, 月次差は33.5%で, 年次差は76.0%で認められた. このように, 紙面の種類と時系列によって, 新聞の文字使用が系統的に変動することが, 広範に確認された. こうした語彙表現に関わる変動現象は, 大量のテキストに基づいて文字や単語の計量を行うような研究ではあまり関心が払われてこなかったが, 変動のもつ規則性は, それ自体, 精細な分析の対象となりうるものである.

抄録全体を表示

PDF形式でダウンロード (1858K)
最大エントロピ-モデルと書き換え規則に基づく固有表現抽出

内元清貴, 馬青, 村田真樹, 小作浩美, 内山将夫, 井佐原均

2000 年7 巻2 号 p. 63-90
発行日: 2000/04/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.7.2_63

ジャーナルフリー

抄録を表示する抄録を非表示にする

本論文では, ME (最大エントロピー) モデルと書き換え規則を用いて固有表現を抽出する手法について述べる. 固有表現の定義はIREX固有表現抽出タスク (IREX-NE) の定義に基づくものとする. その定義によると, 固有表現には一つあるいは複数の形態素からなるもの, 形態素単位より短い部分文字列を含むものの2種類がある. 複数の形態素からなる固有表現は, 固有表現の始まり, 中間, 終りなどを表すラベルを40個用意し, 各々の形態素に対し付与すべきラベルを推定することによって抽出する. ラベルの推定にはMEモデルを用いる. このMEモデルでは学習コーパスで観測される素性と各々の形態素に付与すべきラベルとの関係を学習する. ここで素性とはラベル付与の手がかりとなる情報のことであり, 我々の場合, 着目している形態素を含む前後2形態素ずつ合計5形態素に関する見出し語, 品詞の情報のことである. 一方, 形態素単位より短い部分文字列を含む固有表現は, MEモデルを用いてラベルを決めた後に書き換え規則を適用することによって抽出する. 書き換え規則は学習コーパスに対するシステムの解析結果とコーパスの正解データとの差異を調べることによって自動獲得することができる. 本論文ではIREX-NE本試験に用いられたデータに対し我々の手法を適用した結果を示し, さらにいくつかの比較実験から書き換え規則と精度, 素性と精度, 学習コーパスの量と精度の関係を明らかにする.

抄録全体を表示

PDF形式でダウンロード (2744K)
統計的手法による換喩の解釈

内山将夫, 村田真樹, 馬青, 内元清貴, 井佐原均

2000 年7 巻2 号 p. 91-116
発行日: 2000/04/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.7.2_91

ジャーナルフリー

抄録を表示する抄録を非表示にする

本稿では, 換喩を統計的に解釈する方法を述べた. 換喩とは, 喩える言葉 (喩詞) と喩えられる言葉 (被喩詞) との連想に基づいた比喩である. たとえば, 「漱石を読む」という換喩は, 「漱石の小説を読む」というように解釈できる. この場合, 喩詞である「漱石」と被喩詞である「 (漱石の) 小説」との間には, 「作者一作品」という連想関係が成立する. 本稿では, 以下の方針で換喩を解釈することを試みた.
(1) 「名詞A, 格助詞R, 述語V」というタイプの換喩が与えられたとき, 与えられた喩詞Aから連想される名詞群を求めるためにコーパスを利用する.
(2) 連想された名詞群のなかから, 与えられた視点 (R, V) に適合するような名詞を被喩詞として統計的に選択する.
その結果, コーパスが連想名詞の供給源として有効なことが例証され, かつ, 提案手法を用いることにより, 喩詞から連想された名詞群の中から, 換喩の視点に適合する名詞を被喩詞として選択できることが分かった. また, 提案手法による換喩解析の正解率は, 厳しい評価を適用した場合には0.47であり, 緩い評価を適用した場合には0.65であった. これらは提案手法が換喩の解析に有効であることを示している.

抄録全体を表示

PDF形式でダウンロード (2688K)
The Exploration and Analysis of Using Multiple Thesaurus Types for Query Expansion in Information Retrieval

Rila Mandala, Takenobu Tokunaga, Hozumi Tanaka

2000 年7 巻2 号 p. 117-140
発行日: 2000/04/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.7.2_117

ジャーナルフリー

抄録を表示する抄録を非表示にする

This paper proposes the use of multiple thesaurus types for query expansion in information retrieval. Hand-crafted thesaurus, corpus-based co-occurrence-based thesaurus and syntactic-relation-based thesaurus are combined and used as a tool for query expansion. A simple word sense disambiguation is performed to avoid misleading expansion terms. Experiments using TREC-7 collection proved that this method could improve the information retrieval performance significantly. Failure analysis was done on the cases in which the proposed method fail to improve the retrieval effectiveness. We found that queries containing negative statements and multiple aspects might cause problems in the proposed method.

抄録全体を表示

PDF形式でダウンロード (2161K)
位置情報と分野情報を用いた情報検索

村田真樹, 馬青, 内元清貴, 小作浩美, 内山将夫, 井佐原均

2000 年7 巻2 号 p. 141-160
発行日: 2000/04/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.7.2_141

ジャーナルフリー

抄録を表示する抄録を非表示にする

われわれの情報検索の方法では基本的に, 確率型手法の一つのRobertsonの2-ボアソンモデルを用いている. しかし, このRobertsonの方法では検索のための手がかりとして当然用いるべき位置情報や分野情報などを用いていない. それに対しわれわれは位置情報や分野情報などをも用いる枠組を考案した. IREXのコンテストでは, この枠組に基づくシステムを二つ提出していたが, 記事の主題が検索課題に関連している記事のみを正解とするA判定の精度はそれぞれ0.4926と0.4827で, 参加した15団体, 22システムの中では最もよい精度であった. 本論文ではこのシステムの詳細な説明を行なうとともに, 種々のパラメータを変更した場合の詳細な対照実験を記述した. この対照実験で位置情報や分野1青報の有効性を確かめた.

抄録全体を表示

PDF形式でダウンロード (2008K)
訂正

2000 年7 巻2 号 p. 161
発行日: 2000年
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.7.2_161

ジャーナルフリー

PDF形式でダウンロード (20K)

J-STAGEへの登録はこちら（無料）