自然言語処理

第14回年次大会を終えて

加藤恒昭

2008 年 15 巻 2 号 p. 1-2
発行日: 2008/04/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.15.2_1

ジャーナルフリー

PDF形式でダウンロード (288K)
複数の分類スコアを用いたクラス所属確率の推定

高橋和子, 高村大也, 奥村学

2008 年 15 巻 2 号 p. 3-38
発行日: 2008/04/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.15.2_3

ジャーナルフリー

抄録を表示する抄録を非表示にする

文書分類の多くのアプリケーションにおいて, 分類器が出力するクラスに確信度すなわちクラス所属確率を付与することは有用で, 正確な推定値が必要とされる. これまでに提案された推定方法はいずれも2値分類を想定し, 推定したいクラスの分類スコア (分類器が出力するスコア) のみを用いている. しかし, 文書分類では多値分類が適用されることが多く, その場合は, 予測されるクラスはクラスごとに出力された分類スコアの絶対的な大きさではなく相対的な大きさにより決定される. したがって, クラス所属確率は, 推定したいクラスの分類スコアだけでなく他のクラスの分類スコアにも依存すると考えられるため, 推定したいクラス以外の分類スコアも用いて推定する必要があると思われる. 本稿は, 多値分類における任意のクラスについてのクラス所属確率を, 複数の分類スコア, 特に推定したいクラスと第1位のクラスの分類スコアを用いて, ロジスティック回帰により高精度に推定する方法を提案する. 提案手法を多値分類に拡張したサポートベクターマシンに適用し, 性質の異なる2つのデータセットを用いて実験した結果, 有効性が示された. また, 本稿では, クラス所属確率を推定する別の方法として, 各分類スコアを軸として等間隔に区切ってセルを作成する「正解率表」を利用する方法も提案したが, この方法においても複数の分類スコアを用いることは有効であった. 提案手法は, 分類スコアの組み合わせや分類器の変更に対しても容易に対応できる

抄録全体を表示

PDF形式でダウンロード (6850K)
同義語辞書作成支援システム

寺田昭, 吉田稔, 中川裕志

2008 年 15 巻 2 号 p. 39-58
発行日: 2008/04/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.15.2_39

ジャーナルフリー

抄録を表示する抄録を非表示にする

同義語の同定は, 情報検索, テキストマイニングなどのテキスト処理を行う上で必要な作業である. 同義語辞書を作成することにより, テキスト処理の効率や精度の向上を期待できる. 特定分野における文書には, 専門の表現が多く用いられており, その中には, 分野独特の同義語が多量に含まれている. 例えば, 日本語の航空分野では, 漢字・ひらがなだけでなく, カタカナ, アルファベット, およびそれらの略語が同義語として用いられている. この分野の同義語は, 汎用の辞書に登録されていないものが多く, 既存の辞書を使用できないので, 辞書を新たに作成する必要がある. また, 辞書作成後も常に新しい語が発生するので, 辞書の定期的な更新が必要となるが, それを人手で行うのは大変な作業である.
本論文では, 同義語辞書作成を半自動化するシステムを提案する. システムは, クエリが与えられると意味的に同じ候補語を提示する. 辞書作成者は, その中から同義語を選択して, 辞書登録を行うことができる. 候補語のクエリに対する類似度は, 同義語の周辺に出現する語の頻度情報を文脈情報とし, その余弦から計算する. 文脈情報のみでは十分な精度が得られない場合, 既知の同義語を知識としてシステムに与えることにより, 文脈語の正規化を行い, 精度を向上できることを確認した.実験は, 航空分野の日本語のレポートを対象とし, システムの評価には平均精度を用いて行い, 満足できる結果が得られた.

抄録全体を表示

PDF形式でダウンロード (2257K)
整合性尺度を用いた構造的アラインメント

中澤敏明, 黒橋禎夫

2008 年 15 巻 2 号 p. 59-74
発行日: 2008/04/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.15.2_59

ジャーナルフリー

抄録を表示する抄録を非表示にする

本論文では対訳文アラインメントの全体的な整合性を評価する新たな基準を提案する. この手法は係り受けタイプによる木構造上での距離や, 距離スコア関数などの統計的な素性に基づいている. また依存構造木を元にしたアラインメント手法であるため, 両言語間の言語構造の違いを適切に吸収することが可能である. さらに本手法により, 複数見つかる対応候補の中から適切なものを選択することも可能である. 日英新聞記事コーパスでのアラインメント実験により, 本手法によるアラインメント精度は他の言語構造の近い言語対での精度と遜色ないことが示された.

抄録全体を表示

PDF形式でダウンロード (4887K)
文体と難易度を制御可能な日本語機能表現の言い換え

松吉俊, 佐藤理史

2008 年 15 巻 2 号 p. 75-99
発行日: 2008/04/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.15.2_75

ジャーナルフリー

抄録を表示する抄録を非表示にする

日本語には, 「にたいして」や「なければならない」に代表されるような, 複数の形態素からなっているが, 全体として1つの機能語のように働く複合辞が多く存在する. われわれは, 機能語と複合辞を合わせて機能表現と呼ぶ. 本論文では, 形態階層構造と意味階層構造を持つ機能表現辞書を用いることにより, 文体と難易度を制御しつつ, 日本語機能表現を言い換える手法を提案する. ほとんどの機能表現は, 多くの形態的異形を持ち, それぞれの異形は, その文体として, 常体, 敬体, 口語体, 堅い文体のいずれかをとる. 1つの文章においては, 原則として, 一貫して1つの文体を使い続けなければならないため, 機能表現を言い換える際には, 文体を制御する必要がある. また, 文章読解支援二などの応用においては, 難易度の制御は必須である. 実装した言い換えシステムは, オープンテストにおいて, 入力文節の79% (496/628) に対して, 適切な代替表現を生成した.

抄録全体を表示

PDF形式でダウンロード (2830K)
文書に対する大衆の興味の強さの推定

沢井康孝, 山本和英

2008 年 15 巻 2 号 p. 101-136
発行日: 2008/04/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.15.2_101

ジャーナルフリー

抄録を表示する抄録を非表示にする

ある入力文書が多くの人にとってどの程度興味や関心を持つかを算出する指標を提案する. 各個人の興味や関心は多種多様であり, これを把握することで情報のフイルタリング等を行う研究は知られているが, 本研究では不特定多数すなわち大衆が全体でどの程度の興味を持つかについて検討を行った. このような技術は, 不特定多数に対して閲覧されることを想定しているWebサイトにおける提示文書の選択や表示頂の変更など, 非常に重要な応用分野を持っている. 我々は大衆の興味が反映されている情報源として順位付き文書を使用した. 本手法ではこれを学習データとして利用して, 文書に含まれる語句及び文書自体に興味の強弱を値として付与する手法を構築した. 興味を値として扱うことで, 興味の強弱を興味がある・ないの2値ではなく興味の程度を知ることや興味発生の因分析を行うことが可能である. 提案手法は, 文書に含まれる語句を興味判別する素性として扱い, 内容語, 複合名詞, 内容語及び複合名詞の組み合わせの3種類について比較, 議論した. 評価は, ニュース記事のランキングを対象にして, 実際の順位とシステムの順位を比較した. その結果, 順位相関に基づいた評価値はOh867であり, 手法の有効性を確認した. さらに, ほぼ興味を持たれない記事に対して抽出精度0.90を超える精度で弁別できることを実験で確認した.

抄録全体を表示

PDF形式でダウンロード (3628K)
A Web Corpus and Word Sketches for Japanese

Irena Srdanovic Erjavec, Tomaz Erjavec, Adam Kilgarriff

2008 年 15 巻 2 号 p. 137-159
発行日: 2008/04/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.15.2_137

ジャーナルフリー

抄録を表示する抄録を非表示にする

Of all the major world languages, Japanese is lagging behind in terms of publicly accessible and searchable corpora. In this paper we describe the development of JpWaC (Japanese Web as Corpus), a large corpus of 400 million words of Japanese web text, and its encoding for the Sketch Engine. The Sketch Engine is a web-based corpus query tool that supports fast concordancing, grammatical processing, ‘word sketching’ (one-page summaries of a word's grammatical and collocational behaviour), a distributional thesaurus, and robot use. We describe the steps taken to gather and process the corpus and to establish its validity, in terms of the kinds of language it contains. We then describe the development of a shallow grammar for Japanese to enable word sketching. We believe that the Japanese web corpus as loaded into the Sketch Engine will be a useful resource for a wide number of Japanese researchers, learners, and NLP developers.

抄録全体を表示

PDF形式でダウンロード (8305K)

J-STAGEへの登録はこちら（無料）