自然言語処理

文理融合・第三の道

雪の金沢合宿から

金水敏

2005 年 12 巻 2 号 p. 1-2
発行日: 2005/03/31
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.12.2_1

ジャーナルフリー

PDF形式でダウンロード (195K)
機械学習とルールベースの組み合わせによる自動職業コーディング

高橋和子, 高村大也, 奥村学

2005 年 12 巻 2 号 p. 3-23
発行日: 2005/03/31
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.12.2_3

ジャーナルフリー

抄録を表示する抄録を非表示にする

社会調査において自由回答で収集される職業データの分類 (職業コーディング) に対する, 機械学習手法の一つであるサポートベクタ7マシン (Support Vector Machine, SVM) によるアプローチ及び既存のルールベース手法との組み合わせ方法について検討する.従来, 職業コーディングは人手により行われてきたが, 作業量の多さや煩雑さの問題があり, また, 熟練していないコーダの処理結果には一貫性が欠ける傾向があった.これらの理由から, るようになってきたが, システムの正解率は高いとはいえず, また, ルールベース手法に固有な問題から, 現在の正解率以上にすることは困難であると思われる.そこで, 本稿では, 機械学習の一つで分類性能が高いとされるSVMを適用し, ルールベース手法との比較を行った.さらに, SVMとルールベース手法との有効な組み合わせ方を検討した結果, SVMはルールベース手法より正解率が高く, 両者を組み合わせることでさらに正解率を高めることができることを確認した.また, 本稿では, これからコーディングを行う新しいデータの一部を訓練データとしてフィードバックする場合の効果について実験を行った結果, 新たなデータの一部をフィードバックすることで, 正解率が向上することがわかった.

抄録全体を表示

PDF形式でダウンロード (2397K)
シナリオを対象とした構文解析規則記述法

黒澤義明, 市村匠, 相沢輝昭

2005 年 12 巻 2 号 p. 25-62
発行日: 2005/03/31
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.12.2_25

ジャーナルフリー

抄録を表示する抄録を非表示にする

本研究は, シナリオを対象とし, 人手での管理を目標とした構文解析規則の記述法を提案する.シナリオには, 話し言葉としての台詞が含まれ, 省略・倒置など, 書き言葉にはない特徴がある.このため, 正しく解析を行うには, これらの特徴に対応した規則が必要である.そこで本研究は, 正規表現を用いた, 自由度の高い記述法に従い, 構文解析を行うシステムを構築する.正規表現の採用は, 「 (助動詞1終助詞) 」等の表現を許すため, 省略の有無に関わらず, 同一の規則の適用が保証される.また同一の規則により, 多くの非終端記号列と照合が行えるため, 規則数が削減可能となり, 汎用性を高めることが可能となる.この考えに基づいた構文解析器を実装し, シナリオ21作品 (約40000文) を参考に, 約3000個の規則を人手で作成し, 実験を行った.この規則は, 様々な言い回しに対処できるよう, 詳細に記載された.実験の結果, オープンテストにおいても高い正解率を示し, 本手法による解析器は, 自由度の高い, 有用な解析器であることが明らかになった.また, 上述の規則により, 正規表現を使用しない場合と比べ, およそ10倍の非終端記号列を指定することができ, 記述力が高く, 汎用的であることが明らかとなった.

抄録全体を表示

PDF形式でダウンロード (5750K)
英語を介した日中対訳辞書の自動構築

張玉潔, 馬青, 井佐原均

2005 年 12 巻 2 号 p. 63-85
発行日: 2005/03/31
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.12.2_63

ジャーナルフリー

抄録を表示する抄録を非表示にする

日中機械翻訳システム開発の一環として, 日中翻訳辞書の自動構築に関する研究を行っている.今まで, 機械翻訳の研究は英語を一方の言語とする研究が多く行われてきたため, 英語と英語以外の言語の間の対訳辞書は豊富に蓄積されている.一方, 英語以外の言語間の対訳辞書はあまり開発されていない.近年, 英語以外の言語の電子データは増え続けており, 英語以外の言語間の対訳辞書はますます必要になってきている.豊富に蓄積された英語と英語以外の言語の問の対訳辞書を利用して, 英語以外の言語間の機械翻訳システムを効率的に開発することが研究の課題になっている.本稿では, 日英・英中辞書を利用して日中辞書をゼロから構築する方法とその結果について報告する.英語を介して, 新しい言語間の対訳辞書を構築するアプローチは新しいものではないが, 大量の候補から正しい訳語を選択するという問題がまだよく解決されていない.本稿では, 多数のヒューリスティックな情報を利用して訳語を選択する手法を提案した.提案手法においては, 訳語の選別に品詞情報と漢字情報を活用して, 中国語の訳語候補を評価するためのスコアリング関数に多数のヒューリスティックな情報を取りいれた.提案手法を用いて, EDR日英辞書の約14万個のレコードに対し, レコードごとに中国語訳語候補の順位付けを行った.その順位付けについて, 20以上の中国語訳語候補を持つ日本語単語を対象とした評価実験を行った.その結果, 一位に順位付けた訳語の正解率が81.4%に達したことが分かった.

抄録全体を表示

PDF形式でダウンロード (2387K)
タイトルの文型が読者の関心に及ぼす影響の分析

千田恭子, 篠原靖志, 奥村学

2005 年 12 巻 2 号 p. 87-107
発行日: 2005/03/31
公開日: 2011/06/07

DOIhttps://doi.org/10.5715/jnlp.12.2_87

ジャーナルフリー

抄録を表示する抄録を非表示にする

本論文では, 表現内容と記述形式の点から分類した表題の表現パターンの違いが, 専門外の読者の関心に及ぼす影響を, アンケート調査により分析した結果について報告する.技術成果をアピールするには, マスコミ配布資料, ホームページ資料などに, 専門知識のない読者にも分りやすく, 関心をもたれる表題をつける事が重要である.これまでに, 同種の新技術を報じる新聞の見出しを論文表題と比較し, 新規開発技術を一般読者に報じる表現パターン (表現内容と記述形式の組合せ) を分析した.これらの表現パターンを効果的に使用するには, 各パターンが実際にどんな読者層に有効かを明らかにする必要がある.そこで, 対象とする技術分野への関心の有無や専門知識の度合いが異なる回答者を集めて, 同一技術の成果を異なる表現パターンで表現した表題を提示して関心や好感の度合をアンケート調査し, 読者層と表現パターンとの関係を分析した.分析の結果, 専門外の読者には開発技術の目的を平易な表現で伝える事が効果的であった.

抄録全体を表示

PDF形式でダウンロード (6786K)
格フレーム辞書の漸次的自動構築

河原大輔, 黒橋禎夫

2005 年 12 巻 2 号 p. 109-131
発行日: 2005/03/31
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.12.2_109

ジャーナルフリー

抄録を表示する抄録を非表示にする

本稿では, 格フレーム辞書を漸次的に自動構築する手法を提案する.カバレージの高い格フレーム辞書を構築するために, 大規模コーパスから徐々に確からしい情報を抽出する.まず, コーパスを構文解析し, 構文的曖昧性のない述語項構造のみを抽出・クラスタリングすることによって, 1次格フレーム辞書を得る.次に, 1次格フレーム辞書を用いてコーパスを格解析し, 新たに分かる確実な情報を抽出し, 2次格フレーム辞書を構築する.このように徐々に新たな情報を加えていくことによって, 高次格フレーム辞書を構築する.結果として得られた格フレーム辞書は, 二重主語構文, 連体修飾の外の関係, 格変化といった複雑な言語現象を解析することを可能にする.新聞記事26年分, 約2600万文のコーパスから格フレーム辞書を構築し2種類の評価を行った.1つは, 得られた格フレームを人手で評価するものであり, もう1つは得られた格フレーム辞書を用いた構文・格解析実験による評価である.これらの結果, 本手法の有効性が確かめられた.

抄録全体を表示

PDF形式でダウンロード (2205K)
談話指標とテキスト長を用いた講演音声とプレゼンテーション資料の対応付け

中澤聡, 佐藤研治, 奥村明俊

2005 年 12 巻 2 号 p. 133-156
発行日: 2005/03/31
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.12.2_133

ジャーナルフリー

抄録を表示する抄録を非表示にする

テキスト検索と同様に, 大量に録画・蓄積されたビデオデータに対しても, 利用者の求めるシーンをキーワード検索する機能が求められている・そうしたビデオ検索の手法としては, ビデオの音声信号に音声認識を行って得られた結果を, 時間情報付きの言語インデックスとし, 映像検索に利用する研究がある.しかし, 音声認識には誤認識や未知語の問題があり, 認識結果をそのままインデックスとするのは難しい.一方, ビデオ音声の詳細な原稿や書き起こしが利用可能な場合には, 原稿と音声認識結果とを対応づけることで, ビデオと同期した正確な言語インデックスを得ることができる.ただし, 詳細な原稿が存在するコンテンツは限られてくる.そこで本研究では, 原稿がなくともプレゼンテーション資料が存在するような講義・講演映像を対象にして, 音声認識結果とプレゼンテーション資料中のテキストという, 性質・分量の異なる2種類のテキストを対応付けることで, プレゼンテーション資料を元の講義・講演映像の言語インデックスとする手法を提案する.対応付けはプレゼンテーション資料のスライド単位でとる.これにより, スライド単位で, プレゼンテーション資料のテキストを介した講義・講演映像のキーワード検索が可能となる.

抄録全体を表示

PDF形式でダウンロード (10895K)
コーパス中の呼応表現を抽出する問題における類似尺度

山本英子, 木田敦子, 神崎享子, 井佐原均

2005 年 12 巻 2 号 p. 157-174
発行日: 2005/03/31
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.12.2_157

ジャーナルフリー

抄録を表示する抄録を非表示にする

本稿では, コーパスから新しい言語資料となり得る文の拘束表現の一つである呼応表現を客観的かつ網羅的に抽出することを目的として, さまざまな類似尺度を用いて抽出を行い, その結果を比較評価することにより, 呼応表現抽出手法の確立を目指す.呼応表現とは, 一文において陳述副詞と呼ばれる副詞や係助詞が文の叙法性を決定する文末近くにある述語の表現を拘束する表現である.この表現を知ることで文末に達する前に文を理解することが可能となる。我々は, このような呼応表現を実用的な規模でコーパスから抽出し, 呼応表現のデータベースを作成することを目標としている.そこで, 本稿では, 呼応表現を抽出する問題に適した尺度を検討する.尺度の適用性を評価するために, 7つの尺度それぞれの上位500件 (計3500件) を正解候補とした後, 人手で判定し, 正解作成を行った.その得られた正解表現で評価した結果, 本実験において, イエーツの補正公式が上位の辺りで高い正解率を持ち, 補完類似度が評価対象とする抽出表現が増しても他の尺度に比べ再現率を保持したことを報告する.また, 網羅性と精度の向上を目指し, 抽出結果の統合や文中の要素間の距離について考える.その結果, 本実験において, 網羅性とともに精度の向上が得られたことを示す。

抄録全体を表示

PDF形式でダウンロード (1914K)
再学習による翻訳モデルを用いた単語アライメントの向上

山田節夫, 永田昌明, 山田賢治

2005 年 12 巻 2 号 p. 175-188
発行日: 2005/03/31
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.12.2_175

ジャーナルフリー

抄録を表示する抄録を非表示にする

統計的機械翻訳は言語モデルと翻訳モデルによって構成されている.本論文では, 翻訳モデルに着目し, 同じ対訳コーパスから非対称な2つの学習 (翻訳方向が違う学習) によって構築された2つの翻訳モデルを利用することで, それぞれの翻訳モデルの精度を, 単語アライメントという尺度で, 向上させる方法を提案する.具体的には, 2つの翻訳モデルを使った2つの方向のビタビアライメントから抽出された共通単語対を対訳コーパスに追加し, 再学習することによって, 翻訳モデルの精度を向上させる.辞書例文, 科学技術記事, 新聞記事の日英対訳コーパスを用いて実験を行った.その結果, 分野や翻訳モデルに依存せずに, もとの翻訳モデルから最大約5.7%の精度向上 (F値) が確認された.また, 対訳辞書の見出し語対を使った実験では, 共通単語対は対訳辞書の見出しとほぼ同程度の効果が見られた.さらに, 学習を繰り返す実験や学習量を増やす実験結果から, 共通単語対の有効性について述べる.

抄録全体を表示

PDF形式でダウンロード (4089K)
汎化用例とシソーラスを用いた派生語の仮名漢字変換の特性

市丸夏樹, 中村貞吾, 日高達

2005 年 12 巻 2 号 p. 189-207
発行日: 2005/03/31
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.12.2_189

ジャーナルフリー

抄録を表示する抄録を非表示にする

本稿では, シソーラスと汎化用例を組み込んだPCFGを用いる手法を「名詞一接尾語」型の派生語の仮名漢字変換に適用することの有効性を実験によって明らかにする.一般的な自然言語の処理の流れでは, 形態素解析, 構文解析の順に処理を行うのが通例となっている.しかし派生語は, 派生語基と接尾語という形態素としての内部構造を持ちながら, 1つの語彙としても機能するため, 形態素解析の段階のうちからシソーラスを用いた意味的な処理を適用しておく必要がある.そこで本研究では, フルサイズのシソーラスを使用し, 様々な階層まで汎化した大量の用例と, 品詞レベルの連接規則, 単語レベルの連接規則を組み合わせたPCFGを構築する.その際, 用例の分布密度が高い意味領域にある規則が優先されるように汎化用例の頻度に重み付けを施し, 様々な学習条件下における特性変化の調査結果を用いて, 学習サンプル数に応じた最適な学習条件を選択する.これまでの研究では一般に, 構文解析時の曖昧性の絞り込みにシソーラスを用いた場合にはあまり良い正解率が得られないと言われてきた.しかしそれは学習サンプル数の不足や汎化の過不足によるものであって, 十分な量の用例を与えて最適な汎化を行った場合には, やはり高い正解率を得ることが可能である.我々の実験ではその結果, 派生語変換の1位解で約95%という従来考えられていたよりも高い再現率を得ることができた.

抄録全体を表示

PDF形式でダウンロード (3493K)
Use of Multiple Documents as Evidence with Decreased Adding in a Japanese Question-answering System

Masaki Murata, Masao Utiyama, Hitoshi Isahara

2005 年 12 巻 2 号 p. 209-247
発行日: 2005/03/31
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.12.2_209

ジャーナルフリー

抄録を表示する抄録を非表示にする

We propose a new method of using multiple documents as evidence with decreased adding to improve the performance of question-answering systems.Sometimes, the answer to a question may be found in multiple documents.In such cases, using multiple documents to predict answers may generate better answers than using a single document.Our method therefore uses information from multiple documents, adding the scores of candidate answers extracted from various documents.However, because simply adding the scores can degrade the performance of question-answering systems, we add the scores with progressively decreasing weights to reduce the negative effect of simple adding.We carried out experiments using the Question-Answering Challenge (QAC) test collection.The results showed that our method produced a statistically significant improvement, with the degree of improvement ranging fro 0.05 to 0.14.These results, and the fact that our method is simple and easy to use, indicate its potential feasibility and utility in question-answering systems.Experiments comparing our decreased adding method with several previously proposed methods that use multiple documents showed that our method was more effective than these other methods.

抄録全体を表示

PDF形式でダウンロード (3955K)

J-STAGEへの登録はこちら（無料）