自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
12 巻, 3 号
選択された号の論文の11件中1~11を表示しています
  • 中川 裕志
    2005 年 12 巻 3 号 p. 1-2
    発行日: 2005/07/10
    公開日: 2011/03/01
    ジャーナル フリー
  • 下岡 和也, 内元 清貴, 河原 達也, 井佐原 均
    2005 年 12 巻 3 号 p. 3-17
    発行日: 2005/07/10
    公開日: 2011/03/01
    ジャーナル フリー
    『日本語話し言葉コーパス (CSJ) 』を対象として係り受け解析や文境界推定を自動で行なう手法について述べる.話し言葉の独話において, 係り受け解析を行なう際に最も大きな問題となるのは, 文境界が明示されていないことである.本論文では, 文境界推定の精度を向上させる2つの手法を提案する.1つは係り受け情報を用いた統計的機械翻訳に基づく手法, もう1つはSVMを用いたテキストチャンキングに基づく手法である.提案手法により, 文境界精度はF値で最大84.9となった.また, 文境界推定精度が向上することにより, 係り受け解析の精度も75.2%から77.2%に改善された.このように, 自動推定した係り受け, 文境界の情報を相互に利用することにより, 係り受け解析精度, 文境界推定精度ともに改善されることが示された.
  • 山本 和英, 大橋 一輝
    2005 年 12 巻 3 号 p. 19-42
    発行日: 2005/07/10
    公開日: 2011/03/01
    ジャーナル フリー
    「サ変動詞+名詞」 (例えば「ガンを治療する施設」) の表現形式から「サ変名詞+名詞」 (「ガンの治療施設」) という複合名詞への換言を検討した.この処理は, 日本語の換言現象を解明するという基礎研究としての位置付けを持つと同時に, 携帯端末向けのテキスト要約処理の一部や公的文書向けの表現統一, 情報検索での表現類似性判定などの用途が期待できる.本処理ではまず, 言い換えた複合名詞 (「治療施設」) が人間にとって違和感のない表現かどうかが問題となる.次に, 複合名詞へと換言することによってサ変動詞が名詞になるため, サ変動詞に係っている文節 (「ガンを」) を連体形 (「ガンの」) に変換するという処理が必要になる.本論文では, この処理の概要およびその動作結果を実験によって示す.
  • 嶋田 和孝, 林 晃司, 遠藤 勉
    2005 年 12 巻 3 号 p. 43-66
    発行日: 2005/07/10
    公開日: 2011/03/01
    ジャーナル フリー
    ネットワークの普及により, 今までは紙面で伝えられていた情報の電子化が進んでいる.本稿では, それら電子化された情報の一つである, 製品のスペック情報の抽出について議論する.現在, 製品情報を収集し, 利用しているポータルサイトが数多く存在するため, 膨大なwebページの中から製品のスペック情報を的確に抽出することは, そのようなポータルサイトの自動構築のために大きな意義を持つ.製品のスペック情報は, 殆どの場合, 表形式で記述されている.web上の表はHTMLの〈TABLE〉タグを用いて記述されるが, 〈TABLE〉タグは表を記述する以外にも, レイアウトを整えたりする場合に頻繁に用いられる.ある特定の領域においては, 〈TABLE〉の70%がレイアウト目的で使われているとの報告もある.そのため, HTML文書中の〈TABLE〉タグが表なのか, それとも他の目的で使用されているのかを判別する必要がある.提案手法では, Support Vector Machines (SVM) を用いて, Webページ中に存在する表領域が製品スペックかどうかの判定を行う.Transductive SVMを用いて, 訓練データの削減についても考察する.パソコン, デジタルカメラ, プリンタの3種類の製品について, 実験を行い, それぞれの製品について高い再現率と適合率を得た.訓練データが少ない場合, Transductive SVMを用いた手法の方が, 通常のSVMと比べ, 精度が改善されることを確認した.
  • 藤田 早苗, FRANCIS BOND
    2005 年 12 巻 3 号 p. 67-89
    発行日: 2005/07/10
    公開日: 2011/03/01
    ジャーナル フリー
    本稿では, 自動詞の主語が他動詞の目的語となる動詞の交替を対象とし, 既存の結合価辞書における交替の選択制限の対応関係の調査や, 2言語間の交替の比較などを行なう.更に, これらの調査結果に基づき, 交替データを用いて比較的単純な置き換えにより既存の結合価辞書に新しいエントリを追加する方法を提案する.本稿では, 交替の片側に対応するエントリから, もう片側のエントリを獲得する.また, 本提案手法では2言語の結合価エントリを同時に作成する.作成したエントリは, 下位範躊化構造や選択制限, 交替情報等の詳細な情報を持っている.本稿の実験の結果, 対象とした交替を85.4%カバーすることができた.また, 翻訳評価の結果, 本手法で作成したエントリによって, 翻訳結果が32%改善された.
  • 白松 俊, 宮田 高志, 奥乃 博, 橋田 浩一
    2005 年 12 巻 3 号 p. 91-109
    発行日: 2005/07/10
    公開日: 2011/03/01
    ジャーナル フリー
    中心化理論 (centering theory) は, 注意の中心, 照応, 結束性の問の相互作用を説明する談話構造の理論である.しかし, 照応現象の背後にあるはずの基本原理を明らかにするものではない.また, 中心化理論で重要な役割を担う顕現性 (salience) が, 客観的に計量可能な尺度として定式化されていないという問題もある.一方, Hasidaら (1995, 1996) は, ゲ1ム理論に基づく意図的コミュニケーションのモデルとして意味ゲーム (meaning game) を提唱し, 「照応等の現象はゲーム理論で説明できる」と主張しているが, この主張は実言語データに基づいて検証されていない.中心化理論の2つのルールに対応する意味ゲームに基づく選好を日本語のコーパスを用いて検証した.その結果, 中心化理論の予測を越える部分も含めてこれらの選好が成立することがわかった.したがって, 基本原理の明確さおよび予測能力の強さゆえに, 中心化理論よりも意味ゲームの方が優れた作業仮説であり, この意味において, 中心化理論等の照応や焦点に特化した理論は不要と考えられる.
  • 新森 昭宏, 奥村 学
    2005 年 12 巻 3 号 p. 111-128
    発行日: 2005/07/10
    公開日: 2011/03/01
    ジャーナル フリー
    特許明細書には, 特許請求項と「発明の詳細な説明」が記述される.特許請求項は特許明細書において最も重要な部分であるが, 構成的または結合的に記述されるため, 可読性が低い.「発明の詳細な説明」と, 特許請求項を対応付けることにより, (1) 特許請求項に対する作用 (機能) と効果を明確化する, (2) 特許請求項の重要箇所を明確化する, (3) 特許請求項で使われている表現に関する言い換えを取得する, 等の効果が得られ, 特許請求項の読解支援につながる.本稿では, 特許請求項を構造解析し, その結果を用いて, 「用言文節を起点としたローカルアラインメント」を行うことにより, 「発明の詳細な説明」との対応付けを行う手法を提案する.NTCIR3の特許データコルクションからランダムに抽出した100件のうち88件の特許明細書を対象として評価を行い, その有効性を確認した.
  • 笹野 遼平, 河原 大輔, 黒橋 禎夫
    2005 年 12 巻 3 号 p. 129-144
    発行日: 2005/07/10
    公開日: 2011/03/01
    ジャーナル フリー
    本稿では, コーパスから名詞句「AのB」を収集し, 国語辞典を用いて意味解析を行なうことにより, 名詞格フレーム辞書を自動構築する手法を提案する.また, 自動構築した名詞格フレーム辞書の有用性を調べるため, 名詞格フレーム辞書に基づく名詞問の関係解析システムを構築する.自動構築した名詞格フレーム辞書の評価を人手で作成したものとの比較により行ったところ高い精度で構築されていることが確認でき, また, 関係解析実験の結果から名詞格フレームの有用性を確認できた.
  • NGUYEN MY CHAU, 池田 尚志
    2005 年 12 巻 3 号 p. 145-182
    発行日: 2005/07/10
    公開日: 2011/03/01
    ジャーナル フリー
    本論文は日本語からベトナム語への機械翻訳システムに関して述べたものである.現在までのところ, 日本語とベトナム語との問の機械翻訳システムに関しては, 市販の製品もなく, 研究文献も無い, 本論文はその第1歩としての取り組みである.日本語はSOV型の膠着語であり, ベトナム語はSVO型の孤立語であって, 構造的な違いは大きい.我々はその中で, 日本語の連体修飾表現とベトナム語の表現との違いに注目し, 両言語の対応関係を分析し, 機械翻訳規則を提案した.埋め込み文による被修飾名詞が一般名詞の場合, 形式名詞「の/こと」の場合について合計714例文について, 提案した機械翻訳規則を人手で評価した.約87%以上の正解率を得た(ただし, 規則適用の際に必要となる情報はすべて正しく解析されることを前提としており, その一部には現時点では自動化が困難である情報も含む).提案した規則は我々の研究室で開発中の日本語ーベトナム語機械翻訳システムjaw/Vietnameseに実装していく予定である.
  • 小倉 健太郎, 林 良彦, 野村 早恵子, 石田 亨
    2005 年 12 巻 3 号 p. 183-201
    発行日: 2005/07/10
    公開日: 2011/03/01
    ジャーナル フリー
    本論文では, 機械翻訳を介したコミュニケーションにおける利用者の機械翻訳システムへの適応状況を分析し, 機械翻訳を介した異言語間コミュニケーション支援の方向性について論ずる.コミュニケーションの目的が明確で, 利用者の機械翻訳への適応が期待できる状況において, 多言語機械翻訳を介したコミュニケーションを行う時, 利用者はどのような適応を行うのか, また, その適応の効果はどの程度のものなのかを明らかにした.適応のための書き換えの方法は翻訳言語ペアに強く依存することが分かった.日本語から英語への翻訳の場合, 日本語と英語の概念問の食い違いを補うための語句の置き換えや言語表現習慣の違いを補う主語の補完などが多く観察された.また, 日本語や韓国語のように類似の言語では, それらの言語における適応の傾向が似ていることが分かった.日本語から英語への翻訳のための適応は, 英訳自体には効果が大きいが, 韓国語訳にはほとんど効果がなく, 中国語訳への効果もそれほど大きくはないことが分かった.
  • 小林 のぞみ, 乾 健太郎, 松本 裕治, 立石 健二, 福島 俊一
    2005 年 12 巻 3 号 p. 203-222
    発行日: 2005/07/10
    公開日: 2011/03/01
    ジャーナル フリー
    近年, web上に多数存在する掲示板などの文書から, 意見を自動的に収集・解析する技術への関心が高まっている.このような意見情報の抽出には, 評価を表す表現が重要な手がかりとなるが, それらの表現には「燃費がよい」「CGがきれい」といった領域依存の表現が多数存在するため, 人手で書き尽くすことは困難である.そこで, 我々は, 評価対象表現, 属性表現, 評価表現の共起情報を利用して, これら領域依存の表現を効率的に収集することを試みた.本稿では, 共起パタンに基づく属性・評価値表現の半自動的収集方法を提案し, 「コンピュータ」と「ゲーム」の2つの領域を対象に, 人手と提案手法で行なった収集効率実験の結果について報告する.
feedback
Top