自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
15 巻, 5 号
選択された号の論文の9件中1~9を表示しています
  • 隅田 英一郎
    2008 年 15 巻 5 号 p. 1-2
    発行日: 2008/10/10
    公開日: 2011/03/01
    ジャーナル フリー
  • Idomucogiin Dawa, Satoshi Nakamura
    2008 年 15 巻 5 号 p. 3-21
    発行日: 2008/10/10
    公開日: 2011/03/01
    ジャーナル フリー
    This paper discusses a segmentation approach of Mongolian for Cyrillic text for machine translation. Using this method, the processing of one-to-one word permutation between the variations of Mongolian and other languages, especially Altaic family languages like Japanese, becomes easier. Furthermore, it can be used for two-way conversion between texts of Mongolian used in different regions and counties, such as Mongolia and China. Our system has been implemented based on DP (dynamic programming) matching supported by knowledge-based sequence matching, referred to as a multilingual dictionary and linguistic rule bank (LRB), and a data-driven approach of the target language corpus (TLC). For convenience, NM (New Mongolian) is treated as the source language, and TM (Traditional Mongolian) and Todo as the target language in this test. Our application was tested using manually transcribed texts with sizes of 5, 000 sentences paralleled from NM to TM and Todo. We found that our method could achieve 91.9% of the transformation accuracy for “NM” to “TM” and 94.3% for “NM” to “Todo”.
  • 土屋 雅稔, 脇田 敏行, AYU PURWARIANTI, 中川 聖一
    2008 年 15 巻 5 号 p. 23-43
    発行日: 2008/10/10
    公開日: 2011/03/01
    ジャーナル フリー
    2つの言語に関わる言語横断の言語処理を実現するには, その言語対を対象とする豊富な言語資源が必要である.対訳辞書は, そのような言語資源の中でも特に重要であるが, あらゆる言語対に対して大規模な対訳辞書が利用できるわけではなく, 小規模な対訳辞書しか利用できないような言語対も多い.そこで本論文では, ある言語対についての既存の小規模な対訳辞書を, その言語対と中間言語の言語資源を利用して大規模な対訳辞書に拡充する方法を提案する.提案法では, 対象となる2つの言語のコーパスから得られた言語の異なる共起ベクトルを, 種辞書に基づいて比較して, 対象となる2つの言語と中間言語の2種類の対訳辞書を用いて得られた訳語候補を選択する情報として用いる.実際に, 小規模なインドネシア譜日本語辞書を, 大規模なインドネシア語一英語辞書と英語一日本語辞書に基づいて拡充する実験を行い, 拡充された辞書が言語横断情報検索の精度を向上させるのに役立つことを示した.
  • 横野 光
    2008 年 15 巻 5 号 p. 45-71
    発行日: 2008/10/10
    公開日: 2011/03/01
    ジャーナル フリー
    物語は複数の話題で構成された文書である.内容の理解にはこの展開していく話題を正しく把握しなければならず, そのために原文書の代わりに用いられる要約は特に整合性を重視する必要がある.本稿では整合性として話題の繋がりに着目した物語要約手法を提案する.提案手法では, まず物語を主題に着目した話題単位に分割し, 登場人物に着目した重要度によって要約として抽出する話題を決定する.その後, 話題問の整合性を保つために, 話題問の状況の変化を示す文を補完する.提案手法の有効性を確認するため実際の物語を対象とした被験者の主観的評価による比較実験を行った.整合性を考慮しないtf・idfを用いた重要文抽出に比べて, 提案手法の方が内容の理解において良好な結果を得ることができた.
  • 橋本 力, 黒橋 禎夫
    2008 年 15 巻 5 号 p. 73-97
    発行日: 2008/10/10
    公開日: 2011/03/01
    ジャーナル フリー
    言葉の意味処理にとってシソーラスは不可欠の資源である.シソーラスは, 単語間の上位下位関係という, いわば縦の関連を表現するものである.我々は意味処理技術の深化を目指し, 縦の関連に加えて, 単語が使用されるドメインという, いわば横の関連を提案する.本研究では基本語を対象に, ドメイン辞書を半自動で構築した.本手法に必要なのは検索エンジンへのアクセスのみで, 文書集合や高度に構造化された語彙資源等は必要ない.さらに, 基本語ドメイン辞書の応用としてブログ自動分類を行った.各プログ記事は, 記事中の語にドメインとIDF値が付与され, 最もIDF値の高いドメインに分類される.基本語ドメイン辞書に無い未知語のドメインは, 基本語ドメイン辞書, Wikipedia, 検索エンジンを利用して, リアルタイムで推定する.結果として, ブログ分類正解率94.0% (564/600) と, 未知語ドメイン推定正解率76.6% (383/500) が得られた.
  • 笹野 遼平, 黒橋 禎夫
    2008 年 15 巻 5 号 p. 99-118
    発行日: 2008/10/10
    公開日: 2011/03/01
    ジャーナル フリー
    本稿では, 自動獲得した知識を用いた日本語共参照解析システムを提案する.日本語における共参照の多くを占める名詞句間の共参照の解析では, 語彙的知識が重要となり, 中でも同義表現知識が非常に有効となる.そこでまず, 大規模なコーパスおよび国語辞典の定義文から同義表現の自動獲得を行い, 自動獲得した同義表現を用いた共参照解析システムを構築する.さらに, より精度の高い共参照解析システムの構築のため, 自動構築した名詞格フレームを用いた名詞句の関係解析を行い, その結果を共参照解析の手掛りとして使用する.新聞記事およびウェブテキストを用いた実験の結果, 同義表現, および, 名詞句の関係解析結果を用いることにより, 共参照解析の精度は向上し, 手法の有効性が確認できた.
  • Masato Hagiwara, Yasuhiro Ogawa, Katsuhiko Toyama
    2008 年 15 巻 5 号 p. 119-150
    発行日: 2008/10/10
    公開日: 2011/03/01
    ジャーナル フリー
    Distributional similarity is a widely adopted concept to capture the semantic relatedness of words based on their context in various NLP tasks. While accurate similarity calculation requires a huge number of context types and co-occurrences, the contribution to the similarity calcualtion depends on individual context types, and some of them even act as noise. To select well-performing context and alleviate the high computational cost, we propose and investigate the effectiveness of three context selection schemes: category-based, type-based, and co-occurrence based selection. Categorybased selection is a conventional, simplest selection method which limits the context types based on the syntactic category. Finer-grained, type-based selection assigns importance scores to each context type, which we make possible by proposing a novel formalization of distibutional similarity as a classification problem, and applying feature selection techniques. The finest-grained, co-occurrence based selection assigns importance scores to each co-occurrence of words and context types. We evaluate the effectiveness and the trade-off between co-occurrence data size and synonym acquisition performance. Our experiments show that, on the whole, the finest-grained, co-occurrence based selection achieves better performane, although some of the simple category-based selection show comparable performance/cost trade-off.
  • 江原 遥, 田中 久美子
    2008 年 15 巻 5 号 p. 151-167
    発行日: 2008/10/10
    公開日: 2011/03/01
    ジャーナル フリー
    近年, 国際化に伴い, 多くの言語を頻繁に切り替えて入力する機会が増えている.既存のテキスト入力システムにおいては, 言語が切り替わるたびに, ユーザーが手動で, テキスト入力ソフトウェア (IME) を切り替えなければならない点が, ユーザーにとって負担になっていた.この問題を解決するために, 本論文では, 多言語を入力する際にユーザーの負担を軽減するシステム, TypeAnyを提案する.TypeAnyは, ユーザーが行うキー入力からユーザーが入力しようとしている言語を判別して, IMEの切り替えを自動で行う.これによって, ユーザーがIMEを切り替える操作量が減るため, 複数の言語をスムーズに切り替えながら入力することが可能になる.本研究では, 隠れマルコフモデルを用いて言語の判別をモデル化し, モデルにおける確率をPPM法を用いて推定することでTypeAnyを実装し, その有用性を評価した.その結果, 人工的なコーパスにおける3言語間の判別において, 96.7%の判別精度を得た.また, 実際に多言語を含む文書を用いて実験したところ, 切り替えに必要な操作の数が, 既存の手法に比べて93%減少した.
  • 岩立 将和, 浅原 正幸, 松本 裕治
    2008 年 15 巻 5 号 p. 169-185
    発行日: 2008/10/10
    公開日: 2011/03/01
    ジャーナル フリー
    日本語係り受け解析においては, 工藤らの相対的な係りやすさを考慮した日本語係り受け解析モデルが, 決定的解析アルゴリズムや文脈自由文法のパージングアルゴリズムに基づく手法を上回る精度を示している.決定的解析手法では係り先候補文節を同時に一つしか考慮しないが, 工藤らの相対モデルではすべての係り先候補文節間の選択選好の強さをlog-linearモデルで推定している.これに対し本稿では, 同時に対象とする係り先候補文節を二候補に限定し, 選択選好を二つの候補同士の対戦からなるトーナメントで直接表現したモデルを提案する.京大コーパスVbrsion4.0を使用した実験において, 提案手法は従来手法を上回る精度を示した.
feedback
Top