自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
20 巻, 2 号
選択された号の論文の10件中1~10を表示しています
巻頭言
論文
  • 渋木 英潔, 永井 隆広, 中野 正寛, 石下 円香, 松本 拓也, 森 辰則
    2013 年 20 巻 2 号 p. 75-103
    発行日: 2013/06/14
    公開日: 2013/09/14
    ジャーナル フリー
    我々は,Web 上の情報信憑性判断を支援するための技術として,調停要約の自動生成に関する研究を行っている.調停要約とは,一見すると互いに対立しているようにみえる二つの言明の組が実際にはある条件や状況の下で両立できる場合に,両立可能となる状況を簡潔に説明している文章をWeb文書から見つける要約である.しかしながら,対立しているようにみえる言明の組は一般に複数存在するため,利用者がどの言明の組を調停要約の対象としているのかを明らかにする必要がある.本論文では,利用者が調停要約の対象となる言明の組を対話的に明確化した状況下で調停要約を生成できるように改善した手法を提案する.また,提案手法は,従来の調停要約生成手法に,逆接,限定,結論などの手掛かり表現が含まれる位置と,調停要約に不要な文の数を考慮することで精度の向上を図る.調停要約コーパスを用いた実験の結果,従来手法と比較して,調停要約として出力されたパッセージの上位 10 件の適合率が 0.050 から 0.231 に向上したことを確認した.
  • 芋野 美紗子, 吉村 枝里子, 土屋 誠司, 渡部 広一
    2013 年 20 巻 2 号 p. 105-132
    発行日: 2013/06/14
    公開日: 2013/09/14
    ジャーナル フリー
    ロボットと人間の双方でより円滑なコミュニケーションを行うためには,ロボットにも人間のような会話能力が求められると考える.人間の会話はあいさつや質問応答,提案,雑談など多岐に渡るが,ロボットがこういった会話,例えば何かしらの情報を持った雑談のように能動的な会話を行うには,新聞記事のようなリソース中の表現を会話テンプレートに埋め込むという方法が考えられる.しかし新聞記事中の語と会話に用いられる語の馴染み深さには違いがある.例えば新聞記事中の「貸与する」という語は,会話に用いる場合には「貸す」という表現の方が自然である.つまり,人間にとって違和感のない会話のためのリソースとして新聞記事を用いるには,難解語を平易な表現へ変換する必要があると考える.そこで本稿ではロボットと人間との自然な会話生成を担う技術の一端として,新聞記事中の難解な語を会話表現に見あった平易な表現へと変換する手法を提案する.提案手法では人間が語の変換を行う際の処理になぞらえ,1 つの語を別の1語で変換する 1 語変換および文章で変換する N 語変換を組み合わせることでより人間にとって自然に感じる変換を行い,その有効性を示した.結果として変換すべき難解語を 75.7% の精度で平易な表現に,81.1% の精度で正しい意味を保持した表現に変換することが出来た.
  • Akihiro Tamura, Taro Watanabe, Eiichiro Sumita, Hiroya Takamura, Manab ...
    2013 年 20 巻 2 号 p. 133-160
    発行日: 2013/06/14
    公開日: 2013/09/14
    ジャーナル フリー
    This paper proposes a novel method for bilingual lexicon extraction from comparable corpora using graph-based label propagation. A previous study found that performance drastically decreases when the coverage of a seed lexicon is small. We address this problem by using indirect relations with bilingual seeds together with direct relations, in which each word is represented by a distribution of lexical seeds. The seed distributions are propagated over a graph that represents relations among words. Translation pairs are extracted by identifying word pairs with high similarities in the seed distributions. We propose two types of graphs: (1) a co-occurrence graph, representing co-occurrence relations between words; and (2) a similarity graph, representing context similarities between words. Evaluations on comparable corpora of English and Japanese patent documents show that our proposed graph propagation method outperforms conventional methods. Further, the similarity graph improved performance by clustering synonyms into the same translation.
  • 古宮 嘉那子, 伊藤 裕佑, 佐藤 直人, 小谷 善行
    2013 年 20 巻 2 号 p. 161-182
    発行日: 2013/06/14
    公開日: 2013/09/14
    ジャーナル フリー
    本論文は,文書分類のための新手法として,Negation Naive Bayes (NNB) を提案する.NNB は,クラスの補集合を用いるという点では Complement Naive Bayes (CNB) と等しいが,Naive Bayes (NB) と同じ事後確率最大化の式から導出されるため, 事前確率を数学的に正しく考慮している点で異なっている.NNB の有効性を示すため,オークションの商品分類の実験とニュースグループの文書分類の実験を行った.ニュースグループの文書分類では,一文書あたりの単語数(トークン数)を減らした実験と,クラスごとの文書数を不均一にした実験を行い,NNB の性質を考察した.NB,CNB,サポートベクターマシン (SVM) と比較したところ,特に一文書当たりの単語数が減り,クラスごとの文書数が偏る場合において,NNB が他の Bayesian アプローチより勝る手法であること,また,時には SVM を有意に上回り,比較手法中で最も良い分類正解率を示す手法であることが分かった.
  • Takuma Igarashi, Ryohei Sasano, Hiroya Takamura, Manabu Okumura
    2013 年 20 巻 2 号 p. 183-200
    発行日: 2013/06/14
    公開日: 2013/09/14
    ジャーナル フリー
    In linguistics, sound symbolism is an idea that the vocal sounds of certain words carry meaning in themselves. This paper focuses on the sound symbolism of onomatopoeic words and demonstrates the close relationship between sound symbolism and sentiment polarity. Because onomatopoeic words imitate the sounds they represent, they can help us better understand the sentiment of a sentence when utilizing sound symbolism. Therefore, we modeled sound symbolism with N-gram-based features and applied the model to a series of sentiment classification tasks. The experimental results show that this method with sound symbolism significantly outperformed the baseline method without sound symbolism, which effectively demonstrates that a close relationship exists between sound symbolism and sentiment polarity.
  • 小西 光, 浅原 正幸, 前川 喜久雄
    2013 年 20 巻 2 号 p. 201-221
    発行日: 2013/06/14
    公開日: 2013/09/14
    ジャーナル フリー
    時間情報表現は,テキスト中に記述される事象の生起時刻を推定するための重要な手がかりである.時間情報表現を含む数値表現の抽出は,固有表現抽出の部分問題として解かれてきた.英語においては,評価型国際会議が開かれ,時間情報表現のテキストからの切り出しだけではなく,曖昧性解消・正規化のための様々な手法が提案されている.さらに,時間情報と事象とを関連づけるアノテーション(タグづけ)基準 TimeML の定義や新聞記事にアノテーションを行ったコーパス TimeBank の整備が進んでいる.一方,日本語においては時間情報処理に必要なアノテーション基準の定義及びコーパスの整備が進んでいない.本稿では,TimeML の時間情報表現を表す 〈TIMEX3〉 タグに基づいた時間情報のアノテーション基準を日本語向けに再定義し,『現代日本語書き言葉均衡コーパス』(BCCWJ) コアデータの一部にアノテーションを行った.問題点を検討し,今後事象の生起時刻を推定するために必要な課題を考察する.
  • 藤田 早苗, 平 博順, 永田 昌明
    2013 年 20 巻 2 号 p. 223-250
    発行日: 2013/06/14
    公開日: 2013/09/14
    ジャーナル フリー
    既存のテキストのみからなる辞書に対し,インターネット上にある膨大な画像を関連付けることができれば,文字列情報からだけでは得られない,視覚的な情報を利用できるようになり,用途が広がると期待できる.そのため,本稿では,辞書の出来る限り広い語義に対して画像を付与することを考える.作成・維持コストを考えれば,なるべく自動的に画像を付与することが望ましいが,大量の辞書エントリに対して,高い精度で画像を付与することは容易ではない.また,そもそもどういった語義には画像を付与できるのか,あるいはできないのかといった調査が大規模になされた例はなく,画像が付与できる語義を自動的に判別することも困難である.そこで本稿では,まず語義別に画像が付与された辞書を人手で構築することを第一の目標とする.その上で,画像が付与できる語義とできない語義について,品詞や意味クラスとの関連性に着目して分析する.具体的には,名詞,動詞,形容詞,形容動詞,副詞を含む 25,481 語,39,251 語義を対象に画像付与実験と分析を行ない,その結果,全語義の 94.0% は画像付与が可能であること,品詞や意味クラスに応じて画像付与の可否が変わることを示す.また,幅広い語義に適切な画像を付与するため,インターネットから画像検索によって画像を獲得する.検索時に重要となるのが検索語である.本稿の第二の目標は,語義毎に適切な画像を得るための検索語を調査することである.本稿では,複数の検索語の組合せ(以下,検索語セット)の中から最も適切な画像を得られる検索語セットを作業者に選択してもらい,適切な検索語セットがない場合には修正してもらう.こうして最終的に利用された検索語セットを分析し,提案手法の改良点を探る.さらに,検索語セットの優先順位の決定方法も提案,その妥当性を示すことを本稿の第三の目標とする.新しい辞書への適用等を考えると,人手による画像付与ができない場合でも,優先順位の高い検索語セットによる検索結果が利用できれば,有用だと考えられるからである.提案手法では,対象語義がメジャーな語義かどうかで優先順位を変化させる.実験では,2 種類の評価方法を通してその妥当性を示す.
  • 吉川 克正, 浅原 正幸, 松本 裕治
    2013 年 20 巻 2 号 p. 251-271
    発行日: 2013/06/14
    公開日: 2013/09/14
    ジャーナル フリー
    本稿ではマルコフロジックを利用した日本語述語項構造解析について述べる.日本語述語項構造解析に関する従来研究の多くは,格毎に独立した解析器を用意し,他の述語項関係との依存関係を無視したまま解析を行っていた.これに対し,本研究では同一文内にある全ての述語項候補を同時に考慮して解析する手法を提案する.この手法は複数の述語項関係の間にある依存関係を考慮した上で,文内における全ての述語項関係の候補から,最適な状態を見つけ出すことができる.さらに,本研究では,述語の項として妥当でないものを削除するための新たな論理的制約を考案し,ゼロ照応も含めて正しい項を効果的に見つけ出すことができるように工夫した.NAIST テキストコーパスにおける実験で,本研究の提案手法は,大規模データを利用せずに,従来手法と同等の結果を達成した.
  • 高瀬 翔, 岡崎 直観, 乾 健太郎
    2013 年 20 巻 2 号 p. 273-296
    発行日: 2013/06/14
    公開日: 2013/09/14
    ジャーナル フリー
    集合拡張手法の多くはシードインスタンスだけを手掛かりに新たなインスタンスを取得するものであり,対象が複数のカテゴリであっても,各カテゴリのインスタンスの収集を独立に行う.しかし,複数カテゴリを対象にした集合拡張ではカテゴリ間の関係など,シードインスタンスとは別の事前知識も利用できる.本研究ではこのようなカテゴリ間の関係,特に兄弟関係を事前知識として活用した集合拡張手法を提案する.さらに,Wikipedia から半自動で抽出したインスタンスと兄弟関係を事前知識として実験を行い,兄弟関係が集合拡張に有用であることを示す.
feedback
Top