自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
19 巻, 5 号
選択された号の論文の5件中1~5を表示しています
巻頭言
論文
  • 土屋 誠司, 鈴木 基之, 任 福継, 渡部 広一
    2012 年 19 巻 5 号 p. 367-379
    発行日: 2012/12/14
    公開日: 2013/03/19
    ジャーナル フリー
    オノマトペとは,擬音語や擬態語の総称である.文章で物事を表現する際に,より印象深く,豊かで臨場感のあるものにするために利用される.このようなオノマトペによる表現は,その言語を母語としている人であれば非常に容易に理解することができるため,国語辞書などにあえて記載されることは稀なケースである.また,記載があったとしても,使用されているオノマトペをすべて網羅して記載していることはない.そのため,その言語を母語としない人にとっては学習し難い言語表現である.そこで本稿では,オノマトペが表現する印象を推定する手法を提案する.日本語を対象に,オノマトペを構成する文字の種類やパターン,音的な特徴などを手がかりに,そのオノマトペが表現している印象を自動推定する.これにより,日本語を母語としない人に対して,日本語で表現されたオノマトペの理解の支援に繋がると考えられる.結果として,オノマトペの表記内のモーラ系列間の類似度とオノマトペの表記全体の音象徴ベクトルによる類似度を用いた手法が最も良い推定結果となり,参考値である人間同士の一致率の8割程度にまで近づくことができた.
  • 今村 賢治, 齋藤 邦子, 貞光 九月, 西川 仁
    2012 年 19 巻 5 号 p. 381-400
    発行日: 2012/12/14
    公開日: 2013/03/19
    ジャーナル フリー
    本稿では,置換,挿入,削除操作を行う識別的系列変換で日本語学習者作文の助詞誤りを自動訂正する.誤り訂正タスクの場合,難しいのは大規模な学習者作文コーパスを集めることである.この問題を,識別学習の枠組み上で 2 つの方法を用いて解決を図る.一つは日本語としての正しさを測るため,少量の学習者作文から獲得した n-gram 二値素性と,大規模コーパスから獲得した言語モデル確率を併用する.もう一つは学習者作文コーパスへの直接的補強として,自動生成した疑似誤り文を訓練コーパスに追加する.さらに疑似誤り文をソースドメイン,実際の学習者作文をターゲットドメインとしたドメイン適応を行う.実験では,n-gram 二値素性と言語モデル確率を併用することで再現率の向上ができ,疑似誤り文をドメイン適応することにより安定した精度向上ができた.
  • 江村 優花, 関 洋平
    2012 年 19 巻 5 号 p. 401-418
    発行日: 2012/12/14
    公開日: 2013/03/19
    ジャーナル フリー
    現在,電子メール,チャット,マイクロブログなどのメディアで,顔文字は日常的に使用されている.顔文字は,言語コミュニケーションで表現できない,ユーザの感情やコミュニケーションの意図を表すのに便利であるが,反面,その種類は膨大であり,場面に合った顔文字を選ぶことは難しい.本研究では,ユーザの顔文字選択支援を目的として,ユーザが入力したテキストに現れる感情,コミュニケーション,動作のタイプ推定を行い,顔文字を推薦する方法を提案する.感情,コミュニケーション,動作のタイプは,Twitter から収集したコーパスを用いてカテゴリを定義し,推定システムは,k-NN に基づき実現した.また,システムが推薦する顔文字がユーザの意図にどの程度適合しているか,5名の被験者により評価した結果,91件のつぶやきに対して66.6%の顔文字が適切に推定されており,感情カテゴリのみを用いて推薦された結果と比べて,提案手法の顔文字推薦の精度が有意に向上していることがわかった.
  • 荒牧 英治, 増川 佐知子, 森田 瑞樹
    2012 年 19 巻 5 号 p. 419-435
    発行日: 2012/12/14
    公開日: 2013/03/19
    ジャーナル フリー
    近年,ウェブの情報を用いて,感染症などの疾病状態を監視するシステムに注目が集まっている.本研究では,ソーシャルメディアを用いたインフルエンザ・サーベイランスに注目する. これまでの多くのシステムは,単純な単語の頻度情報をもとに患者の状態を調査するというものであった.しかし,この方法では,実際に疾患にかかっていない場合の発言を収集してしまう恐れがある.また,そもそも,医療者でない個人の自発的な発言の集計が,必ずしもインフルエンザの流行と一致するとは限らない.本研究では,前者の問題に対応するため, 発言者が実際にインフルエンザにかかっているもののみを抽出し集計を行う.後者の問題に対して,発言と流行の時間的なずれを吸収するための感染症モデルを提案する.実験においては,Twitter の発言を材料にしたインフルエンザ流行の推定値は,感染症情報センターの患者数と相関係数 0.910 という高い相関を示し,その有効性を示した.本研究により,ソーシャルメディア上の情報をそのまま用いるのではなく,文章分類や疾患モデルと組み合わせて用いることで,さらに精度を向上できることが示された.
feedback
Top