自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
17 巻, 4 号
選択された号の論文の9件中1~9を表示しています
巻頭言
論文
  • 齋藤 邦子, 今村 賢治
    2010 年 17 巻 4 号 p. 4_3-4_21
    発行日: 2010年
    公開日: 2011/06/09
    ジャーナル フリー
    本稿では条件付確率場に基づく固有表現抽出において,新たなドメインにモデルを適応するためのモデル学習コスト―正解データ作成コスト―を低減する 2 つの学習手法を提案する.本手法では,タグ単位の事後確率をタグ信頼度とみなし,信頼度の低いタグをシステムの解析誤りとして自動的に検出する.そして検出された解析誤りタグのみを修正の対象とするため,文全体の事後確率を利用する場合と比較して,修正が必要である箇所に効率よくコストを注力させることが可能となる.
    第 1 の学習手法として,能動学習に本手法を適用すると,システム出力の信頼度が低いタグのみを検出して人手修正対象とすることにより,従来手法と比較して修正コストが 1/3 に低減した.
    また,第 2 の学習手法として正解固有表現リストを利用したブートストラップ型学習に適用すると,解析誤りとして検出されたタグの上位候補から半自動的に正解タグを発見可能であった.この学習法では,大量のプレーンテキストから,半自動で正解データを作成できるため,更に学習コストを低減させる効果がある.
  • 仁科 朋也, 内海 彰
    2010 年 17 巻 4 号 p. 4_23-4_41
    発行日: 2010年
    公開日: 2011/06/09
    ジャーナル フリー
    サーチエンジンの検索結果などの Web ページ集合をクラスタリングする手法として,抽出された各重要語を含む Web ページ集合をひとつのクラスタとする手法が広く用いられている.しかし,従来の研究では重要語間の類似度を考慮していないために,類似した話題を表す語句が重要語として抽出されると,話題が類似するクラスタが複数出力されてしまうという欠点がある.そこで本研究では,この問題点を解消するために,単語間の類似度を考慮した Web 文書クラスタリング手法を提案する.本手法は,サーチエンジンが返すタイトルとスニペットの単語分布情報から,互いに類似していない重要語を抽出する.次に,どのクラスタにも属さない Web ページをできるだけ減らすために,重要語から直接 Web ページのクラスタを生成せずに,各重要語に類似した Web ページ集合に含まれる単語集合として単語グループを生成し,それらの単語グループのそれぞれに対応する Web ページクラスタを生成する.そして,実際に人手で分類した正解データを用いて従来手法(語句間の類似度を考慮しない方法)との比較評価を行い,本手法のほうがクラスタリング性能が高く,かつ類似したクラスタを生成してしまうという従来手法の問題点が解消できることを示す.
  • 国分 芳宏, 梅北 浩二, 松下 栄一, 末岡 隆史
    2010 年 17 巻 4 号 p. 4_43-4_57
    発行日: 2010年
    公開日: 2011/06/09
    ジャーナル フリー
    CGM(消費者生成メディア)が普及してきたため,そのための言語処理技術が必要になってきた.このような文章データの自然文による検索や翻訳のために,解析精度の向上が求められている.解析誤りの発生原因である,用語の異なり,構文構造の異なりに対処できる処理方式を実現する.この両者への対策として,シソーラスを用いて用語間の意味的な距離を決定する方式を提案する.具体的には,用語の標準化や係り受けの正規化をするシステムを実現し,さらに,付属語を調べて,省略された主語を復元すること,「文節意図」を付与することを試みた.「Yahoo!知恵袋」のデータを用いて解析実験をした結果,シソーラスを用いない場合に比較して約1%の精度の向上がみられた.システムが用いている辞書の内容について概要を述べる.
  • 松林 優一郎, 岡崎 直観, 辻井 潤一
    2010 年 17 巻 4 号 p. 4_59-4_89
    発行日: 2010年
    公開日: 2011/06/09
    ジャーナル フリー
    FrameNet,PropBank といった意味タグ付きコーパスの出現とともに,機械学習の枠組みを利用した自動意味役割付与システムが数多く研究されてきた.しかし,これらのコーパスは個々のフレームに固有の意味役割を定義するため,コーパス中に低頻度,或いは未出現の意味役割が数多く存在し,効率的な学習を妨げている.本論文は,意味役割付与における意味役割の汎化問題を取り上げ,既存の汎化指標と新たに提案する指標を役割の分類精度を通して比較し,それぞれの特徴を探求する.また,複数の汎化指標を同時に利用する分類モデルが自動意味役割付与の精度を向上させることを示す.実験では,FrameNet において全体の精度で 19.16% のエラー削減,F1 マクロ平均で 7.42% の向上を,PropBank において全体の精度で 24.07% のエラー削減,未知動詞に対するテストで 26.39% のエラー削減を達成した.
  • 三品 賢一, 土屋 誠司, 鈴木 基之, 任 福継
    2010 年 17 巻 4 号 p. 4_91-4_110
    発行日: 2010年
    公開日: 2011/06/09
    ジャーナル フリー
    発話文を感情ごとに分類したコーパスを構築し,入力文と最も類似度が高い発話文を含むコーパスの感情を推定結果として出力する用例ベースの感情推定手法が提案されている.従来手法ではコーパスを構築する際,発話テキストの収集者が個人個人で発話文の分類先を決定しているため,分類先を決定する基準が個々によってぶれてしまう.これにより,例えば“希望”のコーパスの中に喜びの発話文が混じるといったことが起こり,推定成功率を下げてしまう.本稿ではこの問題を解決するため,コーパスごとにおける入力文の形態素列の出現回数を用いて,入力文とコーパスの類似度を定義する.そしてこの類似度を従来手法に導入した新たな類似度計算式を提案する.これにより,誤って分類されてしまった発話文の影響を緩和することができる.評価実験では従来手法と比べて成功率が 21.5 ポイント向上し,提案手法の有効性が確認できた.
  • 水野 理, 阿部 匡伸
    2010 年 17 巻 4 号 p. 4_111-4_129
    発行日: 2010年
    公開日: 2011/06/09
    ジャーナル フリー
    音声合成をより使いやすくかつ表現力豊かにするために,我々は階層型音声合成記述言語 MSCL を開発した.MSCL は記述という方法によりニュアンスや心情,感情などを合成音声に付加することが可能である.MSCL は S 層,I 層,P 層の 3 つの階層を有し,初学者から音声学的知識を有する者まで対応可能にする.一方,MSCL の S 層が提供する新たなコマンドの作成手法そして I 層に備わる韻律制御コマンドによって生じる聴感上の効果(印象)の検討は MSCL における課題となっていた.そこで,本研究は MSCL の課題である韻律制御と印象の関係について実験を通じて見出した,8 つの制御規則を提案し,それぞれの主な印象について連想法を通じて分析した.また,制御規則を組み合わせて得られる印象の変化についても分析を行った.さらに,韻律制御コマンドを利用する上での留意点について言及する.音声合成での韻律制御を行うための 1 つのアプローチを提案する.
  • 笹田 鉄郎, 森 信介, 河原 達也
    2010 年 17 巻 4 号 p. 4_131-4_153
    発行日: 2010年
    公開日: 2011/06/09
    ジャーナル フリー
    未知語の問題は,仮名漢字変換における重要な課題の 1 つである.本論文では,内容の類似したテキストと音声から未知語の読み・文脈情報をコーパスとして自動獲得し,仮名漢字変換の精度向上に利用する手法を提案する.まず,確率的な単語分割によって未知語の候補となる単語をテキストから抽出する.次に,各未知語候補の読みを複数推定して列挙する.その後,テキストに類似した内容の音声を認識させることによって正しい読みを選択する.最後に,音声認識結果を学習コーパスとみなして仮名漢字変換のモデルを構築する.自動収集されたニュース記事とニュース音声を用いた実験では,獲得した未知語の読み・文脈情報を仮名漢字変換のための学習コーパスとして用いることで,精度が向上することを確認した.
技術資料
  • 村上 仁一, 鏡味 良太, 徳久 雅人, 池原 悟
    2010 年 17 巻 4 号 p. 4_155-4_175
    発行日: 2010年
    公開日: 2011/06/09
    ジャーナル フリー
    現在,機械翻訳システムの分野において,対訳データから自動的に翻訳モデルと言語モデルを獲得し,翻訳を行う統計翻訳が注目されている.翻訳モデルでは,原言語の単語列から目的言語の単語列への翻訳を,フレーズテーブルで管理する.しかしフレーズテーブルはプログラムで自動作成するため,カバー率は高いが信頼性は低いと考えられる.一方,手作業で作成した翻訳対は,信頼性は高いがカバー率は低いと考えられる.そこで,それぞれの長所を生かすために,プログラムで自動作成したフレーズ対に手作業で作成した翻訳対を追加することで翻訳精度が向上すると考えた. 実験では,手作業で作成された約13万の翻訳対に翻訳確率を与え,プログラムで自動作成したフレーズテーブルに追加した.翻訳実験の結果,BLEUスコアが,日英翻訳の単文では0.9%,重複文では0.8%向上した.また人間による対比較実験を行ったところ,有効性が確認された. 以上の結果から,統計翻訳において手作業で作成した翻訳対を追加する提案手法は有効であることが示された.
feedback
Top