自然言語処理

巻頭言

自然言語処理と役に立つアプリケーション

颯々野学

2010 年 17 巻 4 号 p. 4_1-4_2
発行日: 2010年
公開日: 2011/06/09

DOIhttps://doi.org/10.5715/jnlp.17.4_1

ジャーナルフリー

PDF形式でダウンロード (109K)

論文

タグ信頼度に基づく半自動自己更新型固有表現抽出

齋藤邦子, 今村賢治

2010 年 17 巻 4 号 p. 4_3-4_21
発行日: 2010年
公開日: 2011/06/09

DOIhttps://doi.org/10.5715/jnlp.17.4_3

ジャーナルフリー

抄録を表示する抄録を非表示にする

本稿では条件付確率場に基づく固有表現抽出において，新たなドメインにモデルを適応するためのモデル学習コスト―正解データ作成コスト―を低減する 2 つの学習手法を提案する．本手法では，タグ単位の事後確率をタグ信頼度とみなし，信頼度の低いタグをシステムの解析誤りとして自動的に検出する．そして検出された解析誤りタグのみを修正の対象とするため，文全体の事後確率を利用する場合と比較して，修正が必要である箇所に効率よくコストを注力させることが可能となる．
第 1 の学習手法として，能動学習に本手法を適用すると，システム出力の信頼度が低いタグのみを検出して人手修正対象とすることにより，従来手法と比較して修正コストが 1/3 に低減した．
また，第 2 の学習手法として正解固有表現リストを利用したブートストラップ型学習に適用すると，解析誤りとして検出されたタグの上位候補から半自動的に正解タグを発見可能であった．この学習法では，大量のプレーンテキストから，半自動で正解データを作成できるため，更に学習コストを低減させる効果がある．

抄録全体を表示

PDF形式でダウンロード (678K)
単語グループに基づく Web 文書クラスタリング

仁科朋也, 内海彰

2010 年 17 巻 4 号 p. 4_23-4_41
発行日: 2010年
公開日: 2011/06/09

DOIhttps://doi.org/10.5715/jnlp.17.4_23

ジャーナルフリー

抄録を表示する抄録を非表示にする

サーチエンジンの検索結果などの Web ページ集合をクラスタリングする手法として，抽出された各重要語を含む Web ページ集合をひとつのクラスタとする手法が広く用いられている．しかし，従来の研究では重要語間の類似度を考慮していないために，類似した話題を表す語句が重要語として抽出されると，話題が類似するクラスタが複数出力されてしまうという欠点がある．そこで本研究では，この問題点を解消するために，単語間の類似度を考慮した Web 文書クラスタリング手法を提案する．本手法は，サーチエンジンが返すタイトルとスニペットの単語分布情報から，互いに類似していない重要語を抽出する．次に，どのクラスタにも属さない Web ページをできるだけ減らすために，重要語から直接 Web ページのクラスタを生成せずに，各重要語に類似した Web ページ集合に含まれる単語集合として単語グループを生成し，それらの単語グループのそれぞれに対応する Web ページクラスタを生成する．そして，実際に人手で分類した正解データを用いて従来手法（語句間の類似度を考慮しない方法）との比較評価を行い，本手法のほうがクラスタリング性能が高く，かつ類似したクラスタを生成してしまうという従来手法の問題点が解消できることを示す．

抄録全体を表示

PDF形式でダウンロード (397K)
シソーラスを組み込んだ意味解析システム

国分芳宏, 梅北浩二, 松下栄一, 末岡隆史

2010 年 17 巻 4 号 p. 4_43-4_57
発行日: 2010年
公開日: 2011/06/09

DOIhttps://doi.org/10.5715/jnlp.17.4_43

ジャーナルフリー

抄録を表示する抄録を非表示にする

CGM（消費者生成メディア）が普及してきたため，そのための言語処理技術が必要になってきた．このような文章データの自然文による検索や翻訳のために，解析精度の向上が求められている．解析誤りの発生原因である，用語の異なり，構文構造の異なりに対処できる処理方式を実現する．この両者への対策として，シソーラスを用いて用語間の意味的な距離を決定する方式を提案する．具体的には，用語の標準化や係り受けの正規化をするシステムを実現し，さらに，付属語を調べて，省略された主語を復元すること，「文節意図」を付与することを試みた．「Yahoo!知恵袋」のデータを用いて解析実験をした結果，シソーラスを用いない場合に比較して約1%の精度の向上がみられた．システムが用いている辞書の内容について概要を述べる．

抄録全体を表示

PDF形式でダウンロード (422K)
自動意味役割付与における意味役割の汎化

松林優一郎, 岡崎直観, 辻井潤一

2010 年 17 巻 4 号 p. 4_59-4_89
発行日: 2010年
公開日: 2011/06/09

DOIhttps://doi.org/10.5715/jnlp.17.4_59

ジャーナルフリー

抄録を表示する抄録を非表示にする

FrameNet，PropBank といった意味タグ付きコーパスの出現とともに，機械学習の枠組みを利用した自動意味役割付与システムが数多く研究されてきた．しかし，これらのコーパスは個々のフレームに固有の意味役割を定義するため，コーパス中に低頻度，或いは未出現の意味役割が数多く存在し，効率的な学習を妨げている．本論文は，意味役割付与における意味役割の汎化問題を取り上げ，既存の汎化指標と新たに提案する指標を役割の分類精度を通して比較し，それぞれの特徴を探求する．また，複数の汎化指標を同時に利用する分類モデルが自動意味役割付与の精度を向上させることを示す．実験では，FrameNet において全体の精度で 19.16% のエラー削減，F1 マクロ平均で 7.42% の向上を，PropBank において全体の精度で 24.07% のエラー削減，未知動詞に対するテストで 26.39% のエラー削減を達成した．

抄録全体を表示

PDF形式でダウンロード (1906K)
コーパスごとの類似度を考慮した用例に基づく
感情推定手法の改善

三品賢一, 土屋誠司, 鈴木基之, 任福継

2010 年 17 巻 4 号 p. 4_91-4_110
発行日: 2010年
公開日: 2011/06/09

DOIhttps://doi.org/10.5715/jnlp.17.4_91

ジャーナルフリー

抄録を表示する抄録を非表示にする

発話文を感情ごとに分類したコーパスを構築し，入力文と最も類似度が高い発話文を含むコーパスの感情を推定結果として出力する用例ベースの感情推定手法が提案されている．従来手法ではコーパスを構築する際，発話テキストの収集者が個人個人で発話文の分類先を決定しているため，分類先を決定する基準が個々によってぶれてしまう．これにより，例えば“希望”のコーパスの中に喜びの発話文が混じるといったことが起こり，推定成功率を下げてしまう．本稿ではこの問題を解決するため，コーパスごとにおける入力文の形態素列の出現回数を用いて，入力文とコーパスの類似度を定義する．そしてこの類似度を従来手法に導入した新たな類似度計算式を提案する．これにより，誤って分類されてしまった発話文の影響を緩和することができる．評価実験では従来手法と比べて成功率が 21.5 ポイント向上し，提案手法の有効性が確認できた．

抄録全体を表示

PDF形式でダウンロード (585K)
音声合成のための韻律制御コマンド作成方法の検討

水野理, 阿部匡伸

2010 年 17 巻 4 号 p. 4_111-4_129
発行日: 2010年
公開日: 2011/06/09

DOIhttps://doi.org/10.5715/jnlp.17.4_111

ジャーナルフリー

抄録を表示する抄録を非表示にする

音声合成をより使いやすくかつ表現力豊かにするために，我々は階層型音声合成記述言語 MSCL を開発した．MSCL は記述という方法によりニュアンスや心情，感情などを合成音声に付加することが可能である．MSCL は S 層，I 層，P 層の 3 つの階層を有し，初学者から音声学的知識を有する者まで対応可能にする．一方，MSCL の S 層が提供する新たなコマンドの作成手法そして I 層に備わる韻律制御コマンドによって生じる聴感上の効果（印象）の検討は MSCL における課題となっていた．そこで，本研究は MSCL の課題である韻律制御と印象の関係について実験を通じて見出した，8 つの制御規則を提案し，それぞれの主な印象について連想法を通じて分析した．また，制御規則を組み合わせて得られる印象の変化についても分析を行った．さらに，韻律制御コマンドを利用する上での留意点について言及する．音声合成での韻律制御を行うための 1 つのアプローチを提案する．

抄録全体を表示

PDF形式でダウンロード (591K)
自動獲得した未知語の読み・文脈情報による仮名漢字変換

笹田鉄郎, 森信介, 河原達也

2010 年 17 巻 4 号 p. 4_131-4_153
発行日: 2010年
公開日: 2011/06/09

DOIhttps://doi.org/10.5715/jnlp.17.4_131

ジャーナルフリー

抄録を表示する抄録を非表示にする

未知語の問題は，仮名漢字変換における重要な課題の 1 つである．本論文では，内容の類似したテキストと音声から未知語の読み・文脈情報をコーパスとして自動獲得し，仮名漢字変換の精度向上に利用する手法を提案する．まず，確率的な単語分割によって未知語の候補となる単語をテキストから抽出する．次に，各未知語候補の読みを複数推定して列挙する．その後，テキストに類似した内容の音声を認識させることによって正しい読みを選択する．最後に，音声認識結果を学習コーパスとみなして仮名漢字変換のモデルを構築する．自動収集されたニュース記事とニュース音声を用いた実験では，獲得した未知語の読み・文脈情報を仮名漢字変換のための学習コーパスとして用いることで，精度が向上することを確認した．

抄録全体を表示

PDF形式でダウンロード (493K)

技術資料

統計翻訳における人手で作成された
大規模フレーズテーブルの効果

村上仁一, 鏡味良太, 徳久雅人, 池原悟

2010 年 17 巻 4 号 p. 4_155-4_175
発行日: 2010年
公開日: 2011/06/09

DOIhttps://doi.org/10.5715/jnlp.17.4_155

ジャーナルフリー

抄録を表示する抄録を非表示にする

現在，機械翻訳システムの分野において，対訳データから自動的に翻訳モデルと言語モデルを獲得し，翻訳を行う統計翻訳が注目されている．翻訳モデルでは，原言語の単語列から目的言語の単語列への翻訳を，フレーズテーブルで管理する．しかしフレーズテーブルはプログラムで自動作成するため，カバー率は高いが信頼性は低いと考えられる．一方，手作業で作成した翻訳対は，信頼性は高いがカバー率は低いと考えられる．そこで，それぞれの長所を生かすために，プログラムで自動作成したフレーズ対に手作業で作成した翻訳対を追加することで翻訳精度が向上すると考えた．実験では，手作業で作成された約13万の翻訳対に翻訳確率を与え，プログラムで自動作成したフレーズテーブルに追加した．翻訳実験の結果，BLEUスコアが，日英翻訳の単文では0.9%，重複文では0.8%向上した．また人間による対比較実験を行ったところ，有効性が確認された．以上の結果から，統計翻訳において手作業で作成した翻訳対を追加する提案手法は有効であることが示された．

抄録全体を表示

PDF形式でダウンロード (402K)

J-STAGEへの登録はこちら（無料）