自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
10 巻, 2 号
選択された号の論文の8件中1~8を表示しています
  • 佐藤 滋
    2003 年 10 巻 2 号 p. 1-2
    発行日: 2003/04/10
    公開日: 2011/03/01
    ジャーナル フリー
  • 林 絵梨, 吉岡 卓, 東条 敏
    2003 年 10 巻 2 号 p. 3-17
    発行日: 2003/04/10
    公開日: 2011/03/01
    ジャーナル フリー
    本稿の目的は日本語の料理レシピ文における各事象の時間構造を特定し, 隣接する事象間の時間関係を明確化することである. レシピ文は時間に沿った作業のシーケンスを述べたものであり, 事象間の時間関係を示す典型でありながら, 常識を排除して機械的に文章を読むと時間関係の復元が困難である問題があげられる. 本研究の試みはアスペクト, すなわち各事象の時間的側面に着目し, そこから文章全体の時間関係を再構築することである. 本稿ではイベント構造の概念を用いたアスペクト理論を用いることにより, アスペクトクラスを達成相, 完成相, 完了相, 進行相の4つの型に分類する. さらに事象の隣接関係を明確化するために完成相, 完了相の細分化を試みる. この細分化により進行や完了の関係, 並行動作関係, 終了時や開始時の前後動作関係を解析することが可能となった. またアスペクトを補助する情報として副詞句, 省略動作, 並行関係に着目し, 事象の時間的な隣接関係を簡潔に表現することによって, 文章全体の時間的な意味を限定した. 以上の結果に基づき, 料理レシピ文における時間的関係構造の自動生成システムを設計した.
  • 乾 裕子, 村田 真樹, 内元 清貴, 井佐原 均
    2003 年 10 巻 2 号 p. 19-42
    発行日: 2003/04/10
    公開日: 2011/06/07
    ジャーナル フリー
    自由記述形式のアンケート調査の回答は, 選択型回答のアンケートと異なり, 回答者の自由な意見を集約できる効果があるため社会的にも注目されている. アンケート調査 (質問紙調査法) について研究されてきた社会学・心理学の分野では, アンケートの回答分類はコーディングと呼ばれ, 選択型回答・自由回答ともに人手で分析・分類されることが多い. 特に自由回答のコーディングには多大なコストがかかるうえに, 人の判断による作業は主観的な分類結果を招くという懸念もある. このような背景から, 本研究では言語処理の要素技術であるテキスト分類の技術を取り入れアンケート回答の自動分類を行うことで, その結果を自由回答のコーディングに活用するためのコーディング支援を試みた. テキストの分類には, 学習アルゴリズムのひとつである最大エントロピー法を用いている. 分類にあたり, まずはテキストへのタグ付与実験をもとに意図タグの決定を行った. これらの意図タグを付与した意図タグ付き正解データを作成し, このデータを訓練データとしてN-gram抽出を行い, 各タグに特徴的な表現を取り出した. この表現を素性とし, 訓練データに対して最大エントロピー法を用いて学習し, 分類を行った結果, 約8割弱の分類精度が得られた. この手法によって, 自由回答テキストに対して回答者の意図を反映した分類を行うことができた. これにより, 回答を一件ずつ読みながら類似の内容を持つ回答を探すという, 自由回答の人手による分類コストを軽減することができた. また, 辞書を用いる形態素解析を使わずに, 最大エントロピー法による素性と意図タグの学習を行うことで, 「です」「ません」「べき」「必要」「図る」「化」など断片的な情報が意図タグ付与に効果的であることが明らかになった.
  • 田添 丈博, 椎野 努, 桝井 文人, 河合 敦夫
    2003 年 10 巻 2 号 p. 43-58
    発行日: 2003/04/10
    公開日: 2011/03/01
    ジャーナル フリー
    我々は文章中に現れる比喩表現, その中でも直喩・隠喩的な比喩について, その認識・抽出を目的として研究を進めている. 本論文では, “名詞Aのような名詞B” 表現について, 名詞の意味情報を用いたパターン分類によって比喩性を判定し, 比喩表現については喩詞 (喩えるもの) と被喩詞 (喩えられるもの) とを正確に抽出できるモデルを提案する. この表現には比喩 (直喩) とリテラル (例示など) の2つの用法があり, また比喩であっても名詞Bが被喩詞ではない場合がある. 我々はそれらを機械的に判定するために, これまでに行ってきた構文パターンやシソーラスを用いて喩詞と被喩詞の候補を抽出する手法を発展させ, 名詞Aと名詞Bの意味情報やその関係に従って “名詞Aのような名詞B” 表現を6つのパターンに分類し, 比喩性を判定し喩詞と被喩詞を特定するモデルを構築した. このモデルを日本語語彙大系の意味情報を利用して実装し, 新聞記事データを用いて検証したところ, 得られたパターン分類結果 (比喩性判定結果) と人間のそれとが一致する割合は, 学習データについては82.9% (未知語データを除く), 評価用データについては72.7% (同) であり, 比喩性判定モデルの全体的な処理の流れは実際の文章中の比喩表現認識に有効であることを示した. また, 比喩語という比喩性を決定づける語についてもその効果を示すことができ, モデルへの組み込みの可能性を示唆した.
  • 上原 徹三, 金澤 恵, 潮 靖之, 矢古宇 智子
    2003 年 10 巻 2 号 p. 59-78
    発行日: 2003/04/10
    公開日: 2011/03/01
    ジャーナル フリー
    全単語の出現箇所を与える総索引は日本の古典の研究の補助として用いられている. 品詞タグ付きコーパスはコンピュータを用いた自然語研究の手段として重要である. しかし日本語古典文に関する品詞タグ付きコーパスは公開されていない. そこで総索引を品詞タグ付きコーパスに変換する方法を検討した. 使用した総索引は本文編と索引編とから成り, 後者は単語の仮名/漢字表記品・詞情報を見出しとし, その単語の本文での出現行番号のリストを与える. 変換機能には活用表の知識のみを保持した. ある単語の部分文字列が他の単語の表記と一致し, 両者が同一行に出現することがあり得る問題に対し, 一種の最長一致法を用いた. 索引の見出しの漢字表記が送り仮名等の仮名文字を含まないため, 照合条件を緩める先読み法を用いた. 照合失敗部や索引自体の誤りへの対処のため, 変換の不完全部分を示す印を出力し人手で検査・修正した. 以上の結果, 約15万単語の古典文の品詞タグ付きコーパスを得た.
  • 増市 博, 大熊 智子
    2003 年 10 巻 2 号 p. 79-109
    発行日: 2003/04/10
    公開日: 2011/03/01
    ジャーナル フリー
    本稿では, Lexical Functional Grammar (LFG) に基づいた実用的な日本語文解析システム構築に向けての日本語LFG文法記述の詳細とシステムの評価について述べる. 本稿で述べる日本語LFG文法は, (1) 解析対象が口語的・非文法的文であっても解析可能な高いカバー率を持つ, (2) 言語学的に精緻な文法規則を持ち豊富な意味情報を含むf-structureを出力可能とする, (3) f-structureの持つ言語普遍性の特徴を活かすため他言語のLFG文法と高い整合性・無矛盾性を保つ, の3点を特徴とする. 自然言語の文法記述を完全に体系的・手続き的に進めることは困難であり, 本稿で述べる文法記述においても経験的なものに依存する面は大きい. しかしながら, OTマークを利用して段階的に解析を行う手法によって, 例外的な文法・語彙規則が解析結果に及ぼす悪影響を減じ, 文法の大規模化に伴う記述の見通しの悪さを軽減することが可能となった. さらに, 部分解析機能の導入によって, 口語的・非文法的文への対処が可能となった. マニュアル文のような文法に則った文と, お客様相談センター文のような口語的な文の両者を対象に解析実験を行い, 日本語LFGに基づくシステムとしてはこれまでにない, 95%以上の解析カバー率が得られていることを確認した. また, マニュアル文を対象に解析精度測定のための評価実験を行い, 係り受けの再現率・適合率共に平均値で約84%, 上限値で約92%の値が得られていることが確認できた.
  • 池原 悟, 村上 仁一, 木本 泰博
    2003 年 10 巻 2 号 p. 111-128
    発行日: 2003/04/10
    公開日: 2011/03/01
    ジャーナル フリー
    従来, ベクトル空間法において, ベクトルの基底数を削減するため, ベクトルの基軸を変換する方法が提案されている. この方法の問題点として, 計算量が多く, 大規模なデータベースへの適用が困難であるこトが挙げられる. これに対して, 本論文では, 特性ベクトルの基底として, 単語の代わりに単語の意味属性 (「日本語語彙大系」で規定された約2, 710種類) を使用する方法を提案する. この方法は, 意味属性間の包含関係に基づいた汎化が可能で計算コストもきわめて少なく, 容易にベクトルの次元数を圧縮できることが期待される. また, 単語の表記上の揺らぎに影響されず, 同義語, 類義語も考慮されるため, 従来の単語を基底とする文書ベクトル空間法に比べて, 検索漏れを減少させることが期待される. BMIR-J2の新聞記事検索 (文書数約5,000件) に適用した実験結果によれば, 提案した方法は, 次元数の削減に強い方法であり, 検索精度をあまり落とすことなく, 文書ベクトルの基底数を300~600程度まで削減できることが分かった. また, 単語を基底とした文書ベクトルの方法と比べて高い再現率が得られることから, キーワード検索におけるKW拡張と同等の効果のあることが分かった.
  • 新納 浩幸, 佐々木 稔
    2003 年 10 巻 2 号 p. 129-149
    発行日: 2003/04/10
    公開日: 2011/03/01
    ジャーナル フリー
    本論文ではフリーの特異値分解ツールSVDPACKCを紹介する. その利用方法を解説し, 利用事例として語義判別問題を扱う. 近年, 情報検索では潜在的意味インデキシング (Latent Semantic Indexing, LSI) が活発に研究されている. LSIでは高次元の索引語ベクトルを低次元の潜在的な概念のベクトルに射影することで, ベクトル空間モデルの問題点である同義語や多義語の問題に対処する. そして概念のベクトルを構築するために, 索引語文書行列に対して特異値分解を行う. SVDPACKCは索引語文書行列のような高次元かつスパースな行列に対して特異値分解を行うツールである. またLSIは, 高次元の特徴ベクトルを重要度の高い低次元のベクトルに圧縮する技術であり, 情報検索以外にも様々な応用が期待される. ここではSVDPACKCの利用事例として語義判別問題を取り上げる. SENSEVAL2の辞書タスクの動詞50単語を対象に実験を行った. LSIに交差検定を合わせて用いることで, 最近傍法の精度を向上させることができた. また最近傍法をベースとした手法は, 一部の単語に対して決定リストやNaive Bayes以上の正解率が得られることも確認できた.
feedback
Top