自然言語処理

自然言語処理特集号「コーパス言語学・言語教育と言語処理」

仁科喜久子

2005 年 12 巻 4 号 p. 1-2
発行日: 2005/08/26
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.12.4_1

ジャーナルフリー

PDF形式でダウンロード (163K)
効率的な語彙獲得のための英文読解教材の作成

内山将夫, 谷村緑, 井佐原均

2005 年 12 巻 4 号 p. 3-19
発行日: 2005/08/26
公開日: 2011/06/07

DOIhttps://doi.org/10.5715/jnlp.12.4_3

ジャーナルフリー

抄録を表示する抄録を非表示にする

英文読解教材作成のための素材は豊富である.しかし, それらの素材を取捨選択して, 1つのコースウェアとしての教材を作成するのは, 困難である.本稿では, そのようなコースウェアとしての教材を, 学習対象とする語彙とコーパスとから自動的に作成する方法を提案する.その方法によれば, 学習対象である語彙をなるべくコンパクトに網羅するような文書集合を選択することができるので, それをコースウェアとすることにより, 読解を通した効率的な語彙の獲得ができると考える.実験では, 提案手法を, TOEIC学習用語彙とThe Daily Yomiuri新聞記事コーパスについて適用した.そして, 作成された読解教材の種々の統計量を, 無作為抽出の場合と比べることにより, 作成された教材が, コンパクトに語彙を網羅していることが確認された.更に, 作成された教材は, 実際に, 大学の英語の授業で補助教材として利用されており, 授業に役立つとの見込みを得ている.

抄録全体を表示

PDF形式でダウンロード (1857K)
コーパスデータに基づく格助詞組み合わせレベルにおける結合価の実態と同音異表記判定での利用

荻野孝野, 植田禎子, 小林正博, 井佐原均

2005 年 12 巻 4 号 p. 21-54
発行日: 2005/08/26
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.12.4_21

ジャーナルフリー

抄録を表示する抄録を非表示にする

係り受け関係のついた大量のコーパスを元にして作成されたデータを対象として, 動詞の結合価に関する検討を行った.これは, 係り受け関係まで付与された大量データからなるコーパスが存在してはじめて可能となった分析である.動詞の結合価に関する検討は, 各動詞の基本的な格パターンに着目して結合価を決定することを中心として検討されてきた.しかし, 省略を含め, 結合価が実際の言語データでどういう形で出現しているかについて, 全容を示すようなものは報告されていない.ここでは, 大量のコーパスデータから作成した結合価データを用い, 実際のデータで動詞にかかる格助詞がどういうパターンで出ているのかを調査し, 格助詞パターンの出現状況を把握するとともに, それらの格助詞パターンを用いて同音異表記がどの程度判定できるかを検討した.動詞約12, 400概念 (表記の異なりレベルで約9, 400単語) から作成した動詞の格助詞組み合わせパターンは, 延べパターン数で37, 237パターン, 異なりパターンで188パターンとなった.また, 同音異表記セットについて, これらのパターンを用い, 表記確定を試みたところ, 結合価のうち格助詞組み合わせパターンの異なりによる判定でも格助詞パターンの出現頻度などを判定基準に付加することによって約73%の判定が可能であることがわかった.

抄録全体を表示

PDF形式でダウンロード (5363K)
構造化された言語資料に対する全文検索システムの設計と実現

山口昌也, 田中牧郎

2005 年 12 巻 4 号 p. 55-77
発行日: 2005/08/26
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.12.4_55

ジャーナルフリー

抄録を表示する抄録を非表示にする

本論文では, 構造化された言語資料の検索・閲覧を指向した全文検索システムである『ひまわり』の設計, および, その実現方法を示す.ここで言う「構造化された言語資料」とは, コーパスや辞書のように, 言語に関する調査, 研究などに利用することを目的として, 一定の構造で記述された資料一般を指す.『ひまわり』は, 言語資料の構造化形式の多様性と利用目的の多様性に対応した設計がなされている.構造化形式の多様性については, 言語資料がXMLで構造化されていることを想定して, XML文書に対する全文検索機能を実現した.全文検索に付け加えて, マークアップされている情報の抽出や抽出された情報に基づく検索結果の制約を行うことも可能である.また, Suffix Arrayなどの索引を用いて, 検索の高速化を図っている.一方, 言語資料に適した検索式と閲覧形式を柔軟に定義できるようにすることにより, 利用目的の多様性に対処した.閲覧形式は, KWIC表示機能を備えた表形式での閲覧を基本とし, ルビなどの通常のテキストでは表現できない表示形式や音声, 画像に対しては, XSL変換などを介して外部閲覧システムにデータを受け渡す方法を用いる.多様性にする『ひまわり』の有効性を検証するために, 『分類語彙表』, および, 『日本語話し言葉コーパス』に『ひまわり』を適用し, 定性的な評価を行うとともに, 検索速度測定による定量的な評価を行った.

抄録全体を表示

PDF形式でダウンロード (10646K)
Skew Divergenceに基づく文書の母語話者性の推定

藤井宏, 冨浦洋一, 田中省作

2005 年 12 巻 4 号 p. 79-96
発行日: 2005/08/26
公開日: 2011/06/07

DOIhttps://doi.org/10.5715/jnlp.12.4_79

ジャーナルフリー

抄録を表示する抄録を非表示にする

母語話者/非母語話者文書を自動的に高精度で判別する技術は, 良質コーパスの作成支援, 非母語話者の文書推敲支援, 第二言語習得に有益な知識獲得などの面で重要な役割を果たす.本論文では, 品詞trigram分布の相違度に基づく母語話者/非母語話者文書判別法を提案する.確率分布の相違度として, ゼロ頻度問題に対処できるSkew Divergenceを用いる.Skew Divergenceはパラメタαを設定する必要があるが, 現在その設定法に定石は存在しない.本論文ではSkew Divergenceのパラメタαの設定法についても議論する.英語科学技術論文を対象にした判別実験の結果, 提案手法の有効性が確認された.

抄録全体を表示

PDF形式でダウンロード (2179K)
新聞記事データベースを利用した外来語の出現率の推移調査

柏野和佳子, 山口昌也, 桐生りか, 田中牧郎

2005 年 12 巻 4 号 p. 97-116
発行日: 2005/08/26
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.12.4_97

ジャーナルフリー

抄録を表示する抄録を非表示にする

本研究は, 大規模な経年調査による語彙調査を行い, 外来語の使用状況を定量的に明らかにするものである.語の使用状況をとらえるために使用度数を調査する語彙調査はたいへん有効である.これまでに各種の語彙調査が行われてきたが, 多くは調査時の使用状況の把握を目的にしていたため, 対象年を1年以内に限定するものがほとんどであった.しかしながら, 語の使用状況の把握には, 時間的推移という視点もまた重要である.電子テキスト化された大量の各種の新聞記事データベースが研究に利用できるようになって以来, これを用いて時間的推移を大規模に分析する研究が行われている.ただし, 文字や語彙の全体的な変動を分析したものであり, 個々の語の使用推移に着目して各語の使用状況をとらえようとする分析はまだなかった.そこで, 我々は, 外来語を対象に, 新聞記事データベースを用いて, 語の使用推移, すなわち出現率の推移に着目して語の使用状況をとらえる研究を行った.対象語には, 国立国語研究所「外来語」委員会が第1回と第2回の言い換え提案の対象に選定し, その使用状況の調査が求められていた外来語, 109語を用いた.

抄録全体を表示

PDF形式でダウンロード (3701K)
原言語が異なる翻訳コーパスの定量的分析

白京姫, 大竹清敬, BOND FRANCIS, 山本和英

2005 年 12 巻 4 号 p. 117-136
発行日: 2005/08/26
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.12.4_117

ジャーナルフリー

抄録を表示する抄録を非表示にする

日英パラレルコーパスにおける日本語と英語それぞれを原言語として翻訳した2つの韓国語コーパスを用いて, 原言語が翻訳に及ぼす影響を調べた.コーパスにはATRのBTEC (162, 308文) を使った.2つの韓国語コーパスは, 日英パラレルコーパスからの翻訳であり, 内容は一致している.それにも関らず, 韓国語両コーパス問の同一文は3%以下であり, 正書法が統一されていない点を考慮しても, 同一または同一とみなせる文は全体の8.3%程度である.本研究では, 両コーパスにおける違いを原言語の影響と予想し, 分析した結果を報告する.

抄録全体を表示

PDF形式でダウンロード (2175K)
A grammatical error detection method for dialogue-based CALL system

Oh-pyo Kweon, Akinori Ito, Motoyuki Suzuki, Shozo Makino

2005 年 12 巻 4 号 p. 137-156
発行日: 2005/08/26
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.12.4_137

ジャーナルフリー

抄録を表示する抄録を非表示にする

This paper describes a method to detect grammatical errors from a non-native speaker's utterance for a dialogue-based CALL (Computer Assisted Language Learning) system. For conversation exercises, several dialogue-based CALL systems were developed. However, one of the problems in conventional dialogue-based CALL systems is that a learner is usually assigned a passive role. The goal of our system is to allow a learner to compose his/her own sentences freely in a role-playing situation. One of the biggest problems in realizing the proposed system is that the learner's utterance inevitably contains pronunciation, lexical and grammatical errors. In this paper, we focus on the correction of the lexical and grammatical errors. To correct these errors, we propose two methods to detect lexical/grammatical errors in an utterance. The conventional methods are to write a grammar that accepts the errors manually. The proposed methods 1 and 2 use the ‘error rules’ that are independent of the recognition grammar. The method 1 uses only correct system grammar and extends the recognition results using the ‘error rules’. The method 2 uses a general grammar (which does not consider the relationship between verb, particle and each noun) to recognize the learner's utterance and check acceptance of each N-best result and searches the learner's utterance. The grammar error detection experiment proved that the method 2 performs as well as the conventional method.

抄録全体を表示

PDF形式でダウンロード (2913K)
電子的コーパスを利用したフランス語主語人称代名詞の使い分け基準に関する確率論的研究 (“on”と“l'on”を例に)

清水正勝, 清水由美子, 赤間啓之

2005 年 12 巻 4 号 p. 157-192
発行日: 2005/08/26
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.12.4_157

ジャーナルフリー

抄録を表示する抄録を非表示にする

本研究では, フランス語の非人称主語代名詞で, 漠然と「我々」や「人々」を指示する“on”を採りあげた.この人称代名詞には, 意味的に等価とされている, 定冠詞付きの“l'on”という表記も存在している.17世紀以降の文法書のほとんどが, この二つを使い分ける基準として, 「隣接する単語の音 (文字) 」との関係に主眼をおいている一方で, 「単語の歴史的変遷」に注目して, その使い分けを論じる研究もある.
そこで, 文学作品のコーパスと, 新聞コーパスの中から, “on”あるいは“l' on”の用法を, その共起語と共に悉皆的に収集し, 計量的に分析することで, 「音声主義的」解釈と「歴史主義的」解釈の妥当性を検証した.
また, 階層化クラスタリングのアルゴリズムである人工知能エンジンC5.0を用い, “on”“l'on”の選択に際し, 共起語の条件や書き手の同一性がどのように関わってくるのかを分析したところ, 異質な変数間で, “on”か“l'on”かを決定する要因の連鎖構造を描き出すことに成功した.
その結果, “on”と“l'on”の使い分け基準に関して, 17世紀以降信奉されてきた「音声中心主義」の限界を発見すると共に, 異質な変数を同一平面上に置いたC5.0の分析に好結果を得たことで, コーパス言語学にデータマイニング・ツールを導入し, 言語学の諸サブ領域を横断するという, 言語学の新たな地平を拓くことの可能性を示しえた.

抄録全体を表示

PDF形式でダウンロード (19996K)
学習者コーパスからの表現バリエーションの抽出と言い換えストラテジー指導への利用

和泉絵美, 内元清貴, 井佐原均

2005 年 12 巻 4 号 p. 193-210
発行日: 2005/08/26
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.12.4_193

ジャーナルフリー

抄録を表示する抄録を非表示にする

言語によるコミュニケーションにおいて, 伝えたいメッセージに適した語彙やフレーズを知っているか, またそれを導出できるかということは重要である.しかし, 非母語話者は, あらゆる状況に十分対応できるだけの語彙・表現を知らない, あるいは一度学習しても, いつでも適切に導出できるほど定着していないことが多い.外国語での発話において, 言葉に詰まった場合他の表現で言い換えることができれば, その結果まわりくどい表現になったとしても, コミュニケーションを続行させることは可能である.語彙・表現を個々に教示するだけではなく, その語彙に関連する他の語彙や表現のバリエーションも共に教示すれば, 学習者が発話続行のための言い換えというコミュニケーションストラテジーを実行する手助けとなるのではないだろうか.本研究では, 日本人英語学習者発話コーパス・The NICT JLE(Japanese Learner English)Corpusの中に見られる学習者によるさまざまな表現を抽出する実験を行い, 言い換えストラテジー指導への応用および学習者による学習者コーパスの直接利用の可能性について考察を行った.実験では, 少数の英語母語話者発話データから選び出したキーワードリストを元に, 大量の学習者データから同一の項目について言及していると思われる文の自動抽出を試み, 表現リストの作成を行った.複雑な事柄に関する発話に対しては, 約5割前後の再現率・適合率を, また比較的平易な事柄に関する発話に対しては, 約7割の再現率および約6割の適合率を得た.

抄録全体を表示

PDF形式でダウンロード (3402K)
エラータグ付き学習者コーパスを用いた日本人英語学習者の主要文法形態素の習得順序に関する分析

和泉絵美, 内元清貴, 井佐原均

2005 年 12 巻 4 号 p. 211-225
発行日: 2005/08/26
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.12.4_211

ジャーナルフリー

抄録を表示する抄録を非表示にする

外国語教育において, 学習目標言語を構成する様々な形態素を, どの順序で学習者に教示すれば, よりよい効果が得られるかという点について考慮することは重要である.そのためには, 学習者がどういった順序で主要な形態素を習得していくのかというメカニズムを知ることが必要となる.1970年代ごろから盛んに行われてきた第二言語学習者の文法形態素の習得過程を解明する研究によって, いくつかの異なるバックグラウンド (母語・年齢・学習環境など) を持つ学習者グループ間に共通の習得順序が存在するという説が一般的であった.一方, 1980年代以降行われた, 日本語を母語とする英語学習者の習得順序に関する研究では, それまでに明らかになっていた他の母語を持つ英語学習者の習得順序とは相関の低い結果が得られ, 「学習者の母語・年齢・タスク・学習者環境等の違いによって, 習得順序は変動する」という新たな説が生まれた.本研究では, 日本語母語話者の英語発話コーパスであるThe NICT JLE (JapaneseLearner English) Corpusのエラータグ情報を利用して, 主要文法形態素の習得順序を解明し, その結果がこの相反する二つの説のどちらを支持し得るものであるか, 考察した.分析の結果, The NICT JLE Corpusでの習得順序は, 前者の説における習得順序とは相関は低く, 後者の説の基になった, 日本語を母語とする学習者を対象に行われた先行研究での順序と相関が高いことが判明した.いくつかの顕著な差異のうち, 特に, 冠詞・短複数形の-sといった, 日本語において該当する指標がない形態素が遅れて習得される傾向にあることが分かった.このことから, 本研究の結果は, 「学習者のバックグランドの違いによって習得順序にも違いが生じる」という説をサポートし得るものであると考える.また, 最後に, The NICT JLE Corpusに付与されているエラータグやスピーキング能力レベル情報を用いて習得順序研究を発展させ, 英語教育現場に応用する可能性についても検討した.

抄録全体を表示

PDF形式でダウンロード (1676K)
英語名詞の可算/不可算判定手法

永田亮, 桝井文人, 河合敦夫, 井須尚紀

2005 年 12 巻 4 号 p. 227-243
発行日: 2005/08/26
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.12.4_227

ジャーナルフリー

抄録を表示する抄録を非表示にする

日本人英語学習者が書いた英文に多く見られる冠詞の誤りや単数/複数の使い分けに関する誤りを検出するためには, 名詞の可算/不可算の判定が重要である.そこで, 本論文では, 文脈情報に基づいた英語名詞の可算/不可算判定手法を提案する.提案手法では, 決定リストを用いて可算/不可算の判定を行う.決定リストは, 判定対象となっている名詞の可算/不可算の例からなる学習データから学習される.一般に, 学習データの作成は人手で行われるため, 費用と時間を要するという問題がある.この問題を解決するため, 本論文では学習データをコーパスから自動生成する手法も提案する.従って, 提案手法では, コーパスが与えられると決定リストの学習が行われる.学習された決定リストは, 文脈情報のみに基づいて可算/不可算の判定を行うため, 上記誤りの検出に応用可能である.実験の結果, 提案手法の可算/不可算の判定精度は83.9%であることが確認された.

抄録全体を表示

PDF形式でダウンロード (1722K)
WEB文書を対象にしたKWICシステム

関根聡, 武田善行, 吉平健治

2005 年 12 巻 4 号 p. 245-252
発行日: 2005/08/26
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.12.4_245

ジャーナルフリー

抄録を表示する抄録を非表示にする

言葉を調べる際に有用なKWICシステムをWEBの膨大なテキストを対象に作成した.データは約350GバイトのWEBページにある約100億文字以上の日本語データをクローラーで2ヶ月かけて収集した.テキストの分量は32ビットで表される4Gバイトを超えており, 40ビット長インデックスに対応したサフィックスアレーを用いた高速な検索を実現している.例として, 「と痛む」のKWICリストを集め, その直前に現れるオノマトペを分析し, 日本語学習者に対して有用であることを示した.

抄録全体を表示

PDF形式でダウンロード (3896K)

J-STAGEへの登録はこちら（無料）