詳細検索結果
以下の条件での結果を表示する: 検索条件を変更
クエリ検索: "宮崎正弘"
134件中 1-20の結果を表示しています
  • 池原 悟, 阿部 さつき, 徳久 雅人, 村上 仁一
    自然言語処理
    2004年 11 巻 3 号 69-95
    発行日: 2004/07/10
    公開日: 2011/03/01
    ジャーナル フリー
    要素合成法を基本とした従来の機械翻訳方式の限界を突破する方法として, 非線形な言語表現の構造を意味のまとまる単位にパターン化した文型パターン翻訳方式が期待される. 本論文では, 重文と複文を対象に, この方式の実現に必要な文型パターン辞書を試作した. 具体的には, 100万件の日英対訳コーパスから2つ又は3つの述部を持つ重文と複文合計15万件を抽出し, 単語レベル (12.8万件), 句レベル (10.5万件), 節レベル (1.3万件) の3種類のグループからなる文型パターン辞書 (合計24.6万件, 異なり22.1万件収録) を作成した. 各文型パターンは, いずれも形態素解析によって得られる文法情報を用いて記述することとし, 対訳標本文に含まれる線形な表現要素を半自動的に変数化, 関数化することなどにより作成したものである. 従来, 大規模な文型パターン辞書の開発は, 文型パターン間の意味的排他性実現の困難性と膨大な開発コストが問題となるため, 適用対象を限定するなど小規模な実現例しか見られなかった. しかし, 今回の試作によって, ほぼすべての標本文 (99%) が多くの線形要素 (平均4~5カ所) を持つことが分かった. また, それらの要素を半自動的に関数化, 変数化を行うことにより, 文型パターンの開発コストは人手に頼る方法の約1/10に削減できた. これにより, 実験的検討に必要な規模の文型パターン辞書を構築することができた.
  • 浅野 久子, 松岡 浩司, 高木 伸一郎, 小原 永
    自然言語処理
    1999年 6 巻 2 号 59-81
    発行日: 1999/01/10
    公開日: 2011/03/01
    ジャーナル フリー
    日本語テキスト音声合成において, 自然で聞きやすい合成音声を出力するためには, 読み, アクセント, ポーズ等の読み韻律情報を正しく設定する必要がある. 本論文では, 複合語等に対しては部分的に深い解析を行うことを特徴とする多段解析法に基づく形態素解析を用いて, 読み韻律情報を設定する方法, および, 読み韻律情報を設定するために用いる単語辞書情報について述べる. 本方式の主な特徴は, 形態素解析における読み韻律情報付与に対応した長単位認定, 複合語内意味的係り受け情報を用いたアクセント句境界設定, 文節問係り受け情報を用いず, 複合語内等の局所構造, およびアクセント句境界前後単語の品詞情報等から得られるアクセント句結合力を用いて段階的にポーズを設定する多段階設定法に基づくポーズ設定である. 本方式をニュース文章を対象に2名の評価者により評価した結果, クローズ評価で95%, オープン評価で91%の精度 (評価者2名の平均) で, 読み韻律情報を正しく設定でき, その有効性が確認できた.
  • 宮崎 正弘, 白井 諭, 池原 悟
    自然言語処理
    1995年 2 巻 3 号 3-25
    発行日: 1995/07/10
    公開日: 2011/03/01
    ジャーナル フリー
    三浦文法は、時枝誠記により提唱され三浦つとむにより発展的に継承された言語過程説に基づく日本語文法である。言語過程説によれば、言語は対象-認識-表現の過程的構造をもち、対象のあり方が話者の認識を通して表現されている。本論文では、三浦文法に基づいて体系化した日本語品詞体系および形態素処理用の文法記述形式を提案し、日本語の形態素処理や構文解析におけるその有効性を論じた。日本語の単語を、対象の種類とその捉え方に着目し、約400通りの階層化された品詞に分類して、きめ細かい品詞体系を作成した。本論文で提案した品詞体系と形態素処理用文法記述形式に基づき、実際に形態素処理用の日本語文法を構築した結果によれば、本文法記述形式により例外的な規則も含めて文法を簡潔に記述できるだけでなく、拡張性の点でも優れていることが分かった。本品詞体系により、三浦の入れ子構造に基づく意味と整合性の良い日本語構文解析が実現できるものと期待される。
  • 沼崎 浩明, 宮崎 正弘
    自然言語処理
    1995年 2 巻 4 号 67-81
    発行日: 1995/10/10
    公開日: 2011/03/01
    ジャーナル フリー
    本論文では, 話者の対象認識過程に基づく日本語助詞「が」と「は」の意味分類を行ない, これを一般化LR法に基づいて構文解析するSGLRパーザの上に実装し, その有用性を確認した結果について述べる. 話者の対象認識過程とは, 対象を認識し, それを言語として表現する対象を概念化し, 対象に対する話者の見方や捉え方, 判断等を識別する過程のことをいう. 筆者らは, 特に, 三浦文法に基づいて考案された日本語の助詞「が」と「は」, 及び「を」と「に」についての意味規則を考案し, これを用いてその規則の動作機構をDCGの補強項で実現し, SGLRパーザで実行できるようにしている. 実験の結果, 意味解析と構文解析の融合に成功し, 構文的曖昧性を意味分類により, 著しく削減できることがわかった.
  • 池原 悟, 徳久 雅人, 竹内 (村本) 奈央, 村上 仁一
    自然言語処理
    2004年 11 巻 4 号 147-178
    発行日: 2004/10/10
    公開日: 2011/03/01
    ジャーナル フリー
    日本語の重文と複文 (但し, 述部を2つ又は3つ持つものに限る) に対して文法レベルで記述された22.1万件の文型パターンを対象に, その被覆率特性を調べ, 文型パターン方式の問題点と可能性について検討した.機械翻訳において対訳文型パターンを使用した翻訳方式は, 文型パターンに適合した入力文に対して品質の良い訳文が生成できるため, 古くから着目されてきた.しかし, 被覆率を上げるには, 大量の文型パターンが必要なこと, また, 汎化を行えば, それにつれて意味的な排他性が失われ副作用が増大することが大きな問題であった.そこで, 本稿では, 単語レベル, 句レベル, 節レベルの文型パターン辞書 (それぞれ12.1万件, 8.8万件, 1.1万件で, いずれも文法レベルで記述されている) を対象に被覆率などの特性を評価した.評価パラメータとしては, 「任意の入力文に対して適合する文型パターンの有無」を表す「再現率」 (「文型再現率」, 「文型一致率」の2種) と「適合した文型パターンの意味的な正しさ」を表す「意味適合率」 (「適合文型意味正解率」, 「適合文型正解含有率」の2種) の4種を定め, それらを使用した.その結果によれば, 「文型再現率」は, 単語レベル, 句レベル, 節レベルの順に70%, 89%, 78%で, いずれもかなり高い値を示すが, 入力文に対して多数の意味的に不適切な文型パターン (単語レベルで14件, 句レベルで165件) が適合してしまい, 適合した文型パターンの中に意味的に正しいものが含まれる割合は, 単語レベルで21%にとどまっていることなどが分かった.これらの結果に基づき, 「再現率」と「意味適合率」を向上させる方法について検討した結果では, 「再現率」は, 「任意要素」や時制, 相, 様相の記述法に大きく依存することが分かった.また, 「意味適合率」の向上を図るには, 変数に対する強力な意味的制約条件の付与や「原文任意要素」の指定基準の見直しなどが必要であることが分かった.
  • 情報管理
    1995年 38 巻 4 号 283-286
    発行日: 1995/07/01
    公開日: 2008/05/30
    ジャーナル フリー
  • 池原 悟, 中井 慎司, 村上 仁一
    自然言語処理
    2001年 8 巻 1 号 143-174
    発行日: 2001/01/10
    公開日: 2011/03/01
    ジャーナル フリー
    自然言語処理では, 処理の過程で, さまざまな解釈の曖昧さが生じる. この曖昧さを解消するのに必要な知識を記述するため, 対象とする表現を部分的な表現の組に還元せず, 一体として捉える方法として, 言語表現とその解釈の関係を変数とクラスの組からなる構造規則として表現し, 学習用標本から半自動的に収集する方法を提案した. この方法は, パターン化された表現の変数部分を表すのに文法属性体系と意味属性体系を使用しており, N個の変数を持つ表現パターンに対して, 一次元規則からN次元規則までの規則と字面からなる例外規則を合わせてN+1種類の構造規則が順に生成される点, また, 各規則は, その生成過程において, 各属性の意味的な包含関係を用いて容易に汎化される点に特徴がある. 本方式を「ABC」の型の名詞句に対する名詞間の係り受け解析規則の生成に適用した結果では, 変数部分を意味属性で表現した構造規則の場合, 1万件の学習事例から, 一次元規則198件, 二次元規則1480件, 三次元規則136件が得られ, それを使用した係り受け解析では, 約86%の解析精度が得られることが分かった. また, 変数部分を文法属性で表した規則と意味属性で表した規則を併用する場合は, 解析精度は, 1~2%向上することが分かった.この値は, 2名詞間の結合強度に還元して評価する方法 (72%) より約15%高い. この種の名詞句では, 人間でも係り先の判定に迷うような事例が10%近く存在することを考慮すると, 得られた規則の精度は, 人間の解析能力にかなり近い値と言える.
  • 小林 義行, 徳永 健伸, 田中 穂積
    自然言語処理
    1996年 3 巻 1 号 29-43
    発行日: 1996/01/10
    公開日: 2011/03/01
    ジャーナル フリー
    複合名詞は名詞を結合することによって数限りなく生成できるので, 全てを辞書に登録することは不可能である. したがって, 辞書に登録されている名詞の組み合わせとして複合名詞を解析する手法が必要である. そのためには, 複合名詞をそれを構成している名詞に分割し, 名詞間の係り受け構造を同定しなくてはならない. これらの処理は統語的な手係りが少ないために難しく, 何らかの意味的な情報が必要である. しかし, 大規模な意味的情報を人手で構築し保守することはコストが大きいため, 計算機によって自動的に知識を獲得することが望ましい. 本論文では, コーパスから自動的に抽出した名詞問の意味的共起情報を用いて複合名詞の構造を解析する方法を提案する. この方法では, 共起情報を統計的に処理して名詞問の意味的関係の強さを評価し, 係り受け関係の曖昧性解消に利用する. まず, 4文字漢字語16万語から意味クラスの共起データを抽出した. 抽出した共起データから統計的に名詞間の意味的関係の強さを計算する. そのための尺度として相互情報量を基にした評価尺度を提案する. この尺度と複合名詞の構造に関するヒューリスティクス, 機械可読辞書から得られる言語知識を用いて複合名詞を解析する. 評価のために新聞や用語集から抽出した漢字複合名詞を解析し, 平均語長5.5文字の漢字複合名詞を約78%の精度で解析できた.
  • 情報管理
    1995年 38 巻 2 号 184
    発行日: 1995/05/01
    公開日: 2008/05/30
    ジャーナル フリー
  • 斎藤 雅
    情報管理
    1990年 33 巻 5 号 425-433
    発行日: 1990年
    公開日: 2012/03/23
    ジャーナル フリー
    大日本印刷(株)では, 電子出版におけるカナ振り, 索引作成処理, キーワード自動作成の支援をするシステムを開発した。システムの基本部分にはNTT情報通信処理研究所が開発し, NTTデータ通信(株)が商品化したキーワード自動抽出システム「INDEXER」を利用した。ここでは, まず電子出版の位置づけを行う。次に「INDEXER」の概要を解説し, 今回開発したシステムの機能を説明する。実際にCTSにおいて実用化している事例として, 書籍のルビ付加, 名簿などのカナ振りおよび索引作成の作業支援につき述べる。またデータベース構築としてCD-ROMのインデックスにおけるキーワード作成での利用を述ベる。
  • 王 向莉, 宮崎 正弘
    自然言語処理
    2007年 14 巻 2 号 69-93
    発行日: 2007/04/10
    公開日: 2011/03/01
    ジャーナル フリー
    中国語構文解析では, これまで, 句構造文法 (Phrase Structure Grammar) で文の構造を取り扱ってきた.しかし, 句構造文法規則は規則間の衝突による不整合が避けられず, 曖昧性は大きな問題となっている.そこで, 本論文では述語を中心とし, 全ての構文要素を文のレベルで取り扱う文構造文法SSG (Sentence Structure Grammar) を提案し, それに基づき, 中国語の文構造文法規則体系を構築した.構築した文法規則をチャート法を拡張した構造化チャートパーザSchart上に実装し, 評価実験を行なった.実験により, 中国語SSG規則は規則問の整合性がよく, 品詞情報と文法規則だけで, 解析の曖昧性を効果的に抑止し, 確率文脈自由文法 (PCFG) に基づく構文解析より高い正解率が得られた.
  • 池原 悟, 村上 仁一, 車井 登
    自然言語処理
    2002年 9 巻 1 号 117-134
    発行日: 2002/01/10
    公開日: 2011/03/01
    ジャーナル フリー
    日英機械翻訳において, 翻訳が難しいと見られる抽象名詞, 「の」, 「こと」, 「もの」・「ところ」, 「とき」, 「わけ」の6種類を対象に, 文法的用法と意味的用法を分類し, 英語表現との対応関係を検討した.具体的には, 名詞「の」は, 意味的に他の抽象名詞に置き換えられる場合 (交替現象) の多いことに着目して, 置き換え先となる抽象名詞の種類と置き換え可能となる条件について検討した.次に, 置き換え後の5種類の抽象名詞の用法を「語彙的意味の用法」, 「文法的意味の用法」に分け, このうち, 「文法的意味の用法」を, さらに, 「補助動詞的用法」と「非補助動詞的用法」に分類した.さらに, これらの分類を詳細化し, 英語表現との対応関係を「日英対応表」にまとめた.交替現象の解析精度と「日英対応表」の精度を調べるため, 新聞記事から抽出した抽象名詞の用例に適用した結果では, 「の」の交替現象の解析精度は, 97%, 「日英対応表」の平均カバー率は89%, 平均正解率は73%であった.
  • 国分 芳宏, 岡野 弘行
    自然言語処理
    2010年 17 巻 1 号 1_247-1_263
    発行日: 2010年
    公開日: 2011/06/30
    ジャーナル フリー
    従来の情報検索に特化されたシソーラスではなく,構文解析や用語標準化などの自然言語処理を目的とする 420,000 語規模のシソーラスを開発した.各用語の持つ関係語の数が膨大なため,観点(ファセット)を導入して分類し,探しやすくしたシソーラスである.さらに,差別語,表記の揺れなども区別できる.シソーラスを作成する際の留意点・課題もまとめた.パッケージソフトのカスタマイズ機能およびインターネットや他の辞書との連動機能,用語の標準化などについても紹介した.
  • 菅谷 幸浩
    憲法研究
    2021年 53 巻 97-
    発行日: 2021年
    公開日: 2021/10/05
    ジャーナル オープンアクセス
  • 久光 徹, 新田 義彦
    自然言語処理
    1998年 5 巻 4 号 35-60
    発行日: 1998/10/10
    公開日: 2011/03/01
    ジャーナル フリー
    複合名詞は文書の内容を凝縮できる程の情報を担うことができるため重要語となりやすく, しばしば文書内容を理解する上での鍵となる. このため, 複合名詞解析 (=その構成要素間の掛かり受け解析) は, 機械翻訳にとどまらず, 情報抽出や情報検索の高度化にも貢献すると期待されている. しかし, 複合名詞は単なる名詞の連鎖に過ぎないため構文上の手掛かりが無く, 人手で構成したルールや, シソーラスに記述された概念の共起尤度等を用いて解析する方法が提案されてきた. しかし, 新聞記事などの未登録語が頻出する開いた大規模テキストを扱う場合は想定されてこなかったため, そのような場合には頑健性の点で問題が生じる. 本論文は, 大量の電子化文書が高速に処理可能な昨今の状況を念頭に置き, シソーラス等の予め固定されたデータを用いるのではなく, 文書中から直接文字列レベルの共起情報を抽出するだけで, 高い精度で複合名詞解析が可能なことを示す. まず, 与えられた複合名詞を暫定的に形態素解析し, 得られた構成単語の共起情報を複数のテンプレートを用いて抽出する. 共起情報を抽出する段階で, 語の出現状況から, 複合名詞内の短い複合名詞や, 誤って過分割された略称等の未登録語を検出すると同時に, これらの共起情報を抽出することにより, 未登録語に対する頑健性が達成される. これに加えて, 共起情報が不足する場合のヒューリスティクスに関して検討を加え, 文書から直接得られる共起情報と若干のルールを併用することにより, 高精度な複合名詞解析が達成できた. 新聞記事から抽出した長さ5, 6, 7, 8の複合名詞各100個を対象に実験を行った結果, 新聞1年分を用いて, それぞれ90, 86, 84, 84個の正解が得られた.
  • 金出地 真人, 徳久 雅人, 村上 仁一, 池原 悟
    自然言語処理
    2004年 11 巻 3 号 149-164
    発行日: 2004/07/10
    公開日: 2011/03/01
    ジャーナル フリー
    本稿は, 日英機械翻訳での動詞および名詞の訳語選択における結合価文法の能力を実験的に明らかにする. 結合価文法を用いると, 原言語文における用言と格要素の意味的用法が限定されるため, 正しい訳語選択ができると考えられてきた. しかし, 結合価文法は, 知識ベースの開発が困難であることから, その有効性が明らかにされていなかった. 近年, 14, 800個の結合価パターンが登録された大規模辞書「日本語語彙大系」が開発された. そこで, 本稿は, まず, IPAL辞書に登録されている基本動詞および基本名詞に関する例文, 数千文について機械翻訳を実施し, その結果を翻訳家による英訳と比較することで, 動詞および名詞の訳語選択の正確さを検証する. 次に, 機械が翻訳に誤った例文について翻訳過程を分析し, 誤り原因と改善の可能性を検討する. これらの結果, 訳語選択の正解率は, 基本動詞が89%, そして, 基本名詞が91%であった. ベースラインとして和英辞書の先頭訳語を選択する場合と比較すると, 動詞の訳語選択において結合価文法は顕著な効果が確認されたが, 名詞の訳語選択についてはそれ程の効果は認められなかった. また, 結合価文法を用いた訳語選択の方式上の正解率の限界, すなわち, 正解を導く結合価パターンが全て登録され, かつ, 形態素解析やパターン照合が完全に成功することを仮定した場合の正解率の限界は, IPAL辞書に関連する例文において, 動詞が99%, 名詞が97%となると推定した.
  • 笹野 遼平, 河原 大輔, 黒橋 禎夫
    自然言語処理
    2005年 12 巻 3 号 129-144
    発行日: 2005/07/10
    公開日: 2011/03/01
    ジャーナル フリー
    本稿では, コーパスから名詞句「AのB」を収集し, 国語辞典を用いて意味解析を行なうことにより, 名詞格フレーム辞書を自動構築する手法を提案する.また, 自動構築した名詞格フレーム辞書の有用性を調べるため, 名詞格フレーム辞書に基づく名詞問の関係解析システムを構築する.自動構築した名詞格フレーム辞書の評価を人手で作成したものとの比較により行ったところ高い精度で構築されていることが確認でき, また, 関係解析実験の結果から名詞格フレームの有用性を確認できた.
  • 荒木 哲郎, 池原 悟, 橋本 昌東
    自然言語処理
    1999年 6 巻 5 号 3-26
    発行日: 1999/07/10
    公開日: 2011/03/01
    ジャーナル フリー
    会話文では, 言い直しなどの冗長な表現が含まれ, 解析を困難にしている. 本論文では, 言い直し表現は繰り返し型が多く, また, 文節境界に挿入されやすいことに着目して, べた書きで音節標記された会話文を対象に, これを抽出する方法を提案した. 提案した方法は, 言い直しを含んだべた書き音節列をマルコフ連鎖モデルを用いて文節単位に分割する処理と, それによって得られた文節境界を手がかりに文節間の音節列の類似性を評価して言い直し音節列を抽出する処理の2つの処理から構成される. 具体的には, 第1の処理では, 言い直しの表現を含む文節境界の推定に適した文節境界推定法を提案し, 第2の処理では, 文節境界の使い方の異なる3つのマッチングの方法を提案した. また, これらの2つの方法を組み合わせたときの言い直し表現の抽出精度を計算によって推定すると共に, その結果を総合的な実験結果と比較して提案した方法の効果を評価した. ATRの「旅行に関する対話文」のコーパス (その内, 言い直しは106個所) を用いて実験評価した結果によれば, 言い直し表現の抽出精度は第2の処理の方法に強く依存し, 再現率を重視する場合は, 再現率80.2% (その時, 適合率84.2%), また, 適合率を重視する場合は, 適合率94.9% (その時, 再現率52.8%) の精度が得ちれることが分かった.
  • NGUYEN MY CHAU, 田中 友樹, 池田 尚志
    自然言語処理
    2006年 13 巻 2 号 145-168
    発行日: 2006/04/10
    公開日: 2011/06/07
    ジャーナル フリー
    本稿では日本語-ベトナム語機械翻訳システムにおける日本語の名詞修飾構造「N1のN2」の翻訳処理について述べる.日本語では名詞が名詞を修飾する場合は必ず「の」を介して「N1のN2」という形を取る.「の」によって結びつけられた2つの名詞の意味関係は, 連用補語の連体化, 述語名詞の連体修飾語化, 所有/全体・一部の関係など多様である.ベトナム語ではこの構造は, N1とN2の意味関係に依って様々な前置詞 (σ, có, cua, 等) を使い分けたり, いくつかの異なった語順の多様な形で表現される.日本語を英語に翻訳する場合もほとんど同様の問題があり, 様々な前置詞 (at, in, with等) を使い分ける.「N1のN2」については, これまでに言語学上の研究としても, 機械翻訳に関する研究としても多くの研究がなされてきたが, 研究対象とされてきた言語対はほとんどが日本語-英語である.本稿で対象とするベトナム語については, 日本語-ベトナム語機械翻訳という観点からの研究はまだほとんど無い.本稿では, ベトナム語の名詞-名詞修飾構造を日本語の名詞-名詞修飾構造「N1のN2」との比較対照において6種類に分析整理し, 日本語の「N1のN2」のベトナム語への翻訳規則を提案した.また, これらの規則を日本語-ベトナム語機械翻訳システムjaw/Vietnameseに実装して, 翻訳実験を行った.270例の「N1のN2」に対して約70%の正解率を得ることができた.構文的特徴や意味属性を手がかりに「N1のN2」の訳し分けの規則を考えるという点では, 対象が英語である場合と比較して特に異なる手法を必要とするというわけではない.重要なことはベトナム語の言語事象の収集と分析であり, 日本語との対応関係の分析である.本稿はこれらの点についての研究を行ったものである.
  • 鈴木 敏
    自然言語処理
    2009年 16 巻 1 号 1_101-1_116
    発行日: 2009年
    公開日: 2011/09/14
    ジャーナル フリー
    辞書の定義文を基にした上位語情報の抽出手法を提案し,その結果に基づく単語オントロジーの自動生成を試みた.提案するのは再帰的語義展開による情報抽出手法である.本手法では定義文を再帰的に展開し,巨大な単語集合として定義文を再定義する.このとき,定義文中に上位語が含まれるという仮定を利用すれば,非常に多くの単語を上位語候補とすることができる.この手法では上位語となる尤もらしさの指標を得ることができるため,これを利用して多数の候補の中から上位語を効率よく選択できるようになる.本手法を適用した上位語抽出実験では,構文解析を用いた既存手法を上回る精度を示した.更に本論文では,取り出された上位語情報を用いて単語オントロジーの自動生成を試みた.自動生成の手法はまだ完全なものではないが,実験結果は上位語情報の有用性を示すものであり,今後のオントロジー自動生成の可能性を示している.
feedback
Top