詳細検索結果
以下の条件での結果を表示する: 検索条件を変更
クエリ検索: "形態素解析"
4,532件中 1-20の結果を表示しています
  • *黒澤 義明, 坂本 裕二, 市村 匠, 相沢 輝昭
    会議録・要旨集 フリー
    近年,自然言語処理研究の進展が著しい.中でも,
    形態素解析
    器の精度は向上し,90%を超えるようになった.この結果,大量の
    形態素解析
    処理出力の中から,人手で解析誤りを発見することが困難になってきている.そこで本研究は,形態素列間の類似度を用い,与えられた文がどの程度正事例や負事例に似ているかを表す尺度を求めることにより,
    形態素解析
    誤りを自動的に発見する手法について提案を行う.この類似度計算を行うシステムを構築し,641文(うち,誤り57文)の入力を行う計算機実験を行った.この結果,74%の精度で,形態素分割誤りだけでなく品詞同定誤りを含む
    形態素解析
    誤りの検出が可能であった.また,数は5例と少数ではあるが,精度を100%とする検出方法も見出されており,本提案の有効性が確認された.
  • *岡 照晃, 小町 守, 小木曽 智信, 松本 裕治
    人工知能学会全国大会論文集
    2013年 JSAI2013 巻 2B1-2
    発行日: 2013年
    公開日: 2018/07/30
    会議録・要旨集 フリー

    形態素解析
    辞書近代文語UniDicの公開により,近代文語論説文の
    形態素解析
    が行えるようになった. しかし,この辞書は表記の整った校訂済み資料の解析を念頭に単語登録が行われているため,濁点無表記に代表される表記のバリエーションを含んだ未校訂の資料での解析性能は低い. そこで本発表では,表記のバリエーションを考慮した辞書引きにより,辞書に未登録の表記にも対応可能な
    形態素解析
    手法について述べる.

  • 渕 武志, 米澤 明憲
    自然言語処理
    1995年 2 巻 4 号 37-65
    発行日: 1995/10/10
    公開日: 2011/03/01
    ジャーナル フリー
    本稿では, 動詞の語尾変化について体系的な扱いが可能な派生文法に基づいて, 日本語
    形態素解析
    システムのための形態素文法を記述した. 但し, 派生文法における音韻単位での扱いを日本語の文字単位の扱いに変更する方法を示し, より
    形態素解析
    処理に適した形で記述した. さらに, これを実働する
    形態素解析
    システムに適用し, EDRコーパスと比較することによって精度を測定した.
  • 森 信介, 長尾 眞
    自然言語処理
    1998年 5 巻 2 号 75-103
    発行日: 1998/04/10
    公開日: 2011/03/01
    ジャーナル フリー
    本論文では, 形態素クラスタリングと未知語モデルの改良による確率的
    形態素解析
    器の精度向上を提案する. 形態素クラスタリングとしては, 形態素n-gramモデルをクロスエントロピーを基準としてクラスn-gramモデルに改良する方法を提案する. 未知語モデルの改良としては, 確率モデルの枠組の中で学習コーパス以外の辞書などで与えられる形態素を追加する方法を提案する. bi-gramモデルを実装しEDRコーパスを用いて実験を行なった結果,
    形態素解析
    の精度の向上が観測された. 両方の改良を行なったモデルによる
    形態素解析
    実験の結果の精度は, 先行研究として報告されている品詞tri-gramモデルの精度を上回った. これは, 我々のモデルが
    形態素解析
    の精度という点で優れていることを示す結果である. これらの実験に加えて, 品詞体系と品詞間の接続表を文法の専門家が作成した
    形態素解析
    器との精度比較の実験を行なった. この結果, 確率的
    形態素解析器の誤りは文法の専門家による形態素解析
    器の誤りに対して有意に少なかった.
    形態素解析
    における確率的な手法は, このような人間の言語直感に基づく
    形態素解析
    器と比較して, 現時点で精度がより高いという長所に加えて, 今後のさらなる改良にも組織的取り組みが可能であるという点で有利である.
  • 小川 泰弘
    人工知能
    2001年 16 巻 6 号 884
    発行日: 2001/11/01
    公開日: 2020/09/29
    解説誌・一般情報誌 フリー

    本論文は, 膠着語の特徴に着目した派生文法を利用することによる日本語

    形態素解析
    処理および, 日本語-ウイグル語機械翻訳について論じたものであり, 6章よりなる.第1章の「まえがき」に続き, 第2章の「日本語文法概説」では, 日本語文法について, 動詞の活用の扱い方を中心に簡単に紹介する.特に従来の学校文法の問題点を指摘するとともに, Bloch, 寺村の文法および清瀬の派生文法について比較しながら説明する.第3章の「派生文法に基づく
    形態素解析
    」では, 本研究で開発した日本語
    形態素解析
    システムMAJOについて述べる.MAJOは, 派生文法の特徴を活かすことで, 従来よりも文法規則が単純な解析を実現している.また, EDRコーパスを用いた
    形態素解析
    実験を通じて, MAJOの性能を評価している.第4章の「派生文法に基づく日本語動詞句のウイグル語への翻訳」では, 日本語-ウイグル語機械翻訳における動詞句の逐語翻訳について, まず日本語一ウイグル語機械翻訳における派生文法の有用性について述べ, さらに単純な逐語訳では不自然な訳になる場合への対処法を示す.第5章の「
    形態素解析
    支援可視化と機械翻訳における訳語選択への応用」では, 本研究で開発した
    形態素解析
    の結果を可視化するシステムを示すとともに, それが日本語-ウイグル語機械翻訳における訳語選択にも応用可能であることを示す.量後に第6章で本論文のまとめと, 残された課題, 将来への展望について述べる.

  • 竹﨑 あかね, 細羽見 喬, 法隆 大輔, 木浦 卓治
    農業情報研究
    2010年 19 巻 1 号 10-15
    発行日: 2010年
    公開日: 2010/04/01
    ジャーナル フリー
    農林水産分野において文書を特徴付ける単語(索引語)の高度選定に役立つ言語資源(
    形態素解析
    辞書と不要語リスト)を整備し,その有効性を検証した.
    形態素解析
    用の専門用語解析辞書は,既存の農業用語辞書や品種登録データベースに収録された用語の追加や,日本農業文献記事索引(JASI)をコーパスとした新用語の収集により専門用語を充実させた.この辞書と一般用語解析辞書を併用することで,
    形態素解析
    による用語の認識精度は高まった.
    形態素解析
    結果に基づく辞書への新用語の追加は,未知語(計算機が認識しない単語)率[(専門・一般用語解析辞書の併用での未知語数)/(一般用語解析辞書での未知語数)×100]を低下させた.索引語の不要語リストには,JASIの索引語選定結果を参考に,一文字英字(大文字・小文字とも.ただし元素記号除く),単位,指示語,数詞,数字を選定した.これらの言語資源を用いて自動付与した索引語を,専門家が付与した索引語と比較したところ,66%が全一致あるいは部分一致した.以上のことから,整備した言語資源は,
    形態素解析
    や索引語選定に有効に働くと判断された.
  • *川尻 渉太, 乙武 北斗, 吉村 賢治
    電気関係学会九州支部連合大会講演論文集
    2016年 2016 巻 07-2A-10
    発行日: 2016/09/21
    公開日: 2018/02/16
    会議録・要旨集 フリー
    従来、日本語の解析は
    形態素解析
    、構文解析の順に行っている。接辞等による語形成は
    形態素解析
    の対象であるが、語形成の中には統語部門で行われるものもあり、構文解析の中で扱う必要があることがわかっている。そこで本研究では、単一化文法を用いて
    形態素解析
    を構文解析と同一の枠組みの中で行う解析手法について提案する。本手法では従来の日本語解析で一般に用いられている学校文法は用いず、動詞などの活用を音韻変化で説明する文法モデルを用いている。本稿では特に、形容詞の扱いを中心に述べる。
  • *乙武 北斗, 折舘 直樹, 吉村 賢治
    会議録・要旨集 フリー
    日本語の話しことばによる会話においては地域による多種多様な方言が用いられることが多い.一方で,比較的書き言葉に近いと思われる地方議会会議録においても,発言の書き起こしの整文の際に,方言はそのまま残すことがわかっている.一般的な辞書を用いた
    形態素解析
    では方言を正しく認識することは困難である.会議録を用いて様々な地方自治体の課題や議論を共有しようとすると,様々な地域の方言を考慮した
    形態素解析
    の仕組みが必要である.本稿では地方議会会議録を対象に,発言に含まれる方言とその
    形態素解析
    結果について分析を行う.
  • 小木曽 智信, 小町 守, 松本 裕治
    自然言語処理
    2013年 20 巻 5 号 727-748
    発行日: 2013/12/13
    公開日: 2014/03/13
    ジャーナル フリー
    単語情報がタグ付けされた本格的な通時コーパスを構築するためには,歴史的な日本語資料の
    形態素解析
    が必要とされるが,従来はこれを十分な精度で行うことができなかった.そこで,現代語用の UniDic に語彙の追加を行い,明治時代の文語文と平安時代の仮名文学作品のコーパスを整備することで,「近代文語 UniDic」と「中古和文 UniDic」を作成した.この辞書によりコーパス構築に利用可能な約 96~97% での解析が可能になった.この辞書の学習曲線をもとに歴史的資料の
    形態素解析
    辞書に必要な訓練用のタグ付きコーパスのサイズを調査した結果,約 5 万語のコーパスで精度 95% を超える実用的な解析が可能になること,5,000 語程度の少量であっても対象テキストの訓練コーパスを用意することが有効であることを確認した.
  • 内山 将夫
    自然言語処理
    1999年 6 巻 7 号 3-28
    発行日: 1999/10/10
    公開日: 2011/03/01
    ジャーナル フリー
    本稿では,
    形態素解析
    の結果から過分割 (正解が分割していないところを
    形態素解析
    システムが分割している個所) を検出するための統計的尺度を提案する. もし,
    形態素解析
    の結果から過分割を検出できれば, それを利用して
    形態素解析
    結果の過分割を訂正する規則を作成できるし, 人手修正済みのコーパスで除去しきれていない過分割を発見し取り除くこともできるため, そのような尺度は有用である. 本稿で提案する尺度は文字列に関する尺度であり, 文字列が分割される確率と分割されない確率との比に基づいていて, 分割されにくい文字列ほど大きな値となる. したがって, この値が大きい文字列は過分割されている可能性が高い. 本稿の実験では, この尺度を使うことにより, 規則に基づく
    形態素解析
    システムの解析結果から, 高精度で過分割を検出できた. また, 人手で修正されたコーパスに残る過分割も検出できた. これらのことは, 提案尺度が,
    形態素解析
    システムの高精度化に役立つこと, 及び, コーパス作成・整備の際の補助ツールとして役立つことを示している.
  • 森 信介, 中田 陽介, Neubig Graham, 河原 達也
    自然言語処理
    2011年 18 巻 4 号 367-381
    発行日: 2011年
    公開日: 2011/12/28
    ジャーナル フリー
    本論文では,
    形態素解析
    の問題を単語分割と品詞推定に分解し,それぞれの処理で点予測を用いる手法を提案する.点予測とは,分類器の素性として,周囲の単語境界や品詞等の推定値を利用せずに,周囲の文字列の情報のみを利用する方法である.点予測を用いることで,柔軟に言語資源を利用することができる.特に分野適応において,低い人的コストで,高い分野適応性を実現できる.提案手法の評価として,言語資源が豊富な一般分野において,既存手法である条件付き確率場と形態素 n-gram モデルとの解析精度の比較を行い,同程度の精度を得た.さらに,提案手法の分野適応性を評価するための評価実験を行い,高い分野適応性を示す結果を得た.
  • 山下 達雄, 松本 裕治
    自然言語処理
    2000年 7 巻 3 号 39-56
    発行日: 2000/07/10
    公開日: 2011/06/07
    ジャーナル フリー
    形態素解析
    処理において, 日本語などのわかち書きされない言語と英語などのわかち書きされる言語では, 形態素辞書検索のタイミングや辞書検索単位が異なる. 本論文ではこれらの言語で共通に利用できる
    形態素解析
    の枠組の提案と, それに基づいた多言語
    形態素解析
    システムを実装を行った. また, 日本語, 英語, 中国語での解析実験も行った.
  • 森 信介, 小田 裕樹
    自然言語処理
    2011年 18 巻 2 号 139-152
    発行日: 2011年
    公開日: 2011/09/28
    ジャーナル フリー
    本論文では,日本語の文の自動単語分割をある分野に適用する現実的な状況において,精度向上を図るための新しい方法を提案する.提案手法の最大の特徴は,複合語を参照することが可能な点である.複合語とは,内部の単語境界情報がなく,その両端も自動分割器の学習コーパスの作成に用いられた単語分割基準と必ずしも合致しない文字列である.このような複合語は,自然言語処理をある分野に適用する多くの場合に,利用可能な数少ない言語資源である.提案する自動単語分割器は,複合語に加えて単語や単語列を参照することも可能である.これにより,少ない人的コストでさらなる精度向上を図ることが可能である.
    実験では,これらの辞書を参照する自動単語分割システムを最大エントロピー法を用いて構築し,それぞれの辞書を参照する場合の自動単語分割の精度を比較した.実験の結果,本論文で提案する自動単語分割器は,複合語や単語列を参照することにより,対象分野においてより高い分割精度を実現することが確認された.
  • 野口 大斗
    東京医科歯科大学教養部研究紀要
    2022年 2022 巻 52 号 71-84
    発行日: 2022年
    公開日: 2022/03/16
    研究報告書・技術報告書 オープンアクセス
    本稿では、
    形態素解析
    に用いられる手法を利用して、英語のスペリングの実態の解明を目指す。
    形態素解析
    における単語尤度と品詞の連接尤度を、綴り字の尤度と綴り同士の連接尤度として検証をおこなう。結果として、英語のスペリングを音から確率によって推定することは極めて困難であることを報告する。
  • 斉藤 いつみ, 貞光 九月, 浅野 久子, 松尾 義博
    自然言語処理
    2017年 24 巻 2 号 297-314
    発行日: 2017/03/15
    公開日: 2017/06/15
    ジャーナル フリー

    ソーシャルメディア等の崩れた日本語の解析においては,

    形態素解析
    辞書に存在しない語が多く出現するため解析誤りが新聞等のテキストに比べ増加する.辞書に存在しない未知語の中でも,既知の辞書語からの派生に関しては,正規形を考慮しながら解析するという表記正規化との同時解析の有効性が確認されている.本研究では,これまで焦点があてられていなかった,文字列の正規化パタン獲得に着目し,アノテーションデータから文字列の正規化パタンを統計的に抽出する.統計的に抽出した文字列正規化パタンと文字種正規化を用いて辞書語の候補を拡張し
    形態素解析
    を行った結果,従来法よりも再現率,精度ともに高い解析結果を得ることができた.

  • 吉田 辰巳, 大竹 清敬, 山本 和英
    自然言語処理
    2003年 10 巻 1 号 109-131
    発行日: 2003/01/10
    公開日: 2011/03/01
    ジャーナル フリー
    現在入手可能な解析器と言語資源を用いて中国語解析を行った場合にどの程度の精度が得られるかを報告する. 解析器としては, サポートベクトルマシン (Support Vector Machine) を用いたYamChaを使用し, 中国語構文木コーパスとしては, 最も一般的なPenn Chinese Treebankを使用した. この両者を組み合わせて,
    形態素解析
    と基本句同定解析 (base phrase chunking) の2種類の解析実験を行った.
    形態素解析
    実験の際には, 一般公開されている統計的モデルに基づく
    形態素解析
    器MOZとの比較実験も行った. この結果, YamChaによる
    形態素解析
    精度は約88%でMOZよりも4%以上高いが, 実用的には計算時間に問題があることが分かった. また基本句同定解析精度は約93%であった.
  • *田上 青空, 戸次 大介
    人工知能学会全国大会論文集
    2021年 JSAI2021 巻 4J1-GS-6d-02
    発行日: 2021年
    公開日: 2021/06/14
    会議録・要旨集 フリー

    本稿は、知識蒸留を用いて日本語

    形態素解析
    器rakkyoをさらに圧縮する手法を提案する. 日本語
    形態素解析
    器は現在非常に高い精度となっている.しかし、実用化においてはモデルサイズの大きさという課題が残されている. そこでArsenyらによるrakkyoモデルでは、Juman++によって作成された5億文のシルバーデータを学習し、文字ユニグラムのみを用いることでモデルサイズを大幅に圧縮した. 本研究では、深層学習モデルの圧縮手法の1つである知識蒸留をすることで、rakkyoをさらに圧縮し大規模なデータを必要としない
    形態素解析
    器を構築し、小規模なデータでrakkyoの精度に近づけるかを評価した.

  • 未知語の問題の解決策
    内元 清貴, 関根 聡, 井佐原 均
    自然言語処理
    2001年 8 巻 1 号 127-141
    発行日: 2001/01/10
    公開日: 2011/03/01
    ジャーナル フリー
    形態素解析
    は日本語解析の重要な基本技術の一つとして認識されている.
    形態素解析
    の形態素とは, 単語や接辞など, 文法上, 最小の単位となる要素のことであり,
    形態素解析
    とは, 与えられた文を形態素の並びに分解し, それぞれの形態素に対し文法的属性 (品詞や活用など) を決定する処理のことである. 近年,
    形態素解析
    において重要な課題となっているのは, 辞書に登録されていない, あるいは学習コーパスに現れないが形態素となり得る単語 (未知語) をどのように扱うかということである. この未知語の問題に対処するため, これまで大きく二つの方法がとられてきた. 一つは未知語を自動獲得し辞書に登録する方法であり, もう一つは未知語でも解析できるようなモデルを作成する方法である. ここで, 前者の方法で獲得した単語を辞書に登録し, 後者のモデルにその辞書を利用できるような仕組みを取り入れることができれば, 両者の利点を生かすことができると考えられる. 本論文では, 最大エントロピー (ME) モデルに基づく
    形態素解析
    の手法を提案する. この手法では, 辞書の情報を学習する機構を容易に組み込めるだけでなく, 字種や字種変化などの情報を用いてコーパスから未知語の性質を学習することもできる. 我々はこの手法により未知語の問題が克服される可能性が高いと考えている. 京大コーパスを用いた実験では, 再現率95.80%, 適合率95.09%の精度が得られた.
  • 森 信介, 笹田 鉄郎, Neubig Graham
    自然言語処理
    2011年 18 巻 2 号 71-87
    発行日: 2011年
    公開日: 2011/09/28
    ジャーナル フリー
    確率的言語モデルは,仮名漢字変換や音声認識などに広く用いられている.パラメータは,コーパスの既存のツールによる処理結果から推定される.精度の高い読み推定ツールは存在しないため,結果として,言語モデルの単位を単語(と品詞の組)とし,仮名漢字モデルを比較的小さい読み付与済みコーパスから推定したり,単語の発音の確率を推定せずに一定値としている.これは,単語の読みの確率を文脈と独立であると仮定していることになり,この仮定に起因する精度低下がある.このような問題を解決するために,本論文では,まず,仮名漢字変換において,単語と読みの組を単位とする言語モデルを利用することを提案する.単語と読みの組を単位とする言語モデルのパラメータは,自動単語分割および自動読み推定の結果から推定される.この処理過程で発生する誤りの問題を回避するために,本論文では,確率的タグ付与を提案する.これらの提案を採用するか否かに応じて複数の仮名漢字変換器を構築し,テストコーパスにおける変換精度を比較した結果,単語と読みの組を言語モデルの単位とし,そのパラメータを確率的に単語分割し,さらに確率的読みを付与したコーパスから推定することで最も高い変換精度となることが分かった.したがって,本論文で提案する単語と読みの組を単位とする言語モデルと,確率的タグ付与コーパスの概念は有用であると結論できる.
  • *和田 英一, 諏訪 博彦, 太田 敏澄, 小川 祐樹
    経営情報学会 全国研究発表大会要旨集
    2012年 2012f 巻 H1-9
    発行日: 2012年
    公開日: 2013/01/30
    会議録・要旨集 フリー
    本研究では、投資家の意見を直接取得できるYahoo!株式掲示板に対してテキストマイニングを行い、投稿内容と株価との関連を調べる。従来のテキストマイニングでは
    形態素解析
    の際に、一般辞書を用いていたため、掲示板に書き込まれている誹謗中傷といったような株式に関係ないと思われるノイズが抽出されていた。また、PER、M&Aといった専門用語を抽出できないという問題があった。そこで、本研究では、
    形態素解析
    の際に経済専門辞書、金融専門辞書を用いることによってこの問題を解決する。また、一般辞書、経済専門辞書、金融専門辞書による
    形態素解析
    結果に主成分分析を行い、主成分と株価との相関結果を比較し、その有用性を示す。
feedback
Top