詳細検索結果
以下の条件での結果を表示する:
全文: "形態素解析"
1,952件中 1-20の結果を表示しています
  • 岡 照晃, 小町 守, 小木曽 智信, 松本 裕治
    人工知能学会全国大会論文集
    2013年 JSAI2013 巻 2B1-2
    発行日: 2013年
    公開日: 2018/07/30
    会議録・要旨集 フリー

    形態素解析辞書近代文語UniDicの公開により,近代文語論説文の形態素解析が行えるようになった. しかし,この辞書は表記の整った校訂済み資料の解析を念頭に単語登録が行われているため,濁点無表記に代表される表記のバリエーションを含んだ未校訂の資料での解析性能は低い. そこで本発表では,表記のバリエーションを考慮した辞書引きにより,辞書に未登録の表記にも対応可能な形態素解析手法について述べる.

  • 政瀧 浩和, 匂坂 芳典
    自然言語処理
    1999年 6 巻 2 号 41-57
    発行日: 1999/01/10
    公開日: 2011/03/01
    ジャーナル フリー
    本論文では, 日本語連続音声認識用のN-gram言語モデルの学習に用いる形態素データを, テキストデータから自動的に生成することを目的として, 品詞および可変長形態素列の複合N-gramを用い, 日本語テキストデータを自動的に形態素解析する手法を提案する. 複合N-gramは, 品詞, 形態素, 形態素列を単位としたN-gramで, 少ないデータ量から高い予測精度を持つ言語モデルである. また, 品詞から未知語が出現する確率を定式化することにより, 未知語の形態素解析を行えるようにモデルの改良を行った. 形態素解析実験の結果, 複合N-gramの形態素同定率は最高99.17%で, 従来のルールベースによる方法よりも正確に形態素の同定が行えることが判明し, 提案手法の有効性を確認した. また, 読みまで含めた評価を行った場合でも, 最高98.68%の正解率が得られた. 未知語を含む文の形態素解析では, 全ての語いが辞書に登録されている場合と比較して0.8%程度の低下に抑えることができた.
  • 小木曽 智信
    日本語の研究
    2013年 9 巻 4 号 49-62
    発行日: 2013/10/01
    公開日: 2017/07/28
    ジャーナル フリー
    古典語研究の精密化・高度化のためには単語の情報が付いたコーパスが必要とされる。そうしたコーパスの構築のためにはコンピューターによる古典語の形態素解析(自動品詞分解)が必要だが,従来,古典語の形態素解析は困難であるとされていた。こうした中で,筆者らは,既存の解析器と組み合わせて実用的な解析を可能にする電子辞書「中古和文UniDic」を新たに開発した。この辞書は,統計的機械学習の手法に基づき,電子化辞書UniDicの見出し語を拡充し,手本となる単語情報つきの古典語コーパスを作成することで開発された。これにより,平安時代の仮名文学作品について約97%(辞書への未登録語が存在する場合は約96%)の精度で正しく解析することが可能になった。この辞書による解析結果を用いることで,従来は不可能だった用例検索や統計的手法にもとづく新しい古典語研究が可能になった。UniDicは短単位という揺れの少ない斉一な単位を採用しているため,作品や時代を超えて解析結果を比較することができる。中古和文UniDicは無償で一般公開されており,国語研究所の「日本語歴史コーパス 平安時代編」の構築に利用されている。
  • 内山 将夫
    自然言語処理
    1999年 6 巻 7 号 3-28
    発行日: 1999/10/10
    公開日: 2011/03/01
    ジャーナル フリー
    本稿では, 形態素解析の結果から過分割 (正解が分割していないところを形態素解析システムが分割している個所) を検出するための統計的尺度を提案する. もし, 形態素解析の結果から過分割を検出できれば, それを利用して形態素解析結果の過分割を訂正する規則を作成できるし, 人手修正済みのコーパスで除去しきれていない過分割を発見し取り除くこともできるため, そのような尺度は有用である. 本稿で提案する尺度は文字列に関する尺度であり, 文字列が分割される確率と分割されない確率との比に基づいていて, 分割されにくい文字列ほど大きな値となる. したがって, この値が大きい文字列は過分割されている可能性が高い. 本稿の実験では, この尺度を使うことにより, 規則に基づく形態素解析システムの解析結果から, 高精度で過分割を検出できた. また, 人手で修正されたコーパスに残る過分割も検出できた. これらのことは, 提案尺度が, 形態素解析システムの高精度化に役立つこと, 及び, コーパス作成・整備の際の補助ツールとして役立つことを示している.
  • 長坂 翔吾, 谷口 忠大
    人工知能学会全国大会論文集
    2011年 JSAI2011 巻 3B1-OS22c-8
    発行日: 2011年
    公開日: 2018/07/30
    会議録・要旨集 フリー

    階層 Pitman-Yor 言語モデルでは入力文書より言語モデルを解析することにより、未知語を含む文書であっても教師なし形態素解析により単語分割を行うことができる。 この手法を動作解析に適用することで、教師なし学習によって非文節運動系列から動作の抽出を行う。

  • 徳永 秀和
    人工知能学会全国大会論文集
    2011年 JSAI2011 巻 1B2-NFC3-1
    発行日: 2011年
    公開日: 2018/07/30
    会議録・要旨集 フリー

    Web検索支援やWebマイニングのシステムを研究・開発するためには,WebAPI,形態素解析,データマイニングツール,可視化ツールやGUIを統合する必要がある。現在するこれらのツールを統合するにはSOAP,JSONやJNIなど様々なインターフェースを利用しなければならない。今回は,Web検索支援システムをJavaScript,java,MeCabとRを用いて作成する方法について発表する。

  • 菅原 久嗣, Alena Neviarouskaya, 石塚 満
    人工知能学会全国大会論文集
    2009年 JSAI2009 巻 3I4-2
    発行日: 2009年
    公開日: 2018/07/30
    会議録・要旨集 フリー

    構文解析や形態素解析を行ない、同時に文中に出現する感情語がどの程度文全体の感情に寄与しているかを算出する事で、日本語のテキストから感情を抽出する手法を提案する。

  • 重信 智宏, 藤井 薫和, 吉野 孝, 灘本 明代
    人工知能学会全国大会論文集
    2007年 JSAI07 巻 3I1-6
    発行日: 2007年
    公開日: 2018/07/29
    会議録・要旨集 フリー

    機械翻訳や形態素解析などの言語処理機能や対訳辞書などの言語資源を連携させ,異文化コラボレーションのための新たな言語サービスを生み出す言語基盤である言語グリッドを用いた異文化コラボレーション環境の構築について述べる.

  • 谷口 彰, 稲邑 哲也, 谷口 忠大
    人工知能学会全国大会論文集
    2014年 JSAI2014 巻 1I4-OS-09a-3
    発行日: 2014年
    公開日: 2018/07/30
    会議録・要旨集 フリー

    ロボットが発話文から新規語彙を獲得する際,音声認識誤り文から単語の区切りおよび同一性を判定するのは困難である.また,センサ情報から確率的な自己位置推定を行う際,局所的なセンサ情報だけでは,大域的な地図上の位置が不明確な場合,自己位置を特定し難いという問題がある.本稿では,ノンパラメトリックベイズにより,発話文の教師なし形態素解析結果と自己位置推定を統合した,場所概念獲得モデルを提案する.

  • 中村 友昭, 荒木 孝弥, 長井 隆行, 長坂 翔吾, 谷口 忠大, 岩橋 直人
    人工知能学会全国大会論文集
    2013年 JSAI2013 巻 2G5-OS-19b-7
    発行日: 2013年
    公開日: 2018/07/30
    会議録・要旨集 フリー

    本稿では,マルチモーダル情報によって構築される物体概念と,人の発話を教師なしで形態素解析することで切り出される単語から,ロボットによる語意の獲得を行う.ロボットは,言語モデルなどの初期知識を持たないことを想定しているため,音声認識では必ずしも正しく認識できるとは限らない.そこで,本稿では物体概念を用いることでそのような認識誤りの影響を低減し,概念・語意の獲得が可能であることを示す.

  • 竹﨑 あかね, 細羽見 喬, 法隆 大輔, 木浦 卓治
    農業情報研究
    2010年 19 巻 1 号 10-15
    発行日: 2010年
    公開日: 2010/04/01
    ジャーナル フリー
    農林水産分野において文書を特徴付ける単語(索引語)の高度選定に役立つ言語資源(形態素解析辞書と不要語リスト)を整備し,その有効性を検証した.形態素解析用の専門用語解析辞書は,既存の農業用語辞書や品種登録データベースに収録された用語の追加や,日本農業文献記事索引(JASI)をコーパスとした新用語の収集により専門用語を充実させた.この辞書と一般用語解析辞書を併用することで,形態素解析による用語の認識精度は高まった.形態素解析結果に基づく辞書への新用語の追加は,未知語(計算機が認識しない単語)率[(専門・一般用語解析辞書の併用での未知語数)/(一般用語解析辞書での未知語数)×100]を低下させた.索引語の不要語リストには,JASIの索引語選定結果を参考に,一文字英字(大文字・小文字とも.ただし元素記号除く),単位,指示語,数詞,数字を選定した.これらの言語資源を用いて自動付与した索引語を,専門家が付与した索引語と比較したところ,66%が全一致あるいは部分一致した.以上のことから,整備した言語資源は,形態素解析や索引語選定に有効に働くと判断された.
  • 乙武 北斗, 折舘 直樹, 吉村 賢治
    会議録・要旨集 フリー
    日本語の話しことばによる会話においては地域による多種多様な方言が用いられることが多い.一方で,比較的書き言葉に近いと思われる地方議会会議録においても,発言の書き起こしの整文の際に,方言はそのまま残すことがわかっている.一般的な辞書を用いた形態素解析では方言を正しく認識することは困難である.会議録を用いて様々な地方自治体の課題や議論を共有しようとすると,様々な地域の方言を考慮した形態素解析の仕組みが必要である.本稿では地方議会会議録を対象に,発言に含まれる方言とその形態素解析結果について分析を行う.
  • 森 信介, 長尾 眞
    自然言語処理
    1998年 5 巻 2 号 75-103
    発行日: 1998/04/10
    公開日: 2011/03/01
    ジャーナル フリー
    本論文では, 形態素クラスタリングと未知語モデルの改良による確率的形態素解析器の精度向上を提案する. 形態素クラスタリングとしては, 形態素n-gramモデルをクロスエントロピーを基準としてクラスn-gramモデルに改良する方法を提案する. 未知語モデルの改良としては, 確率モデルの枠組の中で学習コーパス以外の辞書などで与えられる形態素を追加する方法を提案する. bi-gramモデルを実装しEDRコーパスを用いて実験を行なった結果, 形態素解析の精度の向上が観測された. 両方の改良を行なったモデルによる形態素解析実験の結果の精度は, 先行研究として報告されている品詞tri-gramモデルの精度を上回った. これは, 我々のモデルが形態素解析の精度という点で優れていることを示す結果である. これらの実験に加えて, 品詞体系と品詞間の接続表を文法の専門家が作成した形態素解析器との精度比較の実験を行なった. この結果, 確率的形態素解析器の誤りは文法の専門家による形態素解析器の誤りに対して有意に少なかった. 形態素解析における確率的な手法は, このような人間の言語直感に基づく形態素解析器と比較して, 現時点で精度がより高いという長所に加えて, 今後のさらなる改良にも組織的取り組みが可能であるという点で有利である.
  • 法隆 大輔, 深津 時広, 大塚 彰, 木浦 卓治, 平藤 雅之, 二宮 正士
    農業情報研究
    2004年 13 巻 2 号 127-137
    発行日: 2004年
    公開日: 2013/03/31
    ジャーナル フリー
    農業用語辞書を組み込むことにより,農業関連文書向けに形態素解析の機能を提供するサーバを開発した.このサーバを利用することにより,農業関連の専門用語を多く含む文書を取り扱う場合に,専門用語を単語として抽出できる.サーバの機能はJavaRMIによって提供されており,本サーバを利用するためのプログラムを作成する際は,プログラム中に本サーバのリモートオブジェクトを組み込み,インターネットを経由してこのサーバに接続する.利用者は自然言語処理を行うプログラムの一部として,本サーバを組み込むことができる.本サーバの効果を検証するため,農業技術関連の文書を使用して,テキストの自動分類を行った.その結果,本サーバを利用することにより,分類の正解率が向上し,その効果が確かめられた.
  • 鍜治 伸裕
    知能と情報
    2013年 25 巻 6 号 174-183
    発行日: 2013/12/15
    公開日: 2017/12/14
    ジャーナル フリー
  • 金久保 正明
    会議録・要旨集 フリー
    近年,所謂「ことば工学」の一環としてシステムに駄洒落を自動生成させる試みが盛んになり,駄洒落に基づくなぞなぞの生成等,様々な応用の他,面白い駄洒落を自動的に絞り込む方法等も模索されている.一方,形態素解析では入力文に対して複数の形態素解析結果が得られることがあり,このとき意図されていなかった解析結果は駄洒落としてみなすことができる.また,駄洒落とみなせる複数の文の間では,共通する読みの平仮名文字列に於ける双方の単語区切り位置が食い違う場合もあり,これらは意外性の高い駄洒落になると思われる.そこで,本論文では形態素解析を類音に拡張し,文節レベルの変換が可能なシステムを提案する.駄洒落の面白さを高めるため,通俗的な名詞群を基本体言とし,他の単語もそれらと連接する可能性の高いもので揃えた.区切り位置の異なる文が生成され易くするため,短い単語を増やし,特に文頭,文末に来る読み一字の単語を多く登録するような工夫をしている.詳細な試験評価により,一定レベルの意外性,面白さを有する変換文の生成が確認された.
  • 延澤 志保, 佐藤 健吾, 斎藤 博昭
    自然言語処理
    2002年 9 巻 3 号 21-40
    発行日: 2002/07/10
    公開日: 2011/03/01
    ジャーナル フリー
    辞書ベースの自然言語処理システムでは辞書未登録語の問題が避けられない. 本稿では訓練コーパスから得た文字の共起情報を利用する手法で辞書未登録語の抽出を実現し, 辞書ベースのシステムの精度を向上させた. 本稿では形態素解析ツールをアプリケーションとして採用し, 処理時に統計情報を動的に利用することによって形態素の切り分けの精度を上げる手法と, 統計情報を利用して事前に辞書登録文字列を選別し必要なコスト情報を補って辞書登録を行なう手法との2つのアプローチを提案し, さらにこの2つの手法を組み合わせてそれぞれの欠点を補う手法を提案する. どちらも元のツールの改変を行なうものではなく, 統計情報の付加的な利用を半自動的に実現するもので, 元のツールでは利用できない辞書未登録語の抽出に対象を絞ることで精度の向上を図る. 実験の結果, 動的な統計情報の利用のシステムが未知語の認識に, 辞書登録システムが切り分け精度の向上に有効であることが示され, 2つのシステムを適切に組み合わせることによって訓練コーパスのデータで認識可能な辞書未登録語をほぼ完全に解決できた. さらに複合語の認識も高い精度で実現することができた.
  • 森 信介, 中田 陽介, Neubig Graham, 河原 達也
    自然言語処理
    2011年 18 巻 4 号 367-381
    発行日: 2011年
    公開日: 2011/12/28
    ジャーナル フリー
    本論文では,形態素解析の問題を単語分割と品詞推定に分解し,それぞれの処理で点予測を用いる手法を提案する.点予測とは,分類器の素性として,周囲の単語境界や品詞等の推定値を利用せずに,周囲の文字列の情報のみを利用する方法である.点予測を用いることで,柔軟に言語資源を利用することができる.特に分野適応において,低い人的コストで,高い分野適応性を実現できる.提案手法の評価として,言語資源が豊富な一般分野において,既存手法である条件付き確率場と形態素 n-gram モデルとの解析精度の比較を行い,同程度の精度を得た.さらに,提案手法の分野適応性を評価するための評価実験を行い,高い分野適応性を示す結果を得た.
  • 竹崎 あかね, 大浦 裕二, 河野 恵伸, 木浦 卓治, 林 武司
    農業情報研究
    2016年 25 巻 1 号 47-58
    発行日: 2016年
    公開日: 2016/04/01
    ジャーナル フリー
    農産物関連の代表的なテキストデータであり,今後テキストマイニングの必要性が高まるであろうインターネット通販の野菜商品レビューを対象に,付属辞書を参照した形態素解析結果からレビュー内容を把握する際の問題点を明らかにした.付属辞書を参照した形態素解析では語の分割精度が低いこと,出現頻度が高い同義語が別語と扱われること,否定概念が欠落すること,形容詞の対象が不明確であることでテキストからの概念抽出精度が低くなると判断した.これらの問題解決のために,自然言語処理済みテキストから抽出すべき構文解析情報等を提案し,以下の概念抽出工程を提示した.1)解析対象に合致した参照辞書を構築して形態素解析を行う.2)構文解析後,動詞“する”は,その直前に出現する名詞と一語に集約し,具体的動作を示す動詞に変換する.3)否定概念を付与するために,助動詞“ぬ”,接頭辞“無”・“不”・“低”・“未”・“非”,接尾辞“ない”について語の変換,集約処理をする.4)同義語を正規化する.5)解析対象に合わせて係り受け関係の語を抽出する.
  • 佐藤 拓, 仁平 義明
    日本心理学会大会発表論文集
    2010年 74 巻 L007
    発行日: 2010/09/20
    公開日: 2018/12/22
    会議録・要旨集 フリー
feedback
Top