詳細検索結果
以下の条件での結果を表示する: 検索条件を変更
クエリ検索: "語義の曖昧性解消"
19件中 1-19の結果を表示しています
  • 梶 博行
    人工知能
    2005年 20 巻 1 号 112
    発行日: 2005/01/01
    公開日: 2020/09/29
    解説誌・一般情報誌 フリー

    自然言語の意味処理の基盤となる「語義関連ネットワーク」を提案し,2言語コンパラブルコーパスと対訳辞書から語義関連ネットワークを自動生成する方法について論じた.1章「緒言」では,研究の背景と目的を述べるとともに関連分野の従来研究を概観している.2章「語関連から語義関連へ:2言語コーパスを用いる1アプローチ」では,語義関連ネットワークを定義し,語関連のアラインメントに基づく自動生成の枠組みを提案している.語義関連ネットワークは,2言語の同義語の集合として定義される語義と,連想関係をもつ二つの語義を結ぶリンクとから構成される.3章「文脈類似度に基づく対訳語の抽出」では,コンパラブルコーパスから対訳語のペアを抽出する新しい方法を提案している.4章「語関連の言語間対応づけに基づく語義-手がかり語相関の反復計算」では,語義と語義を同定する手がかりとなる関連語との相関行列を反復計算するアルゴリズムを提案している.そして,語義手がかり語相関行列を用いた語義の曖昧解消実験を行い,提案アルゴリズムの有効性を実証している.さらに,5章「原言語での分布パターンの類似度に基づく訳語のクラスタリング」では,コンパラブルコーパスから多義語の語義を獲得する方法を提案し,新聞記事コーパスを用いた実験により語義関連ネットワーク自動生成のフィージビリティを明らかにしている.最後に,6章「結言」で,研究成果をまとめるとともに,応用を含む今後の方向について述べている.

  • 福本 文代, 辻井 潤一
    自然言語処理
    1997年 4 巻 2 号 21-39
    発行日: 1997/04/10
    公開日: 2011/03/01
    ジャーナル フリー
    本稿では, コーパスから抽出した動詞の語義情報を利用し, 文中に含まれる多義語の曖昧性を解消する手法を提案する. 先ずコーパスから動詞の多義解消に必要な情報を抽出する手法について述べる. 本手法では, 多義を判定しながら意味的なクラスタリングを行なうことで多義解消に必要な情報を抽出する. そこで, 表層上は一つの要素である多義語動詞を, 多義が持つ各意味がまとまった複数要素であると捉え, これを一つ一つの意味に対応させた要素 (仮想動詞ベクトルと呼ぶ) に分解した上でクラスタを作成するという手法を用いた. 本手法の有効性を検証するため, 丹羽らの提案した単語ベクトルを用いた多義語の解消手法と比較実験を行なった結果, 14種類の多義語動詞を含む1, 226文に対し, 丹羽らの手法が平均62.7%の正解率に対し, 本手法では71.1%の正解率を得た.
  • 新納 浩幸, 佐々木 稔
    自然言語処理
    2003年 10 巻 2 号 129-149
    発行日: 2003/04/10
    公開日: 2011/03/01
    ジャーナル フリー
    本論文ではフリーの特異値分解ツールSVDPACKCを紹介する. その利用方法を解説し, 利用事例として語義判別問題を扱う. 近年, 情報検索では潜在的意味インデキシング (Latent Semantic Indexing, LSI) が活発に研究されている. LSIでは高次元の索引語ベクトルを低次元の潜在的な概念のベクトルに射影することで, ベクトル空間モデルの問題点である同義語や多義語の問題に対処する. そして概念のベクトルを構築するために, 索引語文書行列に対して特異値分解を行う. SVDPACKCは索引語文書行列のような高次元かつスパースな行列に対して特異値分解を行うツールである. またLSIは, 高次元の特徴ベクトルを重要度の高い低次元のベクトルに圧縮する技術であり, 情報検索以外にも様々な応用が期待される. ここではSVDPACKCの利用事例として語義判別問題を取り上げる. SENSEVAL2の辞書タスクの動詞50単語を対象に実験を行った. LSIに交差検定を合わせて用いることで, 最近傍法の精度を向上させることができた. また最近傍法をベースとした手法は, 一部の単語に対して決定リストやNaive Bayes以上の正解率が得られることも確認できた.
  • 鍛治 伸裕, 河原 大輔, 黒橋 禎夫, 佐藤 理史
    自然言語処理
    2003年 10 巻 4 号 65-81
    発行日: 2003/07/10
    公開日: 2011/03/01
    ジャーナル フリー
    本稿では, 国語辞典の見出し語を定義文の主辞で置き換えることによって用言の言い換えを行う方法を提案する. この際, 見出し語の多義性解消, 定義文中で主辞とともに言い換えに含むべき項の決定, 用言の言い換えに伴う格パターンの変換などを行う必要があり, これらを国語辞典の情報だけで行うことは不可能である. そこで, 大規模コーパスから格フレームを学習し, 見出し語と定義文主辞の格フレームの対応付けを行うことにより, これらの問題を解決する方法を考案した. 220文に対する実験の結果, 77%の精度で日本語として妥当な用言の言い換えが可能であることがわかった.
  • 金出地 真人, 徳久 雅人, 村上 仁一, 池原 悟
    自然言語処理
    2004年 11 巻 3 号 149-164
    発行日: 2004/07/10
    公開日: 2011/03/01
    ジャーナル フリー
    本稿は, 日英機械翻訳での動詞および名詞の訳語選択における結合価文法の能力を実験的に明らかにする. 結合価文法を用いると, 原言語文における用言と格要素の意味的用法が限定されるため, 正しい訳語選択ができると考えられてきた. しかし, 結合価文法は, 知識ベースの開発が困難であることから, その有効性が明らかにされていなかった. 近年, 14, 800個の結合価パターンが登録された大規模辞書「日本語語彙大系」が開発された. そこで, 本稿は, まず, IPAL辞書に登録されている基本動詞および基本名詞に関する例文, 数千文について機械翻訳を実施し, その結果を翻訳家による英訳と比較することで, 動詞および名詞の訳語選択の正確さを検証する. 次に, 機械が翻訳に誤った例文について翻訳過程を分析し, 誤り原因と改善の可能性を検討する. これらの結果, 訳語選択の正解率は, 基本動詞が89%, そして, 基本名詞が91%であった. ベースラインとして和英辞書の先頭訳語を選択する場合と比較すると, 動詞の訳語選択において結合価文法は顕著な効果が確認されたが, 名詞の訳語選択についてはそれ程の効果は認められなかった. また, 結合価文法を用いた訳語選択の方式上の正解率の限界, すなわち, 正解を導く結合価パターンが全て登録され, かつ, 形態素解析やパターン照合が完全に成功することを仮定した場合の正解率の限界は, IPAL辞書に関連する例文において, 動詞が99%, 名詞が97%となると推定した.
  • 日本語単語の多義性解消における種々の機械学習手法と素性の比較
    村田 真樹, 内山 将夫, 内元 清貴, 馬 青, 井佐原 均
    自然言語処理
    2003年 10 巻 3 号 115-133
    発行日: 2003/04/10
    公開日: 2011/03/01
    ジャーナル フリー
    本稿では, 2001年に行なわれたSENSEVAL2コンテストの日本語辞書タスクでのわれわれの取り組みについて述べる. われわれは機械学習手法を用いるアプローチを採用した. この研究では数多くの機械学習手法と素性を比較検討し用いている. コンテストには, 我々は, サポートベクトルマシン法, シンプルベイズ法, またそれらの組み合わせのシステム工つの合計4システムを提出し, 組合わせシステムが参加システム中もっとも高い精度 (0.786) を得た. コンテストの後, シンプルベイズ法で用いていたパラメータを調節したところさらに高い精度を得た. 現在もっとも性能の高いシステムは二つのシンプルベイズ法を組み合わせたシステムであり, その精度は0.793である. また, 本稿では素性を変更した実験もいくつか追加で行ない, 各素性の有効性, 特徴を調査した. その調査結果では文字列素性のみを用いても比較的高い精度が得られるなどの興味深い知見が得られている. また, 関連文献も紹介し, 今後の多義解消の研究のための有益な情報を提供した.
  • 奥村 学
    人工知能
    1995年 10 巻 3 号 332-339
    発行日: 1995/05/01
    公開日: 2020/09/29
    解説誌・一般情報誌 フリー
  • 大塚 裕子
    人工知能
    2005年 20 巻 1 号 112_2
    発行日: 2005/01/01
    公開日: 2020/09/29
    解説誌・一般情報誌 フリー

    本研究の目的は,さまざまな立場の発言者による意見から,意図を抽出し,その情報をもとに意見をさまざまな観点で分類することである.このため,自由記述アンケートの回答テキストをコーパスとして最大エントロピー法を確率的言語モデルとする機械学習手法を用いる.この処理精度を高めるために,特に要求意図に着目し,学習データの作成時に言語的な言い換えを用いた判定を行うことによって学習データの質を向上させることを提案する.このため,着目する回答文が典型的な要求表現「てほしい」を含む形式に言い換え可能であるかどうかにより判定できることを仮説とした.この仮説としての判定基準の妥当性を検証するために,内容分析(content analysis)の知見を踏まえて予測的妥当性,再現可能性,相関的妥当性の三観点から検証を行った.予測的妥当性の検証に対する考察から,従来の言語学的知見よりも網羅性の高い要求表現が得られることがわかった.また,再現可能性の検証からは複数の作業者間において判定結果に妥当な一致率が見られたこと,また相関的妥当性の検証からは判定基準を用いずに要求判定をする場合よりも用いた場合のほうが作業者間で高い一致率が見られたこと,これらにより基準の有効性を示すことができた.さらに判定基準と自動分類を統合し,基準を用いて作成した学習データによる機械学習手法の実験を行うことにより91%の精度で要求か否かを判定できた.

  • 新納 浩幸
    自然言語処理
    2003年 10 巻 3 号 61-73
    発行日: 2003/04/10
    公開日: 2011/03/01
    ジャーナル フリー
    本論文では, Nigamらによって提案されたEMアルゴリズムを利用した教師なし学習の手法を, SENSEVAL2の日本語翻訳タスクで出題された名詞の
    語義の曖昧性解消
    問題に適用する. この手法は, ラベルなしデータをラベルを欠損値とする観測データ, その観測データを発生させるモデルをNaive Bayesモデル, このモデルの未知パラメータをラベルcのもとで素性fが起る条件付き確率p (f|c) に設定して, EMアルゴリズムを用いる. 結果として, モデルの識別精度が向上する. ここでは識別のための素性として, 対象単語の前後数単語の原型や表記という簡易なものに設定した. 実験では, ラベル付き訓練データのみから学習したNaive Bayesの正解率が58.2%, 同データから学習した決定リストの正解率が58.9% (Ibarakiの公式成績) であったのに対し, ラベル付き訓練データの他にラベルなし訓練データを用いた本手法では, 61.8%の正解率を得た. また訓練データの一部の不具合を修正することで, Naive Bayesの正解率を62.3%に改善できた. 更に本手法によりそれを68.2%に向上させることができた.
  • *池ヶ谷 有希, 野口 靖浩, 鈴木 夕紀子, 伊藤 敏彦, 小西 達裕, 近藤 真, 高木 朗, 中島 秀之, 伊東 幸宏
    人工知能学会全国大会論文集
    2004年 JSAI04 巻 3E2-10
    発行日: 2004年
    公開日: 2006/02/11
    会議録・要旨集 フリー
    対話システムに入力されるユーザの発話に、構文・意味的な曖昧性が存在する文が多く見られる。それらの文に対しては、構文・意味解析の結果、複数の解釈候補が得られてしまう。そこで、対話文脈の情報を利用し、ユーザの意図を正しく反映した解釈候補を選択する手法について提案する。これまで、様々な構文解析、意味解析の研究が行われてきたが、対話文脈を十分に利用したものは少ない。我々は、任意の述語で構成される節をすべて断定の述語「ある」を用いた文に同義変形する意味表現方式を採用している。今回提案する手法も、この枠組を基礎を置くものである。特に、ホテル検索対話における曖昧性のある文に対し、その有効性を示す。
  • 永田 亮, 桝井 文人, 河合 敦夫, 井須 尚紀
    自然言語処理
    2005年 12 巻 4 号 227-243
    発行日: 2005/08/26
    公開日: 2011/03/01
    ジャーナル フリー
    日本人英語学習者が書いた英文に多く見られる冠詞の誤りや単数/複数の使い分けに関する誤りを検出するためには, 名詞の可算/不可算の判定が重要である.そこで, 本論文では, 文脈情報に基づいた英語名詞の可算/不可算判定手法を提案する.提案手法では, 決定リストを用いて可算/不可算の判定を行う.決定リストは, 判定対象となっている名詞の可算/不可算の例からなる学習データから学習される.一般に, 学習データの作成は人手で行われるため, 費用と時間を要するという問題がある.この問題を解決するため, 本論文では学習データをコーパスから自動生成する手法も提案する.従って, 提案手法では, コーパスが与えられると決定リストの学習が行われる.学習された決定リストは, 文脈情報のみに基づいて可算/不可算の判定を行うため, 上記誤りの検出に応用可能である.実験の結果, 提案手法の可算/不可算の判定精度は83.9%であることが確認された.
  • 浅原 正幸, 加藤 祥
    認知科学
    2019年 26 巻 2 号 219-230
    発行日: 2019/06/01
    公開日: 2019/12/01
    ジャーナル フリー
     This article presents the contrastive analysis between reading time and syntactic/semantic categories in Japanese. We overlaid the reading time annotation BCCWJEyeTrack and a syntactic/semantic category information annotation on the ‘Balanced Corpus of Contemporary Written Japanese’. Statistical analysis based on a mixed linear model showed that verbal phrase tends to be shorter reading time than adjective,adverbial phrases or nominal phrases in the syntactic categories. Relation phrases are also shorter than other phrases in the semantic categories. The results suggest that the number of preceding phrases associated with the input facilitates the reading process,leading to the reduction in the gaze duration.
  • 出現傾向と語義の分析
    高丸 圭一, 内田 ゆず, 乙武 北斗, 木村 泰知
    人工知能学会論文誌
    2015年 30 巻 1 号 306-318
    発行日: 2015/01/06
    公開日: 2015/01/06
    ジャーナル フリー
    An onomatopoeia is a useful linguistic expression to describe sounds, conditions, degrees and so on. It is said Japanese is rich in onomatopoeic expressions. They are frequently used in daily conversations. The meaning and surface structure of an onomatopoeia varies diachronically. There seem to be regional variations in usage of onomatopoeias. It is necessary to investigate the actual condition of onomatopoeia quantitatively in order to apply onomatopoeias into artificial intelligence. This paper studies practical usages of onomatopoeias in spoken modern Japanese language. To explore Japanese onomatopoeias nowadays, we investigate regional assembly minutes collected from all areas in Japan. The corpus of regional assembly minutes, which has about 300 million words, is the target of the investigation of this study. The minutes of Japanese regional assemblies contain all transcriptions of the utterances in the assemblies. This corpus is suitable for our research since attributes of the speakers are clear and speakers are distributed nation-wide. The first research is about total frequency and regional distribution of onomatopoeias. The onomatopoeias, which represent a request for a promotion of policy, e.g., ``shikkari'', ``dondon'', are used at high frequency in regional assemblies. There are no remarkable regional differences in frequencies of these onomatopoeias though western Japan has slight higher frequency. The second research is about the meaning of the onomatopoeias. Most of onomatopoeias are polysemous. The meaning of the onomatopoeia differs by context. The authors have manually checked through 10,827 sentences, which contain 153 kinds of onomatopoeia, and then classified the meaning of each onomatopoeic expression. We analyzed for the following subjects: i) ambiguity of onomatopoeic expression, ii) regional differences in meaning, iii) new meanings in modern spoken language, iv) special usage in assemblies, and v) onomatopoeias in the named entities. The third research is about false extraction of onomatopoeias in the morphological analysis. The extraction errors are analyzed from the viewpoint of surface structure and appearance position. In terms of surface structure, it is clear that the word length of an onomatopoeic expression, which has highly false extraction, is shorter. The onomatopoeic expressions, which end with special morae, namely moraic obstruent, moraic nasal and long vowel, have a higher rate of false extraction. In terms of appearance position, dialectal grammar is the main factor causing false extraction. About 25% of false extraction is found in the sentence-closing particles in dialectal grammar. The result of quantitative analysis of the onomatopoeia in modern spoken Japanese language serves as the basic data which contributes to engineering. The results of the analysis in our research are exhibited through the WWW. It is hoped that results will contribute broadly to the practical use of onomatopoeia in the engineering field.
  • 西村 一球, 村上 陽平, Pituxcoosuvarn Mondheera
    ヒューマンインタフェース学会論文誌
    2025年 27 巻 2 号 125-132
    発行日: 2025/05/25
    公開日: 2025/05/25
    ジャーナル フリー HTML

    Each word in one language and its translation in another do not necessarily represent the same concept due to asymmetry in meanings and cultural contexts, especially for polysemous words. In recent years, as the accuracy of machine translation has improved, multilingual communication is being supported. However, this conceptual difference can lead to misunderstandings in multilingual communication. Therefore, we proposed the conceptual differences extraction in translation pairs method to quantify the concepts represented by words using conceptual dictionaries. Specifically, we used WordNet and Multilingual-WordNet, which are multilingual versions of WordNet, in our method. The concept of each word in Japanese, Chinese, and Indonesian is quantified based on the Synset, which is the smallest unit of concept in WordNet. This makes it possible to extract the concept differences among words with overlapping concepts in these languages. Consequently, our method finds 27,005 (Japanese-Chinese), 60,581 (Japanese-Indonesian), and 14,175 (Chinese-Indonesian) word pairs to be conceptually different out of 104,626 (Japanese-Chinese), 173,233 (Japanese-Indonesian), and 42,468 (Chinese-Indonesian) word pairs in WordNet.

  • 田中 穂積
    人工知能
    2000年 15 巻 5 号 821-828
    発行日: 2000/09/01
    公開日: 2020/09/29
    解説誌・一般情報誌 フリー
  • 郡司 隆男, 西田 豊明, 梶 博行, 田中 穂積
    人工知能
    2000年 15 巻 6 号 1035-1042
    発行日: 2000/11/01
    公開日: 2020/09/29
    解説誌・一般情報誌 フリー
  • 大澤 昇平, 松尾 豊
    人工知能学会論文誌
    2014年 29 巻 5 号 469-482
    発行日: 2014/09/01
    公開日: 2014/08/15
    ジャーナル フリー
    In social networking service (SNS), popularity of an entity (e.g., person, company and place) roles an important criterion for people and organizations, and several studies pose to predict the popularity. Although recent papers which addressing the problem of predicting popularity use the attributes of entity itself, typically, the popularity of entities depends on the attributes of other semantically related entities. Hence, we take an approach exploiting the background semantic structure of the entities. Usually, many factors affect a person's popularity: the occupation, the parents, the birthplace, etc. All affect popularity. Predicting the popularity with the semantic structure is almost equivalent to solving the question: What type of relation most affects user preferences for an entity on a social medium? Our proposed method for popularity prediction is presented herein for predicting popularity, on a social medium of a given entity as a function of information of semantically related entities using DBpedia as a data source. DBpedia is a large semantic network produced by the semantic web community. The method has two techniques: (1) integrating accounts on SNS and DBpedia and (2) feature generation based on relations among entities. This is the first paper to propose an analysis method for SNS using semantic network.
  • 新納 浩幸, 佐々木 稔
    自然言語処理
    2012年 19 巻 4 号 303-327
    発行日: 2012/12/14
    公開日: 2013/03/19
    ジャーナル フリー
    本論文では対象単語の用例集合から,その単語の語義が新語義(辞書に未記載の語義)となっている用例を検出する手法を提案する.ここでのアプローチの基本は,新語義の用例が用例集合中の外れ値になると考え,データマイニング分野の外れ値検出の手法を利用することである.ただし外れ値検出のタスクは教師なしの枠組みになるが,新語義検出という本タスクの性質を考慮すると,一部のデータ(用例)にラベル(対象単語の語義)が付与されているという枠組みで考える方が適切である.そのため本論文では一部のデータにラベルがついているという教師付きの枠組みで外れ値検出を行う.具体的には 2 つの手法(教師付き LOF と生成モデル)を用い,それら出力の共通部分(積集合)を最終的な出力とする.この教師付き LOF と生成モデルの積集合を出力する手法を提案手法とする.実験では SemEval-2 日本語 WSD タスクのデータを用いて,提案手法の有効性を示した.また WSD のアプローチを単独で利用しただけでは,本タスクの解決が困難であることも示した.
  • 加藤 祥, 菊地 礼, 浅原 正幸
    自然言語処理
    2020年 27 巻 4 号 853-887
    発行日: 2020/12/15
    公開日: 2021/03/15
    ジャーナル フリー

    日本語の比喩表現の実態把握を目的として,『現代日本語書き言葉均衡コーパス』に基づく指標比喩データベースを構築した.『比喩表現の理論と分類』に掲載されている 359 種類の比喩指標要素を手掛かりとし,『分類語彙表』に基づいて類義用例を確認しながら指標比喩表現候補を展開し,コアデータ6レジスタ(Yahoo! 知恵袋・白書・Yahoo! ブログ・書籍・雑誌・新聞)1,290,060 語から人手で 822 件抽出した.抽出した比喩用例には,喩辞・被喩辞の情報と,その分類語彙表番号を付与したほか,擬人化・擬物化・擬生化・具象化などの種別情報も付与した.さらに提喩・換喩・文脈比喩・慣用表現などの情報も付与した.上記作業は言語学者によったが,非専門家が比喩表現をどのように捉えるかを評価するために,比喩性・新奇性・わかりやすさ・擬人化・具体化(具象化)の 5 つの観点について,1事例あたり 22–77 人分(平均 33 人分)の評定値を付与した.レジスタ毎の相対度数や評定値の分布により,現代日本語の指標比喩表現の使用傾向を確認した.

feedback
Top