詳細検索結果
以下の条件での結果を表示する: 検索条件を変更
クエリ検索: "パープレキシティ"
77件中 1-20の結果を表示しています
  • *江原 遥
    日本認知心理学会発表論文集
    2023年 2023 巻 O_E02
    発行日: 2023年
    公開日: 2023/10/18
    会議録・要旨集 フリー
    可読性(リーダビリティ,読みやすさ)を数値として自動評価する事は、読解という日常的な認知行動を理解するための重要課題であり、教育等への応用も幅広い。英文テキストの可読性指標としては、Flesch-Kincaid Grade Level (FKGL)等の指標が有名であり、英語圏では社会の様々な場面で利用されるなど社会実装も行われている。一方、こうした手法は母語話者にとっての難しさであるため、こうした古典的な可読性指標をヒューリスティクスと批判し、非母語話者用の可読性指標を最新の大規模言語モデル等を用いて理論的妥当性の高い形で構築する研究が、人工知能分野・自然言語処理分野で行われている。こうした流れに対し、本研究ではFKGL等の古典的可読性指標も、言語モデルから計算される
    パープレキシティ
    という複雑性の線形和として表現できる事を示す。これにより、他の言語モデルとのFKGLの比較や、FKGLの英語以外の言語への応用が理論的に可能になる。
  • 中川 聖一, 赤松 裕隆, 西崎 博光
    自然言語処理
    1999年 6 巻 2 号 97-115
    発行日: 1999/01/10
    公開日: 2011/03/01
    ジャーナル フリー
    本研究では大規模コーパスが利用可能な新聞の読み上げ音声の認識のための精度の碁い言語モデルの構築を実験的に検討した. N-gram言語モデルの改善を目指し, 以下の3つの点に注目した. まずN-gram言語モデルはタスクに依存するので, タスクに関する大量のデータベースを用いて構築される必要があることに注目し, 共通の大長データベースによる言語モデルをもとに, 同一ジャンルの過去の記事を用いるタスク適応化の方法とその有効性を示す. 次に, 新聞記事は話題が経時的に変化するので数日間~数週間の直前の記事内容で言語モデルの適応化を行なう方法とその有効性を示す. 最後に新聞テキストには, 使用頻度の高い (特殊) 表現や, 固定的な言い回し毛どの表現 (以下, 定型表現と呼ぶ) が多いことに注目し, 複数形態素から成る定型表現を抽出し, これを1形態素として捉えた上で, N-gram言語モデルを構築する方法を杉討し, 有用性を示す.
  • 家田 諭
    日本建築学会環境系論文集
    2007年 72 巻 622 号 123-128
    発行日: 2007/12/30
    公開日: 2017/02/25
    ジャーナル フリー
    In this paper, I define "shape element" just like a element of naural language. I propose a processing how to discover the architectural shape element based on conceptual KDD. That processing have some steps. Those steps are plan selection, making pre-data, using bipolar-scopically converting method, discovering algorythm of architectural shape element, interpretation/evaluation. There for, I explain about how to make the pre-data, about bipolar-scopically converting method, about how to discover the wall element. For get reliability to discovering algorythm, I verify by using conceptual N-gram. N-gram is used at study of natura language analysis. I verified as comparing with "static" and "dynamic". I propose a expression for calicuration perprexity. It is value of decision difficulity. perplexity=[summation the AND area of N-area]/[summation all N-area] I verified that perplexity by using 8 houses designed by Marcel Breuer. I got a result that "dynamic" is better than "static". I got good result from case study. I'll think the algorithm is to need to add script somewhat case of wall gathering status.
  • 小山 照夫
    情報知識学会誌
    2010年 19 巻 4 号 306-315
    発行日: 2010/02/15
    公開日: 2010/04/04
    ジャーナル フリー
    用語は研究成果を記述するために用いられる言語記号であり,研究成果の記述された文献を高度利用し,研究のさらなる発展を期する上で重要な役割を担うものである.本論文では,日本語研究文献テキストから,自然言語処理技術を応用した手法により用語候補を機械的に抽出するための方法について論じる.日本語では多くの用語は語幹レベルでの複合語として出現するが,現在の形態素分類に従う複合語抽出をそのまま適用するのでは,再現率を保ちつつ用語抽出の適合率を高めることは容易ではない.本研究では,抽出対象となる複合語の内部構造と,テキスト内での複合語の前後に対する接続関係に制約を設けることにより,適合率を下げることなく多くの複合語用語候補を抽出することが可能となることを示す.また,抽出された複合語用語候補について,候補間に成立する入れ子関係や候補が関連すると考えられる部分研究テーマの側面から整理し,体系化する試みについて述べる.
  • 正田 備也, 濱田 剛, 柴田 裕一郎, 小栗 清
    映像情報メディア学会技術報告
    2008年 32.54 巻 ME2008-174/BCT2008-1
    発行日: 2008/11/28
    公開日: 2017/09/20
    会議録・要旨集 フリー
    本論文では,LDA(latent Dirichlet allocation)言語モデルによる画像からの多重トピック抽出を,GPUを用いて高速化する手法を提案する.LDAはテキスト・マイニングのための確率モデルとしてBleiらにより提案されたが,近年,他のマルチメディア情報へも応用されている.そこで,本論文では,Wangの10,000test imagesにLDAを適用し,多重トピック抽出をおこなう.LDAのためのパラメータ推定にはcollapsed変分ベイズ法を用いるが,Nvidia CUDA互換GPUを利用して推定を高速化する手法を提案する.
  • 李 凌寒, 鶴岡 慶雅
    自然言語処理
    2023年 30 巻 2 号 664-688
    発行日: 2023年
    公開日: 2023/06/15
    ジャーナル フリー

    本論文では,ニューラルネットエンコーダが学習する知識のうち,どのような構造的知識が自然言語のタスクを解くのに転移可能かを調査する.提案するアプローチでは,自然言語の構造を模したいくつかの「人工言語」を用いてエンコーダを訓練し,そのエンコーダの自然言語の下流タスクにおける性能を評価することで,事前学習データに含まれている構造的知識の転移可能性を計測する.実験の結果,転移可能なエンコーダを獲得するにあたって,事前学習のデータ系列中において,統計的依存関係が重要であること,係り受け関係を持つ際に入れ子構造が有用であることなどが明らかとなった.こうした結果は,エンコーダが転移可能な抽象的な知識として,位置を考慮したトークンの文脈依存性があることを示唆している.

  • *西條 伸洋, 鈴木 基之, 伊藤 彰則, 牧野 正三
    電気関係学会東北支部連合大会講演論文集
    2004年 2004 巻 2I5
    発行日: 2004年
    公開日: 2005/07/27
    会議録・要旨集 フリー
  • 『和泉式部日記』と『更級日記』を題材に
    太刀岡 勇気
    計量国語学
    2014年 29 巻 6 号 187-210
    発行日: 2014/09/20
    公開日: 2024/05/01
    ジャーナル オープンアクセス
     計量国語学的分析では,文章をいくつかの計量指標に基づき分析する.このような方法は主に,現代語の分析に使われ,著者同定などに成果を挙げている.しかしながらこの方法を古典文学作品に適用する際には,異本の問題が生じる.原本が残っていないことが通例の古典文学作品には異本が多く,これが時には同一著者のものとは思えないほどの文章の相違を伴うからである.本稿では,編集距離と
    パープレキシティ
    ーを用いることで,異本間の関係性を定量的に表す方法の有効性を示す.提案法が従来の計量指標の主成分分析による分類法に比べて,文献学の分野での知見とよりよい一致を示すことを,中古日記文学の代表的な作品である『和泉式部日記』を用いて検証する.さらに同一作品中の異本間の差異が,他作品との差異に比べて十分小さいことを,『更級日記』との比較を通じて示す
  • 階層構造を持つ文書に対する動的トピックモデル
    清水 琢也, 岡留 剛
    人工知能学会論文誌
    2016年 31 巻 2 号 M-F92_1-8
    発行日: 2016/03/01
    公開日: 2016/03/03
    ジャーナル フリー
    Dynamic Stacked Topic Model (DSTM) proposed here is a topic model, for analyzing the hierarchical structure and the time evolution of topics in document collections. Such document collections as news articles and scientific papers are framed hierarchical. In newspaper, for instance, an article related to the soccer is published in the sports section and that related to the election in the politics section. Furthermore, both topics and sections naturally evolve with a certain timescale. In the proposed model, to capture correlations between topics and the time sequence of topics in sections, a section is modeled as a multinomial distribution over topics based on the previous topic distribution as well as a topic assumed to be generated based on the word distribution of previous epoch. The inference and parameter estimation processes can be achieved by a stochastic EM algorithm, in which the maximum a posteriori estimation of hyperparameters and the collapsed Gibbs sampling of latent topics and sections are alternately executed. Exploring real documents also described demonstrates the effectiveness of the proposed model.
  • 伊東 伸泰, 西村 雅史, 荻野 紫穂, 山崎 一孝
    自然言語処理
    1999年 6 巻 2 号 9-27
    発行日: 1999/01/10
    公開日: 2011/03/01
    ジャーナル フリー
    日本語では単語の境界があいまいで, 活用等のルールに基づいて定義された単位である形態素は必ずしも人が認知している単語単位や発声単位と一致しない. 本研究では音声認識への応用を目的として人が潜在意識的にもつ単語単位への分割モデルとその単位を用いた日本語の言語 (N-gram) モデルについて考察した. 本研究で用いた単語分割モデルは分割確率が2形態素の遷移で決定されるという仮定を置いたモデルで, 人が単語境界と考える点で分割した比較的少量のテキストデータと形態素解析による分割結果とを照合することにより, パラメータの推定を行った. そして多量のテキストを同モデルにしたがって分割し, 単語単位のセット (語彙) と言語モデルを構築した. 新聞3誌とパソコン通信の投稿テキストを用いた実験によれば約44,000語で, 出現した単位ののべ94-98%がカバーでき, 1文あたりの単位数は形態素に比べて12%から19%少なくなった. 一方, 新聞とパソコン通信ではモデルに差があるもののその差は単語分割モデル, 言語モデル双方とも事象の異なりとして現れ, 同一事象に対する確率の差は小さい. このため, 新聞・電子会議室の両データから作成した言語モデルはその双方のタスクに対応可能であった.
  • 吉野 幸一郎, 森 信介, 河原 達也
    人工知能学会論文誌
    2014年 29 巻 1 号 53-59
    発行日: 2014/01/05
    公開日: 2014/01/07
    ジャーナル フリー
    A novel text selection approach for training a language model (LM) with Web texts is proposed for automatic speech recognition (ASR) of spoken dialogue systems. Compared to the conventional approach based on perplexity criterion, the proposed approach introduces a semantic-level relevance measure with the back-end knowledge base used in the dialogue system. We focus on the predicate-argument (P-A) structure characteristic to the domain in order to filter semantically relevant sentences in the domain. Moreover, combination with the perplexity measure is investigated. Experimental evaluations in two different domains demonstrate the effectiveness and generality of the proposed approach. The combination method realizes significant improvement not only in ASR accuracy but also in semantic-level accuracy.
  • 中川 聖一
    人工知能
    2002年 17 巻 1 号 35-40
    発行日: 2002/01/01
    公開日: 2020/09/29
    解説誌・一般情報誌 フリー
  • 趙 力, 小林 豊, 新美 康永
    日本音響学会誌
    1998年 54 巻 7 号 497-505
    発行日: 1998/07/01
    公開日: 2017/06/02
    ジャーナル フリー
    本論文では, 3次元Viterbi法により音素情報と音調情報を統合した中国語連続音声認識システムについて報告する。まず基本となる(音調情報を用いない)連続音声認識システム及び音調認識システムの概要を説明する。前者では60個の音素クラスのHMMを用い, 後者では11個の音調単位のHMMを用いている。音素情報と音調情報の結合は, 音素モデルの状態と音調モデルの状態と時間との3次元空間において最適なパスを求めることにより行っている。扱うタスクはホテル予約で, 文脈自由文法(CFG)で中国語の構文を記述している。テストセット
    パープレキシティ
    は27.3である。10名の話者のおのおのが発声した107文について, 音素情報と音調情報の重みを変化させ, また最適なパスに3種類の制限を加えて実験した結果, 最良の結果として平均文認識率75.9%を得た。音調情報を用いない場合より約12.4%改善された。また, この改善は統計的に有意であることが分かった。
  • 黄川田 拓実, 櫻井 凜, 伏見 卓恭
    Webインテリジェンスとインタラクション研究会 予稿集
    2023年 19 巻
    発行日: 2023年
    公開日: 2024/01/26
    会議録・要旨集 フリー

    ユーザ投稿型のオークションサイトやフリマアプリでは,企業型ECサイトとは異なり,商品説明文が適切でない場合が散見される.本研究では,企業型ECサイトにおける商品説明文で学習したLLMを多クラス分類タスクで学習し,その後転移学習したモデルを利用してユーザが投稿した商品説明文を分類する.この際,分類確率の高低により適切な文か否かを判別する手法を提案する.実際のECサイトに投稿された公式と一般ユーザによる商品説明文を用いた評価実験により,提案手法の有効性を確認する.

  • 佐々木 謙太朗, 吉川 大弘, 古橋 武
    人工知能学会論文誌
    2015年 30 巻 2 号 466-472
    発行日: 2015/03/01
    公開日: 2015/02/03
    ジャーナル フリー
    This paper proposes a mixture model that considers dependence to multiple topics. In time series documents such as news, blog articles, and SNS user posts, topics evolve with depending on one another, and they can die out, be born, merge, or split at any time. The conventional models cannot model the evolution of all of the above aspects because they assume that each topic depends on only one previous topic. In this paper, we propose a new mixture model which assumes that a topic depends on previous multiple topics. This paper shows that the proposed model can capture the topic evolution of death, birth, merger, and split and can model time series documents more adequately than the conventional models.
  • 瀬川 修, 武田 一哉
    電気学会論文誌C(電子・情報・システム部門誌)
    2005年 125 巻 9 号 1438-1443
    発行日: 2005年
    公開日: 2005/12/01
    ジャーナル フリー
    We have developed an information retrieval system for telephone dialogue in load dispatch center. In load dispatching operations, the needs for recording and information retrieval of a telephone dialogue are high. The proposed system gives a solution for the task and realizes an information retrieval function with any keywords. The effectiveness of the system is verified by the telephone dialogue transcription and information retrieval experiments. With 30 telephone dialogue in a load dispatch center, we obtain 59.5% in average word correct and 44.4% in average word accuracy. In the information retrieval experiment, with 20 keywords, we obtain 87.3% in average precision and 67.2% in average recall.
  • 杉山 弘晃
    人工知能学会研究会資料 言語・音声理解と対話処理研究会
    2015年 75 巻
    発行日: 2015/10/26
    公開日: 2021/06/28
    会議録・要旨集 フリー

    Chat-oriented dialogue systems sometimes generate utterances that are inappropriate as the responses for user utterances and cause dialogue breakdown If a system can predict whether an utterance cause dialogue breakdown, it helps to continue dialogue with suppressing such inappropriate system utterances. In this paper, I develop a dialogue breakingdown detector and analyze the effects of training features, data and algorithms for dialogue breakdown detection performance.

  • 北 研二, 福井 義和, 永田 昌明, 森元 逞
    自然言語処理
    1997年 4 巻 4 号 73-85
    発行日: 1997/10/10
    公開日: 2011/03/01
    ジャーナル フリー
    コーパスに基づく確率的言語モデルとして, 従来は主に語彙統語論的なモデルが扱われてきた. 我々は, より高次の言語情報である対話に対する確率的モデルを, コーパスから自動的に生成するための研究を行った. 本研究で用いたコーパスは, ATR対話データベース中の「国際会議参加登録」に関する対話データであり, 各発話文には, 発話者のラベルおよび陳述・命令・約束などの発話行為タイプが付与されている. 本技術資料では, これらのコーパスから, 2種類の方法を用いて, 確率的な対話モデルを生成する. まず初めに, エルゴードHMM (Hidden Markov Model) を用いて, コーパス中の話者ラベルおよび発話行為タイプの系列をモデル化した. 次に, ALERGIAアルゴリズムと呼ばれる, 状態マージング手法に基づいた学習アルゴリズムを用いて, 話者ラベルおよび発話行為タイプの系列をモデル化した. エルゴードHMMの場合には, 確率モデルの学習に先立ち, モデルの状態数をあらかじめ決めておく必要があるが, ALERGIAアルゴリズムでは, 状態の統合化を繰り返すことにより, 最適な状態数を持つモデルを自動的に構成することが可能である. エルゴードHMMあるいはALERGIAアルゴリズムを用いることにより, 話者の交替や質問・応答・確認といった会話の基本的な構造を確率・統計的にモデル化することができた. また, 得られた確率的対話モデルを, 情報理論的な観点から評価した.
  • 新納 浩幸, 浅原 正幸, 古宮 嘉那子, 佐々木 稔
    自然言語処理
    2017年 24 巻 5 号 705-720
    発行日: 2017/12/15
    公開日: 2018/03/15
    ジャーナル フリー

    我々は国語研日本語ウェブコーパスと word2vec を用いて単語の分散表現を構築し,その分散表現のデータを nwjc2vec と名付けて公開している.本稿では nwjc2vec を紹介し,nwjc2vec の品質を評価するために行った2種類の評価実験の結果を報告する.第一の評価実験では,単語間類似度の評価として,単語類似度データセットを利用して人間の主観評価とのスピアマン順位相関係数を算出する.第二の評価実験では,タスクに基づく評価として,nwjc2vec を用いて語義曖昧性解消及び回帰型ニューラルネットワークによる言語モデルの構築を行う.どちらの評価実験においても,新聞記事7年分の記事データから構築した分散表現を用いた場合の結果と比較することで,nwjc2vec が高品質であることを示す.

  • 水上 雅博, Graham Neubig, Sakriani Sakti, 戸田 智基, 中村 哲
    人工知能学会研究会資料 言語・音声理解と対話処理研究会
    2014年 72 巻
    発行日: 2014/12/08
    公開日: 2021/06/28
    会議録・要旨集 フリー

    In text and speech, there are various features that express the individuality of the writer or speaker. We proposed a method for transforming individuality using a technique inspired by statistical machine translation (SMT), and showed the effectiveness. In previous work, we proposed a method for paraphrasing for characteristic words using n-gram clustering. However, the method can be improved, because it considers only short context. In this paper, we propose a model of transforming individuality that considers longer contexts. To achieve this, we suggest adaptation of the language models and expansion of paraphrasing for characteristic words.

feedback
Top