詳細検索結果
以下の条件での結果を表示する: 検索条件を変更
クエリ検索: "システム辞書"
41件中 1-20の結果を表示しています
  • 池原 悟, 白井 諭, 横尾 昭男, FRANCIS BOND, 小見 佳恵
    自然言語処理
    1995年 2 巻 1 号 3-17
    発行日: 1995/01/10
    公開日: 2011/03/01
    ジャーナル フリー
    機械翻訳システムを使用して現実の文書を翻訳する場合, 通常, 翻訳対象文書に合った利用者辞書が必要となる. 特に, 高品質翻訳を狙った機械翻訳システムでは, 各単語に対して, 約2,000種以上の分解精度を持つ単語意味属性の付与が必要であると言われており, 一般の利用者が, このような精密な情報を付与するのは困難であった. そこで本論文では, 利用者が登録したい日本語名詞 (複合名詞を含む) と英語訳語を与えるだけで, システムが
    システム辞書
    の知識を応用して, 名詞種別を自動的に判定し, それに応じた単語の意味属性を付与する方法を提案する. 本方式を, 新聞記事102文とソフトウエア設計書105文の翻訳に必要な利用者辞書作成に適用した結果, 自動推定方式では, 専門家の付与した意味属性よりも多くの属性が付与されるが, 40~80%の再現率が得られることが分かった. また, 人手で作成した利用者辞書を使用する場合と同等の訳文品質が得られることが分かった. 以上の結果, 利用者辞書作成への単語の登録において, 最も熟練度の要求される単語意味属性付与作業を自動化できる見通しとなった.
  • 白木澤 佳子
    情報管理
    1999年 42 巻 3 号 238-245
    発行日: 1999年
    公開日: 2001/04/01
    ジャーナル フリー
    科学技術振興事業団(JST)では平成10年9月より,Windows PC上で動作する日英機械翻訳システムの販売を開始した。JSTは平成2年度より英文抄録を作成するためにメインフレーム版のシステムを運用し,整備してきた。Windows版システムは,このメインフレーム版を元に開発したものである。約60万語の
    システム辞書
    を有しており,科学技術分野の文章の翻訳に優れた結果を得ることができる。ユーザー辞書等の機能を利用することにより,翻訳に要する時間や人手を大幅に削減することが可能である。また,機械翻訳に適した日本語を書くことにより,一層機械翻訳システムを有効に活用することができる。
  • 島田 達朗, 櫻井 彰人
    知能と情報
    2017年 29 巻 4 号 611-618
    発行日: 2017/08/15
    公開日: 2017/08/15
    ジャーナル オープンアクセス

    オンラインコミュニティサイトには多くの質問が投稿されるが,その中には疑問等に対する答えを求めるのではなく質問の具体的な答えそのものよりも,自分の思いへの共感を求める質問がある.共感を求める質問に対して回答する人は,そうでない質問に対して回答する人より有意に少ない.そこで,共感を求める質問に対しても適切な回答を与えることができれば,ユーザのサイトに対する満足度が向上する.共感を求める質問に対して高い回答率を持つユーザー層に回答してもらえるよう,質問を振り分けることにより,共感を求める質問であっても回答される可能性を上げるという方法をとることとした.なお本論文では共感を求める質問とそうでない質問に対して機械学習を用いて分類を行った.

  • 山崎 毅文, 春野 雅彦
    人工知能
    1998年 13 巻 3 号 480-487
    発行日: 1998/05/01
    公開日: 2020/09/29
    解説誌・一般情報誌 フリー

    This paper describes a sentence alignment environment, BACCS (Bilingual Aligned Corpus Construction System). BACCS incorporates our robust alignment system which is powerful and effective for translations between Japanese and English. Moreover, BACCS offers a graphical user interface that enables a corpus-builder to easily confirm and modify alignment results through our novel alignment system. This interface also offers the function of easily extending the system dictionary. Experimental results confirm that users can align bilingual corpus by sentence-level with BACCS about twice faster than without it.

  • 情報管理
    1995年 38 巻 7 号 669
    発行日: 1995/10/01
    公開日: 2008/05/30
    ジャーナル フリー
  • 新谷 元嗣
    経済分析
    2023年 208 巻 128-145
    発行日: 2023/10/25
    公開日: 2023/12/13
    ジャーナル フリー
    本稿では、テキスト情報を利用して、政府統計よりも速報性の高い景気動向指数を作成する方法と日本経済への応用例を概観する。分析手法に関しては、重要な単語の出現頻度に着目する辞書アプローチと、自然言語処理のモデルをテキストデータから学習する機械学習アプローチの2つに分類して整理する。辞書アプローチの中では、古典的なセンチメント分析が、特に計算や経済学的な解釈の容易性の観点から、現在でも十分有用性が高いと考えられる。ただし、その指数の作成過程では、マクロ経済ドメインに特化した極性辞書の利用やテキストデータの慎重な前処理作業が不可欠である。一方で、純粋な予測精度向上の観点からは、文脈を含めたテキスト情報を有効に反映できる機械学習アプローチが望ましい。今後は、新しい言語モデルの景気動向分析への応用が益々増加することが予想される。同時に言語モデルは近年急速に進化し大規模化しているため、モデルが変更された場合の過去系列の遡及推計や指数の継続性は重要な課題である。
  • ユーザ辞書の作成
    松田 豊稔
    熊本高等専門学校研究紀要
    2021年 12 巻 77-80
    発行日: 2021年
    公開日: 2021/02/16
    研究報告書・技術報告書 フリー
    KH Coder, which is a powerful free software for text mining, has a feature of a user-defined dictionary to adopt particular needs of users. In the report, a user-defined dictionary is created for content analysis of questions of the national examination for Technical Radio Operator for On-the-Ground Services in Japan: Technical terms necessary for learning radio engineering are extracted from all the questions in the national examinations that were ever carried out 36 times and then the technical terms are registered into the user-defined dictionary. Two examples of the content analysis with the user-defined dictionary are included.
  • 植村 哲士
    計画行政
    2021年 44 巻 3 号 107-113
    発行日: 2021/08/15
    公開日: 2022/06/03
    ジャーナル フリー
  • 菊池 美沙, 伊東 理絵, 田中 優太, 島田 洋輔, 後藤 了, 尾関 理恵, 小茂田 昌代
    医薬品情報学
    2018年 20 巻 2 号 111-119
    発行日: 2018/08/31
    公開日: 2018/09/12
    ジャーナル フリー

    Objective:The topic model is a well-known method used in the field of natural language processing (NLP)that defines adocument as constructed of topics that combine specific t erms. This method is used to model topic co-occurrencemathematically. In this study,we extracted topics from featu re vectors of explicit documents called medical package insertsby using cluster analysis. Methods:We counted the terms(nouns)recognized by the morphological analysis engine MeCab and created a documentterm matrix. A value of“tf・idf”was calculated in this matrix for term weighting to avoid the effect of term frequency. We reduced the dimensionality of the matrix using singular v alue decomposition,which removed unnecessary data,and weextracted feature vectors attributed to each medical package insert. The distance between feature vectors was calculatedusing cosine distance,and cluster analysis was performed based on the distance between the vectors.

    Results:Cluster analysis on our document-term matrix show ed that medical package inserts of drugs that have the sameefficacy or active ingredient were included in the same cl uster. Moreover, using term weighting and dimensionalityreduction,we could extract topics from medical package inserts.

    Conclusion:We obtained a foothold to apply our findings t o the recommendation of similar drugs. Cluster analysis ofmedical package inserts using NLP can contribute to the pro per application of drugs. In addition,our study revealed thesimilarities of drugs and suggested possibilities for new applications from several points of view.

  • 青木 仕
    医学図書館
    1999年 46 巻 1 号 104-105
    発行日: 1999/03/20
    公開日: 2011/09/21
    ジャーナル フリー
  • 相良 かおる, 小野 正子, 小作 浩美, 鈴木 隆弘, 高崎 光浩, 嶋田 元
    医療情報学
    2012年 32 巻 6 号 301-307
    発行日: 2012年
    公開日: 2015/02/13
    ジャーナル フリー
     医療情報から新たな情報や知識を発見するためには,テキストの構造化が必要であり,その最初の言語処理は文字列を言語単位に切り分けることである.一般に文字列を言語単位に切り分けるには,形態素解析器と専用の形態素解析用辞書を用いる.
     そこでわれわれは,診療記録などの医療情報を分析するために,形態素解析器Mecab用の分かち書き用辞書ComeJisyoV1を作成し,2008年11月に,次いでComeJisyoV2を2010年1月に,そしてComeJisyoV3を2011年3月に公開している.登録語数30,146語のComeJisyoV1から,現在公開しているComeJisyoV3は登録語数41,592語となり,解析精度が約7割のComeJisyoV1に比べて,登録語の9割以上の適正な分かち書きが可能となっている.
     本稿では,ComeJisyoの概要と解析精度について述べる.
  • 石川 大介, 片山 佳代子
    医療情報学
    2022年 42 巻 2 号 47-59
    発行日: 2022/09/28
    公開日: 2023/10/10
    ジャーナル フリー

     医療情報の分野において,生成されるテキスト情報は日々膨大となり,計算機による自動処理の実現が早急な課題とされている.しかしながら,病院内で生成される診療録や患者がSNS等で投稿する闘病記などの医療テキストは,特殊な文体や表現が使われることから,自然言語処理で扱うのは困難な問題とされている.

     神奈川県立がんセンターは,過去に提供したがん電話相談サービスの記録をテキストデータとして保持している.しかし,このテキストデータは他の医療テキストと同様に特殊な表現で記述されているため,自然言語処理に不向きなデータである.そこで本研究では,まず質的分析を行い,その結果に基づくテキストマイニングによって相談者の主訴の抽出と可視化を試みた.

     まず質的分析の結果から,横断的に出現する主訴「心配」「不安」「希望(要望)」「不信・不信感」「不満」をテキストマイニングの対象として選択した.次に,これら主訴の目的キーワードを拡張BNF (Backus-Naur form)によって抽出し,グラフ線画ツールを用いて可視化を行った.

     本研究の抽出結果に対してF-measureによる性能評価を行った.その結果,「心配」「希望」「不信・不信感」「不満」のF-measureは0.7を上回り,特に「希望」のF-measureは約0.8に達する性能を示した.また,本手法は一般的なテキストマイニング手法との比較実験においても性能の向上が確認された.一方,「不安」は目的キーワードが曖昧な場合が多いため,F-measureは約0.62に留まった.曖昧さの対応については今後の課題である.

     以上,本研究の方法の有効性が示され,本研究の知見は他の医療テキストの処理にも有用であると考えられる.

  • 佐藤 敏彦, 奈良 公史, 服部 貴志, 古賀 信哉, 大塚 一成
    日本計算機統計学会大会論文集
    1992年 6 巻
    発行日: 1992/05/13
    公開日: 2017/07/24
    会議録・要旨集 フリー
  • 佐藤 大吾, 大原 剛三, 豊田 哲也
    人工知能学会研究会資料 知識ベースシステム研究会
    2016年 108 巻
    発行日: 2016/06/01
    公開日: 2021/07/14
    会議録・要旨集 フリー
  • 島田 達朗, 櫻井 彰人
    情報システム学会誌
    2018年 14 巻 1 号 1-12
    発行日: 2018年
    公開日: 2019/06/07
    ジャーナル フリー
    多くのオ ンラインコミュニティサイトにはユ ーザー登録機能がある ユーザーが入力をした情報を用いることによって ユーザー自身が求める情報コンテンツを提供することが可能になり ユーザーの満足度を向上させる施策により 長くサービスを利用してもらうことに繋げることができる また パーソナラ イズされた広告の配信によるサービスの収益最大化が可能になる 特に結婚や出産と言った 人の生涯で発生する重要な出来事 ライフイベント を起点として 単価の高い購買活動を行うことが知られている しかし ユーザーがこのようなライフイベント情報を入力するには一定のハードルがあり ユーザーによっては自分自身のパーソナルな情報をほとんど入力しない場合も存在する 妊娠・出産・子育ての疑問を解決する女性のためのコミュニティサイトであるママリでも出産日を入力せずにサービスを利用しているユーザーが存在している そこで 出産日を入力せずとも ユーザーが投稿した質問から機械学習を用いてユ ーザーの出産予定日を予測するシステムの構築に取り組んだ.
  • 阪本 恭子, 岸本 和昌, 山本 剛, 竹村 匡正
    生体医工学
    2022年 60 巻 4-5 号 95-101
    発行日: 2022/09/10
    公開日: 2023/02/14
    ジャーナル フリー

    In an electronic medical record, nursing records describe not only the patient’s condition but also a series of nursing practice processes and are considered to reveal the thoughts and actions of nurses. Nursing records are also an important source of information for other healthcare workers as one of the patient’s information;therefore, writing nursing records accurately and in high quality is extremely important, and several hospitals perform regular audit of nursing records. Most nursing records are often written in free text;however, since the announcement of BERT (Bidirectional Encoder Representations from Transformers) in 2018, the performance of natural language processing tasks has improved. In this study, we attempted an automatic audit of nursing records using the BERT model. As a method, using tohoku-BERT that a pre-training model based on Japanese Wikipedia data, and UTH-BERT that a pre-training model based on clinical text, we constructed a classifier with fine tuning on a dataset annotated by an audit nurse to extract self-removal of tubes in nursing records. Concretely, the construction of the classifiers was trained with several changes in the rate of under-sampling. As a result, a high recall rate was shown in all cases when the ratio of positive cases:negative cases was 1:1, 1:5, 1:10, 1:20, 1:50, and 1:100. In particular, when using UTH-BERT with a ratio of 1:100, the accuracy was 0.995, the precision was 0.572, the recall rate was 0.952, and the F1-value was 0.713. Therefore, in the auditing work to extract descriptions of self-removal of tubes in nursing records, the classifier we have constructed may greatly reduce the actual audit target, although there is a small risk of oversight.

  • *楠木 祥文, 河合 亜矢子, 後藤 裕介, 白井 康之, 森田 裕之
    経営情報学会 全国研究発表大会要旨集
    2023年 202211 巻 4C-1
    発行日: 2023/01/31
    公開日: 2023/01/31
    会議録・要旨集 フリー

    コミュニティサイトにおいては,知識共有を目的としたQA と,共感や経験を共有するQAの2つがあるとされているが,出産育児に関するQA サイトにおいては,共感や経験の共有が参加者の満足度を向上させ,サイトの価値も高めるものと想定される.本稿では,出産育児サイトのデータを用いて,共感や経験を共有するためのQAがどのような特徴を持っていて,それらが識別可能かどうかを検証する.クラスタ分析による前処理と分類タスクによって,共感度,経験度の高いQAがある程度予測可能であることを示す.

  • 釜田 祐哉, 伊東 聖矢, 金子 直史, 鷲見 和彦
    精密工学会誌
    2019年 85 巻 12 号 1127-1135
    発行日: 2019/12/05
    公開日: 2019/12/05
    ジャーナル フリー

    Making everyday dishes is a vital part of everyday life. This paper proposes a novel system that takes a food flyer of a grocery store to automatically recommend popular recipes containing ingredients appeared in the flyer. Based on an optical character recognition (OCR) technique, our algorithm extracts the ingredient names from the words in the flyer by matching them with a dedicated ingredient dictionary. The extracted ingredients are used as queries to retrieve cooking information from a recipe database. Newly proposed word correction scheme using multiple similarity measures robustly corrects misrecognized characters from the OCR to boost the extraction performance. We conducted both quantitative and subjective evaluations to confirm the effectiveness of the proposed method. The subjective evaluation revealed that more than 90% of the participants rated the proposed system as practical and were satisfied with the quality of recommended recipes.

  • *田中 るみ子, 中山 伸一
    ケモインフォマティクス討論会予稿集
    2018年 2018 巻
    発行日: 2018年
    公開日: 2018/10/26
    会議録・要旨集 フリー
    特許公開公報に記載されている化学物質名は、多様であり、記載法も書き手に委ねられているため共有化を妨げている。化学物質名を自動抽出できれば、共有化に役立つ。日本語の化学物質名を抽出するために、化学物質名をタグ付けしたコーパスの作成を行い、文章から単語の切り出し、切り出した単語の連結、連結した単語群から化学物質名を取り出す方法を検討した。化学物質名と間違えやすい官能基名との選別比較も行った。
  • 関 萌水, 林 篤司, 岩下 志乃
    知能と情報
    2022年 34 巻 3 号 619-623
    発行日: 2022/08/15
    公開日: 2022/08/15
    ジャーナル フリー

    本研究では,対話文における同じ話題の区間に対して話題語をラベル付けする手法を提案する.まず,人がどのように話題語をラベル付けするかを調査した.その結果,話題が開始した最初の文に含まれる語や,区間全体に現れる語から連想される語が話題語として付与されていることがわかった.また,区間内の単語の出現頻度を基にラベル付けした場合は,他の話題にも表れるような特徴的でない言葉が出力されてしまうことがわかった.そこで,今回は区間の最初の文においてTF-IDFが高い語を話題語の候補として取得したうえで,話題に関係なく現れる語を除くためにDFを用いたストップワードを設定した.提案手法を用いて話題語のラベル付けをし,人の付与したラベルと比較する評価実験を行った結果,ラベル付けの精度向上を確認できた.

feedback
Top