自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
28 巻, 1 号
選択された号の論文の21件中1~21を表示しています
巻頭言
一般論文
  • 鈴木 正敏, 松田 耕史, 大内 啓樹, 鈴木 潤, 乾 健太郎
    2021 年28 巻1 号 p. 3-25
    発行日: 2021年
    公開日: 2021/03/15
    ジャーナル フリー

    近年の言語モデリング技術の進展に伴い,クローズドブック質問応答と呼ばれる,読解を伴わない質問応答タスクの研究が進められている.既存研究では,モデルの訓練可能なパラメータ数を増大させることや,モデルの構造をより洗練されることに重点が置かれてきた.本研究では,モデルに多様な事実知識を効率的に持たせるために,データ指向のアプローチを選択し,その有効性を検証する.具体的には,事実知識の知識源として Wikipedia を利用した拡張データセットを作成し,モデルの訓練に利用する.実験により,データ拡張を用いて訓練したモデルが,訓練データでは見られなかった質問に正しく答えることができ,モデルが拡張データから新しい知識を学習していることを示唆する結果が得られた.正解率の評価では,Quizbowl の従来の最高性能を更新し,TriviaQA の強力な系列生成モデルに匹敵する性能をおよそ 20 分の 1 のパラメータ数で実現した.

  • 田中 翔平, 吉野 幸一郎, 須藤 克仁, 中村 哲
    2021 年28 巻1 号 p. 26-59
    発行日: 2021年
    公開日: 2021/03/15
    ジャーナル フリー

    雑談対話システムの評価指標として,ユーザとの対話を継続させる働きを表す,対話継続性が挙げられる.対話モデルの先行研究において,対話継続性の向上には,システム発話の一貫性が重要であると考えられている.そこで本論文では,対話モデルより生成された応答候補を,対話中に含まれる事態の一貫性に基づいてリランキングする手法を提案する.提案手法は対話に含まれる事態の一貫性(「ストレスが溜まる」と「発散する」は関連した事態である,など)を考慮することで,選択される応答の一貫性,対話継続性の向上を図る.本研究では異なる 2 つの手法を考案した.一つ目の手法は統計的に獲得された因果関係ペアとのマッチングにより,対話中の事態の一貫性を考慮し,二つ目の手法は Coherence Model によって,対話の一貫性を考慮する.自動評価の結果,これらの手法では応答中の単語選択の観点では一貫性は向上していることが確認された.一方で,人手評価の結果では,応答の主観的な一貫性は明確に向上しないものの,一つ目の方法により対話継続性が向上するという,一見して矛盾する結果が確認された.この結果より一貫性と対話継続性の関係について,人手評価結果の相関分析,事例分析を行った.これらの分析結果より,人手評価において主観的な一貫性の向上は対話継続性の向上にあまり寄与しないことが確認された.また,対話履歴に対して一貫する事態を選択できている場合には対話継続性が向上することが示唆された.

  • 加藤 祥 , 浅原 正幸, 森山 奈々美, 荻原 亜彩美 , 山崎 誠
    2021 年28 巻1 号 p. 60-81
    発行日: 2021年
    公開日: 2021/03/15
    ジャーナル フリー

    本論文ではシソーラス『分類語彙表』に対する反対語情報付与作業について示す.分類語彙表上では反対語対に対しても同じ分類番号が付与されている.この同じ分類番号が付与されている単語群から反対語対を抽出し,分類作業を行った.まず,人手により反対語候補となる単語対を網羅的に収集した.次に,一般的な日本語話者が反対語と感じるかをクラウドソーシングにより収集し,50% 以上の方が反対語とみなしたものを反対語と定義した.最後に,得られた反対語リストに対して,村木の「対義語」の分類を精緻化したものを付与した.分析にあたっては,反対語認識の非対称性・分類語彙表ラベル・分類・コーパス頻度・単語埋め込みなどの観点から検討を行った.言語学的な分析においては,閉じた反対語対に対してより反対語らしさを感じる傾向が確認された.言語処理的な分析においては,単語埋め込み上で反対語対の置き換え可能性の評定とコサイン類似度に中程度の相関があることが確認された.

  • Ander Martinez, Katsuhito Sudoh, Yuji Matsumoto
    2021 年28 巻1 号 p. 82-103
    発行日: 2021年
    公開日: 2021/03/15
    ジャーナル フリー

    Neural machine translation (NMT) systems often use subword segmentation to limit vocabulary sizes. This type of segmentation is particularly useful for morphologically complex languages because their vocabularies can grow prohibitively large. This method can also replace infrequent tokens with more frequent subwords. Fine segmentation with short subword units has been shown to produce better results for smaller training datasets. Character-level NMT, which can be considered as an extreme case of subword segmentation in which each subword consists of a single character, can provide enhanced transliteration results, but also tends to produce grammatical errors. We propose a novel approach to this problem that combines subword-level segmentation with character-level information in the form of character n-gram features to construct embedding matrices and softmax output projections for a standard encoder-decoder model. We use a custom algorithm to select a small number of effective binary character n-gram features. Through four sets of experiments, we demonstrate the advantages of the proposed approach for processing resource-limited language pairs. Our proposed approach yields better performance in terms of BLEU score compared to subword- and character-based baseline methods under low-resource conditions. In particular, the proposed approach increases the vocabulary size for small training datasets without reducing translation quality.

  • 児玉 貴志, 田中 リベカ, 黒橋 禎夫
    2021 年28 巻1 号 p. 104-135
    発行日: 2021年
    公開日: 2021/03/15
    ジャーナル フリー

    人間と機械の間の新たなインターフェースとして知的な対話システムの実現が期待されている.知的な対話システムは対話中の話者の内部状態を推測し,その結果に応じて適切に応答を変更する必要がある.本研究では映画推薦対話を具体例として,対話中の話者内部状態のモデル化とその話者内部状態を踏まえて応答を変更する対話システムの構築に取り組む.映画推薦をドメインとした対話システムを構築し,対話収集を行う.収集した対話データの分析に基づき,話者内部状態を話題に関する知識の有無,話題への興味の有無,対話意欲の有無の3つの軸でモデル化する.モデル化した話者内部状態を収集した対話データにアノテートし,これを学習データとして話者内部状態の自動推定を行った結果,高い推定精度を達成した.また,各話者内部状態に応じてシステムの応答を変更するルールを設計する.学習した話者内部状態推定器を用いて各話者内部状態を判定し,対話システムの応答を変更することでシステム発話の自然さが向上することを対話単位での評価と発話単位での評価の両方で確認した.

  • Takashi Kodama, Ryuichiro Higashinaka, Koh Mitsuda, Ryo Masumura, Yush ...
    2021 年28 巻1 号 p. 136-159
    発行日: 2021年
    公開日: 2021/03/15
    ジャーナル フリー

    This paper concerns the problem of realizing consistent personalities in neural conversational modeling by using user generated question-answer pairs as training data. Using the framework of role play-based question-answering, we collected single-turn question-answer pairs for particular characters from online users. Meta information was also collected such as emotion and intimacy related to question-answer pairs. We verified the quality of the collected data and, by subjective evaluation, we also verified their usefulness in training neural conversational models for generating responses reflecting the meta information, especially emotion.

  • 三田 雅人, 水本 智也, 金子 正弘, 永田 亮, 乾 健太郎
    2021 年28 巻1 号 p. 160-182
    発行日: 2021年
    公開日: 2021/03/15
    ジャーナル フリー

    文法誤り訂正の既存研究の多くはこれまで主に CoNLL-2014 評価データセットを用いた単一コーパス上で文法誤り訂正モデルを評価してきた.しかし,書き手の習熟度やエッセイのトピックなど様々なバリエーションのある入力文が想定される文法誤り訂正タスクにおいて,タスクの難易度は各条件下によって異なるため,単一コーパスによる評価では不十分であると考えられる.そこで本研究では,文法誤り訂正の評価の方法論として,単一コーパス評価は不十分であるという仮説に基づきコーパス横断評価の必要性について調査を行う.具体的には,4 種類の手法 (LSTM, CNN, Transformer, SMT) を 6 種類のコーパス (CoNLL-2014, CoNLL-2013, FCE, JFLEG, KJ, BEA-2019) で評価し,各コーパス間でモデル順位にばらつきが生じるかについて検証を行った.評価実験の結果,モデル順位は各コーパスによって大きく変動したため,既存の単一コーパス評価では不十分であることがわかった.また,横断評価はメタ評価方法としてだけではなく,実応用を見据えた場合においても有用であると考えられる.そこで,横断評価の有用性のケーススタディとして,文法誤り訂正の入力に想定される代表的な条件の一つである,書き手の習熟度を評価セグメントとした場合の横断評価について調査を行った.その結果,書き手の習熟度が初中級レベルと上級レベル間ではモデルの性能評価に関して大きな乖離があることがわかった.

  • Tianqi Wang, Hiroaki Funayama, Hiroki Ouchi, Kentaro Inui
    2021 年28 巻1 号 p. 183-205
    発行日: 2021年
    公開日: 2021/03/15
    ジャーナル フリー

    Short Answer Grading (SAG) is the task of scoring students’ answers for applications such as examinations or e-learning. Most of the existing SAG systems predict scores based only on the answers, and critical evaluation criteria such as rubrics are ignored, which plays a crucial role in evaluating answers in real-world situations. In this paper, we propose a semi-supervised method to train a neural SAG model. We extract keyphrases that are highly related to answers scores from rubrics. Weights to words of answers are calculated as attention labels instead of manually annotated attention labels, based on span-wise alignments between answers and keyphrases. Only answers with highly weighed words are used as attention supervision. We evaluate the proposed model on two analytical assessment tasks of analytic score prediction and justification identification. Analytic score prediction is the task of predicting the score of a given answer for a prompt, and Justification identification involves identifying a justification cue in a given student answer for each analytic score. Our experimental results demonstrate that both performance of grading and justification identification is improved by integrating attention semi-supervised training, especially in a low-resource setting.

  • Yoichi Ishibashi, Katsuhito Sudoh, Koichiro Yoshino, Satoshi Nakamura
    2021 年28 巻1 号 p. 206-234
    発行日: 2021年
    公開日: 2021/03/15
    ジャーナル フリー

    Word embeddings, which often represent analogic relations such as kingman + womanqueen, can be used to change an attribute of a word, including its gender. To transfer the gender attribute of king to obtain queen in this analogy, we subtract a difference vector manwoman from king based on the knowledge that king is male. However, developing such knowledge is significantly costly for words and attributes. In this work, we propose a novel method for word attribute transfer based on reflection mapping without an analogy-based operation. Experimental results show that our proposed method can transfer the word attributes of the given words without changing the words that are invariant with respect to the target attributes.

  • 大橋 空, 五十川 真生, 梶原 智之, 荒瀬 由紀
    2021 年28 巻1 号 p. 235-252
    発行日: 2021年
    公開日: 2021/03/15
    ジャーナル フリー

    本研究では,学習済み単語分散表現の品質を保持しつつモデルサイズを削減する.先行研究では,部分文字列の分散表現から単語の分散表現を構成し,学習済み単語分散表現を模倣してきた.これにより語彙サイズを削減できるが,品質を保持したまま著しくモデルサイズを削減することは困難であった.本研究では,似た意味を持つ単語同士が似たベクトルを持つという単語分散表現の特性を考慮して,対象単語の学習済み単語分散表現を模倣する通常の訓練に加えて,対象単語と他の単語たちとの類似度分布を模倣する訓練も行うマルチタスク学習を提案する.単語類似度推定の実験では,提案手法は部分文字列から単語分散表現を構成する既存手法の性能を改善し,同等の品質を保持してモデルサイズを 30 分の 1 に削減できた.テキスト分類の実験では,90% の品質を保持してモデルサイズを 200 分の 1 に削減できた.

学会記事
賛助会員記事
後付記事
feedback
Top