自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
27 巻, 2 号
選択された号の論文の14件中1~14を表示しています
巻頭言
一般論文
  • 平尾 努, 西野 正彬, 永田 昌明
    2020 年 27 巻 2 号 p. 169-188
    発行日: 2020/06/15
    公開日: 2020/09/15
    ジャーナル フリー

    本稿では,抽出型要約手法におけるオラクル要約,すなわち自動評価スコアを最大化する要約を生成するための整数計画問題による定式化を示し,抽出型要約システムが到達可能な自動評価スコアの上限値を明らかにする.そして,オラクル要約の妥当性を検証するため,ピラミッド法と Document Understanding Conference (DUC) で利用された Quality Questions を用いて内容と言語品質の双方の観点から人手評価を行う.文抽出,Elementary Discourse Unit (EDU) 抽出,根付き部分木抽出の 3 種の抽出型要約手法を対象とし,Text Analysis Conference (TAC) 2009/2011 のデータセットを用いて ROUGE と BasicElements (BE) を最大化するオラクル要約を生成してそれらを評価した.その結果,抽出型オラクル要約の自動評価のスコア,ピラミッド法による評価スコアは現状の要約システムのスコアよりも明らかに優れていることがわかった.一方,言語品質に関しては現状の要約システムと差がない,あるいは劣る結果となった.これらより,抽出だけでもまだ良い要約を生成できる余地がある一方,言語品質を改善する必要が明らかとなった.

  • 西原 大貴, 梶原 智之, 荒瀬 由紀
    2020 年 27 巻 2 号 p. 189-210
    発行日: 2020/06/15
    公開日: 2020/09/15
    ジャーナル フリー

    本稿では,入力される英文を特定の学年に合わせた難易度に平易化する難易度制御の手法を提案する.提案手法では,文と単語の両方の難易度を考慮することで,入力文を目標の難易度の文へ書き換える.文の難易度は既存手法と同様,テキスト平易化モデルの入力として目標の文の難易度ラベルを加えることで考慮する.単語の難易度を考慮するために,本研究では 3 種類の手法を提案する.それぞれ,単語分散表現を拡張して素性として単語難易度を考慮する手法,難解な単語を出力しないハードな語彙制約手法,平易な単語を出力しやすくするソフトな語彙制約手法である.評価実験により,ソフトな語彙制約が有効であることを示す.既存手法は文の難易度のみを考慮しており,省略など構文的な平易化には長けるが,難解な単語をしばしば残す.一方で,提案手法は構文と単語の両方の難易度制御を実現できる.

  • 辻村 有輝, 三輪 誠, 佐々木 裕
    2020 年 27 巻 2 号 p. 211-235
    発行日: 2020/06/15
    公開日: 2020/09/15
    ジャーナル フリー

    本稿では関係分類における入力トークンの重要性を学習し,不要な情報をマスクするマスク機構を提案する.入力文の依存木上における,注目エンティティ間を結ぶ最短経路上には関係分類において重要な情報がよく存在するため,関係分類の特徴の一つとしてよく利用される.しかし,このヒューリスティックは所有格の s のように,最短経路外に重要なトークンが存在するような例外に対してはあてはまらない.そこで本研究では重要なトークンの判別規則を学習する機構を導入しそのような事例に対応する.学習はタスク損失からEnd-to-Endに行われ,追加アノテーションは必要ない. 実験の結果,提案手法は最短経路のヒューリスティックを上回る識別性能を記録した.また,提案機構が学習するマスクは最短経路と高い類似度となる一方,所有格の s など最短経路外の重要なトークンも利用するよう学習された.

  • 鷲尾 光樹, 加藤 恒昭
    2020 年 27 巻 2 号 p. 237-256
    発行日: 2020/06/15
    公開日: 2020/09/15
    ジャーナル フリー

    単語間の意味関係識別,特に名詞ペアの識別は,言語理解に用いられる WordNet などの語彙知識ベースの自動的な拡充にとって重要である.意味関係識別の効果的なアプローチに,対象の単語ペアとコーパス上で共起した,単語ペアを文中で結びつける単語系列,あるいは依存構造パスなどの関係パタンを用いるものがある.関係パタンは意味関係を反映しているため,意味関係識別に重要な特徴である.関係パタンに基づく手法は,対象の単語ペアのコーパス上での共起を必要とするが,単語の出現頻度分布はジフの法則に従うことが知られており,大抵の内容語は低頻度であるため,この要請は大規模コーパスを扱ったとしても必ずしも満たされるわけではない.本研究では,この問題を解決するために,関係パタンの情報を反映した単語ペアの埋め込み表現を,コーパスから教師なし学習する手法を提案する.本手法はニューラルネットワークで単語ペアと関係パタンの共起を汎化することで,コーパス上で十分に共起しなかったペアに対しても,単語ペア埋め込みを通して関係パタンの情報を意味関係識別モデルに提供する.実験により,本手法による単語ペア埋め込みを最先端の関係パタンに基づく手法に適用すると,4 つの意味関係識別データセットの名詞ペアについて性能が向上し,適切に共起の問題を緩和できていることがわかった.

  • 西村 太一, 橋本 敦史, 森 信介
    2020 年 27 巻 2 号 p. 257-279
    発行日: 2020/06/15
    公開日: 2020/09/15
    ジャーナル フリー

    本研究では,写真付きレシピの作成を容易にするために,写真列を入力としてレシピを生成するという課題と,それを解決する手法を提案する.レシピを正しく生成するためには,モデルは写真を説明する上で欠かせない物体や動作といった重要語と,それを含む表現を生成する必要がある.写真列を入力として文章を出力する類似課題である Visual storytelling の手法では,重要語の存在は考慮されていなかった.これに対して,本論文では,検索課題として取り組まれてきた手法を文生成モデルに組み込むことで,モデルは入力写真に適した重要語を過不足なく含む表現の情報を活用しながらレシピを生成する手法を提案する.日本語のレシピを対象に実験を行った結果,本手法を適用することで生成文の自動評価尺度や,写真に適した重要語が生成文中に含まれているかといった評価においてベースラインと比較して性能が向上したことを実験的に確認した.

  • 表 悠太郎, 田村 晃裕, 二宮 崇
    2020 年 27 巻 2 号 p. 281-298
    発行日: 2020/06/15
    公開日: 2020/09/15
    ジャーナル フリー

    本稿では,原言語文の係り受け木に対する単語間の相対的位置関係を Transformer エンコーダ内の Self Attention でエンコードする新たなニューラル機械翻訳モデルを提案する.具体的には,提案モデルでは,原言語文を係り受け解析した結果得られる係り受け木中の 2 単語間の相対的な深さを埋め込んだベクトルを Transformer エンコーダ内の Self Attention に付加する.ASPEC の日英及び英日翻訳タスクにおいて,原言語文の係り受け構造を用いない従来の Transformer モデルよりも翻訳精度が高いことを示す.特に,日英翻訳においては 0.37 ポイント BLEU スコアが上回ることを確認した.

  • 村上 聡一朗, 渡邉 亮彦, 宮澤 彬, 五島 圭一, 柳瀬 利彦, 高村 大也, 宮尾 祐介
    2020 年 27 巻 2 号 p. 299-328
    発行日: 2020/06/15
    公開日: 2020/09/15
    ジャーナル フリー

    本稿では,日経平均株価の市況コメントを生成するタスクを例として,時系列数値データの多様な特徴を抽出してテキスト化する手法を提案する.日経平均株価の市況コメントでは価格の変動の特徴だけが表出されるわけではなく,価格の履歴を参照する表現,時系列データの変化を示す表現,テキストが書かれる時間帯に依存する表現が見られる.また,数値に言及する場合は,価格が直接言及されることもあれば,前日からの増減幅や それらを切り上げ・切り捨てした値などが用いられることもある.本研究では,エンコーダ・デコーダモデルをベースラインとし,上記のような多様な特徴を自動抽出してテキスト化するためのエンコード/デコード手法を探求する.まず,株価の短期的・長期的な変化を捉えるために,エンコーダへの入力として短期的および長期的な時系列株価データを与える.デコード時には,テキストが書かれる時間帯に依存する表現を生成するために,時間帯情報を導入する.また,デコーダが数値に言及する際,数値の演算操作を推定して計算することで株価の数値表現を生成する.実験では,自動評価および情報性・流暢性に関する人手評価を行い, 提案手法によって上記の特徴を捉えた質の高い株価の市況コメントの生成が可能になることを示した.

  • 石川 開, 高村 大也, 奥村 学
    2020 年 27 巻 2 号 p. 329-359
    発行日: 2020/06/15
    公開日: 2020/09/15
    ジャーナル フリー

    本稿は,イベント表現抽出において,テキスト中のイベント表現の多様性に対応するために,異なるエンコーティングモデル群と,入力毎に信頼度の高いエンコーディングモデルの集合を動的に選択する動的アンサンブル機構からなる新たなアンサンブル法を提案する.サブタスク毎の比較評価により,提案手法を用いたイベント情報抽出が,各エンコーディングモデルやソフト投票法を F1 値で上回る事を示す.さらに,NIST TAC KBP2016 および KBP2017 のイベント表現抽出の公式評価との比較評価を通じて,提案手法の有効性を示す.最後に,提案手法の様々なニューラルネットワークモデルへの適用可能性の議論を通じて,イベント表現検出における提案手法の有用性と課題を考察する.

  • 宮内 拓也, 浅原 正幸
    2020 年 27 巻 2 号 p. 361-381
    発行日: 2020/06/15
    公開日: 2020/09/15
    ジャーナル フリー

    本稿では,情報構造に関係する文法情報がどのように語順に影響を及ぼすのかについて調査するため,『現代日本語書き言葉均衡コーパス』の名詞句に対して情報構造に関わる文法情報のタグを付与した BCCWJ-InfoStr を利用して,名詞句の係り先からの距離(文節数)をベイジアン線形混合モデルによりモデル化した結果を報告する.その結果,日本語の名詞句の語順は,(I) 情報状態が旧情報であるものが新情報であるものに先行する,(II) 共有性が共有であるものが非共有であるものに先行する,(III) 定名詞句が不定名詞句に先行する,(IV) 有生名詞句が無生名詞句に先行するという傾向が確認された.これは,機能主義言語学の分野で言及されている「伝達のダイナミズム」・「旧から新への情報の流れ」・「名詞句階層」を支持するものである.

  • Diana Galvan-Sosa, Koji Matsuda, Naoaki Okazaki, Kentaro Inui
    2020 年 27 巻 2 号 p. 383-409
    発行日: 2020/06/15
    公開日: 2020/09/15
    ジャーナル フリー

    Time is an important concept in human-cognition, fundamental to a wide range of reasoning tasks in the clinical domain. Results of the Clinical TempEval 2016 challenge, a set of shared tasks that evaluate temporal information extraction systems in the clinical domain, indicate that current state-of-the-art systems do well in solving event and time expression identification but perform poorly in temporal relation extraction. This study aims to identify and analyze the reason(s) for this uneven performance. It adapts a general domain tree-based bidirectional long short-term memory recurrent neural network model for semantic relation extraction to the task of temporal relation extraction in the clinical domain, and tests the system in a binary and multi-class classification setting by experimenting with general and in-domain word embeddings. Its results outperform the best Clinical TempEval 2016 system and the current state-of-the-art model. However, there is still a significant gap between the system and human performance. Consequently, this study delivers a deep analysis of the results, identifying a high incidence of nouns as events and class overlapping as posing major challenges in this task.

  • 佐藤 理史
    2020 年 27 巻 2 号 p. 411-444
    発行日: 2020/06/15
    公開日: 2020/09/15
    ジャーナル フリー

    本論文では,日本語文を合成するためのドメイン特化言語 HaoriBricks3 (HB3) について述べる.HB3 では,ブリックコードと呼ぶ Ruby コードで,どのような日本語文を合成するかを記述する.このブリックコードを評価すると,ブリック構造と呼ばれる Ruby オブジェクトが生成され,さらに,これに表層文字列化メソッド to_ss を適用すると,表層文字列が生成される.本論文では,HB3 の設計思想,実装のための工夫について説明し,HB3 で何ができるのかを示す.

  • Chunpeng Ma, Akihiro Tamura, Masao Utiyama, Eiichiro Sumita, Tiejun Zh ...
    2020 年 27 巻 2 号 p. 445-466
    発行日: 2020/06/15
    公開日: 2020/09/15
    ジャーナル フリー

    The Transformer (Vaswani, Shazeer, Parmar, Uszkoreit, Jones, Gomez, Kaiser, and Polosukhin 2017), which purely depends on attention mechanism, has achieved state-of-the-art performance on machine translation (MT). However, syntactic information, which has improved many previous MT models, has not been utilized explicitly by Transformer. We propose a syntax-based Transformer for MT, which incorporates source-side syntax structures generated by the parser into the self-attention and positional encoding of the encoder. Our method is general in that it is applicable to both constituent trees and packed forests. Evaluations on two language pairs show that our syntax-based Transformer outperforms the conventional (non-syntactic) Transformer. The improvements of BLEUs on English-Japanese, English-Chinese and English-German translation tasks are up to 2.32, 2.91 and 1.03, respectively. Furthermore, our ablation study and qualitative analysis demonstrate that the syntax-based self-attention does well in learning local structural information, while the syntax-based positional encoding does well in learning global structural information.

  • Daisuke Oba, Shoetsu Sato, Satoshi Akasaki, Naoki Yoshinaga, Masashi T ...
    2020 年 27 巻 2 号 p. 467-490
    発行日: 2020/06/15
    公開日: 2020/09/15
    ジャーナル フリー

    When people verbalize what they have felt with different sensory functions, they often represent different meanings such as with temperature range using the same word cold or the same meaning by using different words (e.g., hazy and cloudy). These interpersonal variations in word meanings have the effects of not only preventing people from communicating efficiently with each other but also causing troubles in natural language processing (NLP). Accordingly, to highlight interpersonal semantic variations in word meanings, a method for inducing personalized word embeddings is proposed. This method learns word embeddings from an NLP task, distinguishing each word used by different individuals. Review-target identification was adopted as a task to prevent irrelevant biases from contaminating word embeddings. The scalability and stability of inducing personalized word embeddings were improved using a residual network and independent fine-tuning for each individual through multi-task learning along with target-attribute predictions. The results of the experiments using two large scale review datasets confirmed that the proposed method was effective for estimating the target items, and the resulting word embeddings were also effective in solving sentiment analysis. By using the acquired personalized word embeddings, it was possible to reveal tendencies in semantic variations of the word meanings.

feedback
Top