In this paper, we solve the problem of extending various thesauri using a single method. Thesauri should be extended when unregistered terms are identified. Various thesauri are available, each of which is constructed according to a unique design principle. We formalise the extension of one thesaurus as a single classification problem in machine learning, with the goal of solving different classification problems. Applying existing classification methods to each thesaurus is time consuming, particularly if many thesauri must be extended. Thus, we propose a method to reduce the time required to extend multiple thesauri. In the proposed method, we first generate clusters of terms without the thesauri that are candidates for synonym sets based on formal concept analysis using the syntactic information of terms in a corpus. Reliable syntactic parsers are easy to use; thus, syntactic information is more available for many terms than semantic information. With syntactic information, for each thesaurus and for all unregistered terms, we can search candidate clusters quickly for a correct synonym set for fast classification. Experimental results demonstrate that the proposed method is faster than existing methods and classification accuracy is comparable.
元来から日本は外来語を受け入れやすい環境にあるといわれており,外来語が益々増加する中,特に,英語の場合,外国語の表記を利用するシーンも増えている.また,英単語など頭文字をつなげて表記する略語も利用されている.しかし,英字略語は別のことを表現しても,表記が同じになる多義性の問題を持っている.そこで,本稿では,英字略語の意味を推定する方法を提案する.提案手法では,英字略語の意味推定を未知語の意味推定とみなし,ある概念から様々な概念を連想する語彙の概念化処理を可能とする概念ベースと,概念化した語彙の意味的な近さを判断できる関連度計算または Earth Mover’s Distance を用いる.さらに,英字略語ゆえの情報の欠如を,世界で最も収録語数が多いとされている Wikipedia を使用することで補完する.これらを用いることで,英字略語の多義性を解消し,英字略語の本来の意味を推定する.提案手法は,129 件の新聞記事に対して,最高で 80% 近い正答率を示したことに加え,比較方法より良好な結果を得ることができた.
Nonlocal dependencies represent syntactic phenomenon such as wh-movement, A-movement in passives, topicalization, raising, control, and right node raising. Nonlocal dependencies play an important role in semantic interpretation. This paper proposes a left-corner parser that identifies nonlocal dependencies. Our parser integrates nonlocal dependency identification into a transition-based system. We adopt a left-corner strategy in order to use the syntactic relation c-command, which plays an important role in nonlocal dependency identification. To utilize the global features captured by nonlocal dependencies, our parser uses a structured perceptron. In experimental evaluations, our parser achieved a good balance between constituent parsing and nonlocal dependency identification.
Language modeling is a fundamental research problem that has wide application for many NLP tasks. For estimating probabilities of natural language sentences, most research on language modeling use n-gram based approaches to factor sentence probabilities. However, the assumption under n-gram models is not robust enough to cope with the data sparseness problem, which affects the final performance of language models. In this paper, we propose a generalized hierarchical word sequence framework, where different word association scores can be adopted to rearrange word sequences in a totally unsupervised fashion. Unlike the n-gram which factors sentence probability from left-to-right, our model factors using a more flexible strategy. For evaluation, we compare our rearranged word sequences to normal n-gram word sequences. Both intrinsic and extrinsic experiments verify that our language model can achieve better performance, proving that our method can be considered as a better alternative for n-gram language models.
法律文書や技術文書等の専門文書に対する機械翻訳では,翻訳対象のサブ言語に特有の大域的な文構造を適切に捉えて翻訳することが高品質な訳文を得る上で必要不可欠である.本論文では,文内の長距離な並べ替えに焦点を当てることによって,大域的な並べ替えを行うための手法を提案する.提案する大域的並べ替え手法では,アノテートされていない平文学習データを対象として,構文解析を行うことなく大域的な並べ替えモデルを学習する.そして,大域的な並べ替えを従来型の構文解析による並べ替えと併用することによって,高精度な並べ替えを実現する.公開特許公報英文抄録 (Patent Abstracts of Japan, PAJ) のサブ言語を対象とした日英翻訳および英日翻訳の評価実験を行ったところ,両言語方向において,大域的な並べ替えと構文に基づく並べ替えを組み合わせることによって翻訳品質向上が達成できることがわかった.
本稿は,自動単語分割における精度向上を実現するために,非テキスト情報とその説明文に対するシンボルグラウンディングを用いた新しい単語分割法を提案する.本手法は,説明文が付与された非テキスト情報の存在を仮定しており,説明文を擬似確率的単語分割コーパスとすることで,非テキスト情報と分野固有の単語との関係をニューラルネットワークにより学習する.学習されたニューラルネットワークから分野固有の辞書を獲得し,得られた辞書を単語分割のための素性として用いることでより精度の高い自動単語分割を実現する.将棋局面が対応付けされた将棋解説文から成る将棋解説コーパスを用いて実験を行い,シンボルグラウンディングにより得られた辞書を用いることで単語分割の精度が向上することが確認できた.
能動学習は機械学習において,逐次的に選択されたデータに対してのみ正解ラベルを付与してモデルの更新を繰り返すことで,少量のコストで効率的に学習を行う枠組みである.この枠組みを機械翻訳に適用することで,人手翻訳のコストを抑えつつ高精度な翻訳モデルを学習可能である.機械翻訳のための能動学習では,人手翻訳の対象となる文またはフレーズをどのように選択するかが学習効率に大きな影響を与える要因となる.既存研究による代表的な手法として,原言語コーパスの単語 n-gram 頻度に基づき n-gram カバレッジを向上させる手法の有効性が知られている.この手法は一方で,フレーズの最大長が制限されることにより,句範疇の断片のみが提示されて,人手翻訳が困難になる場合がある.また,能動学習の過程で選択されるフレーズには,共通の部分単語列が繰り返し出現するため,単語数あたりの精度向上率を損なう問題も考えられる.本研究では原言語コーパスの句構造解析結果を用いて句範疇を保存しつつ,包含関係にある極大長のフレーズのみを人手翻訳の候補とするフレーズ選択手法を提案する.本研究の提案手法の有効性を調査するため,機械翻訳による擬似対訳を用いたシミュレーション実験および専門の翻訳者による人手翻訳と主観評価を用いた実験を実施した.その結果,提案手法によって従来よりも少ない単語数の翻訳で高い翻訳精度を達成できることや,人手翻訳時の対訳の品質向上に有効であることが示された.
Learner English often contains grammatical errors with structural characteristics such as omissions, insertions, substitutions, and word order errors. These errors are not covered by the existing context-free grammar (CFG) rules. Therefore, it is not at all straightforward how to annotate learner English with phrase structures. Because of this limitation, there has been almost no work on phrase structure annotation for learner corpora despite its importance and usefulness. To address this issue, we propose a phrase structure annotation scheme for learner English, that consists of five principles. We apply the annotation scheme to two different learner corpora and show (i) its effectiveness at consistently annotating learner English with phrase structure (i.e., high inter-annotator agreement); (ii) the structural characteristics (CFG rules) of learner English obtained from the annotated corpora; and (iii) phrase structure parsing performance on learner English for the first time. We also release the annotation guidelines, the annotated data, and the parser model to the public.