デジタル・ヒューマニティーズ
Online ISSN : 2189-7867
論文
単語分散表現による日本語和語動詞の書き分けの研究
髙橋 雄太相田 太一小木曽 智信
著者情報
ジャーナル オープンアクセス HTML

2025 年 4 巻 1 号 p. 1-11

詳細
Abstract

本研究は,日本語の和語動詞の表記間の距離を自然言語処理の手法により計測し,書き分けの実態を分析して記述したものである.コーパスの用例の前後文脈における共起頻度をもとに単語分散表現を算出して,各表記間の距離ならびにその近傍語との間の距離を計測した.分析の結果,〈泣く〉と〈鳴く〉など表記間距離が遠く,各表記を特徴づける近傍語がそれぞれ得られた語と,〈分かる〉と〈判る〉など表記間距離の近く,近傍語から表記の特徴を説明しがたい語が見られ,実測的に表記の書き分けの実態を記述した.また,平成期と昭和前期の異なる時代の表記間の距離も計測し,時代間で表記の用いられ方が変わることを実証した.

Translated Abstract

This study describes an analysis of the actual situation in which the distance between representations is measured using natural language processing methods. The distance between representations and neighbor words of each representation were measured by calculating the word embeddings based on the co-occurrence frequencies of the examples in the corpus. As a result of the analysis, we clarified that there were words such as “naku (〈泣く〉, 〈鳴く〉, etc.)”, for which the distance between the representations was far apart and their neighbor words feature each representation, and also, there were words such as "wakaru (〈分かる〉,〈判る〉, etc.)", for which the distance between the representations was close and their neighbor words were difficult to explain the differences. In addition, we also measured the distance between the representations in the Heisei period and the early Showa period, demonstrating that the usage of these representations has changed over time.

1.はじめに

日本語には一つの語に対して複数の漢字表記が対応する現象が見られ,特に和語の現象は「同訓異字」と呼ばれる.現代日本語において,例えば動詞ナクには〈泣く〉や〈鳴く〉といった漢字表記が用いられ,行為の主体が人か動物かによって明確に使い分けられているものの,〈泣く〉と〈鳴く〉は語源を同じくするものであるa.日本語史上,日本語の和語と中国語の漢字(語)が対応付けられる過程で,同じ語であっても意味の区別に従って異なる漢字が対応付けられたり,または同じ語の同じ意味であってもその捉え方によって様々な漢字表記が対応付けられたりすることによって,表記のバリエーションが生じた.佐竹(2006)は,本来同一語であった〈泣く〉と〈鳴く〉が行為の主体の違いによって区別されるようになったように,同一語に対する別語意識が,漢字の表意機能の働きによって形成されたことを指摘している.ただし,同じ動詞ナクであっても,〈泣く〉と〈哭く〉は,〈泣く〉と〈鳴く〉ほどの明確な書き分けの基準がなく,一般的に別語意識が持たれない事例もあるとする.また,辞書によって同訓異字を一つの見出しにまとめているものとそれぞれの表記を独立の見出しとしているものとがあるように,同語か別語かの基準や意識は,捉える人によって,そして語によって異なると述べている.

このような和語の同訓異字の書き分けについて,従来の研究では,辞書の意味の枠組みを用いて用例を分類する手法が主に取られてきた(髙橋2021)が,目視による用例の観察や分析では,例えば動詞ワカルの〈分かる〉〈判る〉〈解る〉など,書き分けの基準が曖昧な語の分析は困難であった.

近年,大規模なコーパスが整備・公開され,また語の意味を表現する手法(単語分散表現)が発展したことにより,言語に関する分析は自然言語処理の分野でも盛んに行われるようになったb.このような背景を受けて,筆者らは単語分散表現を応用して,動詞ナクにおける〈泣く〉と〈鳴く〉,〈泣く〉と〈哭く〉といった各表記間の距離を計測することによって,表記の書き分けの実態を記述することを目指した.さらに,計測した和語の各表記間の距離を,別の和語の各表記間の距離と比較する調査を行った.

2.単語分散表現

単語分散表現とは,単語の意味・用法を表現する方法の一つである.単語分散表現では文書における単語と文脈単語との共起情報から,一般的には数十次元から数百次元,大きいもので数千次元といった高次元のベクトル表現を獲得する.単語の意味や用例をベクトルで表現することで,単語間の意味的な距離・類似度の計算が容易に行えるため,現在自然言語処理の分野で幅広く用いられている.

代表的な単語分散表現の学習手法として,Word2Vecが挙げられる.これは文書の頻度・単語間の共起情報からベクトル表現を獲得する手法であり,代表的な学習アルゴリズムとして,文中の単語から周辺の文脈単語を予測するように学習するSkip-Gramと,周辺の文脈単語から単語を予測するように学習するCBoWが存在する(Mikolov et al.,2013).Word2Vecの代表的な特徴として,単語の意味が高次元のベクトルに適切に表現されている点にある.例えば,「王様」という単語ベクトルから「男性」という単語ベクトルを引き,「女性」という単語ベクトルを足し合わせると,「女王様」という単語ベクトルと非常に似たベクトルが得られる.このような特徴から,感情分析や情報抽出などの自然言語処理におけるタスクで用いられてきた.

近年では,より強力な単語分散表現を獲得できるモデルとして,BERT(Devlin et al.,2019)などに代表される大規模な事前訓練済み言語モデルが提案された.このモデルの大きな特徴の一つとして,対象の単語が出現する一つの文を与えると,その文の文脈を考慮した一つの単語ベクトルが得られることが挙げられる.Word2Vecなどに代表される従来の単語分散表現の学習手法では,一般的に一つの文書において一つの単語につき一つのベクトル表現を学習していたのに対し,BERTなどのモデルを用いることで,文ごとの意味を反映したより詳細な単語ベクトルの獲得が可能になった.また,「大規模」とある通り,Word2Vecなどよりも非常に大きなパラメータからモデルが構成されているため,単語の意味的な類似度計算などの幅広い課題において,従来の単語分散表現学習手法の性能を上回った.現在はより高性能なモデルを求めて,企業や大学が盛んにモデルの学習・公開を行っている.最近ではBERTなどよりさらに大きなパラメータからなるモデル構造を持ち,訓練時に人手のフィードバックが反映されたChatGPTなどに代表される「生成AI」と呼ばれる生成型の言語モデルが登場し,注目を集めている.

しかし,事前訓練済み言語モデルの問題として,モデルの学習・使用にある程度の計算機資源を必要とする点が挙げられる.大規模な言語モデルの訓練では高性能・高額な計算機資源が必要であり,数週間から数ヶ月を要する.

そこで,本研究では,Word2Vecベースの単語分散表現を用いて,和語動詞の書き分けに関する分析を行う.この手法は軽量かつ高速であり,市販のノートパソコンでも実験することが可能であるため,日本語学における幅広い応用が期待できる.今回は,和語の書き分けの通時的変化を視野に入れ複数の時期の単語分散表現を獲得できる相田ら(2023)の手法を採用した.Word2Vecに代表される従来の単語分散表現は,与えられた文書における単語と文脈単語の共起情報を用いて算出される.相田らの手法の基盤となっているLevy and Goldberg(2014)の学習方法は次のようなものである.

  1. a   文書において一定回数以上出現する単語の集合を抽出し,その集合に含まれる単語間の共起頻度を文書から獲得する.その後,共起頻度の情報をもとに,自己相互情報量(Pointwise Mutual Information; PMI)を算出する.
  2. b   語彙に含まれる全単語間のPMIが計算された行列を特異値分解(Singular Value Decomposition; SVD)で圧縮し,単語分散表現を獲得する.このとき,各行が各単語のベクトルを示す.

相田らの手法は,この方法をもとにして複数の時期における単語分散表現の学習を可能にしたものである.通常,複数の時期を示す複数の文書それぞれに対してWord2Vecなどの手法を適用すると,それぞれの時期で全く異なる基準で単語分散表現が学習されてしまい,これらを時期間で比較することができない.Word2Vecのモデルを学習する際は,文書を与えて単語分散表現を獲得するパッケージを使用する場合がほとんどであるため,複数の時期で対応の取れた学習を行うことは難しい.そこで相田らは,上記の手順bにおいて複数の時期でまとめて圧縮する手法を提案した.任意の単語集合さえ決めてしまえばPMI 行列の計算は容易であるため,この手法を用いることで,各時期のベクトルの情報が統一され,時期間でベクトルの比較が可能になる.

なお,実験に使用したコードはWeb上で公開しているc.データの前処理,単語分散表現の学習,分析を1行で実行できるようにしているため,様々な場面での応用が期待できる.

3.調査方法

3.1 調査資料・調査対象語

単語分散表現による分析のためには,学習に必要十分な用例数の確保,ならびに前後文脈の単語情報が必須となるため,形態論情報付きのコーパスを用いることが適切である.本研究では,『昭和・平成書き言葉コーパス』(以下,SHC)を用いる.SHCは昭和・平成期の日本語の通時的変化を分析するために構築された大規模コーパスであり,1933年から2013年までの8年おき,計11ヵ年分の約3340万語に及ぶデータを収録している(小木曽ら2024).本研究は主に現代語のデータとして平成期の資料を分析対象とするが,異なる時期間での比較も行う.現代語のコーパスとしては,SHCより量的に優る『現代日本語書き言葉均衡コーパス』(以下,BCCWJ)があるが,1970年代から2000年代までの時代幅を有するものの,BCCWJは2000年から2005年のデータが中心であり,通時的な分析には不向きである.そこで本研究では,全時期を通じて均一なコーパス設計がなされ,通時的な変化を追うのに適しているSHCを選定した.

本研究では,戦時期の紙の配給の制限により冊子が縮小された1949年を除いて年次200万語以上のデータが収録され,かつSHCの大部分を占める雑誌レジスターを用いる.次のTab.1は,SHCの雑誌レジスターの年別の収録語数である.雑誌レジスターには昭和期と平成期の各年代を代表する総合雑誌として,『中央公論』と『文芸春秋』の各年12号分のデータが収録されている.

Tab. 1. SHC雑誌レジスターの収録語数

Number of words in SHC magazine register

収録資料 語数(記号・空白類抜)
1933(昭和8)年 中央公論 3,291,739
1941(昭和16)年 2,460,554
1949(昭和24)年 1,015,658
1957(昭和32)年 3,134,703
1965(昭和40)年 文芸春秋 2,025,871
1973(昭和48)年 2,323,584
1981(昭和56)年 2,658,012
1989(昭和64/平成元)年 2,744,385
1997(平成9)年 2,541,480
2005(平成17)年 2,523,450
2013(平成25)年 2,679,038

本研究では,主として現代語のデータとして平成期にあたる1989年・1997年・2005年・2013年のデータを用いるが,5節では異なる時期の表記のありかたを比較分析するために,昭和前期のデータとして1933年・1941年・1949年・1957年のデータも用いる.本稿では以降,便宜的に1933年から1957年までの4ヵ年をまとめて「SHC 前期」と,1989年から2013年までの4ヵ年をまとめて「SHC 後期」と称する.

また,単語分散表現の学習のためには,単語(本研究では漢字表記)ごとに十分な頻度があることが求められるため,調査対象語は SHC における高頻度語から選定した.中でも主語や目的語など,前後文脈がパターン化して表われて分析がしやすい動詞を対象とした.予備実験の結果を踏まえて,「アラワス(表わす)」「アラワレル(現われる)」「ハカル(測る/図る)」「ナク(泣く/鳴く)」「ワカル(分かる)」を対象語に定めたd

3.2 分析方法

前項で述べた調査対象の5語と,SHCで20回以上出現する語を単語の集合とし,その集合の前後5単語ずつの共起回数の集計を行った.その後PMIの計算を行い,最終的に50次元の単語分散表現を獲得した.

分析では,調査対象語ごとに,ベクトル空間上で調査対象語のベクトルに距離が近いベクトルを持つ単語(以下,近傍語)を抽出し,表記同士でその結果を比較した.単語間の距離の計算にはユークリッド距離を採用した.例えば,〈鳴く〉と最も距離の近い近傍語の第1位としては,0.6753の距離にある「小鳥」という語が抽出できる(Fig. 3,Tab. 7).これは,対象語〈鳴く〉の前後5単語以内に共起する語が,「小鳥」の前後5単語以内に最も共起しやすいことを意味し,〈鳴く〉と「小鳥」が近い文脈で用いられると判断できる.

本研究では,特に表記同士でこの距離を計測するために,集計上,各表記をそれぞれ一単語として扱った.コーパスの語彙素「表わす」には〈現わす〉〈表わす〉〈著わす〉〈あらわす〉などの表記の変異形が同じ見出しの中に格納されているが,それぞれの表記を便宜的に別単語として扱うことで,表記間の距離の計測を可能にしたe.その距離の遠近によってどの程度書き分けがなされているかを分析する.表記同士で距離が近ければ,似たような近傍語が得られ,近い用いられ方をして書き分けられておらず,反対に距離が遠ければ近傍語も異なる性質のものが得られ,明確に書き分けられると解釈できる.

4.調査結果

4.1 ハカル

SHC後期において,動詞ハカルには主だった表記として,〈図る〉(381件),〈測る〉(114件),〈計る〉(86件),〈諮る〉(32件),〈はかる〉(243件)の5表記が用いられている.この5表記間の距離を一覧に示すと,Tab. 2のようになる.

Tab. 2. 動詞ハカルの表記間距離

Distance between representations of the verb hakaru

表記 図る 測る 計る 諮る はかる
図る 0.0000 1.2058 0.9895 1.0824 0.6509
測る 1.2058 0.0000 0.5776 1.0215 1.1035
計る 0.9895 0.5776 0.0000 0.7643 0.8721
諮る 1.0824 1.0215 0.7643 0.0000 1.0108
はかる 0.6509 1.1035 0.8721 1.0108 0.0000

Tab. 2中で最も距離の遠いのは〈図る〉と〈測る〉の1.2058で,最も近いのは〈測る〉と〈計る〉の0. 5776であった.このことから,相対的に〈図る〉と〈測る〉は漢字の書き分けが明確に行われやすく,反対に〈測る〉と〈計る〉は近い使われ方をして書き分けの基準が曖昧であると解釈できる.

次に,ハカルの各表記ベクトルと,各表記の近傍語上位4語に絞って,二次元図に落とし込んでプロットすると,Fig. 1のようになる.

Fig. 1. 動詞ハカルの各表記のベクトルと近傍語の二次元プロット

Plot of vectors and neighbors for each representation of the verb hakaru

Fig. 1をみると,〈図る〉〈測る〉〈諮る〉は相互に距離が離れており,それぞれを特徴づける近傍語が周辺にプロットされていると読み取れる.〈はかる〉と〈計る〉については,おおよそその内側に位置づいているとみることができる.〈はかる〉のような仮名表記は,漢字字義による特定の文脈や用法への使用制限は基本的にないと考えられるが,ハカルにおいては特に〈図る〉に近い用いられ方をしたと解釈できる.

最後に,ハカルの各表記のSHC後期における近傍語上位20語(内容語に限る)とその距離を一覧に示すと,Tab. 3のようになる.

Tab. 3.動詞ハカルの各表記の近傍語上位20語

Top 20 neighbors for each representation of the verb hakaru

表記 近傍語上位20語(距離)
図る

はかる(0.6509) 当面(0.6669) 急務(0.6697) 梃子(0.6853) 進める(0.7106)

構え(0.7131) 方策(0.7196) 打ち出す(0.7304) 狙い(0.7346) 模索(0.7400)

押し進める(0.7432) 官民(0.7522) 重点(0.7564) 解消(0.7564) 先行(0.7647)

促す(0.7652) 多角(0.7666) プラン(0.7674) 本格(0.7696) 不可欠(0.7712)

測る

計る(0.5776) 挿入(0.5793) 静止(0.5910) 調節(0.6036) 検出(0.6397)

生理(0.6536) 吸入(0.6594) 培養(0.6633) 内臓(0.6634) 変形(0.6844)

密度(0.6898) 消失(0.6914) 有害(0.6926) 測定(0.6957) 生殖(0.6957)

肝(0.6995) 顕微(0.7038) 曲線(0.7069) 物差し(0.7086) 飽和(0.7108)

計る

引き止める(0.4264) 引き延ばす(0.4448) 鍛錬(0.4637) 厚み(0.4654) 留意(0.4721) 臨機(0.4736) 腐心(0.4799) 重心(0.4814) 上手(0.4837) 自ずと(0.4963) 

同音(0.4913) 擡げる(0.4984) 本筋(0.4963) 鼾(0.4982) 鈍る(0.4984)

長所(0.4988) 撥ね付ける(0.4989) 朗らか(0.4990) 関門(0.4992) 背骨(0.5018)

諮る

満場(0.4233) 決(0.4407) 服する(0.4881) 即時(0.4979) 議題(0.5023)

一任(0.5038) 議(0.5108) 裁定(0.5140) 仄めかす(0.52135) 誓約(0.5243)

形勢(0.5253) 裁断(0.5305) 委任(0.5333) 書面(0.5377) 有耶無耶(0.5427)

常道(0.5434) ぐずぐず(0.5437) 衆(0.5466) 推挙(0.5503) 内閣(0.5520)

はかる

梃子(0.6221) 不可欠(0.6464) 図る(0.6509) 官民(0.6617) 高める(0.7066)

促す(0.7129) 方策(0.7132) 延いては(0.7195) 堅実(0.7245) 多角(0.7323)

急務(0.7365) 活用(0.7368) 切り離す(0.7415) 重点(0.7448) 円滑(0.7468)

並行(0.7470) 望ましい(0.7510) 資する(0.7513) 重視(0.7622) 目的(0.7625)

〈図る〉の近傍語には「方策」(7位),「狙い」(9位),「プラン」(18位)など,計画にまつわる語がみえるほか,「進める」(5位),「打ち出す」(8位),「押し進める」(11位)など計画の実行や提案にまつわる語が確認できる.また〈図る〉の近傍語の1位には「はかる」があり,〈図る〉は〈はかる〉と「梃子」「不可欠」「促す」「方策」「多角」など近傍語8語を上位20語以内に共有することから,近い用いられ方をしているといえる.〈測る〉の近傍語には「調節」(4位),「測定」(14位),「物差し」(19位)のような尺度に関わる語がみえるほか,「挿入」(2位),「静止」(3位),「検出」(5位),「生理」(6位),「吸入」(7位),「培養」(8位),「内臓」(9位)など,学術的な用語,とりわけ数学や理科,医学に関連する用語と距離が近い点が特徴的である.〈測る〉の近傍語1位には「計る」があり,〈計る〉の近傍語には「引き延ばす」(2位),「厚み」(4位),「重心」(8位),「背骨」(20位)など数理や医学に関連する語があることから,近傍語の観点からも〈測る〉と〈計る〉の距離は近いと解釈することができる.〈諮る〉の近傍語には「満場」(1位)から「内閣」(20位)に至るまで,政治的なテーマに出現する語彙が確認でき,他の漢字表記から独立している.

以上の結果から,SHC 後期においてハカルは大きく分けて〈図る〉〈測る〉〈諮る〉の3軸のベクトルで書き分けがなされ,〈計る〉は〈測る〉に,〈はかる〉は〈図る〉に近い用いられ方をすることが指摘できた.

4.2 ワカル

SHC後期において,動詞ワカルには主だった表記として,〈分かる〉(2068件),〈判る〉(273件),〈解る〉(227件),〈わかる〉(5456件)の4表記が用いられている.この4表記間の距離を一覧に示すとTab. 4のようになる.

Tab. 4.動詞ワカルの表記間距離

Distance between representations of the verb wakaru

表記 分かる 判る 解る わかる
分かる 0.0000 0.7047 0.8112 0.5696
判る 0.7047 0.0000 0.9088 0.8414
解る 0.8112 0.9088 0.0000 0.9649
わかる 0.5696 0.8414 0.9649 0.0000

Tab. 4の表記間の距離をみると,漢字表記間で最も距離の遠いのは〈判る〉と〈解る〉の 0.9088であり,最大で1.2058の距離があった〈図る〉と〈測る〉を含むTab. 2のハカルと比べると,いずれの漢字表記も相対的に近い用いられ方をしているとわかる.

次に,ワカルの各表記のベクトルを二次元図にプロットするとFig. 2 のようになる.

Fig. 2. 動詞ワカルの各表記のベクトルと近傍語の二次元プロット

Plot of vectors and neighbors for each representation of the verb wakaru

〈図る〉〈測る〉〈諮る〉の大きなベクトルの軸が3方向にあり,近傍語が各ベクトルを特徴づけていたFig. 1のハカルとは対照的に,Fig. 2のワカルは狭い範囲でのプロットであり,単独の大きな軸として〈分かる〉が中心に位置し,その周辺に〈分かる〉とそれぞれに共通要素を持つ〈判る〉〈解る〉〈わかる〉が位置づいていると読み取れる.また,近傍語の位置と内容も,それぞれの表記を特徴づけているとは解釈しづらい.

最後に,ワカルの各表記の近傍語上位20語とその距離を示すと,Tab. 5 のようになる.

Tab. 5. 動詞ワカルの各表記の近傍語上位20語

Tab. 5. Top 20 neighbors for each representation of the verb wakaru

表記 近傍語上位20語(距離)
分かる

可笑しい(0.5396) わかる(0.5696) 矢張り(0.5728) 仕方(0.5801) 余計(0.5801) 

もっと(0.5829) 残念(0.5856) 一体(0.6005) 兎に角(0.6244) 本当(0.6291) 

どう(0.6295) はっきり(0.6304) そう(0.6307) 筈(0.6342) 悪い(0.6417) 

当人(0.6430) 仕様(0.6468) 流石(0.6487) 正直(0.6489) 全然(0.6554)

判る

口走る(0.5496) 付け加える(0.5592) 唖然(0.5668) 一体(0.5673) 当人(0.5826) 

とんでも(0.5827) 咄嗟(0.6075) 些細(0.6122) 狼狽える(0.6153) 確証(0.6163) 

どきどき(0.6173) 別人(0.6198) 言い合う(0.6202) 余計(0.6239) 然も(0.6254) 

余計(0.6283) 詮索(0.6299) がっくり(0.6319) 為出かす(0.6321) 一遍(0.6338)

解る

一言(0.7107) 当人(0.7141) 覚え(0.7430) 庇う(0.7443) 良く良く(0.7457) 

確かめる(0.7460) 流石(0.7535) 用件(0.7578) 打ち明ける(0.7631) 唐突(0.7707) 

詰る(0.7720) ぴん(0.7722) 有りの侭(0.7771) 聞かす(0.7773) 応対(0.7789) 

再度(0.7792) 頼り(0.7795) 詮索(0.7816) 宥める(0.7816) 直訴(0.7826)

わかる

分かる(0.5696) どう(0.6160) そう(0.6821) 別(0.6952) 筈(0.6978) 

訳(0.7068) 気付く(0.7085) 意味(0.7145) 違う(0.7194) 確か(0.7332) 

良く(0.7369) 違い(0.7408) 又(0.7505) 矢張り(0.7531) 仕様(0.7573) 

流石(0.7582) 所(0.7665) 全く(0.7673) はっきり(0.7677) 可笑しい(0.7702)

〈分かる〉の近傍語の2位に「わかる」があり,上位20語には入らないが,〈判る〉とは 0.7047,〈解る〉とは 0.8112 と,最大で1.2058の表記間距離のあったハカルと比較して漢字表記同士の距離が近く,漢字表記の使い分けの基準が明瞭でないことが窺える.各表記の近傍語の上位を眺めると,例えば,最も表記間距離の遠い〈解る〉と〈わかる〉(0.9649)では,〈解る〉には「当人」(2位),「応対」(15位),「詮索」(18位),「直訴」(20位)など文章語が多く,〈わかる〉には「どう」(2位),「そう」(3位),「筈」(5位),「良く」(11位),「仕様」(15位),「可笑しい」(20位)など口頭語が多い点など,近傍語の特徴に差異は認められるものの,この違いだけでは説明できない近傍語も多く,「流石」など共通する近傍語がある.

以上の結果から,ワカルはハカルと比較して,表記間の明確な使い分けがなく,いずれの表記も近い用いられ方をしているとまとめられる.

4.3 ナク

SHC後期において,動詞ナクには主だった表記として,〈泣く〉(645件),〈鳴く〉(62件),〈なく〉(37件)の3表記が用いられているほか,僅少ではあるが〈啼く〉(4件)と〈哭く〉(2件)も用いられている.5表記間の距離を一覧に示すとTab. 6のようになる.

Tab. 6. 動詞ナクの各表記の近傍語上位20語

Top 20 neighbors for each representation of the verb naku

表記 泣く 鳴く 啼く 哭く なく
泣く 0.0000 1.2401 1.1696 1.2252 0.9432
鳴く 1.2401 0.0000 0.8112 1.0277 0.9082
啼く 1.1696 0.8112 0.0000 0.2838 0.4541
哭く 1.2252 1.0277 0.2838 0.0000 0.5257
なく 0.9432 0.9082 0.4541 0.5257 0.0000

Tab. 6をみると,最も距離が遠いのは〈泣く〉と〈鳴く〉間の1.2401であり,さらに,〈泣く〉はいずれの漢字表記とも距離が遠く,独立した用いられ方がされている.それに対して,〈鳴く〉と〈啼く〉の距離0.8112は相対的に近く,〈啼く〉と〈哭く〉の距離0.2838は極端に近い.

次に,ナクの各表記のベクトルを二次元図にプロットするとFig. 3のようになる.

Fig. 3. 動詞ナクの各表記のベクトルと近傍語の二次元プロット

Plot of vectors and neighbors for each representation of the verb naku

Fig. 3をみると,〈泣く〉と〈鳴く〉がそれぞれ離れた位置を占めている.左下部分は文字が重なり視認しづらいが,〈啼く〉〈哭く〉〈なく〉が近い位置にまとまってプロットされている.

最後に,ナクの各表記の近傍語上位20語とその距離を示すと,Tab. 7のようになる.

Tab. 7. 動詞ナクの各表記の近傍語上位20語

Top 20 neighbors for each representation of the verb naku

表記 近傍語上位20語(距離)
泣く

パパ(0.7645) 悲しい(0.7696) あんな(0.8259) ほっと(0.8311) 怒鳴る(0.8473) 

嫌(0.8560) 寂しい(0.8570) びっくり(0.8614) 涙(0.8781) 急度(0.8814) 

込み上げる(0.8865) 怒る(0.8886) 思い出す(0.8902) 甘える(0.8969) 可哀想(0.8989) 伯母(0.8994) 切ない(0.8994) 途端(0.9020) 怖い(0.9035) 御袋(0.9081)

鳴く

小鳥(0.6753) 喧しい(0.7043) 雀(0.7219) 蚊(0.7250) 鹿(0.7376)

金魚(0.7677) 虫(0.7848) 兎(0.7910) 時鳥(0.7924) 草木(0.7983)

蝉(0.7987) 蛙(0.8000) 柳(0.8027) 生き物(0.8034) 蛍(0.8069)

刈る(0.8071) 蜂(0.8108) 啼く(0.8112) 草花(0.8126) 雛(0.8129)

啼く

哭く(0.2838) 顕われる(0.2904) 還す(0.3011) 童子(0.3073) 鷲(0.3146) 

夜更け(0.3209) 呻く(0.3222) 白鳥(0.3263) 秀でる(0.3343) 世評(0.3363) 

慣れ(0.3372) 雀(0.3373) 尊(0.3375) 俄然(0.3398) 賛辞(0.3419) 

古川(0.3463) 腑(0.3466) 悪党(0.3481) 蜥蜴(0.3485) 憂い(0.3495)

哭く

還す(0.2474) 要項(0.2551) 顕われる(0.2585) 悪党(0.2804) 啼く(0.2838) 

泣かす(0.2934) 計(0.2995) 世評(0.3021) 隣人(0.3039) 字引き(0.3176) 

童子(0.3222) 功罪(0.3229) 風変わり(0.3232) 雪国(0.3248) 俄然(0.3257) 

化け(0.3265) 反駁(0.3295) 河上(0.3309) 略す(0.3329) 慣れ(0.3335)

なく

失恋(0.3169) はらはら(0.3634) 忍ぶ(0.3808) 畜生(0.3842) どきどき(0.3883) 

打ちのめす(0.3932) 洒落(0.3993) 居合わせる(0.4037) 屁(0.4060) がっくり(0.4140) 口走る(0.4156) 笑い話(0.4176) ロマンチック(0.4193) 叱り付ける(0.4202) 啖呵(0.4209) 

ぐずぐず(0.4264) はたと(0.4272) 一幕(0.4279) 心地(0.4314) 論外(0.4319)

〈泣く〉の近傍語にはおよそ人間活動にまつわる語が並び,「悲しい」(2位),「ほっと」(4位),「嫌」(6位),「寂しい」(7位),「びっくり」(8位)ほか感情語が多く確認できるほか,「パパ」(1位),「伯母」(16位),「御袋」(20位)などの具体的な人物を指す名詞も現われている.〈鳴く〉においては対照的に,「小鳥」(1位)や「草木」(10位)など動物や自然物にまつわる語が上位を占め,〈泣く〉と〈鳴く〉は明確な使い分けがあることが窺える.〈啼く〉はTab. 6においては〈鳴く〉と距離が近かったものの,動物や自然に関する近傍語では「鷲」(5位),「白鳥」(8位),「雀」(12位),「蜥蜴」(19位)に限られる.SHC後期の〈啼く〉の用例4件はいずれも「鳥」を動作主とする例で,「童子」「尊」「世評」などその他の近傍語と〈啼く〉を結び付けて解釈することは難しい.また,〈啼く〉の1位には「哭く」がある.SHC後期の〈哭く〉の用例2件をみると,1件は本来語彙素「泣き悲しむ」として後文脈の「悲しむ」と結合されるべき誤解析例であったが,もう1件の用例とともに,人物を動作主して嘆きや悲しみ表わす文脈の中で用いられたものであり,〈啼く〉と〈哭く〉が近い用いられ方をしているとは考えにくい.

〈啼く〉と〈哭く〉は,「還す」「顕われる」「世評」「童子」「悪党」「慣れ」の計6つの近傍語を共有しているが,これらの語はSHC後期において,今回の実験において単語の集合に含めた頻度20以上の語のうち,およそ最低頻度である30件未満の低頻度語である.単語分散表現の学習に十分な頻度が得られなかった結果,学習が不十分となり,意味を適切に表現できなかった低頻度語同士がまとまって位置づけられたと解釈できる.

4.4 アラワス・アラワレル

本項では,意味的・統語的に対応する自動詞・他動詞のペアであるアラワスとアラワレルを取り上げ,両者の表記の書き分けを比較分析する.SHC後期において,動詞アラワスには主だった表記として〈現わす〉(150件),〈表わす〉(232件),〈著わす〉(33件),〈あらわす〉(122件)の4表記が用いられ,アラワレルには〈現われる〉(824件),〈表われる〉(110件),「顕われる」(9件),〈あらわれる〉(209件)の4表記が用いられている.アラワス・アラワレルの表記間の距離を一覧に示すとTab. 8,Tab. 9のようになる.

Tab. 8. 動詞アラワスの表記間距離

Distance between representations of the verb arawasu

表記 現わす 表わす 著わす あらわす
現わす 0.0000 0.9919 0.8824 0.8148
表わす 0.9919 0.0000 1.0564 0.8378
著わす 0.8824 1.0564 0.0000 0.6638
あらわす 0.8148 0.8379 0.6638 0.0000
Tab. 9. 動詞アラワレルの表記間距離

Distance between representations of the verb arawareru

表記 現われる 表われる 顕われる あらわれる
現われる 0.0000 0.8707 0.8342 0.7153
表われる 0.8707 0.0000 0.6863 0.7121
顕われる 0.8342 0.6863 0.0000 0.7020
あらわれる 0.7153 0.7121 0.7020 0.0000

アラワスとアラワレルを比較すると,アラワスの方が全体的に表記間距離が大きく,特に〈現わす〉〈表わす〉〈著わす〉の3表記は相互に距離が大きいといえる.アラワレルでは〈現われる〉と〈表われる〉が0.8707,〈現われる〉と〈顕われる〉が0.8342と比較的距離が遠い反面,〈表われる〉と〈顕われる〉は 0.6863 と比較的近い.

次に,アラワスとアラワレルの各表記のベクトルを二次元図にプロットするとFig. 4,Fig. 5のようになる.

Fig. 4. 動詞アラワスの各表記のベクトルと近傍語の二次元プロット

Plot of vectors and neighbors for each representation of the verb arawasu

Fig. 5. 動詞アラワレルの各表記のベクトルと近傍語の二次元プロット

Plot of vectors and neighbors for each representation of the verb arawareru

Fig. 4のアラワスはFig. 1のハカルのベクトル分布に近く,〈現わす〉〈表わす〉〈著わす〉の3つのベクトルの軸があり,それぞれを特徴づける近傍語がみえる.〈あらわす〉は3つの漢字表記のほぼ中間に位置付き,それぞれの漢字表記と共通の用いられ方が可能であると解釈できる.Fig. 5のアラワレルもFig. 4のアラワスに近いプロットであり,3つの漢字表記が相互に距離を持ちその中間に仮名表記が位置づいているように見える.ただし,〈顕われる〉の近傍語には「哭く」「悪党」「童子」「還る」がプロットされており,4.3項の〈啼く〉と〈哭く〉にも共通する低頻度語であることから,〈顕われる〉は適切に意味が学習できていない可能性が高い.Fig. 5の〈顕われる〉の周辺には,意味が共通するグループではなく,低頻度語のグループが発生していると考えられる.〈顕われる〉を除く表記の位置をみると,〈現われる〉と〈表われる〉の中間に〈あらわれる〉があるが,アラワスと比べると,狭い範囲でのプロットであると解釈できる.

最後に,アラワスとアラワレルの各表記の近傍語上位20語とその距離を示すと,それぞれTab. 10とTab. 11のようになる.

Tab. 10. 動詞アラワスの各表記の近傍語上位20語

Top 20 neighbors for each representation of the verb arawasu

表記 近傍語上位20語(距離)
現わす

眼前(0.5409) 襲い掛かる(0.5438) 眩む(0.5579) 潜り抜ける(0.5715) 灯火(0.5725) 食い入る(0.5754) 尾行(0.5806) 一団(0.5812) 喧騒(0.5857) 下り立つ(0.5923) 

凶暴(0.5925) がらん(0.5927) 狼狽(0.5937) 重なり合う(0.5965) 砦(0.5973) 

紛れる(0.5976) 突進(0.6011) 醜悪(0.6035) 老婆(0.6040) 立ちはだかる(0.6047)

表わす

言葉遣い(0.6732) 抽象(0.6735) 心遣い(0.6768) 敬虔(0.6778) ニュアンス(0.6874) 律儀(0.6907) 素直(0.6927) 総じて(0.6943) 吐露(0.6994) 心底(0.7090) 

察する(0.7140) 見受ける(0.7205) 聡明(0.7211) 敬愛(0.7223) 敬意(0.7227) 

念(0.7230) 一見(0.7232) 感嘆(0.7251) 形容(0.7293) 謙虚(0.7296)

著わす

労作(0.3762) 通読(0.3958) 名著(0.4043) 高名(0.4315) 訳者(0.4367) 

読本(0.4412) 月報(0.4478) 著述(0.4537) 記(0.4590) 気鋭(0.4637) 

英訳(0.4653) 紀行(0.4703) 講話(0.4715) 本稿(0.4729) 同書(0.4761) 

国学(0.4851) 奇人(0.4884) 白州(0.4924) 拙著(0.4937) 詩歌(0.4959)

あらわす

親近(0.5588) 秀でる(0.5772) 人となり(0.5800) 交遊(0.5814) 畏敬(0.5824) 

明晰(0.5837) 砕ける(0.5846) 喜ばしい(0.5851) 随所(0.5856) 辞(0.5873) 

古人(0.5898) 学識(0.5899) 重き(0.5909) 相当(0.5929) 鞭(0.5930) 

鋭敏(0.5930) 痛切(0.5954) 川柳(0.5966) 交わる(0.5973) 押し出す(0.5986)

Tab. 11. 動詞アラワレルの各表記の近傍語上位20語

Top 20 neighbors for each representation of the verb arawareru

表記 近傍語上位20語(距離)
現われる

本物(0.6471) 映る(0.6688) 現わす(0.6874) 美女(0.6880) 後ろ姿(0.6916) 

妙(0.6918) 異様(0.6981) 取り付く(0.6996) 宛ら(0.7002) 仮面(0.7044) 

丸で(0.7051) 幾分(0.7070) 気付く(0.7082) 奇妙(0.7082) 眼前(0.7114) 

うっとり(0.7141) そっくり(0.7142) 奇怪(0.7144) 荒々しい(0.7148) あらわれる(0.7153)

表われる

好ましい(0.4988) 歯痒い(0.5078) 直観(0.5432) 明晰(0.5577) 対比(0.5593) 

裏表(0.5605) 鈍感(0.5610) 特有(0.5661) 善し悪し(0.5674) 鋭敏(0.5689) 

裏打ち(0.5758) 際どい(0.5831) 半面(0.5835) ニュアンス(0.5840) 饒舌(0.5875) 醸し出す(0.5876) アンバランス(0.5883) 多面(0.5910) 開花(0.5936) 感受(0.5984)

顕われる

還す(0.2358) 哭く(0.2585) 童子(0.2659) 悪党(0.2896) 啼く(0.2904) 

俄然(0.2907) 夜更(0.2932) 慣れ(0.2994) はたと(0.3010) 判然(0.3038) 

痛快(0.3047) こす(0.3086) 鷲(0.3091) 隣人(0.3107) 処世(0.3142) 

善人(0.3144) 雪国(0.3146) 古川(0.3152) 本道(0.3173) 反駁(0.3175)

あらわれる

ともあれ(0.5834) 眼前(0.6016) 奇怪(0.6020) 写す(0.6025) 童子(0.6134) 

悠久(0.6172) 武将(0.6174) 蝋(0.6181) 座する(0.6215) 本物(0.6220) 

かえす(0.6238) きらめく(0.6241) 腑(0.6243) あしらう(0.6253) 平面(0.6264) 染み(0.6269) 翻る(0.6282) 辞(0.6283) 分かつ(0.6286) 忽然(0.6286)

〈現わす〉の近傍語には「眼前」(1位),「砦」(15位)などの場所の類,「一団」(8位),「喧騒」(9位),「老婆」(19位)などの人間やその集団の類,「襲い掛かる」(2位),「潜り抜ける」(4位),「下り立つ」(10位),「立ちはだかる」(20位)などの移動動詞が特徴的にみえる.〈表わす〉の近傍語には「心遣い」(3位),「敬虔」(4位),「ニュアンス」(5位)などの感情や感覚に関わる語が並ぶほか,「吐露」(9位),「察する」(11位),「見受ける」(12位)など心身の活動にまつわる動詞が特徴的に現われている.〈著わす〉の近傍語は「労作」(1位)から「詩歌」(20位)まで総じて執筆活動に関わる語として説明できる.

Tab.11のアラワレルの近傍語で特筆する点は,〈現われる〉の近傍語3位に「現わす」があることであり,自他の対において「現」は特に近い用いられ方をしているとわかる.〈現わす〉と直接共通する近傍語は「眼前」のみだが,「本物」(1位),「美女」(4位),「後ろ姿」(5位),「異様」(7位)など,人物の様態を描写する語が多くみられる.〈表われる〉は〈表わす〉とは「ニュアンス」のみ近傍語を共有する.「敬意」「念」「心遣い」などの内面に持つ感情が近傍語に多くみられた〈表わす〉に比較して,〈表われる〉は「好ましい」(1位),「歯痒い」(2位),「明晰」(4位),「鈍感」(7位),「鋭敏」(10位)など,状態を表わす近傍語が多いといえる.〈表わす〉〈表われる〉の場合,対象語の近傍語が多い他動詞と,結果・状態の近傍語の多い自動詞の差が現われた結果といえるだろう.〈顕われる〉(9件)は前述の通り動詞ナクの〈啼く〉(4件)や〈哭く〉(2件)と同様に,頻度不足による学習不足の特徴がみえ〈啼く〉・〈哭く〉とは「慣れ」「悪党」「童子」などの低頻度の近傍語を共有する.

これらの結果から,自他の対にあるアラワスとアラワレルでは共通的な用いられ方がされる部分があり,特に〈現〉の表記にその特徴がみられることがわかった.〈表〉は近傍語の特徴を共有する部分もあるが,他動詞アラワスが目的語を要するために名詞を近傍語に多く持つのに対し,アラワレルは状態性の言葉を多く持つ差が確認できた.

5.表記間の距離の時代間の比較

今回用いた単語分散表現による分析方法では,異なる時代の表記間の距離を同一平面上で計測・比較することが可能である.本節では,SHC後期とSHC前期の時期間の比較を行う.例えば,この手法ではSHC後期における〈測る〉とSHC前期における〈測る〉の距離は0.6826と計測され,この距離をSHC後期の〈測る〉と他表記との距離と直接比較することができる.SHC後期の〈測る〉はTab. 2でみたように,それぞれ〈図る〉と1.2058,〈計る〉と0.5776,〈諮る〉と1.0215,〈はかる〉と1.1035の距離にある.〈計る〉以外の同時期の各表記よりも,SHC前期の〈測る〉の方が近いことがわかる.

次のFig. 6は,動詞ナクのSHC前期とSHC後期における各表記のベクトルを近傍語2語ずつとともにプロットしたものである.以降のプロット図では,各表記・各近傍語に,SHC前期かSHC後期かによってそれぞれ「_0」「_1」を追記しており,例えば〈泣く_0〉はSHC前期における〈泣く〉の表記の位置を,〈泣く_1〉はSHC後期における位置を表わしている.

Fig. 6. 動詞ナクの時期別の各表記のベクトルと近傍語の二次元プロット

Plot of vectors and neighbors for each representation of the verb naku by period

Fig. 6によると,〈泣く〉〈鳴く〉〈なく〉の3表記は時代を経ても近い位置にプロットされており,SHC前期とSHC後期で近い用いられ方をしていることがわかる.Fig. 6では〈啼く〉の位置が〈啼く_0〉と〈啼く_1〉で大きく異なるが,〈啼く〉はSHC前期では81件の用例が得られ,学習が十分に行われた結果,〈鳴く〉と近い用いられ方がされたと解釈できる.〈鳴く_0〉と〈啼く_0〉の距離は0.4561であり,SHC前期のナクの表記間で最も距離の近い2表記である.

次のFig. 7は,アラワスの時期別・表記別のベクトルと近傍語の位置をプロットしたものである.〈現わす_0〉と〈表わす_0〉の距離と〈現わす_1〉と〈現わす_1〉の距離を比較すると,SHC後期の方が遠いことがわかる.SHC前期とSHC後期における〈現わす〉と〈表わす〉の距離は実測値において0.8743から0.9919に広がっており,SHC後期の方が相対的に〈現わす〉と〈表わす〉を書き分ける基準が明確になったと解釈できる.

Fig. 7. 動詞アラワスの時期別の各表記のベクトルと近傍語の二次元プロット

Fig. 7. Plot of vectors and neighbors for each representation of the verb arawasu by period

また調査対象語のうちには,次のFig. 8のハカルのように,SHC 前期と SHC 後期で異なる位置にある表記を有するものもある.

Fig. 8. 動詞ハカルの時期別の各表記のベクトルと近傍語の二次元プロット

Plot of vectors and neighbors for each representation of the verb hakaru by period

Fig. 8のハカルでは,SHC 前期の段階では〈計る_0〉は〈図る_0〉に近いが,SHC 後期では〈計る_1〉(Fig.8左側中心の集団の上部,〈測る_1〉のすぐ右下に位置)は〈測る_0〉や〈測る_1〉に近づくことがわかる.実測値では,〈計る_0〉と〈図る_0〉の間が0.7659,〈計る_0〉と〈測る_0〉の間が0.9894であるのに対し,〈計る_1〉と〈図る_1〉の間が0.9895,〈計る_1〉と〈測る_1〉の間が0.5776であった.このことを詳細に分析するため,次のTab. 12には〈計る_0〉と〈計る_1〉の近傍語を示した.

Tab. 12. 〈計る〉の時期別の近傍語上位20語

Top 20 neighbors for representation 〈計る〉 by period

時期 近傍語上位20語(距離)
〈計る_0〉

資する(0.6653) 手立て(0.6667) 必須(0.6802) 支障(0.6803) 要(0.6838) 

方策(0.6952) 肝要(0.7101) 活用(0.7251) 進捗(0.7332) 鑑みる(0.7393) 

はかる(0.7411) 講ずる(0.7418) 効果(0.7446) 障害(0.7463) 策(0.7574) 

努める(0.7610) 万全(0.7617) 恒久(0.7618) 改善(0.7641) 図る(0.7659)

〈計る_1〉

引き止める(0.4264) 引き延ばす(0.4448) 鍛錬(0.4637) 厚み(0.4654) 留意(0.4721) 臨機(0.4736) 腐心(0.4799) 重心(0.4814) 上手(0.4837) 自ずと(0.4963) 

同音(0.4913) 擡げる(0.4984) 本筋(0.4963) 鼾(0.4982) 鈍る(0.4984) 

長所(0.4988) 撥ね付ける(0.4989) 朗らか(0.4990) 関門(0.4992) 背骨(0.5018)

SHC前期においては〈計る〉の近傍語の20位に「図る」がみえ,〈図る〉とは「手立て」「改善」「方策」など計画の実行にまつわる近傍語を計5語共有することから,両表記が近い距離にあることがわかる.一方SHC 後期においては,4.1 項で確認したように,〈計る〉の近傍語には「厚み」や「重心」など数理や医学の分野にまつわる語が多くみられ,〈図る〉よりも〈測る〉に近づくことが読み取れる.

書き分けの通時的変化については,近傍語の変化と合わせてさらに詳細に分析することが必要であるが,今回用いた手法は,実証的に通時的変化を記述する上で有効であるといえるだろう.

6.おわりに

本研究では,単語分散表現を用いた学習によって和語の表記間の距離を計測することで,表記間の書き分けの実態を記述することを目的に調査を行った.調査の結果,ハカルやナクのように表記間距離が遠く明確に書き分けられる語や,ワカルのように表記間距離が近く各表記が似た用いられ方をする語があることを実証的に示すことができた.また,異なる時代の表記間の書き分けの比較が可能であることを明らかにした.異なる単語間,異なる時代間の書き分けの実態を同じ尺度によって比較分析した本研究の手法は,和語の書き分けの分析に有効であると判断できるだろう.

なお,今回は分析のしやすさを考慮して一部の動詞を取り上げたが,今後,別の動詞や他の品詞でも本研究の手法を適用したいと考えている.さらに,和語の表記の分野に限らず,語彙や文法など他分野の研究にも単語分散表現による分析は有効であり,応用が期待できる.また本稿では個別語の分析は近傍語の語彙素を概観するにとどまったが,例えば,コーパスの語彙素IDを活用して国立国語研究所の『分類語彙表』の番号と紐づけるfことにより,表記の書き分けを意味分類によって分析することも可能である.調査範囲の拡張と,分析手法のさらなる発展と洗練を今後の課題としたい.

付記

本研究は,国立国語研究所機関拠点型基幹研究「開かれた共同構築環境による通時コーパスの拡張」および「多様な語彙資源を統合した研究活用基盤の共創」の成果の一部である.

Footnotes

本稿では語の語形をカタカナで表記し,表記形を〈 〉で括って示す.

日本語学領域での関連研究に,文埋め込みベクトルによって和歌の意味構造を分析した近藤(2023)がある.

https://github.com/a1da4/writing-shift-slim

( )内の表記は,コーパスで検索を行う際の語彙素の表記である.「泣く/鳴く」など/で分割されている語は,語彙素が分割されて別語彙素であることを表わす.

新旧字体の差(「圖る」「顯れる」等)や,送り仮名・仮名遣いの差(「表す」「表はす」等)は,代表的な書字形(「図る」「顕われる」「表わす」)に集約した.

多義語の場合複数の意味番号を有するものがあり,語彙素IDとどのように紐づけるかについては,別途方法を模索する必要がある.

参考文献
  • [1]   相田 太一・ 小町 守・ 小木曽 智信・ 高村 大也・ 持橋 大地「異なる時期での意味の違いを捉える単語分散表現の結合学習」『自然言語処理』30-2,(2023):275–303.
  • [2]   小木曽 智信・ 近藤 明日子・ 髙橋 雄太・ 田中 牧郎・ 間淵 洋子編『昭和・平成書き言葉コーパス』バージョン2023.5,https://clrd.ninjal.ac.jp/shc/,(2023).
  • [3]   小木曽 智信・ 近藤 明日子・ 髙橋 雄太・ 間淵 洋子「『昭和・平成書き言葉コーパス』の設計・構築・公開」『情報処理学会論文誌』65-2,(2024):278–291.
  • [4]   近藤 泰弘「和歌集の歌風の言語的差異の記述―大規模言語モデルによる分析―」『日本語の研究』19-3,(2023):105–118.
  • [5]   佐竹 秀雄「漢字と表記」 前田 富祺・ 野村 雅昭編『朝倉漢字講座2 漢字のはたらき』朝倉書店,(2006):44–64.
  • [6]   髙橋 雄太「近代における意味と表記の結びつきの変化―動詞アウを事例に―」 田中 牧郎・ 橋本 行洋・ 小木曽 智信編『コーパスによる日本語史研究 近代編』ひつじ書房,(2021):173–186.
  • [7]   Devlin  Jacob,  Chang  Ming-Wei,  Lee  Kenton and  Toutanova  Kristina, “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding,” Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. (2019):4171–4186.
  • [8]   Mikolov  Tomas,  Chen  Kai,  Corrado  Greg and  Dean  Jeffrey, “Efficient Estimation of Word Representations in Vector Space,” Proceedings of International Conference on Language Representations 2013, (2013).
  • [9]    Levy  Omer and  Goldberg  Yoav, “Neural Word Embedding as Implicit Matrix Factorization,” Advances in Neural Information Processing Systems. (2014):2177–2185.
 

この記事はクリエイティブ・コモンズ [表示 4.0 国際]ライセンスの下に提供されています。
https://creativecommons.org/licenses/by/4.0/deed.ja
feedback
Top