デジタル・ヒューマニティーズ
Online ISSN : 2189-7867
論文
潜在的ディリクレ配分法を用いた韻文解析におけるセグメントサイズについて
藤田 郁
著者情報
ジャーナル オープンアクセス HTML

2022 年 3 巻 1 号 p. 3-15

詳細
Abstract

本研究は,トピックモデルの一つである潜在的ディリクレ配分法 (latent Dirichlet allocation;LDA) を,まだ先例の少ない韻文作品へ適用する際の問題点の一つと言えるセグメントサイズの設定について議論し,LDA の韻文作品研究応用の有効性を検討することを目的としている。LDA に限らず,トピックモデリングは,デジタル人文学やテクストマイニングの分野では有望なアプローチと考えられており,散文作品研究にトピックモデルを用いる研究は近年増加しているものの,詩作品へトピックモデルを応用した研究はあまり多くない。この手法の韻文コーパスへの適用に関しては,さらなる検討と知見の蓄積が必要である。本稿では,作品の総語数が25語から2万語超まで大きくバラつきがある Alfred Tennyson の韻文作品を対象とし,特に作品総語数が 1,000 語を超えるテクストを複数の小さいセグメントサイズに分割した結果について論じ,LDAに適用可能な最小セグメントサイズを提示する。

Translated Abstract

The purpose of this study is to examine one of the problems in applying latent Dirichlet allocation (LDA), to poetry works, and to examine the effectiveness of LDA in poetry research. Not only LDA, but also topic modeling in general is considered a promising approach in the field of digital humanities and text mining, and although the number of studies using topic models to study prose works has been increasing in recent years, there have been few studies applying topic models to poetry works. This paper uses the poems of Alfred Tennyson, a Victorian poet, as a target corpus to point out the challenges of applying LDA to verse texts, and to discuss the feasibility of running LDA on texts split into smaller chunks of an equal size.

1. はじめに

本研究は,トピックモデルの一つである潜在的ディリクレ配分法 (Latent Dirichlet Allocation;以下LDA)1)を,まだ先例の少ない韻文作品へ適用する際の問題点の一つと言えるセグメントサイズの設定について議論し,これまで LDA が応用されてこなかった韻文作品への応用の際に有効なセグメント数を提示することを目的とする。現在,デジタル人文学が用いる計量的手法は文学研究に大きく貢献し,英文学研究も例外ではない 2) 3) 4)。研究対象はもっぱら散文作品研究だが,韻文作品研究もあり,この手法は現在,さまざまな側面から詩の研究に新たな知見をもたらしている5) 6)。しかし,Alfred Tennyson の作品研究においては計量的手法を用いた研究は限られており,LDA を用いた研究は未だなされていない。

本稿で分析の対象とするAlfred Tennyson (以下Tennyson)は,19世紀イギリスのヴィクトリア朝を代表する詩人の一人であり,1850年には William Wordsworth の後を継ぎ,桂冠詩人となった。Tennyson は,後に詳述するが,600編を超える詩を遺し,その大半は作品の総語数が100〜200語の叙情詩である一方で,作品の総語数が1,000語を超える長編叙情詩や物語詩もあり,Tennyson を代表する作品は,例えば ‘In Memoriam A.H.H’(『イン・メモリアム』)や,Idylls of the King(『国王牧歌』)シリーズ等,長編詩が多い傾向にある。

大規模データ分析を得意とする LDA7) を,これまでの研究では対象になってこなかった Tennyson の韻文作品に応用し,Tennyson 作品を網羅的に分析する際に問題となるのは,LDA を実行する際のセグメント(文書)サイズである。これまでのトピックモデルを用いた韻文作品研究と比較すると,Tennyson の作品毎の語数の差は著しく,一作品を一セグメントとしてトピックモデルを実行するのは躊躇われる。長編の作品を複数セグメントに分割し,セグメント毎の語数を可能な限り均一にすることが望ましく,セグメント毎の語数差を最も小さく設定するには Tennyson の作品総語数の最小値 (25語) で分割することが考えられるものの,セグメントサイズを25語に設定することで,セグメントに含まれる語が意味的まとまりを成さず,解釈可能なトピックを出力するか否かは疑問である。

そこで,本稿では,複数のセグメントサイズに分割した同一コーパスを,同一条件下で実行した際の結果を比較することにより,解釈可能なトピックを出力できる最小セグメントサイズを提示する。本論の結論は,Tennysonの作品研究のみならず,他の長編作品を有する韻文作品研究にも応用できる可能性を示唆するものである。

2. 関連研究

計量的手法の中でも,LDA に限らず,トピックモデルは,デジタル人文学やテクストマイニングの分野では有望なアプローチと考えられている8)。トピックモデルは,セグメントには複数の潜在的なトピック(何らかの意味的つながりを持ち得る語の集合)が確率的に生成されると仮定し,機械学習のアルゴリズムを用いて潜在的なトピックを発見する機械学習モデルである。このトピックモデルの手法の一つに,Bleiらにより考案された LDA1) があり,これもまたセグメントに潜在するトピックを推定するアルゴリズムである。LDA は特に多くの散文作品研究に使用されており,作品の記述言語によらず,多くの研究がなされている。Tabata9),黒田10), Kiyama11),黄 12) 13)などはトピックモデリングを散文作品研究に用いている。しかし,LDA を含むトピックモデルの韻文作品への応用は,Rhody14), Navarro-Colorado15), Henrichs16), Okabe17) 等に限られ,この手法の韻文コーパスへの適用に関しては,さらなる検討と研究結果の提示が必要である。

LDA を韻文コーパスへ適用する際の問題点の一つと考えられるのが,散文作品と韻文作品の作品あたりの語数の差である。LDA を実行する際,作品テクストを同じサイズ(語数)の連続したセグメントに分割することが多い。しかし,韻文作品は散文作品と比べ作品の総語数が著しく小さい傾向にあるため,均一のセグメントサイズに分割する場合,セグメントサイズは散文研究で適用されているものよりも小さくなる。Rhody14) や Navarro-Colorad15), Henrichs16) は分析対象をソネットに限定し,作品を分割せず一作品を一セグメントとして扱うことで,セグメントサイズを 100 語の近似値とした。また,Okabe17) は,アメリカ詩人 Emily Dickinson を分析対象としており,分析対象のコーパス内には1,000語を超える長編詩がなく,ソネットほどではないものの作品毎の語数の差が数百語以内であることから,先述の三研究と同様に作品を分割せずに一作品を一セグメントとして扱った18)

正田 19)は,10 語程度の短いテクストコーパスにも LDA を適用できるとしたが,用いられたコーパスは,英語論文のタイトルである。英語論文のタイトルの語数は,5-15 語程度が適切であるとされている 20)。タイトルは,限られた語数の中で論文の内容を読者に簡潔かつ明確に伝え,関心を持たせることを目的とするため,不必要な語の挿入が避けられる。また,タイトルはそれ自体で内容が完結しており,散文や韻文等,他のジャンルのテクストにおける 5-15 語と比較すると,タイトルの方がより情報量が多いと考えられる。これらの英語論文タイトルというジャンルの特性を考慮すると,他のジャンルのテクストを短く分割した場合でも適切な分析結果を得られるか否かは検討の余地がある。そこで,本稿では,これまで LDA が適用されてこなかった Tennyson の韻文作品のような,作品のトークン数が片や10,000 を超え,一方では100前後と,大きな差があるコーパスに LDA を適用する際に適切なセグメントサイズは何か,どの程度までセグメントサイズを小さく設定しても適切な結果が得られるのかを提示する。

3. データ

本研究は,Delphi Poet Series 20 の Complete Works of Alfred, Lord Tennyson21) (以下CWAT) に収録されている 423 編の韻文作品及び,The Poems of Tennyson 2nd ed.22 (Ricks, 1987) に収録されており,CWAT と重複していない韻文作品180編の合計603作品からなるデータ(以下 T-Corpus)を基に記述統計量を計算し,LDA 分析に使用する作品を選択する。以下 Tab. 1. に示すのは,T-Corpus に収録されている 603 編の Tennyson の韻文作品の記述統計量である。

T-Corpus に収録されている 603 編のうち,最も長い作品は 26,749 語であり,最も短い作品あたりの語数は 12 だが,この最も短い作品は,Tennyson の劇作品内の歌唱パートを切り出したものであり,この劇中歌ではない,単一の韻文作品として書かれたものの中では,最も短い作品の総語数は25語である。一作品あたりの平均語数は 594.01,標準偏差は 1,823.14 と,作品ごとに語数が大きく異なっていることが分かる。603 編の中では,総語数 100 以上 200 未満のテクストが最も多く,181 点にのぼり,次いで総語数 100 未満のテクストが多く 164 点となっている。対して,総語数が 1,000 語以上の作品は 67 作品であり,作品毎の語数と作品の数は広く分散しており,標準偏差の値や最小語数,最大語数からも示される通り,本データに含まれる Tennyson 作品を網羅的に,LDA を用いて分析しようとする場合のセグメントサイズの設定は慎重に行われる必要があると考えられる。

Tab. 1. Tennyson の韻文作品の記述統計量

Tab. 1. The descriptive statistics of Tennyson’s Poetical Works

韻文作品数 603
総語数 358,190
1作品あたりの最小語数 (劇中歌ではない韻文の最小語数) 12 (25)
1作品あたりの最大語数 26,526
作品ごとの総語数平均値 594.01
標準偏差 1,823.14
テクストサイズの分布 1 ≤ n < 100 164
100 ≤ n < 200 181
200 ≤ n < 300 86
300 ≤ n < 400 34
400 ≤ n < 500 20
500 ≤ n < 600 19
600 ≤ n < 700 11
700 ≤ n < 800 9
800 ≤ n < 900 9
900 ≤ n < 1,000 3
1,000 ≤ n < 5,000 51
5,000 ≤ n < 10,000 11
n ≤ 10,000 5

本研究では,LDA を実行する際のセグメントサイズの違いが結果にどのように影響を及ぼすか,及び一定数以上の語数を有する作品を小さいセグメントサイズに分割して LDA を実行した結果の課題を見出すことを目的としているため,作品あたりの語数が 1,000 を超える作品 67 編を分析の対象とする(対象作品一覧は 4.1 節 Tab. 2. に記述)。

4. 手法

4.1 セグメントの分割

先述の通り,LDA を散文テクストに適用する場合,テクストを同じ大きさの連続したセグメントに分割することが多い。設定されるセグメントサイズは,研究課題や扱う作品に応じ,研究者によって決定され,作品の総語数が 10,000 語を超えるような散文作品研究では500 語12),1,000 語10) 23)や2,000 語13) 程度に分割される。先の Tab. 1 に示すように,Tennyson の詩の大部分,特に叙情詩は 1,000 語より短い語数で構成される傾向にある。また,(劇中歌を除く)最も短い作品は 25 語であり,総語数の標準偏差が 1,823.14 と大きく異なっているため,散文作品研究に用いられる,例えば 1,000 語や 2,000 語といったセグメントサイズを Tennyson の韻文作品に適用すると,セグメントサイズの差が 1,000 語以上開くセグメントが複数存在するうえ,あまりに大きいセグメントサイズを設定すると,セグメントサイズに満たない作品も多く,差が開いてしまう。

正田18) は,ハイパーパラメータやその他のプリファレンスを適切に調整すれば,短いテクストコーパス (10語程度) でも LDA がうまく適用できることを示唆している。しかし,彼の対象コーパスは英文雑誌のタイトルであるため,正田の考察が短い散文・韻文コーパスに通用するかは疑問が残る。そこで,本研究では,1,000 語以上の長編詩67編を,散文コーパス研究でも使用されるセグメントサイズの1,000語, T-Corpus の平均語数である 594 語,T-Corpus の語数の中央値 155 語,T-Corpus 内の作品最小総語数 25 語,及び中央値と最小総語数25の間を最小総語数と同じ25語(155語と125語の間のみ30語)単位で区切った,125 語,100 語,75 語,50 語の計 8 種類のセグメントサイズに分割することで,Tennyson の韻文作品のように作品のトークン数に大きな差があるコーパスに LDA を適用する際にどの程度までセグメントサイズを小さく設定しても解釈可能な結果が得られるのかを提示する。

Tab. 2 には,本研究で使用する 67 編の作品の一覧と,短縮ファイル名一覧,作品毎の総語数を示す。短縮タイトルの表記は,以下の規則によって表示する。

例:T33_THEOTT/T28_haiton

  T:Tennyson;33/28_:出版年/未出版作品は書かれたとされている年の下2桁

  THEOTT/haiton:短縮タイトルのアルファベット表記;大文字表記は出版された作品,

          小文字表記は未出版作品であることを示す。

Tab. 3. に示すのは,分析対象67作品を各セグメントサイズに分割した際のセグメント数の一覧である。各テクストを同じサイズの連続したセグメントに分割する際,最後に残るチャンクの長さがセグメントサイズの半分の値(例:1000語の場合には500語,594語の場合は297語)に満たない場合は,直前のセグメントと統合し,半分の値を上回る場合は一つのセグメントを作ることとし,端数となる語を切り捨てないこととした。

本研究に用いる T-Corpus に収録されているテクストには,Casual Conc 2.0.824) のタグ付け機能を用い,CLAWS 5 に準拠した Tree Tagger の English (BNC) タグが付与してある。このタグ付けを元に,LDA での分析対象を名詞(NN1, NN2, NNA, NN0)のみに限定して分析を行った。分析の対象を名詞に絞り込むことにより,作品内で提示されている意味内容を色濃く反映している語のみの出力結果を得ることができる。なお,語のレマ化(lemmatization)は行っていないため,後に提示する LDA の出力結果内において,同一語の単数形と複数形(例:womanwomenknightknights)が同一トピック内に含まれる場合がある。本分析においてレマ化を行わない最大の理由は,分析対象が韻文作品であることに起因する。韻文作品では,語の選択は,単に作者が表現したい内容を表すためだけではなく,作品の全体,あるいは語の前後に現れる他の語や,前後の行との韻律(リズムや押韻)を考慮して行われる。この韻律を守るため,韻文作品の統語や語の選択は,他のジャンルのそれとは異なる場合が多く,例えば womanwomen の差は,単なる単複の違いだけではなく,発音の違いを考慮して使用されている可能性が考えられるため,レマ化を行ってしまうと語の選択の背後に隠れている語の持つ辞書的意味以外の要素が排除されてしまうことが危惧される。このことから,本稿では語のレマ化を行わずに分析を進める。

Tab. 2. Tennysonの長編 (総語数1,000語以上) 詩一覧と総語数

Tab. 2. The list of 67 narrative poems of Tennyson, the number of tokens

表中の (IoK) は Idylls of the King (『国王牧歌』) シリーズの作品であることを示す。

Tab. 3. 分析対象67作品のセグメント数

Tab. 3. The list of 67 narrative poems of Tennyson, the number of segments

4.2 LDA実行に関する各種設定

LDA の実行にあたり,MALLET 2.0.825) を実装し,分析を行う。LDA は,実行の際に予め分析を行う者によってトピックの数を決定,入力する必要がある。しかし,適切なトピック数は使用するコーパスによって異なり,また予め最適なトピック数を判断することはできず,この最適なトピック数の決定もまた,LDA を使用する際の重要かつ議論がなされている課題である。本分析でのトピック数の決定には,まず8種類のセグメントサイズ全てにおいてトピック数5〜95まで5刻みでトピックモデルを実行した。得られた全ての結果を比較考察することにより,最もトピックの分類が適切になされているのは,セグメントサイズ594のトピック数15であると判断し,本分析で使用するトピック数はいずれのセグメントサイズにおいても15と決定した(5節にて詳述)。ある同一条件下で LDA を実行した際に,異なるセグメントサイズがどのように結果に影響を与えるかに焦点を当てるため,LDA 実行時の条件は,セグメントサイズの違いが LDA 結果にどのように影響するかを見るために,以下 Tab. 4 に示す通りすべての条件を同じ設定にした。

Tab. 4. LDA 実行時の各条件設定

Tab. 4. The conditions of LDA topic modelling

Segment Sizes 1,000 594 155 125 100 75 50 25
No. of topics 15
No. of iterations 1,000
Optimize interval 20
Optimize burn in 50

5. LDA 実行結果

本節では,セグメントサイズ(以下 SS. と表記)を 1,000, 594, 155, 125, 100, 75, 50, 25 に設定し,分割したデータにそれぞれ LDA を実行し,得られた結果を提示する。LDA 実行の際に入力が必要なトピック数は,前節に示した通り 5〜95 まで 5 刻みで出力した後,本節にて示す出力結果を全て検討し,決定した。

5.1 Perplexity と Coherence

まず,トピック数の決定の際にも考慮に入れた perplexity と coherence の値をみる。perplexity は,モデルの予測精度を評価する指標であり,値が低いほど予測精度が優れていることを示す。Fig. 1 は,SS. 50 及び 25 を,トピック数 5 から 95 まで 5 刻みで LDA を実行した際に得られる perplexity の値をグラフ化したものである。この Fig. 1 に示した2種の SS. の perplexity 値は,他の6種の SS. の値と比較すると大きく外れ値となっており,一つの図にまとめることで他の6種の値の分布が隠れてしまうため,分けて表示する。残る6種の SS. 1,000,594,155,125,100,75 の perplexity の値は,Fig. 2 に示す。

Fig. 1. Perplexity 値のグラフ (SS.:50, 25)

Fig. 1. The line graph of perplexity values (Seg. size: 50, 25)

Fig. 2. Perplexity 値のグラフ (SS.:1,000, 594, 155, 125, 100, 75)

Fig. 2. The line graph of perplexity values (Seg. size: 1,000, 594, 155, 125, 100, 75)

Fig. 1 と Fig. 2 の y 軸の値を見ると,Fig. 1 は最高値が 800,000,000,000,000 であるのに対し,Fig. 2 は20,000 であり,著しく値が異なっていることが分かる。Fig. 2 を見ると,いずれのトピック数・SS. でも,トピックの数が増えるにつれ,特にトピック数40〜50を境にperplexity の値が上昇していることを明確に見ることができる。この結果より,トピックの数が少なければ少ないほど予測精度が上がるということができるため,最適なトピック数を 50 以下に絞り込み,決定することとした。

以下に示す coherence はトピックの質を測る評価指標であり,値が高いほどトピックの質が担保されると解釈する。Fig. 3 は 8 種の SS. をトピック数 5〜95 まで実行した際の coherence の値をグラフ化したものである。 SS. の大きい上位 3 サイズ(1,000, 594, 155)はグラフ y 軸の 0.3 よりも下方に位置し,多少の上下はあるものの,比較的水平な値を保っている。一方で SS. 155〜50 の 4 種の値は,トピック数が少ないグラフ左側からトピック数が増えるグラフ右側に移動するにしたがい,右肩上がりで推移している。 SS. 25 のみ,他のサイズとは違う動きをしており,トピック数が増えるにしたがい coherence の値も上昇するものの,トピック数 45 をピークに値は山形に減少している。値が高ければ高いほどトピックの質が良いとされる coherence の値だけをとるのであれば, SS. 25 のトピック数 45 が最適な SS.及びトピック数と解釈できるが,8 種の SS. が coherence の値によって三つの傾向に分割され,それぞれの値の推移に傾向があるものの原因が判然としないため,coherence の値から最適なトピック数を絞り込み,決定することはしなかった。

Fig. 3. Coherence 値のグラフ (SS.:1,000, 594, 155, 125, 100, 75, 50, 25)

Fig. 3. The line graph of coherence values (Seg. size: 1,000, 594, 155, 125, 100, 75, 50, 25)

5.2 LDA によって出力されたトピック,キーワード,ハイパーパラメータα値

最適なトピック数と基準となる SS. を決定するにあたり,8 種の SS. をトピック数 5〜50 で実行し,出力された結果(トピックとキーワード,α 値)を,作品と照らし合わせ詳細に観察し,ラベルを付与した。ここでのキーワードとは,LDA の出力結果の一つである単語の重み (word-weight value) が高いもの上位20語をトピック毎に自動的にリストアップして出力してくれるものである。α 値はトピック毎に計算され,出力される。大きい α 値をとるトピックはコーパスに遍在する傾向がある一方,著しく小さい α 値はそのトピックが局所限定的にしか生起しないことを表す。各トピックのラベルは,各トピックのキーワード及び各トピックが顕著に現れる作品の内容と照らし合わせ,適切と思われるものを著者が付与した。

以下 Tab. 5 は,8種の SS. をトピック数 5〜50 で実行して得られた結果より,α 値の最高値,最低値,平均値,中央値と標準偏差,及びラベルが付与できたトピックの比率を表示する。そのトピックにふさわしいラベルを著者が付与することができなかったトピックは,トピックのキーワードの特徴や傾向が明確に表れていないトピックである。Tab. 5 では,各項目毎に値が最も高いセルから最も低いセルへ,赤から緑へ塗りつぶしてある。α 値は,SS. が小さくなればなるほど,またトピック数が増えれば増えるほどいずれの値も低くなる傾向にあった。α 値は,適切な値は分析するコーパスや各種パラメータの設定によって異なる。しかし,大きい値を取るほどトピックはコーパス内に遍在し,小さければ小さいほどコーパスの局所にのみ生起する性質を考慮すると,トピック毎の α 値にある程度の差がある方が,トピックの特徴を解釈しやすく,望ましいと考えた。Tab. 5 内,α 値の最高値と最低値を SS. 毎に比較すると,SS. 1,000 や 594 では最高値と最低値の差が1以上あるのに対し,SS. 25 では 0.2 ほどの差しかない。加えて,標準偏差を見ても,SS. 1,000 や 594 では高い値で偏差にばらつきがあることを示しているのに対し,SS. が小さく,トピック数が大きくなるにつれて標準偏差の値は低くなり,α 値に大きな差がないことが分かった。各トピックに付与したラベルもまた,SS. が小さくなるほど,またトピック数が大きくなるほど,適切なラベルを付与できる数が減少する傾向にあった。本稿では,これら出力結果を考慮し,付与されたラベルの割合が最も高く (100%),出力された全トピックが適切に作品の内容を反映していると考えられた,SS. 594 をトピック数 15 に設定した分析結果を基準として採用した。

Tab. 5. トピック数5–50での LDA 出力結果より,α 値の最高値,最低値,平均値,中央値と標準偏差及びラベル付与されたトピックの割合 (SS. 25–1,000)

Tab. 5. The list of highest, lowest, mean of, median of α values, and ratio of labeled topics (Seg. Size 25–1,000)

次に,トピック数15に設定し LDA を実行して得られた出力結果,トピックとキーワード,ハイパーパラメータ α 値(以下 α 値),そして各トピックに著者が付与したラベルを SS. 毎に示す。Tab. 6 は,SS. 1,000,Tab. 7 は SS. 594,Tab. 8 は SS. 155,Tab. 9 は SS. 125,Tab. 10 は SS. 100,Tab. 11 は SS. 75,Tab. 12 は SS. 50,Tab. 13 は SS. 25 に設定した場合の 15 個のトピックとそのキーワード (上位 20 語),α 値の一覧である。Tab. 6–13 中において各ラベルの右端にアスタリスク (*) が付与されているラベルは,基準の SS. 594 の出力結果と同じラベルであることを示す。また,各表のラベルの位置に「NA」と表示のある箇所は,そのトピックにふさわしいラベルを著者が付与することができなかった,トピックに現れるキーワードの特徴や傾向が明確に表れていないトピックであることを示す。

Tab. 6. トピックとキーワード,ラベル,α 値の一覧 (SS.:1,000)

Tab. 6. The list of topics with their labels, key words, and α values (Seg. Size 1,000)

Tab. 7. トピックとキーワード,ラベル,α 値の一覧(SS.:594)

Tab. 7. The list of topics with their labels, key words, and α values (Seg. Size 594)

Tab. 8. トピックとキーワード,ラベル,α値の一覧(SS.:155)

Tab. 8. The list of topics with their labels, key words, and α values (Seg. Size 155)

Tab. 9. トピックとキーワード,ラベル,α値の一覧(SS.:125)

Tab. 9. The list of topics with their labels, key words, and α values (Seg. Size 125)

Tab. 10. トピックとキーワード,ラベル,α値の一覧(SS.:100)

Tab. 10. The list of topics with their labels, key words, and α values (Seg. Size 100)

Tab. 11. トピックとキーワード,ラベル,α値の一覧(SS.:75)

Tab. 11. The list of topics with their labels, key words, and α values (Seg. Size 75)

Tab. 12. トピックとキーワード,ラベル,α値の一覧(SS.:50)

Tab. 12. The list of topics with their labels, key words, and α values (Seg. Size 50)

Tab. 13. トピックとキーワード,ラベル,α値の一覧(SS.:25)

Tab. 13. The list of topics with their labels, key words, and α values (Seg. Size 25)

上記 Tab. 6–13 における各トピックのラベルは,Tab. 7 の SS. 594 では 15 トピック全てにラベルが付与されているのに対し,SS. が小さくなるにつれ「NA」の表記が多くなっている。これは,キーワードに挙がっている語が,各トピックにおいて意味をなすまとまりとして読むことができないことに起因する。ラベルの数や内容の差,キーワードに含まれる語の違いに,次の 5.3 節で提示するヒートマップ図から読み取れる各トピックと作品との関連を含めた LDA 実行結果を次の 6 節では比較考察する。

5.3 LDA 出力結果のヒートマップ図

ここでは,基準として採用した SS. 594 のLDA 出力結果をヒートマップで表現したものを以下 Fig. 4 に提示する。Fig. 4 では,15 個のトピックが縦軸に,67 の作品が横軸に配列されている。ヒートマップ図は,LDA の実行結果の構成データ (composition data) からなり,濃い色のセルはテクスト中にトピックが現れる密度が高いことを示し,より淡い色のセルはトピックの密度が著しく低いことを意味する。また,ヒートマップに付してあるデンドログラムはユークリッド距離及びウォード法26) を採用している。

Fig. 4. LDA 実行結果のヒートマップ図 (SS.:594)

Fig. 4. The heat map of LDA topic modelling result (Seg. size: 594; No. of topic: 15)

上記ヒートマップ図の一番下段に位置するのは,α 値が最も高く(α = 1.59792),分析した作品に最も普遍的に現れるトピック 3 (ラベル:Man)である。上段に位置しているのはトピック5である。このトピックのキーワード上位 3 語は king, queen, knight であり,Nobles のラベルを付与した。このトピック 5 は特に 『国王牧歌』 (Idylls of the King) シリーズの作品に顕著に見られるトピックであるが,当シリーズの主人公であるアーサー王 (King Arthur) が戦いに敗れて死にゆく物語を描いた『アーサー王の死』(‘The Passing of Arthur’ / ‘Morte d’Arthur’) には顕著に現れていない。

上から 2 段目と 3 段目は順にトピック 10(ラベル:Religions)とトピック 12(ラベル:Religious Environment)であり,図の左手に位置している,特に多神教の宗教・信仰が描かれている作品に顕著である。上から 4 段目のトピック 14(ラベル:Family)は,物語詩(narrative poems)aに多く現れる傾向にあるトピックであるが,物語詩の定義に含まれる英雄詩(epic poems)には顕著ではなく,英雄詩以外の物語詩に多く現れるという方が妥当である。これは,『国王牧歌』シリーズなどの英雄詩には一般(下級階級)の家庭が描かれていないのに対し,英雄詩以外の物語詩では「国王」などの上流階級の人々が描かれずに,一般家庭の人々が主要登場人物になっていることが理由である。上から 5 段目,6 段目にはトピック 11(ラベル:Environment)と 13(ラベル:Gardens & Flowers)が位置しており,特に図右側に位置している長編の叙情詩に顕著なトピックと言える。

下から 2 段目のトピック 0(ラベル:Life & Death)は,α 値が 0.54669 と本分析の中で 3 番目に高いトピックであるが,特に顕著に現れるのは図の中央より左側に位置する長編叙情詩である。このトピック 0 のキーワードは,「人生」や「死」を直接表す語のみならず,love, sprit, soul, time, thought 等の抽象名詞が多くを占めており,人生における「愛する者の死」,「亡くなった人への追悼」,「亡くなった人の魂(思想)」といった「不死性(immortality)」が背後に描かれている作品に顕著なトピックである。

下から 3 段目〜 6 段目までは,順にトピック 8(ラベル:Christianity),7(ラベル:Woman & Sorrow),4(ラベル:(King’s) Death),9(ラベル:Lessons of Life)が並んでおり,本分析結果の中でも α 値が低い(α ≤ 0.1000)4 トピックであり,すなわち特定の少数の作品にのみ現れるトピックであることが,ヒートマップ図からも読み取れる。Christianity のラベルを付したトピック 8 は,先述の多神教の宗教・信仰が描かれる作品に多いトピック 10(ラベル:Religions)と重複して顕著に現れる作品がいくつかある。T92_AKBEAM (‘Akbars Dream’) もその中の一つであり,この詩には,キリスト教だけではなく,仏教やイスラム教,パールシー教等,複数の信仰が描かれた上で,いずれの信仰にも共通する要素として Tennyson の考える「寛容の精神」が表現されている。この「寛容の精神」は,いずれの信仰にも共通する要素であるとともに,「Tennyson が理解できる限りでは,理想のキリスト教の範疇にあると考えた」27) と読まれている通り,作品に描かれた複数の信仰とキリスト教のつながりを LDA はトピックとして抽出したと解釈できる。

下段より 7〜9 番目に位置するトピックは,順にトピック 6(ラベル:Knighthood),2(ラベル:(Independent) Lady),1(ラベル:War)であり,α 値は 0.1 を上回っているものの,分析対象作品の一部にのみ現れるトピックである。トピック 6 は,ラベルにも示す通り騎士が主要な登場人物として描かれている物語詩に現れる傾向にあり,最も顕著に現れるのは,ランスロットと呼ばれる騎士を待つ女性を描いた『シャロットの姫』(T33_THEOTT; ‘The Lady of Shalott’)である。『シャロットの姫』は『国王牧歌』シリーズに属さない,別の作品であるものの,ここで描かれる騎士ランスロットは『国王牧歌』シリーズにも登場する人物であり,トピック 6 は本シリーズの作品にも表れている。トピック 2 に特徴的なのは自立した女性を象徴するキーワードであり,男性が中心の 19 世紀イギリス社会において女性の地位を確立せんとする女性を描いた『王女』(T47_PRIESS; ‘The Princess’)に特に顕著に現れるトピックである。

以上の perplexity, coherence の値,トピックのキーワードや α 値,ヒートマップ図にも描画されているトピックと作品の関連,そしてトピックが分析対象作品を表す適切さを考慮し,4.2 節で示した基準となる SS. 及びトピック数を,それぞれ SS. 594,トピック数 15 に設定した。次節ではこの基準と他の SS. の出力結果を照らし合わせ,SS. をさらに小さくすることによりどのような違いが生じるのか,これまで LDA を用いた研究の対象となってこなかった Tennyson の作品を分析する際には,どの程度まで SS. を小さくすることが可能であるかを論じる。

6. 考察

本節では,前の 5 節で示した結果をもとに,同じコーパスを異なる SS. に分割した LDA の出力結果を比較することにより,SS. を小さく設定することによりどのような違いが生じうるのかを考察する。

6.1 各セグメントサイズにおけるトピックの内容とラベルの比較

まず,5.2 節 Tab. 6–13 で提示した各 SS. で出力した15トピックに付したラベルと,それぞれのキーワードを比較する。Tab. 14 には,各トピックに付したラベル(アルファベット降順)のリストである。SS. 594 に付したラベルと共通する他の SS. のラベルは太字,SS. 594 に共通し,かつ一つの SS. の結果内で重複しているものは赤字,SS. 594 には表れなかったものの複数の SS. の結果に現れたラベルは青字で示す。また,SS. 594 のラベルと,近似していると思われる SS. 1,000 のラベル,Man / Man & Life,(Independent) Lady / Lady,Christianity / Christianity in Battle Fields, Christianity in Daily Lives は共に下線で示してある。Tab. 6–13 と同様に,NA は適切なラベルを付与しかねたトピックである。

SS. が小さくなるにしたがい,ラベルが NA となったトピックの数が概ね増加傾向であるのと同時に,基準である SS. 594 のラベルと共通するラベルが減少傾向にある。また, SS. 155,125,100,25 では,594 には現れなかった身体部位(ラベル:Body parts & Life/Environment)がキーワードに現れるトピックが出現した。このラベルの比較では,SS. 1,000,155,125 の 3 種がトピック数 15 のうち 3 分の 2 以上のトピックにラベルが付与されたのに対し,SS. 100 以下では,付与できたラベルは半分以下であり,適切なトピックの分類がなされたとは言い難い結果である。また,SS. 125 は 15 トピック中 10 トピックにラベルが付与されているものの,内 SS. 594 と共通するラベルはその半数の 5 トピックのみであることから,基準の SS. と結果が大きく異なっていると言え,SS. 125 以下は,本 6.1 節の比較対象からは除外するものとする。

Tab. 14. 8 種の SS. のトピックのラベル一覧

Tab. 14. List of labels and topics in eight segment sizes

各トピックに付与されたラベルは,筆者によって出力結果を考察した上で付与されたものであり,機械的に付与されたものではない。ラベルが共通しているとは言え,実際にそのトピックを反映するキーワードがどの程度近似しているのかは,ラベルからは判断し得ないため,ここではトピックの上位 20 位までのキーワードがどの程度 SS. 594 と近似しているのかを,前段落の結果に基づき SS. 1,000(Tab. 15),155(Tab. 16)のみ提示し,比較する。Tab. 15, 16 には,SS. 594 と共通するラベルを持つトピックのみを抜き出して表示している。上段からトピック番号,α 値,ラベル,キーワード上位 20 語,そして最下段には SS. 594 の結果と同じラベルが付与されているトピックのキーワードと同一の語が表れている数を表示している。なお,語の右に 1 が表示されているものは,SS. 594 のトピック上位 20 語内に同じ語が含まれていることを示す。

Tab. 15. SS. 594 と共通するラベルを有するトピックの α 値,ラベル,キーワード及び共通するキーワード数(SS. 1,000)

Tab. 15. Segment size 1,000’s topics, α values, labels, keywords and the number of duplicate keywords commonly labeled to segment size 594

Tab. 16. SS. 594 と共通するラベルを有するトピックの α 値,ラベル,キーワード及び共通するキーワード数(SS. 155)

Tab. 16. Segment size 155’s topics, α values, labels, keywords and the number of duplicate keywords commonly labeled to segment size 594

SS. 1,000 は 15 トピック中 12 トピック,SS. 155 では 15 トピック中 10 トピックのラベルが,SS. 594 のものと一致した。トピックのキーワードは,SS. 1,000 では 12 トピック中 6 トピック,SS. 155 では 10 トピック中 7 トピックのキーワードが,SS. 594 のものと半数以上一致していることが Tab. 14, 15 から分かる。しかし,SS. 155 は,ラベルが付与されていないトピックが 4 トピックある。他の SS. の中では,SS. 155 は最も基準に近い結果を得られたということができるものの,594 と 155 の間にサイズの差があることからも,この結果が SS. として設定できる最小値であるかは判然としない。そこで,次節では SS. 594 と 155 の間の値,SS. 374 と 265 を追加して検証することにより,SS. 155 で得られた結果が 594 に最も近い結果であるか,また SS. として妥当な最小値はどの程度かを検討する。

6.2 セグメントサイズ 374 と 265

ここまで,8 種類の SS. で分析と考察を行い,SS. 155 が基準に最も近く,125 以下は LDA への適用が望ましくないという結論に至った。しかし,基準の SS. 594 と SS. 155の間には数に隔たりがあり,SS. 594 が適用可能な最小 SS. であるという結論には至っていない。また,SS. 1,000 及び 500 はこれまでの散文作品研究でも使用されてきた SS.であるため,本稿で明らかにしたい,SS. はどこまで小さく設定しても妥当な結果が得られるかの結論にも至っていない。そこで,本節では最後に SS. を 594 と 155 の間の値 394 と,394 と 155 の間の値 265 の 2 種類の SS. を追加で検証する。

以下Tab. 17,18 に提示するのは,SS. 394 と 265 での LDA 実行結果であり,上段から順に,トピック番号,α 値,ラベル,キーワード上位 20 語(アルファベット順),最下段に基準となる SS. 594 と同じラベルが付与されたトピックと重複しているキーワードの数を提示する。Tab. 15,16 と同様に,各キーワード右に 1 が表示されているものは,SS. 594 の対象トピックにキーワードとして表れていた語であることを示す。ラベルが赤字で表示されているものは,SS. 594 のトピックに付されたラベルと共通しており,青字で示されているものは類似したラベルが付されていることを示す。

SS. 374 では,SS. 594 と共通したラベルが付されたのは, 15 トピック中 10 トピック,類似しているラベルが付されたのは 1 トピックであり,NA のトピックが 2 つであった。共通するキーワードが半数の 10 を超えるトピックは,10 トピック中 4 トピックという結果であった。

SS. 265 では,SS. 594 と共通したラベルの数は 11 であり,それとは別に 2 トピックが類似したラベルが付されたものの,共通するキーワードは 0 という結果であった。共通するキーワードが半数を超えるトピックは,374 と同じ 4 トピックであり,一致するラベルの数では SS. 374 と 265 が 155 よりも多いが,一致するキーワードの数では SS. 155 の方が多い結果となった。

Tab. 17. SS. 594と共通するラベルを有するトピックの α 値,ラベル,キーワード及び共通するキーワード数(SS. 374)

Tab. 17. Segment size 374’s topics, α values, labels, keywords, and the number of duplicate keywords commonly labeled to segment size 594

Tab. 18. SS. 594 と共通するラベルを有するトピックの α 値,ラベル,キーワード及び共通するキーワード数(SS.265)

Tab. 18. Segment size 265’s topics, α values, labels, keywords, and the number of duplicate keywords commonly labeled to segment size 594

以上のことより,基準の SS. 594 と比較して,一致するトピックの数は 9 トピックではあるが,その 9 トピックを構成するキーワードの一致率は,SS. 155 の方が SS. 394 や 265 よりも高いと言え,SS. 155 が適用可能な最小サイズであると結論づける。本稿では,結果の差を明確にするため,全て同一条件下で LDA を実行したが,SS. に最適な各種パラメータの値を追求することにより,より作品の特徴を捉えたトピックの分類結果を得られる可能性も考えられる。各種パラメータの値は,セグメントサイズのみならず分析対象コーパスに応じて最適値を検討する必要があり,また LDA の実行結果も各種条件によって左右されるため,本分析の結果はあらゆる LDA 分析の際に適用可能であると断言することはできない。しかし,本稿の議論の的である,Tennyson の作品のように作品のトークン数が大きく異なり,その標準偏差が 1,000 を超えるような場合には,セグメントサイズは最小でも 155 に設定することが望ましく,それ以下の値では作品内容を色濃く反映するような結果は得られないということが示唆された。

7. おわりに

本稿では,LDA を韻文作品に適用する際の課題の一つであるセグメントサイズの設定について,Tennyson の韻文作品のうち,1,000 語以上の長編詩を用い,全 11 種類のセグメントサイズを設定して比較を行った。検証の結果から,セグメントサイズの最小値は 155 まで適用可能であることが示唆された。

これまでの LDA を用いた韻文作品研究では,比較的作品語数に差が少ない同一形式の韻文(ソネット)や形式は異なっても作品語数の差が 1,000 を超えない作品に絞って研究が行われてきた。Tennyson の作品のように作品のトークン数が大きく異なり,その標準偏差が 1,000 を超えるような場合には,作品をセグメントで分割して LDA を実行することが想定され,その際のセグメントサイズの決定は,Tennyson のような,長編詩を有する他の韻文作家の分析を行う際にも懸案事項であった。本稿の結果は,Tennyson 韻文作品を LDA で分析する際のみならず,他の韻文作品を,LDA を用いて分析する際の一つの目安を提示できたと考える。

本研究の結論をより精度をあげて検証するため,LDA 実行結果として出力される他の値も詳細に検証する必要があるほか,LDA 実行にあたっては,対象テクストジャンルに関係なく,適切なトピック数の決定や,ストップワードの決定など,課題も多く,今後の課題としたい。

謝辞

本研究は、JST 次世代研究者挑戦的研究プログラム JPMJSP2138 の支援を受けたものです。

Footnotes

作中に登場人物が登場し,物語仕立てになっているが,韻文の形式で書かれた作品。

参考文献
  • 1)    Blei,  M. David.,  Ng,  Y. Andrew., and  Jordan,  I. Michael . “Latent Dirichlet Allocation.” Journal of Machine Learning Research 3, (2003): 993–1022.
  • 2)    Eve,  P. Martin . The Digital Humanities and Literary Studies. Oxford: Oxford University Press, 2022. Kindle.
  • 3)    McIntyre,  Dan. and  Walker,  Brian . Corpus Stylistics: Theory and Practice. Edinburgh: Edinburgh University Press, 2019.
  • 4)    堀  正広. 「逸脱したコロケーションとイディオム:ディケンズの The Pickwick Papers の場合」 『言語分析のフロンティア』, 赤野一郎先生古希記念論文集編集委員会(編), 308–321. 金星堂. 2019. 308–321.
  • 5)    中尾  佳行・  地村  彰之. 「『カンタベリー物語』の写本と刊本における言語と文体について」『コーパスと英語文体』,  堀  正広 (編), 21–52. ひつじ書房. 2016.
  • 6)    Tartakovsky,  Roi. and  Yehsyahu,  Shen. “Meek as milk and large as logic: A corpus study of the non-standard poetic simile.” Language and Literature 28, no. 3., (2019): 203–220.
  • 7)   岩田 具治.『トピックモデル』. 講談社. 2015.
  • 8)   Meeks,  Elijah. and  Weingart,  B. Scott. “The Digital Humanities Contribution to Topic Modeling.” Journal of Digital Humanities 2, no. 1, (Winter 2012): 1–6.
  • 9)   Tabata,  Tomoji. “Mapping Dickens’s Novels in a Network of Words, Topics, and Texts: Topic Modelling a Corpus of Classic Fiction.” Japanese Association for Digital Humanities Conference 2017, (September 2017), Doshisha University.
  • 10)   黒田  絢香. 「小説テクストの計量的分析―アーサー・コナン・ドイルの作品から―」, 『テクストマイニングとデジタルヒューマニティーズ 2016』(2017): 23–41.
  • 11)   Kiyama,  N. “How Have Political Interests of U.S. Presidents Changed?: A Diachronic Investigation of the State of the Union Addresses through Topic Modeling.” English Corpus Studies 25, (2018): 79–99.
  • 12)   黄  晨雯. 「中国のミステリー小説をめぐる計量的分析―程小青と鬼馬星の作品を中心に―」, 『テクストマイニングとデジタルヒューマニティーズ 2019』(2020): 31–45.
  • 13)   黄  晨雯. 「中国のミステリー小説におけるトピック解析の試み」, 『大阪大学言語文化学』(2020): 1–17.
  • 14)   Rhody,  M. Lisa. “Topic Modeling and Figurative Language.” CUNY Academic Works, (2012): 19–35.
  • 15)   Navarro-Colorado,  Borja. “On Poetic Topic Modeling: Extracting Themes and Motifs from a Corpus of Spanish Poetry.” Frontiers in Digital Humanities 20, (2018): 5–15.
  • 16)   Henrichs,  Amanda. “Deforming Shakespeare’s Sonnets: Topic Models as Poems Author(s)” Criticism 2019, 61, no. 3, (2019): 387–412.
  • 17)   Okabe,  Miki. “Thou and You in Emily Dickinson's Poems Using Topic Modeling: Reconsideration of Interjections.” Proceedings of Japanese Association for Digital Humanities Conference 2019, (2019): 125–131.
  • 18)  Miki Okabe, In personal conversation with author, July 28th, 2022.
  • 19)   正田  備也. (2019). 「トピックモデルの基礎と応用」 『IRのための統計的モデル構築に関する研究ワークショップ』 (2019年3月): 統計数理研究所.
  • 20)  “4 Important Tips On Writing a Research Paper Title,” Enago Academy, Questions, The Conversation, Scholastica, accessed February 28, 2022, https://submissions.scholasticahq.com/conversation/questions/4-important-tips-on-writing-a-research-paper-title
  • 21)  Delphi Poet Series 20. Complete Works of Alfred, Lord Tennyson. 2013. EPUB.
  • 22)   Ricks,  C. The Poems of Tennyson in Three Volumes. (ed.) Longman. 1987.
  • 23)   田畑  智司. (2019) 「英国 Classic Fiction コーパスの潜在的トピック:LDAによるテクストクラスタリング」 『言語文化共同研究プロジェクト』 (2019): 47–58.
  • 24)   Imao, Y. (2022). CasualConc (Version 3.0.2): https://sites.google.com/site/casualconcj/casualconc/CasualConc
  • 25)   McCallum,  Andrew Kachites. “MALLET: A Machine Learning for Language Toolkit.” accessed February 19th, 2022. http://mallet.cs.umass.edu.
  • 26)   石川  慎一郎,  前田  忠彦,  山崎  誠. 『言語研究のための統計入門』 くろしお出版. 2010.
  • 27)   Ricks,  C. The Poems of Tennyson in Three Volumes. (ed.) Vol. III, 235–236, Longman. 1987.
 

この記事はクリエイティブ・コモンズ [表示 4.0 国際]ライセンスの下に提供されています。
https://creativecommons.org/licenses/by/4.0/deed.ja
feedback
Top