2022 年 3 巻 1 号 p. 3-15
本研究は,トピックモデルの一つである潜在的ディリクレ配分法 (latent Dirichlet allocation;LDA) を,まだ先例の少ない韻文作品へ適用する際の問題点の一つと言えるセグメントサイズの設定について議論し,LDA の韻文作品研究応用の有効性を検討することを目的としている。LDA に限らず,トピックモデリングは,デジタル人文学やテクストマイニングの分野では有望なアプローチと考えられており,散文作品研究にトピックモデルを用いる研究は近年増加しているものの,詩作品へトピックモデルを応用した研究はあまり多くない。この手法の韻文コーパスへの適用に関しては,さらなる検討と知見の蓄積が必要である。本稿では,作品の総語数が25語から2万語超まで大きくバラつきがある Alfred Tennyson の韻文作品を対象とし,特に作品総語数が 1,000 語を超えるテクストを複数の小さいセグメントサイズに分割した結果について論じ,LDAに適用可能な最小セグメントサイズを提示する。