デジタル・ヒューマニティーズ
Online ISSN : 2189-7867
論文
近代短歌全文テキストデータベースの構築
村田 祐菜永崎 研宣大向 一輝
著者情報
ジャーナル オープンアクセス HTML

2022 年 3 巻 1 号 p. 17-26

詳細
Abstract

文学研究をはじめとした諸分野において, 一定規模のテキストを素早く, 網羅的に検索可能な環境が整備されていることは研究基盤の点から重要である.しかし,近代短歌は研究に利用可能な電子テキストの蓄積が十分ではない.また,日本文学研究者はプログラミング技術等を用いたテキストの処理・分析手法をとる場合はいまだ少なく,テキストの構築に加え,データの利用環境としての検索・分析インターフェースの整備も必要である.そこで研究データとしての近代短歌の電子テキストの作成及びその利用環境としての全文検索システムを構築し,「近代短歌データベース」として公開した.本稿ではその構築過程と実現した機能の詳細,近代短歌研究における利用事例について述べる.

Translated Abstract

A database of relevant texts that can be quickly and comprehensively searched is crucial in every field, including literary studies. However, the digital texts available for research in modern-tanka (i.e., a form of Japanese poetry) are insufficient. Additionally, text mining approach has not been used in Japanese literature studies. Thus, a database of modern-tanka texts with search interfaces as a data-curation environment is necessary. Accordingly, we constructed modern-tanka texts into a digital dataset and a full-text modern-tanka database that is now publicly available as the “Kindai Tanka Database.” In this article, we describe the database construction process, the functions of a database, and a modern-tanka case study.

1 はじめに

文学研究をはじめとした諸分野において一定規模のテキストから素早く網羅的に用例を検索できる環境が整備されていることは重要である.日本文学研究においても「新編国歌大観CD-ROM版」[1]により主要な和歌集の全文検索が可能になったことにより,表現研究をはじめとした和歌研究に大きな影響を与えた[2].機械による全文検索は,人手による文献探索よりも効率的に大量のテキストの用例を収集でき,研究の効率化に寄与するだけではなく,思いがけないテキストからの用例の発見が研究に新しい視点をもたらす可能性もある.また,研究に使用したデータや検索インターフェースが公開されていれば,他の研究者による再現や検証も容易に行うことができる.さらに,近年ではテキストマイニング等の情報技術を用いた研究も進展しており,電子テキストの公開は,テキスト分析のための言語リソースとしての意義も見込まれる.

日本近代文学作品の電子テキスト化は着実に進展しており,その代表的なサイトである「青空文庫」[3]では,著作権の保護期間が満了した作家のテキスト約18000作品以上1がパブリックドメインで公開されている.しかし,近代短歌作品に限定すると,斎藤茂吉や与謝野晶子といった著名な歌人の歌集も公開が遅れている.これを「新編国歌大観」の収録歌数約45万首と比較すると,和歌テキストの整備状況と比較して,近代短歌における電子テキストの蓄積はいまだ十分ではなく,第一に利用可能な電子テキストの構築が必要である.

また,テキストデータの構築と並行して,データを利用するためのインターフェースの整備も重要である.日本文学研究においては,プログラミング技術を用いたテキスト処理や,テキスト分析用ソフトウェアを用いる研究者はいまだ多くない.単に作品を電子テキスト化し,公開するだけではデータの利用環境として十分ではなく,より広く研究者の利用に供するためには検索機能等を持ったインターフェースの提供も必要である.そこで,近代短歌のテキストデータ及びその利用環境としての全文検索システムを構築した.本稿はその構築プロセスと実現された機能について述べる.なお,全文検索システムは現在「近代短歌データベース」(http://kindaitankadatabase.com/)として一般に公開しており,誰でも利用可能である.

2 関連研究

日本近代文学テキストに計量的手法を用いた先行研究として,Long[4]がある.Longは,語彙の豊富さや冗長さ,人称代名詞の出現頻度といった定量的要素から「私小説」や「意識の流れ」等の文体モデルを構築した.このような定量的要素で定義される「ジャンル」によって文学作品群を分析することで,従来のジャンル区分では見落とされていた意外な作品間の類似や,「ジャンル」の時間的,地理的伝播の様相を明らかにし,新しい文学史記述の可能性をひらいた.近代短歌テキストの構築は,用例検索にとどまらず,このような計量的手法の適用を可能にする.また,Longは言語学等の分野と比較し,文学研究における計量的研究を支援する環境整備の遅れを課題として指摘している.

日本近代文学分野における既存のテキストデータベースとして,青空文庫が公開している電子テキストを利用した全文検索システムが挙げられる.代表的なものとして,シカゴ大学のLongらにより開発されたAozora Search[5]や国立国語研究所による全文検索ソフト「ひまわり」[6]がある.このような既存の高品質な電子テキストのデータベース化は,テキスト作成のコストをかけずにテキストを有効に利用できる手段であるが,主要な作品の多くが青空文庫に未収録である近代短歌分野での研究利用には限界がある.また,端末にソフトウェアをインストールすることなくブラウザ上で検索,分析機能が利用できることが望ましい.さらに,Long[7]が青空文庫のコレクションは作者の没年,著作権法,テキストの入手可能性等に制約された個人の偶発的な選択の積み重ねによって形成されたものであると指摘するように,明確な方針に基づいたコレクションであるとは言えず,収録作品の代表性,網羅性には課題がある.また,日比[8]は使用する底本や新字体・旧字体の選択も各作業者に一任されているため,作品によってテキスト作成の方針が異なるという課題を指摘する.これらを踏まえると,青空文庫の収録作品をテキストデータベース化するだけでは研究利用において不十分であると言えるだろう.

日比[9]は日本近現代文学研究者に必要なのは「ある程度の規模で,ある程度の水準,方針で統一された本文テキストがまとまって手に入り,検索やデータ分析などで利用可能」な環境であるとする.ある程度の水準・方針の内実は,文学者の採録基準や底本,旧仮名・新仮名,旧字・新字等の本文校訂の方針が一定であることである.また,研究において実際に研究者が使用する底本は草稿,原稿,初出,単行本,改訂版など多様であるため,それらと電子テキストの差異は,各自の研究の中で配慮すればよいとする.

川平 [10]も質の高いテキストやTEIなどの国際標準規則に準拠した構造化データの構築の重要性を確認しつつ,「粗雑でも不完全でもいいから,検索できるデータベースがそこに「ある」ことが大事」であり,質の高いテキストデータベースが構築されるまでの過渡期的な措置として,研究者が独自で作成したテキストを集積した「塵袋のようなデータベース」を提案している.すなわち,テキストデータの蓄積が十分ではない現状や,研究に用いる底本の多様性を考慮すると,テキスト構築の目的は主に用例検索と機械的なデータ分析のための研究基盤の提供に位置づけられる.そして底本の選択基準や文字入力の方針を統一して作成された,一定規模のテキストを網羅的に検索できる環境の整備が重要であると言える.

3 データの構築とデータベースの要件定義 

 2章を踏まえ,テキストデータの作成方針を以下のように定める.

1.主要な歌人の作品を網羅的に収録し,近代短歌研究に汎用的に利用可能であること

2.本文校訂の方針が歌人単位で統一されていること

3.効率的な検索,分析のためにメタデータを付与すること

 次節でデータの構築過程について述べる.

3.1 データの収録範囲と底本

データベースの収録範囲として,個人単位で網羅的に作品を収録する方針とした.どの歌人を「代表的」とみなすかは研究者により異なるが,短歌全集等のアンソロジーへの収録や,辞典での立項の有無は研究分野における各歌人の評価がある程度反映されていると言える.そこで『岩波現代短歌辞典』[11]で大項目となっている歌人及び『短歌シリーズ・人と作品』[12]で扱われている歌人を中心に17人を収録対象とした.底本は個人全集とし,個人全集が未刊行の歌人は全歌集とした.個人全集の多くは専門の研究者によるテキストクリティークを経て適切な本文が決定されており,草稿などの未刊行資料も可能な限り収録しているため,各歌人の作品を網羅的に収録可能である.一方,各全集で用いる底本や旧仮名・新仮名,旧字体・新字体のどちらで表記するかの方針が異なる点が課題として挙げられるが,旧字体・新字体等の表記ゆれは後述するように検索システムの機能である程度吸収可能である.

 Table 1.に収録対象の歌人,底本及び歌数を示す.テキストの入手可能性等の都合により,最新版ではない全集を底本とした歌人には下線を引いた.さらにTable 1.の歌人に加え,青空文庫で公開されている短歌作品2や匿名希望の個人により提供されたテキスト(1821首)も収録している.なお,前節で要件2として挙げた,本文校訂の方針の一定性を保つため,青空文庫にテキストがあってもTable 1. と底本が異なる場合,青空文庫のテキストは使用していない3.底本等の詳細については,GitHub[13]に掲載している.総収録歌数は156722首である.

歌人 底本 歌数
伊藤左千夫 『左千夫全集』第1巻, 岩波書店, 1977 3385
石川啄木 『石川啄木全集』第1巻, 筑摩書房, 1978 3942
太田水穂 『太田水穂全集』第1-2巻, 近藤書店, 1957-1958 5135
北原白秋 『白秋全集』第6-12巻, 岩波書店, 1985-1986 16669
窪田空穂 『窪田空穂全集』第1-3巻, 別冊, 角川書店, 1965-1968 14256
古泉千樫 『定本古泉千樫全歌集』, 石川書房, 1993 2280
斎藤茂吉 『斎藤茂吉全集』第1-4巻, 岩波書店, 1973-1975 17887
島木赤彦 『赤彦全集』第1-2巻, 岩波書店, 1969 4568
釈迢空 『折口信夫全集』第24-25巻, 中央公論社, 1997 7139
土屋文明 『土屋文明全歌集』, 石川書房, 1993 12344
長塚節 『長塚節全集』第3巻, 春陽堂書店, 1978 1520
中村憲吉 『中村憲吉全集』第1巻, 岩波書店, 1937-1938 4282
前田夕暮 『前田夕暮全集』第1-2巻, 1972 16182
正岡子規 『子規全集』第6巻, 講談社, 1977 2495
与謝野晶子 『定本与謝野晶子全集』第1-7巻, 講談社, 1979-1981 16262
与謝野鉄幹 『鉄幹晶子全集』勉誠出版, 2001 16773
若山牧水

『若山牧水全集』第1-13巻, 補巻, 増進会出版, 1992-1993

9782

Table 1. 収録対象の歌人と底本

Table 1. Poets and sourcebooks included in the Kindai Tanka Database.

テキストの作成手順は,まずスキャナで底本をPDF化した後,OCRソフトウェアを用いて電子テキストを作成し,その後底本を確認しながら人手でテキストを修正した.OCRソフトウェアはe.Typist v15.0[14],Tesseract[15]と比較した上で旧漢字の認識精度が高かったABBYY FineReader PDF 15[16]を使用した.

3.2 文字の取り扱い

近代の日本語活字資料の電子化においては異なる字形をどこまで区別して入力すべきかが問題となる.先行するテキストコーパスではテキストの作成目的によって異なる入力方針が採用されている.例えば,青空文庫は原本に可能な限り忠実に入力する方針を採用しており,JIS X 0208を基本として,包摂基準等でも表現できない文字は外字注記の形式で記録している[17].「明六雑誌コーパス」では,言語研究資料としてコーパスを作成する場合,「電子テキスト作成はゴールではなく,あくまで研究の手段としての環境整備という位置づけ」[18]であり,言語資料としての可読性や語彙等のサンプルが採集できることが重要であるとして,JIS X 2013文字集合としつつ,包摂規準の拡張や別字での表現を許容するなど,可能な限り外字処理を減らす方針を採用している.このように,基準となる文字コードを定め,それで表現できない文字は外字処理や包摂基準の拡張で対応することが一つの方法として想定される.

一方,文字入力方針の策定・維持や細かい字形の差異を区別し,記録することは膨大なコストがかかる.また,本データベースでは主にテキストの意味内容に着目した研究を想定しており,その場合字形の詳細な違いを記録することの意義は少なく,むしろ旧字体・新字体などの異体字も統合して検索できることが求められる.そこで,近代短歌のテキストデータの分量が少ない現状において,コストを原本の字形の再現にかけるよりも,より多くのテキストを網羅的に検索できる環境の整備を優先した.具体的には,底本に従い歌人単位の旧字体・新字体等の表記は統一するが,OCR処理の結果を字形レベルまで積極的に修正はしない方針とした.そして,検索システム上で異体字統合検索機能を実装することで,底本の編集方針の違いから生じる表記ゆれを統合して検索可能にした.たとえば,『赤彦全集』は新字体,『斎藤茂吉全集』は旧字体による表記を採用しており,それぞれ底本の表記に従いテキストを作成すると「黒」と「黑」のように本来は統合して検索したい文字が別のものとして扱われてしまう.そこで異体字の対応表を作成し,これを検索システムに登録することで「黒」,「黑」のどちらで検索した場合でも,対応する異体字もヒットするようになる.これにより元の電子テキストは底本の表記に従いつつ,検索上は同一のものとして扱いたい文字の統合が可能となる.なお,踊り字は元の文字で検索可能であることが望ましいが,検索システム上での変換が難しいため,電子テキスト作成の段階で元の文字に置換した.

3.3 メタデータの付与とデータの構成

メタデータは,利用者のニーズに合わせた効率的な検索のために重要である.また,歌人や結社,年代などテキストの特定の位相に着目した分析が可能になる.そこで,短歌本文に加え,メタデータとして歌人名,歌集タイトル,制作年,出版年の情報を付与する.なお,通常歌集には短歌本文に加え,連作題や制作年月,制作背景を記録した注などが付されているが,本データベースでは用例検索の対象を短歌本文に限定し,短歌本文のみテキスト化を行った.

データの特徴として,制作年と出版年の二種類の年代情報を付与していることが挙げられる.歌集の多くは編年体(又は逆編年体)で編纂され年代記的構成をとることが多く,章題や注記,序,跋などから短歌の制作年が判明する場合が多い.また,草稿として書きためていた短歌を後年まとめて出版したり,一度歌集に収録された歌を別の歌集に再録したりすることも多く,短歌の制作年と歌集の出版年が大きく異なる場合がある.たとえば,斎藤茂吉の第三歌集『つゆじも』は,1918年(大正7年)から1921年(大正10年)の間に制作した歌を収録しているが,歌集の刊行は1946年(昭和21年)と,制作年と刊行年で大きく間が開いている4.このような場合,出版年は制作当時の作家の伝記的背景や歌壇の潮流等の文脈を反映しているとは言えないため,制作年による検索ができた方が便利である.

テキストデータは短歌本文,歌人名,歌集タイトル,制作年,出版年の順に並べたCSV形式で作成した.データの例を以下に示す.

A 霜ふりて一もと立てる株の木の林はあはれに黑ずみにけり,斎藤茂吉,赤光,1905,1913

B その昔しまだ乙女子の姉君と若菜つみけんかつしかの里,斎藤茂吉,短歌拾遺,1905,[1905]

C その子二十櫛にながるる黑髮のおごりの春のうつくしきかな,与謝野晶子,みだれ髪,0000,1901

D 生きてわれ聽かむ響かみ棺を深くをさめて土落す時,窪田空穂,まひる野,1899-1905,1905

Aは出版年とは別に制作年が章題より判明した例であり,Bは歌集未収録歌で,制作年が全集の解題より1905年と判明,出版年は未刊行のため制作年を補記している例である.Cは制作年が不明のため「0000」とし,出版年のみ付与した例,Dは解題より制作年が1897年から1901の間と判明した例である.

3.4 データベースの要件定義

データベースの要件について定義する.山西[19]らは,研究者を対象に「日本古典文学本文データベース」の利用目的を調査し,研究のための原資料の入手を目的とした一次資料的な利用と,用例収集や出現場所の特定を目的とした二次資料的な利用に整理している.前者は電子テキスト本文の閲覧,入手,加工,後者は網羅的な文字列検索と出現場所の把握が要求される.また,これらの利用目的のうち用例収集のための文字列検索が最多であるが,これは本データベースの方針と合致する.これに加え,近年では情報処理技術を用いたテキスト分析も進められているが,プログラミング技術に習熟していない研究者もこれらの技術を簡単に利用できることで,研究仮説の立案や仮説の検証に資することができる.これを踏まえ,データベースの要件を以下のように定義する.

1.用例検索機能

大規模なテキストから,表記ゆれを含めて網羅的かつ効率的に用例を検索,閲覧できること

2.結果のダウンロード機能

検索結果の入手,自由な加工ができること.また,テキストの二次利用に関するライセンスが標準的な方法で明示されていること

3.分析機能

プログラミング等の技術を用いることなく結果の分析,可視化が利用できること

1の用例検索機能について述べる.これは本データベースの最も基本的な機能であり,人手で確認可能な量を超える規模のデータから,網羅的に用例の検索が可能になることで,研究における用例収集のコストを大きく下げることができる.また,「さびし」や「かなし」など使用頻度が高い単語の場合,検索結果が膨大になるため検索条件の指定や絞り込み検索により,効率的に用例が得られることも重要である.さらに,3.1で述べたように作成したテキストデータは底本の本文校訂の方針により表記が異なる場合があるため,異体字等の表記ゆれを含めて同じ意味内容の用例を網羅的に検索できる必要がある.

2のデータのダウンロード機能について述べる.研究者のニーズに応じて本データベースの検索結果を利用するためには,ブラウザ上で本文を表示するだけではなく,データを自身の端末にダウンロードし,本システムに依存することなく自由に加工できることがのぞましい.また,提供するデータ形式は人が読むだけではなく,機械による処理を前提とする.さらに,データの自由な利活用においては,利用者がどのような条件でデータを利用できるのかを容易に把握できる必要があるため,テキストの二次利用に関するライセンスを標準的な方法で明示する.

3の分析機能について述べる.これは具体的にはメタデータとして付与した年代情報に基づく単語の出現頻度の時系列の変遷や,検索語と関連性の高い単語を提示する機能とし,研究仮説の立案や,仮説の検証を支援する.

4 検索システムの構成

4.1 検索システムの構成

検索システムは,OSはAmazon-Linux,WebサーバソフトにはApache 2.4,プログラミング言語はPython 3.6,ウェブアプリケーションフレームワークはFlaskを使用し構築した.また,全文検索エンジンにはApache Solr 8.4を,Webインターフェースの構築にはJavaScriptをベースにjQueryとBootstrapを用いた.

4.2 異体字統合検索

前述のように各個人全集が採用した底本の表記は残しつつも,異体字の統合検索ができることが望ましい.永崎[20]は「みんなで翻刻サーチ」の構築において,CHISE[21]をもとに異体字対応表を作成し,Apache Solrでの検索インデクス作成の際にこの対応表を登録することで異体字統合検索を実現したが,本稿もこれを参考に,「デジタル版『渋沢栄一伝記資料』新旧文字置換対照表」[22]を用いて異体字対応表を作成した.Apache Solrではトークナイズ処理の際に指定した文字を変換する文字列フィルタ機能であるMappingCharFilterFactory が提供されており,これに作成した異体字対応表を登録した.

4.3 検索インデクスの作成

日本語テキストの検索インデクスを作成する方法として, 主に形態素解析器による処理とN-gramによる処理の二つがある. Apache Solrでは,日本語形態素解析器であるKuromoji5を利用したインデクス作成機能が提供されているが,近代短歌テキストの解析に問題が生じる場合がある.例えば,「うつそみ」という名詞の検索において,Kuromojiでインデックスを作成したフィールドのヒット数は99件であるのに対して,N-gram(Bigram)でインデックスを作成したフィールドのヒット数は109件である.これは,Kuromojiの解析において,名詞ではなく「うつ(名詞)+そむ(動詞)」や「うつす(動詞)+み(接頭辞)」,「うつす(動詞)+みの(人名)」のように処理結果のゆれによる検索漏れが生じていると考えられる.一方,Bigramによる処理は,「京都」の検索結果に「東京都」が含まれるというような,検索ノイズが増加するという課題がある.

検索精度を評価するため,各フィールドおよび両フィールドにおいて単語「いま」,「うつそみ」を検索した場合のクエリ文字列,ヒット件数,精度(適合率)を以下に示す.なお,Kuromojiでインデックスを作成したフィールドを「poet_keitaiso」,Bigramでインデックスを作成したフィールドを「poet_ngram」とする.

トークナイザ クエリ文字列 ヒット件数 適合率(%)
Kuromoji poet_keitaiso : ”いま” 887 87.1
Bigram poet_ngram : ”いま” 2319 37.6
両方

poet_keitaiso : ”いま”

OR poet_ngram : ”いま”

2319 37.6
Kuromoji poet_keitaiso : ”うつそみ” 99 100.0
Bigram poet_ngram : ”うつそみ” 109 100.0
両方

poet_keitaiso : ”うつそみ”     

OR poet_ngram : ”うつそみ”

109 100.0

Table 2.ヒット件数と適合率の比較

Table 2. Comparison of hits and precision

単語「いま」のBigramの検索結果には,「いまだ」「います」「ほしいまま」等,検索ノイズを多く含み,Kuromojiと比較して適合率が低い.一方,単語「うつそみ」の適合率はいずれのフィールドも100%であるが,ヒット件数はBigramの方が多い.つまり,Kuromojiでは検索漏れが生じており,形態素解析の結果にゆれが生じるような単語を検索する場合,Bigramが適していると言える.

一般に適合率と再現率はトレードオフの関係にあるが,本データベースでは,利用者が結果をダウンロードの上,各自の目的に応じて処理することを想定し, 適合率よりも再現率を優先する設計とした.そこで,KuromojiとBigramのそれぞれを用いてインデクスを作成し,両者に検索クエリを実行することで,このような検索漏れをある程度補うことができる.

5 近代短歌データベースの機能

5.1 用例検索機能

3章で定めた要件をもとに実現されたデータベースの機能を「さびし」という単語の探索を例に説明する.まず,1つ目の要件である用例検索機能について述べる.データベースの画面構成と用例検索機能の表示例をFig. 1.に示す.

Fig. 1. データベースの画面構成と検索結果表示

Fig. 1. Configuration of database and interface for text search.

 ①キーワード入力フォームに検索語を入力し⑥検索実行ボタンをクリックすると,⑩ヒット件数表示バーにヒットした短歌の数が,⑪検索結果表示タブに検索結果が20件ずつ表示される.また,検索語は識別のため赤字でハイライト表示される.Fig. 1.に示すように「さびし」の検索結果は2314件と,人手による調査では膨大な時間がかかる量のテキストから,多くの用例を短時間で得ることができ,研究における用例収集のコストを大きく下げることができる.一方で,利用者による検索時の工夫が必要な点もある.漢字表記と平仮名表記のゆれは異体字統合では対処できないため,「さびし」という語の使用傾向を正確に調査するには,平仮名表記に加えて「寂し」「淋し」等も合わせてOR検索する必要がある.さらに「し」のように,常識的なよみとは異なるよみをルビで表現している場合,ルビのデータが元の電子テキストでは存在しないため検索できないという課題もある.

さらに,利用者の目的に合わせて検索条件を指定して効率的に検索することが可能である.検索条件としては②AND検索/OR 検索,③歌人,④制作年・出版年の範囲が指定できる.たとえば,歌人を指定した検索は,ある歌人におけるキーワードの使用傾向の把握に役立つだけではなく,複数の歌人を選択し,特定の短歌結社における単語の使用傾向を調査する際に有用である.一例として,短歌結社「アララギ」同人における「さびし」という単語の使用傾向を調査したい場合,該当する歌人(正岡子規,伊藤左千夫,長塚節,斎藤茂吉,島木赤彦,中村憲吉,古泉千樫,釈迢空,土屋文明)を選択して検索することで実現可能である.

なお,キーワードを指定せず,特定の歌人や年数範囲での検索も許容している.たとえば,「斎藤茂吉が1910年~1915年の間に制作した短歌」といったデータを抽出することが可能である.

検索結果が膨大な場合は,絞り込み検索機能が有用である.これはApache Solr が提供するファセット検索機能により実現されている.Fig. 2.に絞り込み検索の表示例を示す.

Fig. 2. 絞り込み検索の表示

Fig. 2. Filtering the search.

⑨絞り込み検索の「歌人で絞り込み」「歌集で絞り込み」をクリックするとヒット件数とともに歌人名,歌集タイトルの絞り込み選択肢が展開される.さらに絞り込みたい歌人,歌集をクリックすると,絞り込み後の検索結果が表示される.この絞り込み機能により,最初は全データを対象にキーワード検索を行い全体の単語の使用傾向を把握した上で,さらに歌人,歌集ごとの使用傾向を詳細に検討することが可能になる.

5.2 データのダウンロード機能と二次利用条件の明示

 データのダウンロード機能及び二次利用条件について述べる.⑦検索結果ダウンロードボタンをクリックすると,検索結果ファイルを自身の端末にダウンロードできる.ボタンのラベルはファイル形式に対応し,CSV形式とJSON形式を選択可能である.なお,結果の取得はシステム負荷の観点から上位1000件を上限とし,ダウンロード対象のデータは著作権の保護期間が満了している作家に限定される.これにより自身のローカル環境に検索結果をダウンロードし,任意の形式への加工やテキスト分析ソフトによる処理,可視化など,本システムに依存せずに比較的自由な活用が可能となる.次に,二次利用条件の表示画面をFig. 3.に示す.

Fig. 3. 二次利用条件の表示画面

Fig. 3. Display of the secondary terms of use.

Fig. 3.に示すように,本データベースでは,著作権の保護期間が満了した作家については,青空文庫における二次利用条件[23]を参考に,パブリックドメインマーク1.0により提供することを明示している.著作権保護期間中の作家は検索結果の表示を一部分に限定し,ダウンロード対象から除外している.なお,全データに占める著作権保護期間内のデータの割合は約7.8%である.

5.3 分析機能①―出現量の時系列による可視化

一つ目の分析機能としてグラフ表示機能について述べる.これは,横軸を制作年/出版年,縦軸を検索語の出現量とした棒グラフを表示し,単語の出現量の時系列による変遷を可視化する機能である.グラフの表示条件として,④横軸で表示する年数間隔と⑤制作年・出版年を選択し検索の上,⑫グラフ表示タブをクリックすると,④で指定した年数ごとのキーワードの出現頻度を棒グラフで可視化する.なお,制作年,出版年が不明の場合(0000の場合)や,複数年にわたる場合はグラフの集計対象から除外されている.また,4.3で述べたように検索クエリの設計においては適合率よりも再現率を優先したため,出現量の中に意図しない単語が含まれる可能性がある点に注意が必要である.グラフの集計対象外となるデータの件数はグラフ下に表示するとともに,各歌集に付与した制作年,出版年のデータをGitHub [24]で公開しており,より正確な議論に役立てられる.Fig. 4.にグラフ表示の例を示す.

Fig. 4. グラフ表示

Fig. 4. Graph-display window.

Fig. 4.は単語「さびし」と「さみし」の出現量を制作年,出版年と1年単位,5年単位の組み合わせで可視化した例で,制作年と出版年で微妙に出現量が異なることがわかる.制作年を選択すると短歌制作当時の背景により近い視点で分析が可能だが,制作年が判明しない歌は多い.一方で出版年は制作年の補記を含め,ほとんどの歌集に付与されているため,より多くのデータを対象とした出現量の変遷を把握したい場合には出版年の表示が適しており,利用者の目的に応じて選択可能である.また,グラフの縦軸は任意の年数間隔で表示可能であるが,年数の間隔を大きくすると数年ごとの細かい変動を吸収した,よりマクロな視点から単語の出現傾向の変遷を捉えることが可能になる.

Fig. 4.では青色が「さびし」,赤色が「さみし」の出現量である.いずれの表示においても「さみし」と比較して「さびし」の出現量が多いことが視覚的に把握できる.このように,一見すると類似した意味の単語であっても,その出現量に差異があることや,年代により出現頻度が変化していることなど,文字列による表示では把握しにくいデータの特徴をグラフによる可視化で容易にとらえることができる.

5.4 分析機能②―word2vecを用いた関連語の表示

 二つ目の分析機能としてword2vecを用いた関連語表示機能について述べる.既存データベースでの実装例としてはSAT大蔵経テキストデータベース[25]がある.word2vecは周辺の単語が似ていていれば類似した意味の単語である[26]という仮説に基づき,コーパスの学習を通して単語の意味を数値ベクトルで表現する自然言語処理の手法である.短歌本文をMecab+近代文語UniDicで分かち書き処理したテキストからPythonライブラリのgemsimでモデルをあらかじめ作成し,学習済みモデルをサーバに配置している.なお,今回は語彙の類似性や時代的な近さを優先し,近代文語UniDicを用いたが,近代文語UniDicは近代論説文をもとにしているため,近代短歌テキストの場合にはむしろ,中古和文や近世文語等のUniDicの方が文体との適性が高い可能性もある.他UniDicの利用も今後の課題である.本データべースでは検索語に対してコサイン類似度が1に近い単語を表示する.コサイン類似度は与えられた2つのベクトルの向きがどの程度近いかを表現する値であり,ベクトルの向きが完全に一致しているときに1.0になる.Fig. 5. に表示例を示す.

Fig. 5. word2vecを用いた関連語表示

Fig. 5. Related-words display window in word2vec.

Fig. 5. に示すように,⑬「word2vec」タブの「関連する単語を表示」ボタンをクリックすると,検索語に対してコサイン類似度が1に近い上位15語が表示される.また,モデル作成時のパラメータとしてベクトルの次元数,学習に使用する単語の範囲,学習に使用する単語の最低出現回数を選択可能であり,利用者の選択に応じた学習済みモデルから結果が出力される.

6 近代短歌研究におけるword2vecの有用性

近代短歌研究におけるword2vecの有用性について,現時点で判明している2点を示す.

1点目はより広い範囲の表記ゆれの吸収である.Fig. 5.では「さびし」と関連する語として「寂し」「淋し」が表示されており,5.1で述べた異体字統合検索から漏れてしまう表記ゆれを利用者に提示し,検索時の補助として活用できる.さらに,「さみし」のように読みが異なるよりゆるやかな範囲の表記ゆれも提示されており,このような派生的な表現も統合して検索したい場合にも有用である.(なお,5.3で示したように,「さびし」と「さみし」の微細な表記違いの使用傾向が研究において有意な場合もある.)

2点目は単語の探索支援である.Fig. 5.では「かなし」「なつかし」等,直感的には類似する意味の形容詞が提示されており,これらの単語の用例を再度データベースで検索することを通して,従来意識していなかった単語間の関係性やネットワークを利用者が探索する手がかりとなる.

また,日本文学研究者の多くはプログラミング言語を用いてこのような自然言語処理技術を使用する技術的なハードルが高いため,本データベースで簡単に利用できる点にも意義があるだろう.

7 ケーススタディ

本データベースの活用事例として,「~見れば~思ほゆ」という表現の使用傾向の調査を行う.この表現は奈良時代の歌集である『万葉集』に多く使用され,以後の和歌集における用例数は減少する,『万葉集』に特徴的な表現と言えるが,眼前の事物を視覚的に捉える「見れば」から転換して「思ほゆ」で眼前にない事物を想起するという構造を持つ.内藤[27]はこの表現が近代短歌においても見られることから,近代歌人が一首の中に意識的にこの表現を詠みこむことで,そこに蓄積された発想法の摂取が行われたことを指摘した.古語の摂取にとどまらない『万葉集』享受を指摘した点で重要だが,挙げている用例数が少なく,具体的な摂取の範囲については十分に明らかにされていない.短歌結社「アララギ」は「万葉調」を旗印として『万葉集』を積極的に摂取した点に特徴があり,この表現を多く用いている可能性が高いため,「~見れば~思ほゆ」の全用例に占める「アララギ」同人の割合を調査する.

通常歌人の全集には短歌の索引が付されているが,初句索引の場合が多く,「~見れば~思ほゆ」のように一首の途中に出現する共起表現の用例を人手で正確に収集することは困難である.一方,本データベースを使用すれば,このような表現の用例を簡単に検索することができる.Table 3.に検索結果を示す.

検索式 全データにおける用例数 「アララギ」同人の用例数
見れば AND 思ほゆ 16 13
みれば AND 思ほゆ 5 5
見れば AND おもほゆ 20 19
みれば AND おもほゆ 10 8

Table 3.「~見れば~思ほゆ」の検索結果

Table 3. Search results of expression “* mireba * omohoyu.”

それぞれの漢字表記と平仮名表記の組み合わせで検索すると,合計51例が見つかった.さらに,「アララギ」同人(5.1 参照)の用例を調査するために,歌人を事前に選択した上で再度検索すると,ヒット数は合計45例と用例の8割以上を占めることが明らかになった.「アララギ」同人以外の歌人の短歌も8万首以上含まれているため,「~見れば~思ほゆ」という表現は「アララギ」同人において特に積極的に摂取されていたと考えられる.

このように,通常の索引では困難な文字列の検索に加え,網羅的な検索により用例が見当たらないことを明らかにすることも研究においては有用である.本ケーススタディを通して従来の研究で十分に明らかにされなかった具体的な『万葉集』摂取の範囲を明らかにし,研究における有用性を示した.

8 意義と課題

 本データベースの意義を述べる.一点目は従来電子テキストの蓄積が十分ではなかった近代短歌分野において,主要歌人の短歌を約15万首という規模で網羅的に検索し,用例を得ることが可能になったことである.これにより,人手による文献探索と比較して研究者が用例収集にかけるコストをはるかに下げることができるとともに,思いがけないテキストからの用例の発見が研究に新たな進展をもたらす可能性がある.

二点目は大規模なテキストからの用例検索がもたらす近代短歌研究への影響である.近代短歌の研究手法は代表的な一首~数首を取りあげて解釈を行ういわゆる評釈や鑑賞が中心であり,一首の表現を精緻に読みとくことで様々な解釈が蓄積されてきた.本データベースで得られる用例や出現量等の情報により,従来の研究をより実証的な観点で批判,検討することが可能となる.さらに「新編国歌大観」所収の和歌表現との比較を通して古典摂取について検討するなど,本データベースと既存の古典文学のテキストデータベースを用いることで古典和歌と近代短歌を連続的にとらえることが容易になる.

三点目は日本近代文学分野における全文テキストデータベース構築の実践例としての意義である.電子テキストやその利用のための検索インターフェースは研究基盤として重要であり,その分野の研究者間の議論によってコンセンサスが形成された上で構築されるべきであるが,日本文学分野ではいまだそのようなコンセンサスの形成までは到っていない.今後,近代文学分野の電子テキストがさらに増加することが予想されるが,このようなテキストの量的な拡大が見込まれる中で,分野としてどのように研究基盤としてのテキストデータおよびインターフェースを整備していくべきかについて検討する上で本データベースは一実践例としての意義を持つだろう.

最後に課題と展望について述べる.課題の一点目はテキスト誤りの修正である.底本を電子テキスト化する過程で,OCRの誤認識や人手による誤入力の可能性は常に存在するが,電子テキストをデータベースとして公開することで,そのような誤りの発見可能性を高めるとともに,誤りを発見した場合は利用者が指摘できるようにデータベース上に連絡フォームを掲載している.

二点目は,表記ゆれの吸収である.現在は対応表に収録されている文字同士のみ統合検索が可能であり,「みれば」「見れば」のような文字種の違い(7章)や,「寂し」「淋し」のような漢字表記の違い(5章),「こんにちは」「こんにちわ」のような仮名遣いの違い等による表記ゆれも統合検索可能であることが望ましい.対応方法として,UniDicの解析結果を利用した辞書の作成や,word2vecの結果を蓄積し,検索語の推薦に利用するなどが考えられる.

三点目はより詳細なメタデータの付与である.本データベースは一定規模のテキストの網羅的な検索環境の提供を優先したため,最低限のメタデータのみ付与しているが,より詳細なメタデータの付与によりテキストの利活用性を高めることが期待できる.たとえば,検索結果の検討段階において,底本の該当ページ等の出現位置に関する情報があると原資料での確認が容易になる.

今後,検索結果の一部だけではなく,著作権の保護期間が満了した作家の全データの公開を予定している.これらは近代短歌分野におけるこれまでにない大規模な言語リソースとしての意義がある.さらに,テキストの校正やより詳細なメタデータの付与,構造化によりテキストの質を向上させるとともに,本データベースの公開をきっかけに研究者からのフィードバックを得ながら収録歌人や機能の追加を行い,本データベースを近代短歌研究における研究基盤として発展させていきたい.

9 結論

 本稿では,近代短歌の電子テキストの作成及びその利用環境としての検索インターフェースの構築過程について述べた.電子テキストの量的な蓄積が十分ではない近代短歌分野において,底本の選択や文字の扱いを歌人レベルで統一しつつ,一定規模のテキストから用例を網羅的に検索できる環境の提供をテキスト構築の目的に位置付けた.さらに,テキストデータベースの要件として,用例検索機能,データのダウンロード機能,分析機能を定め,実現したデータベースの機能を「さびし」という単語の検索・分析を例に整理した.人手による文献探索と比較して多くの用例をより効率的に得られることに加え,検索結果の自由な利活用,多くの日本文学研究者にとってハードルの高いプログラミング技術を使用することなく単語の出現頻度の時系列による可視化や自然言語処理技術に基づく関連語の提示が利用可能となった.

また,ケーススタディを通して,従来用例検索の困難さから十分に明らかにされていなかった,万葉集表現摂取の具体的な範囲を明らかにすることで,実際の研究における本データベースの有用性を示した.

謝辞

本データベース構築においては,人文情報学研究所の方々に多くのご助力を賜った.また,本データベースにテキストを提供してくださった方々に深く感謝する.

Footnotes

「作家別作品一覧拡充版」(https://www.aozora.gr.jp/index_pages/person_all.html)によると2022年2月現在, 18253作品が公開されている.

http://kindaitankadatabase.com/ の「底本について」を参照.

Table 1. 以外の歌人の作品は,追加データの位置付けであるため,個人全集あるいは全歌集を底本としていない場合がある.

『つゆじも』収録の短歌は大正7年前後の手記をもとに昭和15~16年の間に「創作」されたもので, 後記に記載の制作年は「一種の偽書」とする指摘もある(岡井隆「『つゆじも』の解読」『岡井隆コレクション斎藤茂吉論集成』思潮社, 1994年)が, 基本的に後記や解題, 章題に記録されている制作年の通りに入力した.

Javaで開発されたオープンソースの日本語形態素解析エンジン. デフォルトの辞書はMecab-IPADICで, 本稿ではこちらを使用したが, 近代文語UniDicなどの辞書を使用することで解析精度の向上が期待できる.

参考文献
 

この記事はクリエイティブ・コモンズ [表示 4.0 国際]ライセンスの下に提供されています。
https://creativecommons.org/licenses/by/4.0/deed.ja
feedback
Top