2022 Volume 3 Issue 1 Pages 27-31
本稿では,中国出土資料に登場する古文字の解読情報を機械可読なテキスト形式で記述したデータを紹介する.このデータは研究者ごとに見解の異なる複数の解読情報を網羅的に参照することを目的としたものであり,表データとして作成した.既にデジタルアーカイブの検索用途に対して応用的に利用されている.本稿執筆時点では「包山楚簡」という出土資料のデータのみ公開しているが,以降も対象となる資料を拡大させて同リポジトリにデータを蓄積してゆくことを計画している.出土資料の文字のテキストデータ化は未だ充分に進んでおらず,本データがその先駆けとして機能することを期待する.
Herein, we introduce a data set containing information interpreted from ancient characters that appear in Chinese excavated materials. This data set has been arranged in a tabular form and is intended to be a comprehensive reference source of the views and interpretations of various researchers. This data set is already available to search in a digital archive of Chinese excavated materials. At present, the only available data are for the excavated Baoshan Chujian(包山楚簡) materials, but we are planning to accumulate more data and expand the target materials in this repository. The current text data on the excavated materials are not yet sufficiently organized, and we hope that this work will serve as a precursor to a more structured data set.
本データは,中国出土資料2に現れる古文字の解読情報をテキストデータとして整理したものである.出土資料上の古文字の解読情報は,現在用いられる漢字(楷書体)のテキストデータとして記述されることがほとんどである.古文字の中には未だ解読における定説が確立されずに議論が続いている難読字も多く存在しており,こうした場合は多く研究者から提出された複数の解読情報を参照しつつ研究を進める必要が生じる.こうした状況にも関わらず,複数の解読情報がオープンデータとして整理・公開されている環境は見当たらない.また一つの解読情報のみを記録するテキストデータが存在している場合においても,それが典拠文献に厳密に基づいて作成されたものなのか,それともデータ作成者による加筆修正が明示されずに加わったものなのかなど,作成された経緯が明らかでない場合も多い.本データはこれらの課題を解決するために作成したものである.
本データを活用した事例の一つとして,筆者が構築を試みている中国出土資料デジタルアーカイブ3(以下,DA)においての検索用途の利用が挙げられる.当該DAの詳細は片倉(2021)1)に記述がある.なお本データ自体には画像情報は搭載されていない.
片倉峻平(東京大学大学院 人文社会系研究科)
Excel(表形式データのファイルフォーマットとしてxlsxを用いているが,実質的にはCSVであっても内容に変化はない.)
本データは古文字の解読情報を整理することを目的としており,出現する古文字が研究者ごとにどのように解読されているのかという情報を文字ごとに記述することに焦点を当てている.そのため古文字一つに対して一つのレコードを与え情報を記述してゆくことが理想的であると考えた.CSVなども検討には入れたが,データ入力の際にExcelのユーザインタフェースが最も適していたため,最終的に採用した.
約13000レコード(約560KB).
数多くの中国出土資料の中からデータを作成するに当たり,まずは「包山楚簡」という資料を選択した.包山楚簡は一定量の資料がまとまっている点や土着の行政文書という貴重性などから重要視される資料であり,楚簡上の古文字を扱う言語学研究や,楚国の政治に関する歴史学研究などでは多く言及される.こうした理由からデータ作成の端緒として採用している.
作成の際に参考とした文献は湖北省荊沙鉄路考古隊(1991)3),劉信芳(2003)4),陳偉等(2009)5)の三冊である.湖北省荊沙鉄路考古隊(1991)は包山楚簡の画像が記載されている図版資料として用い,他二冊は古文字解読情報の典拠元として参照した.
データの主眼となるものは,古文字の解読情報である.出土資料に現れる解読情報には,「隷定」と呼ばれる解読情報と,「釈読」と呼ばれる解読情報が存在する.「隷定」は字形に基づく解読情報であり,「釈読」は意味に基づく解読情報である(Fig. 1.).
Fig. 1. 「隷定」及び「釈読」の例(図版は包山楚簡十六号簡4より)
Fig. 1. Example of "Liding(隷定)" and "Shidu(釈読)"(The image is from "Baoshan chujian(包山楚簡)" slip number 16)
また古文字は「重文」あるいは「合文」という読まれ方をする場合もある.「重文」の場合は一つの文字が同じ文字として複数回読まれ,「合文」の場合は一つの文字が異なる複数の文字として読まれる5.これら特殊な読まれ方をする文字は,その右下に下駄記号「〓」に似た形の記号が付いている場合が多く,これを「重文符号」(あるいは「合文符号」)と呼ぶ(Fig. 2.)6.
Fig. 2. 重文符号(図版は包山楚簡十六号簡7より)
Fig. 2. Sign of duplication(The image is from "Baoshan chujian(包山楚簡)" slip number 16)
データにカラムとして含まれる項目は以下の通りである.なお本稿では古文字データのカラムとなっている項目を"[]"を用いて記述する.
[ID]
レコードごとに付与される一意の数字.
[種別]
劉信芳(2003)に示された,資料の大分類.「文書」「卜筮祭禱紀錄」「遣策」「竹牘」の4種類に分かれる.
[篇名]
劉信芳(2003)に示された,資料の小分類.篇名分類が無い(1種類)ものから,最大では32種類に分かれる8.
[簡号]
簡(書写材料として用いられた竹の札)の番号.数字の後に漢字が付与される場合もあり,「反」はその簡の背面に記されたものであることを示す.種別「竹牘」には「上」「中」「下」字が表れるが,これはその竹牘上の相対的な位置を示す9.
[出現順]
その文字が簡の何番目に出現するのかを示した数字.小数点が打たれる場合は,本来そこに画像情報として文字は存在していないものの,典拠資料が何かしらの意図で文字の補充を行ったことを示す.
[隷定(単字)]
隷定された文字の単字情報.典拠資料により隷定情報が異なる場合,ASCIIカンマ区切りで列挙し,その旨を備考欄に記述した.また[公]など角括弧で文字が記されるものは,実際にその部分に文字は存在していないが典拠資料が欠文と判断して文意適切に補うために記したものである.
[隷定(IDS)]
隷定された文字のIDS10情報.典拠資料により隷定情報が異なる場合,ASCIIカンマ区切りで列挙し,その旨を備考欄に記述した.なおこのカラムの記述は偏旁など漢字の構成要素による文字列検索を可能とすることを第一義として作成した11.そのため,図形部品に関してさらに詳細な字形を括弧書きにより追記する場合がある12.また同様の目的のため,一度IDSにより分解した部品が更に細かく分解することが可能な場合,括弧を用いた入れ子構造にて更に細かい分解を示すことがある13.
[釈読(解詁)]
劉信芳(2003)の釈読情報.
[釈読(十四種)]
陳偉等(2009)の釈読情報.
[重文符号]
重文符号の有無.符号がある場合は「○」を記述する.
[備考]
その他,示しておくべき情報.典拠文献が不鮮明な場合などにはその記録も残している.
古文字データはExcelデータとして作成している(Fig. 3.).図版を元にして,古文字一つに対して一つのレコードを割り当てており,すなわち資料上の文字数が総レコード数と合致する.データの内容は劉信芳(2003)・陳偉等(2009)の情報を整理して記述したものであり,湖北省荊沙鉄路考古隊(1991)は参考資料として参照した.
隷定情報は,それが単字のテキストデータとしてファイルに記述が可能な場合は[隷定(単字)]にテキストデータを載せた.典拠文献によっては,竹簡の欠損などを理由とした判読不明字を「□」で示すことがあり,他にも記号として存在する非漢字をその記号の形から「/」「|」などと記述する場合もある.「☱」のような複雑な記号も登場する.これら判読不明字や非漢字は,それが他の古文字と同じ大きさで記される場合は「隷定(単字)」に記し,重文符号や句読符号など文字の補助としての大きさで用いられる場合は「重文符号」「備考」に記した.一方で複雑な字形になってしまうなどの理由から単字のテキストデータとして記述が出来ない場合は[隷定(IDS)]にその字形のIDSを載せた.このIDSはCHISE14にあるような既存のデータを援用したわけではなく,今回のデータに合わせて新たに作成したものである15.なお,[隷定(単字)]にテキストデータが記述可能な場合でも,それを更に分割してIDSとして表現出来る場合は,[隷定(IDS)]にIDSを記述した.これは単字のみならず偏旁による検索をも可能とするためである.
[隷定(単字)]に入力された文字がIDSとして記述できる際に,必ずしもそのIDS情報が[隷定(IDS)]に存在するわけではない.本稿執筆時点でのIDS情報を補う基準は,古文字研究の際にその構成要素で検索することが有意義かどうかという筆者の主観が優先されている.したがってその基準は明確化されているわけではなく極めて曖昧な状態となっている.今後データを作り進める上で基準が変動する可能性は充分にあり,これまでIDSを補わなかった文字に新たにIDSを補い加えることも大いにあり得る.
[隷定(IDS)]に示されるIDS情報は,必ずしも楷書体に忠実に基づくIDS情報というわけでもない.例えば「作」字は,楷書体では「⿰亻乍」と,「亻」(にんべん)を用いたIDS表記になるが,本データの中では「⿰人乍」と「亻」を用いないIDS表記をしている.これは,本データで扱っている古文字(戦国文字)では,構成要素が部品となったとしても,「人」が「亻」となるといったようなその形を大きく変える現象があまり見られないことを背景としている.ただしこうした正規化もまだ完全に徹底が出来ているわけではなく,文字間での表記揺れも散見されている.なおこうした理由から,「隷定(単字)」が空欄で,UCS符号位置も備考に記述がない場合,本データの示すIDSは必ずしも該当字の隷定情報を厳密に導くものではない.
またIDSデータは一つの字形に対して複数存在する可能性があり,本来であれば充分に検討した上でデータ作成に取り組まなければならない.一方で本データはその検討を行う前に作成を進めてしまっており,IDSデータ表現の揺れを防ぐ工夫は満足に加えられていない.しかしながら,方針の一つとして「同一の隷定字を指すIDSは一種類のみ」というルールは可能な限り徹底するよう努めている.
[重文符号]は,基本的には重文符号の有無に基づいて記しているが,文字によっては重文符号が無いにも関わらず重文・合文として読まれるものも稀に存在する.解読情報として重文・合文で読まれているが図版に符号がない場合は,[重文符号]に「○」をつけた上で[備考]に符号が無い旨を記している.
[備考]には,上で述べた重文符号にまつわる情報のほか,隷定情報が典拠により異なったり,隷定字単字のUCS符号は存在するもののそのフォントがOSにデフォルトでインストールされているフォントでは実装されていないため表示できないことが予想され,[隷定(単字)]を敢えて空欄にしたりする場合などの情報を記している.また[隷定(単字) ]に同じ図形部品で構成されている代替字を記入している場合も,[備考]にて示している.
4.5 典拠資料にある解読情報の整形
典拠資料には隷定・釈読の解読情報がそれぞれ記されているが,それが全篇にわたり正確に峻別されているわけではない.特定の釈読が定説化している古文字の場合などは隷定情報が省略されることも多く,その場合は釈読情報があたかも隷定情報のように記される.これは,出土資料研究者であれば隷定情報が省略されているということは概ね容易に判断が付くだろうという想定があってのことであろう.
古文字データを作成するに当たっては,典拠資料の解読情報と図版資料とを逐次照会させ,典拠資料で隷定情報が省略されていると判断出来た場合はその隷定情報を新たに付け加えた.これは典拠資料には存在しない情報ではあるが,データ全体の一貫性を担保するために以上のような整形を加えている.なお判断基準は,「その字の隷定・釈読の関係が定説化しているかどうか」である.本データ作成時において隷定字を示さず釈読字を提示していると想定された文字は,「又」と隷定される字(釈読字「有」)および「才」と隷定される字(釈読字「在」)の二字のみであり,この二字の隷定と釈読の関係は楚簡研究の中ではほぼ定説化しているため,整形対象とした.
また整形を行わず典拠文献に厳密に依拠したデータを作成してしまうと,隷定字「又」を記述していないレコードが部分的に存在してしまい,「又」字の検索だけではこうしたレコードをヒットさせることが出来ないという不具合が生じてしまう.このような事象を避けるためにも整形を行っている.
Fig. 3. 古文字データ(包山楚簡)
Fig. 3. Dataset of ancient characters(Baoshan chujian(包山楚簡))
タイトル:baoshan
配布者:片倉峻平(東京大学大学院 人文社会系研究科)
URI:https://doi.org/10.57284/data.jadh.21792476
トピック:中国出土資料
概要:中国出土資料に現れる古文字の解読情報テキストデータ
対象時期:中国戦国時代
対象地域:中国大陸
データタイプ:表データ
アクセス権:設定無し
データの言語:日本語・中国語
リポジトリ公開日:2022-02-19
Creative Commons Attribution-ShareAlike 4.0 International
10.57284/data.jadh.21792476
本古文字データは,様々な研究者による解読情報を網羅的に参照可能とするために作成したものであり,故に複数の典拠資料に基づいている.本稿執筆時点では典拠は僅か二つであるが,以後は更に典拠を増やすことでデータの拡充を図る.また現時点では「包山楚簡」のみを対象として"baoshan"というオブジェクトをリポジトリに掲載しているが,今後は「郭店楚簡」「清華大学蔵戦国竹簡(清華簡)」など別の出土資料に対しても同様の手法で古文字データを作成して同リポジトリに追加する計画を立てている.
冒頭でも述べたが,本データのように出土資料上の古文字に対する各研究者の解読情報を集積させたデータというものは,未だ充分に整備・公開されていない.中国にある既存の出土資料DAの中には独自の古文字テキストデータを作成して検索に役立てていると想定されるものもあるが16,データがどのような方針で作成されているかは不明であり,DAの利用には注意を払う必要がある.その大本のデータが公開されているわけでもないため,実際に確認することも出来ず,またそれを応用した利用も不可能となってしまっている.こうした状況下で,本稿で紹介する古文字データはその作成方針などを明らかにし,また応用的な利用を制限することなく公開しているため,中国出土資料テキストデータを整備・公開するという潮流の鏑矢になり得る.
一方で,データ整備に課題も残っている.例えばデータ記述に必要な労力である.典拠とすべき資料は今回扱った二つだけでは不充分で,更に別の典拠から情報を追加する必要があるのだが,現時点では筆者が一人で作業に当たっているため作業に費やせる時間に限界も生じてしまう.これを解決するためには,データ作成を一つのプロジェクト化して作業人員を増やしたり,もしくはクラウドソーシングを利用してユーザが自由にデータを追加出来るシステムを作成したりするなど,作業に当たる人員を追加する必要があろう.また,このようにデータがさらに巨大化した際に,今度はデータ形式として現在のような単純なExcel表データが果たして適切なのかという問題も生じて来るかも知れない.ほかにも,4.4節で触れた「IDS情報を補う基準の明確化」や「古文字(戦国文字)に基づくIDS記述の文字間の表記揺れ」も今後の課題として残っている.現時点でのデータは完成形ではなくまだ発展途中のものであるため,上述した諸問題に対しては引き続き検討を加える.
出土資料の一覧及び概説は中国出土資料学会編(2014) 2)に詳しい.
http://katakura.pythonanywhere.com/(accessed February 17, 2022)
湖北省荊沙鉄路考古隊(1991)より.
これは厳密には文字学上の定義とは異なる説明であるが,片倉(2021)及び本稿では議論の便宜のためにこのような説明を採っている.
重文符号はISO/IEC 10646でU+16FE3として標準化されているのであるが 6)、フォントが未だ充分に浸透していないため、本稿執筆時点ではでは下駄記号U+3013で代用している。
湖北省荊沙鉄路考古隊(1991)より.
篇名に「⿰⿱大夫邑⿰人拳命案」とIDS表現が用いられるものも存在するが、これは劉信芳(2003)で篇名として用いられている文字がISO/IEC 10646で標準化されていないためである。これは篇に登場する古文字の隷定字に由来する分類名であると考えられる.
竹簡は基本的に1枚に1行書きで文字を記されるが、1枚に複数行で記される場合もあり、これを竹牘と呼ぶ。今回の場合、例えば「1上」であれば1行目の上部に記されている、ということを示す。
IDS(Ideographic Description Sequence)は,漢字の配置構造と構成要素を並べることで一つの漢字を表現出来るような文字列のこと.詳しい定義はUnicode 15.0 7)のpp.760-763にある.
データ作成当初は,IDSではなく構成要素を羅列することでこの目的を達成しようとした.つまり例えば「𠾡」字を構成要素に分解して「口等竹寺」と記すカラムを設けるつもりであった.しかしながらその構成要素が元の字からどのように抽出されたかという情報も残すべきではないかと考え直し,IDSを基とする記述に改めた.
例えば,⿺辵斿で示される文字は,構成要素「斿」字に含まれる「子」字でも検索対象となるように「⿺辵斿(子)」と記述している.
例えば,「𠾡」字はIDSを用いて⿰口等と記すことが出来るが,このうち「等」字部分は更に⿱竹寺と表現が出来るため,これを併せて「𠾡」字を「⿰口等(⿱竹寺)」と記述している.
https://www.chise.org/ (accessed February 19, 2022)
CHISEなどにある既存のIDSデータは楷書体に基づいたものであるため,今回は使用を避けた.
例えば「中國古代簡帛字形,辭例數據庫」(http://www.bsm.org.cn/zxcl/)では,テキストデータによる古文字画像の検索を可能としており,ここでは古文字のテキスト情報をデジタル化したデータの存在を推定できる.(accessed February 19, 2022)