ボランティアで運営されているインターネット上のデジタルテキスト・アーカイブである青空文庫は,その主たる形式として,テキストファイル(拡張子.txt)を扱っている。本稿では,テキストファイルに施す青空文庫独自の注記や,作業にまつわる問題点や解決法,そのほかテキストファイルの利点などを,その歴史的な経緯や今後の展望とともに解説する。とりわけJIS漢字コードと,書籍の体裁や組み版の情報を残すための注記を,いかに整理して効率的に運用するかが課題であり,そのためのツールや資料が各種開発されたことを概説するものである。
民間のボランティアによって運営されているインターネット上のテキストアーカイブたる青空文庫注1)は,1997年7月7日の開設から早くも20年近くがたとうとしているが,今ではおよそ1万4,000点の電子テキストを収める国内有数のWebサイトにまで発展している(図1)。
本稿では,その青空文庫が取り扱っている電子テキストに焦点を当て,フォーマットやツールあるいはビューアーなどの実作業にまつわる点から,JIS漢字コードをめぐる諸問題やファイルの変換や活用に至るまでを,青空文庫に長く携わってきた立場から解説してみたい。
現在,青空文庫で作業する際のよりどころとしているのは,テキストファイル(拡張子.txt),いわゆるプレーンテキストである。どのボランティアもまずはこのファイル形式で書籍を電子化し,そのあとでXHTMLファイルを自動作成して,両ファイルを公開するという手順が踏まれ,Web上で簡易閲覧する際にはXHTMLファイル,各種ビューアーアプリで閲覧するときには,ZIP圧縮されたテキストファイルが多く参照されている。
しかし初めからテキストファイルが中心にあったのではない。かつて「電子本」「電子出版」といえば,「ハイパーテキスト」や「マルチメディア」といった言葉と結び付き,既存の書籍にない性質を夢見るものでもあった。あるいは,紙の本の「美しさ」を再現することを求めて,専用のソフトウェアとビューアーを用いて制作・閲覧する代物だった。
青空文庫のWebサイトが当初,電子書籍の開発・制作会社のサーバースペースに置かれ,(物理的な書籍の見た目を模したうえで機能が拡張された)エキスパンドブックというソフトウェア専用の独自形式のファイルを収録していたのも,その「かつての夢」の現れであり,あくまでもテキストファイルは電子書籍を作るための元データにすぎなかった。
だがそれでもテキストファイルをともに公開していたのは,文庫創設の意思を示した「青空文庫の提案」1)にもあるように,「できる限り手の加わっていない,シンプルな形で受け取りたいと考える人もいるはず」で,「もし他の基盤に切り替えることになった際も,それまでの成果をたやすく引き継いでいける」と考えたからだった。
2.1 テキストファイルの注記形式とはいえ,テキストファイルは文字データだけであるため,そのままでは紙の本や電子書籍で表現される書籍の体裁や組み版の情報は保持しえない。後の電子書籍作成にも,また複数人での作業の効率化のためにも,そうした情報を残すための共通ルールが必要だった。
青空文庫で作業用マニュアルが初めて公開されたのは,1997年12月4日のことだが,その共通ルールの記法には,以下のような2つの特徴がある。
ルビ(ふりがな)について
青空文庫《あおぞらぶんこ》
組み版情報に関する注記について
青空文庫[#「青空文庫」に傍点]
漢字等に対するルビは,人間が見て理解できるように(あるいはあくまで読書・作業の補助として妨げとならないように),二重山括弧《》を用いての前方参照,また組み版情報については主として同じく前方参照で[#…]という記述で注記を付すというものだった。
この記法は,もともと視覚障碍者(しょうがいしゃ)読書支援協会(BBA)が用いていたものだ。青空文庫以前から書籍の電子化に取り組み,そのデータを用いて大活字本や点字本・録音図書の制作を行っていた団体である。この団体の「原文入力ルール」に合わせることで,「青空文庫のテキストを協会でも使える」2)ようになるわけだが,この発見は電子テキストの「共有」と「汎用(はんよう)性」に意識が向かった端緒ともいえるだろう。
その後,作業を重ねるにつれてマニュアルにも改訂が加えられ,記法が整理されるとともに,開始・終了型の注記も増えていくが,この点には読書ビューアー等の発展とも,大きなかかわりがある。
2.2 ファイルを読む当初の青空文庫で採用されていたボイジャー社のエキスパンドブックの無料閲覧ソフトウェアには,テキストをコピー&ペーストで流し込めるビューアー機能が内緒で注2)組み込まれ,気づきさえすればユーザーが自由に利用することができた。固定された版面で作り込まれた電子書籍を提供するはずの道具に残されたこの余地は,あらゆるテキストを自由な文字サイズや書字方向で読むことの可能性を感じさせるものだった。
汎用の読書支援ツールとして,ボイジャー社からT-Time注3)が発表されたのは,1998年2月のことだった。1997年の青空文庫のマニュアル整備と前後していたため,形式対応こそはしておらず,多くの機能は拡張されたHTMLタグに依存していたものの,青空文庫呼び掛け人の富田倫生をはじめ多くのボランティアが,早速作業にこのソフトウェアを活用し始める。
1999年8月以降は,青空文庫収録ファイルの自由活用を保証したこともあって,各種端末への利用も促進され,すぐにPalm/PilotやWorkPadで読めるよう変換したファイルを再配布する「青空文庫パーム本の部屋」注4)が登場し(図2),また雑誌の付録CD-ROMにも収録され始めるようになる。
2001年までには,個人制作のソフトウェアも含めていくつものビューアーが現れ,中には青空文庫がテキストファイルに付した注記形式に対応して組み版を再現させたものもあった。そうしたテキストファイルの汎用性・可能性を初めて目の当たりにして,評価すればするほど当然,ソフトウェアにうまく解釈されるような記法や,適切に統一された注記の徹底を意識せざるをえなくなる。すなわち,「そのまま読めるもの」ないし「本を模したもの」から「構造化されたテキスト」への転換であって,その注力のためにも2002年にはエキスパンドブック形式の採用をやめることになる。またそれは,それまで青空文庫がHTML版と電子書籍版,さらにはWebサイトの更新を手作業で行っていたことから,自動作成による省力化を模索していた時期とも重なっていた。
perlスクリプトによるXHTMLファイルへの自動変換と,そのためのテキストファイルの形式点検の実行,そしてデータベースを活用したオンライン書架管理・更新アプリケーションが青空文庫で採用されたのは,2002年のことだった。こうした開発作業は,主にメーリングリストを介して共同で行われ,また誤植や注記ミスなどの訂正も専用掲示板「むしとりあみ」を用いて情報が集められた。
2003年には,自動読み上げを活用した音声ファイルがボランティアによって準備され,また外部利用の利便性を上げるためのCSVファイルによる作品一覧もデータベースから提供されるようになった(図3)。2004年には,同じくボランティアから新着情報のRSSフィード注5)が配信されるようになり,また作品を収めたZIPファイルのダウンロードと解凍を1クリックで行えるフリーソフト注6)が公開され,さらにはボイジャー社による青空文庫専用ビューアー「azur」注7)が満を持して登場している。
2005年から2006年にかけては,青空文庫のテキストを活用したノベルゲームや,ポッドキャスティングによる朗読配信が盛んになり,これらの一部は2007年の青空文庫の10周年記念DVD-ROM注8)にも収録され,そして同年には携帯ゲーム機NintendoDS向けに「DS文学全集」注9)など,青空文庫を収めた各種ソフトウェアが発売されたばかりか,iPod touch / iPhoneがついに現れ,10年をかけて青空文庫の豊かな活用が着実に実りつつあった。
しかし,こうした活用に伴って生じた作業の厳密化は,青空文庫のボランティア作業員の中でも大きな議論を生むことともなり,その中心となったのがJIS漢字コードの問題であった。
青空文庫のテキストファイルは,Shift_JISでエンコーディングされたJIS X 0201およびJIS X 0208の範囲内の文字を用いて電子化されている。この点は,開設当初から現在に至るまで変わっていない。
しかしJIS X 0208に収められた第1・第2水準の漢字では,文芸作品に登場する文字をカバーできない事例が,当初から頻発していた。こうしたいわゆる「外字」を,青空文庫では先述の視覚障碍者読書支援協会から受け継いだ注記の形でファイル内に情報として残していったが,ちょうど同じ頃,JIS漢字コードの拡張計画も進められていた。
そこで1998年5月,JIS文字コード原案作成委員会より収録漢字選定のための資料提供を打診されたことを受けて,まずは誰のどの作品のどの箇所に外字が現れたかをまとめた「青空文庫登録作品に現れた外字」注10)をWebサイト上で公表,さらにトヨタ財団から助成を受けてアーカイブ活動を進めながら外字情報収集にまつわる研究を行うことにもなった。
その成果は翌年1999年2月公表の資料「文学作品に現れたJIS X 0208にない文字」注11)に結実し,提出されたデータは2000年1月に出た新JIS漢字コード(JIS X 0213)の第3・第4水準漢字の策定でも参照された。
ただし,青空文庫の作成ファイルがすぐさまこの新しいJIS漢字コードに置き換わったわけではない。新コードを使用するには,対応するソフトウェアやフォントなどが必要であり,その登場と普及を待つ必要があった。
青空文庫では,その策定に大きく携わった立場からむろん採用には積極的であり,2000年8月には「新JIS漢字時代の扉を開こう!」注12)というページを公開して,協力の経緯や理念,そのほか新JIS漢字対応フォントとして個人制作されたKandataやHabianと,早くもJIS X 0213をサポートしたT-Timeを紹介しつつ(図4),新JIS漢字コードによる第3・第4水準を含めての電子テキスト化を,はっきりと「青空文庫の明日の姿」と述べている。そして同年公開の「青空文庫:明日の本棚」注13)でも,従来外字処理していた文字を新たなJISコードで符号化したファイルを数十点用意している。
しかしその「明日」は,2017年現在,いまだに来ていない。自らが深くかかわったにもかかわらず,なぜ青空文庫は今も,JIS X 0208: 1997で電子化をし続けているのか。
2000年12月31日付の告知欄「そらもよう」には,新JISコードによる符号化を「いずれ,この形こそを青空文庫の基本形にできる」注14)と記しているが,そのことと同時に,4月に運用開始されたメーリングリストにも触れられている。
このメーリングリストは,そこでの交流からさまざまな作業支援ツールが生まれるなど,21世紀初頭の青空文庫に大きく貢献しており,たとえば第1~4水準までの漢字を部首・画数と読みの双方から引ける「新JIS漢字総合索引」注15),ファイル内の機種依存文字をチェックする「文字チェッカー」,校正の作業履歴の確認を簡便にする「相違点チェッカー」,旧字中の新字検出を支援する「校閲君」など注16)が2001年には共同開発され,いずれもオンライン上で利用可能となっていた(図5)。また2002年にはグループワークの情報共有用にwikiクローンのYukiWiki注17)が採用され,作業における技術の応用が大幅に進んでいた。
とりわけ「文字チェッカー」や「校閲君」は,いずれも青空文庫の作業目的に特化したものであり,機種依存文字やJIS漢字コード内における新字・旧字の収録状況に対応したものでもあった。JIS漢字コードでいかに諸作品を符号化してファイルを交換可能なものにしていくかを,厳密に推し進めるために必要だったものだ。
ところがこうしたツールにも支援された作業の厳密化が,メーリングリストという場において,ひとつの壁にぶつかることとなる。それが,「区点番号5-17と5-86の使い分け」という問題だった。
コンピューター以前の紙の本を符号化するうえで,書籍に表された文字にどのコードを当てて電子化するかという解釈の問題は,避けては通れない。この場合の対象は,たとえば泉鏡花「夜叉ヶ池」の「ヶ」である。青空文庫では,2003年5月に「区点番号5-17と5-86の使い分け指針」注18)を取り決め,「こ」「か」「が」と読みうる「ヶ」の文字は,大きさにかかわらずすべて区点番号5-86の「ヶ」で入力すると決めたが,この解釈がメーリングリスト内で紛糾することとなった。
簡単にいえば,JIS漢字コードの「一意の符号化」をめぐる問題で,「見た目」の大小のとおりに入力するのか,カタカナの読みから外れる「ヶ」は漢字の一部と考えて区点番号5-86で符号化するのか,という対立である。
この問題は,JIS規格票および『JIS漢字字典』3)をどう読むかの解釈問題にも発展して,符号化文字集合調査研究委員会の当事者が発言したり,それを受けて4年後の2007年に呼び掛け人である富田倫生が一定の見解を記したりするも収まらず,さらには2009年にはJIS漢字コードの原案委員会委員長であり『JIS漢字字典』の編さんにあたった芝野耕司が,講演「電子翻刻における「読み」と「見たまま」」において自らの意図と考えを明らかにしたが,やはり対立が解消されることはなかった。
この問題は2012年ごろまで続き,その論争の中で疲弊するボランティア作業員も少なくなかった。ある者は幻滅と失望とともに場を離れ,ある者は罵倒を浴びせて他者を傷つけ,中には排除された者もあったし,その場に残って作業を続けた者にしても対話を続ける余力はなかった。
不幸だったのは,JIS X 0213の採用・不採用の件もこの議論に巻き込まれたことで,JIS X 0213に移行するとこれまでの作業基準との整合性が取れない問題や,移行に伴うこれまでのファイルの確認修正作業が膨大に上る点などもあって,採用のめどがまったく立たないこととなった。
一方で,JIS X 0208: 1997の枠内で可能な限りの電子化を行う方向へと作業は深化していき,外字注記の書き方を整理する流れが生まれている。2002年3月にボランティアの手で作られた「外字注記コレクション」注19)を基盤にして,2007年には青空文庫として「外字注記辞書編纂プロジェクト」注20)に取り組むことになり(図6),2011年の「外字注記辞書第八版」注21)ではJIS漢字第3・第4水準の他,補助漢字を網羅しただけでなく,Unicode収録文字や収録外の文字も多く登録することとなった。
こうした作業を続けるうちに,JIS X 0213の普及を待つよりも先に,各種OSの基本エンコーディングにUnicodeが採用されて一般化していき,Shift_JIS X 0213やShift_JIS-2004での電子化を推し進めることは現実的ではなくなっていった。今では青空文庫が世界で読まれていることや,世界各国・地域のコンピューターでのShift_JISないし日本語環境のサポート状況を考えて,符号化の規準は作業に支障が出ないよう現行のJIS X 0208: 1997に沿ったルールにとどめたままで,エンコーディングのみをUnicodeの符号化に用いるUTF-8やUTF-16にしてはどうかという意見も根強くあるが,結論は出ていない注22)。
青空文庫の作業を続けるにつれて,当初のマニュアルに記載されていた注記を超えたものが続々と現れ,そのたびに新しい記法が提案されて,作業メモとして蓄積されていった。また長年の利用の中で,読書ビューアーなどの開発者からもさまざまな要望が寄せられるようになった。
2010年1月1日に公開された「注記一覧」注23)の草案は,テキストファイルに施す注記をさらなる活用へ向けてまとめ,注記という青空文庫の財産を外部へと正式に提供する試みだった。また個人が電子書籍用のテキストファイルを用意することも意識して,拡張記法として準備されたものもあった。
今では青空文庫の閲覧アプリが各種登場しているが,この「注記一覧」の登場を境に開発に拍車がかかり,そしてビューアーから参照されるファイルも,かつてのHTMLファイルからテキストファイルへと移り変わっていった。またネット小説の執筆支援等のために,この注記一覧に対応したテキストエディターなども複数現れてきている注24)。
そして「注記一覧」の整備と同時に,テキストファイルをXHTMLファイルへと自動変換するスクリプト注25)の改修も行われることになるが,実装された2010年4月1日以降は,それまでのXHTMLでは反映されてこなかった見出し・目次や傍線・傍点などに,明確なタグとクラスを定義して,CSSによって画面上にも表示されるようにしている。
さらにそのクラス定義の過程で念頭に置かれたのが,組み版情報における名前空間の定義である。2010年は折しも,国際電子出版フォーラム(IDPF)の策定した汎用電子書籍フォーマットであるEPUBの日本語組み版対応をにらんで,業界各所が動いていた時期に当たる。
日本電子出版協会(JEPA)が2010年4月に日本語組み版に関する要望を出しているが,その一方で当初から青空文庫と深いつながりがあり,日本の電子書籍制作の草分けともなっていたボイジャー社も,IDPFのメンバーとして働きかけていた。
青空文庫が「注記」として蓄積してきた日本語組み版の情報は,こうした局面にあって貴重なもので,ボイジャー社側から水面下の打診もあって,XHTMLファイル向けのタグ注記一覧のクラス定義をまとめ直し,資料として提供している。
4.1 未来へ向けてとはいえ,青空文庫はやはり自らEPUBファイルを提供することはしていない。ただし「ファイルの取り扱い規準」注26)を定めて,自由な活用に供しているのだから,そこから先の利用や変換は随意として,幅広く社会に委ねるというスタンスを長らく取ってきた。その方が,すべてを自分たちで囲い込むよりも活用の可能性が開き,発展性も高くなると見込んでのことだ。
EPUBファイルについても,KADOKAWA運営の電子書籍販売WebサイトBOOK☆WALKER注27)が2013年末から青空文庫ファイルの変換提供を積極的に行っており,またAmazon.co.jpのkindleストア注28)でも,2012年に日本向けに開店して以来,青空文庫のファイルを独自形式に変換したものを提供し,今でも随時更新が行われているうえ,それぞれの内部エンコーディングは当然のようにUTFとなっている。
さらには,青空文庫はユーザーや外部企業の作ったサービスなどをたびたび正式に採用したり連携したりを繰り返してきてもいる。近年では,2012年にインターネット上に本棚を作って感想などをメモできるブックレビューサービスのブクログ注29)にも対応し,各作品の図書カードから感想ページに直接移動できるようになっている。
ほかにも,ボイジャー社の提供する「青空in Browsers」注30)や個人制作の「えあ草紙・青空図書館」注31)といった,Web上で青空文庫の収録作品を縦書きなどカスタマイズした読書を可能にするサービスにも,2014年9月以降,図書カードからのアクセスが可能になっている(図7)。
2013年,長らく青空文庫に携わってきた中核的なメンバーが数人,作業から抜けることとなり,その穴を個人に大きな負担をかけることなく埋めて持続可能な体制を構築・維持することが喫緊の課題とされた。そのためその前後から,作業の効率化・省力化を大きく意識するようになり,これまで蓄積してきたチェック項目や細かな判断がツールや資料としてまとめられていった。
とりわけ2012年にオンラインで利用可能になった「修正履歴作成ツール」注32),および,これまでの各種ツールを集約した2013年の「校正支援ツール」注33)は,ボランティア全体のチェック効率を上げ,ファイル受領時の再点検にも各種正規表現による専用の形式チェックツールが導入された。さらにはファイルの正確さを高めるためのツール類のありかを「青空文庫FAQ」注34)などのページに,知識として集約させていく取り組みがなされている。
2015年には,技術面でのサポートを活発にしようと,青空文庫の支援団体である「本の未来基金」が中心となって,「aozorahack」注35)という運動体が生まれ,2016年7月には第1回のハッカソンが開催されているが,その成果もまた青空文庫本体での実装に向けて検討が進められている。
2016年度中には,老朽化したデータベース管理アプリケーション用サーバーの改修・置換が済む予定であり,以後は技術面でのアイデアの採用・導入もスムーズになると思われる。
青空文庫の知名度の向上やその利用の拡大もあって,ボランティア作業には以前より多くの人々がかかわるようになり,スキャナーとOCRの普及からテキスト生産量も加速度的に伸びたが,機械可読性のために複雑化した注記形式を正しく記述するのは,難易度の高い作業で,品質や均質性の担保には熟練度も必要とされる。ファイル公開までには,各ステップでの確認作業が必須だが,それを担えて自発的に作業を申し出る人材は限られており,その増員が求められている。
青空文庫は,20年の活動の中から,その主たる使用フォーマットをテキストファイルに定め,非常に限られた要件の中で可能な限り日本語の組み版と文字の情報を電子化し,公共の用に供してきた。
パブリックドメインないし自由利用可能なものとして,社会に委ねられた電子テキストとその記法は,自在な発想と開発からさまざまなツールやサービスを生み,当初の予想を超えた活用にも及んでいる(表1)。
テキストファイルであるがゆえに,加工や変換がしやすく,発展への道が付けやすかったという点もあるだろう。それは逆に,作業する側にも特定のコンピューター環境に依存せずに済むという利点があった。ある意味では,基礎的なものを徹底しながら,それぞれの時代へ適応してその厳密性・交換性を高めていったともいえるだろう。
日本のボイジャー社の母体となった米Voyager社は,「Text: the next frontier」というスローガンを掲げていたという。結果として振り返れば,どのようなリッチな電子書籍フォーマットよりも,テキストファイルこそが時代を切り開いていった。このレガシーなファイルフォーマットには,青空文庫がそのたびごとに驚いてきたように,まだまだ誰も気づいていない未来があるのかもしれない。そして最終的に残るものは,たとえば「書籍」といったかさばるものでも,「電子書籍」という一種のパッケージでもなく,まさに「電子本」という電子化された本質的な何かそのものであるのだろう。
年 | 出来事 |
---|---|
1997 | 青空文庫開設,作業用マニュアルを公開 |
1998 | ボイジャー社T-Timeを発表 |
「青空文庫登録作品に現れた外字」をWebサイト上で公表 | |
1999 | 「文学作品に現れたJIS X 0208にない文字」を公開 |
青空文庫収録ファイルの自由活用を保証 | |
2000 | 「新JIS漢字時代の扉を開こう!」を公開 |
2001 | 「新JIS漢字総合索引」「文字チェッカー」「相違点チェッカー」「校閲君」などを共同開発 |
2002 | グループワークの情報共有用にwikiクローンのYukiWikiを採用 |
エキスパンドブック形式ファイルの新規作成を中止 | |
2003 | 「区点番号5-17と5-86の使い分け指針」を採用(~2012年ごろまで紛糾) |
2004 | 青空文庫専用ビューアー「azur」登場 |
2007 | 青空文庫10周年 |
「外字注記辞書編纂プロジェクト」に取り組む | |
青空文庫を収めた各種ソフトウェア「DS文学全集」などが以後次々と登場 | |
2010 | 「注記一覧」の草案を公開 |
テキストファイルをXHTMLファイルへと自動変換するスクリプトの改修実装 | |
2011 | 「外字注記辞書第八版」を発表 |
2012 | ブクログに対応 |
2015 | 「aozorahack」誕生 |
2016 | 「aozorahack」第1回ハッカソンを開催 |
1982年生。初期より青空文庫にボランティアとしてかかわり,現在,フリーランス翻訳家。研究者(大久保友博)としての専攻は,翻訳論・翻訳文化史。京都大学大学院 人間・環境学研究科博士後期課程修了,博士(人間・環境学)。2017年4月より京都橘大学助教。