電子書籍ツールのおかげで,メモの整理が随分便利になった。印を付けた箇所はあらためてカードに抜き書きせずとも,(制約はあるものの)コピー&ペーストで引用すればよい。論文のPDFにも,ハイライトやメモを加えてあとで利用できる。
ウェブの情報も,ブックマークのコメントだけでなく,特定箇所を切り抜き保存したりメモを貼り付けるための方法がいろいろ工夫されてきた。写真や動画に一言加えて共有できるサービスもたくさんある。
これらはいずれも,ある作品に対して外部から説明を加える注釈(アノテーション)注1)の一種と考えることができる。だから情報の基本形は共通であるはずなのだけれど,実際はそれぞれが独自の方法を採っていて,相互運用性はない。文献PDFへのメモと,ウェブページでマークした部分と,ファクシミリ画像に加えた注釈を,メディアを横断して検索することは今のところ非常に難しいのだ。
先日,ホテルの星評価について検討中というSchema.org注2)のプロジェクト・リーダーと話をしながら,モデリングの例題を思い返していた。たとえば「ホテルAの評価が4.5である」という情報の記述を考えよう。
単純なモデルなら,「ホテルA--評価-->4.5」と直接表現してもよいかもしれない。しかしこの形では,別のサービスで同じホテルAの評価が3.5とされているときに話がややこしくなる。両者を合わせると2つの評点が混在して,どちらを信じてよいのかわからなくなってしまう(図1)。
客観的な事実ではなく,「それは誰の意見である」といった関係の説明も必要な場合は,図2のような間接型の記述が必要だ注3)。これならば,異なるサービスの評価を合成しても混乱することがない。実際Schema.orgでも評価(Review)は間接型で定義されている。
前回取り上げた「ベートーベンの第九交響曲終楽章のフェルマータにディミヌエンドがあるかどうか」注4)を表現するのも,同様に考えることができる。そこで紹介したように,この箇所は出版譜によって扱いが異なって,ディミヌエンドを採用する楽譜もあれば,そうでないものもある。図1の直接型ではどちらが正しいのかという問題になってしまうが,図2の間接型で楽譜(校訂者)ごとの判断として説明するなら,異なる扱いが併存しても矛盾はない。そして前回の「楽譜の校訂は注釈だ」という考えを踏まえると,これはまさに注釈表現モデルの基本形でもあるといえる。


ウェブは初期の頃からコラボレーションや知識共有の可能性を広げる空間とみなされ,そのツールとしての注釈が注目されていた注5)。さまざまな独自提案や実装が存在する中,注釈モデルと語彙の標準案を提示したAnnoteaプロジェクトが2000年秋にW3Cでスタートする。ブラウザAmayaにその機能が組み込まれ,作成した注釈はサーバーに保存してどこからでも取り出して再現できた注6)。
Annoteaは図3のような注釈モデルを用いた。中心に置かれた円が注釈を示すリソースで,それが右上の対象文書をannotatesし,右下のbodyでその注釈内容に結び付ける間接型である。さらに対象文書内のハイライト箇所をcontextとしてXPointer注7)で表し,文書URIとの組み合わせで注釈対象を識別している。共同作業や知識共有で重要な,その注釈をいつ誰が作成したかという情報は,created,dc:creatorで示された注8)。
このAnnoteaモデルに対応して,Mozilla/FirefoxのアドオンAnnozillaなどいくつかのツールが公開される。国際ワークショップも毎年開かれてしばらく盛り上がりを見せるのだが,実験プロジェクトであったAnnoteaは,残念ながら2006年頃にはほぼ活動を停止してしまった。
Annoteaが対応していなかった画像などの注釈はもちろん,テキスト注釈も含め,独自ツール中心の状況はまだしばらく続く。注釈データはそれぞれのシステムの「サイロ」の中にとどまっていた注9)。

アノテーションの課題を再考し相互運用性の高い仕組みを実現しようと,Open Annotation(以下OA)プロジェクトが2009年に立ち上げられた注10)。ウェブ文書だけでなく画像や映像への注釈も視野に,ティム・バーナーズ=リーが提唱して注目されていたLinked Dataの考え方をも取り入れようという意欲的な取り組みだ。
翌年に仕様のアルファ版が出され,2013年にはOA Core仕様が公開されている。Annoteaと同様の構造を出発点に,annotates(対象文書)とcontext(文書内のハイライト箇所)の2つで表現していた注釈対象の記述を,メディア・フラグメントをURIに用いるなどしてひとつにまとめた。また範囲指定などURIだけでは表現できない対象は,その先にセレクタを置き,必要な部分指定方法を用いて記述する注11)(図4)。
これと並行してOpen Knowledge Foundationが注釈作成用のJavaScriptライブラリであるAnnotatorと,その注釈を保管するウェブサービスAnnotateItを2012年に公開し,OAプロジェクトに参加する注12)。こうして誰もが標準的な方法による注釈を利用できる環境が整い始めた。
標準注釈モデルへの関心の高まりは,2014年のA W3C Workshop on Annotations開催に結び付く。そしてその成果を受けてW3CにWeb Annotation(以下WA)作業部会注13)が正式に設置され,OAをベースに本格的な標準化作業が始まった。仕様は2017年早々にもW3C勧告となる見込みだ。

OAにせよWAにせよ,その仕様を直接用いた注釈記述への期待もさることながら,異なるツールのデータを共有・再利用するための橋渡しの役割が重要である。個々のツールはそれぞれの工夫をこらしたデータ設計を採用しても,この共通モデルへの翻訳を可能にすることで,相互運用性が確保できるわけだ。
たとえば自分の欲しい機能を備えたウェブ注釈ツールが見つからないなら,Annotatorライブラリを利用して自作してもよい。PDFへの注釈は,Annotatorを拡張したサービスであるHypothes.is注14)の機能が利用できる。対象に応じてツールを使い分けつつ,それらの注釈データをWAに変換して手元に持ってくれば,すべてのアノテーションを一貫した形で処理可能だ。さらにWAモデルはRDF表現との対応が定義されているから,注釈をRDFデータベースに取り込んで自在に操作できる注15)。
今回の記事も,資料に加えた注釈を試作ツールでいろいろな形に表示しながら,内容を組み立ててみた。注釈を集めて並べ替えたり加工したりという作業は,カードでの整理が柔軟な力を持っていたことを思い出させてくれる(図5)。
今回のモデル検討の出発点でもあった,同じ対象に関する複数意見の区別と比較もツールの重要な役割だ。すでに読書端末などでも他の人のメモを閲覧する機能が提供されているが,注釈標準モデルに対応したツールは,同一対象への注釈を識別してポップアップで表示を束ねるなどの処理ができるだろう(図6)。


WAは多様なメディアを注釈対象にできる。これに呼応する形で最近注目を集めているのが,手稿や文化遺産のデジタル画像利用の相互運用を図るInternational Image Interoperability Framework(IIIF)だ。IIIFは画像提供の仕組みであるImage API,画像をツールで利用するためのメタデータ記法を定義するPresentation API,これらを用いた検索プロトコルのSearch APIを策定している注16)。
このPresentation APIは,2010年末に初期モデル案が提唱された共有カンバス(Shared Canvas)を発展させたものである。一つの物理対象(書物のページなど)に対して抽象的な「カンバス」を用意し,そこに解像度の異なる画像や複数の注釈テキストなどを重ね合わせて,資料・知識を共有するという方法だ。この記述にWA(OA)が適用されているのだが,注釈対象(target)はカンバスであって,テキストのみならず画像も注釈内容(body)とする考え方が興味深い(図7)。Presentation APIは構文を変え,カンバス内に画像やテキストを置くような記述を取るが,背後にあるのは共有カンバスと同様のWA注釈モデルである。
この数年,各国・地域の博物館や図書館が,デジタル画像のIIIF対応に取り組み始めている。IIIFを扱えるツールも増え,複数の機関のデジタル画像を一つのビューアで閲覧できるようになってきた注17)。IIIFメタデータ(マニフェストと呼ぶ)はWAのRDF表現に変換できるので,他のWAによる注釈との組み合わせが可能だ。RDFデータベースに格納すれば,冒頭で述べた文献注釈と画像注釈の横断検索も容易に実現する。
EPUBでの注釈にWA/OAを用いる仕様案や,ビデオ注釈用のAnnotator拡張の試みなど,注釈の標準はメディアを超えて広がりつつある注18)。これらを統合的に扱えるようになれば,共同作業にも知識共有にも大きな恩恵がもたらされるだろう。個人的にも,あの電子テキストとデジタル画像を結び付けよう,この古典の訳や注解をWAモデルで表現しようといったお楽しみプロジェクトが,陰に陽に進行中である。

サントリー広報部時代に同社ウェブサイトの提案・構築を行ったことなどをきっかけに,文書構造表現/データモデルの設計や標準化の方向に進み,黎明期(れいめいき)セマンティック・ウェブのプロジェクトにかかわってきた。慶應義塾大学文学部講師を兼務。休日コントラバス奏者としての芸歴は三十数年。