「紙の辞書」と「デジタル辞書」とは似て非なるものである。その視点に立つとまったく違う世界が見えてくる。2006年以来,国語辞典『大辞泉』はデータベースを使った常時改訂を実現し,年3回データを更新している。このデータベースシステムがなぜ生まれたのか。どのような考えで開発されたものなのか。そして,どのようなデータを作ることができるのか。さらに,このデータをどうやって商業ベースに乗せるのか。そしてその先に目指すものは何か。近年,辞書の編集が注目された。言葉を編集するという本質部分に変わりはないが,「デジタル辞書」の編集は書籍とはまったく違う発想が必要である。本稿では「デジタル辞書」と「紙の辞書」との違い,「デジタル辞書」の現状と,その可能性について紹介する。
この原稿が掲載されるのは2015年を予定している。現在は2014年の12月。このとき世間では,どのような出来事が話題になっていたであろうか。11月末に安倍首相が衆議院を解散し,世の中が第47回衆議院選挙に向けて動き始めたころである。
小学館の国語辞典『大辞泉』は日々データを編集し,年3回データを更新している。この解散に伴って【衆議院議員】という項目に修正が加えられた。最新のデータは「衆議院を構成する議員。定数は475名。」となっている。修正前は「定数は480名」。2012年に公職選挙法が改正され,小選挙区で5議席減らすことが決まった。この新しい規程で今回初めて選挙が行われるため,解散と同時に定数を書き直すことになったというわけである(図1)。こういう加筆修正は市場に出回った「紙の辞書」ではできない。「デジタル辞書」だからできることである。
ところで「デジタル辞書」は『大辞泉』だけではない。各出版社が刊行する大型・中型・小型国語辞典の多くはデジタル化されている。しかし,データをデジタルにしただけのものがほとんどである。「デジタル辞書」は「紙の辞書」とまったく別のもの。この視点に立つと初めて見えてくるものがある。
小学館から『大辞泉』が刊行されたのは1995年の秋である。国語+百科の本格的な辞典で,総項目数は約22万語,カラー図版6,000点を掲載し,ビジュアルでも優れた仕上がりとなった。初刷りが50万部。小学館が発行する一般書籍の初版部数で,近年までトップを譲らなかった。
それから17年後の2012年秋に『大辞泉 第二版 DVD付き』を刊行した(図2)。総項目数は約25万語,IT用語・外来語などを大幅に増補したこともあり,中型辞典では初めて横組みを採用した。第二版の収録語のうち16%がアルファベット表記の項目で,縦組みの読みにくさを解消するためであった。また,DVDの総項目数は25万7,000語で書籍よりも多く,初版とは違い,画像データはDVDにのみ載録されている。
DVDの項目数と書籍の項目数が違うのは,データベースから抽出したデータのバージョンが違うからである。書籍は,2011年の4月にデータベースから抜き出したデータを使って編集作業を行った。そしてDVDは,刊行間際の2012年8月に完成した最新データを使ってアプリケーションに仕上げた。1年4か月の間に,7,000語が『大辞泉』に追加されたことになる。
このデータベースのことを編集部では「大辞泉 編集支援システム」と呼んでいる(図3)。このシステムが完成したのは,2006年の12月。年が明けた2007年1月から,これを使って本格的な編集作業を始めている。
ところで,なぜこのようなシステムを開発する必要があったのだろうか。答えは,辞書のデータが徐々に古くなるからである。そして一度印刷された「紙の辞書」のデータは,修正が必要だとわかっていても直すことができない。辞書編集者にとってこれはつらい現実である。『大辞泉 第二版』では,この現実を覆す方法を提示した。その方法とは,DVDのデータを刊行から3年間,2015年秋まで無償で更新し,『大辞泉』の利用者に最新のデータを提供するというものだ。
たとえば,
第二版の印刷ぎりぎりまで「発見」の発表を待ったが間に合わず,DVDのデータは翌年の秋に前述のように更新された(図4)。これまでは,書籍の付録として「CD-ROM」「DVD」が存在した。しかし,書籍のデータは,時の流れの,ある「一瞬」を切り取ったものでしかない。『大辞泉 第二版』は,書籍が[従]で,DVDに入れたアプリケーションが[主]であるという考え方で作られている(図5)。
先に述べたように,印刷された書籍のデータは簡単には修正できない。『大辞泉』のような多数の百科項目を載録する国語辞典では,この不都合を何らかの方法で解決する必要があった。その必要から「大辞泉 編集支援システム」が生まれたのである。まさに「必要は発明の母」。
辞書のデータ更新については,出版社により考え方が違う。ある中型国語辞典にはいまだに【社会保険庁】が世の中に存在していることになっている。書籍の改訂がないかぎり,修正される気配はない。
しかし,この「改訂」が可能な状況ではなくなってきている。出版不況が深刻で,辞書を取り巻く環境も例外ではない。唯一元気なのは子供向けの辞典市場だ。少子化の波を確実に受けているが,毎年10万部以上を販売する小学生辞典が複数ある。
では,大人向け国語辞典はどうであろう。『大辞泉』初版の初刷りが50万部であったことはすでに述べた。『第二版』の第1刷は,この10分の1にも届いていない。これが現実なのである。17年の間で大人向け「紙の辞書」の需要は激減した。
となると辞典編集者ができることは限られてくる。その1つが,生き残りをかけて「デジタル辞書」を育てていくことである。どんな育成方法が考えられるであろうか。現段階では4つあると考えている。
(1)頻繁なデータ更新
(2)検索データの充実
(3)辞書データを補完する拡張データの開発
(4)デバイスの性能を利用した機能の開発
この4つに共通する目的は「データの差別化」である。類書と同じものを作っていては抜きん出ることはできない。(3)と(4)については,後で詳しく述べる。われわれのシステムは,(1)と(2)の作業が行えるよう開発してある。
(1) 頻繁なデータ更新政治・経済・法律・医学・自然科学・IT・地名・文学……,さまざまなジャンルの担当編集者と編集部とが項目の選定方法を話し合うところから始まる。その手順に沿って担当者は執筆者に原稿を依頼し,仕上がった原稿をデータベースにアップ,『大辞泉』の編集方針に従ってパソコン上で校正作業を行う。
辞書データは「仮名見出し」「漢字表記」「原綴(げんてつ)(=アルファベット表記)」「歴史的仮名遣い」「品詞」「解説」などの要素を正しく入力する必要がある。システムの入力画面は,それぞれの入力領域が区切られているため,間違えにくく作られている。仮に間違ったとしても,複数の検品方法によって,そのミスに気づくようになっている。
入力はWordを使う感覚で行える。初めてこのシステムを使う編集者でも数日あればコツをつかむことができる。ジャンルごとに複数の編集者が校正したデータは,紙で出力され別の校正者に渡される。最低でもトリプルチェックを経たあとのデータが校了となる。
また,社会の変化に遅れないよう,新聞・雑誌・テレビ番組・ネットなどから言葉を拾う作業が行われている。ここで見つかった言葉も,各ジャンルの担当者を経由して執筆,データベース登録,校正,出力,校正という流れで作業が進む。先の【衆議院議員】の例のように,既存の項目を加筆修正するためのデータも拾い出されている(図6)。
これまでデジタルデータの修正は,技術者を介さないとできなかった。出力したゲラに赤字を入れ,それをデータに反映するためには専門の知識をもった技術者に託す必要があった。われわれのシステムは普通の辞書編集者がデータを本人の手で修正できるように作られている。この「誰にでも使えるシステム」は,多数の編集者が作業に参加することにつながる。「大辞泉 編集支援システム」は,汎用性・拡張性・運用のしやすさの3点にこだわって開発された。タグをほとんど意識せずに,SE(システムエンジニア)の知識がなくても加筆・修正が可能である。このシステムによって編集者による分業が可能となり,『大辞泉』は年3回,データを更新することができるのである。
2007年からの平均値を取ると,1回の更新で約2,300の新語が追加され,既存項目は,毎回8,000~1万語が加筆・修正されている(表1)。
このテーマは,デジタルデータを作り込む醍醐味の1つである。
書籍で言葉を探す場合と,デジタルデータで言葉を検索する場合,もっとも違う点は,デジタルではピンポイントでしか言葉を探せないということである。書籍では五十音順に言葉が並んでいるので,検索はまず仮名で行われる。たとえば,「しょうがい」を探すと【少艾】【生害】【生涯】【渉外】【勝概】【傷害】【障害】などが見つかる。書籍では探したい言葉の周囲にいろいろな言葉がある。一方デジタルの場合は,漢字で検索することが多いので,【生涯】で検索した場合,【少艾】【生害】【渉外】【勝概】【傷害】【障害】はヒットしない。
この特徴をベースに一歩進めて考えてみよう。たとえば,【障害】は【障がい】とも書くが,データの中に【障がい】がなければ検索してもヒットしない。『大辞泉』のシステムでは【障がい】を[隠し検索キーワード]に設定することができる。
ほかの例をあげる。【コンピューターウイルス】が『大辞泉』の見出しである。そして[隠し検索キーワード]に「コンピュータウイルス」「コンピューターウィルス」「コンピュータウィルス」が設定されている(図7)。『大辞泉』のデータは,検索者の文字入力に影響される,仮名見出しの揺れ,表記の揺れなどをデータ側で吸収してヒットするように作られている。このように,データを作り込んでいくことを「データのリッチ化」という。
リッチ化は辞書コンテンツごとに,さまざまな方法がある。小学生向けの辞典をデジタル化した際に,表記欄の漢字すべてに「学年別配当注1)」データを付加した。このデータを用いると,「小学3年生」と設定するだけで,4年生以上で習う漢字すべてを平仮名に変換して表示するということが可能になる。
このような「カスタマイズ(パーソナライズ)」は「デジタル辞書」にしかできない芸当である。「紙の辞書」は誰もが同じ状態で使うものであるが,「デジタル辞書」は,データを作り込む(リッチ化する)ことで使用者の好みに合わせて設定できるようになる。冒頭で述べたように,「デジタル辞書」は「紙の辞書」とはまったく別のものなのである。
デジタルデータの特性を最大限に活用しようとした場合,システムだけではできないこともある。それが(3)と(4)の開発につながる。
(3)辞書データを補完する拡張データの開発
(4)デバイスの性能を利用した機能の開発
この2つは密接に関係している。
『大辞泉』をデジタル化した当初,データの容量は100MBあった。当時,これだけの容量を搭載できるデバイスは,辞書検索専用端末,つまり「電子辞書」だけであった。それ以外の提供方法は,サーバー上にデータを格納する「Web辞書」,もしくは,CD-ROMやDVD-ROMで頒布してパソコン上で動かす「ソフトウエア」が考えられた。Web辞書は,ネットワークを経由して,パソコンや携帯電話で辞書データを検索するというものである。ただ,どの方法もさまざまな問題を抱えていた。デバイスや通信環境などのスペックが低く,多くの制限があったからである。
この約20年の間にどれだけ進化したであろう。iOSアプリ『大辞泉』を例に比較する(図8)。現在『大辞泉』XMLデータは「リッチ化」が進み,187MBもある。アプリ全体の容量は681MB。この大容量をスマートフォンに入れて持ち運ぶことができるようになっている。『大辞泉』がデジタル化された当時,漢字使用は,JIS第一・第二水準の範囲であった。大辞泉のような中型国語辞典では,その範囲以外の漢字を表示するために,画像(gif)を準備する必要があった。その数,約2,000。現在はUnicodeに対応することで120文字程度にまで減っている。また,最近のスマートフォンは高精細なカラーディスプレーが当たり前になった。当初は難しかった,カラー画像表示や,動画の再生も可能になっている。iOS『大辞泉』の画像・動画はサーバー上にある。現在では,それを呼び出し,読み込んで表示・再生するための通信速度が確保されている。
『大辞泉』がXMLデータとは別に準備した主なデータは,(a)画像データ(b)動画データ(c)地図データ(大辞泉の地名項目で地図表示)(d)サイトURLデータ(関連するWebサイトへのリンク)(e)フォント,もしくは外字画像データ(f)『大辞泉プラス』(固有名詞辞典。Ver.11で,74,000語収録)である。
これ以外に,『大辞泉』データベースからは,カタカナ語データ・ABC略号データ・季語データ・成句データ・難読漢字データ・作家作品データ・百科分類データなどを抜き出すことができる。また,『数え方の辞典』など,別の辞典に掲載されている項目と,『大辞泉』の項目との相互リンクデータなどもある。
最初からこれだけのデータがあったわけではない。デバイスや通信環境の進化に合わせて徐々に準備してきたものである。クライアントの要望に合わせ,これらのデータを組み合わせて提供することができるのである。
このような外部データを準備するためには,2つの要素が不可欠だと考えている。もっとも大切なのは「いまの状況に満足しないこと」。ここはもう少し便利にならないか,常にそう考えていることが重要である。そして「デバイスを研究すること」。20年前には想像もできないくらいデバイスは進化している。その機能を最大限に利用しない手はない(図9,図10)。
余談になるが,外部データ(a)~(f)をシステムの中に取り込むことは可能である。しかしこれらの多くはシステムの開発段階で切り捨てたものである。どの機能を残し,どの機能を捨てるか。システムを作り込めば費用がかさむ。そして複雑なシステムは使いにくく,壊れやすい。大切なのはコスト面も含めたベストパフォーマンスを模索することである。
『大辞泉』は,「頻繁なデータの更新」「XMLデータのリッチ化」「拡張データの充実」を図ることで,類書との差別化を進めてきた。これだけ充実した内容をもつ辞書データはほかにはないと自負している。『大辞泉』を多くの方に使ってもらいたい。心からそう考えている。しかし実際にはなかなかそうはならない。
2.1 『大辞泉』に欠けている要素テレビのクイズ番組や,ネットのコラム,新聞・雑誌記事などで辞書が利用される。そういう場面で『大辞泉』が引用される例はまだまだ少ない。
内容で劣っているとは思わない。逆に優れているところが多い。『大辞泉』は日々編集作業を続け,4か月に1度,データを更新している。鮮度という点で,群を抜いている。そのことがあまりに知られていない。
いいものを作れば,利用されるはず,という考えに陥っているのではないか。データを作り込むだけで,あとは待っているだけ。これではダメなのである。
『大辞泉』は無名である。
まず,こう認識するところから始めることにした。
2.2 ブランディング展開有用なデータを作っても,それに価値があることを知ってもらわなければ使われることはない。そもそも『大辞泉』という国語辞典の存在が世間に浸透していない。われわれ編集者が,まずその状況をきちんと認識するところから始まった。
『大辞泉 第二版 DVD付き』は,社の創立90周年記念企画であった。そのため,編集・販売・宣伝部門が集まって頻繁に販売会議を開いていた。第二版発売後,その会議は『大辞泉』を世の中に知ってもらう,つまり「『大辞泉』のブランディング」の方策を検討する会議に進化した。
「『大辞泉』のブランディング」とは「『大辞泉』ファンを生み出すこと」である。そのために次の対策を試みた。2013年に実行した主なものだけを記載する。
(ア)『大辞泉』公式サイト(http://www.daijisen.jp/)の立ち上げ(図11)
(イ)『大辞泉』twitter公式アカウント(@info_dai_jisen)の立ち上げ(図12)
(ウ)『大辞泉』Facebookページ(https://www.facebook.com/Daijisen)の立ち上げ
(エ)『大辞泉』を知ってもらうための各種イベント
・『大辞泉』コトバの日(5/18)記念キャンペーン
・『大辞泉』データベース27万語目登録日当てキャンペーン
・『大辞泉』辞書の日(10/16)記念キャンペーン
(オ)マスコミへの露出
(ア)は,ここに来れば『大辞泉』のすべてがわかるというWebサイトの作成。(イ)は積極的に『大辞泉』情報を発信,収集する簡易ブログ。(ウ)は編集部と『大辞泉』ファンとの交流の場。そして定期的にキャンペーンを行い,1年を通じて『大辞泉』が露出し続けるようにした。(エ)のキャンペーンでもっとも力を入れたのが2013年10月に行った「あなたの言葉を辞書に載せよう。」である。
たとえば,【馬鹿】という言葉の解説は「人をののしっていうときにも用いる」語となっている。しかし,ドラマで恋人に向かって「馬鹿!」と言った場合,ののしりの意味ではなく,激励や愛情表現となることがある。辞書にはそのような解説はないが,「激励」「愛情表現」のニュアンスで使われることを多くの人が知っている。辞書に言葉の説明すべてが掲載されているわけではない。この言葉の多面性に着目して,【愛】【自由】【失敗】など8つの語のイメージを一般から募集,優秀作品を『大辞泉』に掲載するというキャンペーンを展開した。6,720の応募があり,121の作品が『大辞泉』に載録された(図13)。
このキャンペーンは4マス媒体(テレビ・新聞・雑誌・ラジオ)にさまざまな形で取り上げられた。特に突出していたのがフジテレビの当時の人気番組『笑っていいとも!』にレギュラーのコーナーができたことである。『国語辞典をアップデート 目指せ!言葉の達人』。【結婚】【涙】【東京】などの言葉のイメージを出演者が考え,それを「達人」「入選」「ボツ」「未熟」に分けて,『大辞泉』の編集長が選評するというものだった。2014年1月の下旬から,最終回となる同年3月末まで10回放送された。正直,このような展開になるとは考えもしなかった。
2013年に,このブランディング対策を開始した。2014年も引き続き「あなたの言葉を辞書に載せよう。2014」を展開した。『大辞泉』の認知度は少しずつ上がっていると実感している。Facebookでは日々記事をアップし,徐々にではあるがファンも増えている。引き続きこれらの活動は続けていく。
『大辞泉』ブランディング活動からさまざまなことを学んだ。そして次に目指すのは「辞典の小学館」というブランドイメージを作ることである。小学館には一級の辞典がそろっている。日本で最大(50万語,100万用例を掲載)の国語辞典『日本国語大辞典』,小学生向け国漢辞典で累積販売部数がもっとも多い『例解学習国語辞典』『例解学習漢字辞典』『ランダムハウス』『日中中日辞典』『伊和和伊中辞典』『独和和独大辞典』などの各種外国語辞典,一般向け百科事典『日本大百科全書(ニッポニカ)』に小学生向け百科事典『きっずジャポニカ』等々。これだけの種類をそろえた出版社は国内で小学館だけである(図14)。
これらの辞事典のデータをリッチ化し,関連付け,差別化すればどうなるであろうか。「言葉の海」と呼べる,巨大なデータベースの輪郭が見えてくる。さらに付け加えるなら,小学館にはたくさんの図鑑がある。美術書がある。そして,「ドラえもん」「ポケモン」「妖怪ウォッチ」などのキャラクターがある。これらが連携すればどれだけのパワーが生まれるであろうか。
「大辞泉 編集支援システム」は,その端緒を開いたにすぎない。
近年,三浦しをん氏の小説と映画の『舟を編む』で辞書の編集が注目された。言葉を編纂(へんさん)するという辞書編集の本質部分で「紙」と「デジタル」に違いはない。しかし,同じデータから生まれたものでありながら,「紙」と「デジタル」はまったく別のものである。「紙」ではできないことが「デジタル」では可能になる。そして周囲の進化に合わせて,辞書データもさらに進化することが可能である。これを突き詰めていくと,最終的には『大辞泉』は形がなくなると考えている。まずは辞事典のデータベースを一本にまとめ,小学館のすべてのレファレンスデータを一本化し……。コンテンツの枠を取り払ったワンソースマルチユース。道のりは長い。が,これほど夢膨らむ作業はない。
「デジタル」は楽しい! 本稿で申し上げたいことが,この一言に集約される。