2014 Volume 18 Pages 43-51
2009年の海洋研究開発機構第2期中期計画開始に伴って新設された地球情報研究センター(DrC)は,海洋研究開発機構の研究調査船等で取得された様々な海洋地球観測データおよび生物や岩石試料等のサンプルの公開・流通を実施してきた.これらのデータ・サンプルについては,2007年に制定された「データ・サンプルの取り扱いに関する基本方針」が,その取り扱いの基本となっている.本稿では,データ・サンプルの公開状況を概観し,第2期中期計画期間に構築されてきた,これらのデータ・サンプルを管理・公開するためのDrCのデータベースシステムの中から,JAMSTEC航海・潜航データ探索システム,深海映像・画像アーカイブス,および海洋生物多様性情報システム(BISMaL)を紹介する.さらに,教育・社会経済分野等のニーズに対応するための取り組みについて解説する.
海洋研究開発機構(以下「機構」という)は2007年5月に機構の船舶等で得られたデータ・サンプルの取り扱いを定めた「データ・サンプルの取り扱いに関する基本方針」を策定した.この基本方針では,2008年4月以降に機構の船舶等で得られたデータ・サンプルは,特別な取り決めがある場合を除き機構に帰属し,基本的に無償で提供されると定めている.ここで,対象となる船舶等は「なつしま」,「かいよう」,「よこすか」,「かいれい」,「みらい」,「ディープ・トウ」,「しんかい6500」,「ハイパードルフィン」,「かいこう7000II」,「うらしま」である.データ・サンプル取り扱い基本方針の運用を開始した2008年4月以降は,対象となる航海が増加したために,Fig.1に示すように船舶観測データの公開件数は着実に増加している.
Cumulative number of disseminated data acquired by JAMSTEC research vessels. Colors designate KAIYO, NATSUSIMA, YOKOSUKA, KAIREI and MIRAI, from top to bottom, respectively.
図1. 四半期ごとの船舶観測データの公開件数の累計値(1航海1データ項目を1件として集計した数値)
また,2008年4月以降は所内航海も公開対象に加わったため,データが公開されている航海数も増加し,受託航海以外の研究航海のデータはほぼすべて公開が行われるようになった(Fig.2).
Number of cruises of which data and samples are opened. Colors desigante research vessels in the same manner as Fig. 1. Crosses are total number of research cruises for each year.
図2. 年度ごとの全航海数とデータ公開済み航海数(少なくとも1件のデータが公開されている航海数を集計)
データ・サンプルの取り扱いに関する基本方針については,2011年と2012年のブルーアースシンポジウムにおいて参加者へのアンケート調査を実施し,研究調査航海の首席研究者の経験者については9割以上が存在を知っていることが分かった.このことは,機構の船舶利用者にはこの方針が周知されていることを示している.
データ・サンプル取り扱い基本方針の運用開始後.データ・サンプルの公開対象となる航海数は年間約100航海,潜水調査船の潜航数は約250潜航になり,これらの航海や潜航で得られたデータは,クルーズレポートなどの航海情報と共に地球情報研究センター(DrC)が管理する「JAMSTEC観測航海データサイト」に登録されてきた.これらの航海や潜航で得られたデータは,研究課題を実施した研究者が優先的に利用できる公開猶予期間(航海終了後原則2年間;ただし岩石サンプルの分析結果は5年間)を経た後に「JAMSTEC観測航海データサイト」から一般に公開されてきた(園田,2010).しかし,「JAMSTEC観測航海データサイト」のデータは船舶,航海年および航海毎に階層的に登録されているので,航海で課題を実施した研究者は,航海番号や潜航番号等の情報を元に必要とするデータに到達することは容易であるが,一般の研究者が特定の海域やデータ種を指定してデータの取得を行うことには困難があった.
このようなことから,一般の研究者がこれらの公開された航海・潜航データをより使いやすくなることを考えて,観測航海データのデータベース化を実施し,2012年度から「JAMSTEC航海・潜航データ探索システム: DARWIN(Data Research system for Whole cruise Information in JAMSTEC)(http://www.godac.jamstec.go.jp/darwin/j)」として公開を開始した(市山・他,2012; 華房・他,2013).DARWIN(Fig.3)では航海情報,潜航情報,観測データ情報に関するメタデータ項目を再検討し,航海番号や潜航番号に加えて観測データに関するキーワードや首席研究者などの詳細なメタデータを用いた検索を実現した.さらに船舶名やデータ分野などで構成される分類ツリーによる俯瞰的な検索機能を備えることによって,ユーザが必要な情報に効率的に到達することを可能とした.また,別に整備したユーザ登録管理機能との連携により,複数データファイルの一括ダウンロードも実現している.観測航海データサイトからDARWINへのデータ移行は2013年3月に全航海・潜航データの移行が完了し,862航海,2,200潜航の航海・潜航情報および観測データが公開されている.登録したユーザのデータ利用状況についての統計情報も取得できるので,今後は新しいニーズに対応した機能の追加などにより,観測航海データの利用者,利用形態の多様化を通じて地球海洋研究の進展に寄与していくことを考えている.DARWINの機能については佐藤・他(2013)が詳しい.
Snapshots of DARWIN
図3. DARWINの利用イメージ
「しんかい2000」,「ドルフィン-3K」,「しんかい6500」,「かいこう」,「ハイパードルフィン」で撮影された映像をDrCでは公開対象として処理している.機構では1982年の「しんかい2000」初潜航時から映像や画像を撮影しており,各潜水船による2012年度末までの総潜航数は5000に近く,映像の総のべ撮影時間や総写真枚数は膨大なものである.これらの映像や画像を一般公開するために,DrCでは映像のダビングやデジタル化,公開用フォーマットへの変換作業を行い,画像についてもバックアップや公開用ファイルへのリサイズを行っている.近年では,映像の記録媒体が変更されたことに伴ってマスタ映像の取り扱いにも変更が生じている.
これらの深海映像や画像を外部公開するために,DrCではそれまで国際海洋環境情報センター(GODAC)にて運用してきた深海映像データベース(園田・他,2005)に換えて「深海映像・画像アーカイブス:J-EDI(JAMSTEC E-library of Deep-sea Images)」の構築に2010年から着手し,2011年度から運用が始まっている(Fig.4)http://www.godac.jamstec.go.jp/jedi/j/index.html.J-EDIを用いることで利用者はネットワーク経由で深海映像約20万件,深海画像 約100万件を閲覧できる.
Snapshot of J-EDI
図4. J-EDIの利用イメージ
GODACでの深海映像データベースの運用時から,映像に撮影されている内容に応じてコメントを付与し,映像情報をインデックス化してきた.しかしながら,深海映像データベースが備える登録インタフェースはテキスト入力が主体であると共に,作業者の知識不足を補てんするための文献調査には時間がかかるため,作業効率の向上が困難な状況であった.J-EDIの構築には,この作業の効率向上も加味され,システム上で検索用に使用するアイコンやツリーインタフェースを用いて,操作を簡易化すると共に,作業者に蓄積された知見をガイドライン化することにより,J-EDIの運用後はそれまでの10倍以上の処理が可能となっている.深海映像・画像データの公開については齋藤・他(2013)が詳しい.
2.3 生物多様性情報の公開DrCでは,2009年度からGODACで運用している海洋生物の多様性や分布情報を扱う情報システム Biological Information System for Marine Life(BISMaL:http://www.godac.jamstec.go.jp/bismal/j/)を用いて,機構が保有する生物関連情報を統合的に発信するとともに,日本周辺の海洋生物多様性情報を収集し,体系的に整理した上で広く公開している(田中・他,2009;園田,2010).BISMaLは学名をキーとして各生物分類群の映像,画像,生物出現記録,文献情報などを一元的に閲覧するためのシステムである(Fig.5).データの登録・検索・表示には対象とする生物の学名・分類情報(分類メタデータ)の登録が必要である.現在は日本産全海洋生物(既知種は約33,000種)をカバーするために分類メタデータの登録を進めており,2012年度は動物界に属する生物について,約5,500の種名および約 2,800 の上位分類群名を登録・公開し,公開済みの生物種は約1.9万種(2013年9月現在)となっている.また,深海映像・画像アーカイブスの機能向上に伴い,深海映像・画像に基づいた生物出現記録数は,それぞれ2.4万件および1.9万件を超えている.登録データの増加に伴い,BISMaLへの機構外からのアクセスは着実に増加しており,2010年度がそれぞれ595件および6,485件であったのに対し、2012年度の推計で月別訪問数とページビューの平均値はそれぞれ,約1,500件と15,000件となっている.
Snapshot of BISMaL
図5. BISMaLの利用イメージ
海洋生物の国際的データベースとしてはOcean Biogeographic Information System(OBIS)が知られている.機構は OBIS と締結した覚書に基づき,BISMaL を中核的なシステムとして OBIS 日本ノード(J-RON: Japan Regional OBIS Node)を構築する取り組みを進めている.2010 年度からは OBIS へのデータ提供を開始し,現在では機構が保有する生物標本に基づく出現データ約1万件を提供している.また,J-RONを経由して,国内のデータセットの収集・登録も開始しており,2013年5月より日本海洋データセンター(JODC)のプランクトンデータセットを受入れ,約29万件のデータを公開している.さらに機構が参画している環境省環境研究総合推進費「海域生態系における生物多様性損失の定量的評価に関する研究」で得られた生物多様性情報をBISMaLに集約し,約17.4万件(2013年9月現在)の登録が完了し,プロジェクト終了後に公開される見込みである.BISMaLおよびOBIS日本ノードの活動については田中・他(2013)に詳述されている.
2.4 サンプルの管理・公開機構の航海では岩石,堆積物コア,生物,海水,大気,降水等の多様なサンプルを取得している.DrCでは岩石,堆積物コア,生物の各サンプルについて管理体制を構築し,専門家とキュレーターを配置してサンプルとメタデータ,分析データ等の管理と公開を行っている.
岩石サンプルについてはサンプル保管,メタデータ・分析データの収集・公開を行っている.データの公開は深海底岩石サンプルデータベース「GANSEKI」として行っている(市山・他,2011;園田,2010).GANSEKIは,2009年より連携している国際的な岩石化学ポータルサイトのEarthChem(http://earthchem.org/)へメタデータを定期的に提供している.DrCは,アーカイブサンプルの受取から保管・管理までを行うとともに,利用申請に対して適宜サンプルの提供を行っている.登録済みメタデータは2012年度で,22,749件,保管中のアーカイブサンプル数は11,314 件,化学分析データは17,981件である.
堆積物コアサンプルについては,サンプルの受領と保管部署である高知コア研究所へのサンプルの送付,およびメタデータ・分析データの収集・公開を行っている.データの公開は「JAMSTECコアデータサイト」より行われ(園田,2010; 佐藤・他,2012),コアサンプルのキュレーションを行っている高知コア研究所のサイトとあわせて堆積物コアサンプルの二次利用を促進している.2012年度末におけるデータの公開数は832コア,サンプルの公開数は4,485件である.なお,統合国際深海掘削計画(IODP)などの国際的な掘削計画により採取され高知コア研究所に保管されているコアサンプルについてはIODPの取り決めにより管理公開されている.
生物サンプルは形状や保管方法が多岐にわたり,機構での一括管理が困難であるため,各研究者がそれぞれに保管しているが,サンプルの二次利用を促すためDrCが生物サンプル保管部署として機能し,この分散管理体制をとりまとめている.生物サンプルのデータは「海洋生物サンプルデータベース」から公開されている(園田,2010;田中・他,2009).「海洋生物サンプルデータベース」ではデータ項目や分類群を指定した検索や地図上で範囲を指定して生物サンプルを検索することが出来る.現在までに約29,000件以上のデータを公開している.また,「海洋生物サンプルデータベース」はBISMaLとの連携により,OBISへのデータ提供も行っている.
DrCが扱う海洋地球観測データ・サンプルは,基礎的な研究が主な利用目的であった.しかしながら,研究者ばかりではなくこれらのデータ・サンプルに対する教育・社会経済分野等のニーズへの対応を求められることが多くなってきた.特に2011年東北地方太平洋沖地震の後には,社会的ニーズへの対応が喫緊の課題となっている.ここでは,このようなニーズへの対応のためにDrCが始めた取り組みについて概説する.
3.1 大気海洋結合同化システムと水産資源探索への応用DrCのデータ統融合・付加価値グループでは,世界唯一の全球大気・海洋結合四次元変分法データ同化システム(以下「結合4DVAR」という.)を開発し,これをさまざまな用途に役立てる付加価値・実利用データ創生高次処理システムの構築を進めている.4DVARは予測モデルのフォワード計算とバックワード計算を繰り返しながら,力学的整合性を保持しつつ観測データとの誤差を最少とする,再解析データセットを作成する手法である.この手法は,現象の逆解析による変動メカニズムの解明,観測システム設計の最適化,観測データの品質管理,季節・経年変動予測の改善等において有効である.
特に,結合4DVARプロダクトを初期値とする季節・経年予測では,初期値に含まれる短周期成分が除去されるので,これらの予測精度を改善することが可能となる.データ統融合・付加価値グループでは,アルゴフロート・データを同化できるようにするとともに,3か月ごとに更新する体制・仕組みを整え,受託研究などさまざまな目的に同化/予測プロダクトを提供できるようにしている.Fig.6は2011年のエルニーニョ現象の予測実験結果の一例で,予測の平均値は2011年後半のラニーニャ傾向と2012年に入ってからの回復状況(観測データ)をよく再現できている.
Predictions of El Nino index calculated by using 4DVAR for 1 year since April 2011. Black traces are results of ensemble experiments; red trace is the average of these experiments ; green dots are observation.
図6. 4DVARを用いた 2011年4月から1年間のエルニーニョのアンサンブル予測結果(Nino3.4インデックス).折れ線は各アンサンブル実験結果,赤線はその平均値.緑丸は観測.
DrCでは2010年度より文部科学省からの受託事業「気候変動に伴う水産資源・海況変動予測技術の革新と実利用化」として,気象研究所,青森県産業技術センター,水産総合研究センター,京都大学および北海道大学の協力を得て,アカイカを対象とした漁場探索及び資源変動予測システムを開発している.これは,渦解像データ同化プロダクトに好適生息域モデル(HSIモデル)を組み込んだもので,得られた情報を操業中の漁船に提供すると同時に,漁業資源の中期変動を予測することを試験的に開始している(五十嵐・他,2013).
3.2 東日本大震災と復興への対応東日本大震災発生後の東京電力福島第一原子力発電所の事故によって海洋に放出された放射性物質の海洋拡散分布予測では,長期にわたる北太平洋全域への拡散シミュレーションを,日本原子力研究開発機構(JAEA)から「北太平洋海域における海洋再解析データセットの作成に関する研究」として2011年度に受託した.これにより,DrCが開発した結合4DVAR によって2011 年7月~9月を同化ウインドウとして3年先までの予測計算を実施した.
東日本大震災の津波により,東北地方沿岸から流出した震災廃棄物は今後数年かかって太平洋全域に広がっていくと考えられている.これらの漂流予測及び衛星監視方法について,京都大学を代表機関とし,JAMSTECを研究分担機関,気象研究所,JAEA及び宇宙航空研究開発機構(JAXA)を研究協力機関とする研究連携チームが結成され,環境省からの請負事業「平成23年度東日本大震災に伴う洋上漂流物に係る緊急海洋表層環境モニタリング調査業務」を2011年度に実施した.具体的には,結合4DVARと,気象研究所が開発した渦解像海洋三次元変分法データ同化システム(MOVE)によって大気・海洋場の同化・予測プロダクトを作成し,これを用いてJAEAの粒子拡散シミュレーションを実施している.
東日本大震災の津波・地震による大量の洋上漂流物の堆積や藻場・干潟の喪失,岩礁への砂泥の堆積などにより,沿岸域の漁場及びその沖合の海洋生態系が大きく影響を受けた.このため,震災により激変した東北沿岸域の海洋生態系の変化の実態とそのメカニズムを明らかにし,今後の漁業等の復興に貢献するため,文部科学省による補助事業として2012年2月より,「東北マリンサイエンス拠点形成事業(海洋生態系の調査研究)」が東北大学・東京大学大気海洋研究所・JAMSTECの3機関を中心として,全国の関連研究者の参画と漁業関係者等の協力を得つつ始まった.DrCでは,本事業に対応するため機構内に設置された「東日本海洋生態系変動解析プロジェクトチーム」へ参画し,研究者はもとより関連地方自治体や地元の水産関連業者,一般市民に対して本事業で各機関の活動により得られた成果や情報を発信・提供するため,オフィシャルWebサイト「i-TEAMS(http://www.i-teams.jp/)」の構築・運用,データ公開システムの構築に着手している.
東日本大震災による福島第一原子力発電所の事故に対応して機構では,放射性物質の分布状況のモニタリングのために周辺海域に機構の船舶を派遣して採水調査を行った.採水と同時に実施したCTD観測等のデータは当時の海況を把握し,シミュレーション等による予測・検証を行う上で貴重なデータとなる.放射性物質の測定値は文部科学省から公開されたが,これらの海洋観測データまでは扱われなかったため機構は独自に海洋観測データの公開サイト「海域モニタリング行動計画」による海洋観測データ(http://www.godac.jamstec.go.jp/monitoringdata/)を立ち上げ,データの公開を進めた.このサイトでは機構の船舶が実施した9回のモニタリング航海で得られた,水温・塩分,流向・流速等の環境データを航海後速やかに公開した.
3.3 地震研究情報データベースの構築機構は,近い将来に海溝型巨大地震の発生が懸念されている紀伊半島沖に海底地震・津波観測ネットワーク(DONET)を設置し,2011年度にその運用を開始している.DONETは,海底に設置された20観測点の観測データを光ケーブルにより地上局に伝送し,リアルタイムでこの地域の海底地震活動をモニタしようとするものである.データは横浜研にリアルタイムで伝送されデータベース化されている.横浜研には,強震計200Hz 3成分データ,広帯域地震計 200Hz データ/20Hz データ各 3 成分,微差圧計200Hz データ,ハイドロフォン 200Hz データ,水晶水圧計 10Hz データ,精密温度計1Hzデータ各1成分が伝送されている.機構には,海底地震計観測や,マルチチャンネル地震探査により構築された,紀伊半島及び四国沖の地殻構造データが収集されている.今後大地震の発生が予想されているこの地域で詳細な地震活動を監視し,大地震の発生メカニズムを研究するために,このようなデータベースを統合した地震研究情報データベースを作り上げることを目的として,2011年12月に DrC に地震研究情報データベース構築チームが設置された.
2011年東北地方太平洋沖地震の際には,DONET観測点でも津波の到着を記録することが出来た.このことから沖合の海底に設置された水圧計データを用いることで,津波が海岸に到達する前に津波を検知することが防災対策に有効となる可能性のあることが分かった.このために,地震研究情報データベース構築チームでは,DONETの地震計および水圧計データをリアルタイムで表示するためのシステムを開発している.Fig.7は2013年度までに開発した波形表示システムのプロトタイプである.このシステムでは,PC上のChromeブラウザを用いてインターネット経由で常時データをモニタすることが出来る.データ表示の遅延はインターネット経由でも約1秒に抑えられており,リアルタイム性を損なわないよう配慮されている.今後はこのシステムの想定される利用形態とそのための公開方法を検討していく予定である.
Snapshot of DONET waveform viewing system
図7. DONET地震波計データ表示システムのプロトタイプ
DrCで取り扱う機構の船舶による調査観測データについては,データ公開サイトの立ち上げがほぼ終了し,今後は新たな利用者やニーズの把握が必要である.そこで,DrCでは,運用するデータ公開サイトを対象として,ニーズの把握やサイト改善に結びつく情報を抽出するためのアクセスログ収集・分析環境の整備を進めている(福田・他,2013).DrCが取り扱う調査観測データの公開サイトは全て GODACに設置しており,データ公開環境はユーザアクセスの中継を行う複数台のサーバから構成されている.アクセス傾向の解析にはこれらのサーバへのアクセスログを収集し,分析することが効果的である.これまでにGODACにおいてアクセスログを一元的に集積し,一次処理を行う環境の整備を行った.アクセスログの処理では,サイト訪問数やページビュー数などの基礎情報の他,主にサイトに対するアクセス元の傾向を視覚的に表すことに重点を置くと共に,DrCサイトのユーザとして航海や潜航に関係する研究者と関連する分野の研究者をターゲットとして仮定し,大学を始めとした学術機関からのアクセスに注目した.
Fig.8には,2011年2月からほぼ2年間のサイト訪問数の推移を示している.2011年度前半は東日本大震災に関連した地震や震源海域のデータや地震研究に関する刊行物(福田・他,2012),放射性物質のモニタリング関する海洋観測データなどへのアクセスがあったものと思われる.2011年度後半は,DrCの複数のサイトがリニューアルされたことに伴った増加と考えられる.2011年4月の観測航海データに対する急激な伸びは,東日本大震災後の福島第一原子力発電所からの放射性物質の放出状況を確認するための「海域モニタリング行動計画」に基づいた採水調査に伴った海洋観測によるデータサイトを公開したことによるものである.DrCサイト全体のサイトページビュー数は2010 年度の月平均で約 78,000 ページビューであったが,2011 年度の月平均も約78,300ページビューであった.データ公開システム毎のログの出力内容の違いや,サイトの機能強化などによる影響もあるため一概には言えないが,DrC全体として概ね東日本大震災が発生した2011年度も2010年度と総数に変わりはない状況となっていることがわかった.アクセス元の業種別集計ではほぼ全てのサイトで国内外の学術機関(大学,研究機関等)が上位を占める結果となっており,先に設定した想定ターゲットユーザと一致している.
Variation of number of visitors for websites maintained by DrC.
図8. サイト訪問数の推移
現在はユーザ登録を行うことで複数データセットの一括ダウンロード等も可能となっており,今後は登録ユーザがどのような種類のデータをどのような目的で取得しているか等の分析を進め,ユーザのニーズに即したデータ提供ツールの整備等を進めていくことを考えている.
4.2 データサイテーションについてDrCで管理している調査観測データを研究で用いた場合,現在は,論文などでそのデータの利用を引用するための適切な手段はなく,謝辞でデータ利用について記載することが一般的である.しかしながら,データ利用が正しく引用されるようになれば,調査観測を実施した研究者の貢献を明確にすることが出来るほか,研究結果の再現性を検討するなどの場合に,利用したデータの所在にたどり着くことが可能となるなどの利点がある.論文等の研究成果におけるデータ引用(データサイテーション)については,国際科学会議(ICSU)の科学技術データ委員会(CODATA)と国際科学技術情報会議(ICSTI)がElsevier等の出版社も含めて,どのような仕組みが可能となるか検討を重ねている.そのような議論の中でデータサイテーションを実現するための有効な手段として考えられているのがデータにDigital Object Identifier(DOI)を付与する方法である.
DOIは学術論文を引用するための手段として広く使われるようになっているが,識別子(DOI name)からデジタルオブジェクトが存在するURLに変換するサービスであり,元々は出版社がこの識別子を共有するために作った制度である.DOIはInternational DOI Foundation(IDF)という組織が運営しており,現在は論文に限らず様々なデジタルオブジェクトの識別子を提供するサービスとなっている.DOIは管理主体となるIDFが存続する限り,その識別子が指すものへの到達が保証されるという一貫性が持続されることにメリットがある.IDFはDOIの登録維持作業を実施するRegistration Agencyから構成され,利用者はRegistration Agencyを通してのみDOIを付与される.Registration AgencyとしてはDOIを用いて書誌検索や引用検索のサービスを提供しているCrossRefが代表的であり,日本ではJapan Link Center(JaLC)Registration AgencyとしてIDFに参画しており,ここを通してDOIの付与を受けることが可能となっている.
IDFのRegistration Agencyとしてはデータサイテーションを目的としたDataCiteという組織が存在し,またJaLCも2014年度にデータへのDOI付与サービスを開始する予定となっている.また,すでにデータへのDOI付与を始めている学問分野もある.しかしながら,DOIを付与するデータセットの単位や,それを管理するデータセンターのデータ品質管理基準,また専門雑誌におけるデータサイテーションの方法など未定の部分が多く,検討すべき課題は多い.DrCでも,どのようなデータセットに対してDOIを付与することでデータサイテーションが有効となるか検討を進めたいと考えている.