JAMSTEC Report of Research and Development
Online ISSN : 2186-358X
Print ISSN : 1880-1153
ISSN-L : 1880-1153
Report
Metadata management database for JAMSTEC observations
Yoshimasa AbeYasunori HanafusaHideaki Hase
Author information
Keywords: metadata, database, browser
JOURNAL FREE ACCESS FULL-TEXT HTML

2014 Volume 18 Pages 53-64

Details
Abstract

地球情報研究センターでは「なつしま」「かいよう」「よこすか」「みらい」「かいれい」「ちきゅう(IODP航海を除く)」で行われた航海の調査観測データ,「しんかい2000」「ドルフィン3K」「しんかい6500」「かいこう」「ハイパードルフィン」「ディープ・トウ」の潜航で得られた映像資料を一元管理している.地球情報研究センターはこの調査観測データを効率的に保管・処理するためにメタデータシートを航海毎に収集し,航海の基本情報(メタデータ)を統一して管理している.また海洋研究開発機構では船舶以外に陸域でも調査観測が行われており,地球情報研究センターでは同様にメタデータシートを収集し管理している.地球情報研究センターでは収集したメタデータシートに記載されているメタデータを一元的に管理するために「データ管理データベース」と呼ばれるデータベースシステムを構築した.このシステムはブラウザ経由でのメタデータ管理,調査観測データや映像資料の公開の補助,さらに過去のJAMSTECの航海や潜航についての検索といった機能を有している.これらのメタデータには繊細に取り扱う必要があるものも含まれるため,システムの使用範囲は地球情報研究センターに限られている.地球情報研究センターがデータ利用者に対して円滑なサービスを実現する上で,中核的な役割を担っている.

1. はじめに

海洋研究開発機構(以後,JAMSTEC)は,1981年の支援母船「なつしま」および有人潜水調査船「しんかい2000」の就航以来,深海を中心に海洋調査を行ってきた.世界中の海洋調査で得られたデータやサンプルはJAMSTEC以外では取得することができない貴重なものが多い.加えて近年では陸域でも調査観測が行われ,多くのデータやサンプルが取得されている.これらの貴重なデータ・サンプルについては,データを取得した研究者が自ら研究に使用するだけでなく,一般の研究・教育目的の利用にも提供することが大切である.そのためJAMSTECは,2007年に「データ・サンプルの取り扱いに関する基本方針(データポリシー)」を定め,海洋科学技術の発展に寄与すべくインターネットを通じて広く公開してきた(http://www.jamstec.go.jp/j/database/data_policy.html).

地球情報研究センター(以後,DrC)では「なつしま」「かいよう」「よこすか」「みらい」「かいれい」「ちきゅう(IODP航海除く)」の調査航海およびその航海中の潜航調査で取得されたデータを一元管理している(図1.).2次的な利用のためこれらのデータを適切に保管・処理するには,データ管理者がそのデータの基本情報(メタデータ)を容易に取り出せるようにする必要がある.そのためDrCでは「メタデータシート」と呼ばれるExcel形式のファイルを作成し,そのファイルを航海毎に収集し,さらにそのメタデータを統一的に管理するためのシステムとして「データ管理データベース」を構築した.本システムは,Webブラウザ経由で情報を入出力する機能を有し,メタデータ・データの管理,公開業務の補助,過去の調査航海についての検索等が可能となっている.次章からこの「データ管理データベース」の詳細および諸機能について報告する.

Fig. 1.

Data Management in DrC

図1. DrCのデータ管理業務の流れ

2. メタデータシート

2.1 メタデータシートとは

JAMSTEC所有の船舶「なつしま」「かいよう」「よこすか」「みらい」「かいれい」の各航海では,航海基本情報や潜航情報,使用測器等が記載されたExcelファイル形式のメタデータシートを首席研究者が航海毎に記入しDrCへ提出する.また陸域観測についても同様に,観測地点毎に緯度・経度,測器,サンプル名等の基本情報を観測研究者がメタデータシート記入しDrCへ提出する.

DrCでは提出されたメタデータシートの情報を元に調査観測で得られたデータ,サンプル,映像資料を適切に管理・処理・公開する業務を行っている.

2.2 メタデータシートの内容

JAMSTECの各航海で使用されるメタデータシートはExcelファイルで作成され(図2.),情報の種類に応じたシートが準備されている.シートの種類と内容は次の通り.

  1. (A)課題リスト:採択された航海の課題一覧
  2. (B)研究者: 採択された課題に関連する研究者一覧
  3. (C)航海情報: 海域・期間・首席研究者等の航海基本情報
  4. (D)船体装備機器: 船体固定機器の使用状況
  5. (E)その他機器: 持込機器等の使用状況
  6. (F)潜航情報: 潜水船の潜航記録と概要
  7. (G)潜水船取得データ: 潜航時の映像・画像の数量やデータリスト
  8. (H)研究者持帰データ: 各研究者の持ち帰りデータリスト
  9. (I) 設置・回収リスト: 係留系等の設置回収状況

「(D)船体装備機器」および「(E)その他機器」については,船舶毎の装備機器に対応した各船舶専用のシートが使用されている.「(H)研究者持帰データ」については,研究者毎にシートを作成するため航海毎にデータを持ち帰った人数分のシートが作成される.

Fig. 2.

Metadata sheet

図2. メタデータシートの抜粋「(C)航海情報」

3. 管理システムの構築

3.1 システム構築前の状況

前述のメタデータシート運用前は,航海基本情報・潜航情報が統一的に管理されていなかったため,約900近くの航海情報,約5000近い潜航情報とそれらに付随する情報が紙面媒体や電子媒体など様々な状態で保管されていた.そのためデータ管理者が必要な情報に行き着くためには,何処に資料があるかを捜索する手間が生じ,電子媒体で保管された情報があってもExcel,Word,Access,File Maker,Acrobatなど様々なファイル形式で保管されていたため,対応するソフトウェアや読み取り装置が無いといった状況が発生していた.

2009年度よりメタデータシートが運用され,散逸した情報を航海単位で統合的に管理できるようになったが,複数の航海の情報を横断的に検索できなかったり,内容を確認するためにその都度Excelファイルを開く必要があったりという作業上の不都合が存在した.そのため,これらの不都合を解消し,且つ業務を効率的に実施するためには,特殊なソフトウェアに依存せず,メタデータシートに含まれる情報とその関連情報および関連ファイルが一元管理でき,データ・サンプルの管理・公開状況を容易に把握でき,必要な情報を簡単に検索できるデータベースシステムの構築が不可欠であった.

3.2 システム概要

本システムは,データ管理者がWebブラウザ上からデータ通信を行えるWebアプリケーションとして構築されている.OSはLinuxを使用し,WEBサーバーは「Apache」,リレーショナルデータベースは「PostgreSQL」,プログラミング言語は「PHP」を使用している.このシステムにはメタデータシートをExcelファイルの状態で読み込む機能を組み込んでおり,メタデータシートの情報を直接データベースに登録することができる.またファイル管理機能により,Webブラウザを経由してのファイルのアップロードやダウンロードが可能となり,メタデータ以外の関連情報(例:航跡図の画像等)を登録することでより多くの情報を管理することができる.さらに,データ管理業務で必要なデータの受領書のPDF出力機能,データ・サンプルの提出状況や公開スケジュールの表示機能,期間毎の公開データ集計機能など,DrCにおける業務を補助する機能が多数組み込まれている.

本システムのWebブラウザ画面は,データ管理者が情報を登録する上で,キーボード入力時に発生する表記の揺れを極力減らせるような入力補助機能を組み込んでいる.これは「JavaScript」と呼ばれるWebブラウザに組み込まれたプログラム機能を使用することで,マウス操作主体で速やかに情報を登録するためのものである.また「Ajax」と呼ばれる非同期通信技術を使用することで,通常Webブラウザで発生する煩わしい画面遷移を減らすインタラクティブなユーザーインターフェイスを持っている.

本システムで取り扱うメタデータには個人情報や秘匿性の高い情報も含まれる.そのためシステムの使用範囲はIPアドレスによるアクセス制限をかけることでDrCのみとしている.

3.3 システム構成

本システムのハードウェアは,日本ヒューレット・パッカード社製のProLiant DL360G6を使用し,横浜研究所スーパーコンピューター棟に設置されている.主なハードウェア仕様とソフトウェアのバージョンは次のとおり.

CPU : Intel Xeon E5640 (2.66GHz 4Core)
Memory : 12GB (2GB PC3-10600 RDIMM x 6)
Disk : 300GB 10000rpm SAS HDD x 4 (Raid 1+0)
DVD-RW drive
DAT320 Tape drive
OS : CentOS5.5
Software : Apache ver.2.2.3
PostgreSQL ver.8.1.23
PHP ver.5.3.6
prototype.js ver.1.6.1
Excel Peruser ver.0.11
FPDF : ver.1.51
mbfpdf : ver.1.0b

3.4 航海情報の管理

航海情報にはメタデータシートから取り込むメタデータ(海域,期間,出入港情報など)に加え,首席研究者よりヒアリングした情報,外部機関に申請し許可を得た情報(排他的経済水域内観測申請書など),航跡図,公開サイト,特別な取り決めなど,様々な関連情報がある.本システムは,これらの情報を「管理情報」「航海概要」「課題情報」「研究者情報」「観測項目」の5つの属性に分類し,さらにその中で細分化されたテーブルで管理するように設計されている(図4.図5.).その中の「管理情報」については,データ管理者が関連情報を登録するが,それ以外の情報については,メタデータシートを取り込むことで登録される.JAMSTEC船舶の各航海には,「航海番号」と呼ばれる船舶名の略号と航海年および連番を組み合わせた固有のIDが割り当てられており,本システムはこのIDを主キーとしてこれらのテーブル管理を効率的に行っている.

3.4.1 航海情報「管理情報」

「管理情報」のテーブル群では,航海に関わる特別な取り決めや外部機関への申請・許可状況など情報を管理する(表1.参照).このテーブル群の情報は,航海の事前に登録する情報が多く,データ管理者が直接入力する.入力する情報が多い場合は,関連するファイルをアップロードして保存することが可能である.

Table 1. Administration information of cruise 表1. 航海の管理情報
項目名 登録内容
公開留保情報 データ・サンプルの公開留保に関わる情報
事前情報管理 首席研究者から事前にヒアリングした情報
航跡図・撮要日誌・公開サイト 航跡図,撮要日誌をファイル登録
公開サイトのURL
排他的経済水域内観測申請情報
・鉱業法情報
排他的経済水域内観測申請・鉱業法の申請の状況
申請に基づく公開可能な範囲や期間
水路許可申請管理 水路業務法に基づく申請状況
クルーズレポート クルーズレポートをファイル登録

3.4.2 航海情報「航海概要」

「航海概要」のテーブル群では,調査海域・入出港日時・首席研究者などの基本情報を管理する.メタデータシート「(C)航海情報」を読み込むことで登録される(図2.表2.).本システムでは入出港情報で登録される出港地から帰港地までを航海期間として管理する.

Table 2. Cruise information 表2. 航海の概要
項目名登録内容
航海情報 船舶名,航海年度,航海名,海域
調査海域情報 詳細な調査海域および調査地点
入出港情報 出港地,寄港地,帰港地の入出日時
首席研究者情報 首席研究者および次席研究者

3.4.3 航海情報「課題情報」

「課題情報」のテーブルでは,採択された航海の研究課題の情報を管理する.メタデータシート「(A)課題リスト」を読み込むことで登録される(表3.).また研究課題で取得したデータ・サンプルについて,データ管理者が提出状況を登録し管理する.

Table 3. Proposal information 表3. 航海の課題情報
項目名登録内容
課題情報 航海で採択された研究課題
研究課題で取得したデータ・サンプルの提出状況

3.4.4 航海情報「研究者情報」

「研究者情報」のテーブル群では,航海の課題に関わる研究者の情報を管理する.メタデータシート「(B)研究者」「(H)研究者持帰データ」を読み込むことで氏名,所属,メールアドレスなどの個人情報が登録される(表4.).登録された研究者について,前述の3.4.3「課題情報」と合わせて,航海で取得したデータ・サンプルを優先的に利用できる一次利用者かどうかの判断に利用する.

Table 4. Scientist information 表4. 航海の研究者情報
項目名 登録内容
研究者情報 課題番号,氏名,所属,メールアドレスなどの個人情報
研究者持帰データ 研究者が航海終了時に持ち帰ったデータ・サンプル
研究者持帰備考 上記における特記事項

3.4.5 航海情報「観測項目」

「観測項目」のテーブル群では,航海で使用された観測機器や係留系等を設置・回収した情報を管理する.メタデータシート「(D)船体装備機器」「(E)その他機器」「(I)設置・回収リスト」を読み込むことで登録される(表5.).データ管理者が,どのような観測機器が使用されたかを把握することにより,提出されるデータ・サンプルを事前に把握し,受領の際に過不足がないか確認できる.

Table 5. Equipments information 表5. 航海の観測情報
項目名登録内容
観測機器情報 航海で使用した観測機器
観測機器備考 上記の特記事項
設置回収リスト 係留系や漂流ブイなどの設置・回収の情報

3.5 潜航情報の管理

潜航情報にはメタデータシートから取り込むメタデータ(潜航日時,潜航位置,潜航研究者など)以外に,潜航に関する特別な取り決め,潜航時に作成される潜航航跡図や潜航ログ,映像記録装置を含む観測機器の情報,取得サンプルなど様々な関連情報がある.本システムは,これらの情報を「管理情報」「潜航概要」「その他作業」の3つの属性に分類し,さらにその中で細分化されたテーブルで管理するように設計されている(図4.図5.).その中の「潜航概要」については,メタデータシートを取り込むことで登録されるが,それ以外の情報についてはデータ管理者が関連情報を登録する.JAMSTECの潜水船の各潜航には,初回の潜航からの累積回数を表す固有の潜航番号が割り当てられており,本システムでは潜水船の略号と潜航番号を組み合わせたIDを作成し,これを主キーとしてこれらのテーブルの管理を効率的に行っている.

3.5.1 潜航情報「管理情報」

「管理情報」のテーブル群では,潜航に関わる特別な取り決めや外部機関への申請・許可状況,航跡図などを登録する(表6.).入力する情報が多い場合は,関連するファイルをアップロードして保存することが可能である.

Table 6. Administration information of dive 表6. 潜航の管理情報
項目名登録内容
公開留保情報 データやサンプルの公開留保に関わる情報
排他的経済水域内観測申請情報 排他的経済水域内観測申請がある場合,潜航地点の管轄国および公開可否の情報
潜航航跡図・潜航ログ 潜航航跡図,潜航ログをファイル登録

3.5.2 潜航情報「潜航概要」

「潜航概要」のテーブル群では,潜水船名・潜航日・潜航目的・航海番号・潜航地点・潜航研究者などの基本情報に加えて,使用された観測機器,取得サンプル,映像資料等を管理する(表7.).メタデータシート「(F)潜航情報」「(G)潜水船取得データ」を読み込むことで登録される.データ管理者が,各潜航でどのような観測機器や撮影装置が使用されたかを把握し,データ・サンプルや映像資料を受領する際に過不足がないように確認できる.

Table 7. Dive information 表7. 潜航の概要
項目名登録内容
潜航情報 潜水船名,潜航日,潜航目的,航海番号,潜航地点,潜航研究者
潜航概要 潜航の概要をキーワード(観察,サンプル採取,設置・回収)で登録
持込みペイロード 潜水船に持ち込まれたペイロード
潜水船取得データ 潜航で得られたデータ,画像,映像について,記録メディアとその数量
備考 潜航時の特記事項

3.5.3 潜航情報「その他作業」

「その他作業」のテーブル群では,潜航時に作成された紙面航跡図をスキャンしたファイルの登録,データ・サンプルのメタデータが公開系データベースやデータサイトで公開されているかどうかを管理する(表8.).

Table 8. Miscellaneous operations 表8. 潜航情報のその他作業
項目名登録内容
公開状況 データ・サンプルの公開系データベース上の公開状況
潜水船航跡図 紙面航跡図のスキャン画像をファイル登録

3.6 受領情報の管理

本システムは,データ・サンプルの提出から公開までの作業を一元管理できるように設計されている.DrCでは航海毎にデータ・サンプルを受領するため,受領情報を管理する主キーは航海情報の管理と同様に,航海番号を用いて関連するテーブルの管理を効率的に行っている.受領する項目については,メタデータシートの「(D)船体装備機器」「(E)その他機器」「(G)潜水船取得データ」を取り込むことで登録され,その後は作業の進捗に応じてデータ管理者が必要な情報を登録する仕組みとなっている.

また本システムには,データ提出時において発生する受領書の発行を補助する機能を有しており,提出されたデータ・サンプルを登録すると,提出者に送付する受領書(PDFファイル)が自動的に生成される.

3.6.1 受領情報「データ受領」

「データ受領」のテーブル群では,提出されたデータ・サンプルを項目毎に提出者・提出日・バックアップ有無・公開日・データ公開URLおよび受領履歴を管理する.また航海終了後に研究者によって処理され,提出されたデータ・サンプルについても同様に管理する(表9.).

Table 9. Data receipt information 表9. データ受領情報
項目名登録内容
受領履歴 提出者,提出日,提出データリスト
受領データ データの受領日,提出者,公開猶予期限,バックアップ有無,課題番号,公開日,データ公開URL

3.6.2 受領情報「受領書」

DrCではデータ・サンプルを受領した際には,受領書を発行して提出者に返送することが義務づけられている.「受領書」のテーブルでは,前述の3.6.1.で登録したデータ・サンプルについて,自動的にPDFファイルの受領書を発行し,何時・誰に送付したかの情報を管理する機能を持っている(表10.図3.).

Table 10. Receipt certificate transaction 表10. 受領書情報
項目名登録内容
受領書登録 データ提出時に発行された受領書
受領書の送付先および送付日
Fig. 3.

Receipt certificate

図3. データ・サンプル受領書

Fig. 4.

database model

図4. データベースモデル

Fig. 5.

GUI of cruise and dive information database

図5. データ管理データベース画面

3.7 陸域観測情報の管理

DrCではこれまで説明したデータベースと平行して,陸域でおこなわれる調査観測を「陸域観測情報管理データベース」として管理している(図6.).ただし,陸域観測は航海と異なり管理するための特定のIDが存在しないため,便宜的に実施年度と観測順序を組み合わせた唯一無二のIDを主キーとして用い管理している.陸域観測のメタデータシートは,観測点毎のメタデータしか記載されていないため,観測全体のメタデータは観測の実施要領を記した「実施要領書」を参照してデータ管理者が登録する.

Fig. 6.

GUI of on-land observation information database

図6. 陸域観測情報管理データベース画面

3.7.1 陸域観測情報の管理「陸域観測情報管理」

「陸域観測情報管理」のテーブル群では,各陸域観測の全体の情報を管理するため,データ管理者は実施要領書を参照し,概要や種別,留保情報,責任者,期間を登録する(表11.).メタデータシートの提出状況についての情報も管理する機能がある.

Table 11. Administration information of land observation 表11. 陸域観測の管理情報
項目名登録内容
陸域観測概要 実施年度,観測名
陸域観測種別 気象観測,植生調査,大気組成調査,固体地球調査,その他から選択
留保情報 公開留保に関わる情報
実施要領書 PDFファイル登録
観測責任者 責任者の氏名・所属
管理票 調査期間毎に現場責任者,期間,データやメタデータ公開猶予期限

3.7.2 陸域観測情報の管理「メタデータ管理」

「メタデータ管理」のテーブル群では,陸域観測のメタデータシートおよび調査の概要を管理する(表12.).Excelファイルのメタデータシートを自動で読み込むことで,観測点毎の位置・期間・種別・責任者・観測測器などの情報を管理する.

Table 12. Metadata information of land observation 表12. 陸域観測のメタデータ情報
項目名 登録内容
サマリー 調査の概要
メタデータシート メタデータシートを登録

3.8 諸機能

3.8.1 検索

航海情報は船舶名や航海年およびキーワードによって,潜航情報は潜水船名や潜航番号およびキーワードによってそれぞれ検索可能である.潜航番号で検索する場合はワイルドカードを使用して潜航番号をまとめて検索することができる.検索結果は航海番号・潜航ID毎に概要が時系列順に一覧表示され,さらに詳細を確認する場合は航海番号,潜航ID,受領データ,研究者をマウスでクリックすると関連する詳細な情報をポップアップレイヤーで表示する(図7.).また航海情報と潜航情報はそれぞれ別に検索することができるが,一覧表示では航海番号と潜航IDの情報が紐付けられて表示される.

Fig. 7.

Window of retrieval result

図7.検索結果の画面

3.8.2 作業別一覧表示

データ管理者がデータ・サンプルを管理する上で,よく使用される検索条件については,検索条件の入力を省略できる機能が用意されている(表13).この検索結果については項目名それぞれで降順・昇順のソート機能を備えている.

Table 13. View function for individual operations 表13. 作業別の表示機能
項目 内容
公開留保情報
(航海)
データ・サンプルの公開留保理由毎に,関連するすべての航海番号とその内容を表示
公開留保情報
(潜航)
潜水船毎に公開留保の情報と潜航地点の排他的経済水域内観測申請情報を表示
紙面潜航航跡図管理 潜水船毎に登録された紙面の航跡図を一覧表示,紙面航跡図をスキャンしたPDFファイルも確認可能
排他的経済水域内観測申請情報 排他的経済水域内観測申請状況をすべて表示
事前情報管理 首席研究者よりヒアリングした事前情報をすべて表示
水路許可申請 海上保安庁への測量許可の申請状況をすべて表示
設置・回収リスト 航海時に設置・回収された観測機器リストをすべて表示

3.8.3 集計・スケジュール

3.6.で述べたとおり,本システムはデータの提出から公開までの作業を一元管理している.データ管理の状況を把握するために,本システムには登録されているデータ・サンプルの受領数,公開数等について集計する機能を持っている.集計する条件は,船舶名・航海年度および項目種別(メタデータ,観測データ,サンプル等)について,任意の期間で可能となっている.また,データ・サンプルの公開予定日を確認できるように,任意の期間の公開スケジュールを表示する機能を持っている.

3.8.4 検索ポータル用データ出力

JAMSTECは船舶で取得したデータ・サンプルを一般に公開している.DrCでは,利用者が目的とするデータに行き着くために,地図上で検索を行う「JAMSTEC検索ポータル」(華房,2009)を運用している.本システムは,このJAMSTEC検索ポータルに登録するために必要な情報を出力する機能を組み込んでいる.

3.8.5 課題管理

航海で研究課題が採択された研究者は,一定の公開猶予期間内に品質管理済データやサンプル分析データを提出することが求められている.猶予期限が近づくと課題採択研究者に品質管理済データの提出依頼を行うため,課題毎の連絡先リストやメールの雛形を作成する機能を持っている.

3.8.6 入力補助

本システムでは,キーボードから入力する際に発生しやすい表記の揺れを除去するため,様々な入力補助機能が備わっている.一例として,日時の入力の際には専用の入力レイヤーが表示され,年月日をマウスで選択する仕組みとなっている.またデータ・サンプルの受領日なと当日の日付が必要な項目には,自動で当日が入力される機能も有している.位置情報を示す緯度・経度は,60進法と10進法のそれぞれで入力できるような補助機能が準備され,誤入力を防ぐことができる.受領したデータ・サンプルを登録する際は,船舶毎に使用する機器リストから選択できる補助機能が備わっている(図8.).

Fig. 8.

Function for input support

図8.入力補助機能

4. まとめ

本システムは2011年1月に構築され現在も運用中であるが,すべての機能が最初から実装されていたわけでなく,集計機能,課題管理機能,入力補助機能等は必要に応じて追加・改修されてきた.登録されている情報は2013年3月現在航海数で1500件,潜航数で6600件,データ数で15000件を越えている.これらのデータは,メタデータシートから登録されたものだけでなく,過去の航海データの収集を通して手作業で登録されたものも含まれている.

本システムで管理されているメタデータは,DrCで管理している各公開系データサイトに共通で必要なものが非常に多い(http://www.jamstec.go.jp/drc/j/datasites/index.html).そのため各公開系に必要なメタデータは,本システムから「マスターデータ管理システム」(Fukuda et al,2011)を経由して,自動的に各公開系データサイトに配信される仕組みになっている.本システムはDrCのデータ公開業務において,非常に重要なシステムとなっている.

今後はメタデータシート以外の情報をより多く管理できるように機能を強化し,データ・サンプルの公開に役立ていく予定である.

謝辞

本システム構築にあたっては,(現)文部科学省の畑山隆紀様には多くのアドバイスを戴きましたことお礼申し上げます.またデータベース運用にあたり,データ管理技術グループの皆様にはご協力いただいたとともに,多くの有用なコメントを頂きましたことを感謝申し上げます.

参考文献
 
© Japan Agency for Marine-Earth Science and Technology
feedback
Top