情報管理
Online ISSN : 1347-1597
Print ISSN : 0021-7298
ISSN-L : 0021-7298
研究メタデータの正規化とWebサイト公開のための自動処理 船舶観測データ公開に関する事例
福田 和代齋藤 秀亮長谷 英昭華房 康憲園田 朗
著者情報
ジャーナル フリー HTML

2015 年 58 巻 2 号 p. 117-126

詳細
著者抄録

独立行政法人海洋研究開発機構(JAMSTEC)地球情報基盤センター地球情報技術部では,JAMSTECの船舶・潜水船で取得された海洋観測データ・試料情報の管理・公開を行っている。これらの業務のマスターデータとして位置付けられる船舶観測メタデータを適切に管理するため,マスターデータ統合基盤システム「Cruise Metadata Organizer for JAMSTEC Research Cruises: CMO」を構築した。CMOの運用によってさまざまな海洋観測データや試料情報を公開するWebサイトにおいて船舶観測メタデータの整合性が確保されるとともに,公開されるメタデータ項目の量・質も充実することとなった。その結果,Webサイトを利用するユーザーが情報を検索・閲覧・ダウンロードする際の利便性が向上した。

1. はじめに

情報システムの分散化に伴い,業務の基本情報となるマスターデータを適切に管理することは,業種を問わず多くの組織における課題となっている1)。情報システム間で本来統一されるべきマスターデータに関する不整合は,マスターデータを参照する情報品質の低下にとどまらず,データ検索が困難になるなど,ユーザーの利便性を損なう原因となる。その一例として,府省業務では,複数府省が所管する法令・制度に係る各種報告・届出業務2)があげられている。組織間あるいは部署間を横断しない狭い範囲でも,複数の情報システムを個別に構築・運用する場合,同様の問題が発生しうる。独立行政法人海洋研究開発機構(JAMSTEC)地球情報基盤センター地球情報技術部では,JAMSTECの船舶観測や船舶に搭載された潜水船による潜航調査で取得されたデータ・試料の特性に応じたWebサイトを個別に運用してきた。その結果,マスターデータに相当する船舶観測メタデータの不整合がサイト間で生じ,ユーザーの利便性を損なっていた。この問題を解決するため,地球情報技術部では各サイトで取り扱う船舶観測メタデータの整合性を保ち,かつ効率的にWebサイトで公開するためのマスターデータ統合基盤システム「Cruise Metadata Organizer for JAMSTEC Research Cruises: CMO」(以下,CMO)を構築した。

2. 背景と課題

2.1 船舶観測データの管理と公開

JAMSTECは,1981年の海洋調査船「なつしま」と有人潜水調査船「しんかい2000」の竣工(しゅんこう)以来30年以上にわたり,現在までに「なつしま」「かいよう」「よこすか」「みらい」「かいれい」による約1,600件の航海と「しんかい2000」「しんかい6500」「ハイパードルフィン」「ドルフィン-3K」「ディープ・トウ」「かいこう」「うらしま」による約6,900件の潜航による海洋調査を行い,さまざまな種類のデータや試料を数多く取得している。これらの基本情報となるのが,航海・潜航を識別する航海ID・潜航ID,船舶名・潜水船名,データ取得情報などからなる「船舶観測メタデータ」(以下,観測メタデータ)である。

JAMSTECのデータ管理・公開業務を担う地球情報技術部では,データ管理データベース(以下,データ管理DB)を運用し,航海を統括する首席研究者から提出されるMicrosoft Excel形式のメタデータシートに記載された情報を観測メタデータとして登録するとともに,データ・試料の受領・管理情報も日々登録・更新している3)。観測メタデータは観測データファイルや試料情報とともに一定の公開猶予期間を経て,それぞれの特性に合わせて構築されたWebサイト(1)からインターネットに公開されている。Webサイトのユーザーは,データ・試料の検索,閲覧,ファイルのダウンロード等に観測メタデータを利用している。

表1 Webサイト一覧

2.2 Webサイトにおける観測メタデータの問題

1に示すWebサイトはデータ登録・更新を行うためのインターフェースを有し,Webサイト担当者の手入力によって観測メタデータをサイト個別に登録・更新できる(1)。そのため,以下に示す問題が生じていた。

(1) 観測メタデータの整合性に関する問題

主に3つの原因によって,Webサイト間の観測メタデータの不整合が発生していた。1つ目は煩雑な観測メタデータの登録作業に伴う誤入力である。Webサイト担当者はサイトに必要な航海・潜航およびそれに紐(ひも)付く観測メタデータ項目を抽出するとともに,各サイトで定義された表記ルールにのっとったデータ変換や,複数項目の結合を行う必要があり,誤入力が発生する原因となっていた。2つ目は,異なる情報源からの引用である。メタデータシートの運用開始前である2008年度以前の航海・潜航については,クルーズレポート・クルーズサマリーなどの航海に関する文書や,データ・試料を利用した論文などの複数の情報源を用いてWebサイトに観測メタデータが登録されてきたため,Webサイト担当者によって表記が異なる状況が発生した。また,各情報源自身の表記の差異によって,航海・潜航を識別するためのもっとも重要な項目であるIDの不整合も生じていた。3つ目は各サイトにおける観測メタデータの登録・更新作業のタイムラグである。各Webサイト担当者がそれぞれの業務時間に応じてデータ管理作業を行うとともに,各Webサイト担当者が作業を行う拠点自体も異なるため,公開される情報にタイムラグが生じていた。

これらの不整合は,公開された観測メタデータの正確性を損ね,結果としてWebサイトのユーザーが複数サイトで検索・閲覧を行う際の利便性の低下をもたらしていた。特に,サイト間のリンクに用いられる航海ID・潜航IDの不整合が生じた場合は,ユーザーはサイト間を円滑に遷移できない状態であった。

(2) 観測メタデータの充実度に関する問題

データ管理DBには観測メタデータが登録されていても,Webサイトにおける観測メタデータ登録・更新の入力コストを考慮し,サイトには未登録あるいは情報の一部のみ登録となるケースがみられた。その結果,Webサイトのユーザーが情報を検索する際に有用なキーワードが不足する状態となっていた。

(3) 観測メタデータ入力の業務効率に関する問題

各Webサイトにおいてサイト担当者が観測メタデータを登録・更新することは,類似業務の重複を発生させることとなり,業務効率の低下をもたらしていた。

図1 船舶観測データ管理・公開における観測メタデータの流れ

2.3 データ管理DBの観測メタデータ利用に関する問題

2.2で述べた問題を解決するために,データ管理DBに蓄積された観測メタデータを唯一の情報源として各Webサイトで活用することが考えられるが,その利用にあたって次の問題があった。

(1) 観測メタデータの表記の問題

データ管理DBでは,メタデータシートに記載された観測メタデータの情報をそのまま登録した状態であったため,日本語項目における半角カナや英語項目における全角文字の記載などの表記が存在した。これらの表記はデータ管理業務では問題がないものの,Webサイトの公開には適さない状態であった。

(2) 観測メタデータの充実度の問題

データ管理DBでは,メタデータシート運用以前の過去の航海・潜航についても観測メタデータの蓄積が進められていたが,年代によっては情報が疎であり,Webサイトで必須項目としている観測メタデータ項目が登録されていないケースも存在した。

2.4 システム間でのデータ連携に関する前提条件

データ管理DBの観測メタデータをWebサイトで活用するためには,各システム間でのデータ連携が必要となる。データ管理・公開業務を滞りなく円滑に進めるために,データ連携に関する次の前提条件を抽出した。

(1) 観測メタデータの増加に対する柔軟性

今後,新しい船舶や潜水船が運用されたり,それらに搭載される観測機器が追加・更新されたりすることが想定される。そのため,まれに発生する船舶名や潜水船名の追加や,観測データ・試料の種類の追加などの観測メタデータの増加に柔軟に対応できる必要がある。

(2) 連携対象システムの変化に対する柔軟性

データ管理DBおよびWebサイトに実装されるデータベースの種類やバージョンは,各システムの実装方法や構築・更新の時期によりさまざまに変化する。そのため,各連携対象システムの変化に柔軟に対応できる必要がある。

(3) 連携対象システムの可用性

日々のデータ管理・公開業務を滞りなく継続するため,観測メタデータを連携させる仕組みを構築したり,機能強化をしたりする場合でもデータ管理DBおよびWebサイトは独立して運用できる必要がある。

2.5 観測メタデータの改善に向けた課題

2.2および2.3で述べた問題を解決するとともに2.4の前提条件を満たすためのデータ連携機能を有するシステム構築に関する課題を次に示す。なお,[]内に対応する問題および前提条件を記した。

(1) 観測メタデータの情報源一元化

観測メタデータの不整合を解決するため,データ管理DBの観測メタデータを唯一の情報源とし,Webサイトに必要な観測メタデータをマスターデータとして管理する。[問題2.2(1)]。

(2) 観測メタデータの自動処理

データ管理DBの観測メタデータを各Webサイトに対して適切な表記・型に自動で変換したうえで,Webサイトに必要な観測メタデータを自動で登録・更新する[問題2.2(1)~(3)]。

(3) 観測メタデータのチェック

データ管理DBの観測メタデータの表記をWebサイトで公開するために適切な表記か,あるいは値が存在するか等のチェックを行い,観測メタデータの修正が必要な場合はデータ管理DB担当者へその情報をフィードバックできる[問題2.3(1),(2)]。

(4) 観測メタデータの変更に対する柔軟性

観測メタデータの変更に柔軟に対応できるデータ連携方式とする[前提条件2.4(1)]。

(5) システムの変更に対する柔軟性

データ管理DBおよびWebサイトのシステム変更に柔軟に対応できるシステム間連携方式とする[前提条件2.4(2)]。

(6) データ管理・公開業務の継続性

データ管理・公開業務を滞りなく継続するため,データ管理DBとWebサイトの間で観測メタデータを連携するためのシステムを新しく構築する[前提条件2.4(3)]。

3. マスターデータ統合基盤システム「CMO」の構築

2.5で述べた課題を解決するために,データ管理DBの観測メタデータを取り込み,その観測メタデータを適切にWebサイトへ提供するための機能を備えたマスターデータ統合基盤システム「CMO」を構築した。2にCMOを介した観測メタデータの流れを示すとともに,以下ではマスターデータ,データ処理,CMOの機能概要について述べる。なお,[]内に対応する課題を示す。

図2 マスターデータ統合基盤システム「CMO」を介した観測メタデータの流れ

3.1 マスターデータ

2の中央に示すCMOのデータベースに格納するマスターデータとして,Webサイトに必要な合計84項目の観測メタデータを定義した。具体的な観測メタデータの項目を,データベースのデータの構造および関係を記述するためのER図(Entity-Relationship Diagram)として記述する(3)。マスターデータを管理するためのRDBMS(Relational DataBase Management System)としてPostgreSQL注1)を用いた[課題2.5(1)]。

図3 CMOのデータベースのER図

3.2 観測メタデータの取り込みおよび提供

データ管理DBの観測メタデータをCMOのマスターデータとして取り込む際には,データチェックやデータ変換が必要である(2(1))。データチェックのために,必須項目の有無・全角文字や半角文字の表記のほか,緯度・経度・水深の値の範囲,潜航日が航海期間内であることなどの入力規則を設定した。また,データ変換には4(a)に示すような取り込み時のデータ変換規則を設定し,CMOに必要な観測メタデータを格納できるようにした。さらに,3の受領データ管理テーブルや潜航概要テーブルの値を用いて,どの航海・潜航の観測メタデータをどのWebサイトに提供するかを判別するための提供フラグも自動制御することとした(2(2))。

また,CMOからWebサイトへ観測メタデータを提供する際にも,取り込み時と同様にデータチェックやデータ変換が必要である(2(3))。提供時のデータチェックでは潜航IDに紐付く航海IDの有無などを調べる。また,4(b)に示すような提供時のデータ変換規則を設定することによって,DARWINへ37項目,J-EDIへ20項目,海洋生物サンプルデータベースへ15項目,GANSEKIへ21項目,COEDOへ12項目の観測メタデータを提供することが可能となった[課題2.5(2)]。さらに,取り込みおよび提供の結果をデータ管理DB担当者へフィードバックするため,CMOから結果概要のメールが自動送信され,その詳細がログファイルとして保存される。メールで取り込みあるいは提供エラーが通知された場合,データ管理DB担当者は,ログファイルの情報に基づき,データ管理DBに登録されている観測メタデータを修正することが可能となった[課題2.5(3)]。

前述したデータチェックやデータ変換を伴う観測メタデータの取り込みおよび提供には,将来的な観測メタデータや連携システムの変化に柔軟に対応するため,多種多様なコンピューターシステム群のデータを連携/統合させるための技術をパッケージ化したEAI(Enterprise Application Integration)ツール9)の商用ソフトウェアDataSpiderを用いて機能を実現することとした[課題2.5(4),(5)]。

観測メタデータの取り込みと提供は通常自動で実行されるが,データ管理DBで登録・更新した観測メタデータをWebサイトに即時に反映するケースや,特定の航海や潜航の観測メタデータをWebサイトへ提供するケースを考慮して,手動実行することも可能である(2(1)’,(2)’,(3)’)。5にCMOの管理画面の例を示す。画面を生成するための開発言語としてJava,WebコンテナとしてTomcat,WebサーバーとしてApacheを用いた。また,連携するシステムの運用状況に応じて,自動取り込みや自動提供の一時停止もCMOで設定可能であり,他のシステムでのデータ管理・公開業務への影響を最小限に抑えることが可能である[課題2.5(6)]。

以上のように,CMOを介することによって,データ管理DBから各Webサイトまでの観測メタデータの整合性を確保することが可能となった。

図4 観測メタデータのデータ変換規則
図5 マスターデータ統合基盤システム「CMO」における管理画面の例

4. マスターデータ統合基盤システム「CMO」の運用

2.2(1)で述べたWebサイト間における航海IDや潜航IDの不整合や,2.3(1),(2)で述べたデータ管理DBにおける観測メタデータの蓄積状況を考慮し,次に示す3つの段階に分けてデータ管理DBにおける観測メタデータへのフィードバックを行い,各段階で観測メタデータの最適化を行いながらCMOの運用を開始した。第1段階では,観測メタデータの整合性を向上するため,データ管理DBからCMOへの観測メタデータの取り込みを毎日自動実行した(2(1),(2))。取り込み時に入力規則に反するデータがある場合には,CMOが出力するログの結果に基づいてデータ管理DBの観測メタデータを修正し,再度取り込みを実行した(2(1),(2))。並行して,Webサイトにおいて不整合の生じていた航海IDや潜航IDについてはデータ管理DBの情報と照合しながら修正を行った。第2段階では,変換された観測メタデータがCMOからWebサイトへ正確に提供されることを確認するため,観測メタデータの手動提供を実行した(2(3)’)。提供時に変換ルールに対応していないなどのエラーが発生した場合は,データ管理DBの観測メタデータを修正後,あらためてCMOへ取り込みを行い(2(1),(2)),整合性が確保された観測メタデータを蓄積した後,各Webサイトへ手動提供した(2(3)’)。その後,第3段階では,CMOからWebサイトへの観測メタデータの自動提供を開始し(2(3)),本格運用を開始した。本格運用開始後も,データ管理DBで日々登録・更新される観測メタデータについて,CMOの自動取り込み時および提供時のチェックが行われ,観測メタデータの品質を継続的に維持している。

2014年12月現在,CMOには航海約1,600件,潜航約6,900件の観測メタデータが登録されており,Webサイトに対して航海延べ約3,100件,潜航延べ約14,000件の観測メタデータを日々自動で登録・更新している。

5. マスターデータ統合基盤システム「CMO」運用の効果

Webサイトのデータ・サンプル情報を利用する主なユーザーは気候変動,深海生物,海洋生態系,地質,地震等の幅広い研究分野の研究者である。CMO運用によって期待されるユーザーへの具体的な効果をあげる。4.で述べたように,CMOの本格運用開始までの過程で観測メタデータの不整合が解消された。特に,航海ID・潜航IDの整合性が確保されたことによって,Webサイト間の相互リンクが量・質ともに充実することとなった。これは,サイト間で関連する情報を容易に閲覧できるため,複数のWebサイトを利用するユーザーにとって大きなメリットである。また,観測メタデータの自動提供によってWebサイトで公開される情報も量・質ともに充実したことも,大きな成果である。例として,6にWebサイトの1つであるDARWINの航海情報ページと検索ページを示す。これらのページを構成する情報のほとんどは,CMOから自動提供される観測メタデータである。たとえば,CMO運用まで公開されていなかった海域の情報も,CMOの運用を機に公開されることとなった。その結果,同じ海域名における航海や潜航の海洋観測データを横断して検索することが容易になった。また,航海で実施された調査研究テーマを表す課題名は,1航海につき最大で約30件にも上るため入力コストが高く,これまですべての課題名は公開されていなかったが,CMOの運用によってすべての課題名を公開することが可能となった。課題名には幅広い研究分野に関連するキーワードが含まれており,航海IDや潜航IDを知らない研究者にとってもキーワードによる海洋観測データ探索の利便性が向上したといえる。

また,Webサイト担当者による観測メタデータの登録・更新作業の重複や登録ミスが解消され,担当者は各自が担当するデータ・サンプルに関する情報の登録・更新作業に専念できる状況へ改善が図られた。

図6 DARWINにおける観測メタデータの利用

6. おわりに

CMOの運用によって,Webサイト間で共通する観測メタデータの登録・更新や内容の確認に要する作業時間が大幅に短縮されるとともに,整合のとれた,精度の高い観測メタデータの公開を実現し,ユーザーの利便性を高めることができた。現在のCMOの役割はデータ管理DBからWebサイトへ一方向に観測メタデータを提供することであるが,今後はWebサイトにおいて観測メタデータに紐付く各ページの公開状態の情報をCMOに集約し,その情報をもとにCMOからWebサイト間の相互リンクの自動制御を行うなど,Webサイト間の情報のタイムラグを解消し,ユーザーの利便性をさらに高めることも視野に入れている。

謝辞

船舶観測メタデータは数多くの乗船研究者,観測技術員の多大な努力によって作成されている。また,地球情報基盤センターの多くの関係者の協力のもと,CMOおよびその連携システムであるデータ管理DB,Webサイトの運用が行われている。以上の方々に深く感謝する。

執筆者略歴

  • 福田 和代(ふくだ かずよ)

独立行政法人(※)海洋研究開発機構(JAMSTEC)地球情報基盤センター地球情報技術部データ情報化技術グループにおいて,船舶観測データ等に関する情報システムの構築・運用支援を担当する。本稿で紹介した船舶観測に関するマスターデータ統合基盤システムのほか,ユーザーの利便性向上のためデータ公開Webサイトの機能改善やアクセス分析に取り組んでいる。

  • 齋藤 秀亮(さいとう ひであき)

JAMSTEC地球情報基盤センター地球情報技術部データ情報化技術グループにおいて,データ管理・公開システムの構築,運用にかかる業務に従事する。システム開発企画,要件定義,複数のシステム間連携にかかる設計を行うとともに,各システム構築プロジェクトやシステム基盤運用のマネジメントを担当している。

  • 長谷 英昭(はせ ひであき)

JAMSTEC地球情報基盤センター地球情報技術部データ管理技術グループにおいて,船舶観測データ等の保管,品質管理,公開・提供に関する業務を担当する。主に,データ管理に伴う業務の運用に即したシステム化や,システムに即した業務の運用化に取り組んでいる。

  • 華房 康憲(はなふさ やすのり)

JAMSTEC地球情報基盤センター地球情報技術部データ管理技術グループにおいて,データ・サンプルの管理業務に従事する。各種データ・サンプルの取り扱いに関する方針や運用ルールの策定からメタデータの相互運用性の検討まで,海洋・地球に関する観測データ・サンプル全般のマネジメントを中心に活動している。

  • 園田 朗(そのだ あきら)

JAMSTEC地球情報基盤センター地球情報技術部において,データ公開システムの構築・運用管理全般のほか,ユネスコ傘下で海洋生物地理情報を扱うシステム「OBIS」の日本ノード対応機能の構築や,文部科学省の「東北マリンサイエンス拠点形成事業(海洋生態系の調査研究)」の課題:「TEAMSデータ共有・公開機能の整備・運用」などを担当している。

  • ※海洋研究開発機構は,2015年4月1日より国立研究開発法人へと移行した。

http://www.jamstec.go.jp/j/jamstec_news/20150401/

本文の注
注1)  オープンソースのオブジェクト関係データベース管理(ORDBMS)の1つ。

参考文献
 
© 2015 Japan Science and Technology Agency
feedback
Top