2024 Volume 5 Issue 2 Pages 35-43
次世代シーケンシング技術の進歩に伴い、ゲノムデータの生成速度は急速に増加しており、さらにバイオデータの多様性も加わり、その管理と解析が現代の研究者にとって重要な課題となっている。本稿では、大規模かつ多様なバイオデータ解析におけるクラウドデータウェアハウスの利用方法を詳細に論じ、特にSnowflakeを用いたデータ管理および解析のフレームワークを提案する。また、疾患バリアント解析やin silico創薬の具体例を通じて、その利便性と効果を示す。Snowflakeの導入によって、研究者は多様なバイオデータを効率的に管理・解析し、統合的な解析を通じて新たな生物学的知見を得ることが可能となる。これらの具体的な手法や応用事例を通じて、バイオインフォマティクス分野の研究進展を加速させることを目指す。
シーケンシング技術の進歩により、ゲノムデータの生成速度が急速に増加しており、その結果、データの生成コストも劇的に低下している[1, 2]。例えば、National Center for Biotechnology Information(NCBI)が公開しているSequence Read Archive(SRA)データの容量は、2007年5月には47.04GBであったが、2024年2月には27.93 PBになっており、約62万倍の増加を記録している(図1)。Illumina社の技術革新により、ヒトゲノムのシーケンスコストが2014年に1,000ドルを切り、現在では600ドルまで下がっていることが報告されている[3]。このような急速なデータ増加とコスト低下は、より広範な研究や臨床応用に利用できるようになった一方で、現代の研究者が直面するバイオデータの管理と解析に関する新たな課題を生んでいる[4]。
NCBI SRAが公開する年ごとのSRAデータの容量の増加状況。グラフはhttps://www.ncbi.nlm.nih.gov/sra/docs/sragrowth/より引用した。
ゲノムや遺伝子以外にも、バイオデータの種類は多岐に渡る。例えば、遺伝子やゲノムの変異情報、RNAおよびタンパク質の発現、代謝分布、タンパク質の配列やファミリーおよびモチーフ、分子や細胞の構造や局在性、反応、相互作用および生合成経路などのシステム、更にケモゲノミクスおよびメタボロミクスの分野などもあり、その種類が大幅に増加している[5, 6, 7](図2)。それだけでなく、データが整列したテーブル・表といった構造化データ以外にも、医療診断情報が書かれたPDFデータや病理染色画像データといった非構造化データなども存在している[8, 9]。このように現代の研究者たちは、巨大かつ多様なバイオデータを適切に管理・複合した解析を行い、新たな知見を得る能力が求められている。そのため解析にかかるストレージコストや管理・運用コストの増大が課題となっている[10]。バイオデータ管理と解析の発展には、生物情報学の技術進展が不可欠であり、効率的なデータ管理と解析技術の向上により、バイオインフォマティクス分野の成長促進や研究者向けの技術普及が期待される。昨今、バイオデータを管理し解析するプラットフォームとしてクラウドが利用されている[11, 12]。クラウド技術はそのスケーラビリティ、柔軟性、およびコスト効率の良さから、生物情報学分野でもさまざまな解析に広く利用されている[13, 14]。本稿ではクラウド技術を中心に取り上げ、その中でもクラウド製品である「データウェアハウス」を活用して、大規模かつ多様なバイオデータを効率よく管理し解析する方法について紹介する。
バイオデータの種類の一覧。遺伝子やゲノムの変異情報、RNAおよびタンパク質の発現、代謝分布、タンパク質の配列やファミリーおよびモチーフ、分子や細胞の構造や局在性、反応、相互作用および生合成経路などのシステム、更にケモゲノミクスおよびメタボロミクスの分野など幅広いバイオデータタイプが存在する。
学術利用に使われる主なストレージや計算資源として、個人所有のノートパソコンや研究室所有のデスクトップPCやサーバー(オンプレミス環境)やスーパーコンピュータが挙げられる(図3)。前者の利点としては、ハードウェアとソフトウェアを自由にカスタマイズできることが挙げられる。一方で、ハードウェア・ソフトウェア・環境構築など初期投資が必要となることや高いスペックのCPUやGPUやメモリを用意するのに高額なコストがかかることやアップグレードや修理など維持管理が困難で、高度なITスキルが要求される点が課題として挙げられる[15]。後者の場合、高い計算能力を有しているため大規模で複雑なシミュレーションやデータ解析に最適であり、特定の計算タスクに特化したシステム設計が可能で性能の最適化が容易であるが、共同利用につき予約が必要であり、使用時間に制約がある場合がある[16]。また、スーパーコンピュータの使用には申請書の提出や審査、成果報告書の提出、成果報告会への参加、組織変更時の手続きなど、運営側との煩雑なやり取りが必要となる。このような制約を考慮すると、クラウド技術の利用が効果的な解決策となる(図3)。クラウドとは、インターネット経由でアクセスするサーバーやデータベース、ソフトウェアを指す。そのため利用者が物理的なハードウェアを所有していなくても、ベンダー側が管理するリソースの上で実行される仮想コンピュータの作成が可能である。これにより、利用者側はハードウェアの制約を受けることなく、必要に応じてコンピューティングリソースを柔軟に拡張・縮小できるため、高性能コンピューティング(HPC)クラスターを迅速に構築して、大規模なシミュレーションやデータ解析を利用することができる。上記のような利用をしてもオンプレミスを自前で整備する場合と比較して費用を抑えることができる。従量課金制を採用しているため、使用したリソースに対してのみ料金が発生する。大学でも近年は代理店経由の請求書払いなどに対応できるようになり、支払いのハードルが下がっている。また、ハードウェアの保守や更新のコストもクラウドプロバイダーが負担することになっている。Amazon Web Service(AWS)を例に挙げると、AWSはホストオペレーティングシステムおよび仮想化レイヤーから、サービスが稼働しているデータセンターの物理的なセキュリティに至るまで、多くの要素の運用、管理、および制御を担当しているが[17]、サービスによって利用者が管理する責任範囲は異なる。たとえば、Amazon EC2の利用者には、ゲストOSのアップデートやその他の管理作業が求められる。一方で、Amazon S3のようなサービスでは、利用者の管理負担が少なく、AWS側で多くの管理が行われる。さらに、クラウドプロバイダーは企業組織としてのセキュリティとコンプライアンスが確保されており、データの暗号化、アクセス制御、監査ログなど、ゲノムデータや患者の個人情報といった機密性の高いバイオデータを安全に管理するための機能が充実している。クラウドプロバイダーは、GDPR(一般データ保護規則)やHIPAA(医療情報のプライバシー規制)などの国際的および地域的な規制に準拠するための機能をサポートしており、これにより法的コンプライアンスを容易に確保できる。こうした環境下では、データの共有とコラボレーションも容易であり、データや解析結果を簡単に共有することが可能である。これにより、複数の研究者やチームが同時にアクセスして共同作業を行うことができ、研究の効率性が向上する。
オンプレミスとスーパーコンピュータとクラウドのメリット・デメリットの比較。青文字はメリット、赤文字はデメリットを示している。パソコンとサーバー画像は、Togo picture gallery(© 2016 DBCLS TogoTV, CC-BY-4.0 https://creativecommons.org/licenses/by/4.0/deed.ja)より引用した。
クラウド技術には多くの利点がある一方で、いくつかのデメリットも存在する。まず、運用コストについて、従量課金制は短期間の利用に適しているが、長期的に大規模データを保存する場合、オンプレミスよりコストがかさむことがある。加えて、ベンダーロックインの問題もあり、特定のプロバイダーに依存すると、他のクラウドへの移行時に追加のコストや手間が発生する。さらに、クラウドのサービスの永続性に関して、サービス終了のリスクは低いものの、万が一に備えたデータバックアップやマルチクラウド戦略の活用が推奨される。
データウェアハウスは、大量のデータを一元管理するためのシステムであり、企業では、分散したデータソースを統合し、ビジネスインテリジェンスや高度な分析を支援するために利用されている[18, 19, 20]。データウェアハウスを利用することで、データの取り込み、変換、保存、分析までのプロセスを一元管理できるため、データの整合性や品質を保ちながら効率的なデータマネジメントが可能となる(図4)。データウェアハウスでモデリングされたデータはデータマート層として管理され、データサイエンティストやbusiness intelligence (BI) tool などデータ利活用層によって解析や可視化が行われる[21]。またクラウド上にホストされているデータウェアハウスは、スケーラビリティ、柔軟性、コスト効率、データの共有とコラボレーション、セキュリティとコンプライアンスといったクラウドのメリットが存分に活かされている[22]。昨今は、データ管理のみならず、ビッグデータ解析やAI・機械学習の機能も充実しており、データ管理やモデリング、その後の可視化や解析までをエンドツーエンドで実施することが可能である[23]。
クラウドデータウェアハウス製品を中心としたデータマネジメントシステムの一例。OLTP DatabasesやFolder, web/log, IoTといったデータソース層から、データ抽出と加工を行うELT層、データウェアハウス製品の中で、データを保存するデータレイク層、データを加工し使いやすい形にするデータマート層を経て、データサイエンティストやBIツール使用者にてデータ利活用が行われる。
データウェアハウス製品の特徴としてOn-Line Analytical Processing(OLAP)であることが挙げられる。OLAPは大量のデータを迅速に集計する列指向型データベース技術の一つで、多次元データモデリングを得意とし、様々なセグメントで分析を実行することができる[24]。なお、OLAPはOn-Line Transaction Processing(OLTP)と対比される。OLTPは、原子性、一貫性、独立性、持続性(ACID特性)を満たすトランザクション処理を自動化するデータベース技術である。OLTPは通常、最新の詳細データを処理し、少量のレコードに対する精緻なI/O操作を行う。データウェアハウスの機能要件と性能要件は、従来運用データベースがサポートしてきたデータベースとは全く異なる。OLTPは、トランザクションが原子性、一貫性、独立性、持続性(ACID特性)を持つように設計されており、ソフトウェアのリクエストなどのデータ処理トランザクションを自動化する。トランザクションは詳細で最新のデータを必要とし、通常は主キーでアクセスされる数件のレコードに対し精緻なI/O操作を実行する。OLTPは一貫性と回復性が重要であり、トランザクションのスループットを最大化することが目的である。対照的に、OLAPは意思決定支援を目的としている。OLAPは、複数の業務データベースから長期間に渡り取り込まれ統合されたデータを管理するため、OLTPよりも桁違いに大きくなる傾向がある。OLAPでは、SQLなどのData Manipulation Languageを利用することで、数百万を超えるレコードをスキャン、結合、集約させることができ、クエリの応答時間は、トランザクションのスループットよりも重要な指標となっている。次項で、データウェアハウス製品におけるバイオデータの解析方法についての例を解説していく。
近年、バイオ系研究者は複数のバイオソースを組み合わせた解析で融合研究を行うことが求められている。マルチオミクス解析とは、複数のオミクスデータ(ゲノミクス、プロテオミクス、トランスクリプトミクス、メタボロミクスなど)を統合して解析する手法である。この手法により、単一のオミクスデータでは得られない包括的な生物学的洞察を得ることができる。データウェアハウスを利用することで、これらの異なるバイオデータタイプを一元管理し、セキュリティを担保しながら簡単にアクセスして解析・可視化・共有を行うことが可能となる。筆者はデータウェアハウス製品としてSnowflakeを利用しており、マルチオミクス解析環境の整備を行ってきた[25]。そこで、Snowflakeを活用したバイオデータ管理の方法と具体的にできる解析フレームワークを提唱する(図5)。今回、Snowflakeの料金体系には触れないため、サービスページを適宜参照されたい[26]。
データウェアハウスとしてSnowflakeを利用したバイオデータ管理・解析プラットフォームの一例。上から順番に、疾患ゲノムバリアントフィルタリング解析、バーチャルスクリーニングなどのin silico創薬解析、Docker imageをホストすることによるトランスクリプトーム解析やその他ハイコンピューティング解析を紹介している。Cloud Service上のストレージはSnowflakeの外部ストレージ統合機能である外部ステージ機能によってストレージ統合が実現される。Snowflakeのベンダーのロゴは各社のBland Guidelineに従って使用した。
Variant Call File(VCF)の容量は、1ファイルで2〜10GBほどになり、サンプル数を複数管理する場合での容量増大が課題となっている。Snowflakeでは、VCFを非構造化データとして扱い、ストレージ圧縮される機能をサポートしている[27]。ヒトゲノムをバリアントコールした際のバリアント数は数百万を超える場合が多いため、OLAPの性能を生かした管理が最適となる。疾患バリアント解析は、次世代シーケンス(NGS)データを使用して患者特異的に発生するゲノム変異を特定し、疾患バリアントを同定するプロセスである。解析フローの一例として、Registry of Open Data on AWSにて管理されているDRAGEN(Dynamic Read Analysis for GENomics)にて解析された1000 Genomes ProjectデータセットのVCFファイルを使用が検討される[28]。この原稿を書いている2024年7月現在で、Registry of Open Data on AWS上では、合計544データセット、60のゲノム・遺伝子に関わるデータセットがAWS S3上にてパブリックで公開されている[29]。そのため、S3のようなSnowflake外部のストレージに対し、Snowflakeの外部ストレージ統合機能である外部ステージ機能によってS3をストレージとして登録することで、Snowflakeの外部ストレージとして機能させることができる[30]。その後、あらかじめ定義されたユーザー定義関数(UDF)にてVCFファイルをテーブルへとインサートすることで取り込む。取り込まれたバリアント情報はデータベースを操作するための言語であるSQLにてフィルタリングを行うことが可能である。Registry of Open Data on AWSでは、gnomAD[31, 32]などのアノテーションデータベースや各サンプルの地理的起源と性別、およびサンプル間の家族連鎖を記述したpanelsデータ[33]も利用可能であり、これらデータセットをバリアント情報が格納されたテーブルへとSQL JOINさせることでより詳細なバリアントフィルタリングを実施することが可能である。
in silico創薬では、特許や論文で発表されている化合物情報をもとに、より有望な類似化合物を探索するプロセスが一般的に行われる。Snowflakeではクラウドストレージ上に保存されているものや、ChEMBL[34]やPubChem[35]やZINC15[36]からファイルダウンロードして取り込ませることが可能である。取り込まれた化合物や薬物データは、Snowflakeの内部のストレージに保存され、開発者向けツールキットにて解析することが可能である。SnowflakeはSnowflake Notebooks[37]というJupyter Notebooks風なGUI解析機能を提供しており、そこではミラーリングされたAnaconda packagesにてRDkitやBiopythonといったインフォマティクス関係のライブラリを標準にサポートしている。またスクリーニングされた化合物や薬物データはStreamlit in Snowflakeを利用して構造情報を可視化することが可能である[38]。データの取り込みから解析、可視化まで、潜在的な薬物候補をSnowflakeの外にデータを出すことなく解析系を構築することができる。
Snowflakeでは、エコシステム内でコンテナ化されたアプリケーションのデプロイ、管理、スケーリングを容易に行うことができるSnowpark Container Service(SPCS)というフルマネージドのコンテナ製品をサポートしている[39]。SPCSを利用することでDockerを含むコンテナランタイム技術を使用したイメージを用いて多くの生命科学系ツールがsnowflakeで利用可能となる。例えば、シングルセルRNAシーケンス(RNA-seq)解析を行うために、ローカルPCからRstudio Serverのイメージをイメージリポジトリへとプッシュする。このイメージをSPCS上にホストすることでアクセス用のR言語解析環境を用意でき、SeuratパッケージによるシングルセルRNA-seq解析が可能となる。SPCSのメモリは、CPUメモリとして1024GiBまで、NVIDIA GPUもサポートされており、MDやドッキングシミュレーションといったハイコンピューティングリソースが要求される解析までエンドツーエンドで解析することが可能である。
このフレームワークを利用することで、研究者はSnowflakeを中心としたデータウェアハウスの利点を最大限に活用し、バイオデータの効果的な管理と解析を実現することが可能である。上述の解析は、ゲノム解析、ケモインフォマティクス、トランスクリプトーム解析と幅広いが、全てのデータがSnowflakeで管理されているため統合解析が容易である。データの一元管理と多様な解析ツールの統合により、バイオインフォマティクスの新たな可能性が広がる。
前項ではデータウェアハウスのバイオ研究における一般的な研究利用方法を解説したが、製薬企業や医療機器メーカーといったライフサイエンスに関わる民間企業においてもデータウェアハウスの社内データマネジメント以外での利活用が進んでいる。ここではライフサイエンス企業におけるデータウェアハウスの特徴的な活用事例として、Data Clean RoomとLLMによるライフサイエンスデータ処理事例を簡単に紹介する。
Data Clean Roomとは、複数の組織がデータを共有しつつ、プライバシーやコンプライアンスを確保するための安全な環境を提供するものであり、差分プライバシーの技術が使われている[40, 41]。ライフサイエンス分野においては、患者データや臨床試験データなどの機密性の高いデータを複数の研究機関や製薬企業が共同で利用することが多い。Data Clean Roomを利用することで、データを匿名化したり、必要な部分だけを共有したりすることが可能となり、データプライバシーを守りつつ、協力して研究や解析を進めることができる。
LLM(大規模言語モデル)は、膨大な量のテキストデータをもとに訓練された機械学習モデルであり、自然言語を理解し、生成する能力を持っている[42]。そのため膨大な量の非構造化データを処理し、学習することに長けている。ライフサイエンス分野では、論文や特許文献、電子カルテなど、多くの非構造化データが存在するため、LLMを利用することでこれらのデータを効率的に解析し、新たな知見を抽出することができる[43]。例えば、臨床試験データを解析して、有効な治療法を見つけ出したり、患者データから特定の病気のリスク因子を特定したりすることが可能である[44]。
クラウドを活用したバイオインフォマティクスは、大規模かつ多様なバイオデータを効率的に管理し、解析するための強力な手段である。Snowflakeのようなクラウドベースのデータウェアハウスを利用することで、データのスケーラビリティ、柔軟性、コスト効率、セキュリティを高めながら、大容量かつ多様なバイオデータを管理し統合した高度な解析を行うことができる。本稿で紹介した解析例やマルチオミクス環境のセットアップ活用事例を通じて、クラウドを活用したバイオインフォマティクスの可能性を実感していただければ幸いである。今後も、クラウド技術の進展に伴い、バイオインフォマティクスの分野での新たな発見や進歩が期待される。
本稿の発表に関して、著者には利益相反がないことをここに宣言する。著者はSnowflake社、Amazon Web Services(AWS)、または本稿に言及されている他のクラウドサービスプロバイダーに属しておらず、これらの製品を単なるユーザーとして利用しているに過ぎない。ただし、著者はSnowflake社が用意するSnowflake Squad Programに選ばれているため、透明性を確保するためにここに開示する。本稿で述べられている見解や意見は、著者個人のものであり、言及された企業やその従業員の意見を代表するものではない。
![]() |
是枝 達也 名古屋大学大学院生命農学研究科博士前期課程修了。大学院で生命科学を学んだ後、ITエンジニアとして就職。生命科学と情報学の融合により、バイオインフォマティクスを用いた研究を開始した。薬剤刺激による細胞遺伝子シグネチャ解析といったトランスクリプトーム解析を専門とする。これまでほとんどの人が取り組んでこなかったSnowflakeのライフサイエンス利用に関する技術開発を行い、その活動成果が認められSnowflake Squad 2024 メンバーに選出された。 ホームページ:https://www.linkedin.com/in/tkoreeda/ |