抄録
国立遺伝学研究所日本DNAデータバンク(以下DDBJ)では、新型シーケンサからの出力データをアーカイブするため、DDBJ Sequence Read Archive(DRA)を運営している。新型シーケンサの配列は個々のリード長が短いこと、リード数が膨大なことから、解析に大規模なコンピュータシステムや解析の為のスキルが要求される。そこでDDBJでは、大規模配列処理にクラウド型で計算機資源を利用する方法を提案しており、その一環として、新型シーケンサ配列を解析するクラウド型解析パイプライン DDBJ Read Annotation Pipeline(http://p.ddbj.nig.ac.jp/)を開発している。
パイプラインの特徴を以下に挙げる。
1) 様々な新型シーケンサ(illumina, Roche/454, Life Techonology)に対応した
解析ツールが利用可能である。
2) 結果を統一ファイル形式に変換して、ベースコールの平均クオリティスコアや参照配列被覆率(coverage)、アライメント深度(depth)等の標準的な統計量を計算する。
3) ウェブアプリケーションの遠隔操作で、国立遺伝学研究所スーパーコンピュータのPCクラスタを利用したクラウド解析を行うことが出来る。
本発表ではパイプラインの最新機能を紹介する。