Journal of Computer Chemistry, Japan
Online ISSN : 1347-3824
Print ISSN : 1347-1767
ISSN-L : 1347-1767
Highlight
SCCJ Cafe –Season 4–Shape of Protein Molecules (4) ”Description of Molecular Structural Information in PDB”
Takahiro Kudou
Author information
JOURNAL FREE ACCESS FULL-TEXT HTML

2015 Volume 14 Issue 2 Pages A13-A16

Details
Abstract

There are several formats to describe PDB structural data and I introduce them in this article. Each format file is available from the PDBj web site (Figure 1). The most historical format is PDB format (Figure 2). It is 80 columns fixed format and the included information is partial. Moreover it includes some free description sections and it is not suitable for computational processing. As it will be phased out in 2016, it is recommended to use the current canonical format PDBx/mmCIF (Figure 3). It is defined by the extension of STAR format, which can include flexible length of lines. wwPDB also provides XML translated format PDBML (Figure 4). One can use general XML purser for it, but the file size is larger than PDBx/mmCIF. In the PDBx/mmCIF and PDBML, two types of ids for items such as atoms and residues are defined. One is author-defined id, which is not always sequential and may include non-numerical strings. The other is defined by wwPDB, which follows the systematic rule.

1 PDBのデータ記述

これまで,PDBに登録されている分子の構造をいくつか見てきましたが,今回はこのような情報が実際にはどのような形で記述されているのかを見ていくことにします.今回は字が多く読みづらいかも知れませんがご了承下さい.

2 いろいろなフォーマット

PDBの分子構造データの記述フォーマット(書式)には「PDBフォーマット」「PDBx/mmCIF」「PDBML」などいくつか種類がありますが,いずれもテキスト形式で書かれていてテキストエディタなどで直接読むことができます.

但し,提供しているデータはgzip形式で圧縮がかかっているため,内容を閲覧するには原則として解凍処理が必要となります(UNIX系のzcatコマンドのようにgzip圧縮されたテキストファイルを直接参照できるツールを使う場合は不要).

また,改行コードの違いにより,Windowsのメモ帳などでこれら分子データを開くと改行が抜け落ちてしまう点にもご留意下さい.

3 ダウンロードの方法

データをダウンロードする方法として,PDBjの各PDBエントリーページからダウンロードする方法やFTPでダウンロードする方法などがあります.

まずウェブページを使う場合,PDBjでPDBエントリーのページにアクセスし,「ダウンロード」タブをクリックすると各種フォーマットファイルのダウンロード一覧を表示することができます(Figure 1).

Figure 1.

 Steps to download the PDB data in various formats.

またFTPを利用する場合,ftp://ftp.pdbj.org/pub/pdb/ からダウンロードできます.ディレクトリ構成など詳細についてはPDBj Help「アーカイブの詳細」(http://pdbj.org/help/data_download)をご覧下さい.

4 解凍

PDBの各データファイルはgzip形式で圧縮されています.Windows環境では標準でgzip圧縮ファイルを解凍できないようですので,別途gzip解凍を行うためのアプリケーション(7-zip [1]など)をご使用下さい.

5 PDBフォーマット

「PDBフォーマット」は1行80文字の固定長フォーマットです(Figure 2).各行最初の6文字には何について記した行であるのかを示す項目名が,7文字目以降に実際のデータが記されています.

Figure 2.

 An example of PDB format (PDB entry 1mbn).

最も歴史があり広く使われているファイル書式ですが,以下に記すような短所があります.

(1) 桁数が明確に規定されているため,文字が収まり切らないと記述できなくなる(例:原子IDは5桁しか確保されていないので99999個を越える原子が原則として記述できない).

(2) 定義がゆるい自由記述部分(REMARK行)が多くあり,機械処理に向かない.

(3) 既に一部情報が割愛されている.

特に(1)に関して,大きな分子の構造データが1つのPDBフォーマットファイルに収まらない(原子IDや鎖IDが足らない)ことが問題となりました.暫定的対処として,1つの分子を複数のPDBエントリーに分割して提供する方法(SPLIT)が用いられてきましたが,2014年12月にこの分割処置は廃止されました.現在1つのPDBフォーマットファイルで記述できない大きな分子については,1つのPDBエントリーに対し2つ以上のPDBファイルをまとめた「PDB bundle」を提供する方法がとられています.

また,PDBフォーマットの提供は2016年には完全に終了する予定となっています [2].PDBフォーマットにしか対応しないアプリケーション等については次に述べるPDBx/mmCIF等のフォーマットにも対応して頂けるよう呼びかけていますが,提供終了後もPDBフォーマットが必要な時は,オンラインフォーマット変換サービス [3]などをご利用下さい.

6 PDBx/mmCIF

現在一番元となっているデータ保管形式は「PDBx/mmCIF」と呼ばれるフォーマットです(Figure 3).以下のような特徴が挙げられます.

Figure 3.

 An example of PDBx/mmCIF format (PDB entry 1mbn).

• 公開されている全ての情報が含まれている(PDBフォーマットは一部の情報が割愛されたダイジェスト版).

• 各行の文字数が可変なSTAR形式を採用しており,桁数の制約にとらわれない記述が可能

• 項目名がPDBフォーマットよりも細かく規定され,より機械的処理にも向いた書式となっている.

項目名はカテゴリ(Category)と属性(attribute)で構成され,ピリオドでつなぎ表記されます.そして,それに対応する1組以上のアイテム値(item value)が記述されます.例えばentityカテゴリにはentity.id (各分子種固有のid),entity.formula_weight (各分子の分子量),entity.pdbx_number_of_molecules (各PDBエントリーに含まれる分子の個数)などが記されています.

カテゴリは内容によってさらにグループ化されカテゴリグループを構成しています.同一グループのカテゴリは名称の一部にカテゴリグループ名を含んでいます.例えば,entityカテゴリグループ(各化合物に関する情報を扱うグループ)にはentity,entity_poly,pdbx_entity_src_synなどカテゴリ名の一部にカテゴリグループ名「entity」を含んでいます.このグループにはPDBエントリーに含まれる各分子の情報が記載されます.

主なカテゴリを以下に示します.

• atom_site 原子座標情報

• chem_comp 化合物・ポリマー構成単位(アミノ酸・ヌクレオチド)情報

• citation 文献情報

• entity 各分子の情報

• entity_src_nat 遺伝子源生物に関する情報(その生物から直接分子を得た場合)

• entity_src_gen 遺伝子源生物に関する情報(他の生き物を使って発現させ分子を得た場合)

• pdbx_struct_assembly 生物学的単位に関する情報

• struct_conf αらせん,ターンなどの情報

• struct_sheet βシートに関する情報

PDBx/mmCIFの定義内容について詳しくは「PDBx/mmCIF 辞書関連情報」 [4]をご覧ください.このサイトではPDBx/mmCIFへの移行を支援するため,PDBx/mmCIFを扱うことのできるアプリケーションやライブラリなどの情報も提供しています.

7 PDBML,wwPDB/RDF

PDBx/mmCIFはwwPDBで定義したこの分野独自のフォーマットであるため,より一般的なXML形式に変換した「PDBML」も合わせて提供しています(Figure 4).

Figure 4.

 An example of PDBML format (PDB entry 1mbn).

XMLはより広く用いられているフォーマットであるため,扱うためのライブラリなどが豊富に存在するという利点があります.一方,原子1つ記述するだけで数十行を要し,ファイルサイズが大きくなって扱いにくいという短所があります.その点を踏まえると,今後PDBx/mmCIFを扱う環境が整ってくれば,PDBx/mmCIFの方がタンパク質分子の情報を扱う標準的なフォーマットになっていくのかも知れません.

PDBMLについては原子座標情報部分を除いたPDBML-noatom,逆に原子座標情報部分だけを取り出し,1原子1要素となるよう圧縮したPDBML-extatomも提供しています.どちらか一方の情報しか必要としない場合,PDBML-noatomやPDBML-extatomを使うことで処理を軽くすることができます.

また,別のXML形式で,ウェブ上のリソースを記述するための標準フォーマットであるRDF形式に変換したwwPDB/RDFも提供しています.

ここまでの各フォーマットはwwPDB各局で共有しているものですが,PDBjでは独自に実験情報など収集し情報を付加したPDBMLadd (およびPDBMLと結合したPDBMLplus)も提供しています.現在は機械的に収集している情報が主で,このような関連データの収集と提供はwwPDBを構成する他局でも行われています.利用層が多いと考えられるなど内容によってはwwPDBで共有している正式のPDBデータに移設される可能性もありますが,基本的には自身が必要とする付加情報を提供しているサイト参照して頂くことになりそうです.

8 著者定義とPDB定義

PDBフォーマット(Figure 2)とPDBx/mmCIFフォーマット(Figure 3)の下部に示した原子座標情報部分を比べると,後者の方がより多くの項目が記載されていることが分かります.しかも,似たような情報が複数書かれています.これは,原子ID,残基番号などが2種類あることを示しています.著者が定義した値とPDBで系統的に割り振った値とがあり,前者は必ずしも連番になっていない場合や,文字を含む場合などがあって機械処理に向いていません.そこで,別途機械処理に向いている値をPDBで別途定義したのです.PDBx/mmCIFには両方の値が記載されていますが,PDBフォーマットでは著者定義の値しか記載されていません.

9 次回は…

今回示したデータを読み込んで分子を表示する分子閲覧ソフトについて紹介します.

References
 
© 2015 Society of Computer Chemistry, Japan
feedback
Top