第５回「生体高分子の立体構造データベース（PDBj）とデータベース統合化」

2012年3月22日

中村春木（大阪大学蛋白質研究所，日本蛋白質構造データバンク）

生体高分子の構造データベースであるPDB（Protein Data Bank）は，1970年代から米国において構築および維持がなされてきたが，2003年に，米国Rutgers大学のH. Berman教授の率いるRCSB-PDBと，European Bioinformatics Institute（EBI）のG. Kleywegt博士の率いるPDBe，米国Wisconsin-Madison大学のJ. L. Markley教授の運営するNMR実験データベースBMRB（BioMagResBank），および，筆者らの運営するPDBj（PDB Japan：日本蛋白質構造データバンク，URL：http://pdbj.org/index_j.html）の4つのメンバーが協力し，国際組織としてのwwPDB（world-wide PDB，URL：http://wwpdb.org）を設立して共同体制で運営を行っている^[1-3]（図1）．

図１.wwPDBのメンバー
左から，J. Kleywegt，H. Berman，J. L. Markley，筆者．

これら4つのメンバーでは，投稿されたデータの品質管理のための編集作業および編纂作業（プライマリーアノテーション：Data-in）をできるだけ共通に実施して，まったく同一のファイルからなるアーカイブからデータを配布している（wwwPDBでは，FTPによるファイルダウンロードのサービスを提供している）．データの更新も同一の時刻（日本時間では，毎週水曜日の午前9時）に行っている．PDBjでは，2011年9月末までに17,687件の構造データに対する検証，編集，登録の処理をしている．同じ期間の世界全体での総登録処理数は73,567件であり，約24％をPDBjにて分担し処理してきたことになる．ちなみに，1970年代からの世界全体での総累積は2011年10月には76,495件に達している．

一方，データの表示や検索サービスなどについては個々に努力をし，それぞれの国や地域の事情にあわせたビューアーを構築することが奨励されている．米国のRCSB-PDBがあればなにも日本でデータベース活動をする必要はない，などとする"科学技術ただ乗り論"がいまだ多くの科学者のあいだにさえあるが，日本国内の構造生物学者や生化学者が多くの貴重な立体構造データを新たに解析している現状において，そのデータを国内において責任をもってデータベース化することが必要なことにご理解をいただきたいと思っている．
PDBjでは，2010年度までは独立行政法人科学技術振興機構（JST）のバイオインフォマティクス推進センター（BIRD）による支援を受けてデータベースの構築と高度化および国際化事業を実施してきたが，2011年度からは科学技術振興機構に新たに設立されたバイオサイエンスデータベースセンター（National Bioscience Database Center：NBDC，URL：https://biosciencedbc.jp）の支援を受け，さきに述べたData-inとしてのデータベース構築作業にくわえて，バイオサイエンスデータベースセンターの進める RDF（resource description framework）によるデータベース統合化を推進している．具体的には，これまで世界的にみてもまともにセマンティック化のなされてこなかったPDB データをセマンティックウェブ化することにより，ほかの生物学あるいは医学データベースとのデータ統合を可能にする環境を整えている（その技術面での詳細は，本シリーズ第2回「データベースを統合利用するための基盤としてのセマンティックウェブ技術」（URL：https://events.biosciencedbc.jp/article/02）を参照されたい）．セマンティックウェブにおいては，データはOWLなどの言語で記述されるオントロジー（概念や意味を共有するため，コンピューターが文書の意味を理解し情報を再利用するための基盤として構築される語彙セット）により定義され，RDFフォーマットであたえられる．PDBの構造データとメタデータをRDF化するにあたり，PDB exchange辞書から変換されたOWLオントロジーを用い，カノニカルXMLフォーマットであるPDBMLで記載されたPDBの各エントリーをRDF化した ^[4]（PDB/RDF，URL：http://pdbj.org/rdf）．UniProt，PubMed，NCBI Taxonomy，Bio2RDFなどセマンティックウェブ化されたデータベースへの参照情報が埋め込んであり，ほかのデータベースとの統合化をユーザー自身が実施できる．今後は，これまで開発してきた種々のアナログ的な検索をPDB/RDFで行うことで，Webネットワークを用いた高度な推論が可能なしくみを構築する計画である．wwPDBにおいても，PDBjのPDB/RDFをもとにしたカノニカルなしくみが構築されることになっている．

一方，NMR解析は生体高分子の立体構造をあたえるだけでなく，リガンド相互作用や動的構造転移など機能解明に寄与する空間分解能および時間分解能の高い情報をあたえるが，多様な試料状態，実験法，取得データに応じた高度に組織化したしくみが必要とされている．PDBjはBMRBデータベースの構築とツール開発のグループを擁しており ^[3]，このPDBj-BMRBグループでは独自にこれらの登録作業およびアノテーション作業をシームレスに実現し，複雑なデータ構造をオントロジー工学により容易に命名法やフォーマットの変換を行うシステムの開発を進めている．

PDBjでは，これまでにRCSB-PDBやPDBeのサイトにはない，構造バイオインフォマティクス技術にもとづく種々の独自のサービスや教育用の資料なども開発し公開している．データの検索および閲覧のシステムはデータの記述とその検証がスキーマにそってきわめて厳密に行えるXMLを用いたPDBML にもとづいている ^[5]．PDBjでは，PDBMLにもとづきつつ，フリーのリレーショナル型データベースPostgreSQLの管理により高速に処理できるしくみPDBj Mineを独自に開発し，データの検索と閲覧のサービスを行っている^[6]．このシステムでは，URLとしてPDBIDにXPath記述（XML文書内で特定の要素や属性の位置を指定する言語）をくわえることで容易にデータを取得できるRESTful Webサービスを提供し，また，SQL（リレーショナル型データベースの操作に必須の世界標準言語）による高度な検索も可能となっている^[4]．

また，PDBjのWebページを研究者だけでなく一般社会人や学生にもより広く利用してもらうため，日本語での利用者インターフェースを充実させている．具体的には，Webページや利用の手引きの日本語化にくわえ，日本語によるキーワード検索および検索結果の表示を提供するとともに，動画による日本語での利用法ガイドも作成し配布している．
ところで，タンパク質の構造データがゲノムなどの配列データや文献データと異なっているのは，データそのものが本質的にアナログ値であり，検索する場合には原子座標の数値を探すのではなく，"こんなかたち，分子表面，動きをするタンパク質はないか？"という"アナログ検索"が必要とされ，また，そこから新しい生物学的な機能などの考察が可能となる点である．これらのアナログ検索は必ずしも世の中にはそろっておらず，これまでPDBjでは独自の開発を行ってきた．

具体的には，類似フォールドの検索サービスStructure Navigator ^[7]，タンパク質フォールドの俯瞰的ビューアーProtein Globe ^[7]，構造にもとづくタンパク質ファミリーの推定サービスSeSAW，類似したタンパク質リガンド結合部位の検索GIRAF^[8]，タンパク質分子表面データベースeF-siteの構築とそれにもとづく類似表面の検索eF-seek ^[9]，基準振動解析により計算されるタンパク質の動的性質のデータベースProMode^[10]，などである．これらアナログ検索の結果となる構造や分子表面の画像を表示するためのグラフィックビューアーjV3も開発している．そのほか，構造・配列統合マルチプルアラインメントシステムMAFFTash，アミノ酸配列のアラインメント情報からタンパク質のホモロジーモデルを作成するため新たにテンプレート法とフラグメント法とを融合させたSpanner，European Bioinformatics Instituteで収集している3次元電子顕微鏡構造データベースEMDBのデータ閲覧サービスであるEM NavigatorとYorodumiポータル^[4]（図2），などもよく利用されている．また，教育的なサイトとして，タンパク質構造事典（eProtS：encyclopedia of protein structures）では350項目ほどのタンパク質とその構造について日本語と英語により平易な解説がなされており，さらに，RCSB-PDBが作成している教育的なサイトMOM（Molecule of the Month）についてはRCSB-PDBとの協力により事前に日本語訳を作成し同時に公開している．

図２.電子顕微鏡構造をPDBデータにリンクさせて表示するYorodumi
左側の画面はムービー表示となっている．

参考文献

Berman, H., Henrick, K., Nakamura, H. et al.: The worldwide Protein Data Bank (wwPDB): ensuring a single, uniform archive of PDB data. Nucleic Acids Res., 35, D301-D303 (2007) ↑
中村春木: 蛋白質構造情報の高度化と統合データベース. 蛋白質核酸酵素, 52, 1897-1905 (2007) ↑
Markley, J. L., Ulrich, E. L., Berman, H. M. et al.: BioMagResBank (BMRB) as a partner in the Worldwide Protein Data Bank (wwPDB): new policies affecting biomolecular NMR depositions.J. Biomol. NMR, 40, 153-155 (2008) ↑
Kinjo, A. R., Suzuki, H., Yamashita, R. et al.: Protein Data Bank Japan (PDBj): maintaining a structural data archive and resource description framework format. Nucleic Acids Res., 40, D453-D460 (2012) ↑
Westbrook, J., Ito, N., Nakamura, H. et al.: PDBML: the representation of archival macromolecular structure data in XML. Bioinformatics, 21, 988-992 (2005) ↑
Kinjo, A. R., Yamashita, R. & Nakamura, H.: PDBj Mine: design and implementation of relational database interface for Protein Data Bank Japan. Database, 2010, baq021 (2010) ↑
Standley, D. M., Kinjo, A. R., Kinoshita, K. et al.: Protein structure databases with new web services for structural biology and biomedical research. Brief. Bioinform., 9, 276-285 (2008) ↑
Kinjo, A. R. & Nakamura, H.: Comprehensive structural classification of ligand-binding motifs in proteins. Structure, 17, 234-246 (2009) ↑
Kinoshita, K., Murakami, Y. & Nakamura, H.: eF-seek: prediction of the functional sites of proteins by searching for similar electrostatic potential and molecular surface shape. Nucleic Acids Res., 35, W398-W402 (2007) ↑
Wako, H., Kato, M., End,o S.: ProMode: a database of normal mode analyses on protein molecules with a full-atom model. Bioinformatics, 20, 2035-2043 (2004) ↑

↑ 押下で本文に戻ります。

なお、本記事は細胞工学2012年1月号掲載の原稿を改変したものです。

第５回「生体高分子の立体構造データベース（PDBj）とデータベース統合化」

参考文献

NBDCメルマガ