ポスター発表

注意事項

ポスターや発表スライド等の著作権は、別途記載がない限り発表者・発表者の所属機関に帰属します。
ポスター・スライド内の図や文言を転用する際には、著作者と話し合っていただくよう お願いいたします。

タイムテーブル

14:20~15:00 ライトニングトーク
未来館ホール
15:00~15:50 ポスター発表(奇数番号)
コンファレンスルーム金星・火星・水星 + ロビー1
15:50~16:40 ポスター発表(偶数番号)
コンファレンスルーム金星・火星・水星 + ロビー1

目次

※「発表者」のうち代表発表者については、氏名の前に「○」が付きます。

【1】Polymorphic Edge Detection : 効率的なNGS配列からの多型検出法

発表者 ○宮尾安藝雄(農研機構)、清宮健愉(農研機構)、飯田恵子(農研機構)、土井考爾(つくば遺伝子研究所)、安江博(つくば遺伝子研究所)
要旨 我々は、ショートリード配列の多型のエッジ部分を検出するk-mer法と双方向アライン(bidirectional alignment)法を考案した。k-mer法は、2つのサンプルから得られたショートリードをk-merに分割して比較することで、直接多型のエッジの検出ができる。k-mer法では主にSNPの検出が可能である。また、双方向アライン法では、各ショートリード配列の5'末端および3'末端より双方向にリファレンス配列にアラインして多型のエッジを検出し、SNP以外に、挿入、欠失、逆位、および、転座の検出が可能である。イルミナが解析・公開しているプラチナゲノムのヒト多型情報には含まれない大きな欠失変異等も検出することができた。双方向アライン法は、bwaとGATKを用いた検出法に比べて、2.5倍以上高速で、また、ヒトの5倍のゲノムサイズを持つ小麦の解析も可能である。k-mer法は、リファレンス配列がまだ決定されていない生物でも、ショートリード配列の直接比較により多型が検出できるので、遺伝解析用のマーカーへの利用以外にも、進化、分類や、メタゲノムの比較解析への応用ができると考えている。
参考文献 BMC Bioinformatics. 2019 20(1):362. https://doi.org/10.1186/s12859-019-2955-6

【2】公共塩基配列データベース検索ツールとそれを活用した解析事例

発表者

大田達郎(DBCLS)、仲里猛留(DBCLS)、○坊農秀雅(DBCLS)

要旨

DBCLSでは、大量に蓄積してきた次世代シークエンサーの塩基配列データを検索できる手段の開発を行ってきた[1][2]。それはDBCLS SRA(http://sra.dbcls.jp/)として実装され、実験条件のデータ(メタデータ)に対してキーワード検索が可能となっており、DDBJの検索エンジンとしても利用されている。
また、遺伝子発現DB目次AOE (All of gene expression; https://aoe.dbcls.jp/)では、DBCLS SRAのAPIを利用することで、複数の公共遺伝子発現DBが統合的に検索可能となっている[3]。さらに、これらの検索ツールをフル活用したデータ解析研究にも取り組んでおり、低酸素刺激による遺伝子発現変動のメタ解析を活用解析事例として報告する[4]

参考文献 [1] Nakazato T et al. doi: 10.1371/journal.pone.0077910
[2] Ohta T et al. doi: 10.1093/gigascience/gix029
[3] Bono H et al. doi: 10.1101/626754
[4] Bono H et al. doi: 10.1101/267310

【3】公共遺伝子発現データを活用するためのウェブツール: RefExとAOE

発表者 ○小野浩雅(DBCLS)、池田秀也(DBCLS)、坊農秀雅(DBCLS)
要旨

RefEx(Reference Expression dataset;https://refex.dbcls.jp/)は、ヒト、マウスおよびラットを対象に、4つの異なる実験手法(EST、GeneChip、CAGE、RNA-seq)によって得られた種々の正常組織におけるリファレンスデータセットである。遺伝子発現量を並列に表現することで、手法間の比較とともに各遺伝子の発現量を直感的に比較することが可能である。
AOE(All Of gene Expression;https://aoe.dbcls.jp/)は、 EBI ArrayExpress + NCBI Gene Expression Omnibus (GEO)+ DDBJ Genomic Expression Archive(GEA)に収蔵されている遺伝子発現データを実験手法や生物種などで分類・整理した「目次」 である。生物種ごとや手法ごとのデータ登録数の推移は種々のグラフによって可視化されており、直感的にデータを選択、項目を選択してリスト表示することが可能である。
本発表では、これらのツールを紹介するとともに、公開データと個別研究を結びつけるための機能開発や、RefExとAOEの将来的な統合構想について議論したい。

【4】エンリッチメント解析によるNGSデータの疾患や臓器からの生物学的解釈

発表者 ○仲里猛留(DBCLS)、坊農秀雅(DBCLS)
要旨 ライフサイエンス統合データベースセンター(DBCLS)では、NGSデータ解析の「入り口」として検索エンジンDDBJ Search(DBCLS SRA)や、AOE、RefExを提供している。一方、「出口」としては結果の生物学的な解釈が必要不可欠である。一般的には得られた興味ある遺伝子セットに対してGene Ontology(GO)の用語やパスウェイの対応付けが行われる。我々はこれまで、GOのような細胞レベルの生命現象だけでなく、疾患や臓器のようなより個体レベルでの生命現象でも解釈が行えるようGendooシステムを開発してきた。当該遺伝子の関連文献を網羅的に収集し、付与されたMeSHのキーワードを抽出してスコアリングすることで遺伝子の特徴づけを行っている。今回は本システムを拡張し、個々の遺伝子に対する機能アノテーションから遺伝子セットに対してエンリッチメント解析を行えるよう改良を行った。このことによりNGSデータの結果について細胞レベルから個体レベルまで幅広い生物学的な解釈が行えるようになった。

【5】ChIP-Atlas: 公共ChIP-seqデータをフル活用できる

発表者 ○沖真弥(九州大)、大田達郎(DBCLS)
要旨 ChIP-seqは転写因子や修飾ヒストンの分布をゲノムワイドに理解するための実験手法であり、これまでに約10万件以上の実験データがNCBI SRAに登録されている。しかし、その公共データを解釈するためには複雑なコマンド処理と大規模な計算資源が必要なため、その多くのデータが利活用されずに死蔵されているのが現状である。
そこで我々はその公共ChIP-seqデータを網羅的に収集、計算、統合し、その解析結果をウェブサービスとして公開している(ChIP-Atlas; https://chip-atlas.org)。これにより、興味のゲノム領域にどの転写因子が結合するかが視覚的に理解できる。また、興味の転写因子とゲノム上で共局在する因子や、その標的遺伝子を予測することも可能である。さらに複数の遺伝子名を入力すると、それら遺伝子座周辺に共通して結合する転写因子を特定できるため、所与の遺伝子群をまとめて制御する上流因子の予測に利用できる。

【6】LOD Surfer API ver.2: クラス間関係に基づく連合検索を利用したLOD探索のためのウェブAPI

発表者 ○山口敦子(DBCLS)、小林紀郎(理研)、山本泰智(DBCLS)、桝屋啓志(理研)、古崎晃司(大阪電気通信大)
要旨 これまで発表者らは、連合検索を利用して、LOD上の情報をクラス間関係で切り取るシステム LOD Surfer の実現へ向けた開発と研究をすすめてきた。まず、LOD Surfer上で必要となる機能を検討し、それらの機能をLOD Surfer APIとよぶウェブAPIとしてプロトタイプ実装した。さらに、タンパク質アラインメントビューアという、ドメインを絞った具体的なアプリケーション上で利用することにより、実用上の課題の洗い出しを行った。本発表では、実用上の課題の洗い出しによって必要となった機能のうち、特にクラス間のパス選択に関するものに着目し、 LOD Surfer API に追加実装した LOD Surfer API ver.2 について紹介する。このウェブAPIを基盤として、LOD上に分散するデータの統合利用を可能とするために、必要となる技術を議論しつつ、今後の展望について述べる。

【7】オーソログ情報の統合化と利活用

発表者 千葉啓和(DBCLS)
要旨 オーソログは、祖先遺伝子から種分化によって分岐した遺伝子群で、生物進化過程の解明、および生物種間比較に基づく機能解析において重要な役割を果たす。これまで世界中で様々なオーソログ検出手法の開発、およびデータベースの整備が行われてきた。しかしながら、それらがターゲットする生物は様々で、検出手法にもそれぞれ特徴があるため、一般に得られる結果も異なる。これらのオーソログ情報を統合化し、効果的に利用するためのリソースとして、TogoOrthologyの整備を進めている。データベース間で共通する部分に関してデータモデルを統一化することによって、比較や統合的な検索が可能となる。そのために我々はセマンティックウェブ技術を活用し、データモデルとしてはOrthologyオントロジーを開発して利用している。このように共通のオントロジーを使ってRDFを整備することによって、SPARQLを利用した統合的検索が可能となる。またオーソログ情報は、異なる生物種間で比較を可能にするほか、系統プロファイルなどを通して、機能解析に応用することが可能である。

【8】迅速なアノテーションの実現に向けて

発表者 ○山本泰智(DBCLS)、藤澤貴智(遺伝研)
要旨 DBCLSとDDBJでは、INSDCへ配列データを登録する際に必要となる、各転写領域の生物学的機能などを記述するアノテーションを審査する作業の効率化を目指した作業を進めています。具体的には、これから登録しようとするアノテーションデータを機械的に読み込み、既に用意してある辞書をもとに、書き換えが必要な場合は適宜それを提示するウェブアプリ、TogoAnnotatorを開発しています。これまでの課題として、一度にたくさんのアノテーションデータを処理する能力に問題がありました。そこで、辞書の検索機能を大幅に刷新し、数千以上のゲノムスケールの大量のアノテーションデータであってもストレスなく処理することを可能にしました。ポスターではこれまでの開発経緯と、現状、そして今後の課題を議論します。

【9】DDBJサービス

発表者 DDBJ データベース部門(遺伝研)
要旨 NCBIおよびEBIと国際塩基配列データベース(INSDC)を協同運営するDDBJは、遺伝研スーパーコンピュータを基盤として生命科学研究から産み出されるデータの登録・共有・解析サービスを提供している。今年3月には遺伝研スパコンを一新し、ゲノム解析環境を強化したSingularityコンテナ、個人ゲノム解析に対応した区画、データサイズの増加に対応する階層ストレージを導入した。DDBJが運営するサービスには、アノテーションを付与/アセンブルした塩基配列データ:NSSSとMSS、次世代シークエンスデータ:DRA、機能ゲノミクスデータ:GEA、アクセス制限のある個人ゲノムデータ:JGA、研究プロジェクト・サンプルのデータ:BioProject・BioSampleがある。国際的にはGenomic Standards
Consortium(GSC)のメンバーとして様々なタイプのゲノムの記述に関するガイドライン制定にも貢献している。今後はメタボローム情報にも対応予定であり、スパコンに併設された一次データリポジトリとして国内外のデータサイエンス推進に貢献している。

【10】日本人ヒトゲノムを中心としたバリアントデータベース「TogoVar」

発表者 ○豊岡理人(NBDC)、三橋信孝(NBDC)、川嶋実苗(NBDC)、建石由佳(NBDC)、藤原豊史(DBCLS)、片山俊明(DBCLS)、川島秀一(DBCLS)
要旨 バリアントの多様性はヒトゲノムと形質との関連を調査するゲノム研究において重要な基礎的情報である。しかし、バリアントの頻度情報はプロジェクトのウェブサイト毎に散在しており、日本人集団における頻度情報の一括取得が可能なウェブサイトがなかった。昨年より ①国内外データベースで公開されているヒトゲノムのバリアント情報統合、②日本人集団に存在するバリアントに統一的なID付与による情報結合の利便性向上、③頻度、アノテーション情報および関連既報論文情報の一括取得の3点を目的としてRDF技術を用いたサービス「TogoVar」を開発、運営している。このサービスでは頻度データベースとしてToMMoのjMorpおよび京都大学のHGVD、ExACから公開されているバリアント情報とその頻度情報を収集している。さらに、NBDCが運営している「NBDCヒトデータベース」に登録・公開されているデータを集約してバリアントを検出し、頻度の再計算を行った。また、バリアントと疾患との関連を収集したClinVarの情報も収載している。ポスター発表では、このサービスのデータおよび機能の更新の紹介を行う予定である。

【11】生命科学系データベースアーカイブのインフラ・バックアップ体制の強化

発表者 ○八塚茂(NBDC)、栗原英輔(日立製作所)、加藤健弘(日立製作所)、井上圭介(日立社会情報サービス)、畠中秀樹(NBDC、DBCLS)
要旨

生命科学系データベースアーカイブ(http://dbarchive.biosciencedbc.jp/)は、国内で産生された生命科学のデータをダウンロード可能な形で長期間維持するサービスであり、145 件を超えるデータベースが登録されている。本アーカイブの特長は以下の通りである。

全てのデータベース/データに対して
 ・DOIを含む詳細なメタデータを付与
 ・複数のレベルでのデータダウンロードが可能
 ・基本的な検索が可能
 ・利用許諾を明示

本アーカイブは長らくストレージ容量の制約により、データベースの中でもリポジトリのような大規模データベースの受け入れは困難であった。しかし、最大格納容量約500TBのプライマリストレージおよび予備のストレージを導入することにより、こうした大規模データベースの受け入れも可能になった。今後は、NBDC統合化推進プログラムの対象となっている大規模データベースとも連携を行い、統合データベースプロジェクト全体の効率化をはかる予定である。
また、データの長期保管に対する信頼性向上施策の一環として、災害等の非常時に備えてデータの遠隔地バックアップの運用を開始した。

【12】PubCaseFinder:稀少・遺伝性疾患検索プラットフォームの構築

発表者 ○藤原豊史(DBCLS)、山本泰智(DBCLS)、金進東(DBCLS)、山口敦子(DBCLS)、申在紋(DBCLS)、宮冬樹(東京医科歯科大)、武藤勇(ビッツ)、山本利也(ビッツ)、浅野由衣(ペンク)、高木利久(富山国際大)
要旨 我々が開発する稀少・遺伝性疾患検索プラットフォーム「PubCaseFinder」は、患者の症状を入力として(日本語・英語に対応)、約7000件の遺伝性疾患、約4000件の稀少疾患、約30万件の症例報告を、患者と関連性の高い順にランキングとして提示するため、鑑別診断に活用できる。また、エクソーム解析などのゲノム解析で検出された多数のバリアントから、対象疾患の原因変異のバリアントを絞り込む場合にも、患者の症状を利用して行うことができる。本発表では、論文発表済みの17検体を用いて、既存ツールPhenIXとバリアント絞り込み機能の精度を比較したので報告する。昨年以降のアップデートとしては、PubCaseFinderに組み込まれている症状検索ツールPhenoTouchの改良を行った。PubCaseFinderが入力として利用するHuman Phenotype Ontology(HPO)は、約13,000件の用語を含み、その中から適切な用語を探すのは困難な場合が多い。PhenoTouchは効率よく目的のHPO用語を検索することができる。また、PubCaseFinderのRDF化を行い、SPARQLを用いた情報取得が可能になったので、その利用例を紹介する。

【13】難病・希少疾患の疾患オントロジー

発表者 平田誠(NIBIOHN)、坂手龍一(NIBIOHN) 、深川明子(NIBIOHN)、木村友則(NIBIOHN)
要旨 難病・希少疾患の多くは患者数が少ないため、診断基準の作成や疾患の定義が難しいことが多い。その結果、疾患名について、国内外のデータベース(DB)間で表記の違いが見られる。難病・希少疾患の創薬や病態解明における情報の活用には、疾患名が基本情報として重要である。そこで、本研究では指定難病(2019年7月時点の333疾患)を対象として、DB間での疾患名の対応付けを試みた。指定難病の日本語名・英語名はDDrare(https://ddrare.nibiohn.go.jp)等をクエリーとして、小児慢性特定疾病情報センター(小慢)、Orphanet、GARD、MalaCards(同義語を含む)をサーチした。その結果、完全一致相当で疾患名の対応付けが可能だった疾患数は、小慢:243、Orphanet:260、GARD:256、MalaCards:155であった。これに加えて、部分一致でヒットする疾患名が相当数あり、その多くは語句が付加されているケース(派生名)であった。疾患名については、別名、派生名、省略形を含む階層構造を持つ情報体系としての整理、そして疾患定義の医学的な見地でのアノテーションが、より重要になってくると考えられる。

【14】DDrare 「難病創薬と標的遺伝子・パスウェイのデータベース」

発表者

○坂手龍一(NIBIOHN)、深川明子(NIBIOHN)、水口賢司(NIBIOHN)、鍵井英之(製薬協)、佐々木隆之(製薬協)、森田正実(製薬協)、木村友則(NIBIOHN)

要旨

DDrare(ディーディーレア;Database of Drug Development for Rare Diseases;難病・希少疾患創薬データベース)[1]は、厚生労働省の指定難病を対象として、臨床試験における開発薬物と、それらの標的遺伝子・パスウェイ情報を提供している。2019年4月の指定難病の追加・更新(306疾患から331疾患へ)に合わせて、臨床試験情報(日米欧中)、薬物情報(DrugBank)、標的遺伝子・パスウェイ情報を追加・更新した。2019年7月時点で、207疾患について、11,765件の臨床試験、1,303薬物、423遺伝子、154パスウェイの情報を紐付けた。DDrareは医薬基盤・健康・栄養研究所と医薬産業政策研究所との共同研究にて[2][3]、創薬標的選定や発症機序解明に資することを目的に開発されている。

参考文献 [1] DDrare;https://ddrare.nibiohn.go.jp
[2] 「指定難病のデータベース"DDrare"の紹介」政策研ニュースNo.54 2018.7
[3] 「指定難病における臨床試験の動向 ー薬物併用療法を中心にー」同No.57 2019.7

【15】薬物動態データベースDruMAPのRDF化

発表者 ○樋口千洋(NIBIOHN)、長尾知生子(NIBIOHN)、川島和(NIBIOHN)、渡邉怜子(NIBIOHN)、江崎 剛史(NIBIOHN)、深川明子(NIBIOHN)、櫛田達矢(NBDC)、水口賢司(NIBIOHN)
要旨 我々は化学構造から計算された記述子とキュレートした公共データや我々独自に統一した条件で取得した実験データをもとに、機械学習の手法により、溶解度、代謝安定性、血漿タンパク質非結合率などの各種物性および薬物動態パラメータを高性能で予測できるシステムDruMAPを開発している。DruMAPはhttps://drumap.nibiohn.go.jp/で公開しており、本年度末に最終版のリリースを予定している。本データベースの収載内容をRDF化することによって、NBDC RDF portalで提供される様々な生命情報データと統合し、より高度な解析が可能となることが期待できる。2020年春以降に公開すべく現在作業を進めている。

【16】肝毒性インフォマティクスシステムの構築(AMEDプロジェクト)

発表者 ○山田弘(NIBIOHN)、五十嵐芳暢(NIBIOHN)、中津則之(NIBIOHN)、山縣友紀(NIBIOHN)、秋丸裕司(NIBIOHN)、秋丸恵理佳(NIBIOHN)、堀本勝久(産総研)、福井一彦(産総研)、江良択実(熊本大)、沼川忠広(熊本大)、松本志郎(熊本大)、植沢芳広(明治薬科大)、永井純子(明治薬科大)、野口保(明治薬科大)
要旨

アカデミア創薬の支援を目的とした「創薬支援インフォマティクスシステム構築」プロジェクトが、2015年度から5ヵ年計画で日本医療研究開発機構(AMED)の創薬支援推進事業として進行中である。当該事業の1課題として肝毒性インフォマティクスシステムの構築研究が行われており、当研究班(以下、肝毒性研究班)には、医薬基盤・健康・栄養研究所、産業技術総合研究所、熊本大学及び明治薬科大学の4拠点が参画し、肝毒性に係る3種のデータベース(DILI-cSEARCH、TOXPILOT、toxBridge)及び4種の毒性予測システム(DILI-PANEL、toxRANK、LIVER/MIE-QSAR、LUNG/MIE-QSAR)の開発が進んでいる。開発したデータベース及び予測システムは、肝毒性研究班のポータルサイト(DILI-TOOLBOX;https://dili-toolbox.nibiohn.go.jp/)より順次公開を開始している。本発表では、肝毒性研究班で構築したデータベース及び予測システムの概要について紹介する。

謝辞:本研究はAMED の課題番号19nk0101103h0005の支援を受けた。

【17】肝毒性機序解釈支援を目指した毒性プロセスオントロジー開発とその応用

発表者 ○山縣友紀(NIBIOHN)、五十嵐芳暢(NIBIOHN)、中津則之(NIBIOHN)、堀本勝久(産総研)、福井一彦(産総研)、植沢芳広(明治薬科大)、山田弘(NIBIOHN)
要旨 創薬において薬剤性肝障害は開発中止の主な要因となっているが、肝毒性作用機序(メカニズム)は複雑とされている。機序を明らかにするためには、薬理学、分子生物学、細胞生物学、あるいは病理学というように複数領域の学問を必要とする。しかし、これまで異領域間では知識共有が乏しく、領域毎に知識が孤立してきた。そこで本研究では、肝毒性機序に関わる種々の概念について一貫した概念の体系化を目的として、毒性プロセスオントロジー(TXPO)の構築を行っている。さらに、その応用として機序解釈支援知識システム(TOXPILOT)の開発もすすめている (https://toxpilot.nibiohn.go.jp)。TOXPILOTはTXPOをRDF化し、ユーザーの目的に合わせて毒性作用機序の解釈に必要な情報を提供することを目的としたウェブアプリケーションシステムである。本システムは一般的なレベルから各専門領域の深いレベルまで知識を柔軟に提供するとともに、領域横断的に安全性評価に関わる多種多様な知識を統合する基盤システムとなることが期待される。

【18】DILI-cSEARCH: 薬剤安全性のための肝毒性データベース

発表者 ○五十嵐芳暢(NIBIOHN)、中津則之(NIBIOHN)、山縣友紀(NIBIOHN)、秋丸裕司(NIBIOHN)、秋丸恵理佳(NIBIOHN)、松本志郎(熊本大)、沼川忠広(熊本大)、江良択実(熊本大)、山田弘(NIBIOHN)
要旨

薬剤が引き起こす毒性のうち肝臓で生じる肝毒性は、医薬品の開発中止や販売後の市場撤退の主な要因の1つである。このため創薬早期の段階において、動物実験よりも迅速で簡便なin vitroやin silicoの手法を用いて肝毒性を引き起こす可能性のある化合物を評価できる新しい方法に期待が寄せられている。本研究では、AMEDの「創薬支援インフォマティクスシステム構築」の一翼を担う「肝毒性予測のためのインフォマティクスシステム構築に関する研究」において、情報基盤となる肝毒性データベースを構築した。我々は散在していた4つデータベース(FDA/LTKB、NIH/LINCS、NTP/DrugMatrix、NIBIOHN/OpenTG-GATEs)から肝毒性に関わるデータを抽出し統合した。本データベースには医薬品を中心とした800を越える化合物情報とその遺伝子発現情報や生化学および血液学情報が収められている。また複雑なデータ構造に対応した柔軟な検索インターフェースも実装されている。本発表ではこれらの機能およびデータ構造について紹介する。

謝辞:本研究はAMEDの課題番号19nk0101103h0005の支援を受けた。

【19】発現プロファイルを用いた肝毒性in vivo/vitroブリッジと類似性検索:toxBridge and toxRank

発表者 ○福井一彦(産総研)、五十嵐芳暢(NIBIOHN)、山縣友紀(NIBIOHN)、植沢芳広(明治薬科大)、山田弘(NIBIOHN)、堀本勝久(産総研)
要旨 肝毒性は、多くの薬剤に見られる副作用であり、医薬品開発の効率的な開発および医薬品の安全性確保のため、利用可能な肝毒性評価技術の発展が強く望まれている。我々は、AMEDの「創薬支援インフォマティクスシステム構築」プロジェクトに参加し、「肝毒性予測のためのインフォマティクスシステム構築」に関する研究を実施している。本研究では、発現プロファイルに基づくトキシコゲノミクス解析は、薬物安全性評価の改善および強化の有効な方法と考え、医薬品を中心とした約170の化合物によるラットin vivo/vitro及びヒトin vitroの遺伝子発現データを用いて、in vivo - in vitroやin vitroヒト-ラット間のブリッジングに着眼したデータベース(toxBridge)及び発現情報に基づいた肝毒性の類似化合物を検索可能とするwebサーバー(toxRank)の開発を行っている。toxBridgeでは、発現プロファイル情報をブリッジングのための照会データとして、各種相関指標による化合物検索や遺伝子・パスウェイ(肝毒性分子パネル)を表示する機能を有している。またtoxRankでは、薬物による分子刻印を入力として、発現プロファイルを基にした動的ランクマトリクスを用い、データ駆動型の類似性評価や有意パスウェイの可視化を行っている。

【20】日本人疾患ゲノム情報統合データベースMGeNDとキュレーション支援システムの開発

発表者 ○鎌田真由美(京都大)、中津井雅彦(京都大)、小島諒介(京都大)、奥野恭史(京都大)
要旨 ゲノム医療における治療方針決定には、ゲノム配列解析で得られるバリアントに対して、既知の遺伝子構造や分子機能、疾患関連性情報を付与し、患者背景と合わせた臨床的な解釈付け(キュレーション)を行う必要がある。これまでに疾患関連バリアントを集約したデータベースはいくつか開発されているが、そのほとんどが欧米人を中心としたものである。適切なキュレーションには、民族集団における遺伝的背景の違いを考慮する必要がある。そこで我々は、AMED「臨床ゲノム情報統合データベース整備事業」において、日本人集団から得られるゲノム情報と疾患特異性・臨床特性情報を集約した統合データベースMGeND (Medical Genomics Japan Variant Database)を開発している。これまで、「がん」「希少・難治性疾患」「認知症」「感染症」「難聴」を主な対象疾患とし、各疾患症例より得られた一塩基・構造バリアントとHLA領域多型の頻度情報を公開している。本発表では、MGeNDの紹介に加え、膨大な情報の包括的解釈を必要とするキュレーション作業を、AI・NLP技術により支援するためのシステム開発についても紹介する。

【21】MEDALS:データベース再構築に向けた取り組み

発表者 ○雨宮崇之(産総研)、福西快文(産総研)、堀本勝久(産総研)、福井一彦(産総研)
要旨 経済産業省の研究機関である産業技術総合研究所では、省庁間連携として生命科学系データベースの統合に向けたポータルサイトであるMEDALSの運用を行っている。MEDALSでは省庁間連携によるデータベース再構築を目的として、データの統一化のため経済産業省関連プロジェクトにより構築されたデータベースのRDF化を実施している。ここでRDF化されたデータは、NBDCと連携しエンドポイントに保存され、これまでRDF化されたデータセットに対してSPARQL検索を可能とする。またMEDALSでは、便覧や成果等を整理し、カタログや横断検索の連携を行いライフサイエンス分野における研究開発の促進に資するデータベースや解析ツールの情報配信を行っている。加えて情報統合DBサイトなどで公開してきた解析ワークフローに関するサービスをMEDALSにおける連携活動に取り入れ、データベースとツールの連携に取り組んでいる。この解析ではデータベースのRDF化に伴い、開発した高度な解析ツール群を広く利用可能とするために、セマンティック技術に対応したフレームワークを用い、NBDCのエンドポイントと連携可能なオントロジーを利用したインターフェイスの開発を目指している。

【22】生命科学データベース横断検索の内部データ最適化

発表者 ○大波純一(NBDC)、杉崎太一朗(三井情報)、友田史緒里(三井情報)、牧口大旭(三井情報)、川本祥子(DBCLS、遺伝研)、畠中秀樹(NBDC、DBCLS)
要旨 生命科学系データの検索による発見は、研究データの活用やデータベースでの公開が一般的になった現在でも重要なプロセスである。生命科学データベース横断検索では10年以上前からこのような検索基盤を提供し続けている。この一方で内部の検索用データ(インデックス)の構築・保持方法は、様々な体制変更やハードの設計、連携機関との協調状況、検索アルゴリズムの改善に合わせて常に変化を続けてきた。ネットワークを介した分散配置か1か所に集約する方式か、ミラーリングや冗長化、シャーディングはどのように行うか、分かち書きや利用する辞書はどのようにするか、N-gramの解析モデルはどのようにするか、などを検索パフォーマンスや検索結果のランキングモデルの需要に合わせて、調整を続けている。大量で多様な生命科学系データの検索基盤として要求されるインデキシング方法に関するこれまでの経過をまとめ、最適な構成について改めて検討を行った。

【23】NBRPナショナルバイオリソースプロジェクト第4期における検索高度化の取り組み

発表者 ○川本祥子(遺伝研)、木村学(遺伝研)、川島靖史(遺伝研)、坂庭美春(遺伝研)、佐賀正和(遺伝研)、庄司健人(遺伝研)、土屋里枝(遺伝研)、萩原宏紀(遺伝研)、渡辺拓貴(遺伝研)、鈴木栄美子(遺伝研)、木村紀子(遺伝研)、安井香織(遺伝研)
要旨 ナショナルバイオリソースプロジェクト(NBRP)は2002年の開始より、全国のリソースセンター並びに理研バイオリソース研究センター(BRC)の継続的な努力のもと、研究を支えるインフラとして成長してきた。遺伝研NBRP情報センターは、リソースのDB構築を支援するとともに、リソースの分譲を中心とする利用者サービスサイトの構築を担当している。現在、NBRP全体では約650万件のリソースが存在する。データの内訳をリソース別にみると、動物リソースに属するデータ数が最も多く360万件、ついで植物リソースが250万、微生物リソースが40万弱で、全体の9割がcDNA等のDNAリソース、1割が変異体や野生種などの生物種となる。全体の種数は約8,500種で微生物に種類が多い。保有リソースを探索する手段として、表形式による閲覧の他、全リソースの総合検索、個別リソースの詳細検索を提供してきたが、各生物を専門とする研究者以外には利用しづらい面があった。疾患研究への利用や育種への利用など、種をこえた情報提供への取り組みについて報告する。

【24】バイオリソースデータRDF化への取り組み

発表者

○高月照江(DBCLS)、臼田大輝(理研)、川本祥子(遺伝研、DBCLS)、桝屋啓志(理研)、川島秀一(DBCLS)

要旨 ナショナルバイオリソースプロジェクト(NBRP)では、我が国独自の優れたバイオリソース(生物遺伝資源)に関して、所在情報、系統・特性情報、遺伝子情報などをデータベース化し公開することで、研究者が必要とするバイオリソース検索サービスの整備に取り組んできた。ただし、現状では生物種毎に個別のデータベースとして開発されていることから、生物種横断的に検索するようなことはできない。我々は、NBRPのデータベースをRDF化することで、バイオリソース横断的な検索が可能になると考えている。また、RDF化することで既存のRDF化されたデータベースやオントロジーとも統合することができるので、例えばオーソログ遺伝子や表現型類似性などの観点から、高度な統合検索も可能となる。本発表では、その第一段階として、異なるバイオリソース間で共通して記述できる項目を選び、RDF化に利用するための共通モデルを提案する。また、いくつかのバイオリソースに関して本RDFモデルを用いてRDF化したデータについても報告する。最終的には、NBRPが提供する全ての生物種について、共通した語彙およびモデルを用いたバイオリソースRDFを構築し、これまではできなかった高度なデータ検索を提供することを目指している。

【25】バイオRDFデータの民間利用促進のための2つの取り組み

発表者 ○畠中秀樹(DBCLS)、宗像善久(日立製作所)、野口栄紀(日立製作所)、栗原英輔(日立製作所)、大久保克彦(日立製作所)、五斗進(DBCLS)
要旨 我々は、戦略的イノベーション創造プログラム(SIP)「スマートバイオ産業・農業基盤技術」(管理法人:農研機構生研支援センター)において、バイオRDF(Resource Description Framework)データの民間利用を促進するための様々な取り組みを行っている。
まず既存RDFの民間利用促進のためのインタフェース提供の最初のステップとして、酵素反応RDFを中心として複数のRDFを繋いだウェブツールの開発を行っている。反応・化合物・酵素・生物種を、化合物名・酵素名・GO(Gene Ontology)・生物種・EC(Enzyme Commission)番号で絞り込んで、関連情報を表示できるように整備を進めている。これをさらに改善・拡張して、物質生産や育種などの検討に民間でも使われるようにしたいと考えている。
また、企業データの利用促進の目的で、アクセス制御やデータ提供インセンティブ付与が可能な形でRDFデータが利用され得るシステムの検討を進めており、プロトタイプ開発を始めようとしている。

【26】植物ゲノム統合データベースPlant GARDENの開発

発表者 ○原田大士朗(かずさ研)、市原寿子(大阪大)、中谷明弘(大阪大)、ジェルフィアンドレア(かずさ研)、山田学(かずさ研)、小原光代(かずさ研)、平川英樹(かずさ研)、田畑哲之(かずさ研)、磯部祥子(かずさ研)
要旨 近年、シーケンシング技術の発展に伴い、より安価で効率的にゲノム解析がおこなえるようになった。モデル植物以外の種でも日々新たにゲノム解析がおこなわれ、2019年4月時点で380種以上の植物ゲノムが解読されている。今後も新たな植物ゲノム情報が加速的に明らかになると考えられる。また、すでにゲノム解読がなされた植物種でもリシーケンシングがおこなわれ、解析の精度も年々向上している。このように植物ゲノム情報は世界的に拡充してきているが、いまだ課題も多い。多くのゲノム情報は個別のWEBデータベース上で管理されており、植物ゲノムを完全に網羅したポータルページは存在しない。
植物ゲノム情報統合ポータルサイトPlant GARDENは、ゲノム解析がおこなわれているほぼ全ての植物種を網羅し、ゲノムだけでなくトランスクリプトーム、マーカー、変異、形質などの情報も提供する総合ポータルサイトである。2019年3月にβ版を公開し、6月に英語版を公開した。本発表ではデータキュレーションの際に見えてきた課題を紹介するとともに、新たに拡充されたPlant GARDENを紹介する。

【27】種を超えた植物ゲノム情報統合のためのデータリンク基盤の構築

発表者 ○市原寿子(大阪大)、磯部祥子(かずさ研)、平川英樹(かずさ研)、原田大士朗(かずさ研)、Ghelfi Andrea(かずさ研)、小原光代(かずさ研)、山田学(かずさ研)、白澤沙知子(かずさ研)、中村保一(かずさ研)、田村卓郎(筑波大)、杉原英志(筑波大)、田畑哲之(かずさ研)、 中谷明弘(大阪大)
要旨 統合化推進プログラムにおいて2019年3月にβ版を公開開始した植物ゲノム統合ポータルサイトPlant GARDENの中で、各植物ゲノムデータベースの配列データ間を繋ぐ基盤となるデータセットを構築している。配列データの連結は、遺伝子のアミノ酸配列の類似性に基づく配列クラスタリングにより実施している。配列クラスタリングでは、同一遺伝子に由来する転写産物のバリアントが存在する場合、代表配列を選択して実施することが多い。Plant GARDENでは、公開データに可能な限り手を加えない方針を採用しており、代表ではなく全配列を対象とした配列クラスタリングを検証した。その結果、転写産物のバリアントの大部分は同一の配列クラスタに分類されたが、ごく僅かに異なるクラスタに分類されるものも観察された。また、Plant GARDENでは将来的な遺伝子配列の追加・更新作業を見据えた、類似配列データセットの構築方法を模索している。その方法として、植物の分類体系に沿って種、属、科などの各階層に属する生物種を一つの集合体として扱う方法や、配列プロファイルの利用が挙げられる。本発表では、これらの効果について議論する。

【28】MetaboBank - メタボロームリポジトリの設計と構想

発表者 ○有田正規(遺伝研)、金谷重彦(奈良先端科学技術大学院大)、櫻井望(遺伝研)、平川英樹(かずさ研)、福島敦史(理研)
要旨 これまでメタボロームデータの公共リポジトリとして、欧州のMetaboLights、米国の Metabolomics Workbenchが運用されてきた。しかし、いまだメタボロームデータの再解析は困難であり、特に他オミックス分野との橋渡しは未完である。メタボロームデータの適切な解釈には、細胞、組織、生物種を超えて物質が循環する経路を示したマップ、"メタ代謝マップ"の構築が必要だろう。また、世界中の研究者に使いやすいマススペクトルおよびメタボロームデータを提供するには適切なメタデータが必要となる。このため、本プロジェクトでは、恒久的なメタボロームデータ・リポジトリ(MetaboBank)を設計、開発している。現在は初期データとして、かずさDNA研究所および理化学研究所環境資源科学研究センターが保有するデータを、理研植物メタボロームメタデータベース(http://metabobank.riken.jp/)へ登録、公開している。メタデータの整理は、ウェブ国際標準規格に沿ったRDF形式(国際メタボロミクス学会の標準MSIに準拠)でおこなった。本発表では、これらメタデータ登録やメタ代謝マップ整備の進捗状況、全体構想、これまでの経緯について説明する。

【29】深層学習を活用したアルカロイド代謝経路の開始物質予測:データベースをいかにAI活用するか?

発表者 金谷重彦(奈良先端科学技術大学院大)
要旨 オミクスと薬用/食用の知識を統合的に扱ったプラットフォームに従ってデータベースを構築すれば、社会の最重要課題である「健康」「医薬」を課題とした情報を体系的に検討できる。そこで、メタボローム研究を中心に薬用・植物知識ベース(機能性、配合)、さらにヒト生理活性を統合的に扱うデータベースKNApSAcK Family DB(http://kanaya.naist.jp/KNApSAcK_Family/)の構築を進めている。KNApSAcK Core Systemには、生物種と二次代謝物の関係データ情報し、114,238レコードの生物種-二次代謝物の関係、二次代謝物の総数は51,086種となっている。また、白井博士(長浜バイオ大学)が開発した代謝物の三次元グラフマッチングアルゴリズム(COMPRIG)により、Twins DBにおいては二次代謝物間の類似性を検索することが可能になった。現在までに、生物種、二次代謝物にかかわる15種のデータベースの開発を進めている。KNApSAcK DBにおける代謝物と生物種の関係データベースを中心に、現在構築を進めている二次代謝生合成データベースCobWeb、並びに、深層学習の一つであるグラフ・コンボリューション・ネットワークにより化学構造によるアルカロイド生合成経路における開始物質の予測(95%程度の精度)についても紹介する。

【30】内分泌代謝疾患のネットワークバリエーションマップ

発表者 ○田辺麻央(京都大、バイオインフォマティクス・ジャパン)、松浦有里子(バイオインフォマティクス・ジャパン)、金久實(京都大、バイオインフォマティクス・ジャパン
要旨 KEGG NETWORKデータベースは疾患に関連したネットワークバリアント、すなわちヒト遺伝子バリアント、ウイルスその他の病原体、環境因子、医薬品などによるシグナル伝達その他のネットワークのゆらぎを蓄積したデータベースである。今年度からは、個々のネットワークバリアント(N番号エントリ)よりも、複数の関連したネットワークバリアントをアライメント表示したネットワークバリエーションマップ(nt番号エントリ)を主要な単位としてデータベース化を進めている。ここではホルモンが関与する内分泌疾患と様々な先天性代謝異常症について、前者はシグナル伝達系、後者は代謝系を中心としたネットワークバリエーションマップを紹介する。後者で興味深いことは、これまで代謝パスウェイの保存領域として定義してきたKEGGモジュールの各要素がそれぞれバリアントになって、1つの代謝異常症のネットワークバリエーションマップに対応づくことである。これはKEGG DISEASEに蓄積されている疾患遺伝子をKEGG Mapperで解析すると、completeやone-missing modulesが多数得られることからも分かる。

【31】天然変性タンパク質データベース:IDEAL

発表者 ○太田元規(名古屋大)、嘉戸裕美子(名古屋大)、坂本盛宇(ホロニクス)、細田和男(前橋工科大)、山口敦子(DBCLS)、畠中秀樹(DBCLS)、小池亮太郎(名古屋大)、廣明秀一(名古屋大)、福地佐斗志(前橋工科大)
要旨 タンパク質の鎖の中で立体構造を形成しない部分を天然変性領域といい、天然変性領域を有するタンパク質を天然変性タンパク質という。天然変性タンパク質は生体内でシグナル伝達・転写調節といった重要な役割を担っている。我々は天然変性タンパク質データベース:IDEAL(http://www.ideal.force.cs.is.nagoya-u.ac.jp/IDEAL/)を開発、運営している。IDEALでは、実験的に確認された天然変性領域および天然変性領域中の相互作用部位(ProS)の情報を論文から収集している。それに加え、天然変性領域のリン酸化を契機とする生物学的イベントの記述、液-液相分離に関連する天然変性タンパク質のアノテーションにも取り組んでいる。IDEALには2019年7月現在、995配列、11643天然変性領域、608Prosが収録されており、天然変性タンパク質のデータベースとして世界最大の規模を誇っている。全データはXML、RDF形式でも公開している。

【32】蛋白質構造データバンク(PDBj)の高度化と統合的運用

発表者 ○工藤高裕(大阪大)、Gert-Jan Bekker(大阪大)、山下鈴子(大阪大)、鈴木博文(早稲田大)、横地政志(大阪大)、由良敬(早稲田大)、栗栖源嗣(大阪大)
要旨 タンパク質、核酸、糖鎖などの生体高分子の立体構造情報は Protein Data Bank(PDB)として集積され、2019 年 3 月には 15 万件を超える構造データを公開している。PDBj は、国際的組織である wwPDB の一員として、共通した品質管理によるデータ登録作業とダウンロード・サイトの運営および独自のサービス・ツールや二次 DB の提供、セマンティック化を実施している。また構造データの検証レポートについてもXML/RDF化し、PDBのメタデータだけではなく検証レポートの評価指標についても検索しやすくしている。本発表ではそれらを紹介する。

【33】PDB検証レポートの高度化とNMR統合ファイル検証機能の開発

発表者 ○岩田武史(大阪大)、横地政志(大阪大)、見学有美子(大阪大)、張羽澄(大阪大)、池川恭代(大阪大)、佐藤純子(大阪大)、金宙妍(大阪大)、中川敦史(大阪大)、宮ノ入洋平(大阪大)、児嶋長次郎(横浜国大)、藤原敏道(大阪大)、栗栖源嗣(大阪大)
要旨 PDBでは決定された生体高分子の立体構造の品質を評価する文書として、データの検証レポートを登録時に発行している。さらなる構造品質の向上のため、X線回折、核磁気共鳴、電子顕微鏡の各構造決定法分野の専門委員会(Validation Task Force)の提言を基に高度化した検証レポートを開発し、PDBデータベースの登録・アノテーション・検証を行うパイプライン・システム(OneDep)において提供を開始した。また、NMR実験データベース(BioMagResBank)を運営するPDBj-BMRBグループは、米ウィスコンシン大学との国際協力の下、NMR実験データベースの収集、登録、データ管理、評価と公開を行っている。2019年7月時点で13,000件を超えるNMR実験データに加え、SPARQLエンドポイントを公開し、生体系NMRコミュニティーに貢献してきた。NMRデータである化学シフト、距離制限情報およびピークリストを用いてPDB検証レポートの生成をおこなう。このデータから構成されるNEF/NMR-STAR V3.2のNMR統合ファイルの検証機能を開発しOneDepへの実装を行った。本発表ではこれらについての紹介を行う。

【34】タンパク質構造データベースから分子構造を仮想空間で可視化する技術の開発

発表者 ○増田恵(神奈川工科大)、井上哲理(神奈川工科大)、上平員丈(神奈川工科大)、棚橋航(フィアラックス)、小池あゆみ(神奈川工科大)
要旨 タンパク質分子の立体構造を解析し、作用機構を解明することは、現在のバイオサイエンス研究では基本的で重要なテーマとなっており、疾病に関わるタンパク質の構造情報をもとに薬を設計する創薬戦略は、新しい研究基盤技術として期待されている。これまでは、Protein Data Bank(PDB)に登録されている三次元構造データを3DCG(三次元コンピュータ・グラフィックス)でパソコン画面に表示し、構造情報を得ることが主流である。しかし、タンパク質分子が膨大な数の原子から構成されていることから、CGモデルの表示が複雑なものになり、分子全体の大まかな形を観ることはできるが、分子内部の細部構造を理解するには熟練を要する。今回我々は、高性能HMD(ヘッドマウントディスプレイ)を用いて、PDBデータをライフサイズ(人間サイズ)の仮想空間で表示するソフトウェアを開発した。高性能HMDを用いた仮想空間で標的分子の設計を直感的に行うことができるシステムは、タンパク質分子の三次元構造や構造変化の理解を向上させ、分子設計を容易にするためのデータベース情報の新しい可視化技術として期待できる。

【35】jPOST統合環境の機能深化と連携基盤強化

発表者 ○守屋勇樹(DBCLS)、河野信(DBCLS、富山国際大)、奥田修二郎(新潟大)、渡辺由(新潟大)、松本雅記(九州大)、高見知代(九州大)、小林大樹(熊本大)、山ノ内祥訓(熊本大)、荒木令江(熊本大)、吉沢明康(京都大)、田畑剛(京都大)、岩崎未央(京都大)、杉山直幸(京都大)、田中聡(Trans-IT)、五斗進(DBCLS)、石濱泰(京都大)
要旨 jPOSTプロジェクト(https://jpostdb.org/)では質量分析に基づいたプロテオームデータの集積、及び解析の標準化を目指し、これまでに(1)世界標準であるProteomeXchangeに即したリポジトリの開発(2)精度の高いペプチド同定のためのjPOSTスコア開発を含む、統一した再解析プロトコルの策定(3)得られた質の高い解析結果を収録、可視化するためのデータベース の開発を行ってきた。一方近年では、メタプロテオミクスやプロテオゲノミクス、グライコプロテオミクスなど、より多様なプロテオームデータが蓄積されており、現在これに対応すべくjPOSTの機能深化を目的とした開発を進めている。リポジトリではより多様なLC/MSデータや電気泳動データ、抗体データに対応した他、再解析プロトコル・データベースではプロテオゲノミクスデータ解析の標準化と可視化を目的とした開発を行っている。また、GlyCosmos、ChIP-Atlasといった他の統合化推進プロジェクトとの積極的なシステム連携・機能連携も進めており、ポスターではこれについても報告する。

【36】GlyCosmos Data Resources

発表者 ○山田一作(野口研究所)、塩田正明(創価大)、藤田晶大(創価大)、土屋伸一郎(創価大)、小野多美子(創価大)、細田正恵(創価大)、クオカ・ズカ(創価大)、李宣明(創価大)、藤田典昭(産総研)、鈴木芳典(産総研)、安形清彦(産総研)、梶裕之(産総研)、木下聖子(創価大)
要旨 我々は糖鎖科学データへのゲートウェイとして糖鎖科学ポータルGlyCosmos(https://glycosmos.org)を開発している。GlyCosmosは糖鎖に関するデータリポジトリとデータリソースによって構成されている。データリソースは、データのタイプ別に整理されている。糖鎖に関連する遺伝子、蛋白質、脂質、複合糖質、グライコーム、パスウェイ、疾患のタイプがある。GlyCosmosデータベースには、Glycans, Pathways, Glycoproteins, Lectin, Glycolipids, Total Glycome, GlycomeAtlas, LM-GlycomeAtlasがあり、様々な種類のデータを収録している。また、GlycoEpitope, GlycoNAVI, ACGG-DB (GGDB, GDGDB, GlycoProtDB, LfDB, PACDB)の各データベースとも連携し、糖鎖領域のデータ統合を進めている。さらにGlyCosmosは、国際的糖鎖データ統合化のためGlySpace Allianceを海外のGlyGen, Glycomics@ExPASyとともに結成、さらに蛋白質や脂質分野のデータベースとの連携も推進している。

【37】GlyCosmos Repositories

発表者 ○木下聖子(創価大)、青木ポール信行(SparqLite LLC)、新町大輔(SparqLite LLC)、奥田修二郎(新潟大)、渡辺由(新潟大)、土屋伸一郎(創価大)、藤田晶大(創価大)、塩田正明(創価大)、山田一作(野口研究所)
要旨 糖鎖科学ポータルGlyCosmosは、糖鎖科学データリソース用のウェブポータルである。GlyCosmosでは、GlyTouCan、GlyComb、GlycoPOSTという3つのリポジトリを開発している。糖鎖構造の基盤となる国際糖鎖構造リポジトリGlyTouCanは糖鎖科学用に開発された最初のリポジトリ(Tiemeyer et al. 2017)であり、ユーザーが糖鎖構造データにアクセッション番号を付与するために、糖鎖構造データを登録することができる。また、糖鎖関連の質量分析データのためのリポジトリシステムGlycoPOSTを開発している。GlycoPOSTは、MIRAGEガイドライン(https://www.beilstein-institut.de/en/projects/mirage)に準拠したメタ情報、質量分析実験のピークリストや生データを「プロジェクト」として登録できる。また、複合糖質である糖蛋白質や糖脂質にアクセッション番号を付与するための複合糖質リポジトリGlyCombを開発している。このような糖鎖関連のリポジトリを整備することにより、糖鎖データの統合化を推進している。

【38】DBKERO; ヒト統合オーミクスデータベースUpdate:シングルセル解析と長鎖DNA解読でのデータ拡張

発表者 鈴木穣(東京大)
要旨 DBKERO(Database of Kashiwa Encyclopediafor human genome mutations in Regulatory
regions and their Omics contexts)はヒトゲノム中に見出された多型、変異における生物学的意義を検証するために、周辺領域の多層オーミクスデータを集積したデータベースである。今年度、我々は、日本人ゲノムについてゲノム多型/変異のデータを拡充した。これは様々な国内GWAS研究により収集されたものである。さらに本データベースでは、最新のゲノム解析技術を用いたデータを公開している。特に、Chromiumを用いたシングルセル解析データセット、PromethIONを用いた長鎖DNA解析データセットを大幅に拡充した。最も解析の進むがんゲノム解析を中心にデータは統合されている。本データベースは、http://kero.hgc.jp/から無償で全データを取得可能である。
参考文献 Suzuki A et al. DBTSS/DBKERO for integrated analysis of transcriptional regulation NAR DB issue 2018

【39】jMorp: 日本人多層オミックス参照パネル

発表者 ○田高周(東北大)、三枝大輔(東北大)、元池育子(東北大)、井上仁(東北大)、青木裕一(東北大)、小島要(東北大)、高山順(東北大)、岡村容伸(東北大)、小柴生造(東北大)、田宮元(東北大)、山本雅之(東北大)、木下賢吾
要旨 東北メディカル・メガバンク機構(ToMMo)では東北メディカル・メガバンク事業におけるコホート調査に参加いただいた方のゲノム・オミックスデータを解析し、その一部を頻度情報としてjMorp(Japanese Multi Omics Reference Panel;https://jmorp.megabank.tohoku.ac.jp)にて公開している。2019年7月時点では、ゲノムデータとして、日本人3人のde novoアセンブルによって得られた日本人基準ゲノム配列 JG1 と、日本人3,552人の全ゲノム解析結果から構成されるアレル・ジェノタイプ頻度パネル 3.5KJPNv2を格納している。また、オミックスデータとして、ハイスループットのNMRと高感度のMSを駆使し、合計500以上の代謝物の濃度分布を収録している。jMorp はこのようなゲノム・オミックスデータを整理・統合しユーザフレンドリーなWebインターフェースから提供する。このような情報は疾患バイオマーカーの探索や、疾患予防や早期診断を行う際に有用な情報源になり得る。今後、解析サンプル数の増加や同定物質の種類を増加することでパネルの精度向上を目指す。また、ゲノム・オミックスの関連解析の例を増やしていくことでデータベースコンテンツの拡充を図る。

【40】1細胞解析に有効なヒト細胞情報データベース "SHOGoiN"

発表者 ○山根順子(京都大)、陳影(京都大)、Yulia Panina(京都大)、荻野利昭(京都大)、澤田晋(京都大)、小林健太(京都大)、湯地みどり(京都大)、Naila Shinwari(京都大)、藤渕航(京都大)
要旨 近年、細胞の1細胞解析が進み、多角的に細胞の特性を調べる時代に突入した。我々が構築しているヒト細胞情報データベースSHOGoiNでは、1細胞解析の情報を多数格納しており、様々な情報を横断的に検索・獲得することが可能となっている。具体的には1細胞トランスクリプトーム6,614件、1細胞メチローム140件、細胞転換情報850件、細胞種マーカー情報2,524件、画像データ1,798件である(2019年7月30日現在)。SHOGoiNでは独自の細胞分類法に基づいた細胞種の分類を行い、現在の細胞分類法ではより精密な3,613種の分類が可能である。また、研究者が作成した細胞が既存のどのような細胞に遺伝子発現が類似しているか、相違パスウェイは何かを解析できるCELLBLASTやGSEABoTツールの提供も行なっている。更に、Human Cell Atlasプロジェクトから提示される大量の1細胞遺伝子発現データの解析を可能とするため、CellRangerやSTARをデータ搭載パイプラインに組み込んだ。今後の細胞アノテーションの自動化にはSHOGoiNに集積された細胞情報が必要となることが明白で、更に有効な細胞情報データベースとなることが想定される。

【41】SSBD: 細胞・発生画像情報と生命動態情報の統合データベース

発表者 ○糸賀裕弥(理研)、ホー ケネス(理研)、京田耕司(理研)、遠里由佳子(理研、立命館大)、大浪修一(理研)
要旨 SSBD(Systems Science of Biological Dynamics database)は、ライブセルイメージングにより得られる生命現象に対する画像データと、画像処理等により得られる生命動態の時空間定量データを共有するデータベースである(Tohsato et al., 2016; http://ssbd.qbic.riken.jp/)。現在、多種多様な生命現象に対する1,086セットの画像データ、586セットの定量データを公開している。画像データは撮影時のオリジナルフォーマット、定量データは我々が開発した生命動態定量データ用の統合フォーマットBDML/BD5(Kyoda et al., 2015)で提供しており、Web APIによる画像・定量データへのアクセスも可能となっている。本データベースは細胞・発生生物学分野のデータの統合を目指し、日本細胞生物学会、日本発生生物学会、ABiS、英国OMEプロジェクト、更には世界の先端イメージング技術基盤の連携プロジェクトであるGlobal BioImagingとの連携を行っている。また、画像データや定量データから統計解析等によって得られた解析結果を共有するシステムの開発を行っている。

【42】CRISPR免疫記憶を使ったメタゲノムからのファージゲノム検出

発表者 ○杉本竜太(遺伝研)、Nguyen Thanh Phuong(遺伝研、総合研究大学院大)、西村瑠佳(遺伝研、総合研究大学院大)、井ノ上逸郎(遺伝研)
要旨 ウィルスは地球上で最もありふれた遺伝物質を持つ有機体である。約10^31個のウィルスが地球上に存在するとされる。全てのウィルスは特定の細胞に感染し、その細胞の複製と代謝機構を流用することで増殖する。ウィルスと細胞の間では遺伝子の水平伝播と進化的軍拡競争が起こり、これらは進化の重要な要因となった。ウィルスゲノムを解析することで、ウィルスのみならず、細胞性生命の進化についての理解も得られると我々は考える。しかしながら、既知のウィルスゲノムは特定のモデル生物やヒトに感染するものに限られる。メタゲノムからウィルスゲノムを検出するために、我々はCRISPRにコードされる免疫記憶を利用する。メタゲノムシーケンスからCRISPRのスペーサー配列を取り出し、それに一致するコンティングを網羅的に検出する。この方法によって我々は約1200のファージの推定全長ゲノムを検出することに成功した。本発表では検出方法の詳細、および一部の検出されたファージゲノムの特徴について報告する。

【43】統合微生物データベースMicrobeDB.jpポータルサイト拡張

発表者 ○藤澤貴智(遺伝研)、森宙史(遺伝研)、谷澤靖洋(遺伝研)、児玉悠一(遺伝研)、内山郁夫(NINS)、中川善一(東京工業大)、山田拓司(東京工業大)、高橋弘喜(千葉大)、中村保一(遺伝研)、黒川顕(遺伝研)
要旨 我々は、微生物に関するデータを系統・遺伝子・環境の3つの軸に沿って整理・統合した統合微生物データベースMicrobeDB.jp(http://microbedb.jp/)を公開している。これらの全ての微生物データを記述するためのオントロジーを整備し、RDF形式でデータセットを記述した。さらには、ゲノム、メタゲノム解析パイプラインの開発および連携を実施し、これらが出力する解析データもRDF形式で格納した。昨年度、ユーザインターフェース改良とユーザのゲノム・メタゲノムを解析するためのレポジトリ機能を統合したMicrobeDB.jpポータルサイトを構築した。
 本研究では、ポータルサイトを中心としたさらなるユーザビリティ向上を目的として、DDBJのBioSample validation APIと連携したユーザデータ登録機能の拡張した。また、データベース上で公開データとユーザ自身のデータを比較解析を容易にするために、サンプル情報を中心にRDFデータモデルを更新したMicrobeDB.jp ver.3データセットを用いることで実現した機能拡張について報告する。

【44】MicrobeDB.jp ver. 3のマイクロバイオームデータの概要

発表者 ○森宙史(遺伝研)、藤澤貴智(遺伝研)、中川善一(東京工業大)、山田拓司(東京工業大)、黒川顕(遺伝研)
要旨

培養が困難な微生物を多く含む微生物群集の系統組成や遺伝子機能組成を明らかにするために、メタゲノム解析やメタ16S解析が盛んに行われている。それらの配列データは公共の塩基配列データベースに既に150万サンプル以上が蓄積されており、塩基配列データに付随する各種のメタデータも登録されている。しかしながら、各サンプルの系統・遺伝子機能組成の情報を得るためには、配列データを再解析する必要がある。MicrobeDB.jp では、ゲノム情報と微生物の生息環境の情報を統合化するために、それらメタゲノム・メタ 16S解析等のマイクロバイオームを対象にした配列データを高速かつ高精度に解析する解析パイプラインと、メタデータから生息環境のオントロジーを自動でアノテーションするプログラムを開発し、サンプルごとに系統・遺伝子機能組成、サンプルのメタデータをRDF化している。本発表では、MicrobeDB.jp ver.3で公開する予定のマイクロバイオームデータの概要について紹介する。

MicrobeDB.jpのURL(http://microbedb.jp

【45】微生物比較ゲノムデータベースMBGD

発表者 ○内山郁夫(NIBB)、三原基広(ダイナコム)、西出浩世(NIBB)
要旨 MBGDは、オーソログ解析に基づいて微生物の比較ゲノム解析を行うためのデータベースである。MBGDでは、全系統群にまたがる標準オーソログテーブルに加えて、各系統群に特異的なオーソログテーブルを作成している。従来これらを独立に作成していたが、最新版では種内比較、属内比較、属間比較を段階的に行い、下位のオーソログ解析から得られる遺伝子レパートリー全体(パンゲノム)を、上位の比較の入力に用いるアプローチで階層的に結合することにより、全遺伝子レパートリーを網羅するオーソログテーブルの構築を行っている。この変更に合わせて、MBGDのデータ表示インターフェイスなどの修正を行うとともに、キーワード検索インターフェイスについても大きな改変を行い、使い勝手の向上を図った。ユーザ独自のデータを解析するためのMyMBGD機能についても多くの改変を行っている。特に、ユーザのゲノムデータをMBGDのオーソログデータと高速に対応づけるため、超高速配列類似性検索MMseqsのプロファイル検索機能を使って実行するなどの機能追加を行っている。さらに機能モジュール単位でアノテーションづけを行うMAPLE解析と統合する機能についても開発を進めており、合わせて紹介する。

【46】微生物有害情報データベースM-RINDA

発表者

○黄地祥子(NBRC)、藤田真澄(NBRC)、山本美佳(NBRC)、宮澤せいは(NBRC)、木村明音(NBRC)、牧山(片野)葉子(NBRC)、北橋優子(NBRC)、市川夏子(NBRC)、川﨑浩子(NBRC)、藤田信之(東京農業大)、加藤愼一郎(NBRC)

要旨 NITEバイオテクノロジーセンター(NBRC)では、微生物の安全かつ適切な利用を支援するために、以下のデータベースを公開している。
  1. 微生物有害情報リスト:細菌及び真菌の危険度分類や法規制の適用の有無を学名から検索できるデータベース
  2. MiFuP Safety:微生物(細菌)のゲノム配列から有害性機能(毒素産生能、薬剤性能等)に関わる遺伝子を検出し、微生物の有害性機能の有無を推定するデータベース
このたび、これらふたつのデータベースを統合した微生物有害性情報の総合サイト「微生物有害情報データベース(Microbial Risk Information Database: M-RINDA:
https://www.nite.go.jp/nbrc/mrinda/)」を新たに公開した。
M-RINDA/微生物有害情報リスト(Web版)は、以前の微生物有害情報リストに比べてデザインが刷新され、操作性が向上し、法令名や微生物名を指定した検索も可能になっている。M-RINDA/MiFuP Safetyは、現時点(2019年7月現在)で、75種類の有害性機能に関与する221種類の遺伝子が登録されている。今後は両データベース間での相互参照を可能にする予定であり、本サイトを微生物の有害性に関する情報収集に多方面でご活用いただけることを期待している。

【47】生物資源情報をワンストップで検索できるデータプラットフォーム「DBRP」

発表者 ○木村明音(NBRC)、牧山(片野)葉子(NBRC)、北橋優子(NBRC)、波平真実(NBRC)、市川夏子(NBRC)
要旨 NITEバイオテクノロジーセンター(NBRC)は、生物資源とその関連情報を一元的に検索することができる生物資源データプラットフォームDBRP(https://www.nite.go.jp/nbrc/dbrp/)を今年6月に公開した。
DBRPでは、NBRCが保有する微生物に対して蓄積された情報に加えて、各種物質の生産や分解などの特性情報、文献情報、ゲノムなどのオミックス情報といった様々な情報を関連するデータベースから収集し、微生物情報にひもづけて登録を行った。これによりDBRPでは、様々な情報をまとめて検索することができる。また、「乳酸菌」といった一般的なキーワードからの検索や、採取地(国名、地名)、分離源(食品由来など)からの検索、さらに解析データの種類(ゲノム情報、画像情報など)を選択しての検索も可能である。
現在、2万株以上の微生物に関連した情報を搭載しており、今後、さらに情報を追加していく予定である。また、DBRPには企業などが保有する生物資源とその情報も登録できる。DBRPの活用により、生物資源情報の提供者と利用者間のビジネスマッチングの機会の創出が期待される。

【48】バイオインフォマティクス研究における種々のライフサイエンスデータベースの高度利用

発表者 ○石井清一郎(日本大)、土門優作(日本大)、吉田尚恵(日本大、JSPS特別研究員)、武田伊織(日本大)、小野洋一(日本大)、中野善夫(日本大)、山岸賢司(日本大)
要旨

現在、様々なライフサイエンスデータベースが公開されている。私たちの研究室では、種々のライフサイエンスデータベースを高度に利用して、以下に示すバイオインフォマティクス研究を進めている。本発表ではそれらの研究内容について紹介する。

  1. タンパク質構造データベースProtein Data Bank(PDB)を利用した解析では、生体分子の構造と機能の解明を目的として、生体分子に対する分子シミュレーション解析を進めている。近年では、核酸分子とその標的蛋白質との相互作用および構造ダイナミクスについて解析を進め、新機能性核酸分子の開発を目指している。
  2. NCBIのゲノムデータベースを利用した研究では、バクテリアゲノムの系統解析に、16S rRNA遺伝子などの特定の遺伝子領域が有する塩基配列の相同性を用いずに、全ゲノム領域Nグラム配列に基づき行う新たな解析手法の構築を進めている。これにより、従来の方法では困難であった近縁種の系統解析も可能となると考えている。
  3. ChemDBやCCDC(The Cambridge Crystallographic Data Centre)などの分子構造データベースと連動して、分子構造をAR(拡張現実)により表示できるシステムの開発を進めている。タブレット型の端末での利用を前提として設計し、化学教育における学習教材としての利用を視野に開発を進めている。

【49】秘密計算による複数機関が保有するゲノム情報の安全な統合解析の実証

発表者 竹之内隆夫(NEC)、中谷明弘(大阪大)、菊地正隆(大阪大)、小林香織(NEC、大阪大)、平松直人(NECソリューションイノベータ)、大原一真(NEC)、土田光(NEC)、荒木俊則(NEC)、○岡村利彦(NEC)
要旨 近年、個人のゲノム情報に適した効果的な薬を開発するため、ゲノムと疾病の関係を解析するゲノム解析が活発化している。しかし、これらのデータは機微性が極めて高い個人情報であるため、医療機関や研究機関間で共有することは容易ではない。
秘密計算は、データを秘匿したまま様々な演算処理ができるため、複数の医療・研究機関から、ゲノム情報や疾病情報を秘匿した状態で結合解析できる手段として期待されている。しかし、従来の秘密計算は、複雑な処理により計算速度が極度に遅くなることや、開発が容易ではないことから、ゲノム解析への適用は困難とされていた。
そこで、本発表では、発表者らが以前開発した高速かつ開発が容易になる秘密計算を、ゲノム解析に適用し、安全なゲノム解析が実用的な時間で実行可能であるか実証した結果を示す。その結果、年代ごとのゲノム変異頻度の解析について、約8,000人のゲノム情報を約1秒で結合解析できることを確認した。また、発表者らの独自の解析アルゴリズムに対して、専門家が1か月程度かかる秘密計算の適用を一般のシステムエンジニアが数日程度で完了できることを確認した。
ページの上部に戻る

お問い合わせ・ご意見

本ページの内容やNBDCが運営するWebサービスのお問い合わせ、研究データ・データベースなどに関するご相談などお気軽にお寄せください。