ポスター発表
ライトニングトーク (09:40~10:40) のみライブ配信します。ポスターセッション (10:40~12:40) は配信しません。
※代表発表者は氏名の前に「○」が付きます。
1微生物を特性から検索可能とする「微生物選定支援ツール」の開発
第1部○青栁太智(NITE)、大塚梨沙(NITE)、阿部純平(NITE)、八塚茂(NITE)、市川夏子(NITE)
微生物の培養には温度、pH、酸素要求性など多岐にわたる条件の設定が必要であり、既存の微生物の培養条件を調査・比較することは容易ではない。そこで我々は、微生物株の培養条件および表現型に関する特性データを種ごとに集積し、検索可能としたtraitAPIを開発した。traitAPIはNBRC、JCMの公開データに加え、微生物に関するJGI GOLDなどの3つのデータベースから得られた特性情報を統合しており、属などの上位分類群における統合データも保持している。これにより、新種微生物の培養条件推測や、未試行の培養条件の発見が可能となることを期待している。さらに、traitAPIをブラウザ上で利用できる「微生物選定支援ツール」を開発し、ユーザーが特性データから微生物種を容易に検索できる、あるいは特定の種の培養条件を検索できる環境を整備した。本ツールは今年度中に一般公開予定であり、種ごとの特性データを詳覧できる画面の追加開発についても計画している。本ツールの開発はNEDOの「カーボンリサイクル実現を加速するバイオ由来製品生産技術の開発」プロジェクトで実施した。
#微生物、#データベース、#検索ツール、#データ集計
2微生物有害情報リスト 真菌リストWeb版の構想
第2部○木村明音(NITE)、魚原文(NITE)、中谷諒介(NITE)、石田亜紀子(NITE)、仲里猛留(NITE)、外立貴宏(NITE)、黄地祥子(NITE)、市川夏子(NITE)、八塚茂(NITE)
微生物を安全に取り扱うには、法令文書やバイオセーフティレベル(BSL)分類リスト等様々な資料を参照して利用微生物の危険度/有害性を判断しなければならない。一方、次世代シーケンス技術の急速な発展に伴い、微生物のゲノム配列の分類への応用が進展している。さらに真菌については、2012年の命名規約の改訂により二重命名法が廃止され学名統一の議論が進められており、これらの分類体系の再編成や学名の変更も、微生物の安全性の判断を難しくしている。
NITEは、微生物の安全かつ適切な利用を支援するために、細菌や真菌の散在するリスク情報を一元化したデータベース「微生物有害情報リスト」を公開している。微生物有害情報リストは、微生物の取扱いに関する国内法令やBSL分類等の出典資料のリスク情報を収集し、種・亜種に指定されたリスク情報(属・株等に指定される場合はそれらを含む)を集約して提供している。この中で、真菌のリスク情報を一元化した「真菌リスト」は現在Excelファイルでのみ提供しているが、今後Web版にすることを構想し、準備を進めている。Web版にすることで、異名の関係にある微生物のリスク情報を一括で確認することや、NITEで付与した補足記号(異名に情報があることを示す記号等)の意味の確認が容易になり、また目的のリスク情報や学名情報の検索も容易になる。本発表では真菌リストのWeb版の構想について紹介する。
#微生物(細菌・真菌)、#バイオセーフティレベル(BSL)、#法令、#学名、#リスク
3CO2を原料とする微生物によるバイオものづくりのプロジェクトにおける情報の統合
第3部○仲里猛留(NITE)、大塚梨沙(NITE)、中谷諒介(NITE)、宮澤せいは(NITE)、西原豊(NITE)、横田彩乃(NITE)、八塚茂(NITE)、福田青郎(NITE)、森浩二(NITE)、市川夏子(NITE)
NITEはバイオリソースセンターとして20年以上にわたり微生物の保存と提供を行っており、現在、約9.7万株の微生物を保有している。また、近年では参画した国家プロジェクトに特化した有用微生物のデータベース構築も行っている。NEDO グリーンイノベーション(GI)基金プロジェクトにおいて開発中の「CO2固定微生物利活用プラットフォーム(POMIC)」では、NITEが保有する、及び新たに単離したCO2固定微生物(化学合成独立栄養微生物)を対象に、分類情報、培地・培養情報、炭素源やエネルギー獲得様式等の特性情報、ゲノム情報等の登録を進めている。加えて、約2,000報の文献調査を通じて、CO2利用の報告がある微生物の情報も登録しており、現時点でPOMICに収載された微生物は600種、1,100株を超える。データベース構築においては、学名や系統分類の変更履歴、カルチャーコレクション間の同一由来株の紐づけ等に対応するため、NCBI Taxonomyだけでなく、GTDB、LPSN、StrainInfo等のデータベースにもアクセスし、確認を行っている。しかし、これらのデータベース間でも内容に違いがあり、情報の統合には多くの困難が存在する。今後は、収載された微生物のゲノム及びアノテーションした遺伝子情報の登録を進め、データ拡充を図っていく予定である。
#微生物データベース、#バイオリソース、#生物分類、#微生物ゲノム
4新興再興感染症ウイルスおよび病原菌ゲノムポータルサイトの構築
第1部○藤澤貴智(遺伝研)、谷澤靖洋(遺伝研)、荒武(遺伝研)、有田正規(遺伝研)
世界各国でCOVID-19を含めた新興再興感染症のサーベイランスが実施されているが、ウイルスのゲノム配列は多様性が非常に大きく、ゲノム変異の可塑性解析や、ゲノム進化と感染との関係性の解明は不十分である。国内における感染症への危機管理対策に協力するために、DDBJではこれまでに静岡県によるSARS-CoV-2ゲノム解析や、国立情報学研究所によるCOVID-19 Data Portal Japanなどの研究を支援してきた。
これらの成果をさらに統合、発展させるために、本年度より国際プロジェクトであるPathogens Portalに参加し、新興再興感染症ウイルスおよび病原菌に関するゲノムデータのポータルサイトとして、Pathogens Portal Japan(https://pathogens.jp/)を構築して公開した。これまでに蓄積したデータや解析結果に加えて、感染症臨床研究ネットワーク(iCROWN)事業などの関連事業からもウイルス配列情報を収集し、データ統合、地理的あるいは時間的変遷の解析のための基盤構築を行う。将来的には、アジアにおける新興再興感染症ゲノムデータの情報共有のための国際連携拠点の確立や、感染症対策に向けた創薬やワクチン開発への貢献も目標としている。
#Pathogens Portal Japan、#新興再興感染症、#ウイルスおよび病原菌ゲノム、#ポータルサイト
5Microbiome DatahubにおけるMAGデータと環境情報
第2部○森宙史(遺伝研)、藤澤貴智(遺伝研)、東光一(遺伝研)、谷澤靖洋(遺伝研)、中川善一(科学大)、西出浩世(基生研)、中村保一(遺伝研)、山田拓司(科学大)、松井求(京大)、内山郁夫(基生研)
MAGはメタゲノム配列から個々の微生物のゲノム配列を再構築した結果のゲノム配列であり、難培養の微生物を解析する強力な手法である。Microbiome Datahubでは、公共のデータベース中のMAGデータを収集して再アノテーションし、整理して公開している。本発表では、Microbiome DatahubにおけるMAGデータの詳細と環境関連の解析結果について紹介する。
#メタゲノム、#環境、#微生物
6微生物比較ゲノムデータベースMBGDの大規模MAG解析への応用
第3部○内山郁夫(基生研)、西出浩世(基生研)、河合幹彦(基生研)、三原基広(ダイナコム)、千葉啓和(DBCLS)、高柳正彦(ウェブブレイン)、森宙史(遺伝研)
微生物比較ゲノムデータベースMBGDは、公開された微生物ゲノムデータをオーソログ解析に基づいて整理したデータベースである。最新の2024年版では、34,079の微生物完全ゲノム配列に対し、階層的手法でオーソログ分類した結果が収録されている。このデータをユーザゲノムのアノテーションに用いる目的で、3つ以上の遺伝子で構成されるトップレベルオーソロググループ189,168について、マルチプルアライメントに基づくMMseqsプロファイルを作成しており、MyMBGDインターフェイスを介してユーザゲノムに対してオーソロググループの割り当て、およびGenomapleを用いたKEGG moduleの充足率計算を可能にしている。しかし、近年のメタゲノム解析においては、大量のmetagenome assembled genome (MAG)が生産されるようになっており、それに対応した解析パイプラインの高速化が求められるようになっている。そこで、このパイプラインを大規模MAG解析向けに修正し、GenomapleによるKEGG module解析に加えて、ユニバーサルコアオーソロググループによる完全性解析、さらに既存オーソロググループとヒットしなかった遺伝子について、DomClustを用いた新規クラスタリングの実施までを行えるようにした。現在、このパイプラインを用いて、Microbiome Datahubに収録された21万MAGの解析を進めている。
#微生物ゲノム、#MAG、#オーソログ、#比較ゲノム
7海洋プランクトンの長期観測のためのメタエピゲノムデータベースPlanDyO
第1部○大林武(東北大)、藤井豊展(東北大)、北村茜(東北大)、熊野岳(東北大)、池田実(東北大)
PlanDyOは、東北沿岸域における海洋プランクトンの長期的な動態把握を目的として開発中のゲノムデータベースである。ナノポアシークエンサーを用いたメタゲノム解析により、真核生物を含むMAGの構築および機能推定を目指すとともに、DNAメチル化情報に基づく各サンプル・各個体の状態推定を試みている。配列というミクロな情報を、生物系統や生態学的機能の観点から再構成し、マクロな情報である海洋物理データと統合することで、新たなエコシステムモデルの構築につなげることを目指している。
#沿岸生態系、#プランクトン、#メタゲノム、#糖鎖関連情報、#エピゲノム
8植物の遺伝子共発現データベースATTED-IIにおける非モデル生物種展開
第2部○大林武(東北大)
遺伝子共発現データベースATTED-II(https://atted.jp)は、公共リポジトリのトランスクリプトームデータを再解析し、植物の遺伝子共発現情報を提供する。現在「対象生物種の増加」と「種間比較機能の強化」を軸に、非モデル植物研究のための共発現情報の基盤整備を進めている。共発現情報の種間比較においては、共発現強度の違いが対象生物種の特性だけでなく、サンプリングバイアスによっても生じる可能性があるため、2024年9月に公開したATTED-II version 12.0より、着目する遺伝子共発現ペアが機能する条件を簡便に探索するツールを導入し、近縁種間の共発現比較の実効性を向上させている。
#遺伝子共発現、#非モデル植物、#トランスクリプトーム、#パスウェイ
9宇宙生命科学統合バイオバンクibSLS(Integrated Biobank for Space Life Sciences)
第3部○青木裕一(東北大)、大槻晃史(東北大)、古橋翔(東北大)、岡田理沙(JAXA)、上村大輔(JAXA)、芝大(JAXA)、山本雅之(東北大)、木下賢吾(東北大)
宇宙生命科学統合バイオバンクibSLS (https://ibsls.megabank.tohoku.ac.jp)は、宇宙航空研究開発機構(JAXA)が国際宇宙ステーション「きぼう」実験棟で実施してきた、マウス飼育ミッションの実験データを整理・統合した生命科学データベースである。遺伝子型や重力環境が異なる複数ミッション由来のトランスクリプトームとメタボローム情報を収載し、宇宙滞在がもたらす各組織の遺伝子発現や血漿代謝物濃度の変化をミッション横断的に閲覧・比較できる。また、東北メディカル・メガバンク機構(ToMMo)が運用する日本人多層オミクス参照パネル jMorp (https://jmorp.megabank.tohoku.ac.jp)と連携することで、遺伝子発現量や代謝産物濃度について、マウスの宇宙滞在による変化をヒト集団における加齢や病態変化と容易に比較することができる。また、各種ミッション由来の生体試料の保管・分譲を担うJAXA Biorepository(https://humans-in-space.jaxa.jp/kibouser/provide/mhu/71891.html)とも連携し、研究者が関連試料を効率的に入手して生物学的実験を行える体制を整えている。「宇宙で得た知見を地上の医学・健康科学へ」という理念のもとに、ibSLSは、宇宙生命科学はもとより幅広い生命科学・医学研究の発展に資する情報基盤となることを目指し、データ収録と分析機能の拡充を進めている。
#宇宙実験、#マウス、#ヒト、#トランスクリプトーム、#メタボローム
10DeepSpaceDB: an interactive database for spatial transcriptomics data
第1部○VANDENBON Alexis(京都大)
空間トランスクリプトミクスは、組織内の遺伝子発現を空間的配置、細胞機能、疾患状態と関連付けて研究する手法。ただし、実施には多大な財政リソースとバイオインフォマティクスの経験を要する。そこで、さまざまな組織の空間トランスクリプトームデータを、誰もが簡単に高度なレベルで解析できるようにする「DeepSpaceDB」を紹介する。現在、2,000以上のVisiumデータセットを収録し、各サンプルの品質を他サンプルと比較可能。5百万以上のスポットに手動アノテーションを付与し、組織構造の解釈を容易にしている。また、スポットの遺伝子発現比較や類似スポットの検索、空間的に可変な遺伝子と生物学的経路、細胞型組成の推定も可能。DeepSpaceDBは新たな仮説生成やデータ解析の支援に有用と考えられ、www.DeepSpaceDB.comで公開中。
#空間トランスクリプトーム、#遺伝子発現、#組織、#疾患状態
11個体の生体応答記述を志向した毒性病理画像の潜在表現に関する基礎研究
第2部○水野忠快(東京大)、前寺正太郎(東京大)、森田勝久(東京大)、楠原洋之(東京大)
毒性病理画像は、化合物の個体レベルでの作用を客観的かつ網羅的に記述する重要な情報源である。そのため我々の研究チームは、その体系的なデータベース開発を進めている。一方、現在は主にパソロジストによる所見として毒性病理画像はエンコードされており、その表現能力や比較可能性の観点から、機械学習モデルの入力として活用するには課題があった。本研究では、この課題に対し、毒性病理画像を直接入力として深層学習モデルで抽出した潜在表現の有用性を評価した。特に補助タスクとして病理所見を学習させることの影響、および潜在表現を抽出するネットワーク層(レイヤー)の選定が、化合物の性質推定タスクに与える影響を重点的に検討した。その結果、潜在表現を入力とするモデルは、病理所見を直接用いるモデルの性能を上回ることが確認された。補助タスク学習の効果は限定的であった一方、潜在表現の抽出層の選定が、潜在空間の品質、ひいては下流タスクの精度に重要な影響を及ぼすという基礎的知見が得られた。
#毒性病理画像、#潜在表現、#表現学習、#レイヤー
12SSBD: バイオイメージングデータのグローバルな共有
第3部○糸賀裕弥(理研)、京田耕司(理研)、山縣友紀(理研)、藤澤絵美(理研)、山本春菜(理研)、WEN Chentao(理研)、菅原皓(理研)、大浪修一(理研)
バイオイメージングデータの共有と再利用は、生命科学の進展を加速する鍵である。SSBDは共有と再利用のプラットフォームとして、論文投稿時にあらゆる形式のデータを共有可能なSSBD:repositoryと、論文出版後に再利用性の高いデータを選定・整理し再利用しやすいかたちで公開するSSBD:databaseの2つのシステムから構成されている。利用者とデータセット数の拡充を目的として、Webフォームからの登録申し込みを受け付けるシステムを導入し、登録の利便性を向上させた。さらに、生命科学系のオントロジーによる、様々なデータベースとのメタデータの共通化と調和処理のためのSSBD metadata v3への対応を進めており、グローバルなデータ共有の基盤を強化している。欧州のIDRやBIAと連携したfoundingGIDEプロジェクトでは、共通メタデータの整備と相互運用性の確保を通じ、国際的なデータ共有と再利用の促進を目指す。本発表ではDICPプロジェクトにおけるSSBDの取り組みと今後の展望について紹介する。
#バイオイメージ、#レポジトリム、#高付加価値データベース、#メタデータ、#国際連携
13foundingGIDE: メタデータ調和によるバイオイメージングデータリソースの国際連携
第1部○京田耕司(理研BDR)、山縣友紀(理研R-IH/理研BRC)、糸賀裕弥(理研BDR)、藤澤絵美(理研BDR)、大浪修一(理研BDR/理研R-IH)
foundingGIDE は、バイオイメージング分野における国際的なデータエコシステムの相互運用性を強化し、データの共有、再利用、統合を加速することを目的とする国際共同プロジェクトである。我々は、本プロジェクトにおいて Work Package 6(WP6)を主導し、主要な画像データリポジトリ間のメタデータ構造および語彙の調和に取り組んでいる。WP6 では、SSBD、IDR、BIA におけるメタデータモデルおよび制御語彙/オントロジーの比較分析を行い、共通点と相違点を整理した。その分析に基づき、相互運用性の実現に向けて必要となるメタデータ項目と語彙/オントロジーに対する要件を定義した。これらの要件を踏まえ、我々は、(1)共通項目の標準化、(2)語彙間のマッピング、(3)リソース固有要素の整理と連携、という三段階から成る調和戦略を提案するに至った。本タスクの成果は、異なるデータリソース間での横断的な検索や統合的利用を可能とし、FAIR原則に基づくオープンサイエンスの推進、ならびにAIを活用した次世代の画像解析基盤の構築に大きく貢献するものである。
#バイオイメージ、#データエコシステム、#メタデータ調和、#オントロジー、#相互運用性
14グローバルなバイオイメージングデータ相互運用性実現に向けたSSBDオントロジー開発の取り組み
第2部○山縣友紀(理研)、京田耕司(理研)、糸賀裕弥(理研)、藤澤絵美(理研)、大浪修一(理研)
近年、バイオイメージングデータは大規模かつ多様化し、既存のデータベース間でのデータ統合や再利用は困難となっている。この課題に対し、本研究では、SSBDデータベースにおいて国際的な推奨メタデータセットREMBI (Recommended Metadata for Biological Images) に準拠したメタデータ記述を支援するため、参照オントロジー「SSBDオントロジー」を設計・開発した。SSBDオントロジーは、OWL形式で記述された二層構造を特徴とする。第一の「コア層」は、書誌情報やイメージング情報に加え、GOやUBERONといった主要な既存オントロジーを再利用して生物学的情報を体系的に定義し、データ間の一貫性を保証する。第二の「インスタンス層」には、個別の実データセット情報が格納される。この構造は、豊富なメタデータと実データを密接に結びつけ、SPARQLを用いた高度な横断的検索を可能にする。例えば、「同一マウス系統を異なるイメージング手法で撮影した全画像を検索する」といった複雑なクエリの実行も可能である。本オントロジーは既に約500のデータセットに適用済みであり、今後は、国際連携プロジェクトであるFoundingGIDEへの貢献をはじめとし、グローバルなバイオイメージングデータの相互運用性実現を目指す。
#バイオイメージング、#オントロジー、#知識の相互運用
154Dゲノム状態の理解と可視化を支援するデータベース開発
第3部○中島広樹(理研)、萩原蒼也(理研)、糸賀裕弥(理研)、大浪修一(理研)、新海創也(理研)
Hi-C法の発展により、細胞状態に応じた3次元(3D)ゲノム構造の階層的ユニットに関する理解が進んでいる。一方で、Hi-Cは化学固定を前提とするため、生細胞内でのクロマチン動態をどの程度反映しているかは不明である。我々はこれまでに、Hi-Cコンタクトマップを99%以上の精度で再現可能な高分子物理モデルを推定する手法「PHi-C(ファイシー)」を開発し、2次元のHi-Cデータから動的な3D構造や、各ゲノム領域における動的な物性情報を示すマップに変換可能とした。現在、これらを通じて解釈される「4Dゲノム状態」の理解を支援するウェブデータベースを構築中である。公開Hi-Cデータを対象にGPUによる高速大規模解析基盤を整備し、50-kb解像度で染色体単位のPHi-C解析を網羅的に実施する体制を確立した。そして、得られた3D動態シミュレーションと4Dゲノム情報を統合的に可視化するWebインターフェースを開発している。今後は既存ゲノムデータベースとの統合を見据え、より包括的な情報提供と可視化を可能にするユーザーインターフェースの設計を進める予定である。
#Hi-C、#3Dゲノム、#PHi-C、#4Dゲノム
16Population-Scale 3D Genomics of EBV Infection in B Lymphocytes
第1部○AGRAWAL Saumya(理研IMS)、粕川雄也(理研IMS)
Epstein–Barr virus (EBV) infects >90% of people and is linked to autoimmunity and cancer, but how it rewires host gene control—especially whether 3D chromatin changes are shared or population specific—remains unclear. We are building a population-scale multi-omic resource to map EBV-driven regulatory rewiring in B lymphocytes by integrating 255 Hi-C maps from infected B cells across 25 populations with matched RNA-seq and ATAC-seq. RNA-seq/ATAC-seq define infection-responsive genes and enhancers; Hi-C links enhancers to target genes to model infection-associated circuits. We also chart human loci contacting the EBV genome to pinpoint direct virus–host chromatin contacts. Analyses in pooled and stratified frameworks separate conserved from population-enriched responses. Early results show infection-inducible enhancers, targets, and population-dependent 3D remodeling, suggesting genome-architecture variation shapes diverse transcriptional responses and guiding future studies.
#3D chromatin、#Epstein–Barr virus (EBV)、#Gene regulatory network、#Chromatin-chromatin interactions
17fanta.bio: 転写活性に関わるゲノム内シスエレメント領域に関するデータベース
第2部○粕川雄也(理研IMS)、WALKER Scott(理研IMS)、長谷川哲(理研IMS)、THALHATH Nishad(理研IMS)、信定知江(理研IMS)、AGRAWAL Saumya(理研IMS)高田豊行(理研BRC)、桝屋啓志(理研BRC)、川路英哉(都医学研)
転写は、ゲノム中の機能エレメント、転写因子の結合、エピゲノム状態などによって複雑に制御されている基本的な生命現象の1つである。そのため転写制御の理解には、さまざまな実験よって得られたデータ、既知の機能アノテーション情報、観測されたゲノム領域情報などの多様な情報を統合的に集めることが必要不可欠である。そこで、我々はゲノムの転写活性に関する情報の集約を目標としたデータベースであるfanta.bio (https://fanta.bio/) を開発し、公共データベースとして公開している。現時点ではヒトおよびマウスゲノム内に存在する転写制御機能領域であるシスエレメントについて、そのゲノム領域、さまざまな細胞種・組織・細胞株における活性、関係するゲノム変異の情報をまとめている。また本データベースの構築には転写制御に関わる統合的なデータ基盤の構築を目指したINTRARED (https://www.intrared.org/)の活動を通して行われており、その枠組みを通じて、ChIP-Atlas (https://chip-atlas.org/)、MoG+ (https://molossinus.brc.riken.jp/mogplus/)、TogoVar (https://togovar.org/)とのデータベース間連携も進めている。本発表ではfanta.bioデータベースおよびINTRAREDの現状について紹介する。
#転写制御、#CRE、#ゲノム変異、#ヒト、#マウス
18複数細胞種における核酸結合タンパク質の発現制御遺伝子と機能を予測する手法の開発
第3部○大里直樹(科学大)、佐藤健吾(科学大)
【背景】 ヒトの様々な細胞種において、DNAやRNAに結合する核酸結合タンパク質(nucleic acid-binding protein: NABP)により発現制御される遺伝子や生物学的機能の網羅的な生物実験解析は困難である。本研究では、NABPの核酸への結合位置やモチーフ配列情報を用いずに、NABPが発現制御する遺伝子やその機能を予測する深層学習(機械学習)手法を開発した。 【方法】複数の細胞種の遺伝子発現量を予測するモデルを構築し、遺伝子共発現のデータに含まれるNABPの発現制御遺伝子と遺伝子機能を細胞種ごとに予測した。 【結果】予測された発現制御遺伝子は、ランダムに選んだ遺伝子セットと比較して、ChIP-seqやeCLIPの結合位置を周辺や転写領域に含む遺伝子と強く一致した。さらに、機能的なエンリッチメント解析およびChatGPTを用いた学術論文等の解析により、AKAP8によるがん細胞での概日時計調節やPKMによる解糖系制御など、細胞種特異的な生物学的機能が明らかになった。 【結論】 本手法は、深層学習、遺伝子共発現ネットワーク、大規模言語モデルを統合し、細胞種特異的な既知および未解明のNABPの機能を体系的に発見できることを示した。(Osato N et al. bioRxiv 2025 https://doi.org/10.1101/2025.03.03.641203 )
#核酸結合タンパク質の発現制御遺伝子、#核酸結合タンパク質の機能アノテーション、#遺伝子共発現データ、#深層学習
19公共RNA-seqデータ利活用によるRNAウイルスの多様性解明
第1部○川崎純菜(千葉大)、角井健(千葉大)、伊東潤平(東大)、浜田道昭(早稲田大)、鈴木忠樹(千葉大)
これまでに発生した新興感染症の75%が動物由来ウイルスを原因としており、将来のパンデミックに備えるには、ヒトだけでなく動物を対象とした感染症対策:One healthアプローチが必要であると考えられている。一方で、動物におけるウイルス多様性の解明、および見出されたウイルスの性質解明は依然としてウェット実験に依存するところが大きく、大規模調査には多大な労力とコストがかかるという問題がある。そこで本研究では、公共データベースに蓄積されてきた動物由来RNA-seqデータの利活用によってウイルスゲノムの網羅的探索を実施してきた。さらに、これらのRNA-seqデータには感染に対する宿主応答が遺伝子発現データとして記録されていることに着目し、自然免疫誘導能や組織障害性に関わる発現パターンに基づいたウイルス性質推定法の確立に取り組んでいる。本ポスターでは、RNA-seqデータの取得によってウイルス検出から性質推定までを一気通貫に行える解析フレームワークを紹介し、こうした成果のDB化について議論したい。
#ウイルス、#virome、#ゲノム疫学、#データベース
20デジタル配列情報(DSI)に関するCOP16の決定とその後の議論
第2部○鈴木睦昭(遺伝研)
DNA/RNAなどの塩基配列を一例とするデジタル配列情報(Digital Sequence Information , DSI)について利益配分の必要性が、2016年の生物多様性条約第13回締約国会議(COP13)により提案され、長年の議論が開始された。2022年のCOP15にて、DSIの多数国間メカニズムの作成が決定された。2024年コロンビア・カリで開催されたCOP16によりその運用方法が議論された。当初は、学術分野からも金銭的利益配分の対象となったり、データーベースに提出する情報にはそれぞれの提供国の許可が必要とされるなどの、運営が困難な条項が見受けられた。しかしながら、議論の末、学術からは金銭的利益配分は期待されない、データベースに対しては過度な規制は避けることができた。しかしながら、対象となるDSIの範囲などは決定されなく、課題は残った。本発表では、COP13からCOP16に至る過程を解析するとともに、残された課題について議論を行う。
#デジタル配列情報、#生物多様性条約、#ABS、#DSI、#カリ基金
21DBCLSにおける知識グラフによるバイオインフォマティクス研究基盤構築
第3部○五斗進(DBCLS)、川島秀一(DBCLS)、千葉啓和(DBCLS)、細田正恵(DBCLS)、池田秀也(DBCLS)、三橋信孝(DBCLS)、守屋勇樹(DBCLS)、山本泰智(DBCLS)、片山俊明(DBCLS)
ライフサイエンス統合データベース(DBCLS)では、生命科学系のデータベースの統合的利活用を促進するためのデータ基盤の構築と関連技術の開発とともに、それらを用いたアプリケーションなどの開発を進めている。データ基盤としては知識グラフを用いた基盤構築を長年進めてきており、統合化推進プログラムを含む各種データベースを開発者とも協力して知識グラフ化したデータセットをRDFポータルで公開している。現在、RDFポータルにはオントロジーを含め各種生命科学の70以上のデータセットが収載されている。
RDFポータルには多様なデータが収載されており、それらを連携して利活用できるようにRDF化のガイドラインを整備するとともに、収載されたデータを活用するためのミドルウェアも開発している。さらに、それらを用いたアプリケーションを提供し、データセットを組みわせて取得した結果をダウンロードしたり、ヒトゲノム変異情報を疾患などの情報と合わせて取得する仕組みも提供している。本発表ではDBCLSで開発している知識グラフ基盤とその応用について最近の話題とともに紹介する。
#統合データベース、#知識グラフ、#RDF
22大規模言語モデルを用いた BioSample データベースメタデータの品質向上
第1部○池田秀也(DBCLS)、守屋勇樹(DBCLS)、川島秀一(DBCLS)、坊農秀雅(広島大/DBCLS)、末竹裕貴(Sator 社)、鄒兆南(熊本大)、沖真弥(熊本大)、大田達郎(千葉大、DBCLS)
BioSample は、実験に用いられた生物学的サンプルのデータベースであり、サンプルの性質を記述したメタデータを蓄積している。メタデータの記法の多くは投稿者の裁量に委ねられているため、同一の実験条件であっても投稿者によって異なる記述がされており、データの再利用性を低下させる要因となっている。これまでに、メタデータをオントロジーにマッピングすることで検索性を向上させる試みがなされてきたが、事前に定めたルールベースで行う手法では正確性に限界があった。我々は、大規模言語モデル (LLM) を用いてメタデータを解釈し、オントロジーにマッピングするべき文字列を抽出することを試みた。マニュアルキュレーションの結果を利用した評価の結果、LLM による抽出によって、従来のルールベースの手法と比較して精度と再現率を高めることができることを確認した。
BioSample レコードは 4500 万件を超えるため、効率的に処理するためには実行環境やプロンプトに工夫が必要となる。本発表ではそれらについても報告し、LLM によるキュレーションの結果を大規模データベースの利便性向上につなげるまでの道筋について議論する。
#メタデータ、#オントロジー、#LLM、#メタデータ、#キュレーション
23TogoCoord (仮)
第2部○守屋勇樹(DBCLS)
生命科学分野では、ゲノム、転写産物、タンパク質といった異なるレベルで配列情報を扱うため、複数の座標系が存在する。代表的なものとして、ゲノム座標、pre-mRNA座標、CDS座標、アミノ酸座標などが挙げられる。研究現場では、これらの座標系間の相互変換が頻繁に求められ、例えばゲノム上のバリアントをUniProtのタンパク質配列やPDBの立体構造にマッピングする際や、生物種をまたいだオーソログ間のバリアント比較において不可欠である。特に、範囲を範囲へ変換する際には、エキソン・イントロン構造による座標の不連続性や、遺伝子の逆位なども考慮しなければならず、処理は複雑になる。加えて、アイソフォーム間の差異や挿入・欠失を伴う変異の扱いも問題を複雑化させる要因であり、これまでは個別対応に依存していた。こうした課題に対処するため、汎用的かつ再利用可能な座標変換サービス、TogoCoordの開発を開始した。発表では、現状の開発状況について紹介する。
#Database Integration、#Web Application、#Coordinate
24RDFポータルへのアクセスを容易にするTogoMCPサーバーの開発
第3部○山本泰智(DBCLS)、藤澤貴智(遺伝研)、金城玲(合同会社アニマ・マキナ)
RDFポータルは、生命科学分野における遺伝子、タンパク質、パスウェイ、化合物、疾患など幅広いRDFデータセットを収載している。これらに対する問い合わせ言語であるSPARQLは多様な検索を可能にするが、言語そのものの複雑さや正確なURIの把握が必要であることなど、本来の検索が出来るまでの道のりが長くなりがちである。さらに、同一の概念がデータセット間で異なるURIで表現されることも多く、その利用の困難さに拍車をかけている。この課題に対処するため、我々は技術的知識がなくても容易にRDFポータルへのアクセスを可能とするためのMCPサーバ「TogoMCP」を開発している。本サーバは検索網羅性を高めるために、(1) データベース固有の識別子間のキュレーションされた対応関係を提供するTogoID、(2)プレフィックス置換機能(URIプレフィックスを、キュレーションされた同値関係に基づいてグループ化し、互いに参照可能にする)という二つの補完的戦略を採用している。その結果、利用者はMCPホスト上で直感的な質問を行うことで、複数のデータセットから包括的かつ意味的に関連する検索結果が得られる。本研究は、多様な識別子と実用的なクエリニーズとの間のギャップを埋め、生命科学分野におけるRDFデータへのスケーラブルで使いやすいインターフェースを実現することを目指している。
#RDF、#MCP、#LLM、#API
25統合データベース検索におけるテキストエンベディング利活用
第1部○千葉啓和(DBCLS)
ライフサイエンス統合データベース(DBCLS)では、大規模言語モデル及びエンベディング技術を用いて、データベースと非構造化データを統合的に利用するための技術開発を進めている。特にここでは、テキストエンベディングを活用してデータベースを検索するシステムの開発について発表する。本システムでは、バイオメディカル分野のデータベースに含まれるエントリーを対象として、事前にテキストエンベディングを実行し、各エントリーの埋め込み表現を生成する仕組みを構築している。さらに、整備済みのデータセットに対して、ユーザーが入力した自然文の埋め込み表現に基づくベクトル検索を行い、検索結果を要約して提示することができる。検索結果を要約する際に、データベースエントリーをファクトとして付加することにより、ユーザーが入力した文章に関するファクトチェックを支援することもできると考えている。本発表では、開発中のシステムについて紹介したい。
#テキストエンベディング、#LLM、#データベース検索
26理研BRCにおける知識グラフの記述文(Description)データに対する検索手法の評価
第2部○櫛田達矢(理研BRC)、臼田大輝(理研BRC)、高田豊行(理研BRC)、桝屋啓志(理研BRC)
理化学研究所バイオリソース研究センター(理研BRC)では、保有する実験動物・植物、細胞、遺伝子、微生物株の情報を、RDFベースの知識グラフ(KG)として一元管理している。現在、このKGに対しては、SPARQL検索のほか、リソース番号や遺伝子名などを用いた「バイオリソース検索」、疾患や表現型オントロジーを利用した「アドバンスド検索」が提供されている。しかし、これらの既存手法では、技術的な制約から各リソースの説明文(Description)の情報が十分に活用されていない。Descriptionは、関連する変異遺伝子、特異的発現組織、表現型などの情報が日本語と英語で簡潔に記述されている文章データであるが、単語レベルでの全文検索ができないため、その潜在的な価値を十分に引き出せていない。本発表では、このDescriptionデータに対する有効な検索手段を確立することを目指し、マウスのデータを用いて実施した全文検索エンジン、ベクトルデータベース、大規模言語モデルのパフォーマンス評価の結果を報告する。
#知識グラフ(KG)、#全文検索エンジン、#ベクトルデータベース、#大規模言語モデル(LLM)、#Retrieval Augmented Generation (RAG)
27統合TV~ActII~
第3部○森岡勝樹(DBCLS)、佐久間桂子(DBCLS)、箕輪真理(DBCLS)
2007年にYouTubeにチャンネルが開設されて以来、統合TVは延べ1万人を超えるチャンネル登録数と、300万を超える再生数を記録してきた。今年度新たな運営体制で取り組むにあたって、データベースや解析ツールの利用者を支援してきたこれまでの活動のみならず、DBやアプリケーションを作る側も支援できるような新たなコンテンツを展開していきたい。その一つとして、現在開発の現場のインタビューを実施している。
#データベース、#実習、#Youtube、#チュートリアル、#画像
286NC-EHRsにおける難病・希少疾患の診療実態調査にて明らかとなった課題と解析可能性
第1部○土肥栄祐(NCNP)、北村真吾(NCNP)、松村亮(NCNP)、服部功太郎(NCNP)、波多野賢二(NCNP)
6NC(ナショナルセンター)は新生児から高齢者まで幅広い患者層と多様な臓器を対象とする高度医療センター群であり、難病・希少疾患も診療している。これら疾患は同一遺伝子異常でも発症年齢や障害臓器、重症度が異なり、横断的解析の重要性が高い。本研究では、日本の難病・希少疾患病名データベースと標準病名マスターの対応表を作成し、6NC-EHRsから指定難病、小児慢性疾患、その他の難病・希少疾患の症例を抽出・施設横断的に解析した。結果、114,360例・2,353疾患が抽出され、983疾患が複数施設で診療されていた。指定難病63,366例では30%が複数の指定難病を有し、最大13疾患を併せ持つ例もあった。主病名が指定難病の症例では予後記載が7.2%にとどまり、78%が未知または空白で、予後解析の困難さが示唆された。これらの結 果から、難病・希少疾患の診療データ解析には語彙統制や対応表整備が不可欠であり、主病名選択の背景因子推定や予後予測可能な疾患群の抽出、多施設・多職種連携による情報共有と研究基盤構築が求められる。
#電子カルテデータ、#NanbyoData、#指定難病、#小児慢性疾患
29難病・希少疾患症例コーパス構築の課題と効率化に向けたLLM・ツールの活用
第2部○土肥栄祐(NCNP)、金進東(DBCLS)、早川格(NCCHD)、松原知康(徳島大)、高月照江(DBCLS)、建石由佳(NBDC)、藤原豊史(DBCLS)、山本泰智(DBCLS)
難病・希少疾患は約1万種存在し、症例数の少なさから診断まで時間を要し、特に非典型例では時間がかかるため、質の高い症例コーパス構築やその構築の手法開発が望まれている。本研究では、日本語症例報告に疾患名・症状名をタグ付けした高品質コーパス構築において、大規模言語モデル(LLM)とWebベースのアノテーション管理・編集ツールを組み合わせ、効率化を図った。J-STAGEから関連度の高い症例報告を検索して取得し、NANDO辞書と形態素解析を用い、難病・希少疾患の疾患名に基づいた症例報告を抽出した。テキスト正規化後、LLMによる症状・所見のアノテーションを実施し、JSON形式出力、入力のチャンク化、テキスト部省略によるトークン節約により、安定した結果を得た。アノテーションはPubAnnotationで管理し、GUIベースのTextAEで専門家が評価・修正を行った。Human-in-the-loopにより精度向上と作業負担軽減を実現し、専門家参画を促進した。今後は用語オントロジーの適合性向上など、さらなる課題解決が必要である。
#難病、#希少疾患、#LLM、#アノテーション、#コーパス
30難病治験ウェブ 〜 最新の難病治験情報をわかりやすく提供するデータベース 〜
第3部○坂手龍一(NIBN)、山﨑千里(NIBN)、安井秀樹(浜松医大)、乾直輝(浜松医大)、水上 裕輔(NIBN)、千葉勉(京都大)、直江知樹(名古屋医療センター)、山本拓也(NIBN)
難病の多くは有効な治療法が確立されていないことから、治療法・医薬品の開発は喫緊の課題である。一方で、患者や家族からは、治験の情報を調べることが難しいという声がある。この課題解決のため、難病の治験情報に特化したデータベース「難病治験ウェブ」(nanbyo-chiken.nibn.go.jp)が開発され、令和7年7月に公開された。難病治験ウェブは、厚労科研「難病の克服に向けた研究推進と医療向上を図るための戦略的統括研究」の一環として、jRCT(Japan Registry of Clinical Trials)と連携し、製薬協や患者会から意見を収集して開発されている。難病治験ウェブでは、(1) 指定難病ごとの治験を、疾患名辞書を作成して初めて網羅的に抽出・整理し、(2) 募集前、募集中治験を主な対象として、(3)重要な項目を選別(目的、実施期間、問合せ先等)し、実施場所を地図表示(国内地方)している。現在、指定難病約100疾患を対象とする、約400件の治験情報を提供している。国内の治験・臨床研究情報は、jRCTに集約されているが、専門的な情報が多い。また、難病は疾患数が多く、登録疾患名の表記ゆれがあることから、目的の治験を探すことが困難である場合がある。難病治験ウェブは患者や家族のニーズに応えてこれらを解決し、治験の推進に寄与するデータベースとすることを目標としている。
#指定難病、#治験情報(募集前、募集中)、#疾患名等辞書、#わかりやすいUI、#カリ基金
31DDrare 〜 難病・希少疾患の臨床試験、開発薬、標的遺伝子/パスウェイのデータベース 〜
第1部○坂手龍一(NIBN)、深川明子(NIBN)、四宮典子(NIBN)、山口真利子(NIBN)、田辺麻央(NIBN)
難病・希少疾患の創薬開発においては、疾患の多さと患者の少なさによる情報不足が課題である。DDrare(ディーディーレア;ddrare.nibn.go.jp)は、この課題解決を目的として、指定難病の創薬情報を統合し、疾患横断的に比較・分析可能とするためのデータベースとして開発された。難病・希少疾患の臨床試験における開発薬の情報と、それらの標的遺伝子/パスウェイの情報とが紐づけされ、データベースとして公開されている。DDrareでは2025年8月の更新により、2025年4月時点の厚生労働省の指定難病348疾患のうち258疾患(74.1%)について、日米欧中の臨床試験39,610件の情報と、それらの標的遺伝子とパスウェイの情報を提供している。データの構築は、疾患名と薬物名について独自の辞書(日本語、英語、同義語等を含む)を作成し、これらをもとに行っている。患者数の多い疾患に臨床試験及び開発薬が多い傾向が見られるが、複数疾患間で共有されている開発薬も多い。それらの開発薬には、広く用いられている抗炎症薬等だけでなく、疾患特異的な遺伝子/パスウェイに関連するものも含まれている。このような情報は、疾患間での発症機序及び薬剤作用機序の共通性を探る手がかりとなり、新たなドラッグリポジショニング候補の探索が可能になると考えられる。
#指定難病、#臨床試験、#開発薬、#標的遺伝子/パスウェイ
32TogoVarの更新:国内データベースとの連携強化
第2部○三橋信孝(DBCLS)、守屋勇樹(DBCLS)、川嶋実苗(DBCLS)、細田 正恵(DBCLS)、川島秀一(DBCLS)、片山俊明(DBCLS)
TogoVar は、Japanese Genotype-phenotype Archive (JGA) に寄託された個人ゲノムの再解析結果や国内外のアレル頻度データベースを統合して構築したヒトゲノムバリアントデータベースであり、gnomAD など国際的データベースで不足する日本人の頻度情報を補う基盤である。本発表では、直近 1 年間で強化した国内データベースとの連携について報告する。Medical Genomics Japan Variant Database (MGeND) から臨床的意義が付与されたバリアント約 7.7 万件を追加し、ヒト・マウス間のゲノム配列類似性に基づいて対応づけたマウスバリアント (MoG+: Mouse genome database with high added value) を収録した。また、ミスセンス変異をタンパク質立体構造やアミノ酸配列上にjPOST のリン酸化部位、GlyCosmos の糖鎖修飾部位、UniProt の疾患関連変異と併せて表示し、位置関係を把握可能にした。次期リリースでは、バイオバンク・ジャパン (BBJ) 合計3000人の全ゲノム解析データおよび Joint Open Genome and Omics Platform (JoGo) や gnomAD-SV で特定された50bp以上の構造多型を収載予定である。
#Medical Genomics Japan Variant Database(MGeND)、#Mouse genome database with high added value (MoG+)、#jPOST、#GlyCosmos、#Joint Open Genome and Omics Platform (JoGo)
33個人志向のゲノムプラットフォームのデータ基盤:「誰もがアクセスできる、信頼のゲノム情報」に向けて
第3部○梅原千慶(ジーネックス)、八木研(ジーネックス)
ゲノム医療には、膨大なデータの分散、解釈の困難さ、倫理的懸念といった課題が伴います。私たちは、個人が自身のゲノムデータを活用し、自律的に健康管理する未来を見据え、以下の二つの柱を一気通貫で支援するプラットフォームを提供します。
第一の柱は、ゲノムデータの個人主導管理です。私たちは、個人から適切な同意を得て検体収集から全ゲノムシーケンシングまでを実施し、得られた生データを個人から預託された形で厳重に保管することで、データ・情報の利用に際して本人の意思が尊重される基盤を築きます。
第二の柱は、ゲノム情報の信頼性ある解釈と活用です。私たちは、GA4GHのGKSワークストリームが主導する標準技術を取り込み、生データからAI活用に最適な構造化バリアントデータを作成します。この構造化には、バリアントを一意に識別するVRSベースの技術を活用しつつ、VA-Specを試用することで、ハルシネーションの少ない、根拠が明確なアノテーション付きゲノムデータを構築します。このデータ基盤は、AIエージェントが信頼性の高い解釈を行うための土台となり、データの相互運用性と再利用性を高めます。
私たちは2022年から個人向け全ゲノム検査の提供を開始し、以来、ミトコンドリア病を始めとする希少疾患の病因バリアント探索と適切な医療への橋渡しに挑戦してきました。データ構造化基盤の高度化は、診断支援の効率化と対象疾患の拡大を可能にします。さらに、適切に非識別化された集約データをFAIRに活用する道筋をも拓きます。
私たちは引き続き、透明性と科学的誠実性を追求しながら、パーソナルゲノム医療・ゲノムヘルスケアの実現を目指します。
#全ゲノム、#個人向けゲノム検査、#難病・希少疾患、#Global Alliance for Genomics and Health (GA4GH)、#Genomic Knowledge Standards (GKS)
34表現型オントロジー(Mondo/MP)の日本語化による国際連携と活用
第1部○高月照江(DBCLS)、土肥栄祐(NCNP)、櫛田達矢(理研BRC)、桝屋啓志(理研BRC)、藤原豊史(DBCLS)
生物医学オントロジーは伝統的に英語で構築されており、非英語圏の研究者や医療関係者にとって、その利用および導入には言語的障壁が存在する。ヒト表現型オントロジー(Human Phenotype Ontology、HPO)は、13言語への翻訳により世界各国で広く活用され、多言語化がアクセシビリティの向上および国際的相互運用性の強化に寄与することを示してきた。この流れを受け、ライフサイエンス統合データベースセンター(DBCLS)は、Monarch Initiativeが開発する疾患語彙オントロジー(Mondo Disease Ontology、Mondo)およびMouse Genome Informatics(MGI)が開発する哺乳類表現型オントロジー(Mammalian Phenotype Ontology、MP)の日本語翻訳に着手し、2023年にMP、2024年にMondoの多言語版リリースに貢献した。現在もMGIおよびMonarch Initiativeとの国際連携のもと作業を継続している。2025年8月時点で、Mondoは全体の約8割に相当する22,392語彙、MPは全公開語彙14,313の日本語訳を提供しており、これらはBabelon形式でGitHub上に公開され、各オントロジーに自動統合されている。本取り組みにより、日本語化されたオントロジーは国内バイオメディカルサービスへの統合が容易となり、ユーザー環境の改善を促進するとともに、多言語化によって異なる言語圏間での相互運用性が強化され、国際的なデータ共有や共同研究の基盤としての役割を果たすことが期待される。
#ontology、#phenotype、#disease、#translation
35NanbyoData:難病研究・診療の促進に向けた国際連携および領域横断型連携
第2部○細田正恵(DBCLS)、申在紋(DBCLS)、高月照江(DBCLS)、三橋信孝(DBCLS)、菊池敦生(東北大)、藤原豊史(DBCLS)
難病オントロジー「NANDO」は、厚生労働省が定める指定難病341疾患および小児慢性特定疾病845疾患の病型分類を含め、網羅的に整理した難病名語彙集である。収載難病の約80%はOMIMやOrphanetなどの国際的な疾患データベースとリンクしており、国際的な情報統合と共有を可能にしている。NANDOを基盤として構築された「NanbyoData」は、疾患原因遺伝子、臨床的特徴、病的バリアント情報など難病関連情報を統合したポータルサイトである。さらに、厚生労働省が公表している難病の診断基準に記載された疾患原因遺伝子、糖鎖科学ポータルGlyCosmosの糖鎖関連情報、ボン大学で開発されたGestaltMatcher Databaseの顔貌表現型データを新に組み込み、より多くの領域を超えた情報統合を実現した。これにより、多様な難病関連情報が蓄積され、AIを活用した研究に資する環境も形成されつつある。このように、標準化された語彙と多様な難病関連情報を基盤に、NanbyoDataは日本発の難病研究基盤として発展を続け、国際的な難病研究連携の中で代表的な役割を担いつつある。
#難病・希少疾患、#オントロジー、#疾患原因遺伝子、#糖鎖関連情報、#画像診断・顔貌表現型データ
36PanelSearch:希少・難治性疾患診療の効率化に資する遺伝子パネル自動構築・検索システムの開発と評価
第3部○申在紋(DBCLS)、山口敦子(東京都市大)、川嶋実苗(DBCLS)、才津浩智(浜松医科大)、藤原豊史(DBCLS)
次世代シーケンシングの出現により希少・難治性疾患の診療・研究は大きく前進したが、依然としてバリアントの病的意義の解釈は困難である。近年、疾患関連遺伝子に基づく遺伝子パネルが、バリアントのフィルタリングに有用であると報告されている。しかし、PanelAppをはじめとする既存の遺伝子パネルリソースは収載数が限られており、特定の疾患群の診療に適合するパネルを探索することは容易ではない。そこで我々は、希少・難治性疾患領域における網羅的かつ効率的なパネル探索を可能にするために、PanelSearch(https://pubcasefinder.dbcls.jp/panelsearch)を開発した。本システムでは、オープンなデータベースとオントロジーを収集し、約9,000件の希少・難治性疾患に関連する遺伝子パネルを自動的に構築した。ユーザーはパネルを疾患名、遺伝子名、または表現型から検索でき、複数のパネルを組み合わせて、特定の診療・研究目的に合わせたカスタムパネルを作成できる。また、遺伝子パネルによってフィルタリングした候補遺伝子を、患者の表現型との関連性で順位付けすることも可能である。臨床症例を用いた評価では、既存手法と比較して疾患原因遺伝子の特定精度が向上し、バリアント解釈の負担軽減に寄与することが確認された。本システムは、APIを通じた解析パイプラインへの容易な統合も実現しており、臨床および研究における迅速なゲノム解析を支援する。
#Rare and intractable diseases、#Gene panel、#Variant pathogenicity interpretation、#Phenotype-driven gene prioritization
37大規模言語モデルを用いた複数情報源統合による希少疾患診療支援システム
第1部○吉桑実弥(東京大)、高月照江(DBCLS)、千葉啓和(DBCLS)、藤原豊史(DBCLS)、五斗進(DBCLS/東京大)
希少疾患の診断は、症例の希少さから困難を極める。従来のAI支援は構造化データに限定され、カルテ等の自由記述情報を活用できないという課題があった。本研究は、大規模言語モデル(LLM)を用い、特性の異なる複数の情報源からの検索結果を統合することで、より高精度で包括的な診療支援を実現することを目的とする。手法として、患者の表現型情報に基づき、本システムは3つの異なるアプローチを用いて情報を並行収集する。まず、PubCaseFinderのような構造化データを用いる疾患検索システムを用いて症状に合致する疾患候補を取得する。次に情報をベクトル化して意味検索を可能にするTogoSeekを用いて、医療情報データベースから疾患情報や症例情報を収集する。さらに、Web検索によって医療情報を広く探索する。最終的に、これら3系統から得られた情報をLLMが統合・分析する。その上で、候補疾患に優先順位とエビデンスを付与し、要約して提示する。評価にはPhenopacket Storeの症例データセットを用いた。その結果、単一の情報源に依存する場合に比べ、より網羅的で精度の高い候補疾患の提示が可能となった。本発表では、LLMが特性の異なる複数の情報を統合する上で重要な役割を果たし、医師の意思決定を強力に支援する次世代診療支援システムの中核となり得る可能性を示す。
#希少疾患、#LLM
38天然変性タンパク質データベース:IDEAL in 2025
第2部○太田元規(名古屋大)、安保勲人(前橋工科大)、佐久間航也(名古屋大)、嘉戸裕美子(名古屋大)、坂本盛宇((株)ホロニクス)、鹿間周子(名古屋大)、大安裕美(名古屋大)、高木大輔((株)ホロニクス)、山口敦子(東京都市大)、畠中秀樹(DBCLS)、小池亮太郎(名古屋大)、廣明秀一(名古屋大)、本間桂一(前橋工科大)、福地佐斗志(前橋工科大)
タンパク質の鎖の中で立体構造を形成しない領域、天然変性領域を持つタンパク質を天然変性タンパク質という。これらは生体内でシグナル伝達・転写調節といった重要な現象に関与している。我々はこれまで、文献から実験的に確認された天然変性領域および天然変性領域中の機能(結合)部位の情報を収集し、天然変性タンパク質データベース:IDEAL (https://www.ideal-db.org) を開発・運営してきた。昨年7月のバージョンアップでは、天然変性タンパク質が関与する生物学的プロセスをネットワーク記述言語:SBGNで表した。プロセスの素過程を酵素反応、結合・解離、局在移動とし、その組み合わせをノードとエッジからなるダイアグラムとして描画した。利用者はダイアグラムを閲覧することで、天然変性タンパク質の分子機能や関与する細胞機能を直感的に把握することができる。また、PhaSepDBなどの液滴関連タンパク質データベースへリンクを追加すると共に、天然変性領域の予測としてNeProcとAlphaFoldの結果を加えた。今年9月には新たに100程度のタンパク質について、アノテーションの公開を予定している。
#天然変性タンパク質、#SBGN、#液滴関連タンパク質
39蛋白質構造データバンクのデータ駆動型研究基盤への拡張
第3部○長尾知生子(大阪大)、工藤高裕(蛋白質研究奨励会)、BEKKER Gert-Jan(大阪大)、山下鈴子(大阪大)、横地政志(大阪大)、栗栖源嗣(大阪大)
蛋白質構造データバンク(Protein Data Bank:PDB)は蛋白質や核酸、糖鎖などの生体高分子の原子分解能の構造情報を集めた世界で唯一のデータアーカイブであり、2025年8月時点で24万件を超える構造データを提供している。これらの構造情報は、生命科学分野における生命現象の理解のみならず、医学・薬学、農学分野におけるイノベーションにも大きく貢献している。PDBjは、国際的組織であるwwPDBの一員として、共通した品質管理によるデータ登録とダウンロードサイトの運営を担うとともに、データベースへの登録と利用促進を目的とした独自のサービスやツールの開発・公開を行なっている。
本発表では、現在構築と改良を進めているUniProtやPubChemをベースとした統合利用ポータルについて紹介する。本ポータルでは、構造情報を他のデータベースと統合的に利用できるほか、PDBデータの品質管理のための検証レポートを利用した独自の構造ランキングなども提供している。このサービスは、構造生物学に限らず他分野の研究者による構造情報の活用を促進し、あわせて深層学習などのデータ駆動型研究への応用を推進する。
#蛋白質構造情報、#NMR実験情報、#検証レポート、#統合ポータル
40PDB登録システムOneDepの更新および構造登録と情報提供の進展
第1部○于健(大阪大)、BEKKER Gert-Jan(大阪大)、横地政志(大阪大)、岩田武史(大阪大)、丹羽智美(大阪大)、池川恭代(大阪大)、多久和綾子(大阪大)、栗栖源嗣(大阪大)
日本蛋白質構造データバンク(PDBj)は、2000年7月より大阪大学蛋白質研究所にて、蛋白質立体構造データの新規登録事業を開始しました。現在、wwPDBメンバーの一員として、主にアジア地域からの登録を担当しています。正確なデータキュレーションと構造情報の品質評価を行う検証レポートの提供を通じて、wwPDB全体で24万件を超えるエントリを収録し、高品質なデータアーカイブを構築してきました。これにより、高分子構造データを活用する多様な研究・産業分野のコミュニティに貢献しています。
wwPDBの構造登録システムであるOneDepは、国際的な協力により開発され、各諮問委員会の助言に基づいて新機能を追加することで、最新の実験手法にも対応可能な形へと継続的に改良されています。貴重な構造データの収集も引き続き強化しており、X線回折および電子顕微鏡データに関しては、それぞれXRDAおよびEMPIAR-PDBjのサービスを提供しています。さらに、NMRデータについては、既存のBMRBに加え、より柔軟性の高い新サービスであるBMRbigによるデータも受け付けています。また、統合的モデリング法によって得られた構造の登録システムPDB-IHMの日本語ウェブサイトも新たに開設しました。本発表では、これらPDBjの活動概要と最新の取り組みについて報告します。
#蛋白質立体構造 #実験生データ #X線回折 #NMR #統合的モデリング
41リッチなSNFG表現を実現する直感的糖鎖入力プラットフォーム
第2部○松原正陽(野口研)、木村直貴(野口研)、下山紘充(野口研)、木下聖子(創価大)、山田一作(野口研)
情報技術の発展に伴い、糖鎖研究分野でも、国内外の研究成果がデータベースで公開されてきた。我々は、これらの利用促進のため、あらゆる糖鎖構造を一意に表現できる表記法WURCS(Web3.0 Unique Representation of Carbohydrate Structures)や、糖鎖構造リポジトリGlyTouCanや糖鎖科学ポータルサイトGlyCosmosを開発した。その結果、各データベースが糖鎖構造を中心として連携され、分野横断的な糖鎖関連情報を、一つのサービスのように取得可能となった。一方、これらの情報にアクセスするためのインターフェースの充実が求められている。糖鎖構造を入力とするインターフェースとしては、これまでにGlycanBuilder等が開発されてきたが、例えば化学的な修飾には対応できない。今後の構造入力のニーズの多様化に備え、我々は、あらゆる糖鎖構造の入力と、糖鎖関連情報の検索や登録を行うためのインターフェースの開発に着手した。本発表では、GlycanBuilderを元にした新たなインターフェースの開発について報告する。特に、SNFG(Symbol Nomenclature for Glycans)表記への対応や、GlyCosmosなど、WURCSが必要なデータベースへのアクセスを容易にするための、入力構造のWURCSへの変換機能について紹介する。
#糖鎖構造、#入力インターフェース、#文字列変換、#データベース検索
42WURCSが持つ詳細な構造情報に基づくグラフ同型判定アルゴリズムの開発
第3部○伊藤俊介(野口研)、松原正陽(野口研)、山田一作(野口研)
我々はこれまでに、糖鎖構造を一意に表現する表記法WURCSから糖鎖構造をRDF表記で生成するツール(WURCS-RDF)および、糖鎖構造のRDFを検索するためのSPARQLクエリを自動生成するツール(WURCS-SPARQL)を開発してきた。これらのツールは、糖鎖科学ポータルGlyCosmosや国際糖鎖構造リポジトリGlyTouCanの検索システムに組み込まれ、現在広く利用されている。
しかし、RDFベースの検索では、特定構造に対する検索速度の低下や、取り扱える糖鎖構造の種類に制限があるといった課題が残っていた。そこで本研究では、WURCSの全情報を取り扱えるWURCSFrameworkと、部分グラフ同型判定アルゴリズムを組み合わせた新たな糖鎖構造検索ツールを開発している。このアルゴリズムの特徴は、単糖やグリコシド結合の一致関係を、包摂関係を含めて判定できることである。
性能評価として、GlyTouCanに登録された約25万件の構造を対象に全件検索を実施したところ、単一構造の検索を平均30秒で完了することを確認した(検索速度最適化前の結果)。今後の課題としては、検索速度の向上に加え、分岐の不確定性や繰り返し構造など、現状未対応の糖鎖構造への対応が挙げられる。また、将来的には糖鎖構造間の類似度評価など、さらなる応用展開を予定している。
#糖鎖構造、#グラフ探索、#データベース検索
43共通基盤を用いたプロテオームデータ管理システムの構築と多拠点展開に向けた運用設計
第1部○小池仁美(理研)、東裕介(理研)、鈴木健裕(理研)、大月香(理研)、中川れい子(理研)、堂前直(理研)、宮坂信彦(理研)、清水義宏(理研)、俣賀宣子(理研)、大浪修一(理研)
近年、ライフサイエンス分野では研究データ共有基盤の整備が進み、プロテオミクス分野でもProteomeXchangeコンソーシアムを通じた国際的な共有が拡大している。しかし、メタデータの不備や管理負担が再利用や統合解析の障壁となっている。我々は、多拠点で共通利用可能なプロテオームデータ管理システムを開発した。本システムは、バッファリングサーバー経由で計測機器から自動収集したデータを共有ストレージに集約し、主要ソフトウェア出力からのメタデータ自動抽出、CV(Controlled Vocabulary)による入力支援により、省力化とデータ品質向上を両立している。
多拠点展開を可能にするため、フォームレイアウトと処理ロジックを分離し、拠点ごとの差異を最小限の変更で適用可能とした。さらに、電子ラボノート(elabFTW)をクラウド環境に展開し、API連携により記録とデータの相互参照を実現した。また紙媒体を好む利用者への配慮として、スマートペンによる筆記内容のデジタル転送や、スキャン・撮影による自動取り込み機能も検討しており、既存ワークフローを保ちながら電子化への移行を促進する。今後はUI改善やjPOST自動登録機能の強化を進め、再利用可能なデータ共有基盤としての完成度を高める。
#Digital Transformation(DX)、#Laboratory Automation、#Electronic lab notebook (ELN)、#Metadata Management、#Data Science
44AI 駆動大規模データ解析時代を見据えた質量分析データリポジトリの新展開
第2部○高橋悠志(新潟大)、吉沢明康(新潟大)、松田史生(大阪大)、木下聖子(創価大)、石濱泰(京都大)、奥田修二郎(新潟大)
近年の AI 関連技術の急速な発展に伴い、生体分子同定の必須ツールである質量分析由来のデータも、これまで以上に積極的に解析に活用されることが見込まれる。このような時代に先駆け、我々は世界中の研究者から質量分析データの寄託を受けてこれを蓄積し、FAIR 原則に従ってインターネット上で公開する情報基盤として、これまでにプロテオミクスにおける jPOST リポジトリ、グライコミクスにおける GlycoPOST、メタボロミクスにおける MB-POST という複数のデータリポジトリを開発してきた。MB-POST は昨年末に一般公開され、既に約 80 プロジェクトが登録されている。jPOST リポジトリでは JPDM (Journal of Proteome Data and Methods) のデータ記述論文中に記載されたメタデータを活用し、既存のプロテオミクス実験データの再解析を進めてきた。しかし、再解析は手作業でのメタデータの確認や微調整が必要なケースが多く、再解析プロセスを効率的に進めるためにはメタデータの品質管理の重要性が明らかとなってきた。実験データへの適切なメタデータ付与は AI 技術を活用した大規模解析を推進する上でも今後より重要になると考えられる。そこで、我々は現在 JPDM メタデータのためのバリデータを開発している。本発表では各データリポジトリの最近の進展と、このバリデータの概要を紹介する。
#データリポジトリ、#質量分析、#メタデータ
45メタデータ対メタデータ:異なるオミクス間でのメタデータの翻訳を目指す
第3部○吉沢明康(新潟大)、高橋悠志(新潟大)、石野公基(新潟大)、奥田修二郎(新潟大)
データリポジトリの意義は、例えばメタ解析、即ち多数のデータの解析結果から全体の傾向を見出す解析のような、データを再利用する研究に資することである。公開データから各オミクスのメタ解析を行い、その結果を統合する“疑似トランスオミクス解析”研究は今後の増加が予想され、それに備えることはまた、データリポジトリの今後の課題と考えられる。
しかし実際には、メタデータの項目・用いられている統制語彙などはオミクスによって異なり統一されていない。例えば最も直截的なトランス解析は、トランスクリプトミクスとプロテオミクスの組み合わせであるが、トランスクリプトミクスで用いられるBioSampleのような「メタデータのパッケージ管理」はプロテオミクスでは用いられていないため、試料情報の突き合わせすら困難である。また質量分析を用いたオミクス解析では、プロテオミクスとメタボロミクスが最も類似性が高いと言われるが、「どのファイルはどの試料の測定結果か」という情報は、プロテオミクスではメタデータの一部として扱われるのに対し、メタボロミクスでは結果の一部として扱われている。
このようにオミクス間での差異が大きいという問題に対応するため、我々はまず、プロテオミクスとメタボロミクスのリポジトリで収集するメタデータの相違点と対応関係について、組織的な調査を開始した。本発表ではこの調査とその発展について論じる。
#メタデータ、#再解析、#メタ解析、#プロテオミクス、#メタボロミクス
46異なる実験条件で得られたプロテオームデータの統合ネットワーク解析とエンリッチメント解析
第1部○西崎愛花(北里大)、荒木令江(熊本大)、河野信(北里大)
jPOST をはじめとする ProteomeXchange リポジトリから様々な実験で得られたプロテオームデータがオープンデータとして公開されている。プロテオームの解析を行う際には一つのデータのみならず、異なる施設や異なるサンプルから得られたデータを統合して比較できると有用である。しかしながら、これらの異なる実験条件で得られたデータを単純に比較することは難しい。メタボロームの分野では異なる実験条件のデータを、ネットワークを作成して解析する試みがなされている(Matsuta et al.)。そこで、今回の研究では異なる実験条件で得られたプロテオームデータを統合してネットワークを作成し解析を行った。
PRIDE の生データをquantMS(Dai et al.,)ワークフローで再解析したデータを利用してネットワークを作成した。今回はラベル化定量のデータで実験群間で比率が計算されている 36 プロジェクトのデータを使用した。また、CPTAC(Edwards et al.)からラベル化定量された49プロジェクトのデータを取得して、quantMSのデータと統合して解析を行った。
本発表では、quantMSとCPTACのデータを統合して形成されたネットワークから見えてきたプロテオーム実験群間での関係性について明らかになったことについて紹介する。
#プロテオーム、#ネットワーク解析、#データ統合
47大規模メタボローム統合解析プラットフォームintegMET
第2部○早川英介(九工大)、西田孝三(理研)、高橋みき子(理研)、岡昂輝(農工大)、松田りら(HMT)、山本博之(HMT)、津川裕司(農工大)、河野信(北里大)
メタボロミクスは、代謝物を網羅的に分析することで様々な生命現象の背後の代謝変動を明らかにする重要な手法であり、現在では様々な研究分野で利用されている。近年ではメタボロミクスのデータレポジトリに大量のデータが登録されている一方で、分析プラットフォーム、測定条件の違いなどの理由で異なる研究間での直接比較や再利用は依然として困難である。本研究では、公共リポジトリから収集した膨大なメタボロミクスデータに対し、代謝物の変動類似性を定量化するiDMET法を用いて研究横断的に代謝変動をグラフ構造としてモデル化を行なった。同時に、種や疾患、実験条件などの研究情報をNLPおよびLLMを活用することで抽出して標準化を行い代謝変動グラフ構造に統合した。これらの豊富な情報を内包するメタボローム統合データはグラフベースNeo4j上にノード/リレーションとして統合・整備することで、複雑かつ多層的なメタデータと代謝変動情報を緊密に連携させ、統合的な再解析を可能にした。本研究により膨大なメタボロミクス研究を一元的に再解析できるようになり、新たな仮説立案や新規バイオマーカー候補発見を促進することが期待できる。
#代謝物、#メタボロミクス、#グラフ、#再解析、#統合データ
48mzTab-M 2.1 へ向けて - 小分子質量分析結果の報告のための HUPO-PSI 標準フォーマットの進化
第3部○西田孝三(理研)、LOUAIL Philippine(Eurac Research)、YUREKTEN Ozgur(EMBL-EBI)、NEUMANN Steffen(IPB)、高橋みき子(理研)、早川英介(九工大)、松沢佑紀(農工大)、津川裕司(農工大)、HOFFMANN Nils(FZJ)
質量分析法(MS)は現代の大規模メタボロミクス研究において中核的な役割を担っているが、中間段階および最終段階におけるMSデータ解析結果のデータフォーマット標準化が未整備であるため、データ共有、データベース登録、再解析の発展に制限がかかってしまっている。
この課題に対処するため、HUPO Proteomics Standards Initiative (HUPO PSI) および Metabolomics Standards Initiative (MSI) は、MSベースのメタボロミクスデータを報告するためのオープン標準として、mzTab-M 2.0.0規格を2019年に策定した(同規格は学術論文として発表されている)。
mzTab-Mは、人間による可読性と計算機処理の双方を考慮した、タブ区切りテキスト形式を採用している。
この形式はJSONスキーマを基盤としており、統制語彙によって定義されたメタデータによる補完が可能である。
フォーマットの詳細は仕様文書に詳述されており、参照実装とバリデータがデータの品質と一貫性を保証する仕組みとなっている。
このフォーマットは、最終定量値やそれらの値を生のMS特徴量に結びつける同定根拠情報を含め、メタボロミクス解析結果を包括的に表現するよう設計されている。
本ポスターでは新たなバージョン2.1.0に向けたmzTab-Mを取り巻く環境の進展を紹介する。
#質量分析、#メタボロミクス、#データフォーマット標準化
49研究データ管理の知識を好循環させる情報サイト:RDMkit-jp
第1部○南山泰之(東大)、塩谷昌之(東大)、大波純一(理研)、増井誠生(NII)、長岡千香子(NII)、古川雅子(NII)
限られた資源の中でより効果的な研究活動を実施するため、研究データ管理(Research Data Management; RDM)の重要性は、以前よりもさらに高まりつつある。2026年度から始まる内閣府の第7期科学技術・イノベーション基本計画においても日本の研究パフォーマンスを最大化する方針が掲示されており、知識を好循環させるためのRDMが下地となっていくことが考えられる。生命科学分野の国際的なプロジェクトであるELIXIR-CONVERGEプロジェクトでは、RDMの情報提供サイト「RDMkit」からこのような知識を公開し、研究者やデータ管理者向けの啓蒙に努めている。RDMkitの取り組みを参考に、我々は2023年に「RDMkit-jp」を新しく構築し、国立情報学研究所より公開した。サイト内にはRDMに関するノウハウ、ツール、事例、ベストプラクティスを掲載している。今後も研究コミュニティからのフィードバックを受け、日本の学術研究が円滑化されるようさらなる拡充を進めていく。
#RDM、#オープンサイエンス、#FAIR原則
50理研BRCカタログデータ情報環境整備とDNAリソース提供業務の高度化
第2部○大波純一(理研BRC)、笹沼俊一(理研BRC)、野﨑晋五(理研BRC)、中村宣篤(理研BRC)、村田武英(理研BRC)、櫛田達矢(理研BRC)、臼田大輝(理研BRC)、栗原恵子(理研BRC)、湯原直美(理研BRC)、並木由理(理研BRC)、桝屋啓志(理研BRC)、三輪佳宏(理研BRC)
理化学研究所バイオリソース研究センター(BRC)では、文部科学省ナショナルバイオリソースプロジェクト (NBRP) の中核機関が複数稼働し、リソースの提供事業を行っている。この中の遺伝子材料開発室では、各種生物のゲノムライブラリや可視化レポーターとして利用可能な発現ベクター、ゲノム編集及び遺伝子導入用プラスミドクローン等をDNAリソースとして提供している。近年、BRC統合情報開発室と共同でカタログデータやWebインターフェースの高度化に取り組んでおり、利用者が求めるDNAリソースに円滑にアクセスできる情報環境が整備されつつある。開発室内部ではベクターや反復配列のデータベースをカスタマイズしてBLAST配列検索に搭載し、提供リソース検査の高度化も実現した。さらに利用者のアクセス情報をリアルタイムでモニタすることができるようになり、実物リソースの調製準備を注文に先んじて実施することも可能となった。高品質なDNAリソースをスピーディに提供することで、より利用者の満足度を高め、研究活動の推進に貢献する。
#バイオリソース、#遺伝子材料、#カタログデータベース