国立研究開発法人 科学技術振興機構

ポスター発表

ライトニング・トーク (12:35~13:35) のみライブ配信いたします。ポスター・セッション (13:35~15:50) 自体の配信はいたしません。

番号 タイトル・代表発表者
1 第1部 LLM を用いた BioSample データベースメタデータの品質向上
池田 秀也 (DBCLS)
2 第2部 NCBI塩基配列データベースに蓄積するエラー解析
三輪 佳宏 (理研)
3 第3部 DDBJが提供するグループ共有サービス
藤澤 貴智 (遺伝研)
4 第1部 個人志向のゲノムプラットフォームの基盤構築
梅原 千慶 (ジーネックス)
5 第2部 TogoVarの更新:疾患および国内地域別に集計されたアレル頻度およびジェノタイプ数の公開
三橋 信孝 (DBCLS)
6 第3部 JoGo: Japanese Open Genome Omics Platform 1.0に向けた取り組みについて
長﨑 正朗 (九州大)
7 第1部 fanta.bio: ゲノム中の転写活性に関わる機能領域に関するデータベース
粕川 雄也 (理研IMS)
8 第2部 ChIP-Atlas:エピゲノミクス統合データベース
沖 真弥 (熊本大)
9 第3部 DeepSpaceDB: an interactive database for spatial transcriptomics data
VANDENBON Alexis (京都大)
10 第1部 蛋白質構造データバンクのデータ駆動型研究基盤への拡張
栗栖 源嗣 (大阪大)
11 第2部 PDB登録システムの進展と蛋白質立体構造解析手法別の実験生データ収集活動
岩田 武史 (大阪大)
12 第3部 天然変性タンパク質データベース:IDEAL in 2024
太田 元規 (名古屋大)
13 第1部 AI 駆動型データキュレーションによる持続可能な中分子相互作用統合データベースの開発
池田 和由 (理研)
14 第2部 異なる実験条件で得られたプロテオームデータの統合ネットワーク解析
西崎 愛花 (北里大)
15 第3部 Mock community と日本人腸内細菌叢データを用いたメタプロテオーム解析手法の評価
福本 亮太 (北里大)
16 第1部 From JPDM to jPOST:データ論文を用いたデータ再解析の半自動化
吉沢 明康 (新潟大)
17 第2部 糖鎖科学ポータル GlyCosmos Portal v4 の改良
塩田 正明 (創価大)
18 第3部 GlyCosmos RDFのアップデートとデータの拡充
小野 多美子 (創価大)
19 第1部 糖鎖関連データベースの連携促進と機能更新(ACGG-DB)
新町 大輔 (産総研)
20 第2部 LM-GlycoRepo: a new repository system for lectin-based multimodality data
Patcharaporn Boottanun (産総研/創価大)
21 第3部 GRable Version 1.0:質量分析によるグライコプロテオーム解析を加速するソフトウェア
岡谷 千晶 (産総研)
22 第1部 ノンターゲットメタボロミクスデータの利活用に向けたMassBank HumanとMassBank in silicoの開発
鳥越 大平 (九州大)
23 第2部 質量分析データ利活用に向けたMassBank Links環境の整備
津川 裕司 (農工大)
24 第3部 大規模メタボロミクスデータの再解析を実現する統合プラットフォームの構築
早川 英介 (理研/九工大)
25 第1部 マルチオミクス質量分析データの蓄積と再解析を支えるデータリポジトリ基盤
高橋 悠志 (新潟大)
26 第2部 プロテオームデータ管理・共有システムの構築
小池 仁美 (理研)
27 第3部 バイオイメージデータを管理・共有するためのプラットフォーム構築
東 裕介 (理研)
28 第1部 SSBD:バイオイメージングデータのグローバルな共有
糸賀 裕弥 (理研)
29 第2部 グローバルなバイオイメージングデータ共有に向けたメタデータとデータフォーマット
京田 耕司 (理研BDR)
30 第3部 グローバルなバイオイメージングデータ相互運用性実現に向けたオントロジー分析
山縣 友紀 (理研R-IH/理研BRC)
31 第1部 RDMkit-jp:研究データ管理(RDM)の知識や情報を共有するサービス
大波 純一 (理研)
32 第2部 理研BRCが提供する遺伝子材料リソースの構成とBackbone情報に基づく系譜の分析
笹沼 俊一 (理研)
33 第3部 研究用細胞検索ポータルサイト「細胞検索ひろば」について
田中 嘉一 (NIBIOHN)
34 第1部 DBRP(生物資源データプラットフォーム)のアップデートおよびデータベース横断検索システムの公開
八塚 茂 (NITE)
35 第2部 微生物有害情報リストの構築及び更新における取り組み
木村 明音 (NITE)
36 第3部 種ごとに集計した微生物培養条件の検索API開発
大塚 梨沙 (NITE)
37 第1部 マイクロバイオーム研究を先導するハブとなるMicrobiome Datahubの開発
森 宙史 (遺伝研)
38 第2部 MBGD 2024: ゲノム・メタゲノム機能解析に向けた微生物比較ゲノムデータベースの改良
内山 郁夫 (基生研)
39 第3部 女川湾のプランクトン動態解明に向けたゲノム解析基盤の整備
大林 武 (東北大)
40 第1部 植物の遺伝子共発現データベースATTED-II version 12.0
大林 武 (東北大)
41 第2部 KEGG MEDICUSにおけるウイルスタンパク質のオーソログデータベース
孟 令杰 (京都大)
42 第3部 ヒトウイルス疾患における感染サイクルの知識グラフ作成
櫛田 達矢 (理研BRC)
43 第1部 創薬標的候補遺伝子選定・検証のためのツール「遺伝子情報検索システム(GIS2)」の構築
池田 大祐 (大塚製薬)
44 第2部 PanelSearch:難病遺伝子パネル構築を支援するウェブサービス
申 在紋 (DBCLS)
45 第3部 難病データの統合および国際共有に向けた取り組み
藤原 豊史 (DBCLS)
46 第1部 難病・希少疾患の症例報告を用いた、言語資源作成における課題
土肥 栄祐 (NCNP)
47 第2部 医療情報のデータ統合・共有に役立つ医療オントロジーの日本語化と国際共有について
高月 照江 (DBCLS)
48 第3部 BioMedicalDataExplorer - A Customized GPT for Accessing Bio-Medical Databases
金 進東 (DBCLS)
49 第1部 様々な大規模言語モデル (LLM) を実行・評価するための環境構築
千葉 啓和 (DBCLS)
50 第2部 RDF portal
川島 秀一 (DBCLS)
51 第3部 RDFポータルに含まれる同義URIデータベースの構築
山本 泰智 (DBCLS)
52 第1部 テンソル分解を用いた教師なし学習による変数選択法
田口 善弘 (中央大)
53 第2部 RAGによる既存情報をLLMに活かす試み
樋口 千洋 (NIBIOHN/医科歯科大)
54 第3部 Integbio データベースカタログ・生命科学系データベースアーカイブの紹介
井手 隆広 (NBDC)

[1] LLM を用いた BioSample データベースメタデータの品質向上

第1部

○池田秀也(DBCLS)、守屋勇樹(DBCLS)、川島秀一(DBCLS)、坊農秀雅(広島大/DBCLS)、鄒兆南(熊本大)、沖真弥(熊本大)、大田達郎(千葉大/DBCLS)

BioSample は、実験に用いられた生物学的サンプルのデータベースであり、サンプルの性質を記述したメタデータを蓄積している。メタデータの記法の多くは投稿者の裁量に委ねられているため、同一の実験条件であっても投稿者によって異なる記述がされており、データの再利用性を低下させる要因となっている。これまでに、メタデータをオントロジーにマッピングすることで検索性を向上させる試みがなされてきたが、事前に定めたルールベースで行う手法では文脈を解釈するのに限界があった。そこで我々は、大規模言語モデル (LLM) を用いてメタデータを解釈し、オントロジーにマッピングするべき文字列を抽出することを試みた。抽出の精度を定量化するため、ChIP-Atlas で蓄積されたマニュアルキュレーションの結果を利用して、細胞株を意味する文字列を抽出するタスクのテストセットを作成した。これを用いた評価の結果、LLM による抽出によって、従来のルールベースの手法と比較して精度を落とすことなく再現率を高めることができることを確認した。本発表では、LLM の活用により、自然言語で記述されたメタデータの品質を向上させ、実験データの再利用性を改善することができることについて報告する。

#メタデータ、#オントロジー、#LLM、#キュレーション

[2] NCBI塩基配列データベースに蓄積するエラー解析

第2部

○三輪佳宏(理研)、飯田哲史(理研)、野﨑晋五(理研)、木嶋順子(理研)、岸川昭太郎(理研)、中島謙一(理研)、笹沼俊一(理研)、大波純一(理研)、中村宣篤(理研)、村田武英(理研)

理化学研究所バイオリソース研究センター遺伝子材料開発室(DNA Bank)は、1992年の発足以来、ヒト、動物および微生物由来のcDNAクローン、発現ベクター、ゲノムDNA等を収集し、厳格な品質管理を行い、信頼性の高い研究材料として国内外に提供している。
2021年からはハイスループットシークエンサーの導入を進め、これまでのSanger法による部分配列検査を主とした品質管理から、寄託直後のプラスミドの全配列検査に切り替えて、より高度な検査体制に移行した。そこで、蓄積された膨大な塩基配列データをもとに、NCBIの国際的塩基配列データベースに登録された配列データの検証を開始した結果、実験精度の低さに起因すると考えられる配列エラーや、人為的な原因に起因すると思われる配列エラーを続々と発見している。
一方、近年ではDNA合成がどんどん安価になり、遺伝子バンクからリソースを受け取るだけでなく、データベースに登録された配列データを参照して全合成するケースも増えつつある。これは、配列の信頼性が担保されていて初めて可能なことであり、エラーが蓄積している現状は非常に危険な状態である。
そこで今回は、発見したエラーを生物系月刊誌に「配列探偵」シリーズとして定期連載している内容を中心に、塩基配列データベースのエラーの実態を報告し、信頼性の回復に向けた今後のあり方について議論する。

#塩基配列、#エラー、#ハイスループットシークエンシング、#NCBIデータベース

[3] DDBJが提供するグループ共有サービス

第3部

○藤澤貴智(遺伝研)、荒武(遺伝研)、児玉悠一(遺伝研)、福田亜沙美(遺伝研)、谷澤靖洋(遺伝研)、丹生智也(遺伝研)、小笠原理(遺伝研)、中村保一(遺伝研)、有田正規(遺伝研)

DDBJセンターは、 国立遺伝学研究所スーパーコンピュータの計算機リソースを利用して国内外の生命科学研究から産出されるデータの収集・共有を行うと共に、解析プラットフォームを提供している。また、NCBI、EBI と共同運営する国際塩基配列データベース INSDCを中心にデータベースの構築・運用をしている。DDBJセンターが提供するデータベース・レポジトリは、塩基配列データ(DDBJ)、新型シークエンスサーが産出するデータ(DRA)、機能ゲノミクスデータ(GEA)、研究プロジェクト・サンプル情報のメタデータ(BioProject・BioSample)、メタボローム研究データ(MetaboBank)と多様なデータ種別を扱っている。また、NBDCと共同でヒト制限公開データベース(JGA)も運用している。
さらには、DDBJが運用するデータベースへの登録・解析支援するデータ共有サービス「DDBJグループクラウド」を提供している。ヒト由来試料を扱う場合、データ共有指針に基づく運用によってJGAと同様にデータ登録と利用を審査する。これまでにおいて、AMED genome group sharing Database(AGD)やSIP Healthcare group sharing Database (SHD)の運用実績がある。2023年度からヒト由来試料以外のデータ共有サービスも提供を開始した。

#データベース、#レポジトリ、#データ共有、#データバリデーション、#データ解析

[4] 個人志向のゲノムプラットフォームの基盤構築

第1部

○梅原千慶(ジーネックス)、八木研(ジーネックス)

国家レベルの集中型データセットと同じく、小グループや個人から生じる分散型データセットもまた貴重です。この視点は、シチズンサイエンス、責任ある研究・イノベーション(RRI)、患者・市民参画(PPI)などの語句に見られるように、データの民主化やデータ・オーナーシップといった価値観や倫理的意義と深くかかわります。
今回の発表では、「個人が自らのデータを持ち、考え、行動する」という私たちのビジョンを体現する、ゲノム関連イニシアチブのコンセプトと初期開発状況を示します。私たちは検査サービスを通じて、全ゲノムまたはエクソームの解析で得られた変異リストを個人顧客へ返却しています。その基盤となるデータベースは、FAIR原則を重視し、リンクトオープンデータ(LOD)の理念で設計されています。また私たちは、GA4GH標準を意識して、社内外専門家や人工知能(AI)が最新の洞察を素早く収集できる仕組みを準備しています。この基盤を活用して完成した顧客向け個別レポートは、精密医療を提供する第三者に参照されることが期待されます。さらに私たちのフレームワークは、同意する顧客が相互運用可能な形式でデータを提供することで、研究に参加できる道を開きます。
私たちは、倫理的・法的・社会的問題(ELSI)に対処しながら、既存の医療システムと共存し補完し合います。その展開の第一歩として、難病かつ希少疾患であるミトコンドリア病の遺伝子検査をサポートするために、附属病院を持つ大学へソフトウェアの提供を始めました。診断と治療に間接的に貢献することで、私たちはゲノムデータを個人の健康記録(PHR)として活用するモデルを提示できると考えています。

#ゲノムデータ、#全ゲノム、#個人向けゲノム検査、#PHR、#難病・希少疾患

[5] TogoVarの更新:疾患および国内地域別に集計されたアレル頻度およびジェノタイプ数の公開

第2部

○三橋信孝(DBCLS)、川嶋実苗(DBCLS)、守屋勇樹(DBCLS)、豊岡理人(富山国際大)、高木利久(富山国際大)、川島秀一(DBCLS)、片山俊明(DBCLS)

TogoVarは、国内の複数のヒトゲノム研究で検出されたバリアントのアレル頻度を、The Genome Database (gnomAD) の非日本人集団のデータと比較可能な形式で提供しているアレル頻度の参照データベースである。さらに、バリアントの解釈を支援するため、AlphaMissenseによる病原性予測を含むEnsembl Variant Effect Predictor (VEP)が計算した注釈情報や、ClinVarの臨床的意義、関連文献情報も収録している。利用者は集団別の頻度や注釈情報を条件にクエリーを作成しバリアントを検索できる。
2024年6月には、2つの新たなデータセットを追加した。ひとつは、バイオバンクジャパン (BBJ) が集めた45疾患にわたる182,557人のSNPアレイ解析データに基づく、疾患単位の男女別アレル頻度およびジェノタイプ数である。もうひとつは、ナショナルセンターバイオバンクネットワーク (NCBN) が収集した9,290人の全ゲノムシーケンスデータから得られた、本州および琉球集団のアレル頻度とジェノタイプ数である。これにより、既に収録されている東北メディカルメガバンクの54KJPNデータとあわせて、国内の大規模バイオバンクからの頻度データが検索可能になった。

#ヒトゲノムバリアント、#アレル頻度、#ジェノタイプ数、#AlphaMissense、#Ensembl Variant Effect Predictor (VEP)

[6] JoGo: Japanese Open Genome Omics Platform 1.0に向けた取り組みについて

第3部

○長﨑正朗(九州大)、河合洋介(NCGM)

JoGo (Japanese Open Genome Omics Platform)は、全ゲノムの塩基配列レベルまで研究利用公開されているバイオバンクの試料から、新たに取得した日本人の長鎖型全ゲノム情報、クロマチンアクセシビリティ、トランスクリプトームなどのオミクス情報を統合した情報を提供することを目標としたポータルである。また、これらの情報について、CoLoRSなどの国際連携を通じて、長鎖型全ゲノム情報解析パイプラインと統一することで将来的に数千人規模の海外のデータとの比較ができるデータベースとすることを目標にしている。さらに、国内のゲノムポータルデータベースであるMGeNDやTogoVarとの連携を進めている。この活動を通じて、塩基配列レベルから解釈できるヒトゲノムオミクス情報基盤ポータルを整備することで、日本のデータサイエンス・バイオインフォマティクスの研究はもとより、教育にも活用できるデータベースとなる。本ポスターでは、現在進めているJoGo第1版公開に向けたポータル整備現状を中心に説明を行う。

#ヒト全ゲノム、#長鎖型シークエンス、#研究教育データ

[7] fanta.bio: ゲノム中の転写活性に関わる機能領域に関するデータベース

第1部

○粕川雄也(理研IMS)、Scott Walker(理研IMS)、長谷川哲(理研IMS)、Nishad Thalhath(理研IMS)、信定知江(理研IMS)、高田豊行(理研BRC)、桝屋啓志(理研BRC)、川路英哉(都医学研)

転写はゲノム中の様々な機能エレメントやゲノム状態によって制御されており、転写制御の理解には、これらの情報の網羅的収集・解析とその理解が必要不可欠である。そこで、我々はゲノム中の転写活性に関わる機能アノテーション情報の集約を目的としたデータベースであるfanta.bio (https://fanta.bio/) の公開を2023年に開始した。現時点ではヒトおよびマウスゲノム中のプロモーター、エンハンサーといった転写制御に関わる「シスエレメント」について、シスエレメント領域の位置、様々な細胞種・細胞株・組織における各シスエレメントの活性、シスエレメントに関係するゲノム変異といった情報があり、ユーザはその探索やデータの入手が可能となっている。また本データベースは転写制御に関わる統合的なデータ基盤の構築を目指したINTRARED (https://www.intrared.org/)の活動の一環として行われ、その枠組みを通じて、ChIP-Atlas (https://chip-atlas.org/)、MoG+ (https://molossinus.brc.riken.jp/mogplus/)、TogoVar (https://togovar.org/)とのデータベース間連携も進めている。本発表ではfanta.bioデータベースおよびINTRAREDの活動について紹介する。

#シスエレメント、#転写制御、#ヒト・哺乳類、#ゲノムエレメント

[8] ChIP-Atlas:エピゲノミクス統合データベース

第2部

○沖真弥(熊本大)

ChIP-Atlas (https://chip-atlas.org) は、世界中のChIP-seq, ATAC-seq, Bisulfite-seqデータを全て統合したエピゲノミクスデータベースである。誰でも簡単に利活用するためのデータマイニングツールを提供しており、興味の遺伝子座やその周辺におけるオープンクロマチン領域や高・低メチル化領域、さらにそこに結合する転写因子やヒストン修飾などを視覚的に理解できる。さらにその膨大なビッグデータをフル活用したデータマイニングも簡単に実施できる。さらに最近のアップデートによりさまざまなゲノムアノテーション情報が統合され、ChromHMMやFANTOM5データなどのプロモーター・エンハンサー情報、GWASで得られた疾患関連SNP、Hi-CやeQTLデータによる染色体高次構造情報などを閲覧できる。

#ChIP-seq、#ATAC-seq、#Bisulfite-seq

[9] DeepSpaceDB: an interactive database for spatial transcriptomics data

第3部

○VANDENBON Alexis(京都大)

空間トランスクリプトミクスは、組織内の遺伝子発現を空間的配置、細胞機能、疾患状態と関連付けて研究する手法。ただし、実施には多大な財政リソースとバイオインフォマティクスの経験を要する。そこで、さまざまな組織の空間トランスクリプトームデータを、誰もが簡単に高度なレベルで解析できるようにする「DeepSpaceDB」を紹介する。現在、1,000以上のVisiumデータセットを収録し、各サンプルの品質を他サンプルと比較可能。2百万以上のスポットに手動アノテーションを付与し、組織構造の解釈を容易にしている。また、スポットの遺伝子発現比較や類似スポットの検索、空間的に可変な遺伝子と生物学的経路、細胞型組成の推定も可能。DeepSpaceDBは新たな仮説生成やデータ解析の支援に有用と考えられ、www.DeepSpaceDB.comで公開中。

#空間トランスクリプトーム、#遺伝子発現、#組織、#疾患状態

[10] 蛋白質構造データバンクのデータ駆動型研究基盤への拡張

第1部

○栗栖源嗣(大阪大)、工藤高裕(蛋白質研究奨励会)、Gert-Jan Bekker(大阪大)、山下鈴子(大阪大)、横地政志(大阪大)

蛋白質構造データバンク(Protein Data Bank:PDB)は蛋白質や核酸、糖鎖等の生体高分子の原子分解能の構造情報を集めた世界で唯一のデータアーカイブです。PDBの構造情報に基づいて、高次の生命機序までを合理的に説明しようとする構造生物学が、医学・薬学、農学等と強く結びつき、創薬等バイオ産業への応用によりイノベーションに大きく貢献しています。本発表では、構造生物学の基盤データベースであるPDBとBMRB(NMR実験情報データバンク)を、日米欧の国際協力により、安定的に構築・公開する活動の最近の話題を紹介するとともに、データ品質管理のための検証レポートをデータ利用にも拡張する計画について紹介します。また、PDBjにさまざまな統合利用ポータルを構築して機械学習用選抜データセットを公開する計画や、他のデータベースと統合的に利用できるデータベース利用サービスの開発状況についても紹介します。さらに、データベースへの登録と利用を促進するために継続的にPDBjで開発してきたサービスやツール類についても詳しくご紹介いたします。

#蛋白質構造情報、#NMR実験情報、#検証レポート

[11] PDB登録システムの進展と蛋白質立体構造解析手法別の実験生データ収集活動

第2部

○岩田武史 (大阪大)、横地政志 (大阪大)、池川恭代 (大阪大)、多久和綾子 (大阪大)、Bekker Gert-Jan (大阪大)、常住規代 (大阪大)、宮ノ入洋平 (大阪大)、栗栖源嗣 (大阪大)

PDBjは、年間4000件以上の生体高分子の立体構造データを受け付けています。的確なデータキュレーションサービスに加えて、構造情報の品質評価を行う検証レポートの提供を通じて、wwPDB全体で計22万件を超す高品質なデータアーカイブを構築し、分子の立体構造を利用する様々なコミュニティに貢献しています。
wwPDBのデータ登録システムである国際共同開発のOneDepは、各諮問委員の提言をもとに機能を追加し、最新の実験手法に対応できるように改良し続けています。
また、将来の技術開発のための基盤データの整備や、第三者による解析結果の妥当性評価を可能にすることを目的として、PDBjは研究者の貴重な実験生データの収集を強化しています。X線回折データと電子顕微鏡データについては、それぞれXRDAとEMPIAR-PDBjという受付サービスを提供しています。さらに、核磁気共鳴に関しても、従来のBMRBに加え、新たに柔軟性の高いBMRbigと呼ばれるデータ受付を開始し、蛋白質立体構造解析の主要な3手法を網羅できる体制を整えています。
本発表では、これらの活動について紹介します。

#蛋白質立体構造、#実験生データ、#X線回折、#電子顕微鏡、#NMR

[12] 天然変性タンパク質データベース:IDEAL in 2024

第3部

○太田元規 (名古屋大)、安保勲人 (前橋工科大)、佐久間航也 (名古屋大)、嘉戸裕美子 (名古屋大)、坂本盛宇 ( (株)ホロニクス)、鹿間周子 (名古屋大)、大安裕美 (名古屋大)、高木大輔 ( (株)ホロニクス)、山口敦子 (東京都市大)、畠中秀樹 (DBCLS)、小池亮太郎 (名古屋大)、廣明秀一 (名古屋大)、本間桂一 (前橋工科大)、福地佐斗志 (前橋工科大)

タンパク質の鎖の中で立体構造を形成しない領域、天然変性領域を持つタンパク質を天然変性タンパク質という。これらは生体内でシグナル伝達・転写調節といった重要な現象に関与している。我々はこれまで、文献から実験的に確認された天然変性領域および天然変性領域中の機能(結合)部位の情報を収集し、天然変性タンパク質データベース:IDEAL (https://www.ideal-db.org) を開発・運営してきたが、今年7月に最新版を公開した。今回のバージョンアップでは、天然変性タンパク質が関与する生物学的プロセスをネットワーク記述言語:SBGNで記述した。これらのプロセスはノードとエッジで表現されるダイアグラムとして描かれるので、利用者は天然変性タンパク質の分子機能や関与する細胞機能を直感的に把握することができる。現在、259の天然変性タンパク質を含む177のプロセスが公開されており、この中には188の酵素反応、250の結合、56の解離、34の局在移動が含まれている。この他、368のタンパク質について、PhaSepDBなどの液滴関連タンパク質データベースへリンクを付けた。天然変性領域の予測としてNeProcとAlphaFoldの結果を加えた。

#天然変性タンパク質、#SBGN、#液滴関連タンパク質

[13] AI 駆動型データキュレーションによる持続可能な中分子相互作用統合データベースの開発

第1部

○池田和由 (理研)、永江翼 (産総研)、米澤朋起 (慶應大)、富井健太郎 (産総研)

本研究の目的は、AI技術を活用したデータキュレーションによって中分子相互作用データベースを開発することである。中分子は、従来では困難な創薬ターゲットに対する新たな治療手段として注目されており、このデータベースはその研究を包括的に支援するデータリソースとなることを目指している。これまでに、中分子相互作用データの収集と、効率的なデータキュレーション手法の開発に着手した。具体的には、公共データベースから中分子化合物、ペプチド、核酸などのデータを収集した。さらに新規の中分子相互作用データの取得を目的に、独自の中分子化合物ライブラリーを活用して既知のPPI(タンパク質-タンパク質相互作用)標的のスクリーニングを実施し、その結果の解析を行った。また、タンパク質の立体構造情報を基に、中分子の標的アノテーション機能の開発にも着手した。これは、タンパク質立体構造に基づく結合部位類似性データベース(PoSSuM)などを活用することで、既知の中分子とその相互作用部位の情報を収集・解析するものである。今後は、類似した結合部位を持つタンパク質に対する中分子の結合予測に応用することを目指している。このデータベースが整備されることで中分子の創薬プロセスが一層効率化されることが期待される。

#データベース、#中分子、#キュレーション、#PoSSuM

[14] 異なる実験条件で得られたプロテオームデータの統合ネットワーク解析

第2部

○西崎愛花 (北里大)、河野信 (北里大)

プロテオームの解析を行う際には一つのデータのみならず、異なる施設や異なるサンプルから得られたデータを統合して比較できると有用である。しかしながら、これらの異なる実験条件で得られたデータを単純に比較することは難しい。他の分野では異なる実験条件のデータをネットワークを作成して解析する試みがなされている。そこで、今回の研究では異なる実験条件で得られたプロテオームデータを統合してネットワークを作成し解析を行った。
PRIDE の生データをquantMSワークフローで再解析したデータを利用してネットワークを作成した。今回はラベル化定量を行った36プロジェクトより得られたデータから、各実験群において有意に発現変動したタンパク質を取り出し、2つの実験群からタンパク質変化量のクロス集計表を作成した。作成したクロス集計表から、実験群間でのタンパク質の増減変化量についてのオッズ比ならびにカイ二乗検定でp値を計算し、有意であった実験群の組み合わせを取り出して、cytoscapeを使用してネットワークを作成した。
今回作成したネットワークは2370ノード、エッジの本数は7.2万で、7個のサブネットワークに分類された。今後の展望として、今回作成されたネットワークから既知の疾患等の関係性について再発見することが可能であるか、さらにはこれまで知られていない関係性を発見できるかについて検証を行う。

#プロテオーム、#ネットワーク解析、#データ統合

[15] Mock community と日本人腸内細菌叢データを用いたメタプロテオーム解析手法の評価

第3部

○福本亮太 (北里大)、河野信 (北里大)

メタプロテオーム解析は、多数の微生物が含まれる環境試料から抽出されたタンパク質全体を、質量分析装置とそれに続く解析で同定し、生物種組成や機能、代謝経路を明らかにすることで、微生物群集の生理学的状態や機能的多様性を理解する。メタプロテオーム解析の課題である、データ解析の複雑さ、解釈の困難さを改善するために、さまざまな解析法を模索する必要がある。
本研究ではメタプロテオームの解析手法を評価するために、生物種の組成がわかっているMock communityから測定された質量分析データ(PXD006118)を使って、生物種分布、タンパク質の同定・機能解析を行った。また、日本人の腸内細菌叢から得られたメタプロテオームデータ(PXD010754)の解析も行った。リファレンスのデータベースとして、MGnifyを使用し、MetaLab MAGで解析を行った。
その結果、Mock communityでは配合された菌種を正しく同定できた一方で、誤同定も多く検出された。種や属など、どの程度の階層まで解析に利用するかなど、解析方法について今後詳細に検討する。また、ヒトのデータからPrevotellaをはじめとして、腸内細菌として知られている菌を正しく検出することができた。今回は欧米人中心のデータベースをリファレンスとして利用したが、今後は日本人から作成したデータベースを使って同定率等を比較する。

#プロテオーム、#腸内細菌、#データベース、#mock community

[16] From JPDM to jPOST:データ論文を用いたデータ再解析の半自動化

第1部

○吉沢明康 (新潟大)、高橋悠志 (新潟大)、小林大樹 (新潟大)、守屋勇樹 (DBCLS)、幡野敦 (新潟大)、高見知代 (新潟大)、松本雅記 (新潟大)、荒木令江 (熊本大)、田畑剛 (MassSoft/京都大)、岩崎未央 (京都大)、杉山直幸 (循環器病セ)、小寺義男 (北里大)、福島敦史 (京都府大)、田中聡 (Trans-IT)、五斗進 (DBCLS)、河野信 (北里大/DBCLS)、奥田修二郎 (新潟大)、石濱泰 (京都大)

2024年は、プロテオーム統合データベースjPOSTの開発が開始されてから10年目に当たる。この間にjPOSTでは、論文投稿時に公開が義務づけられている質量分析の生データの寄託を受けるリポジトリ(データ蓄積&公開用サイト)jPOSTrepoと、プロジェクト自身で行う再解析の結果を収録し多様な手法で結果を表示するデータベースjPOSTdbを公開し、更にjPOSTdbに収録するデータを得るための再解析の手法を開発してきた。またこの過程で、より詳細なメタデータを収集するために日本プロテオーム学会からデータ論文ジャーナルJournal of Proteome Data and Methods (JPDM)を発行することになった。
近年、データのオープンアクセス化のためにSDRF(Sample and Data Relationship Format、遺伝⼦発現の分野で使われている MAGE-TAB-SDRFをプロテオミクスに移植したもの)の公開が重要視されるようになった。これに対応するため、我々は2023年にJPDMのメタデータ書式を更新し、詳細なメタデータを全て書式確定した。これによって、このデータに基づいた再解析処理の半自動化が可能になった。
本発表では、JPDM論文を用いた再解析半自動化の概要と、JPDMメタデータの入力を簡易化する入力支援ツールの開発などについて紹介する。

#メタデータ、#再解析、#自動化、#質量分析

[17] 糖鎖科学ポータル GlyCosmos Portal v4 の改良

第2部

○塩田正明 (創価大)、小野多美子 (創価大)、藤田晶大 (名古屋大)、松原正陽 (野口研)、山田一作 (野口研)、木下聖子 (創価大)

GlyCosmos Portal は、糖鎖に関わる遺伝子、タンパク質、脂質、疾患、パスウェイ情報などを、セマンティック Web 技術を用いて統合したポータルサイトであり、定期的なシステムの更新とデータの拡充を継続している。v3 から v4 へのバージョンアップでは、主に、データベースや Web アプリケーションの基盤から見直し、以降の開発が円滑に進むよう、改めて最適化を行った。また、パフォーマンスの向上を目的とした調整に加え、ユーザー体験を向上させるための様々な改良も実施している。例えば、レスポンシブデザインに基づくレイアウトの修正や、リストページのテーブルに非同期処理を導入することによる表示速度の改善、複雑化していた各エントリーページのコンテンツも一通り整理し、表示方法を再検討した。さらに、新たな表示形式としては、多階層のリスト構造を展開できるコンポーネントなども各所に設置し始めており、今後もユーザーからのフィードバックを受けながら、順次、改良を進めていく。また、リポジトリの改良として、GlyTouCan v4 の開発についても紹介する。

#糖鎖、#ウェブポータル、#オミックスデータ

[18] GlyCosmos RDFのアップデートとデータの拡充

第3部

○小野多美子 (創価大)、塩田正明 (創価大)、山田一作 (野口研)、山本泰智 (DBCLS)、木下聖子 (創価大)

GlyCosmos Portal は、リポジトリとデータベースを兼ね備えた糖鎖科学ポータルであり、糖タンパク質、糖鎖関連遺伝子、疾患など、糖鎖に関連するデータを収集、統合し情報を提供することを目的としている。2019年に公開されて以来、KEGG、UniProt、Reactome、Alliance of Genome Resourcesなど、様々なデータベースから糖鎖に関連するデータを収集してきた。
GlyCosmosで収集した全てのデータは、RDF形式で統合されているが、GlyCosmosのRDFスキーマと、既にRDF化されている他のデータベースのRDFスキーマの差異により、本来繋がるべきデータが繋がらない、また煩雑なSPARQLクエリが必要といった問題が生じていた。これらの問題を解決するため、GlyCosmosのRDFスキーマを見直し、RDFデータを整理した。また、さらなるデータ拡充を目指したVirtuosoの推論機能の活用により、TaxonomyやGO(Gene Ontology)の階層情報からSPARQLで予測データを検索することが可能になった。
今回、GlyCosmos Portal V4(2024年8月リリース)で公開された新たなGlyCosmos RDFスキーマと、推論によって拡充されたデータを紹介する。

#糖鎖、#RDF、#推論

[19] 糖鎖関連データベースの連携促進と機能更新(ACGG-DB)

第1部

○新町大輔 (産総研)、藤田典昭 (産総研)、安形清彦 (産総研)、岡谷千晶 (産総研)、成松久 (産総研)、木下聖子 (創価大)、久野敦 (産総研)

我々のグループでは、糖鎖関連遺伝子(GGDB)、レクチン(LfDB)、糖タンパク質(GlycoProtDB) 、糖鎖と感染症(PACDB)や糖鎖疾患遺伝子(GDGDB)といった糖鎖関連データベース(DB)やレクチンマイクロアレイデータの可視化ツール(LM-GlycomeAtlas)を開発し、GlyCosmos PortalとAsian Community of Glycoscience and Glycotechnology(ACGG)-DBで公開している。GlyCosmos Portalと連携強化を進めることで、ユーザーにとって使いやすいDBの開発を進めてきた。
本発表では、GlycoProtDBおよびGGDBに追加した機能について紹介する。GlycoProtDBについては、糖鎖付加部位特異的グライコーム解析法(Glyco-RIDGE法)により取得した糖ペプチド情報(ペプチド配列、糖鎖付加位置、糖組成)を視覚的に把握できるためのツールGlycoformを開発し、各付加位置に対する糖組成の不均一性を可視化できるようにした。またGlyCosmos Portalとの連携強化として、糖ペプチドに対して一意のIDを付与するレポジトリ GlyCombに糖組成と糖ペプチドとのデータセットを登録し、Glycoformから参照できるようにした。また、GGDBの機能更新としては、Human Protein Atlas のRNA-seq データを用いて、糖鎖関連遺伝子ごとの発現量をグラフとして可視化できるようにした。 今後、GlycoProtDBやGGDBにおける公開データの拡充やインターフェース等の改良を予定している。

#糖鎖関連データベース、#糖鎖関連遺伝子、#糖タンパク質、#レクチン

[20] LM-GlycoRepo: a new repository system for lectin-based multimodality data

第2部

○Patcharaporn Boottanun (産総研/創価大)、岡谷千晶 (産総研)、藤田典昭 (産総研)、田中美雪 (創価大)、塩田正明 (創価大)、新町大輔 (産総研)、安形清彦 (産総研/創価大)、木下聖子 (創価大)、久野敦 (産総研)

LM-GlycomeAtlas is a web tool for visualizing mouse tissue glycome mapping data obtained by laser microdissection (LMD)-assisted lectin microarray (LMA). Here, we introduce a new repository system "LM-GlycoRepo Ver. 1.0" for lectin-based multimodality data, specializing in mouse tissue glycome mapping data. Users can deposit original data sets of LMD images, LMA data, and high-resolution histological images under an international guideline MIRAGE. The deposited data can be visible at LM-GlycomeAtlas. To become a standard repository for LMA data of various biospecimens including humans, the deposit and visualization system will evolve into a comprehensive tool for lectin-based multimodality data.

#Tissue glycome mapping、#lectin microarray、#repository system

[21] GRable Version 1.0:質量分析によるグライコプロテオーム解析を加速するソフトウェア

第3部

○岡谷千晶 (産総研)、坂上弘明 (産総研)、藤田晶大 (名古屋大/創価大)、富岡あづさ (産総研)、塩田正明 (創価大)、富永大介 (産総研/明治薬科大)、木下聖子 (創価大/名古屋大)、久野敦 (産総研)、梶裕之 (名古屋大/産総研)

診断薬・治療薬開発のターゲットとなる、疾患に伴い糖鎖構造が変化する糖タンパク質を探索する上では、タンパク質から糖鎖を遊離せず、どのタンパク質のどの位置にどのような糖鎖が付加されているか(部位特異的グライコフォーム)を網羅的に同定する技術が必要である。そこで我々は、網羅性と深度のより良い部位特異的グライコフォーム解析を目指し、Glycan heterogeneity-based Relational IDentification of Glycopeptide signals on Elution profile(Glyco-RIDGE)法を開発してきた。本手法は、特定糖タンパク質の詳細構造解析と、クルード試料の大規模解析の両方に使用できる。
本発表では、Glyco-RIDGE法による糖タンパク質解析を自動化するために開発した新規ソフトウェア「GRable」について紹介する。本ソフトウェアを用いることで、シアル酸付加糖鎖を含むインタクト糖ペプチドの質量分析データについて、一連のGlyco-RIDGE解析フローを一気通貫に実行できる。解析結果はエクセルファイルとして出力され、同一のコアペプチド配列を有する糖ペプチドの糖鎖不均一性を二次元プロットとして視覚的に把握することができる。本ソフトウェアにより、疾患に伴う糖タンパク質上の糖鎖修飾の変化を明らかにすることが可能となり、疾患に関連した糖鎖を創薬に利用する「糖鎖創薬」の加速化に貢献すると期待される。ウェブブラウザ版GRableは、日本糖質学会公式の糖質科学ポータルサイト「GlyCosmos Portal」で公開している(https://glycosmos.org/grable)。

#グライコプロテオーム、#部位特異的グライコフォーム、#糖鎖不均一性

[22] ノンターゲットメタボロミクスデータの利活用に向けたMassBank HumanとMassBank in silicoの開発

第1部

○鳥越大平 (九州大)、早坂亮祐 (慶應義塾大)、平山明由 (慶應義塾大)、髙橋政友 (九州大)、和泉自泰 (九州大)、松田史生 (大阪大)

ノンターゲットメタボローム解析においては、MassBankをはじめとする標準化合物を測定したスペクトルライブラリーあるいはin silico予測したフラグメント情報と照合し、代謝物の構造アノテーションを行う。MassBankは約16000化合物を掲載しているスペクトルライブラリーであるが、実測サンプルにおいて代謝物質の同定に至るスペクトルは10%ほどと非常に限られており、多くは未知代謝物質として扱われる。この未知代謝物質の同定を促進するために、Shin-MassBankプロジェクトにおいて、MassBank HumanとMassBank in silicoの開発を進めている。MassBank Humanは過去の検出例を識別可能なヒトサンプル由来の高精度マススペクトルライブラリである。公共リポジトリより取得したヒトサンプルのメタボローム解析データに対し、研究毎にスペクトルの平均化を実施し、冗長性、ノイズ、計測誤差を削減した高精度スペクトルを作成し、収載している。
MassBank in silicoは未知代謝物質の構造アノテーションツールである。未知の代謝物質に対し、先行研究のツール (SIRIUS、MetFrag、MS-FINDER、CFM-ID) と本研究で開発するツール (先行研究のツールの各優位性を組み合わせた新しい構造アノテーションツール) を用いて割り当てた構造候補の多数決を取り、構造アノテーションを行う。本研究で開発する構造アノテーションツールは、MassBank in silicoのwebでの利用を目指し、開発を精力的に進めている。本発表では、現在のMassBank HumanとMassBank in silicoの開発状況について報告する。

#ノンターゲットメタボローム解析、#スペクトルライブラリー、#アノテーション

[23] 質量分析データ利活用に向けたMassBank Links環境の整備

第2部

○津川裕司 (農工大)、西田孝三 (農工大)、松沢佑紀 (農工大)、岡昂輝 (農工大)、ブヤントグトクブジンラハム (農工大)

本研究では、低分子化合物のマススペクトルデータベースであるMassBankの利用・開発を推進するためのプログラム・データベース環境(MassBank Links)の開発を行っている。プログラム開発としては、質量分析の計測データ(一次データ)から低分子化合物のマススペクトル情報を抽出するプログラムであるMS-DIALの開発を行っている。また、マススペクトル情報に存在するピークに部分構造情報を付与できるMS-FINDERの開発も行う。これら2つのプログラムは現在、MassBankフォーマットの入出力が可能なようにアップデートを行っており、現在α版として公開中である。また、このように得られた知識データ(二次データ・MassBankレコード)を、他の外部データベースと繋げるためにスペクトルレコードのRDF化を推進している。シンマスバンクプロジェクトでは、計測データのレポジトリであるMB-POST、アノテーション情報が付与できないがヒトに存在する代謝物のスペクトル情報(MassBank Human)、およびそれらをアノテーションするためのin silicoライブラリ(MassBank in-silico)の開発を進めており、将来的にはこれらをRDFとして連携する。また、化合物やパスウェイデータベースとRDFで連携することで新しい生命科学の知見を創出する概念実証のためのアプリケーション開発を目標にしている。本発表にて、本プロジェクトの進捗状況について報告する。

#MassBank、#RDF、#アノテーション

[24] 大規模メタボロミクスデータの再解析を実現する統合プラットフォームの構築

第3部

○早川英介 (理研/九工大)、高橋みき子 (理研)、西田孝三 (農工大)、岡昂輝 (農工大)、津川裕司 (農工大)、河野信 (北里大)

メタボロミクスは、生物の代謝活動によって生じる多数の代謝物を包括的に解析することで、生理現象における代謝情報を提供するオミクスの一翼を担う重要な技術である。近年、様々な分野で膨大なメタボロミクスデータがレポジトリに蓄積されている一方で、それらのデータを統合し活用することは依然として難しい。そこで我々は、代謝物の変動傾向の類似性という指標に着目し、異なるプロジェクト間のデータを統合的に再解析するためのプラットフォームを開発している。本システムでは、定量化された研究間の代謝変動の類似性を基にグラフデータを構築し、グラフデータベースおよびWebブラウザベースのインターフェースを通じて、膨大公共データ群の複雑な関係を視覚化し、柔軟な解析を可能にする。本システムにより、従来の単一研究では見過ごされていた新規知見の発掘や仮説生成を支援するための高度な解析基盤としても機能することが期待される。本システムはメタボロミクス研究のさらなる進展に寄与するとともに、他の生命科学データリソースと連携することで新たな発見に繋がる情報基盤の創出を目指す。

#データ統合、#メタボロミクス、#代謝、#オミクス

[25] マルチオミクス質量分析データの蓄積と再解析を支えるデータリポジトリ基盤

第1部

○高橋悠志 (新潟大)、吉沢明康 (新潟大)、松田史生 (大阪大)、木下聖子 (創価大)、石濱泰 (京都大)、奥田修二郎 (新潟大)

質量分析は今や生体由来サンプル中に含まれる生体分子を決定するための必須ツールである。我々はその実験結果の網羅的再解析を可能とするため、世界中の研究者からデータの寄託を受けてこれを蓄積し、FAIR 原則に従ってインターネット上で公開する情報基盤として、これまでにプロテオミクスにおける jPOST リポジトリ、グライコミクスにおける GlycoPOST 、メタボロミクスにおける MB-POST という複数のデータリポジトリを開発してきた。近年、jPOST リポジトリでは JPDM (Journal of Proteome Data and Methods) にデータディスクリプタ論文と一緒に投稿されたメタデータを活用することで、投稿されたプロテオミクスデータの再解析を加速させている。また、GlycoPOST ではグライコミクスにおける質量分析データのアノテーション済みの同定結果のデータリポジトリであり GlyCosmos プロジェクトにおいて管理されている UniCarb-DR との相互連携が開始された。本発表では新たに開発された MB-POST と共にこれらのデータリポジトリにおける最近の進展について紹介するとともに、各データリポジトリ中のデータに紐づいたメタデータ同士をリンクさせることによる大規模マルチオミクス解析の可能性について述べる。

#データリポジトリ、#質量分析、#メタデータ

[26] プロテオームデータ管理・共有システムの構築

第2部

○小池仁美 (理研)、東裕介 (理研)、大浪修一 (理研)

プロテオミクス分野では、2011年に設立されたProteomeXchangeコンソーシアムにより国際的なデータ共有が進んでいるものの、十分なメタデータが付与されていないデータが多く、再利用や解析が困難である。この課題を解決するために、我々はプロテオームデータマネジメントシステムを開発した。本システムは、複数の計測機器や解析システムから得られたデータファイルとサンプル情報をバッファリングサーバーに集約し、半自動的にメタデータを付与して共有ストレージにアップロードする機能を提供する。計測機器や解析システムからバッファリングサーバーを介してデータを自動転送する機能を備え、インターネットに接続されていない機器からのデータ転送も可能とした。さらに、主要ソフトウェアの出力ファイルから自動的にメタデータを取得・保存する機能や、オントロジー参照による入力補完機能も提供している。このシステムはコアファシリティを支援するためのものであり、プロテオミクス分野にとどまらず、他の研究分野にも応用できる。

#研究DX、#自動化、#データサイエンス

[27] バイオイメージデータを管理・共有するためのプラットフォーム構築

第3部

○東裕介 (理研)、Jen-Chien Chang (理研)、小池仁美 (理研)、大浪修一 (理研)

ライフサイエンス分野では、研究成果がオープンに共有されることで画期的な研究成果の創出につながることが実証されている。イメージング分野でも画像公開のためのデータベースが整備されているが、十分なメタデータが付与されて公開されているデータは限定的であり、オープンサイエンス推進の妨げとなっている。本研究では、データ取得段階でメタデータを付与して管理し、簡便な操作で公開するためのプラットフォームを構築する。撮影メタデータを自動付与する機能と試料メタデータの手動付与をサポートする機能を実装することで、メタデータ付与の労力を可能な限り削減することを目指す。メタデータは画像公開データベースであるSSBDに準拠することで、追加付与することなく、すみやかに公開できるよう設計している。本プラットフォームには、画像だけでなくゲノムやプロテオームなど他のオミクスデータも集積し、データの管理・公開機能を一箇所で提供する計画である。

#バイオイメージ、#メタデータ、#プロテオーム、#デジタルトランスフォーメーション、#データ管理

[28] SSBD:バイオイメージングデータのグローバルな共有

第1部

○糸賀裕弥 (理研)、藤澤絵美 (理研)、山本春菜 (理研)、ミランダミゲル (理研)、山縣友紀 (理研)、京田耕司 (理研)、遠里由佳子 (立命館大)、大浪修一 (理研)

バイオイメージングデータの共有と再利用は、生命科学研究の発展を加速する。SSBDはバイオイメージングデータの共有と再利用のためのプラットフォームであり、論文の投稿にともなってあらゆる種類のバイオイメージングデータを受け入れるSSBD:repositroyと、論文の出版にともなって再利用性の高いデータを選択し豊富なメタデータとともに提供するSSBD:databaseの二つのシステムからなる。バイオイメージングデータのグローバルな共有の具体的なプロジェクトとしてfoundingGIDEプロジェクトを開始した。SSBD、欧州IDR(Image Data Resource)およびBIA(BioImage Archive)をデータ基盤とし、共通メタデータの統一作業や、独自のメタデータを活かしたメタデータの調和処理により、統一されたデータの検索、データへの到達性、相互利用性などを確保し、グローバルな視点で再利用性を向上させる。本発表では、DICPプロジェクトにおけるSSBDの到達点および今後の展望について述べる。

#バイオイメージ、#レポジトリ、#高付加価値データベース、#メタデータ

[29] グローバルなバイオイメージングデータ共有に向けたメタデータとデータフォーマット

第2部

○京田耕司 (理研BDR)、糸賀裕弥 (理研BDR)、山縣友紀 (理研R-IH、理研BRC)、藤澤絵美 (理研BDR)、ミランダミゲル (理研BDR)、大浪修一 (理研BDR/理研R-IH)

バイオイメージングデータのグローバルな共有を実現するためには、各データリソースに対して統一されたデータアクセスの提供が不可欠である。我々は、1) メタデータの調和を図り、リソース間の相互検索を可能にし、2) 次世代ファイルフォーマットを用いたデータ共有を行うことで、グローバルなデータ共有を推進している。本発表では、メタデータ調和による相互検索の実現に向けた取り組みとして、各データリソースのメタデータ要素の比較解析、および調和に必要な要件と基準の策定について紹介する。また、大容量のバイオイメージングデータの共有を実現するための次世代フォーマットの開発と、そのフォーマットを用いたデータ共有についても紹介する。これらの取り組みを通じて、全世界のバイオイメージングデータへのアクセスを実現し、データ駆動型研究の加速を目指す。

#バイオイメージ、#メタデータ、#オントロジー、#フォーマット、#標準化

[30] グローバルなバイオイメージングデータ相互運用性実現に向けたオントロジー分析

第3部

○山縣友紀 (理研R-IH/理研BRC)、京田耕司 (理研BDR)、糸賀裕弥 (理研BDR)、藤澤絵美 (理研BDR)、大浪修一 (理研BDR/理研R-IH)

バイオイメージングは近年のデータ駆動型AI研究において、生命システムの理解の理解を深めるためにその重要性がますます高まっている。しかし、バイオイメージングデータは多種多様な情報を含み、その効果的な管理と活用にはメタデータの付与が不可欠である。メタデータには、撮影方法やバイオサンプルに関する情報,実験情報,さらにはそれらの背景にある生物学的情報が含まれるが、これらを一貫して参照し、適切に知識管理するためには、オントロジーの果たす役割が大きい.国際コンソーシアムfoudingGIDEプロジェクトでは、各国のデータベースで収集された多様なデータを共有し、グローバルなイメージングデータエコシステムの確立を目指すためのハーモナイゼーションが求められている。本発表では、このギャップを解析し、オントロジーの利活用による知識互換および知識共有促進に向けた取り組みを報告する。本研究により、グローバルなイメージングデータの相互運用性の向上が実現されるだけでなく、付加価値の高いデータの産出の知識基盤の構築へ貢献し、より広範な研究や技術の進展に貢献することが期待される。

#バイオイメージング、#オントロジー、#知識の相互運用

[31] RDMkit-jp:研究データ管理(RDM)の知識や情報を共有するサービス

第1部

○大波純一 (理研)、増井誠生 (NII)、長岡千香子 (NII)、古川雅子 (NII)、南山泰之 (NII)

2021年に内閣府から公開された「公的資金による研究データの管理・利活用に関する基本的な考え方」を皮切りに、国内の学術研究機関では、研究者が情報をオープンにするためのリポジトリやガイドラインの整備が進められている。これに必要となるRDM(Research Data Management)の知識は研究コミュニティや大学図書館の現場で模索されている一方、欧州ではFAIR原則に基づいた基盤の整備が比較的早期に進められていた。例えば、生命科学の領域では政府間組織ELIXIRがツールや環境を整備しており、研究データ共有のための国際会議であるResearch Data Allianceとの連携を補助するRDA TIGERプロジェクトが設立されるなど、環境整備と実務の両面から成果を上げている。特にELIXIRが構築したRDMkitサイトは、RDMの知識を職種や研究データのライフサイクルごとに調べることができ、国内の学術機関にとしても有用だと考えられた。そのため、我々は2023年に「RDMkit-jp」を新しく構築し、国立情報学研究所より公開した。サイト内にはRDMに関する知識やツール情報を随時追加しており、GitHubを利用したフィードバック機能も開発中である。今後も研究コミュニティとの連携や、フリーで利用できるコンテンツの充実をはかり、国内のRDM整備に資するサービスとしていく。

#RDM、#オープンサイエンス、#FAIR原則

[32] 理研BRCが提供する遺伝子材料リソースの構成とBackbone情報に基づく系譜の分析

第2部

○笹沼俊一 (理研)、大波純一 (理研)、村田武英 (理研)、三輪佳宏 (理研)

理化学研究所バイオリソース研究センター(BRC)の遺伝子材料開発室では、文部科学省ナショナルバイオリソースプロジェクト (NBRP) 「遺伝子材料」の中核機関として、リソースの提供事業を行っている。遺伝子材料リソースには、各種生物のゲノムライブラリや可視化レポーターとして利用可能な発現ベクター、ゲノム編集及び遺伝子導入用プラスミドクローン等が含まれる。これらの多くは寄託者が何らかのベクターから独自に遺伝子をカスタマイズし作製されている。登録されたバイオリソースは、サンプルごとに利用目的や培養条件などのメタデータが付加されて構造化データとして収集されている。今回この構造化データの中で由来ベクターを示す「Backbone情報」を利用して、関係性グラフデータを構築した。これによって作製ベクターの由来となりやすいリソースを新たに分析できた他、数世代に渡りBackboneとして使われる、カスタマイズし易いベクター情報を抽出することができた。この情報を用いて、Web上のカタログデータの表示や検索アルゴリズムを刷新し、バイオリソース利用者にとってより利便性の高いサービスを提供していく。

#バイオリソース、#遺伝子材料、#ベクター、#グラフデータ

[33] 研究用細胞検索ポータルサイト「細胞検索ひろば」について

第3部

○田中嘉一 (NIBIOHN)、齋藤千明 (ダイナコム)、大里徳恵 (ダイナコム)、三原基広 (ダイナコム)、小原有弘 (NIBIOHN)

(国研)医薬基盤・健康・栄養研究所 JCRB細胞バンクでは、研究を始めたばかりの方からベテランの研究者までを対象に、“あらゆる研究用の細胞株の情報をより簡便に、より短時間で検索可能なポータルサイト”をコンセプトにした細胞検索ポータルサイト、「細胞検索ひろば」を構築した。この「細胞検索ひろば」の特徴としては、当バンクを始め国内外6つの細胞バンクの情報にアクセスできるようにしており、これら細胞バンクに対して細胞名や由来組織名、疾患名などの項目を選択して検索できる。また、日本語でも検索でき、得られた検索結果を各項目で絞り込める。より高度なニーズに対しては、2つ以上のクエリーを複数の項目で自由に組み合わせて検索できる。さらには、世界的な細胞株百科事典であるCellosaurusから詳細な論文情報が得られる、など一つのクエリーによるシンプルな検索から複数のクエリーと条件による詳細な検索まで、より短時間で目的の情報が得られるような機能を複数搭載している。今回、この「細胞検索ひろば」をより多くの皆様に知って使っていただくためにご紹介するとともに、皆様からの忌憚ないご意見をいただき、これらを基により使い易い「細胞検索ひろば」にしていくことで、ライフサイエンス研究の発展に貢献していきたいと考えている。

#細胞検索、#細胞バンク、#細胞株

[34] DBRP(生物資源データプラットフォーム)のアップデートおよびデータベース横断検索システムの公開

第1部

○八塚茂 (NITE)、青栁太智 (NITE)、阿部純平 (NITE)、伊藤絵理子 (NITE)、大塚梨沙 (NITE)、木村明音 (NITE)、外立貴宏 (NITE)、中谷諒介 (NITE)、牧山 (片野)葉子 (NITE)、横田彩乃 (NITE)、市川夏子 (NITE)

NITEバイオテクノロジーセンター(NBRC)は、生物資源データのプラットフォームとして「DBRP」(https://www.nite.go.jp/nbrc/dbrp/) を公開している。DBRPにはNBRC、企業、地方公共団体、大学等が保有する微生物に関連したデータを掲載している。
前回の発表(2022年10月)から2024年7月にかけては、NBRCの保有するNBRC株・RD株データの更新の他、社会からのニーズに応え、より幅広い用途・知見に貢献することが期待される微生物株のデータを重点的に公開した。例えば、健康・医療関連としてはNBRCと藤田医科大学との共同研究で得られたエアコンカビのデータ50件(2024年3月公開)、今後幅広い分野での利用が期待されるものとしては海洋研究開発機構(JAMSTEC)が保有する深海微生物株のデータ1325件(2023年9月公開)などである。
データベースの運用面での改善も行った。最低でも月に1回はデータの追加・更新を実現して利用者にとって鮮度の良いデータベースを維持している。
DBRPのサブシステムであるDBRP Stanzaでは、SIPスマート農業の成果として農研機構の菌株データとRDF Portalを通じて連係し、統合的な検索が可能になった。
2024年3月には「バイオDBポータル」(https://www.nite.go.jp/nbrc/dbportal/cs)を公開した。このサイトでは、NBRCが保有する4つのデータベースを横断的にキーワードで検索することが可能である。

#データベース、#微生物、#RDF、#横断検索

[35] 微生物有害情報リストの構築及び更新における取り組み

第2部

○木村明音 (NITE)、黄地祥子 (NITE)、魚原文 (NITE)、中谷諒介 (NITE)、石田亜紀子 (NITE)、仲里猛留 (NITE)、市川夏子 (NITE)

微生物を法令に抵触せず安全に取り扱うには、法令文書やバイオセーフティレベル(BSL)分類リスト等様々な資料を参照して利用微生物の危険度/有害性を判断しなければならない。さらに、微生物の全ゲノム配列の分類への応用が進むにつれて日々報告される分類体系の再編成や学名の変更も、微生物の安全性の判断を難しくしている。
NITEは、微生物の安全かつ適切な利用を支援するために、細菌や真菌の散在するリスク情報を一元化したデータベース「微生物有害情報リスト」を公開している。本リストは、微生物の取扱いに関する国内法令やBSL分類等のリスク情報を収集し、法令文書にみられるカタカナや和名表記はラテン語の学名に対応させ、種に指定されたリスク情報をわかりやすく一元化して提供している。細菌の学名については、原核生物の学名データベースLPSNの情報と照合し正名/異名をリンク付けするとともに、関連する学名(正名/異名、同種の株名等)に対するリスク情報のみを一括で確認できる表示機能を提供している。
リスク情報の更新については定期的に最新情報を照会し、学名情報の更新についてはLPSNの情報をもとに前回との更新差分をプログラムで抽出している。これらの更新情報を反映するために約3ヶ月に1度の頻度で更新を行っている。
本発表では、微生物有害情報リストの構築及び更新作業における、情報の取得・整理やデータ作成の詳細について紹介する。

#微生物(細菌・真菌)、#バイオセーフティレベル(BSL)、#法令、#学名、#リスク

[36] 種ごとに集計した微生物培養条件の検索API開発

第3部

○大塚梨沙 (NITE)、青栁太智 (NITE)、阿部純平 (NITE)、市川夏子 (NITE)

NITEは、NEDO「カーボンリサイクル実現を加速するバイオ由来製品生産技術の開発」プロジェクトに参画し、「ScreenHit」の開発を進めている。このプロジェクトでは、有用な微生物資源を得るためのスクリーニング技術を開発しており、微小なドロップレットに微生物を封入し数細胞ずつの培養・探索を可能にするミリオンスクリーニング技術と、培養を必要としないready to useの機能探索ツールとしてのパウダー化微生物スクリーニング技術が主軸である。ScreenHitは、プロジェクトで得られたスクリーニング情報と微生物情報を格納するデータベースで、微生物データ収集と利活用促進を目指している。
プロジェクトでは、スクリーニング技術の実用化実験として、環境試料からの油脂酵母単離や、複数の環境微生物を共培養して可培養化を目指す検討が行われている。また、各種の探索を経て得られる高機能微生物の培養最適化も重要な課題である。これらの実験では、微生物に適切な培養条件を設定することが必要であるが、既知の培養条件は多岐にわたり、データの収集や整理が課題となっている。そこで、微生物株の既知の培養条件データを集積し、微生物種ごとに集計・検索できるAPIを開発した。このAPIは、広範な微生物の最適な培養条件の推定や共培養の条件予測に活用できることを期待している。今後ScreenHit上で検索UIを開発する予定である。

#微生物、#データベース、#API、#データ集計

[37] マイクロバイオーム研究を先導するハブとなるMicrobiome Datahubの開発

第1部

○森宙史 (遺伝研)、藤澤貴智 (遺伝研)、東光一 (遺伝研)、谷澤靖洋 (遺伝研)、中川善一 (東工大)、西出浩世 (基生研)、中村保一 (遺伝研)、山田拓司 (東工大)、松井求 (東大)、内山郁夫 (基生研)

微生物群集をメタゲノム解析等で培養することなく解析するマイクロバイオーム研究は、爆発的な勢いで研究が行われている。特に、メタゲノム配列から個別菌のドラフトゲノム配列を再構築するMetagenome Assembled Genome (MAG)構築手法が洗練されここ数年で普及し、微生物ゲノムの多様性の記述が著しく進展している。我々はこれらMAGデータを収集・整理し、マイクロバイオーム研究に特化したメタゲノムデータベースMicrobiome Datahub (https://mdatahub.org) を開発し公開している。Microbiome Datahubでは21万以上のMAGを環境情報や系統情報等で検索可能である。本発表では、Microbiome Datahubの機能と、MAGデータを用いた解析例について紹介する。

#メタゲノム、#MAG、#マイクロバイオーム、#微生物

[38] MBGD 2024: ゲノム・メタゲノム機能解析に向けた微生物比較ゲノムデータベースの改良

第2部

○内山郁夫 (基生研)、三原基広 (ダイナコム)、西出浩世 (基生研)、千葉啓和 (DBCLS)、高柳正彦 (ウェブブレイン)、河合幹彦 (基生研)、髙見英人 (JAMSTEC、農工大)

微生物比較ゲノムデータベースMBGDは、公開された微生物ゲノムデータをオーソログ解析に基づいて整理したデータベースである。2024年版は、公開された34079の微生物完全ゲノム(1812属6316種)に対して、階層的手法によるオーソログ分類が構築されている。MBGDでは、これらのオーソロググループに対してMMseqsプロファイル検索による新規配列の分類機能を実装しており、これにより2022属のドラフトゲノムを追加登録しているほか、利用者のゲノムデータを解析するMyMBGD機能を提供している。最新版では、このMyMBGDモードに新たにGenomaple機能を追加した。これは、利用者ゲノムに対するオーソログ解析結果を基に、Genomapleソフトウェアを用いてKEGG Moduleデータベースで定義された機能モジュールの有無を判定するもので、これにより機能モジュール単位でゲノムを比較して特徴づけを行うことができる。モジュール毎の解析結果は詳細比較が面で確認でき、モジュールの一部の遺伝子が欠けている場合に、その機能を代替する遺伝子を検索する機能も実装している。また、もう一つの新機能として系統プロファイル検索機能を実装した。これは利用者が指定した系統プロファイル(その遺伝子を持つ生物種と持たない生物種の集合)に対して類似した系統プロファイルを持つ遺伝子を検索する機能で、表現型、系統分類、環境などを指定して生物集合を検索し、系統プロファイルを組み立てる機能を有している。

#微生物ゲノム、#オーソログ解析、#ゲノム機能アノテーション、#比較ゲノム

[39] 女川湾のプランクトン動態解明に向けたゲノム解析基盤の整備

第3部

○大林武 (東北大)、藤井豊展 (東北大)、北村茜 (東北大)、池田実 (東北大)

地球温暖化などの環境変動が生態系に与える影響を評価するには、メタバーコーディング解析などの網羅的観測が不可欠である。東北大学大学院農学研究科附属の女川フィールドセンターでは、長期にわたり女川湾の調査を行い、海洋生態系と海洋物理化学的特性、気象、海底環境などの複合要因の解明に取り組んできた。我々はこの研究の一環として、生態系観測を強化するために、ナノポアシーケンシング技術を用いた大規模なメタゲノム解析を実施し、各プランクトンの「量」「機能」「状態」を解析するための新しい海洋生態系プラットフォームの確立を目指している。本発表では、2025年の一般公開に向けて開発中のデータベースPlanDyO(Plankton Dynamics in Onagawa)の進捗状況を報告する。

#メタゲノム、#プランクトン、#海洋生態系、#女川湾

[40] 植物の遺伝子共発現データベースATTED-II version 12.0

第1部

○大林武 (東北大)

遺伝子共発現データベースATTED-II(https://atted.jp)は、公共リポジトリのトランスクリプトームデータを再解析し、植物の遺伝子共発現情報を提供する。version 11.1までに提供してきたシロイヌナズナをはじめとする9種の植物は、モデル植物として非常に有用であるが、非モデル植物の共発現情報をどのように整備していくかは依然として大きな課題である。これに対し、我々は「対象生物種の増加」と「種間比較機能の強化」を軸に、非モデル植物研究のための共発現情報の基盤整備を進めている。共発現情報の種間比較においては、共発現強度の違いが対象生物種の特性だけでなく、サンプリングバイアスによっても生じる可能性があることに注意が必要である。これらの背景を踏まえ、ATTED-II version 12.0では、対象生物種としてコムギおよびオオムギを追加するとともに、着目する遺伝子共発現ペアが機能する条件を簡便に探索するツールを導入し、近縁種間の共発現比較の実効性を向上させた。

#遺伝子共発現データベース、#植物、#遺伝子ネットワーク、#トランスクリプトーム

[41] KEGG MEDICUSにおけるウイルスタンパク質のオーソログデータベース

第2部

○孟令杰 (京都大)、緒方博之 (京都大)、金久實 (京都大)

KEGG MEDICUSは、ゲノムと社会を結びつけることを目的とし開発されており、本研究では特にウイルスがヒト生体システムに与える影響の解明を支援するリソースの開発を進めている。ウイルスの生態や病原性を解明するうえでは、ウイルス遺伝子の機能注釈が重要だが、そのためのデータベースリソースは十分ではない。例えば、ウイルス遺伝子の中でKEGGオーソログ(KO)データセットに結び付けられて機能注釈が可能なものはわずか約8%に過ない。こうした状況を改善し、ウイルスによる生体システムへの摂動をより深く理解するために、新たなウイルスオーソログデータベースの開発を進めている。
本データベースは、KEGGに保存されている16,777のウイルスゲノムと642,795のウイルス遺伝子を基盤データとしている。データベースの構築には階層的クラスタリングのワークフローを実装し、まずSSearchとMCLアルゴリズムを組み合わせた配列類似性解析を行い、33,329の多配列(3つ以上の配列)クラスターを構築した。これらのクラスターは既存のKO注釈との良好な一致を示した。さらに、得られた3万のタンパク質クラスターは、HHblitsを用いた保存ドメイン解析を経て、3,042の非singletonクラスターコミュニティに分類された。さらに、AlphafoldとFoldseekを用いて、クラスターコミュニティの遠縁クラスターの構造予測も進めている。

#KEGG、#ウイルス、#オーソログデータベース

[42] ヒトウイルス疾患における感染サイクルの知識グラフ作成

第3部

○櫛田達矢 (理研BRC)、臼田大輝 (理研BRC)、高田豊行 (理研BRC)、山縣友紀 (理研R-IH)、桝屋啓志 (理研BRC)

新型コロナウイルス感染症やC型肝炎を含む49種類のヒトウイルス性疾患の感染サイクル(ウイルス吸着、侵入、複製、放出)、関係する生物学的プロセスおよび機能障害について、関連するウイルス分子、宿主分子、解剖学的部位およびオルガネラの情報を、文献やデータベースからマニュアルキュレーションによって収集し、ウイルス疾患の知識グラフを作成した。この知識グラフには、C型肝炎ウイルスの吸着に関与するヒトタンパク質9種類(例、hLDLR、 hOCLN)、侵入に関与するヒトタンパク質15種(例、hEPHA2、hAAK1/[h1/h2])、放出に関与するヒトタンパク質2種(例、hPPID、hMETTL7A)などの情報が含まれている。この知識グラフを、理研BRCがホストするトリプルストアに格納し、既存のバイオリソースの知識グラフと統合することで、ウイルス研究におけるバイオリソース候補の探索が可能になる。例えば、hEphA2はC型肝炎ウイルス侵入の宿主因子で、膜融合を促進し、抗ウイルス療法の標的となりうることが知られており、このhEPHA2遺伝子欠損マウスRBRC04926およびRBRC05141は、C型肝炎の研究への活用が期待される。これらのウイルス性疾患およびバイオリソースの情報は、理研BRCのトップページ(https://web.brc.riken.jp)およびSPARQL endpoint(https://knowledge.brc.riken.jp/sparql)から検索可能である。

#ウイルス、#知識グラフ、#C型肝炎、#SARS-CoV-2、#バイオリソース

[43] 創薬標的候補遺伝子選定・検証のためのツール「遺伝子情報検索システム(GIS2)」の構築

第1部

○池田大祐 (大塚製薬)、北内信次 (大塚製薬)、國吉勇輝 (大塚製薬)、伊波大志 (大塚製薬)、小櫻裕司 (大塚製薬)、沢田啓 (大塚製薬)、植松直也 (大塚製薬)

製薬会社の創薬において、コンセプトに合致した標的遺伝子を選定することは、最初に直面する重要な課題である。これを目的として、各種オミクス解析や文献検索等により、数十・数百の候補遺伝子で構成されたリストを得ることがある。このようなリスト上の遺伝子を一つ一つ検証する過程は膨大な時間がかかる。本プロセスを簡便に行えるよう支援するため、「遺伝子情報検索システム(GIS: Gene Information Search system)」と命名したシステムを構築した。社内的には開発第2期にあたり、GIS2とした。
GIS2はそのIT基盤として、公共データベースの集合体であるGIS2-DBを有する。遺伝子に紐づく各種公共データベースの情報が、社内AWS環境S3バケット内にParquet形式として格納、カタログ化されている。コードを書ける解析専門家には、遺伝子情報や文献情報解析のための豊富なリソースを、Amazon Athena等を介して提供している。
一方で一般的な薬理研究員に対しては、可視化ツールGIS2-Viewを提供する。これまではTIBCO Spotfireで実装してきた。しかしコンテンツの増大とともに構成が複雑化してきた。そこで最近は、PythonのWebフレームワークの1つであるDashを活用して、可視化の再構築を試みている。本シンポジウムにおいては、GIS2のアーキテクチャとBIツールで実装した機能の紹介を行いたい。

#創薬、#遺伝子、#AWS、#Spotfire、#Dash

[44] PanelSearch:難病遺伝子パネル構築を支援するウェブサービス

第2部

○申在紋 (DBCLS)、山口敦子 (東京都市大)、川嶋実苗 (DBCLS)、藤原豊史 (DBCLS)

次世代シーケンシング技術の進歩により、様々な遺伝子変異の検出が可能になった。これらを難病の診断に活用するためには、疾患原因遺伝子をまとめた遺伝子パネルが有用である。しかし、難病は種類が多く症例数が少ないため、原因遺伝子の探索には大変な労力を要する。
本研究では、日本の臨床医及び研究者の協力を得て、遺伝子パネルを効率的に構築し、体系的にアップデートできるウェブサービスPanelSearch(https://pubcasefinder.dbcls.jp/panelsearch)を開発した。オープンデータベース及び文献から情報を自動収集し、臨床医及び研究者が各パネルにレビューを追加し、キュレーターが最終的な遺伝子パネルを決定する。また、パネルはバージョン管理システムによって更新されるため、臨床現場において最新の情報を効率的に確認でき、診断に活かすことができる。
各パネルの疾患と遺伝子の関連分類はGenCCデータベースと同様の9種類に「評価なし」を加えた10種類で定義する。世界の医療情報提供機関と連携するGenCCの基準に準拠することで、難病遺伝子パネルをGenCCに共有し、希少・遺伝性疾患研究の進展に貢献することが期待される。

#Rare disease、#Rare disease diagnosis、#Gene panel、#Gene-disease relationship

[45] 難病データの統合および国際共有に向けた取り組み

第3部

○藤原豊史 (DBCLS)、菊池敦生 (東北大)、高月照江 (DBCLS)、櫛田達矢 (理研)、申在紋 (DBCLS)、山本泰智 (DBCLS)、桝屋啓志 (理研)、佐藤万仁 (AMED)、足立香織 (鳥取大)、鎌田真由美 (北里大)、片山俊明 (DBCLS)、川島秀一 (DBCLS)、荻島創一 (東北大)、仁宮洸太 (東北大)

指定難病制度および小児慢性特定疾病制度は、医療費の支援だけでなく、難病データの収集と研究推進を目的としている。現在、これらデータの統合および国際共有が課題となっている。本研究では、国内外の難病関連データベースを統一形式で連結し、難病データ検索サービスを提供することで、データの統合と国際共有を促進することを目的とする。難病制度が対象とする難病の種類、難病同士の関係、難病と国際疾患データベースとの関係を定義する難病オントロジー(NANDO)を構築した(https://rdfportal.org/dataset/nando)。また、NANDOを基に国内外の難病データを統一形式RDFに変換した上で連結し、難病データ検索サービスNanbyoData(https://nanbyodata.jp)を公開した。NANDOは2,700件以上の難病(グループおよびサブタイプも含む)を定義し、OMIMおよびOrphanetの疾患との関連を含む。NANDOを基に、国内の診療用遺伝学的検査情報、難病特異的バイオリソース、ゲノムバリアントを連結し、また、国外の疾患原因遺伝子、臨床的特徴、ゲノムバリアントも連結した。国際的に利用が進む疾患オントロジーMondoがNANDOへのリンクを採用したことにより、今後、Mondoを経由して日本の難病データが国際的に共有されることが期待される。

#難病データ統合・共有、#難病オントロジーNANDO、#難病データ検索サービスNanbyoData

[46] 難病・希少疾患の症例報告を用いた、言語資源作成における課題

第1部

○土肥栄祐 (NCNP)、建石由佳 (NBDC)、藤原豊史 (DBCLS)、山本泰智 (DBCLS)

症例数が少ない難病・希少疾患は、医療者が十分に経験し難く診断に時間を要する。診断支援ツールの性能向上のためにも症例ベースのコーパスの重要性は増している。私たちは日本語症例コーパス作成に取り組んでおり、ここで明らかとなった課題に関し報告する。
コーパス作成において、①PDFからのテキスト抽出、②PDFの病名の誤記・表記揺れ、③日本語病名リストの不足、④症例データの構造化、⑤情報の抽出とアノテーション、⑥HPOの把握の困難さ、これらの課題が明らかとなった。
PDFからのテキスト抽出にChatGPT(GPT-4)は有効であった。難病・希少疾患の病名は、疾患によっては15を超える誤記・表記揺れを認めた。臨床データの構造化には、CaseSharing(臨床データ管理システム)により効率化ができた。情報の抽出とアノテーションに関しては、ChatGPTにより症状・所見の有無、時系列での抽出は可能であったが、症状・所見へのHPOによるアノテーションは困難であった。HPOは全体像の把握が困難であり、HPOに対応語句の有無の判断が困難であった。そこで症例データより作成した対応表をGPTsに情報として与えると、原文へのアノテーションは十分可能となった。
患者側、医療者側の双方にとって理解しやすい症例コーパスは今後ますます重要になると考えられる。残された課題はあるが、技術の進歩により今後の効率化が期待できる。

#難病・希少疾患、#症状・所見、#HPO、#LLM、#コーパス

[47] 医療情報のデータ統合・共有に役立つ医療オントロジーの日本語化と国際共有について

第2部

○高月照江 (DBCLS)、櫛田達矢 (理研BRC)、土肥栄祐 (NCNP)、山本泰智 (DBCLS)、桝屋啓志 (理研BRC)、藤原豊史 (DBCLS)

オントロジーは、特定の領域における概念や関係を明確に定義し、データ間の一貫性を保つための枠組みを提供するため、医療情報のデータ統合・共有のプロセスにおいて重要な要素となっている。疾患名オントロジーMondo(Mondo Disease Ontology)と哺乳類の表現型オントロジーMP(Mammlian Phenotype Ontology)は、基礎研究だけではなく臨床応用にも有用であり、世界的にその活用が進んでいる。しかし、これらのオントロジーは英語で作成されているため、英語が母国語でない国での利用拡大が課題とされている。そこでライフサイエンス統合データベースセンターでは、MondoおよびMPの日本語化と国際共有に取り組んでいる。Mondoに収載される約28,000件(2024年7月時点)の英語ラベルと、MPに収載される約15,000件(2024年7月時点)の英語ラベルに対して、ライフサイエンス辞書を用いて自動で日本語訳を割り当て、翻訳家および医療関係者により訳語の追加および修正を行った。その結果、Mondoの約23,000件の英語ラベルに、MPの全ての英語ラベル(OBSOLETEクラスを除く)に日本語訳を割り当てた。また、Babelon形式で共有された日本語訳はそれぞれのオントロジーに自動で取り込まれるため、今後の日本国内における利用拡大が期待される。

#ontology、#disease、#phenotype、#translation

[48] BioMedicalDataExplorer - A Customized GPT for Accessing Bio-Medical Databases

第3部

○金進東 (DBCLS)

生命科学研究のために、多様なデータベースを検索する必要性が高まっている。しかし、一般的にデータベースの数だけ異なるユーザーインターフェースが存在する。そのため、検索する必要があるデータベースのユーザーインターフェースを習得して検索を実行し、一つのデータベースでの検索結果を他のデータベースの検索結果と結びつけるためにデータを整形する作業等が必要になる。これを便利にするために、さまざまな形態のデータベース統合が進められている。本研究で紹介するBioMedicalDataExplorerは、生命科学データベースの検索のためカスタマイズされたGPTの一つであり、ChatGPTの自然言語対話インターフェースを使って多様なデータベースにアクセスできるようにする。多様なデータベースごとの特有のユーザーインターフェースを個別に習得する必要がなく、ユーザーにとって親しみやすい自然言語で複数のデータベースにアクセスできるようにする。また、ChatGPTを離れることなくデータベースにアクセスできるため、GPTのAI能力を最大限に活かしたデータベース検索が可能であるという特徴がある。

#ChatGPT、#自然言語インタフェース、#データベース横断検索

[49] 様々な大規模言語モデル (LLM) を実行・評価するための環境構築

第1部

○千葉啓和 (DBCLS)

ここ1〜2年で、実に多くの種類の大規模言語モデル (LLM) が発表された。LLMを活用することによって、生命科学分野におけるデータ処理が加速されると考えられる。しかしながら、実際に各種のLLMを利用してみると、モデルやバージョンによって出力が異なり、どのLLMを用いればよいか分からないことも多い。そこで今回、様々なLLMを一度に実行し、出力を比較できるようなサイトの構築を行った。LLMの実行環境は、クラウド環境とGPUサーバーを併用した。より具体的には、OpenAIのモデルに関してはMicrosoft Azureを利用した。Anthropic、Cohere、Meta、Mistral AIのモデルに関しては、Amazon Bedrockを利用した。それ以外のモデルに関しては、Hugging Faceからモデルをダウンロードして、GPUサーバー上で実行した。現状では、26種類のモデルやバージョンを試した結果を一度に表示することができているが、さらに新しいモデルを取り込むことも想定している。発表では、いくつかの例を用いて各種LLMの出力を評価し、議論したい。

#LLM、#クラウド、#GPUサーバー

[50] RDF portal

第2部

○川島秀一 (DBCLS)、千葉啓和 (DBCLS)、五斗進 (DBCLS)、細田正恵 (DBCLS)、池田秀也 (DBCLS)、片山俊明 (DBCLS)、三橋信孝 (DBCLS)、守屋勇樹 (DBCLS)、山本泰智 (DBCLS)

RDFポータルの開発状況とその進展について紹介する。RDFポータルは、生命科学におけるRDFデータへのアクセスを容易にすることを目的として、2015年よりサービスが開始された。また本ポータルは、単なるRDFデータの収集にとどまらず、データの相互運用性を向上させるためにガイドラインとレビュープロセスを導入し、高品質なRDFデータ基盤を構築してきた。これにより、DB統合化推進プログラムを含む国内RDF開発者の協力のもと、包括的なRDFデータ・リソースの提供が可能となっている。
現在、RDF-configを用いて記述されたRDFデータセットのメタデータを活用し、RDFポータルのデータ更新プロセスの自動化を進めている。RDF-configの仕様に準拠したメタデータを整備することで、最新のRDFデータと、各種メタデータ、データスキーマ図、サンプルクエリなどが同期され、データ更新プロセスのさらなる自動化と、利用者の利便性の向上が期待される。

#データベース、#RDF、#オントロジー、#SPARQL

[51] RDFポータルに含まれる同義URIデータベースの構築

第3部

○山本泰智 (DBCLS)

RDFポータルは令和5年度よりNBDCからDBCLSに運用主体が移管され、それに伴う運用体制の見直しを進めている。RDFポータルには現在、生命科学分野のRDFデータセットをオントロジーを含めて61収載している。そのトリプル数は合計で1240億を超えている。そこには同じ概念を表現しながら異なるURIで識別されている事例も多く、従って、RDFデータの利点であるURIを介したデータ統合が妨げられている。この同義URI問題に対しては、identifiers.orgやTogoID、Biomappingsといった取り組みがなされているが、現時点でRDFポータルに収載されているRDFデータに対応する同義URIデータベースとしては不足している点がある。そこで、これらのデータを活用しつつ、RDFポータルにおける同義URIデータベースの構築を進めている。本ポスターでは、同義URIの解析を通じて得られた同義語の特徴分類と、それぞれの類型に対応した既存データベースと我々の取り組みを整理して紹介する。

#RDFデータ、#同義URI、#データ統合

[52] テンソル分解を用いた教師なし学習による変数選択法

第1部

○田口善弘 (中央大)

筆者は2012年に提案した主成分分析を用いた教師なし学習による変数選択法の発展形であるテンソル分解を用いた教師なし学習による変数選択法を2017年に発表して以来多くのバイオインフォマティクスの問題に適用し、多数の学術論文を書いてきた。2019年にはシュプリンガー社からUnsupervised Feature Extraction Applied to Bioinformaticsと題する300頁の解説書を出版した(英文単著)。さらにこの10月には500頁に増頁した第2版を出版予定である。
https://link.springer.com/book/9783031609817
また同手法を簡単に使えるBioconductorパッケージも公開した。
TDbasedUFE https://doi.org/doi:10.18129/B9.bioc.TDbasedUFE
TDbasedUFEadv https://doi.org/doi:10.18129/B9.bioc.TDbasedUFEadv
この方法について解説を行いたい。

#テンソル分解、#教師なし学習、#変数選択法

[53] RAGによる既存情報をLLMに活かす試み

第2部

○樋口千洋 (NIBIOHN/医科歯科大)、夏目やよい (NIBIOHN/徳島大/大阪大)

基盤モデルのひとつである大規模言語モデルは急速に浸透し、研究領域においても様々な場面で活用が進んでいる。大規模言語モデルはトークン化した文章群を事前学習し、それらの遷移確率からプロンプトに対して合理的な文章を生成する。ここで問題になるのがハルシネーションである。ハルシネーションは事前学習する文章が正確であっても発生するという問題がある。このハルシネーションを抑制する方法として、Retrieval-Augmented Generation (RAG) が提案されている。RAGのソースとして文書テキストファイルの他にデータベースを使う事ができる。医薬基盤・健康・栄養研究所(NIBIOHN)はバイオサイエンスデータベースセンター(NBDC)と共同で国内生命情報データのカタログ化を行い、横断検索やSagaceのエンジンとして使ってきた。これらはキュレートされたデータであり、これを使う事により従来の資産を活用できる可能性がある。本取り組みについて現状報告する。

#LLM、#RAG、#ハルシネーション

[54] Integbio データベースカタログ・生命科学系データベースアーカイブの紹介

第3部

○井手隆広 (NBDC)

科学技術振興機構(JST)情報基盤事業部NBDC事業推進室 (NBDC) は公募型の研究費制度「統合化推進プログラム」を実施する他に、生命科学系のデータベースを探す、預ける、検索するサービスを提供している。これらのサービスは2010年代、増え続けるデータベースに係る要望として内閣府の統合データベース(推進)タスクフォースの示す方針を踏まえて構築された。当時の要望は「どんなデータベースがどこにあるのか?」、「データベースに含まれるファイル群を取得できないか?」、「複数のデータベース内を横断的に検索できないか?」であり、その回答としてデータベースの所在情報を集めた「カタログ」、データセットの置き場所としての「アーカイブ」、データベースの一括検索を実現する「横断検索」が機能している。本ポスターでは、カタログとアーカイブについて紹介する。

#データベース、#カタログ、#アーカイブ、#FAIR原則

※代表の発表者の氏名の前に「○」が付きます。

ページの上部に戻る

トーゴーの日シンポジウム2024「AI + ロボティクス + データベースが変える生命科学」

トーゴーの日シンポジウム2024「AI + ロボティクス + データベースが変える生命科学」。2024年10月5日(土) 品川ザ・グランドホールにて開催。一般参加登録受付中。