大規模言語モデルを活用した病的スプライシング変異データベースの自律的構築

カテゴリ

  • 進行中
  • 統合化推進プログラム (DICP)
  • 2025年度採択(育成型)

研究代表者氏名・所属

白石 友一

国立がん研究センター 研究所 ゲノム解析基盤開発分野 分野長

研究開発の概要

公共トランスクリプトームデータからスプライスサイト生成変異(SSCV)を同定・収載した「SSCV DB」を発展させ、大規模言語モデルを用いて病的可能性を予測し、疾患との関連性情報を提供する。また、新たに公開されたトランスクリプトームデータから自動的にSSCVを検出し、データベースを自動更新するパイプラインを開発する。遺伝性疾患やがん発生の原因ともなるSSCVの同定は、従来のゲノム解析では難しく見落とされがちだったが、本データベースによりSSCVと疾患との関連性を明らかにすることで、SSCVの検出による疾患診断法やSSCVを標的とする核酸医薬の研究開発などへの寄与を目指す。

主な研究開発対象データベース

SSCV DB (Splice-Site Creating Variant Database)

研究開発期間

2025年4月~2028年3月

グラント番号

JPMJND2501

AJACSウェビナー開催情報

【2025年5月22日(木)開催】データ解析講習会:AJACS「AlphaFold 等のタンパク質立体構造予測ツールを知って・学んで・使う」ではタンパク質立体構造の予測手法の基礎とAlphaFold をはじめとした予測ツールの利用方法・注意点を紹介します。
講師:東京科学大学 大上 雅史准教授、古井 海里氏