講演・パネル

招待講演

自然言語処理と大規模言語モデルの発展と応用の可能性

09:40～

本講演では、伝統的な自然言語処理や最近の大規模言語モデルの基礎について概説し、生命科学研究などさまざまなドメインにおける応用の可能性について述べる。自然言語処理の応用先として、生命科学論文といった大規模テキストデータに対する情報抽出やテキストマイニングなどが長年研究されてきた。大規模言語モデルにより、テキストデータのより高度な解析に加え、マルチモーダルデータやデータベースとの統合といった新たな展開も見られる。自然言語処理・大規模言語モデルのこれまでの技術を説明した上で、今後の研究や技術開発の方向性について議論する。

宮尾祐介
東京大学大学院情報理工学系研究科教授

経歴：2000年東京大学大学院理学系研究科修士課程修了。2001年より同大学にて助手。2007年より助教。2006年同大学大学院にて博士号(情報理工学) 取得。2010年より国立情報学研究所准教授。2018年より東京大学教授。構文解析、意味解析などの自然言語処理基盤技術とその応用の研究に従事。

ロボティック・バイオロジーによる生命科学の加速

10:10～

我々は、理化学研究所神戸キャンパス内に、将来のロボット実験センター構想のプロトタイプとなる「ロボティック・バイオロジー・プロトタイピング・ラボ（RBPL）」を建設し、科学実験を「モノのプログラミング」として記述、伝達、実行するための技術体系の構築を進めている。既に、細胞生物学実験のロボット化や自動実験計画による実験システムの自律化などに取り組み、例えば再生医療領域においてはiPS細胞から網膜色素上皮細胞への分化誘導条件をAIロボットに自律的に発見させることにも成功した。
情報技術やロボティクスなどの工学の導入によるいわゆる研究DXの先には、新たな科学研究のパラダイムの萌芽がある。特に、AIとロボットによって実験、理論、計算、データという4つの主要な科学的方法論を融合し、その進展を飛躍的に加速するいわゆるAIロボット駆動型科学は、「第5の科学領域」として有望視されている。我々は、生命科学分野を起点としてデータ駆動とモデル駆動の融合による実験科学の新しいパラダイムを切り開くことを目標としている。国際動向なども含め、AIロボット駆動型科学の最新の状況などもご紹介する。

高橋恒一
理化学研究所生命機能科学研究センターチームリーダー

経歴：2004年慶應義塾大学で学位取得。2009年より理化学研究所で研究室を主宰。慶應義塾大学大学院政策・メディア研究科特任教授、同大環境情報学部特別招聘教授、大阪大学大学院生命機能研究科招聘教授。高度な情報技術と社会との関係にも興味を持ち、一般社団法人AIアライメント・ネットワーク代表理事を務める。RBI株式会社最高情報責任者(CIO)、エピストラ株式会社共同創業者、株式会社MOLCURE経営顧問などを歴任しテック系ベンチャーの育成にも力を注ぐ。科学技術振興機構未来社会創造事業「ロボティック・バイオロジーによる生命科学の加速」課題研究開発代表者。

口頭発表

バイオデータサイエンス時代の統合化推進プログラム

11:00～

統合化推進プログラムは、2011年に発足して以来、一貫して生命科学の情報基盤としてのデータベース統合に取り組んできた。この間に生命科学のデータは質と量の両面で劇的に変化し、近年のAIの急速な進歩も相まって、今まさにバイオデータサイエンスの時代が到来しつつある。バイオデータサイエンスこそが本プログラムが当初から目指してきた未来である一方、データベースのあり方にも大きな変化が求められるようになった。この変革期において、本プログラムが果たすべき役割や目指すべき方向性とは何か、それを深く考えていきたい。

伊藤隆司
NBDC「統合化推進プログラム」研究総括 / 九州大学大学院医学研究院教授

経歴：1984年九州大学医学部を卒業し、1987年長崎大学熱帯医学研究所助手。カリフォルニア大学バークレー校分子細胞生物学部、東京大学医科学研究所を経て、1999年、金沢大学がん研究所教授に就任。東京大学大学院新領域創成科学研究科教授、同大学院理学系研究科教授を経て、2013年に九州大学大学院医学研究院教授に就任、現在に至る。2020年よりNBDC「統合化推進プログラム」研究総括。

AI駆動型データキュレーションによる中分子相互作用統合データベースの開発

11:05～

中分子は、これまで創薬が難しかった標的に対する新しい治療手段として注目されています。ペプチドや核酸など多様な中分子データを統合し、一元的にアクセスできるようにすることで、これらの研究開発が加速する可能性がある。我々は、近年発展している構造予測技術を用いた相互作用のアノテーション法の確立や自然言語処理技術を用いたデータ収集にAI技術を活用することで、キュレーションの精度向上と効率化を目指す。本開発によって、創薬研究における中分子相互作用の総合的なデータベースの構築を目指す。

池田和由
理化学研究所計算科学研究センター上級研究員

経歴：2005年東京薬科大学博士号(生命科学)取得。2002年～2006年産業技術総合研究所生命情報科学研究センター(CBRC) 特別研究員。2006年～2009年株式会社ファルマデザイン創薬研究開発本部主任研究員。2009年～2012年 EMBL-EBI, ChEMBL (J.P.Overington) S.A.Developer, UK。2012年～2016年株式会社レベルファイブ創薬インフォマティクス研究室室長。2016年～2024年慶應義塾大学薬学部生命機能物理学講座特任准教授。2019年～2020年理化学研究所　共同研究員。2020年～2024年理化学研究所上級研究員。

細胞レベルの機能・表現型と遺伝子発現を関連付ける「Cell IO」データベースの開発

11:15～

多細胞生物における細胞レベルの機能・表現型に関する知識は、現在文献データと１細胞トランスクリプトームデータという２種類の公共データの中に散逸しており、気軽にはアクセスしづらい。そこで本研究では、細胞型を「主語」とした生物学的知識の利活用を促進するため、細胞の機能・表現型を整理したデータベース「Cell IO（セル・アイオー）」（Cell Input/Output）の構築を目指す。具体的には、１細胞トランスクリプトームデータと紐づく細胞の機能・表現型と摂動情報を整理するとともに、文献から細胞の機能・表現型に関する情報を抽出し、統合して提供する。本発表では、Cell IOの構想について紹介し、開発の方向性について議論する。

尾崎遼
筑波大学医学医療系准教授

経歴：2015年、東京大学大学院新領域創成科学研究科情報生命科学専攻博士後期課程修了。理化学研究所を経て、2018年より筑波大学医学医療系生命医科学域准教授（現職）。専門はバイオインフォマティクス、特に塩基配列解析、シングルセルRNA-seqデータ解析、研究自動化。

創発的再解析のためのメタボローム統合データベース

11:25～

メタボロミクスは生物の代謝プロセスの結果として生じる代謝物群を包括的に分析することで生理現象の背後にある詳細で膨大な代謝情報を提供する。近年多様な研究分野における分析データが急速に蓄積されているが、研究間でのデータ統合およびその活用は依然として困難である。
そこで我々は大規模メタボロミクスデータの研究横断的な統合再解析プラットフォームの開発を行っている。代謝物の変動情報と研究メタデータでのネットワーク化を行うことで広範な研究を統合し柔軟な再解析を可能にしている。様々な背景をもつ研究データを統合したネットワークは、単独の研究では見落とされていた新しい発見や様々な仮説生成を可能にすることが期待できる。

早川英介
理化学研究所環境資源科学研究センター客員研究員 / 九州工業大学情報工学研究院准教授

経歴：2006年、総合研究大学院大学遺伝学専攻（遺伝学研究所）で学位（理学）取得。2008年-2014年 KU Leuven (Belgium) Biology department Research group of Functional Genomics and Proteomics Postdoctoral researcher。2015年-2016年、九州大学先端融合医療レドックスナビ研究拠点特任助教。2016年-2023年、沖縄科学技術大学院大学進化神経生物学ユニットグループリーダー。2023-2024年、理化学研究所環境資源科学研究センターメタボローム情報研究チーム研究員。2024年-現在、理化学研究所環境資源科学研究センターメタボローム情報研究チーム客員研究員、2024年-現在、九州工業大学情報工学研究院生命化学情報工学研究系准教授。

パネルディスカッション「生命科学の未来を予想する――データベースはもう要らなくなる...ってコト?!」

16:05～

データおよびデータベースの整備は、生命科学研究によって取得されたデータを知識に昇華する営みとして、研究分野ごとに国を超えて連携しながら連綿と続けられてきた。近年、AIやロボット技術といった技術の発展により、研究上のさまざまなプロセスの自動化が進みつつある。特に、ここ数年ChatGPTをはじめとした生成AIの成功は、データの取り扱いに関して従来困難と考えられてきた様々な課題を解決しうると期待される。また、ロボット技術を用いたラボラトリー・オートメーションの進展は、均質で大量なデータの迅速な取得を可能にしつつある。しかし、そのように取得されたデータから知識を創出するには、依然として高度なドメイン知識を持った人間による整備が欠かせない。本パネル・ディスカッションでは、AI技術やロボット技術の現状を踏まえ、生命科学の将来像を議論する。また、研究データが質・量ともに飛躍的に増大するなかで、データの整備や公開のあり方について議論する。