国立研究開発法人 科学技術振興機構

ライフサイエンス分野のオントロジーを探す・見つける

2019年7月25日
櫛田 達矢(NBDC)

Linked Open Dataとオントロジー

NBDCの櫛田です。

Linked Open Data (LOD)の取り組みが広がりを見せています(参考:LODチャレンジLOD cloud)。

LODとは、データをWebで公開し、コンピューターが処理しやすい形式で他のデータとリンクさせる技術のことです。データに新たな価値を見出したり、今まで気づかなかった関係を発見することが期待できます。これを支える技術として、Resource Description Framework(RDF)やオントロジーがあります。

nbdcblog_019_01.jpg

The Linked Open Data Cloud lod-cloud.net

RDFはデータを"主語・述語・目的語"の三つ組みで記述するデータモデルです。特定のアプリケーションに依存しない形式のため、RDF化することで様々なデータの統合が促進されます。

一方、オントロジーはある領域(ドメイン)の用語を階層的に整理、説明文を加えるなどして定義したものです。オントロジーを使って、RDFデータの構成要素である主語や述語、目的語を、あるオントロジー用語に対して「包括される」、「同等である」、「下位概念である」などと関連付けることで、RDFデータを構成する主語、述語、目的語がどのようなものなのか説明することが可能になります。

例えば、遺伝子の機能に関する代表的なオントロジーであるGene Ontology (geneontology.org) では、"ossification" (骨化、GO:0001503) という用語は、"multicellular organismal process" (GO:0032501) という用語の下位概念であることが規定されています。

また、Gene Ontologyの"ossification"は医学用語の語彙体系であるMeSHの"Osteogenesis" (D010012) という用語と同等であるという関連付けもなされているので、Gene OntologyとMeSHをリンクさせることが可能になります。

(RDFデータを含む)LODがオントロジーを使って説明や定義づけされていることは、他の人がそのLODを正しく利用するために重要です。またそのためにも適切なオントロジーを探して、活用する必要があります。

今回は、データのRDF化が進むライフサイエンス分野を対象に、適切なオントロジーを見つけるのに役に立つオントロジーのポータルサイトやサービス、プロジェクトをご紹介します。

  • BioPortal

    http://bioportal.bioontology.org/

    780件以上の生物医科学分野のオントロジーを収録する世界最大のオントロジーのレポジトリーです。各オントロジーの閲覧、ダウンロード(一部を除く)、キーワード検索が可能です。APIにも対応しています。

    日本のグループが登録した一部のオントロジー用語には英語表記に加え、日本語の別名の情報を持つものがあるため、これらの用語に対しては日本語キーワードで検索することが可能です。

    用語のリストやテキスト文章を一括(バッチ)入力してお薦めのオントロジーを提示するRecommenderと呼ばれるサービスも提供されています。

  • Open Biological and Biomedical Ontology (OBO) Foundry

    http://obofoundry.org/

    前述のBioPortalが、ウェブオントロジー言語(OWL)など標準的な書式を使って作成され、その作成者によって登録されたオントロジーを、特に制限を設けることなく公開するサービスであるのに対して、OBO Foundryは、原則として、ライセンスをオープンユース(Creative Commons CC BY license version 3.0 以降、もしくはCC0)に限定し、他のオントロジーを再利用するなど協調しながら、コミュニティーのニーズに合ったオントロジーを開発するプロジェクトです。

    現在、このプロジェクトで生まれた150件以上のオントロジーのデータがプロジェクトページからダウンロード可能です。Gene Ontologyはこのプロジェクトの成果の1つです。

  • Ontobee

    http://www.ontobee.org/

    OBO Foundryオントロジーのデータサーバー兼ブラウザーですが、OBO Foundry以外のものを含めた約200件のオントロジーの閲覧・検索・ダウンロードが可能です。各オントロジーには詳細なメタデータのページが用意されています。

    RDFデータの述語("has function"等)の候補を見つけるのに便利です。

  • Linked Open Vocabularies (LOV)

    http://lov.okfn.org/dataset/lov/

    ライフサイエンスに限定せず、世の中のLODで使われているクラス(RDFデータの主語、目的語)や述語を探すのに役立つサービスです。

    各用語には人気度を反映したスコアも提供されていますし、「Health」、「Biology」などのタグを使って検索結果を絞り込むことができます。

ちょうどいいオントロジーが見つからないときは?

使いたいオントロジーが見つからない場合は、自分でオントロジーを作る必要性が出てきます。ただしこの場合は、必ずしもゼロからオントロジーを作る必要はなく、既存のオントロジーを活用してそれに不足の用語を追加したり、用語間の関係を再構築することも可能です。

多くのオントロジーは二次著作物の作成・公開を認めているので、利用許諾の条件に則ってそれらを進めることは、オリジナルのオントロジー作成者を含めコミュニティー全体に対するメリットが大きいと考えられます。

LODの普及にはオントロジーの存在が不可欠です。

オントロジーは、LOD以外でも様々な場面やテクノロジー(自動運転技術など)で活用されています。

今後、オントロジーは私たちにとってより身近なものになるでしょう。是非、みなさんもオントロジーの活用と作成、公開に取り組んでみてください。

参考文献

  1. 山縣友紀, 古崎晃司,今井健,大江和彦,溝口理一郎: 疾患知識統合に向けた異常状態オントロジーのLinked Data化, 人工知能学会誌, Vol. 31, No.4, pp.396-405, (2014).
  2. Linked Dataとオントロジーによるセマンティック技術の実際
  3. Creative Commons CC-BY license version 3.0
  4. CC0

cc-by Licensed under a Creative Commons 表示4.0国際 license
©2019 櫛田達矢(国立研究開発法人科学技術振興機構バイオサイエンスデータベースセンター)

NBDCメルマガ

NBDCの講習会・研究費公募・成果情報など、ライフサイエンスの研究者・技術者・支援者の皆さまに毎月お届けします。