ライフサイエンス分野のオントロジーを探す・見つける
Linked Open Dataとオントロジー
NBDCの櫛田です。
Linked Open Data (LOD)の取り組みが広がりを見せています(参考:LODチャレンジ、LOD cloud)。
LODとは、データをWebで公開し、コンピューターが処理しやすい形式で他のデータとリンクさせる技術のことです。データに新たな価値を見出したり、今まで気づかなかった関係を発見することが期待できます。これを支える技術として、Resource Description Framework(RDF)やオントロジーがあります。
The Linked Open Data Cloud lod-cloud.net
RDFはデータを"主語・述語・目的語"の三つ組みで記述するデータモデルです。特定のアプリケーションに依存しない形式のため、RDF化することで様々なデータの統合が促進されます。
一方、オントロジーはある領域(ドメイン)の用語を階層的に整理、説明文を加えるなどして定義したものです。オントロジーを使って、RDFデータの構成要素である主語や述語、目的語を、あるオントロジー用語に対して「包括される」、「同等である」、「下位概念である」などと関連付けることで、RDFデータを構成する主語、述語、目的語がどのようなものなのか説明することが可能になります。
例えば、遺伝子の機能に関する代表的なオントロジーであるGene Ontology (geneontology.org) では、"ossification" (骨化、GO:0001503) という用語は、"multicellular organismal process" (GO:0032501) という用語の下位概念であることが規定されています。
また、Gene Ontologyの"ossification"は医学用語の語彙体系であるMeSHの"Osteogenesis" (D010012) という用語と同等であるという関連付けもなされているので、Gene OntologyとMeSHをリンクさせることが可能になります。
(RDFデータを含む)LODがオントロジーを使って説明や定義づけされていることは、他の人がそのLODを正しく利用するために重要です。またそのためにも適切なオントロジーを探して、活用する必要があります。
今回は、データのRDF化が進むライフサイエンス分野を対象に、適切なオントロジーを見つけるのに役に立つオントロジーのポータルサイトやサービス、プロジェクトをご紹介します。
-
BioPortal
http://bioportal.bioontology.org/
780件以上の生物医科学分野のオントロジーを収録する世界最大のオントロジーのレポジトリーです。各オントロジーの閲覧、ダウンロード(一部を除く)、キーワード検索が可能です。APIにも対応しています。
日本のグループが登録した一部のオントロジー用語には英語表記に加え、日本語の別名の情報を持つものがあるため、これらの用語に対しては日本語キーワードで検索することが可能です。
用語のリストやテキスト文章を一括(バッチ)入力してお薦めのオントロジーを提示するRecommenderと呼ばれるサービスも提供されています。
-
Open Biological and Biomedical Ontology (OBO) Foundry
前述のBioPortalが、ウェブオントロジー言語(OWL)など標準的な書式を使って作成され、その作成者によって登録されたオントロジーを、特に制限を設けることなく公開するサービスであるのに対して、OBO Foundryは、原則として、ライセンスをオープンユース(Creative Commons CC BY license version 3.0 以降、もしくはCC0)に限定し、他のオントロジーを再利用するなど協調しながら、コミュニティーのニーズに合ったオントロジーを開発するプロジェクトです。
現在、このプロジェクトで生まれた150件以上のオントロジーのデータがプロジェクトページからダウンロード可能です。Gene Ontologyはこのプロジェクトの成果の1つです。
-
Ontobee
OBO Foundryオントロジーのデータサーバー兼ブラウザーですが、OBO Foundry以外のものを含めた約200件のオントロジーの閲覧・検索・ダウンロードが可能です。各オントロジーには詳細なメタデータのページが用意されています。
RDFデータの述語("has function"等)の候補を見つけるのに便利です。
-
Linked Open Vocabularies (LOV)
http://lov.okfn.org/dataset/lov/
ライフサイエンスに限定せず、世の中のLODで使われているクラス(RDFデータの主語、目的語)や述語を探すのに役立つサービスです。
各用語には人気度を反映したスコアも提供されていますし、「Health」、「Biology」などのタグを使って検索結果を絞り込むことができます。
ちょうどいいオントロジーが見つからないときは?
使いたいオントロジーが見つからない場合は、自分でオントロジーを作る必要性が出てきます。ただしこの場合は、必ずしもゼロからオントロジーを作る必要はなく、既存のオントロジーを活用してそれに不足の用語を追加したり、用語間の関係を再構築することも可能です。
多くのオントロジーは二次著作物の作成・公開を認めているので、利用許諾の条件に則ってそれらを進めることは、オリジナルのオントロジー作成者を含めコミュニティー全体に対するメリットが大きいと考えられます。
LODの普及にはオントロジーの存在が不可欠です。
オントロジーは、LOD以外でも様々な場面やテクノロジー(自動運転技術など)で活用されています。
今後、オントロジーは私たちにとってより身近なものになるでしょう。是非、みなさんもオントロジーの活用と作成、公開に取り組んでみてください。
参考文献
- 山縣友紀, 古崎晃司,今井健,大江和彦,溝口理一郎: 疾患知識統合に向けた異常状態オントロジーのLinked Data化, 人工知能学会誌, Vol. 31, No.4, pp.396-405, (2014).
- Linked Dataとオントロジーによるセマンティック技術の実際
- Creative Commons CC-BY license version 3.0
- CC0