2011年分子生物学会発表スライド補足

Posted by yayamamo on 2011年12月19日 Leave a comment (0) Go to comments

年会の一般口頭発表(Towards Database Integration Through RDF & Linked Data)で紹介したRDF/Linked Dataを通したデータベース統合について8分では伝えきれないこともあったのでここに記しておく。

ウェブの発達とデータベースの増加

ウェブを成り立たせる基本の技術仕様であるHyper Text Markup Language (HTML)とHypertext Transfer Protocol (HTTP)はともに1990年代始めに発表された(参考1,参考2)が、それから20年弱で爆発的に利用者が増えた。それに伴い、ウェブを介してアクセスが可能な生命科学分野のデータベースも激増した。NCBIの提供するEntrezが、それまでftpやCD-ROMなどのメディアで提供されていたGenbankやMEDLINEなどの各種データベースを横断検索するサービスとしてウェブ上で公開されたのが1994年である(NARの記事から)。また、当時から、複数データベース間において、関連項目を相互にリンクすることも行われており、例えば、Genbankのエントリーにおいては、関連文献情報を効率的に取得出来るようにMEDLINEでのIDが含まれている。データベース数の増加はNCBIだけにとどまらず、たとえばNAR Database Issueに掲載されたデータベースの数は1998年では100件弱であったが、その13年後の2011年には1330件になっている(1998-2007, 2007, 2008, 2009, 2010, 2011)。

関連データの効率的な取得の問題

データベースをウェブ経由でアクセス可能にすることは、費用と想定利用者数の点で他の方法に比べると非常にメリットがあることが現在の状況をもたらしていると考えられる。さらに、ウェブ技術を用いることで、データベース提供者が簡単に関連データへのリンクを張ることが出来る。生命科学分野に限られたことではないが、個々の利用者の求める全てのデータを、一つのデータベースで提供することは非現実的であり、関連するデータが相互にリンクされていることでウェブアクセス可能なデータベース群全体の有用性が更に高まる。
一方で、各組織が独立してウェブアクセス可能なデータベースを構築している現状では、効率的に複数のデータベースから関連する情報を取得することが困難になっている。これは特にプログラムを用いてアクセスする際に問題になる。というのも、個々のデータベースについて、そのアクセス方法を調査し、それぞれに特化したプログラミングをする必要があるほか、機能追加などの理由で変更が行われた際にも一つ一つ対応していく必要があるからだ。更にリンクについても、リンク元とリンク先のデータの間の関係が陽に記述されていないことから、リンクを辿ることで何が得られるのか形式的に取得することが難しい。
従って、生命科学分野の複数データベースを、提供組織横断的に検索出来るようにしたり、関連するデータベース間でのリンクを効率的に辿れるようにしたりするには、各データベースの各エントリへのアクセス方法が統一されていることが望ましい。EntrezはNCBIの提供するデータベースについてはそれが実現されているが、そこでの形式は独自に開発されているものであり、他の組織が採用することは困難である。そこで、オープンで標準的な形式を採用することが望ましいことになるが、そこで登場するのがResource Description Framework (RDF)である。

リンクの形式

代表的な利用例としては、ある二つのデータベースにおける識別子(Gene IDなど)が同じ意味であることを示すためのリンクである。DBpediaにおいては、遺伝子P53を示す識別子は

http://dbpedia.org/resource/P53

であるが、これは

http://www4.wiwiss.fu-berlin.de/diseasome/resource/genes/TP53

と同じであることから、RDF形式を用いると以下のように表記出来る。

<http://dbpedia.org/resource/P53> <http://www.w3.org/2002/07/owl#sameAs> <http://www4.wiwiss.fu-berlin.de/diseasome/resource/genes/TP53> .

ここには空白で区切られた3つの識別子(RDFにおいてはUniform Resource Indicator (URI)と呼ぶ)が書かれているが、これは最初のURIが最後のURIと2番目にあるURIで示される関係にあることを表すと定められている。http://www.w3.org/2002/07/owl#sameAs は両者が同値であることを表すURIである。そしてRDFにおいては、それぞれのURIを、主語、述語、目的語と呼び、全てのデータがこの三つ組みで表現される。

アノテーションはリンク

生命科学における遺伝子アノテーションは、ゲノム上のある特定の塩基配列部分に対して、そこが遺伝子であるとか、その遺伝子が発現すると生体内でどのような機能を担うかといった事項を記述して行く営みであるが、それはすなわち、ある特定のゲノム領域と、遺伝子の機能などの特徴を示す語をリンクする作業に他ならない。様々な生物種について、様々な組織がアノテーション作業を行っている一方、生物種横断的に同じ機能を発現する遺伝子があることから、アノテーション作業は、特定の塩基配列部分と、生物種横断的に統一して定められた語をリンクすることであると望ましい。そうすることで、例えばfruit flyの研究者が、dpld遺伝子と同じ機能を持つzebrafishのそれがrpl13であると効率よく見つけられるわけだ(参考)。Gene Ontology (GO)プロジェクトは生物種横断的にアノテーションを行う際に利用可能な語彙を整備している活動の代表例である。プロジェクトの目的が「standardizing the representation of gene and gene product attributes across species and databases」であるとトップページに書かれている。Gene OntologyはOpen Biomedical Ontologies (OBO)形式で表現されているため、誰でも自由に利用可能であるが、その名の通り、オントロジーを記述するために作られていることから、上記のようなインターネットを介してアクセス可能なデータベースの項目間のリンクを示す目的で利用することは困難である。一方、ウェブオントロジー記述言語であるOntology Web Language (OWL)がRDFで記述されていることからも分かる通り、他のデータベースへのリンクもGene Ontologyのような統制語彙もすべて一つのRDF形式で記述できる。

DBCLSでの活動

ライフサイエンス統合データベースセンター(DBCLS)では国立遺伝学研究所(DDBJ)との共催でハッカソンを行った。このなかでヒト・環境メタゲノムメタデータのオントロジー整備とRDF化と題して環境メタゲノムの配列データに付随するメタデータに記述する語について統制語彙を整備する活動を行っている。
これにより得られるご利益としては、例えば、ある特定の環境に生息する微生物集団に特徴的な遺伝子機能の一覧が効率的に取得できたり、或いは特定の機能を発現する遺伝子を持つ微生物が好む環境は何かといった情報が比較的容易に得られるようになることが挙げられる。

様々な組織で様々な生物種のゲノム配列が読まれ、アノテーションされているが、そこでメタデータを含めて共通の語彙を利用することが後の再利用性を高めるために重要である。

記録hackathon, セマンティックウェブ, 分生

← N-TriplesのUnicode表現(\uxxxx)をデコードする

Hadoop tips →

Find Something You’ve Lost

Just another day of Yayamamo