Linked Open Dataの構築に関する論文の出版

2013年の3月13日にLinked Open Dataの構築についての論文が出版されました。これは、生命科学分野の略語に関するデータベースAllieとRDF化されたWikipediaのデータベースDBpediaの間のリンクを自動生成する試みを報告したものです。

Allieを検索すると分かりますが、1つの略語に対して、その本来の表現である展開形が複数存在することは多く(略語の多義性、例えばSPF)、複数の候補が提示された場合には、実際に自分が求めている展開形がそれらのうちのどれに当たるのかを簡単に知ることが出来れば有益であると思います。しかし現時点ではAllieで略語を検索しても、各展開形の意味は書かれていません。本機能を実現するためには各展開形の辞書が必要となるわけですが、その数は180万弱と膨大で全てを我々が構築することは不可能です。しかも、既に同様の資源があり、それを適切に利用できるならば、新たに手間と暇をかける必要は無いわけです。そしてDBpediaがまさにそれに当たるものと考えました。何故ならば、自由にデータベースを丸ごとダウンロード可能だからです。首尾よくAllie中の展開形に対応するDBpediaのエントリがあれば、そこには解説記事が書かれていることになり、Allieの利用者は効率的に自身の求めている略語の意味を知ることが出来るようになるでしょう。

そして、DBpediaが自由にダウンロード可能であるからといってもAllieの中にそれを入れこむ必要は無く、AllieはRDFデータ化されているので、各展開形のURIと、対応するDBpediaのエントリーのURIを適宜owl:sameAs述語でリンクするだけで十分なわけです。従って、このリンクを構築するために丸ごとデータベースを取得しますが、それを公開する必要はありません。Linked Open Dataとすることで利用者からみればあたかも一つの繋がったデータベースとして扱える一方で、両者は互いに独立してデータを維持管理することが可能になります。

実際に自動でリンク構築を行ってみると、OpenRefineで使われているKey Collision法とUMLSを用いた正規化という比較的単純な手法であるにも関わらず、F値で0.98と高い精度でAllieの展開形とDBpediaのエントリーのタイトルをマッチできることが判明しました。そしてリンクが出来なかった理由を調べると、殆どの場合、それは単に展開形に対応するDBpediaのエントリーが無いに過ぎないことも判明しました。更に、展開形がMEDLINE中に出現する頻度と、それが対応エントリーを持つ割合の間には強い関連があることも確認されました。

当然想像されることですが、MEDLINE中でより多く出現すればするほど、つまり、より多くの文献中で使われれば使われるほど、対応するDBpediaのエントリーが存在する割合が高まるということになります。そしてこの関係性が統計的に意味がある確度(r2 = 0.96、P < 0.01)で単純な数式としてモデル化できました。すなわち、MEDLINE中で同じ出現頻度の展開形群に注目すると、その頻度グループに属しているある展開形がDBpedia中に対応エントリーを持つ見込みは、DBpedia中に対応エントリーの無い、同頻度グループ内での展開形の割合に比例する、ということです。より分かりやすく表現すると、ある展開形が現時点でまだDBpediaに対応エントリーを持たないとしても、MEDLINE中での出現頻度が低く、そして、今後も使われていくならば、そのうちエントリーを持つことが期待できる、ということになります。一方で、既にMEDLINE中で高頻度に出現しているにもかかわらず、DBpediaに対応するエントリーが無い展開形は、今後もエントリーを持たない可能性が高いことになります。それでもDBpediaに、すなわち、Wikipediaに載せるべきものと判断できるならば、追加した方が良いものなのかもしれません。今回のデータでは、MEDLINE中に300回以上出現する展開形の8割超がDBpediaに対応エントリーを持つことが確認された一方で、100回未満では6割に満たないという結果が得られました。

詳細については論文をご覧ください。

Yamamoto Y, Yamaguchi A, Yonezawa A. Building Linked Open Data towards integration of biomedical scientific literature with DBpedia. J Biomed Semantics. 2013 Mar 13;4(1):8.
Full text
PubMed

なお、本研究はバイオサイエンスデータベースセンター(NBDC)が進めている「ライフサイエンスデータベース統合推進事業」の『基盤技術開発プログラム』の成果となります。