PubMedの怪

PubMed検索の利用例として、しばしば特定の論文のタイトルをそのまま貼り付けて書誌情報を取得することがあります。PubMedに収められている論文のタイトルを丸ごと入力して検索すると、「See 1 citation found by title matching your search:」という表示とともに、直接書誌情報が表示されます。これはつまりPubMedが、一つまたは複数のキーワードが入力された場合とは異なる、タイトルにマッチさせるための検索手法を、入力された内容に基づき暗黙のうちに選択していることを示しています。

さて、このタイトルマッチの検索を明示的にPubMedに伝えて行うこともでき、それには二通りの方法があるのですが、両者は同じ検索語であっても結果が異なる場合があるので記録しておきます。ここではプログラムからアクセスすることを想定して、NCBIの提供するAPIであるE-Utilitiesを用いるものとします。詳細はEntrez Programming Utilities Helpに記述されていますが、「field」の項目に以下の記述があります。

Search field. If used, the entire search term will be limited to the specified Entrez field. The following two URLs are equivalent:

esearch.fcgi?db=pubmed&term=asthma&field=title

esearch.fcgi?db=pubmed&term=asthma[title]

ここで、両者は「equivalent」と書いてあるのですが、上述の通り、実際は得られる結果が異なるときがあり、一方の検索方法では一件しかマッチしないにもかかわらず、他方では複数マッチしたり、一件もマッチしなかったりなどの事例を確認しています。

冒頭で記述したように、通常のウェブブラウザからPubMedにアクセスし、それなりの語数のあるタイトルをそのまま入力して検索するとタイトルマッチ検索が行われますが、これは実際には一部のストップワードを除き、入力されたすべての語に対して[title]フィールドオプションを暗黙のうちにつけることで実現しています。このような処理が行われていることは、右側のペーンにある「Search details」を見ることで確認できます。つまり、この場合はE-Utilitiesの説明における後者の手法が取られていることになります。

以上の理由により、求める論文のPubMedIDを一回で特定する可能性を高めるためには、両者を併用する必要があることがわかりました。