CiteULike まとめ

http://www.citeulike.org/faq/data.adpに記述されているURLを利用してデータを取得。

誰(匿名)がいつ、何を投稿したのかが分かるデータ(Who-posted-what)と、各書誌情報についての情報が格納されているデータ(Article linkout data)を取得可能。
毎日更新している模様。

2009-08-30について調査。
Who-posted-what: 6 668 545行
一つの書誌情報について利用者が複数のタグを付けた場合は別々の行になるのでそこを吸収すると、
2 106 362行
のべ210万程度の書誌情報が投稿されていることになる。
更に、書誌情報についての重複を吸収すると、
1 783 077行
ということで、180万程度の書誌情報が投稿されていることになる。

また、利用者数は52 431人。一人当たりの平均登録件数は40件。
標準偏差が323もあるので、バラつきの大きいことが分かる。(最大は32 313…。続いて、30 695, 27 836, 27 825, 9 675…などと続く)
トップ1%を過ぎた時点での登録件数は600件。中央値は2(件)。したがって、半分以上の利用者が1, 2件しか登録していない。

因みに、最もCiteULike利用者の間で人気が高い論文は「The Structure of Collaborative Tagging Systems / Scott Golder, Bernardo A. Huberman / 2005」で、238人が投稿している。
CiteULikeのシステムに関連する話題のようで。
この分布もパワーローに従っているのでしょう。
それに続いて140人が登校しているのが、PMIDの付けられている、「Defrosting the digital library: bibliographic tools for the next generation web.」。
これまた、CiteULikeに関連する話題。
3番目は、「Conference on Hypertext and Hypermedia」。
その他、PMIDが付けられているところでは、「Collective dynamics of ‘small-world’ networks.」
ここの利用者の興味を反映した形ですね。

登録されているPMID付きの書誌情報は290 660なので、全体の16パーセント、1/6弱程度と少ない。
生命科学系の利用者は少数派なのだろう。
なお、15 192人が少なくとも一つのPMID付きの書誌情報を登録しており、これは全利用者の約3割にあたる。