--- --- 大規模言語モデルを用いたBioSampleデータベースのメタデータの利便性向上に関する論文がGigaScienceに掲載されました | DBCLS

大規模言語モデルを用いたBioSampleデータベースのメタデータの利便性向上に関する論文がGigaScienceに掲載されました

当センターの池田特任研究員らによる論文“Extraction of biological terms using large language models enhances the usability of metadata in the BioSample database”がGigaScienceに掲載されました。論文は下記URLからご覧いただけます。
https://doi.org/10.1093/gigascience/giaf070

BioSample は、実験データレポジトリに登録された実験で用いられたサンプルのメタデータを蓄積したデータベースですが、実験条件の記述法が登録者間で統一されておらず、効率的な検索や実験間の比較の妨げになっていました。メタデータ中の細胞株や組織名などの用語を、整理された語彙集であるオントロジーの用語に対応付けることで表記揺れを解消する試みがされてきましたが、従来的なルールベースの手法では出現する用語がどのような意味で用いられているかを正確に把握するのが困難でした。
本研究では、大規模言語モデルを用いることで、オントロジーと対応付けるべき用語の抽出を文脈に応じて行うことを試みました。テストセットを用いた評価により、従来の手法と比較して正確性と再現率の両方を高めることができたことを確認しています。オントロジーによって意味的に整理されたメタデータは、実験データの検索性や利便性を向上させ、有用なデータの再利用を促進すると期待されます。