CWL ワークフローの要求計算資源量を計測するシステム CWL-metrics の論文が GigaScience 誌に掲載されました
2019. 05. 14 /
当センターの大田達郎特任研究員による論文 “Accumulating computational resource usage of genomic data analysis workflow to optimize cloud computing instance selection” が GigaScience 誌に掲載されました。本研究は国立遺伝学研究所DDBJセンターと国立情報学研究所との連携によるものです。
論文はオープンアクセスで、下記URLからご覧いただけます。
https://doi.org/10.1093/gigascience/giz052
Docker や Singularity などのコンテナ技術によってソフトウェアのポータビリティが向上し、Common Workflow Language などのワークフロー言語によって解析環境(ワークフロー)の可搬性が向上しました。これらの技術は、データ解析環境が異なる計算機環境で動作することを保証し、データサイエンスにおけるクラウド利用の普及に貢献しています。しかし、クラウドを効率よく利用するためには、データ解析に要する計算量を正確に見積もり、適切な規模の計算機を選択することが必要になります。CWL-metricsは、CWL で記述されたワークフローを実行した場合に、要求資源量、すなわちデータ解析ワークフローが要するCPU、メモリ、ディスク書き込みなどの情報を集積し、分析するツールです。システムは MIT ライセンスのオープンソースソフトウェアとして GitHub 上で公開され、誰でも自由に利用することができます。プロジェクトのウェブサイトは こちら です。