SRA Toolkit（sra-tools）のインストールとシークエンスリードのダウンロード

2022年9月19日
2025年3月25日
解析
AWS, fasterq-dump, fastq-dump, GCP, pizg, prefetch, S3, SRA, SRA toolkit, sra-tools, vdb-config
1378view

日付；2022/09/19（月）、2022/10/02（日）改定と追記、2024/03/31（日）有料化

ゲノム解析で遊ぼうと思っても、肝心なデータがない。そういう場合は、NCBI（National Center for biotechnology Information）のSRA（Sequence Read Achive）からダウンロードして使用する。

しかし、２０２１年くらいからNCBIが一部データをon-premisesで管理するのを止めて、AWSやGCPに保存するようになった（https://www.ncbi.nlm.nih.gov/sra/docs/sra-cloud/）。新しいデータ、例えばCOVID-19のシークエンスリードなんかがAWSやGCPに保存されているようだ（https://www.ncbi.nlm.nih.gov/sra/docs/sra-aws-download/）。

何が嫌だって、これは場合によってはダウンロードにお金がかかる場合がある。このsra-toolsの機能をフル活用するためには、AWSのEC2インスタンスとS3にサインアップしないといけない。言うても、かなりの量のダウンロードや長時間インスタンスを走らせなければ大金が請求されることはないのだろう。しかし、シークエンサーで読んだデータはかなり大きいので、注意しなくてはならないだろう。長時間のダウンロードならばEC2のランニングでもお金を取られる可能性もある。本当にこれらのデータが必要な場合は、職場からお金を支払ってもらうなどの対処が必要になりそうだ。これはSRA toolkitのインストラクションにも書いてあった。しかし、フリーと言っておきながら金がかかる場合があるってのは、どうも腑に落ちないところだ。

そういうことで、それが発表されて以来、 sra-toolsを使うのを、インストールでされ敬遠してきた。しかし、現職場でこの手の解析を行うようになってからは、どうしてもこれを使ってテストしたりしなければならなくなった。なので、今回はこの sra-toolsを使ってみようと思う。そのインストール時のメモをここに記しておこうと思う。

ポイントとしては「ちゃんとマニュアルを読んだ」ってところだ。金がかかるかもしれないとか、本当に嫌だ。結論としては、特に金がかかることはなさそうだった。ただ自分の勉強不足で怯えていただけらしい。

1 重要なこと
2 SRA toolkitのインストラクション（マニュアル）
3 sra-toolkitをインストールする
4 vdb-config -i で設定する
5 prefetchでsraファイルをダウンロードする
6 fastq-dumpでfastqに落とす
7 fasterq-dumpで高速化
8 fasterq-dumpの致命的欠点
9 fastq-dumpのほうが早い場合がある
10 圧縮はpigzを使用したほうが良い

続きは有料です。

この記事を書いた人

Kats

これまで放射線治療の基礎研究、乳がんの遺伝子診断に関する研究に携わってきました。また、アメリカではポスドクとしてトリプルネガティブ乳がんに対する新規分子標的薬の影響に関して研究をしてきました。２０２２年から改めて日本で研究活動を再開することになりました。このブログでは日頃の研究活動から学んだことや考えたことを記録していこうと思います。多くが愚痴になってしまうかもしれません。この記録が自分の忘備録として、そしてすこしでも誰かの参考になるようであれば、それでいいんじゃあないかと思っております。

投稿一覧へ

運営者について