日付;2025/01/11(土)
- 1 はじめに
- 2 使用したサンプルについて
- 3 使用したコンピューターについて
- 4 インストールしたソフトウェア・パッケージ
- 5 使用したリファレンスゲノムについて
- 6 fastq_screenのインストールとリファレンスゲノムのインデックス作成
- 7 fastqcとmultiqcによるQC
- 8 fastpによるアダプター除去
- 9 STARによるrRNAとmtRNAの除去
- 10 STARによるリファレンスゲノムへのマッピング
- 11 samtoolsによるBamファイルへの変換
- 12 fastq_screenによるマッピングの確認
- 13 featureCountsによるリードのカウント
- 14 ソース
- 15 ソースがほしい場合
はじめに
小さな研究室やアカデミックではRNA-seqの解析のためにN=5で2グループ取ることができれば上等で、経費を抑えるためにN=3や、最悪ではあるがN=2や1でやってしまうことも少なくないように思う。しかし、今回はそういうことはなく、N=5で合計40サンプルで行うことができた。しかし、こういった場合はやはり一連の解析に時間がかかるので大変である。この記事を書いている時点ではRによる統計解析を行っているところであるが、その前の段階であるPreprpcessing(QC、アダプタートリミング)とProcessing(マッピング、そして、リードカウント)を久しぶりに行い、なかなかに忘れていたことが多かったので、特に、各ステップでどんなパッケージやソフトを使い、どんなコードを流したのか、起こったトラブル、その解決方法を中心に記録する。ここに記す方法によりNovaSeq 6000等の最近のイルミナのシークエンサーによるRNA-seqのQC、アダプター配列の除去、マッピング、リードカウントは一通り完了できるはずである。ただし、久しぶりにRNA-seqを行って気がついたこともあり、ちょっと不安になってしまうところでもあった。この作業にはトラブルシューティング込みで2日間くらい費やしてしまった。
この記事にはfastqcによるQCからfeatureCountsによるリードカウントまでを記載する。以降のRによる解析は述べない。Rによる高次解析(遺伝子発現解析、エンリッチメント解析、Immune deconvolutionなど)は別の記事で書くつもりである。