RNA-seqの解析におけるFASTQのQC・アダプター配列の除去・マッピング・リードカウントの方法

2025年1月11日
2026年1月7日
解析
BK000964.3, bowtie2, cutadapt, fast-adapter-trimming, fastp, Fastqc, fastq_screen, featurecounts, GRCm39, M36, mtDNA, multiqc, NC_005089.1, PRINSEQ++, rDNA, samtools, STAR, Trimmomatic
344view

解析

日付；2025/01/11（土）、2025/01/30（木）タイトル修正

1 はじめに
2 使用したサンプルについて
3 使用したコンピューターについて
4 インストールしたソフトウェア・パッケージ
5 使用したリファレンスゲノムについて
6 fastq_screenのインストールとリファレンスゲノムのインデックス作成
- 6.1 fastq_screenのインストール
- 6.2 リファレンスゲノムのインデックス作成
  - 6.2.1 Bowtie2
  - 6.2.2 STAR
7 fastqcとmultiqcによるQC
- 7.1 fastqc
- 7.2 multiqc
8 fastpによるアダプター除去
9 STARによるrRNAとmtRNAの除去
- 9.1 製薬・創薬業界の用語に関する余談
10 STARによるリファレンスゲノムへのマッピング
11 samtoolsによるBamファイルへの変換
12 fastq_screenによるマッピングの確認
13 featureCountsによるリードのカウント
14 注意点
- 14.1 HDDを使っていると解析に時間がかかる
- 14.2 fastqcでデータを確認しながらプロセッシングを進めた方が良いかもしれない
15 不安なこと
16 ソース
- 16.1 fastpを使った場合
- 16.2 fast-adapter-trimmingを使った場合
17 ソースがほしい場合

はじめに

小さな研究室やアカデミックではRNA-seqの解析のためにN=5で2グループ取ることができれば上等で、経費を抑えるためにN=3や、最悪ではあるがN=2や1で解析を計画してしまうことも少なくないように思う。しかし、今回はそういうことはなく、N=5で合計40サンプルで行うことができた。しかし、こういった場合はやはり一連の解析に時間がかかるので大変である。この記事を書いている時点ではRによる統計解析を行っているところであるが、その前の段階であるPreprpcessing（QC、アダプタートリミング）とProcessing（マッピング、そして、リードカウント）を久しぶりに行い、なかなかに忘れていたことが多かったので、特に、各ステップでどんなパッケージやソフトを使い、どんなコードを流したのか、起こったトラブル、その解決方法を中心に記録する。ここに記す方法によりNovaSeq 6000等の最近のイルミナのシークエンサーによるRNA-seqのQC、アダプター配列の除去、マッピング、リードカウントは一通り完了できるはずである。ただし、久しぶりにRNA-seqを行って気がついたこともあり、ちょっと不安になってしまうところでもあった。この作業にはトラブルシューティング込みで2日間くらい費やしてしまった。

この記事にはfastqcによるQCからfeatureCountsによるリードカウントまでを記載する。以降のRによる解析は述べない。Rによる高次解析（遺伝子発現解析、エンリッチメント解析、Immune deconvolutionなど）は別の記事で書くつもりである。

以下は有料です。

この記事を書いた人

Kats

これまで放射線治療の基礎研究、乳がんの遺伝子診断に関する研究に携わってきました。また、アメリカではポスドクとしてトリプルネガティブ乳がんに対する新規分子標的薬の影響に関して研究をしてきました。２０２２年から改めて日本で研究活動を再開することになりました。このブログでは日頃の研究活動から学んだことや考えたことを記録していこうと思います。多くが愚痴になってしまうかもしれません。この記録が自分の忘備録として、そしてすこしでも誰かの参考になるようであれば、それでいいんじゃあないかと思っております。

投稿一覧へ

運営者について