Single sampleのRNA-seqに意味はあるのか

日付;2022/10/16(日)
追記;2022/10/22(土)

ここ2週間、N=1かつ多群のbulk RNA-seq(以降は単にRNA-seqと示す)の解析を行ってきた。その解析でRNA-seqについて考えたことを記しておこうと思う。以前のポストでも似たようなことを書いており、ある意味「これは問題だな」ということを改めて理解できた

率直な結論

それは、Single Sample(N=1)のRNA-seqはデータとしての価値があるかどうか、実験としてやる意味はあるのか、ということに対する自分の考えである。Single Sample(N=1)のRNA-seqとはどんな状況かというと、例えば、サンプルA、サンプルB、サンプルC、サンプルDをそれぞれ、1つずつRNA-seqに出す、という状況である。最近は、RNA-seqの価格も非常に安価になってきており、かつ解析方法もほぼ確立され、個人の持つパソコン(サーバーやワークステーションではなく)でも十分に可能になってきている。そのような背景もあり、 多くのサンプルをRNA-seqに出して解析する、という人も増えてきている雰囲気がする。自分もそれにぶち当たったってわけである。

結論を言うと、自分は「Single Sample(N=1)のRNA-seqは、意味はあるかもしれないが、限りなく無駄である」と考えている。以下にその理由を示す。

理由1

その理由の1つ目は、サンプル間の統計解析ができないから、である。生物学の実験では、多くの場合、明確な内部コントロールの使用の元にコントロール群と着目する群の比較を行うことによって、コントロール群に対して着目する群の違いを解析し、その違いに関する理由を次の実験で解析する、という方法を採る。p値が出ないということは、特にRNA-seqのような多くの変数を比較する解析では致命的であると思う。当然、GSEAのように多くの変数と、特定のパスウェイや現象で特徴的な遺伝子プロファイルとの一致性を見る解析ではそのマッチングに対する有意差は出るが、それはコントロール群に対する統計量ではない。この状況では、もはや解析者のリテラシーに完全に依存してしまい、すなわち、その判断には図りしれないバイアスが含まれている可能性があるということになる。それに加えて変数(遺伝子数)が多いということは、その遺伝子数だけ誤差が増えるということを示す。誤差が大きい、超絶に主観的な解析結果になってしまうということである。たまたますごく興味深い、そして、それっぽい遺伝子を拾えればラッキーということについては意味があるかもしれない。

理由2

また、理由の2つめは、解析があまりにも定量性を欠く探索的になってしまい、解析に絶大な時間を要することことである。言うまでもなく、統計解析はRNA-seqの解析のように多くの変数(遺伝子数)にアタリを付けるのには絶対に必要である。何か興味深いパスウェイが見つかったとしても、p値があまりにも大きい場合はなんの迷いもなくその遺伝子を候補から外すことができる。そしてそれがない場合、なにかその遺伝子について差を出すための解析、みたいなことになりかねない。それは非常に作為的な解析になるだろう。RNA-seqの解析はもはや確立されてきている、とういうことを上述したが、それが使えないので、「良さげな結果がでるように」色々値をイジってPCA(Principale Component Analysis)をやってみたり、PCAだと「良さげな結果が出ないので」、結局、オールドスクールにMA plotから単純に遺伝子を拾ってきてGSEAを行う、みないなことになる。もう解析している途中で「なんか、いい結果じゃあないなぁ、そしたら単純にMA plotやってみる??」みたいになったら、その一連の解析はResearch Conduct的にも良いのだろうか。もっと、クリアカットに行くべきではないのだろうか。言うても解析は安くはないし、その理由から色々なパターンの解析を良さげな結果がでるまでやるので、本当に時間が掛かるし、統計ができないので、それでもフワッとした解析になる。そして挙げ句の果てに、なんかイマイチなので、その結果は採用できない、とかになる。

そのフワッとした、どう使ってよいかわからない解析に対して1サンプル数万円も出すのは、よっぽど暇でリッチな研究者・研究室なのではないだろうか。そして、そのよっぽど暇でリッチな研究者であるということをわかった上で解析していれば良いのだが、それを本気で行っていれば、それはある意味では非常にタチが悪い。

これは、以前のポストであるRNA-seqの成否にも通じることである。そのポストを記して随分時間が経っているが、やっぱりそうだったと気付かされる。

Single SampleのRNA-seqでも意味があるかもしれないこと

最終的に統計的な比較ができないということは、定量性にとって致命的であることを上述した。しかし、そのようなSingle SampleのRNA-seqでもできそうな解析は、細胞のタイピングである。これは、例えば、scRNA-seqのクラスタリング後に行うタイピングで行っている、それである。ソフトとしては、乳がんなどならTNBCtype(https://cbc.app.vumc.org/tnbc/)、免疫細胞ならCIBERSORTの類(https://cibersortx.stanford.edu/)(他にもたくさんある)、もっと広く言えば、GSEA(https://www.gsea-msigdb.org/gsea/index.jsp)なんかもそれに当たると思う。例えば、乳がんならば、悪性のフェノタイプを示す細胞のRNA-seqのプロファイルがちゃんとそのようなタイプの乳がんと示すことができ、そのコントロールがそれとは逆(かどうかはわからないが)のタイプと示されるのならば、それはそれで意味があった言えそうである。これはCIBERSORTなどでもそうであろう。GSEAはマッチングに使用するデータがかなり広範囲なので、うまくいくとは限らない。

無駄にならないために必要なこと

一連の解析がお蔵入りになり、ほぼ無駄になってしまうのを防ぐためには、RNA-seq(もちろん、DNA-seqも)解析の目的を明確に設定する必要がある。どのサンプルで何が違うのか見つける、という理由でやるのはその通りだと思うが、そこには明確な仮説・その解析にとってベストなコントロール群・資金に応じて各群3サンプル以上が絶対に必要である。それがないRNA-seqは限りなく無駄で意味のないものになると思う。現職場の別の部署なんか「あるマウス(3種類)の全ゲノムをN=3で読んでみた。そこから、なにか違いを見つけて今後に活かしたい。」と言って全ゲノムシークエンスをやっていた。着任初期にそのミーティングに参加させてもらったことがあるが、マジなのかと思った。個人的に、マウスの全ゲノムシークエンスやったところで変異遺伝子やSNPのようなアノテーションがヒトほど充実していないので、解析がシンドイに決まってる。それでもクリアな結果が出れば良いが、そんなに甘くない。その部署のあるヒトは「でも、フェノタイプと見つけた変異遺伝子の相関を解析すれば良いんじゃない?」といか、気軽に言ってきた。その通りである。でもこいつ、天然か??そんなにわかってんのなら自分でやったらどうだ。N=3でどうやってその変異(ただのSNP?フェのタイプに影響しない変異?する変異?)が有意であることを証明するんだ?解析できたとしてどうやって次の解析に活かす??教えてくれや教授さま。こういうことがあると「ウソやろ?え、マジなんですか??」と、本当に問いたくなる。そういう解析を気軽やってしまうのに、必須な解析をやっていない、そして簡単にやれなかったりする。このガラパゴス諸島のような研究スタイルもなんとかしてほしい。それで済めばよいが….

2022年10月16日現在、ようやくその解析に目処が経ってきたが、その2週間はマジで悩んだ。難しくて。だからといって見つけた遺伝子群に着目して次の高価で時間がかかる実験を行うことができきるかといえば、結局のところ、実施は難しいのではないかと思う。これが、Single Sample(N=1)のRNA-seqが限りなく無駄であるという理由である。その解析を成果にすることがあまりにも難しい。この相似で、その研究所が「良い論文が全然でてないですね。研究してるんですか?というか研究するってどういうことか理解してますか?多くの場合、自己満足では済まないんですよ???」とか、誰かどうしようもなく偉いヒトに言われないことを願っているわマジで。