RNA-seqやマイクロアレイの成否

日付;2021/05/05(水)

RNA-seqのような網羅的な解析について気がついたことがあるので、ここに記しておく。

RNA-seqを使った解析について思うこと

10年前ならばマイクロアレイ、最近ならばRNA-seqによる遺伝子発現解析が網羅的なphenotypeの解析に用いられている。さらに今では多くのデータベースや推定手法により、解析により得られる情報は膨大になっている。現在自分が所属している研究室でも、ある薬剤の投与によりどんな遺伝子の発現に違い生じるのか、RNA-seqを用いて解析している。そしてミーティングのたびに、どこかおかしい、なんでこの実験をやろうと思ったのか、いまいち理解できない事が多い。そしてこの日の朝に研究室に行く途中、なぜいまいち理解できない、ピンと来ないということが起こるのかを考えていたとき、そうなってしまう原因のようなことに気がついた。

現在自分の所属する研究室では、今、Research Associate(RAとする。これはおそらく、研究助手というヤツ)が、ある薬剤Aと薬剤Bと対照のDMSOを投与した細胞のRNA-seqの結果から、薬剤Aと薬剤B投与群との間で有意に異なる細胞生物学的現象を見つけ出して、それを細胞実験により証明する、ということを行っている。そして、一番始めにやった実験で、見事に結果に違いがないことを示してくれた。しかし、そのときは、その実験は初めてやるもので、条件も今後最適化していく、という旨のことをRAは言っており、先週も似たような実験を行っていた。

自分から言わせてもらえば、その時点でその推定はハズレだったと思っている。おそらく、どういった条件で行っても、薬剤A群とB群では大きな違いは見られないだろう。だからそのRAがミーティングでそのデータを発表するとき、「どうやってその現象Xと判断したのか」を聞きいている。そしてそのときは、「RAは現象Xといっているが、それは現象Yや現象Zとは別であって、それはRNA-seqの結果からどうやって判断したのか教えてくれ。」と聞いた。

このRAというヤツは、修士くらいのヤツが研究室に入るときに名乗るポジションである。おそらく、ラボのマネージメント的な仕事と研究活動が半々になるのではないだろうか。なぜかというと、修士しか持っていないだけに、自分で計画を立てて実験をし、うまく行かないことがあったらトラブルシューティングするということがほとんどできないため、と理解している。その例にもれず、うちのRAも完全に指示待ち人間で、ボスに言われてやっている人間である。そのため、質問したところで納得の行く説明なんか出来るわけがない。そういう理由のため、自分はボスへのリマインダー、というか、意地悪というか、そういう意図で質問をしている。

RAがそういう状況なので、そのボスが説明してくれる。そのボスによれば、「この実験は現象Xを見るためには一番手軽な実験であるため。」ということだった。さらには「メタボロミクスとかなんとか….」とか言っていた。それに加えて、このボスとRAのRNA-seqの結果は、どうやらDMSO群でバッチエフェクトが大きく、いくつかのサンプルが大きくバラついているらしい。「なので、今回はN=4/groupにしてもう一度RNA-seqの解析を行い、その新しいデータと、バッチエフェクトが大きいためにバラついていると思われるサンプルを除いた以前のデータを合わせて解析し、(その現象Xが?)どうなっているか確かめる。」ということらしい。ちょっと何言っているかわからない。そんなことしていいのだろうか。作為的にバラついてるデータを削除している、ということではないのだろうか。やるのであれば、その実験群のデータを全部除く必要があるだろう。つまり、それをやるのであれば、前回のデータを全部捨てなくてはならない。こういうのってなんていうんだっけ。都合のいいデータだけを選んで解析する….そうだ。これはFalsicitaionだ

自分は学生のころ、さらには5年前、がんにおける放射線治療抵抗性に関する研究をしていた。あの研究はサイエンスとしては良いのかもしれないが、社会的なインパクトは高くない研究だったかもしれない。今思えば、研究能力がなければハイインパクトなジャーナルなんて狙えない研究であった。その研究では、がん細胞に放射線を当てて放射線抵抗性がん細胞をセレクションし、そのPhenotypeを解析することで、がんの放射線抵抗性メカニズムを解析する、という手法をとっていた。これは、マイナーではあるが、今でも行われている手法だと思う。抵抗性がん細胞を樹立した後は多くの研究でマイクロアレイやRNA-seqを用いて「網羅的」な解析を行い、その細胞に特徴的な分子を見つけるということが今でも行われている。しかし同時に、多くの研究でその「網羅的」な解析をやりっ放しにして終わっているような状態である。そういう研究がかなり多かったように覚えている。やりっぱなしの研究については、なぜアクセプトされたのか疑問な研究も多かった。それらは結論にその解析の結果が反映されていないため、何が言いたいのかわからないような研究であったと思う。無理やりゴミみたいなデータを出さないでほしいものだ。

着目する遺伝子やパスウェイを見誤る研究や、やりっ放しになる研究の背景には、理解不足・解析不足ということがあり、理解の有無があまりにもその成否を決めるということだ。具体的には、以下条件を満たせない場合、高額な解析も無駄になってしまう可能性が高いのではないかと思う。これは考えてみればごく当然のことである。

何をしたいのか。

この手の解析は「網羅的」とか言われることがあるが、「網羅的」と考えている時点でアウトなんじゃあないのかと思えてきた。どんな実験でもそうだが、この「網羅的」という実験は自分としては「出た結果に応じて次のターゲットや目的を考える」的なストラテジーを連想させる。これは最終的に何も得られないストラテジーだ。この手の実験には、例えば、「過去の研究成果から考えるとおそらくこの薬剤はステムネスの機能を担う分子を阻害しているはず」とか、「おそらく細胞周期を停止させるのでそれは除く必要がある」とか、そういった必要バイアスやノイズみないなものがあるはずだ。そういったことを考えずにあまりにも漠然とアノテーションの解析結果を信頼してしまうと、本来除くべきバイアスである細胞周期の停止に関する遺伝子(つまりノイズのようなもの)を全部拾ってきたり、過去の研究では間違いなく関連するだろうステムネスに関する遺伝子を、僅かなマッチングだからという理由で全部捨てたりすると思う。だから、「網羅的な解析」という意味を取り違えると、ロクでもないことが起こる。当然、こうならない人はちゃんと理解した上で実験しているのだろう。この手の実験には、対象とする薬剤により阻害される分子とその役割を中心に解析するのが良いと思う。探索的な解析をするのであっても、薬剤投与後に細胞はどんな状態になるのか、たくさん死んでしまうのか、細胞周期の進行が止まるのか、細胞の形態が変わるのか等のような事前情報、つまり、どんな影響がターゲットなのかオフターゲットなのかを加味して解析するべきである。これらを考えない実験は、盲目的であると思う。

どういった解析なのか。

おそらく、後にGOやKEGGやReactomeへのクエリーによりアノテーションの解析を行なうだろう。これもごく当然のことだと思うが、使っているデータベースはどんなものなのかを理解するべきだと思う。さらに、ヒットしたアノテーションには、どんな遺伝子が含まれていて、そのパスウェイやコンポーネントのうち、どのくらいをカバーしているのかをちゃんと知る必要がある。例えば、グルコース代謝というアノテーションがヒットした場合、そのうちのどんな遺伝子がヒットしているのか、どの程度Specificにグルコース代謝と言っているのかを解析しなくてはならない。それをせずに、「おお、じゃあ次はグルコースの取り込みを見てみよう。もっとも簡単な手技だしな」みたいな実験をすると、大抵うまく行かない。グルコースの取り込みはグルコース代謝に含まれているかもしれないが、そうでない可能性だってある。グルコース代謝のうちの別のプロセスやコンポーネントが優位だったりする。以前所属していた研究グループで、バイオインフォマティクスの結果を元にin vitroの実験を行っていた人がいたが、おそらく、これと、次に述べる統計解析が上手くなかったために、とても影響が小さい遺伝子に着目して、とても小さな影響についてin vitroの細胞実験を行っていた。そうなる。そんなんじゃあ、生物学的な有意差なんて出ないだろう。そして、その実験系において検出するのもやっとな差について大きく誇張したら、やっぱり将来的に再現性を得ることのできない、危ない研究になってしまう。

解析は正しいか。

上述したRAの解析結果はうちの大学のBioinfomaticianにお金を払って行ったものだ。自分もそのミーティングに参加させてもらったのだが、ミーティング自体は良かった(どういった解析をやったか、どんなことをしたかが知ることができた)が、解析自体は酷いものだった。本当は名指ししたいが、その人の名誉のためにやめておいてやる。ただし、この”Bioinfomatician”は本当に無能だと思う。Linkedinで勝手に調べてみるとやっぱり修士。本当に修士はロクでもない。その”Bioinfomatician”がやったことのうち自分がアクセプトできないことの一つは、FDR補正前のp値で無理やり解析を進めたことだ。FDR補正をした場合、どうやら薬剤AとB群において統計的に有意に異なる遺伝子はなかったらしい(すべてp値が0.05以上)のだが、だからと言って、(有意差があると見せかけるために??まさか….)補正前のp値で解析を進め、その結果を返してきた。リクエストに答えるためのデータは出すなよボケが。実は、薬剤AとBは、薬剤の作用機序は異なるが、同じ分子を標的としている。つまり、理論的には、薬剤投与の結果、同じようなphenotypeが出来上がる可能性がある。その場合、その統計的に有意に異なる分子はない、という結論だって正しいかもしれない。それなのに、補正前のp値で無理やり解析を進め、おそらく統計的な誤差をたくさん含んでいるだろう結果を返してきた。もちろんその場合は、自分でFDR補正しないといかない(こんなもん、Rのp.adjust()で一発なんだが。ああ、やったら有意差なくなるからか。)

もうひとつ許せないのは、DEG解析に使った計算だ。この実験では、DMSO群にくらべて薬剤AとB群で有意に異なっており、かつ薬剤AとB群で有意に異なる遺伝子(群)を知りたいらしい。つまり、DMSO群、薬剤A群、薬剤B群という3群の比較である。次元の少ない実験ならば、TukeyとかDunnett検定のようなpost-hocの検定が必要である。遺伝子の数もあり、2群ずつの繰り返しはやめたほうが良いことは、正常な研究者なら理解できる(ポジションが何であろうと、理解できない人は勉強不足)。なんと「自分たちの研究室でいつも使っているパイプラインだ」という理由で2群ずつの比較をしてきた。どうやらそのパイプラインにDEseq2を組み込んでいるらしい。確かにDEseq2は基本的に2群の比較であるが、他にもLRT(Likelihood ratio Test)という、分散分析っぽい比較ができるはず。「うちらの標準のパイプラインは DEseq2を使っているため、3群のうち、どの群とどの群に違いがあるのかを同定できない。他のソフトでやりたいならば、追加で金払え」でもなんでも、幾分かエラーを含んでいることを伝えてほしかった。そして、自分はそれをラボミーティングですでに何度か言っているが、ボスは信用していないらしい。自分はすでに言ったぞ。そして改めて行なうRNA-seqでは、上述のようなFalsificationみたいなことをやってしまうらしい。

QCの結果を理解する。

QCの結果をちゃんとみて、その RNA-seqの結果は自分たちの研究や実験に使えないのかどうなのか、判断しないといけない。なぜかというと、シークエンスからバッチエフェクトやPCRのエラー等を完全に除くのは不可能ではないかと思う。それに、それ専門の研究室以外の研究室では、RNA-seqは外注ではではないかと思う。ということは、他の研究室もその会社に外注して来ているわけで、その場合はやっぱりバーコードやタグをつけた上で、フローセルに流される。その上、もしシークエンス以前になにかエンリッチメント等をやっていたら、何もないシンプルなシークエンスに比べてクオリティーだって多少下がるだろう。そうやってプロセスが複雑になれば、クオリティーに影響するだろう。これも避けることが難しい要素である。正直に言えば、これが出来るならば解析は自分で出来るのではないかと思う。もしかしたら、解析を完全に外注せざるを得ないような研究室は、どうせやってまともに解析できないので、RNA-seqの解析は諦めたほうが良いかもしれない。そうでなければ、専門家を分担研究者に入れたりして、責任をもたせた上で解析した方が良いだろう。

どういった解析が正しいのか判断できない場合は、実験はうまく行かないだろう。そして、このような疑問を自分で解決するスキルがない場合も、うまく行かないだろう。