日付;2021/07/10(土)
この論文投稿で何が問題だったのか、今後の研究、特に論文投稿に向けた準備としてどうすれば良いのか、その教訓のようなことを記録していこうと思う。共同研究の難しさである。
この研究で起こった問題点
1.共同研究者側の共著者の一人が非協力的だった
まず、第XX著者と第XXXX著者が改定中(もしかしたら投稿前かも??)に退職しており、連絡を取ることが難しくなった。改定中、この第XX著者がとても非協力的であり、返信を得るのに何日もかかっていた。第XX著者がこの研究をストップして5年以上も経っており、もう実験にも関わることができず、多くの実験データは自分が出したものである。それにも関わらず第1著者を要求してきて、あまりにも非協力的にも関わらず、つまり、メインの作業に一切関わらないにも関わらずかなり強い態度だったので、コンプライアンスに通報されている。それにより無事に自分が第1著者を取り戻すことができた。余談だが、この第XX著者はかなり勝手な人物だったと思う。後に何かの要求を通すためにうちのボスに連絡を取りたかったらしいのだが、そのときうちのボスと連絡を取ることができず、自分にまで「そっちのボスに連絡に取ってくれ。」と要求してきた。うちのボスはあまり曖昧なことに対して労力を費やすことが嫌いな人である。上述のコンプライアンス問題もあり、当時は距離を置いた(無視した)のだろう。自分はそういうこれ見よがしな報復は嫌いなので、「ボスは今かなり忙しくて自分らでも連絡を取るのが難しい。だから諦めずにトライしてみな。」と言っておいた。おそらく、時期的にもビザ関係だったのではないかと思っている。ちょうどその頃、トランプ大統領からバイデン大統領になり、外国人のビジネスビザの規制が解かれようとしているときだった。これは勝手な想像であるが。この人物は、むこう側の同僚にもかなり迷惑を書けてしまっている。改定中、この者のデータは今その研究室に居る者で取りまとめる必要があった。つまり、第三者が他人の全データのチェックやアップロードを行っている。これは本人がすべて行えば、全く問題ないはずである。どうかと思う話である。第三者がやってるから、時間がかかって当然である。彼女もかなり疲弊していただろう。実際、かなり不機嫌だったように見える。彼女には本当にありがとうと言いたい。とにかく、この者はうちらや元自分の同僚にも多大な迷惑をかけているし、もう人間性も実験データも誰からも信頼されないだろう。他人への批判はこのくらいにしておく。
2.共同研究者側の共著者の一人の捏造疑惑
他の問題としては、共同研究者のデータのうちの一つに捏造(疑い)を見つけてしまったことだ。ちょっと定かではないが、どうやらそのデータは第XXXX著者が行っていた実験の結果だったらしい(詳しくは聞いていないので知らない。おそらく、共同研究者側で片付けている。)。さすがに自分が第1著者の論文で捏造されたデータを使うのは許せなかったので、ボスに「捏造疑いのデータを見つけました。このデータを使うのはアクセプトできません。」とだけメールで送っておいた。そのときのボスの発言は「これはバブルが入ったんじゃないの??」で、それにもゾッとした。そしてその後、「お前、これどうやって見つけた??」みたいなことを聞かれた。それに対しては「この手の捏造はゲルの画像では典型的です。コントラストを変えれば簡単に見つけることができます。このバンドの位置には全くノイズがありません。通常、バンドのコントラストを調整すると、ノイズが均一に出てくるはずですが、このバンドの位置には全くノイズが出て来ません。そうすると切り取った場所のエッジが強調されて、その場所を知ることができます。」と答えておいた。そして、その数日後にうちのボスも「こんな疑わしい画像は使えない」という結論になり、改めて実験をさせて、さらに元データも確認させるに至った。結局これは疑惑の域で留まっているが、科学研究、特にデータ上では、疑わしきは罰する必要がある。もう一つは、これも疑惑なので本当かどうかわからないが、おそらく最も重要な薬剤のスクリーニングのデータの一部を紛失している。実際は紛失ではなく、ある理由により使えない状態にしてしまっているのかもしれない。この論文では直接は使っていないデータだったので問題なかったが、全く許されることではないと思う。ちなみに、こういった事を見つけたら、第三者に通報しないといけないらしい。確かボスに言うのも駄目なはず(言ったけど)。これはRCR(Responsible conduct of research)の講義で聞いて「へぇ~」とか思った記憶がある。理由は、こっちが疑われるからである。実際「お前、これどうやって見つけた??」となっている。キワどかったんだろう。自分の身に起こるとは….
今後何が必要か
こういうことが実際に自分の身に起きたので、今後、論文を書くためには何が必要なのか、自分の考えを述べる。
1.データの頑健性(ロバストネス;Robustness)
最も重要と言えることは、データ自体や結果の頑健性(ロバストネス;Robustness)だと思う。個人的に、このデータにおけるロバストネスとは3つ意味を含んでいるように思う。後にも先にも、これが最重要と思う。
1つ目は、得られた結果の再現性が高く、誰が実験を行ったとしても、その誤差に関わらず対照群に対して同じような結果が得られることだと思う。これは、例えば、ある実験を元ポスドクから新ポスドクに引き継いだとする。元ポスドクはいつも同じような結果を出していたが、同じ実験を新ポスドクが行っても全く同じようなデータが得られない。この場合、元ポスドクの実験には実験条件に何らかのコツや、悪くすれば作為的な操作があるのかもしれない。要するに、そのバチバチにチューニングされたその実験条件を使わなければ、その結果は得られない。こうなると、再現性を得られるのが難しくなり、人が変わったら同じような結果はもはや得ることは難しい。しかも新ポスドクは特にバイアスなしに実験することが多い。そういった人はもちろん通常の、ごく普通の手技で実験を行うことが多いだろうから、それで再現性が得られないのならば、その結果は普通じゃないことになる。
2つ目は、データの保存と管理である。先に書いたように、この論文では4回目の改定のときにデータを一つ取り下げている。第二著者が行った免疫染色の元画像が見つからなかったためだ。それについてレターに書いてエディターに送り、その上でアクセプトされているので問題はないとは思うが、第一著者や責任著者にしてみれば最悪の事態である。マジで勘弁してほしかった。そのほかにも、共著者の研究室では改定中にラボの引っ越し(部屋を変えた??詳しくは知らん)を行ったらしいのだが、そのときに、この論文のデータに限らず、多くのデータ(パソコンのハードディスク??)を紛失したらしい。それもあって、この第XX著者に問い合わせしていた(のだと思う)。それでもデータが見つからない。データのマネージメントが悪すぎる。他のデータは見つかったから良かったが、見つからなかったらもっとたくさんのデータを取り下げなくてはならなかっただろう。
3つ目も結果に関することであるが、これは上記2つの内容を包括しているような事である。ある実験を行うのがコスト的にも技術的に非常に難しく、頻繁に行うことが難しいならば、それが出来る機会に、統計的にも十分なくらい繰り返して実験し、全解析を終えて、しっかりと結論を出しておくことである。この研究で起こったことは、まず、薬剤のターゲットになるタンパク質の生成と、それを用いたin vitroでのfunctional assayを再現するのが難しくなってしまったことだ。これは先に書いたように、非協力や捏造疑惑ではなく、スキルのある物がラボから離れたことに由来する。こうならないように、コスト的、時間的、技術的に難易度の高い実験については、必要なだけの実験データを確実に取り、結論を固定する必要がある。
2.統計
これは、生物医学研究を行う上では当然である。データの解析には、妥当な統計を使い、正確に解釈する必要がある。この論文では、使った全統計手技を述べる必要があり、さらには詳細なp値もグラフ上に記載する必要があった。現在の商用の統計ソフトを使っているとp < 0.05とかしか表示してくれないものもある。おそらく、今後はRやSASを使う必要性が生じてくるのではないかと思っている。少なくとも、インパクトの高い論文では、もはやGraphpad Prismでも役不足になりつつある。おそらく現状ではRが統計としては一番良い(ただし、Rstudioを使う必要がある)だろう。SASはグラフィックが弱い(一方、統計は最強)し、Pythonはデータのラングリング(wrangling)とテーブルの表示がRやSASに劣る(自由度は高い)。Rの問題としては、統計しかできないことだろう。でもまぁ、統計のソフトなので良いと思うが。
論文投稿だけでなく研究全体に言えることだが、生物学では「妥当な統計」を使い、「正確に解釈する」というのが本当に重要と思う。「妥当」というのは、一つのデータに対して使える統計もいくつかあるためだ。また「正確に解釈」というのは、研究の進展上で重要になってくる。DEG(Differential express gene)の解析では、かなり多くの要素を一度に検定するので、p値やq値の読み方を何とかの一つ覚えみたいに0.05以下の設定にすると、何の結果も得られなかったり、無理やりな解釈をしてしまったりする。このあたりはある程度許容したうえで正確に読む必要がある。逆に、細胞実験などの結果では、多重比較が必要ならばしっかりとその方法を踏襲して、曖昧な、自分にとって都合の良い解釈はしないほうが、今後のためである。誤差が大きいので、次の実験で全く差がなかったり、引き継ぎのときに前任者のデータを再現できなかったとかが起こる。以前書いたように、医学生物学者は統計に弱すぎる。大学に戻って勉強し直すか、研究者を辞めてほしい。
3.作図
これも例えばCancer Researchとか、学会誌レベルの論文ではそんなに重要ではないかもしれない。知らないならばGraphpad Prismとか、高級ソフトを使えばいい。しかし、多少なりともインパクトの高い論文になってくるとそうも行かず、良いかどうかわからんが、かなりチューニングされた結果が作図が必要になる。例えば、棒グラフ上に各点をプロットするというのはRでggplot2を使えば比較的簡単に出来る。Graphpad Prismでも出来ると思うが、複雑な作図、例えば、ゲノム解析でのサークルプロットや発現解析でのヒートマップなんかはRなんかを使う必要があるだろう。できないでは済まされる話ではない。やる必要がある。
まとめ
以上が、現時点で考えている、良い論文のためのデータのマネージメント、といったところだ。個人レベルでは自分が気をつければ良いので簡単だが、共同研究になってくるとなかなか両研究室に普及させるのは難しいと思う。しかし、インパクトの高い論文を出そうと思ったら、こういったコラボレーションがかなり有効であるため、やはりなんとかしてこれらを守る必要があるのではないだろうか。