今回はこの論文を思う存分評論してやろうと思う。
論文
目的
FLASH全脳照射による認知機能におけるSparing effectは海馬における樹状突起や神経系での炎症を回避することが関係しているかどうか解析する。
概要
従来と同等の線量率の電子線(電子線、16もしくは20MeV、両者とも0.13Gy/s)を照射されたマウスの新しくケージ内に置かれた物体の場所を認知する能力と新しい物体自体を認知する能力は、非照射群とくらべて統計的有意に低下したが、FLASH照射(電子線、16もしくは20MeV、それぞれ200もしくは300Gy/s、このくらいの線量で神経系に炎症が起こるらしい。)されたマウスではこれらの認知機能に影響がなかった。海馬の樹状突起の密度について解析すると、神経末梢(Apical Dendrites)の密度は従来の線量率の電子線照射を受けた群では有意に低下したが、FLASH照射群では非照射群と同等であった。一方、基底端における樹状突起の密度(Basal Dendrites)に関しては、どの照射群でも統計的有意差はなかった。海馬におけるマイクログリア(CD68陽性細胞)を免疫染色により解析した結果、従来の線量率の電子線照射を受けた群ではその数が有意に上昇したが、FLASH照射群では非照射群と同等のCD68陽性細胞数だった。照射後に脳内で発現する炎症性サイトカインを測定した結果、IL6、IL1b、KC/GRO、IL4の発現量増加が従来の線量率の電子線照射群に比べてFLASH群では低かった。
線量測定について;問題なし。
この論文では線量測定のデータが載っている。それによれば、最終的なアウトプットは従来の線量率の電子線とFLASH照射で、おなじ線量が照射されているらしい。さすがスタンフォード大学。このあたりは威信をかけて結果を出しているのだろう。
問題点;統計が激緩。データの半数以上で第1種の過誤がある。おそらく、第2種の過誤もいくつか含んでいる。
しかしながら、ここで大問題に気づく。最初の印象は「なぜこんなにも差が小さいのに有意差が出ているのだろう。」だった。統計についてMaterials and Methodsを見てみると、1元配置分散分析を行った上でFisher’s LSDを用いた多重比較検定をやっているらしい。まぁ、そんなに悪くないように思うが、このFisher’s LSDをあまり良くしらないので、Googleで調べてみると、こんなことがここに書いてあった。
「5. Fisher の LSD (Least Significance Difference) 検定
Fisher の LSD 検定は、All pairwise 比較検定で最も保守性の弱いものです。誤差率 (error rate) を一切制御しないという点で、Tukey および Student-Newman-Keuls 検定とは異なります。群間の差の検出に誤差率の制御を実行しないため、この手法の使用は推奨されません。」
「最も保守性が弱いもので、この手法は推奨されません。」だって。
保守性が弱いというのはどういうことかというと、FWERのようなめちゃくちゃ厳しい検定と逆の、めちゃくちゃ緩い検定ということらしい。この記事の目的は、眉唾研究世界一であるFLASH照射効果について可能な限り酷評する、ということである。つまり、この目的に従って、このような出まくっている杭があったら全力で殴打しなくてはならない。
ということで、Plot digitizerで有意差の着いているデータを読み取り、改めて検定してみた。
やったことは
- Plot digitizerでドットプロットを読み取る。
- 1元配置分散分析で有意差と検出力を計算する。
- Fisher’s LSDと、比較のためにTurkey’s testで多重比較検定をする。
である。使ったソフトはRstudio、追加パッケージとしてはtidyverse(データ整形ほか)、asbio(Fisher’s LSD)、sjstats(1元配置分散分析の検出力の計算)、multcomp(Tukey’s test)である。
そして、著者らが統計的有意差有りと行っているデータについて、自分で計算したそれぞれFisher’s LSDとTurkey’s testの有意差を比べてみた。それが以下の表である。
黄色;統計的有意。
青;著者らの解析に同意。
オレンジ;統計ミス、間違い。
である。
なんと、著者らが統計的有意差ありとしてアスタリスクを付けたグラフの56.25%(=9/16)に、限りなくミスリードに近い計算結果があることがわかった。これはアカン。定量っぽいデータの解釈について半数以上が間違いである可能性がある、という結果になった。
結論
評価は「C」の限りなくゴミ。その理由はもちろん、用いる統計手法が悪く、50%以上の定量データで解釈をミスっている可能性があるためだ。こんな曝されたら生き恥だ。このグループは、こんなゴミみないな解析で得られたデータで次の研究を計画するのだろうか。それとも、誤差をたっぷりと含んだデータを世に出すことで、同業者の混乱を招くのが目的なのだろうか。
何が不味いって、このタイトルは「Reduced cognitive deficits after FLASH irradiation of whole mouse brain are associated with less hippocampal dendritic spine loss and neuroinflammation」である。このタイトルに関わるであろう結果(Figure 2から4)の統計的解釈が間違っているのだから、もう最悪である。しかし、この研究によって、以下のような面白いこともわかるように思う。
FLASHによる認知機能への影響は、臨床で利用されるでろう投与線量の範囲では、従来の線量率の照射と同等か、ちょっとだけ低いくらいで、大きな差はない。
この点は、この著者らも暗に認めていると言える記述がある。それはDiscussionの最後の部分、「An additional limitation of our study is small sample sizes that constrained the statistical power to detect differences in a number of the endpoints.」である。この研究はマウスを使った動物実験なのにN数が20を超えている場合がある。それにも関わらず「small sample size」とか言ってる。コイツらステューピッドか。そんなわけねえだろうが。そしてそのデータに実際は有意差がない(特にFigure 2 から3。これは主題にもなっているデータ)。これは、著者らが示すように「着目した現象の差を捉えるには、N数が足りない」ということも意味しているだろうが、それでは、どのくらいのN数が必要なんだろうか。群あたり50とか100匹とかだろうか。個人的に思うのは、群あたり20匹を超えている時点で現実的ではない。もう一つの解釈として、そんなにN数を増やさなければ差が観測できない、微々たる影響の作用である、というヤツである。つまり、よく言われるように「生物学的に差なんかない作用に対して、N数を増やすことで無理やり有意差を得ている」という状況である。こっちの解釈が妥当だと思う。リーズナブルなN数で有意差を得ることができない差を、N数を増やすことで無理やりに有意差を出す、ということをやってしまうと、将来、新しい人員がその研究を引き継いで、リーズナブルなN数で実験したときに、全く再現できない、ということが起こる。それ以前に、その結果は正しくないとも言える。
それにしても炎症性サイトカインの発現はFLASHで低そうだ。
この研究の主題である認知機能に対するFLASHの影響は、従来の線量率の照射よりほんのちょっとだけ低いくらいで、ほとんど同等であるということがこの研究で幸いにも示されていることであるが、それにしても興味深いことがある。照射10週後のIL-6や、IL-1b、IL-4などのサイトカインの発現が、FLASHの方が低いこと、TNFa(細胞死やその後の炎症)やKC/GRO(線維化)が従来の線量率の電子線照射とFLASHで同様に増加していることである。それはつまり「細胞死や線維化のような放射線によるダメージは、両モダリティーであまり差はないが、炎症性サイトカインが出にくい」ということを意味していると思う。これはFLASH照射について その6で評価した論文の結論(もしくはデータ)とすごく似ている。やっぱり、現時点で示唆されている「正常組織では酸素分圧がなんとかだから正常組織ではSparing effectが起こる」というのと少し違うように思う。両論文とも「実はマクロな影響は両者ともほとんど変わらないけど、なんか炎症性サイトカインとかの発現が違う可能性があり、それ故に晩期(長期)の影響が変わってくる」ということを示している気がする。
本当に、しっかりと解析して、その上で考察してほしいものだ。線量測定とかもちゃんとやってたし、もったいないと思う。いうても、題目が実は嘘なので、この論文のゴミさ加減は変わらないし、N数まで大きく増やして、わざわざ緩い検定を使ってまで有意差を出した著者らのグズっぷりも変わらない。この論文の価値は限りなくゴミの評価「C」である。こんなラボに絶対に所属したくない。