脱エクセル

日付;2021/03/12(金)

今行っている動物実験もようやく終わりに近づいている。それに、ミーティングでデータを示さなくてはならない。しかし、本当ならば今日だったミーティングが3月15日(月)に延期された。正直、対照群の値がバラついてしまい、統計解析をやる気になれないし、今日のミーティングがなくなったお陰ですっかり予定が狂ってしまった。というか、論文を再々投稿したばかりなので、正直新しく実験をやるにも準備段階や計画段階だ。

うちのラボは動物実験については、ほぼリアルタイムでグラフを出さなくてはならない。これは本当にどうかと思う。だって、うちのラボは薬剤投与群をランダマイゼーションまでやって決めている。そのため、生データもめちゃくちゃ複雑で、エクセルなんか使おうもんならもはや何処に何が計算してあるのか、集計した本人もわからなくなる。しかもさらに問題なのは、リアルタイムでデータを集計して、理想的ではない結果がでたら、テコ入れを迫られることだ。これは全く間違えている。通常、ランダマイゼーションまでするような実験ってのは、もはや初めに設定した実験計画に従うべきなのではないだろうか。こういったことは一連のResearch misconductの原因の一つであると強く思う。はじめこのラボに来たとき、「本当にどうかしてるんちゃうか…?」と真剣に思った。もちろん今でもそう思っているが、今はラボにも慣れて、それ相応の理由をつけて最初に設定したエンドポイントまで実験を継続するようにしている。そうしなければ、投与のための事前モニタリングや、ランダマイゼーションなどをあんなにちゃんとやる意味がないし、あんな複雑なデータセットを解析する価値もない。

ミーティングが延期されたお陰で、今日は案外時間がある。なので、観察期間の途中ではあるが、グラフをちゃんと書いて、来週月曜日のミーティングに望むことを決めた。そこで気がついたことがある。もはや、エクセルを使っていない。

自分は所持金の関係上、修士の時からグラフ・統計ソフトはフリーソフトを多様してきた。確かMacのエクセルに分散分析がなかったことが大きな要因だったと思う。さらに修士のときは当時のラボのラボジョブでSASを使わなくてはならなかった。今はSASもuniversity editionがあるが、当時はそんなのはなかったので、自分のパソコンで将来に渡ってSustainableに解析するためにもRやGnuplotを多様してきた。今ではRNA-seqの解析も自分でやるので、もはやRがなければ解析なんかできない体になってしまっている。

前述の通り、うちのラボの動物実験で得られた結果は、基礎医学・生物学実験にも関わらずかなり複雑である。こういう状況でエクセルを使って、いちいちマウスでデータを選んで….なんてことをしていたら、測定の度に値がズレるは、計算がおかしければ、おかしなところを見つける必要があるわで、ものすごく無駄な時間を費やしてしまう。そういう状況では、予めRで集計からグラフ描画までのプログラムを書いておいて、入力が終わったら、そのプログラムを流して一気に必要なグラフを書く、というのが本当に役に立つ。所詮基本的なグラフしか使わないし、実験自体も基本的なものが多いので、一度プログラムを書いてしまえば、大筋のところは変わらない。そしてそういった知識のないガチガチの基礎医学・生物学者に示すにはこの上なく有効だ。さらに、いいことは、如何せんすべてが基本的で、逆にトリッキーなことがあまり受け入れらない、わかりやすさが重要な分野(と自分では思ってる)である。なので複雑なプログラムはなく、パッケージはtidyverseのうちのdplyr、tidyr、ggpot2しか使ってない。このtidyverseはすごいなぁと思う。データを整えるためにはSASが一番優秀だと思うが、tidyverseを使えば、ちょっと複雑になってしまうが、SASと同じようなことができる。ちなみに、医学分野ではSASの実績が一番であると思う。臨床試験の結果の統計なら絶対SASが良いと思う。アカデミックならuniversity editionもある。

もう今の御時世、生命科学の学生には、脱エクセルを徹底しても良いのではないだろうか。エクセルってのは良くも悪くも自由すぎて、本人さえわからないフォーマットで入力されていることがほとんどである。こんなもん使っているから薬剤の濃度を何年にも渡って(そして、いつから間違っているのかもわからない)一桁少なく計算してしまうのではないだろうか。エクセルなんてものは、論文にしてパブリッシュするようなデータでは使うべきではない。追加で批判だが、エクセルは無駄に重すぎる。PCリソースに結構依存しているので、ラボのパソコンが10年前の低スペックな場合はいちいちNot respondingだ。それに、値段が高い。なぜあんな何も出来ないものにあんな値段が必要なのか。

エクセルを使わないようにするためのハードルのうち一つ目は、どうしてもデータ解析の入門がエクセルになってしまうことだ。これはもうしゃあない。しかし、他のハードルは、参考書がすべて酷いもしくは古いことである(2021年の時点ではもっと良いものがあるかもしれない)ことだ。が、まぁ、使えないこともないが、如何せん、グラフィッククックブック(https://www.oreilly.co.jp/books/9784873118925/)とか思い通りのグラフィック(https://www.kyoritsu-pub.co.jp/bookdetail/9784320019058)とか言ってて、そんなに古いものをクックしないでほしいし、全く思い通りじゃあない。ソフトウェアで古いということは、後々で問題になるかもしれない。あと、ブログなんかでインターネットに転がっている情報も酷い。「それ、help(geom_boxplot)っていれたら、出てくるやつやんけ。それみてもいまいちわからんから来てるんだけど。」とか「色変えただけか。」というのばっかりある。立派な盗用、転載であり、詐欺にも近いと思っている。

ハイスループットシークエンスが一般的になって、Rの市民権も確立されてきたなぁと感じる。きっとさらにRは普及するだろうと思う。そうなってくると、次はより正しい検定の利用、統計的解釈が求められるようになるのではないだろうか。