最近の論文投稿に必要なデータの管理方法

2021年4月1日
2025年9月20日
研究
データ, ニューヨーク, 保存, 投稿, 研究, 論文
386view

研究

日付；2021/03/31（水）

1 はじめに
2 結果に使用したブロットの元画像（Uncropped data）の全掲載
3 棒グラフやボックスプロットへの各データ点の追記
4 言いたいこと

はじめに

現在、おそらく最後になるはずの論文原稿の改定を行っているところである（もしかしたら、この改定のあとにリジェクトなんてこともあり得るのでなんとも言えない）。レビューアーとエディターからのリクエストのうち、主に論文の図に関係してくる以下の２つについて作業を行っている。これ以外、ほとんどなにもやっていない。

結果に使用したブロットの元画像（Uncropped data）の全掲載
棒グラフやボックスプロットへの各データ点の追記

あと、これは特にエディターからのリクエストには載っていなかったのだが、どうやら共同研究者の連中がやっているっぽいので、今後は行う必要があるかも知れないのが、以下。これについてはまだ着手していないが、そんなに難しくなさそうなので、ひとまず放置する。

生データの記載（？）

結果に使用したブロットの元画像（Uncropped data）の全掲載

まず、これについては昔から言われていたので、そう驚くことはない。しかしながら、ジャーナル側のおすすめフォーマットが本当に良くない。なんと画像にも関わらずエクセルを使う必要がある。ジャーナル側から提示されている例としてエクセルを使った場合がリンク付きで書いてあった。エクセルのタブ１つにつき、１つの図らしい。Uncroppedなブロット全体の写真を出せというリクエストなんだから、もはや画像ファイルをそのままアップロードすればよいのではないか？そもそも、Excelは画像を高解像度で扱うためのソフトではないので、かなり見にくいと思われる。せめてパワーポイントを推奨してほしいものだ。これはもしかしたら、エディターに問い合わせたらパワーポイントでも良いのかもしれない。しかし、共同研究者はどうやらジャーナルの例に従ってエクセルで作ってるらしい。なんとかしてくれ。

棒グラフやボックスプロットへの各データ点の追記

今回、微妙に思っている点がこれである。個人的には、その要求は理解できる。しかし、全ての棒グラフに各データ点に対応するドットを入れろというのは、ナンセンスと思う。in vitroの実験などでは、上手く行っている場合、大抵そのバラツキはかなり小さいことがある。例えば、Flow cytometryで得られたデータや、吸光度のデータなんかがそれだと思っている。そういったデータに関して、棒グラフ（平均値±標準偏差）に加えて各データ点なんか入れても、ほとんどバラついていないし、少ない場合は３点しかないので、あんまり意味がない（というか、読む人はそんなところには着目していない）。当然、in vivoのデータに関しては、in vitroとは比べ物にならないくらいバラツキが大きいので、各データ点を入れたほうが良いし、最初の投稿の時点でそのようにして投稿している（自分のデータに関しては）。

これについての実際上の問題としては、上述のようにそもそも意味があるか、という点もあるが、エクセルが使えないということがある。複雑でサイズの大きなデータセットでエクセルを使うことは、自分はまずない。しかし、基礎生物学実験はそんなに難しくないデータだって多い。そういったデータはエクセルが便利だ。如何せん簡単に必要な図が作れ、パワーポイントとの互換性も良い。ここでは自分はRを使った。言うてもGraphpad Prismとか、もっとメジャーでプレステージなものもあるのだろうが、やはり無料でサステイナブルでユーザー数が多いソフトってのは居色々な意味で良い。Graphpad Prismユーザーに、まともに統計を使っている人間がどれだけいるかわからないし、自分はそんな人間に括られたくない。

グラフィックパッケージとしてggplot2を使ったのだが、やっぱり、いちエンドユーザーが使うには限界があるなぁと感じてしまった。というか、別にggplot2って簡単でもそこまでキレイでもないのだが。それに、はっきり言って、構文（というのだろうか）がわかりにくい。それは慣れてくれば問題ないが、それは当たり前である。なにaesthetic parameterって。エステティック・パラメーター。いやいや、グラフィカルパラメーターとかでまとめろよ簡単にしたいなら。こういうことろ、プログラマーというか、情報系の奴らは嫌いである。奇をてらうなよしょうもない。なんとかしろよ。

また、もう一つ微妙なことは、後に、生データを記載しなくてはいけない可能性があることだ。もしそうなれば、もはや、棒グラフに各データ点を表示する必要なんかあるのだろうか？すごく微妙である。

言いたいこと

言いたいことは、ハイインパクトなジャーナルに論文を投稿するためには、良い研究テーマはもちろんとして、良い生データの管理方法、複雑なグラフに対応できる程度のプログラミング能力（生物系ならばRとPythonあたり。生物研究者はRだろう。PyhonとRではグラフはほぼ対等に見えるが、統計はRの勝ち。しかし、画像を扱うようになればPythonだろう。）、統計の知識が必要なることだ。データの管理方法が悪ければ大量にあるデータのなかにある、実際に使ったデータにたどり着けないし、エクセルしか使えない、統計もわからないとなれば、グラフもろくに書けないし、正しい統計解析も出来ているかわからない。ちなみに不十分な統計解析の恐ろしいところは、研究の持続性に影響するところだ。例えば、「間違った、もしくは激ユルの統計解析で得られた結果を元に研究を進めてしまった場合、最終的にほとんど差がないような研究、解析をする羽目になった。」とか、「引き継ぎで全くバイアスのない人が実験をはじめてみたら、全く有意差がなかった。」などがあり得ると考えている。

そらくそういった人はビッグジャーナルに投稿することにさえもたどり着けなくなっている。

良いデータの管理方法には、良い共同研究者選びと良いボス選びを含める必要がありそうだ。現在の研究がそうだが、共同研究者のデータマネージメントがかなり悪いし、ボスのラボマネージメント（物品管理も含めて）だって良いとは思わない。データ無くしたとか、あのデータは誰がもっているかもしれない、とか、誰かに聞かないとわからない、とかが多すぎる。だから自分は、こういうことが嫌だったので、以前「これはリサーチ・ミスコンダクトだ。」と退職覚悟で言ったし、実際、今回も「もし出来なかったら、リサーチ・ミスコンダクトですね！」と、先日ボスにめちゃくちゃ軽い感じで言った。このときのボスの顔が凹んでいるような、なんとも言えない面白い顔だった。下手なボスは下手な共同研究を行うリスクがある。

もしハイインパクトなジャーナルへの投稿・掲載歴が必要になった場合、こういったことを知らないと、その時点で限りなくアウトに近くなってしまう気がする。それに、これを知らないという研究者に対して、Cancer Research以下の能力だな、という判断ができそうだ。

この記事を書いた人

Kats

これまで放射線治療の基礎研究、乳がんの遺伝子診断に関する研究に携わってきました。また、アメリカではポスドクとしてトリプルネガティブ乳がんに対する新規分子標的薬の影響に関して研究をしてきました。２０２２年から改めて日本で研究活動を再開することになりました。このブログでは日頃の研究活動から学んだことや考えたことを記録していこうと思います。多くが愚痴になってしまうかもしれません。この記録が自分の忘備録として、そしてすこしでも誰かの参考になるようであれば、それでいいんじゃあないかと思っております。

投稿一覧へ

運営者について