実験ノートについて

日付;2021年2月22日

研究をしていると、必ず付ける必要があるのが実験ノートである。直感的に解ることだが、これは行った実験や解析について、再現性を確認できるように条件や使った材料を記録しておくノートのことである。日本で研究しているときは実験ノートについてあまり深く考えたことがなかったが、アメリカで研究をしているとこの実験ノートについての認識がどうもバラバラな気がしている。さらに、最近ではパソコンにデータとして記録する実験ノートも多く出回っている。そのため、ここで実験ノートに関する自分の認識を記録しておきたいと思う。自分は医学・生物学が専門なので、その前提で書く。

基本的な情報について

まず、あとから見直すことが多い情報について列挙してみる。

  • 実験ID
  • 日時
  • 播いた(使った)細胞数
  • 抗体・試薬の濃度
  • 使ったサンプル(ライセート、DNA、RNA……)
  • ブロッキング剤の種類
  • ブロットの場合、各レーンの説明

….あれ?こんなもんか?というか、自分の実験ってこんな簡単なことしかしてないのか?まぁ、これが総じて自分やラボの実力なのかもしれない。しゃあない。要は変数を記録する必要がある。

こういった情報を上手く行った場合失敗した場合に知りたいときが多い。ということは、

  • 薬剤の量に関する計算とその数値
  • 実験結果

も必要か。

もし上手く行かなかった場合、想定される原因なんかの情報も必要である。その場合、いちいち結果を解釈し直すのは、PIとのコミュニケーションの摩擦を避けるためにもあまり良くない。このPIとのコミュニケーション摩擦は別の問題であり、もしかしたら研究室ごとに異なることと思うので、ここでは述べない。ということで、以下が必要と言える。

  • 結果の解釈のまとめ(次はどうするか等)

それでは、久しぶりに実験するときはどうかというと、実験方法(プロトコール)が必要である。でも、この実験方法を記載するかどうかってすごく意見が分かれるのではないだろうかと思う。特に、すでに確立された実験の場合、いちいち書いていたり、印刷した紙を貼り付けていたりするとすごく面倒で、ただでさえ分厚くなってしまうのに、さらに分厚くなってしまうし、スペースの無駄である。一方、解析方法の樹立や予備実験については、手順と各ステップの詳細(incubation time, on ice, room temperture, cfg speed, spin time, etc… )が必要じゃあないかと思う。

賛否両論かもしれないが、自分は上記でリストアップされた項目を、メモ用のノートに記載し、実験後に記録用ノートに読めるように書き写し、実験手順は通常は印刷して見ながら実験しているので、それを貼るようにしている。そうしないと、自分の字がヘタ過ぎて、時間が経ったら読めなくなるからだ。そのままラボノートに書け、という意見もあるかもしれないが、それは絶対に必要ではないのではないだろうか。要は再現性の確認のために必要な変数を記載しておけば良い。あまりにも一般的な事項をすべて書いていては、時間もページも保管場所も足りなくなる。ミーティングに間に合わなかったり、書きすぎてごちゃごちゃになったらそれだって意味がなくなるはず。そして結果がでたら、その結果と、その解釈(トラブルシューティング等)をさらに重ねて貼り付けるようにしている。

これは普通だと思うのだが、以前ラボメンバーにこれを説明したときに、驚くことに全く理解されなかった。正直、そこに疑問を持つことが自分には理解できなかった。彼女は、それはやり過ぎだという。そして挙げ句の果てに、「そんなん、実験ノートだって捏造できるんだから、意味なんかない。」という旨のことを言われたときには愕然とした。今度別に述べようと思うが、アメリカにはこういう、根本的というか、元も子もないことを言う人が学位を問わず結構いる。だから引き継ぎだときに「実は計算が間違っていて、実際は論文に記載した薬剤濃度の1/10の濃度で実験していた。」とか「ラボを引っ越ししたら必要なデータを保存したハードディスクを全部紛失した」とか、信じられんことが起こる。そんなヤツはほっといて、自分はちゃんとあとから説明できるように、再現性を得られるように、自分にあった方法で記載しておきたいと思う。

ノートの途中にも関わらずこの分厚さ。可能な限り貼り付けると、必ずこうなる。

複雑な解析結果について

最近はこれをどうしようかと思っている。自分はRNA-seqやmulticolor flow cytometerなんかもやる。両者とも現在の生物学には必須の解析手法と思う。RNA-seqは、シークエンサーから出力されたリードのQCに始まり、マッピング結果、DEG(Differential Express Gene)解析、エンリッチメント解析、必要によれば、バルクサンプル中の構成細胞の推定やドミナントな転写因子の推定なんかもやる。余談だが、この辺りは全部外注というラボもあるかもしれないが、サンプル毎に1万円以上、解析毎に1万円以上必要だったりするし、解析をbioinfomaticianは最終的にp値だけで結論に至る場合がほとんど、要は生物学的に、もしくは究目的上重要でないような分子やパスウェイも有意であれば採用する。例えば、抗がん剤投与でアポトーシスや細胞死のパスウェイが優位だった、とか、放射線照射後に細胞周期の停止に関わる遺伝子がたくさん変動していた、とか、当然といえば当然のことを堂々と報告してくる。そこじゃあない。その抗癌剤に特有の、もしくは特有であると推定される遺伝子や、これまで知られていないパスウェイを示唆してほしいのだ。これは解析を完全に機械的に行っているためで、解釈なんかしていない。余談になるが、もうひとつどうかと思うことは統計的知識の欠如だ。平気で外れ値に影響された解析結果を返してくる。bioinformaticianはすこし考えてほしい。ただし、この場合はこちら側にも責任があるが、そうなれば結局のところ自分で解析する必要性が出てくる。

それではこういった生物学におけるin silico/bioinformatics関連の実験ノートはどうしようかと思う。使ったコードなどは実験IDと紐付けて保存してあるが、やっぱり抜けるものもある。例えば、外注した場合、解析したRのセッションインフォまで教えてくれるか?QC時やマッピング時に使ったソフトのバージョンや重要な部分のソースも教えてくれるか?などもある。実際に外注をしたときに、Rのセッションインフォは記載されていなかった(追記、2021/03/05)し、もちろんソースコードもなかった。bioinfomaticianたちは必要であればRmarkdownなんかでコメントを入れながらソースを教えてくれるかもしれないが、こうなってくると結果とは別物の報告書になる可能性があり、大金を支払う必要があるのではないだろうか。最近Cellなんかではソースコードも説明付きで記載がある論文も見受けられるので、今後、対応が必要になるかもしれない。multicolor flow cytometerも解析や使った抗体の種類が増えていているので、同じような問題が出る。他の問題としては、それは果たして、純粋培養の生物学者が理解できるか?である。おそらく今のラボのPIに「これ重要だから絶対保管してね。こことここに書いてあるから」と言ったところで絶対に覚えていない。前述の通り、現状では実験IDに紐付けてハードディスクに保存してあるが、何か、ルールやガイドラインなんかがないかどうか、暇なときにチェックしてみようと思う。

電子媒体か紙ノートか

最近はオンラインの電子実験ノート(electronic lab note; ELN)とかが出回っている。色々なものが出ていて、オンライン、有料、無料と様々ある。自分はこのELNは結構使いにくくて反対だ。紙ノートを意識しているのか知らんけど、一度閉じたらそのページは訂正できなかったり、簡単に削除できなかったりする。その割に簡単に記載できるので、そもそも、全メーカーに根本から実験ノートについて考え直してほしいものだ。それに、解析の再現性としてどうかと思うのが「このELNすべてで必要な解析ができます!エクセルのコピーペーストのエラーを無くせます!」とか謳っているソフトもある。それは果たして良いことなのだろうか。むしろ、みんなが使っているエクセルやRなんかで、みんなが解るようにするのが良いのではないだろうか。それに、そのELNの解析アルゴリズムが正確に計算しているだろうか。特にカーブフィッティングなんかでは丸め誤差やそもそものアルゴリズムの精度なんかで、実際のグラフとかけ離れたフィッティング結果が返ってくることがあるのに、それ専門でもないELNに計算を任せるとか、愚かではないだろうか。それににPIがいつでも見れるようにPIのアカウントでELNを記載するとしても、それはつまり、全員が同じアカウントに実験ノートに付けることを意味し、誰が誤った操作をして他の誰かがとんでもない影響を受ける可能性がある。それはどうやって避けるのだろうか。紙ノートに比べてパッとみたいデータが見れるという意見もありそうだが、それは紙ノートもELNも同じと思う。結局、実験IDがあればその結果にアクセスする時間はほとんどかからない。必要なのは、実験ID、日付、実験内容などの簡単なリストがあれば、その問題は解決できる。実際、自分はそれらの情報を某データベースにまとめていて、必要であれば任意のキーワードを入れて検索するようにしている。

自分なりの結論としては、同様のことをワードやパワーポイントでもっと簡単にできる、ということだ。これは実験IDや日付や実験者が明記されていれば、おそらくPIも問題なく確認できる可能性が高い。ELNを使う場合、紙ノートよりも厳格で、研究所レベルでのガイドラインやルールが必要だと思う。

サンプルの保存期間

これは実験ノートとは関係ないが、おそらく、世界中の研究者、研究室レベルの問題なのではないだろうか。出版後、いつまで保管すればいいのだろうか。これも以前、ラボメンバーと話していたことがある。その人は最終的に「まぁ、5年かな。それに、PIの問題だから、自分は関係ない。」ということになった。まさにそれに同意できるが、それにしても研究所毎に定義してくれないと、こっちだってどうしていいか最終的にわからなくなると思う。大量の組織切片、組織ブロック、写真に撮りきれない量のカウント済みディッシュ、フィルムなど、保存場所はどうしてくれようか。

結論

  • 実験ID
  • 日付
  • 結果の再現性に関わる重要な変数
  • 試薬の量とできればその計算
  • 結果と簡単なその解釈やコメント
  • ソフトのバージョン
  • これらが記載されたリスト

が最低限必要と思う。

追記、2021/03/05;うちの施設のGenomic CoreはRのセッションインフォもちゃんと書いてくれてました。しかしながら、FastqのQCからマッピングやリードのカウント、DEG解析、GOのアノテーション解析までの依頼なのに、QCやマッピングの解析結果が載ってなくて戸惑った。ボスとResearch Associateが依頼した解析だったのだが、彼らがそのファイルを見つけてないだけだろうか。