医学生物学研究での統計の基本

自分は標準偏差と標準誤差を何も考えないで使用している研究者、特に、医学・生物学研究者が嫌いである。なので、ここでは医学・生物学実験、特にin vitroとin vivoの実験で得られた実験結果で利用する統計について、実用的な範囲で記すことにする。自分は専門家ではないので、難しいことは述べない。というか、述べることはできない。ただし、ここで記すことは的を得ているのではないかと考えている。


目次


母集団

標本のおおもとになっている集団。たとえば、マウスならチャールズリバーやジャクソンラボトリーで売っている、同じ環境で育った、週齢などのバックグラウンドの同じ、似たようなマウス全体のことである。標本を使って得られた実験結果を用いて、通常、この母集団で起こるだろう結果を推定する。医学であれば、似たようなバックグランドの人をサンプリングしてきて、そこで解析された結果を似たような性質の一般の人らで起こることとして推定する。その一般的な、より大きな数の集団のこと。


母集団における平均値

医学生物学者でも知ってるので省略。


母集団の分散;母分散

$${\mu;母集団における平均値}\\{X;各個体の解析対象の値}\\{N;母集団にいる個体数}\\{\sigma^2;母集団の分散}$$

$$\sigma^2 = \sum_{i=1}^N\frac{(X_i – \mu)^2}{N}$$


母集団の標準偏差(母標準偏差)

$$\sigma = \sqrt{\sigma^2}$$


標本

これは一般的に使っている群である。実験では母集団に対して薬剤等を投与する、ということが事実上不可能である。その母集団から均一にサンプリングしてきて、よく性質を反映すると仮定できる小さな集団を用いて実験している。


標本の平均値(標本平均)

医学生物学者でも知ってるので省略。


標本の分散(標本分散)

$${m;標本における平均値}\\
{x;標本の解析対象の値}\\
{n;標本にいる個体数}\\
{s^2;標本の分散}$$

$$s^2 = \sum_{i=1}^n\frac{(x_i – m)^2}{n}$$


標本の標準偏差(標本標準偏差)

$$s = \sqrt{s^2}$$

エクセルではSTDEVP()。


標本の平均値から母集団の分散を推定したヤツ(不偏分散)

わかりやすいのは動物実験や臨床試験の結果ではないだろうか。マウスやヒトの標本において薬剤の効果を調べ、それがどのくらい一般的な集団で効きそうなのか調べる。つまり、標本における平均値を使って、母集団でどのくらい効果があるのかを推定したい。これが医学生物学研究で求められる値である。

これをやるためには、まず、標本の平均値から母集団の分散の推定値(不偏分散)を求める。標本の平均値を使って母分散を推定しようとすると、母分散よりも$$\frac{n-1}{n}$$ほど大きくなってしまう。なので、得られた分散を(n-1)だけ割る。そうすると、標本における個々の測定値とその平均から母分散が推定できる。これが不偏分散である。バイオサイエンスの統計学(江南堂、1999、p.33)にわかりやすい計算が載っている。

$$\frac{s^2}{n-1}$$


標本の平均値から母集団の標準偏差を推定したヤツ(不偏標準偏差, Standard Deviation, SD)

これが、いわゆる「標準偏差」である。

$$\frac{s}{\sqrt{n-1}}$$

エクセルではSTDEV()。


標準誤差(Standard Error of Mean;SEM, Standard Error; SE)

正規分布N(µ, σ2)している母集団から標本としてn個(匹)の個体をサプリングしてきて、その標本の平均と標準偏差を求めると、それらは母集団の平均値µと母集団の分散をnで割った値に近いという定理がある。(中心極限定理;求め方は難しい。マクローリン展開とか言ってた。医学生物学者は諦めて、最新の解析手技でも覚えたほうが良い。)

次に、正規分布する母集団の確率密度関数を標準化してN(0, 1)にする。つぎにそこから個体数nの標本を取ってくる。そうすると標本の分布N(0, 1/n)で表される。次に例えば、個体数を増やして、例えばn=100にしてみると、そのときの標本の平均と分散はN(0, 1/100)になり、ものすごく裾野の狭い正規分布が出来上がる。つまり、このときの標本における分布は、母集団の平均値がどの範囲にありそうか、ということを示している。

しかしながら、これは母集団の平均値や分散が解っているときの話である。実際に着目しているのは母集団ではなく標本の値であり、ちょっと違う。なので、母集団の標準偏差を推定するヤツである不偏標準偏差(いわゆる標準偏差)を使う。それを標準化した分布に当てはめてやると、nの少ない正規分布っぽい分布が出来上がる。これがみんなが愛して止まないt分布である。そして、このときの$$\frac{s}{\sqrt{n}}$$を標準誤差という。

前述にもあるように、この標準誤差は、標本の平均値や不偏標準偏差から推定される母集団の平均値がどの範囲にあるのかを示す値である。つまり、母集団の標準偏差を推定するヤツの代わりにはなれない、別の値である。


信頼区間(Confidence Interval;CI)

母集団の標準誤差がわかれば、母集団の平均値がある範囲を推測できる。標準正規分布表から任意の信頼係数に対応するz統計量を探す。たいてい95%信頼区間が用いられるので、z(0.05)の値を見る。z(0.05) = 1.96である。

母平均は、$$\mu\pm{z(0.05)}\times\frac{\sigma}{\sqrt{n}}$$の範囲にあるといえる。

しかし、一般的に実験に用いているのは標本の統計である。この場合、母集団の分散や母標準偏差はもちろんわからないので、この場合、t分布を用いることになる。t統計量を求めて、その自由度n-1に対応するtn-1(0.05)を用いて、母平均の95%信頼区間が求まる。

母平均は、$$m\pm{t_{n-1}{(0.05)}}\times\frac{s}{\sqrt{n-1}}$$の範囲にあるといえる。


標準偏差(SD)と標準誤差(SE)はどちらを使ったら良いか。

医学の研究で、たとえば各年齢における血中コレステロールの平均値を求めるとか、より多くのヒトに適応されるワクチンの効果の解析なんかでは、n数もかなり多いだろうし、その信頼区間が有用だろうから、標準誤差も良いと思う。一方、もっと特殊な条件である、担がんマウスや培養細胞に対する薬剤の効果などのような基礎的な実験では、以下の理由から標準偏差を使うべきだと思う。というか、標準偏差を使ってほしい。

  1. 標準誤差をつかって母集団の平均値を推測されても、正直あまりピンと来ないし、そもそも正しく推定するためのn数が圧倒的にたりない。
  2. 論文ではデータのばらつき(不偏標準偏差もしくは標準偏差)を見ることで薬剤投与群とその対照群の差について考えることが多い。
  3. 同僚などの実験結果で、平均値と標準誤差で要約されたグラフと個々のデータを比較するとびっくりするくらい違うことがよくある。この場合、「エラーバーを小さく見せるために標準誤差を使ったな」と言われても仕方ないし、その場合はいちいちn数を書いてくれないと、正しく読めない。
  4. 動物実験や細胞実験は特殊なモデルとはいえ、それらのモデルはもはや一般的であり、購入して使うことができる。つまり、別の国、別の組織で同じマウスや培養細胞を購入して再現できる可能性が高い。ということは、やはり母集団としての平均値や標準偏差の推定が必要であり、そのためにはやはり標準偏差が良いのではないだろうか。標準誤差で「この標本における平均値は、こんなもんですよ」とか言われても、まぁわからんではないが、理論的にズレる。
  5. バイオサイエンスの統計学(江南堂、1999、p.301)に「平均値±SEは誤解を生じさせやすいので、できるだけ避ける。データ数を決して忘れない。」と書いてある。その通りだと思う。

バイオサイエンスの統計学(江南堂、1999、p.300)にすごくわかりやすい表が書いてあるので、以下にそれを述べる。

SD個々の平均的なバラツキ分布の広がりのめやすを与える。
SE (SEM)標本平均の平均的なバラツキ平均値の信頼区間を与える。