はじめに
遺伝子発現プロファイルでも、タンパク質発現プロファイルでもそうだが、解析していると正規化(Normalization)という操作が必要になる。遺伝子発現解析をしているとそこまで問題になることはないし(いや、実際は大問題で、正規化に関する論文は沢山ある。問題無いと書いたが、それは対照群と比較群が同じようにデータ取得されていて、かつ、それらの論文で示される正規化方法が使える場合はとやかく考える必要はないって意味)、遺伝子発現解析にはよく使用されるedgeRやDESeq2では、正規化前後の値を取得出来るのでそこまで考える必要はない。一方、先日書いたCPTACの解析ではしっかりと正規化について意識しなればならなかった。質量分析によるプロテオーム解析は遺伝子解析ほど確立されたものでもなく、自分で色々と解析しなければならない。対数変換したり、戻したり、そもそも正規化後の値からその前の値に戻したり、色々やっているうちに、今一体どんな値なのか、確実にわからなくなる。なので、ここではリマインダーとして以下に計算手順を記録しておくことにする。
中央値を用いた正規化
$${Normalized\,Ratio;中央値により正規化された値}\\{Raw;各タンパク質の発現量}\\{Median;タンパク質発現プロファイルの中央値}$$
$$Normalized\,Ratio=\frac{Raw}{Median}$$
$$\log_{2}Normalized\,Ratio=\log_{2}{(\frac{Raw}{Median})}$$
$$\log_{2}Normalized\,Ratio=\log_{2}{Ratio}-\log_{2}{Median}$$
$$\log_{2}{Normalized\,Ratio}+\log_{2}{Median}=\log_{2}{Ratio}$$
$$\log_{2}{{(Normalized\,Ratio}\times{Median)}}=\log_{2}{Ratio}$$
$$2^{\log_{2}{Ratio}}=2^{\log_{2}{{(Normalized\,Ratio}\times{Median)}}}=Ratio$$
いや〜、もう高校生レベル….逆に、高校生でもこの解析できるじゃあねえのかって思うわ。でも、いつも忘れるんだ….忘れるというか、色々変換しているうちにどれがどれだったかわからなくなるって感じ。
ちなみに、CPTACのプロテオームのデータは、まず欠損値にゼロを入れて、この計算をすることで、正規化前の値に戻すことが出来る。「欠損値にゼロを入れる」というのが肝である。本来ならばタンパク質発現プロファイルの中の欠損値にゼロを入れるのは、データの分布が変わってしまうので良くないとされている。しかし、それも用いる解析手法で変わるのだろう。例えば、タンパク質発現プロファイルを何らかの統計モデルにフィッティングする場合は、ゼロでの補間はやめた方がいいだろう。一方、中央値を求めるだけなどの場合は、CPTACのデータのように問題ないのかもしれない。