中央値による正規化と対数変換

R

はじめに

遺伝子発現プロファイルでも、タンパク質発現プロファイルでもそうだが、解析していると正規化(Normalization)という操作が必要になる。遺伝子発現解析をしているとそこまで問題になることはないし、遺伝子発現解析にはよく使用されるedgeRやDESeq2では、正規化前後の値を取得出来るのでそこまで考える必要はない。一方、先日書いたCPTACの解析ではしっかりと正規化について意識しなればならなかった。質量分析によるプロテオーム解析は遺伝子解析ほど確立されたものでもなく、自分で色々と解析しなければならない。対数変換したり、戻したり、そもそも正規化後の値からその前の値に戻したり、色々やっているうちに、今一体どんな値なのか、確実にわからなくなる。なので、ここではリマインダーとして以下に計算手順を記録しておくことにする。

中央値を用いた正規化

$${Normalized\,Ratio;中央値により正規化された値}\\{Raw;各タンパク質の発現量}\\{Median;タンパク質発現プロファイルの中央値}$$

$$Normalized\,Ratio=\frac{Raw}{Median}$$

$$\log_{2}Normalized\,Ratio=\log_{2}{(\frac{Raw}{Median})}$$

$$\log_{2}Normalized\,Ratio=\log_{2}{Ratio}-\log_{2}{Median}$$

$$\log_{2}{Normalized\,Ratio}+\log_{2}{Median}=\log_{2}{Ratio}$$

$$\log_{2}{{(Normalized\,Ratio}\times{Median)}}=\log_{2}{Ratio}$$

$$2^{\log_{2}{Ratio}}=2^{\log_{2}{{(Normalized\,Ratio}\times{Median)}}}=Ratio$$

いや〜、もう高校生レベル….逆に、高校生でもこの解析できるじゃあねえのかって思うわ。でも、いつも忘れるんだ….忘れるというか、色々変換しているうちにどれがどれだったかわからなくなるって感じ。

ちなみに、CPTACのプロテオームのデータは、まず欠損値にゼロを入れて、この計算をすることで、正規化前の値に戻すことが出来る。「欠損値にゼロを入れる」というのが肝である。