はしくれエンジニアもどきのメモ

情報系技術・哲学・デザインなどの勉強メモ・備忘録です。

偏相関係数の導出メモ

相関係数の導出メモ

github: https://github.com/Cartman0/MultivariateAnalysis/blob/master/PartialCorrelationCoefficient_%E5%81%8F%E7%9B%B8%E9%96%A2%E4%BF%82%E6%95%B0%E3%81%AE%E5%B0%8E%E5%87%BA.ipynb

相関係数の導出方法のメモ.

参考資料:

導出の考え方

変数$x, y, z$を考え,$z$の影響を除いたxとyの偏相関係数を考える.

  • $z$成分で説明される$x$の回帰式$\hat{x}$をつくる.$y$も同様.

  • $x$から回帰式$\hat{x}$ を引き,z成分を削除した残差$e_x$を作る.$y$も同様.

  • この2つの残差からはz成分が引かれているので,これらの相関係数が偏相関係数になる.

実際に導出

$z$に対する$x$の回帰式は,標本のindexをつけて書くと

$$ x_{i} = az_{i} + b $$

各パラメータを代入して,予測式は

$$ \hat{x}_{i} = \mu_{x} + \frac{S_{xz}}{S_{zz}}(z_{i} - \mu_{z}) $$

確率変数を使って書くと


\hat{ X } = \mu_{X} + \frac{\text{Cov}( X, Z )}{ \sigma_{Z}^{2} }(Z - \mu_{Z})

変数$X$からz成分の回帰式を引いてz成分を除去した残差を計算する.


e_{X} = X - \hat{X}
= ( X - \mu_{X} ) - \frac{\text{Cov}( X, Z ) }{ \sigma_{Z}^{2} }( Z - \mu_{Z} )

yについても同様に考えると,


e_{Y} = Y - \hat{Y}
= ( Y - \mu_{Y} ) - \frac{\text{Cov}( Y, Z ) }{ \sigma_{Z}^{2} }( Z - \mu_{Z} )

この残差の相関係数を計算する.


\rho_{XY \cdot Z}
= \frac{\text{Cov}( e_{X}, e_{Y} ) }{\sqrt{ \sigma_{e_{X}}^{ 2 } } \sqrt{ \sigma_{ e_{Y}}^{2}}}
= \frac{\text{E}[ e_{X} e_{Y} ] - \text{ E }[ e_{X} ] \text{E}[ e_{Y} ] }{ \sqrt{ E[ e_{X}^{2} ] - ( E[ e_{ X } ] )^{2} } \sqrt{ E[e_{Y}^{2} ] - ( E[ e_{Y}  ] )^{ 2 } } }

各項を計算する.

分子:


E[ e_{ X } ] = ( E[ X ] - \mu_{ X } ) - \frac{ \text{ Cov }( X, Z ) }{ \sigma_{ Z }^{ 2 } }( E[ Z ] - \mu_{ Z } ) = 0 \\\\
E[ e_{ Y } ] = 0 \\\\

\begin{eqnarray}
E[ e_{X}e_{Y} ]
&=& E\left[ \left\{ (X - \mu_{X}) - \frac{\text{Cov}(X, Z)}{ \sigma_{Z}^{2} }(Z - \mu_{Z}) \right\} \left\{ (Y - \mu_{Y}) - \frac{\text{Cov}(Y, Z)}{ \sigma_{Z}^{2} }(Z - \mu_{Z}) \right\} \right] \\\\
&=& E[ ( X - \mu_{X} )( Y - \mu_{Y} ) ]
- \frac{\text{Cov}(X, Z)}{ \sigma_{Z}^{2} }E[ ( Y - \mu_{Y} )(Z - \mu_{Z} ) ]
- \frac{\text{Cov}(Y, Z)}{ \sigma_{Z}^{2} }E[ ( X - \mu_{X} )( Z - \mu_{Z} ) ]
+ \frac{\text{Cov}(X, Z)\text{Cov}(Y, Z)}{\sigma_{Z}^{2} \sigma_{Z}^{2}}E[ ( Z - \mu_{Z})^{2} ] \\\\
&=& \text{Cov}(X,Y)
- \frac{\text{Cov}(X, Z)}{ \sigma_{Z}^{2} }\text{Cov}(Y,Z)
- \frac{\text{Cov}(Y, Z)}{ \sigma_{Z}^{2} }\text{Cov}(X,Z)
+ \frac{\text{Cov}(X, Z)\text{Cov}(Y, Z)}{\sigma_{Z}^{2} \sigma_{Z}^{2}}\sigma_{Z}^{2} \\\\
&=& \text{Cov}(X,Y)
- \frac{\text{Cov}(X, Z) \text{Cov}(Y,Z)}{ \sigma_{Z}^{2} } \\\\
\end{eqnarray}

共分散の部分を相関係数を使って表すと,


\begin{eqnarray}
E[ e_{X}e_{Y} ]
&=& \rho_{XY} \sigma_{X}\sigma_{Y}
- \rho_{XZ}\sigma_{X}\rho_{YZ}\sigma_{Y} \\\\
&=& (\rho_{XY} - \rho_{XZ}\rho_{YZ})\sigma_{X}\sigma_{Y} \\\\
\end{eqnarray}

分母:


\begin{eqnarray}
E[ e_{X}^{2} ]
&=& E\left[\left\{ ( X - \mu_{X} ) - \frac{\text{Cov}(X, Z)}{ \sigma_{Z}^{2} }(Z - \mu_{Z}) \right\}^{2} \right] \\\\
&=& E[(X - \mu_{X})^{2}] - 2\frac{\text{Cov}(X, Z)}{ \sigma_{Z}^{2} }E[ (X - \mu_{X})(Z - \mu_{Z}) ] + \left( \frac{\text{Cov}(X, Z)}{ \sigma_{Z}^{2} }\right)^{2}E[ (Z - \mu_{Z})^{2} ] \\\\
&=& \sigma_{X}^{2} - 2 \frac{\text{Cov}(X, Z)}{ \sigma_{Z}^{2} } \text{Cov}(X, Z) + \left( \frac{\text{Cov}(X, Z)}{ \sigma_{Z}^{2} }\right)^{2}\sigma_{Z}^{2} \\\\
&=& \sigma_{X}^{2} - \frac{\text{Cov}(X, Z)\text{Cov}(X, Z)}{ \sigma_{Z}\sigma_{Z} } \\\\
&=& \sigma_{X}^{2} - \rho_{XZ}\sigma_{X}\rho_{XZ}\sigma_{X} \\\\
&=& \sigma_{X}^{2}(1 - \rho_{XZ}^{2})
\end{eqnarray}

$E[ e_{Y}^{2} ]$も同様に求まる.


E[e_{Y}^{2}]= \sigma_{Y}^{2}(1 - \rho_{YZ}^{2})

相関係数は,


\begin{eqnarray}
\rho_{XY \cdot Z}
&=& \frac{\text{E}[ e_{X}e_{Y} ] - \text{E}[ e_{X} ]\text{E}[ e_{Y} ] }{\sqrt{E[ e_{X}^{2} ] - ( E[e_{X}] )^{2}} \sqrt{E[e_{Y}^{2} ] - (E[e_{Y} ] )^{2}} }\\\\
&=& \frac{ (\rho_{XY} - \rho_{XZ}\rho_{YZ})\sigma_{X}\sigma_{Y} }{\sqrt{ \sigma_{X}^{2}(1 - \rho_{XZ}^{2}) } \sqrt{ \sigma_{Y}^{2}(1 - \rho_{YZ}^{2}) } }\\\\
&=& \frac{ \rho_{XY} - \rho_{XZ}\rho_{YZ} }{\sqrt{1 - \rho_{XZ}^{2}} \sqrt{1 - \rho_{YZ}^{2} } }\\\\
\end{eqnarray}