[다변량통계분석] 다변량 자료

🔳 다변량자료(Multivariate data)

다변량 자료는 p개의 변수와 n개의 시행으로 구성되므로  n x p 행렬로 나타낼수 있습니다.
$$X\quad =\quad \begin{bmatrix} { x }_{ 11 } & { x }_{ 12 } & \cdots  & { x }_{ 1p } \\ { x }_{ 21 } & { { x }_{ 22 } } & \cdots  & { x }_{ 2p } \\ \vdots  & \vdots  &  & \vdots  \\ { x }_{ n1 } & { x }_{ n2 } & \cdots  & { x }_{ np } \end{bmatrix}$$
행렬 X의 원소 \({ x }_{ jk } \)는 j번째 시행한 k번째 변수의 측정값을 나타냅니다.

🔳 기술통계량(Descriptive Statistics)

다변량자료는 덩치가 매우 크므로, 그 자체만으로는 데이터가 어떤 특성을 갖는지 파악하기가 어렵습니다. 이런 자료의 특성을 몇개의 값으로 요약하여 나타낼수 있는데 이를 기술통계량(평균, 분산, 공분산 등)이라고 합니다.
다변량 자료의 표본평균(Sample means)
        \({ \overline { x }  }_{ k }\)는 k번째 변수의 표본평균 값이며, k번째 변수에 대해 모든 시행값들(j= 1 to n)의 평균으로 계산됩니다.
        $${ \overline { x }  }_{ k }=\frac { 1 }{ n } \sum _{ j=1 }^{ n }{ { x }_{ jk }\quad \quad \quad k=1,2,\cdots ,p } $$

다변량 자료의 표본분산, 공분산(Sample variances, covariances)
       분산은 데이터들이 평균값으로부터 얼마나 퍼져있는지 정도(a measure of spread)를 나타내는 기술통계량으로 k번째 변수의 표본분산은 다음과 같이 계산합니다.
      $${ s }_{ k }^{ 2 }={ s }_{ kk }=\frac { 1 }{ n-1 } \sum _{ j=1 }^{ n }{ { { (x }_{ jk } - { \overline { x }  }_{ k }) }^{ 2 }\quad \quad \quad k=1,2,\cdots ,p }  $$

       \(i\)번째 변수와 \(j\)번째 변수간 공분산(\( { s }_{ ik }\))은 두변수간의 상관정도를 나타내는 기술통계량입니다. 예를 들어 두 변수중 한개가 증가하는 경향을 보일때, 다른 한 변수도 증가하는 경향을 보인다면 공분산은 양수의 값을 갖게 됩니다.
       $$ { s }_{ ik }=\frac { 1 }{ n-1 } \sum _{ j=1 }^{ n }{ { { (x }_{ ji }- { \overline { x }  }_{ i }) }{ { (x }_{ jk } - { \overline { x }  }_{ k }) }\quad \quad \quad \quad k=1,2,\cdots ,p } $$

다변량 자료의 표본상관계수(Sample correlation coefficient)
       상관계수는 측정단위에 영향을 받지 않는 공분산으로 생각하면 됩니다.  공분산 값에 각각 변수의 표준편차로 나누어 계산합니다.
       $$r_{ ik }=\frac { { s }_{ ik } }{ \sqrt { { s }_{ ii } } \sqrt { { s }_{ kk } }  } =\frac { \sum _{ j=1 }^{ n }{ { { (x }_{ ji } - { \overline { x }  }_{ i }) }{ { (x }_{ jk } -{ \overline { x }  }_{ k }) } }  }{ \sqrt { \sum _{ j=1 }^{ n }{ { { { (x }_{ ji } - { \overline { x }  }_{ i }) } }^{ 2 } }  } \sqrt { \sum _{ j=1 }^{ n }{ { { { (x }_{ jk } - { \overline { x }  }_{ k }) } }^{ 2 } }  }  } $$





댓글

가장 많이 본 글