[다변량통계분석] 다변량 자료
🔳 다변량자료(Multivariate data)
$$X\quad =\quad \begin{bmatrix} { x }_{ 11 } & { x }_{ 12 } & \cdots & { x }_{ 1p } \\ { x }_{ 21 } & { { x }_{ 22 } } & \cdots & { x }_{ 2p } \\ \vdots & \vdots & & \vdots \\ { x }_{ n1 } & { x }_{ n2 } & \cdots & { x }_{ np } \end{bmatrix}$$
🔳 기술통계량(Descriptive Statistics)
다변량자료는 덩치가 매우 크므로, 그 자체만으로는 데이터가 어떤 특성을 갖는지 파악하기가 어렵습니다. 이런 자료의 특성을 몇개의 값으로 요약하여 나타낼수 있는데 이를 기술통계량(평균, 분산, 공분산 등)이라고 합니다.$${ s }_{ k }^{ 2 }={ s }_{ kk }=\frac { 1 }{ n-1 } \sum _{ j=1 }^{ n }{ { { (x }_{ jk } - { \overline { x } }_{ k }) }^{ 2 }\quad \quad \quad k=1,2,\cdots ,p } $$
\(i\)번째 변수와 \(j\)번째 변수간 공분산(\( { s }_{ ik }\))은 두변수간의 상관정도를 나타내는 기술통계량입니다. 예를 들어 두 변수중 한개가 증가하는 경향을 보일때, 다른 한 변수도 증가하는 경향을 보인다면 공분산은 양수의 값을 갖게 됩니다.
$$ { s }_{ ik }=\frac { 1 }{ n-1 } \sum _{ j=1 }^{ n }{ { { (x }_{ ji }- { \overline { x } }_{ i }) }{ { (x }_{ jk } - { \overline { x } }_{ k }) }\quad \quad \quad \quad k=1,2,\cdots ,p } $$
$$r_{ ik }=\frac { { s }_{ ik } }{ \sqrt { { s }_{ ii } } \sqrt { { s }_{ kk } } } =\frac { \sum _{ j=1 }^{ n }{ { { (x }_{ ji } - { \overline { x } }_{ i }) }{ { (x }_{ jk } -{ \overline { x } }_{ k }) } } }{ \sqrt { \sum _{ j=1 }^{ n }{ { { { (x }_{ ji } - { \overline { x } }_{ i }) } }^{ 2 } } } \sqrt { \sum _{ j=1 }^{ n }{ { { { (x }_{ jk } - { \overline { x } }_{ k }) } }^{ 2 } } } } $$
댓글
댓글 쓰기