SW/머신러닝

머신러닝 : 표본 공분산, 상관 계수 : 개념, 공식, 의미

얇은생각 2020. 1. 6. 07:30
반응형

표본 공분산

두 변수의 관계를 나타내는 양을 의미합니다. 두 변수가 도일한 변수인 경우에는 해당 변수의 분산을 나타냅니다. 공분산 행력은 여러 변수의 분산과 공분산을 포함하는 행렬입니다.

 

공분산 공식

 

공분산 의미

 

변수 i와 j가 같은 방향이면 양수의 값을 갖습니다. 반대로 음수의 값이면 반대 방향의 성질을 갖습니다. 0에 가깝다면, 두 변수의 방향성이 없다는 것을 의미합니다.

 

 

표본 상관 계수

표본 상관계수는 공분산을 각각의 표본 푠준편차 값으로 나눕니다. 그 다음 정규화한 것을 의미합니다. 두 변수 간의 선형 관계만 측정할 수 있습니다. 즉, 비선형 관계나 이상치가 있을 경우 올바른 값을 도출하기 어렵습니다. 원인과 결과에 대해서는 확실히 알기 어렵습니다.

 

상관 계수 공식

 

상관 계수

 

위 그림처럼, 같은 상관계수이지만 어떻게 분포하는가에 따라 모양이 매우 다르다는 것을 알 수 있습니다. 따라서, 상관계수만으로는 올바른 의미를 도출하기는 어렵다고 할 수 있습니다.

반응형