SW/머신러닝

머신러닝 : 데이터 수집, 정규화 정의, 개념, 방법

얇은생각 2019. 12. 28. 07:30
반응형

데이터 수집

데이터 속에서 출력은 입력에 의해 대부분 결정됩니다. 따라서 모형이 학습되는 것입니다. 입력 데이터가 출력 데이터를 제대로 설명하지 못하면 모형과 상관없이 학습이 제대로 되지 않습니다. 즉 "Garbage in, Garbage out" 현상이 발생하는 것 입니다.

만약 머신 러닝에서 입력 변수가 출력 변수를 제대로 설명하지 못한다면, 다른 종류의 입력 변수들을 확보해서 분석해야 합니다.  

좋은 모델을 위해서는 충분한 양의 데이터, 좋은 품질의 데이터, 대표성을 띄는 데이터, 관련 있는 특성이 존재하는 데이터가 필요합니다. 

 

 

데이터 정규화

머신 러닝 모형들은 각자 학습 파라미터가 존재합니다. 이러한 파라미터는 알고리즘에 의해 학습 데이터에 맞게 파라미터는 조정하는 과정이 필요합니다. 이 떄, 변수 값의 크기가 중요한 역할을 합니다. 

정상을 판단하는 경우, 스케일이 큰 변수는 결과에 중요한 변수로 착각 될 수 있습니다. 그러한 경우에는, 높은 파라미터 값으로 설정되는 오류를 범할 수 있습니다. 

따라서 변수의 스케일을 통일하는 전처리 과정을 반드시 수행해야 합니다. 

 

 

평균 중심화

변수 X 값에서 해당 변수의 평균 X를 뺴면 X'가 계산됩니다. X'는 원변수 X가 평균 X 만큼 이동되므로 평균이 0이 됩니다. 모든 변수가 0~ 100사이에 있으면 평균 중심화만 실시해도 됩니다. 

평균 중심화

 

 

Min-Max 방법

각 변수의 min과 max 값으로 정규화합니다. 정규화된 갑스이 최소 값은 0, 최대값은 1이 됩니다. 나머지는 0과 1사이에 존재하게 됩니다.

데이터 범위가 0과 1로 국한되어 표준 편차가 매우 작게 됩니다. 이상치 데이터를 잘 구분하지 못하게 될 수 있습니다.  통계학이 머신 러닝에서는 따라서 min-max 변환보다는 Z-score 변환을 많이 사용하게 됩니다.

min max 

 

 

Z-score

각 변수의 평균 X와 표준편차 Sx를 사용하여 스케일링을 진행합니다. 평균은 0이 되고 표준편차는 1이 됩니다. 스케일이 없는 단위로 데이터가 통일됩니다. Z-socre 변환을 해도 상관성은 변하지 않습니다. 

Z-score

반응형