반응형
최적의 데이터 셋
분석용 데이터의 이상적 조건에 대해 알아보도록 하겠습니다.
입력 데이터에 상관성이 작아야 이상적입니다. 반면에 입력 데이터와 출력 데이터의 상관성이 커야 합니다.
위 두 성질을 만족하는 소수의 입력 변수 집합이 이상적이라고 할 수 있습니다. 또한 많은 양질의 데이터가 있으면 좋습니다. 양질의 데이터란 결측치와 노이즈가 없는 깨끗한 데이터를 의미합니다.
현실적으로는 입력 변수는 많고 출력 변수는 적은 데이터가 많습니다. 이러한 데이터는 모형의 성능이 떨어지는 문제가 발생할 수 있습니다.
입력 변수는 상관성이 적고, 출력 변수는 상관성이 큰 독립 변수만을 추출하고 선택해야 합니다. 그러기 위해서 변수를 선택하고 차원을 축소하는 과정이 필요합니다.
과적합 문제
과적합에 대해 알아보도록 하겠습니다. 모든 데이터를 확보하여 모형을 만드는 것이 현실적으로 불가능한 상황이 있습니다. 이런 상황에서 일부의 데이터만으로 현재 모형에 존재하는 오류를 과도하게 줄일 때 발생하는 문제를 의미합니다.
과적합은 다음과 같이 주황 점의 데이터로 f를 추정합니다. 좌측 그림은 일부의 오류를 허용하여 f를 추정하였습니다.
반면 우측 그림은 오류를 전혀 허용하지 않고 f를 추정합니다. 데이터가 추가되었을 때, 우측 그림보다 좌측 그림의 오류가 더 작다는 것을 알 수 있습니다.
이러한 과적합을 오버피팅(overfitting)이라고도 합니다.
반응형
'SW > 머신러닝' 카테고리의 다른 글
머신러닝 : 모형의 적합성 : 평가 방법 (0) | 2020.01.13 |
---|---|
머신러닝 : 분산(variance)과 편파성(Bias)의 딜레마 (0) | 2020.01.12 |
머신러닝 : 표본 공분산, 상관 계수 : 개념, 공식, 의미 (1) | 2020.01.06 |
머신 러닝 : Random Forest 특징, 개념, 장점, 단점 (0) | 2020.01.03 |
머신러닝 : Bagging (배깅) : 개념, 공식, 기능 (0) | 2019.12.30 |