반응형
분산(variance)과 편파성(Bias)의 딜레마
모형 f^(x)로 모집단의 전체 데이터를 예측하는 경우 발생하는 총 에러를 계산합니다. 이 떄 에러는 reducible error와 irreducible error로 표현됩니다. reducible 에러는 다시 분산과 편파성으로 구성됩니다.
분산은 전체 데이터 집합 중 다른 학습 데이터를 이용했을 떄, 추정한 f가 변하는 정도를 의미합니다. 복잡할 수록 분산이 높아집니다.
편파성은 학습 알고리즘에서 잘못된 예측을 할 떄, 발생하는 오차를 의미합니다. 간단할수록 편파성이 높습니다.
복잡한 모형 f^(x) 를 사용하여 편파성을 줄일 수 있습니다. 그러며 반대로 분산이 커지는 것입니다. 간단한 모형이라면 그 반대의 현상이 발생하는 것입니다. 따라서, 엔지니어들은 분산과 편파성이 작은 모형을 찾는 것이 최종 목표라고 할 수 있습니다.
즉, 적절한 분산과 편파성을 찾지 못한다면, 오버피팅이나 언더피팅이 일어날 수 있는 것입니다.
반응형
'SW > 머신러닝' 카테고리의 다른 글
머신러닝 : 데이터 분할 : 방법, 방식, 절차 (0) | 2020.01.14 |
---|---|
머신러닝 : 모형의 적합성 : 평가 방법 (0) | 2020.01.13 |
머신러닝 : 데이터셋 , 과적합(오버피팅) : 개념, 팁, 의미, 개요 (0) | 2020.01.07 |
머신러닝 : 표본 공분산, 상관 계수 : 개념, 공식, 의미 (1) | 2020.01.06 |
머신 러닝 : Random Forest 특징, 개념, 장점, 단점 (0) | 2020.01.03 |