반응형
데이터 분할
과적합을 방지하기 위해서는 전체 데이터를 학습 데이터, 검증 데이터, 테스트 데이터로 나누어야 합니다. 보통 비율은 5 : 3 : 2 로 정합니다. 따라서 생각보다 많은 데이터를 보유해야만 좋은 모형을 만들 수 있습니다.
학습 데이터 : train data : 모형 f 를 추정하는 데 필요합니다.
검증 데이터 : validation data : 추정한 모형 f 가 적합한지 검증합니다.
테스트 데이터 : test data : 최종적으로 선택한 모형의 성능을 평가합니다.
데이터 분할 : 전체 데이터를 학습 데이터, 검증 데이터, 테스트 데이터로 나누어집니다.
모형 학습 : 학습 데이터를 사용하여, 각 모형을 학습합니다.
모형 선택 : 검증 데이터를 사용하여, 각 모형의 성능을 비교하고 선택합니다.
최종 성능 지표 도출 : 테스트 데이터를 사용하여 검증 데이터로 도출한 최종 모델의 성능 지표를 계산합니다. 데이터를 어떻게 분리하느냐에 따라 성능에 영향이 달라지며, 이는 최종 모형 선택에 영향을 끼칠 수 있습니다.
반응형
'SW > 머신러닝' 카테고리의 다른 글
머신러닝 : 분류 모형 성능 지표 : 종류, 개념, 정의, 공식 (0) | 2020.01.16 |
---|---|
머신러닝 : k-Fold 교차 검증 (k-Fold Cross Validation) : 개념, 방식 (0) | 2020.01.15 |
머신러닝 : 모형의 적합성 : 평가 방법 (0) | 2020.01.13 |
머신러닝 : 분산(variance)과 편파성(Bias)의 딜레마 (0) | 2020.01.12 |
머신러닝 : 데이터셋 , 과적합(오버피팅) : 개념, 팁, 의미, 개요 (0) | 2020.01.07 |