SW/머신러닝

머신러닝 : 데이터 분할 : 방법, 방식, 절차

얇은생각 2020. 1. 14. 07:30
반응형

데이터 분할

 

과적합을 방지하기 위해서는 전체 데이터를 학습 데이터, 검증 데이터, 테스트 데이터로 나누어야 합니다. 보통 비율은 5 : 3 : 2 로 정합니다. 따라서 생각보다 많은 데이터를 보유해야만 좋은 모형을 만들 수 있습니다.

 

학습 데이터 : train data : 모형 f 를 추정하는 데 필요합니다. 

검증 데이터 : validation data : 추정한 모형 f 가 적합한지 검증합니다.

테스트 데이터 : test data : 최종적으로 선택한 모형의 성능을 평가합니다. 

 

데이터 분할 : 전체 데이터를 학습 데이터, 검증 데이터, 테스트 데이터로 나누어집니다.

모형 학습 : 학습 데이터를 사용하여, 각 모형을 학습합니다.

모형 선택 : 검증 데이터를 사용하여, 각 모형의 성능을 비교하고 선택합니다.

최종 성능 지표 도출 : 테스트 데이터를 사용하여 검증 데이터로 도출한 최종 모델의 성능 지표를 계산합니다. 데이터를 어떻게 분리하느냐에 따라 성능에 영향이 달라지며, 이는 최종 모형 선택에 영향을 끼칠 수 있습니다.

반응형