SW/딥러닝

24. 딥러닝 : 훈련, 검증, 테스트 데이터 : 종류, 의미, 활용 방법, 팁

얇은생각 2020. 3. 12. 07:30
반응형

훈련 과정

 

이전 포스팅에서는 유효성 검사 데이터 세트를 알아보고 초기 데이터 세트를 세 부분으로 나누어야 한다고 했습니다. 모델을 다듬고 유효성을 검증한 후 학습 유효성 검증의 마지막 부분에 대해 알아보도록 하겠습니다.

유효성 검증은 새로운 데이터에서 모델을 실행하여 수행됩니다. 이전에는 보지 못했지만 실제 모델을 적용하는 것과 동일하므로 데이터가 훈련되고 검증됩니다.

머신 러닝의 최종 버전이 있습니다. 테스트 데이터 세트를 사용하여 테스트 할 준비가 되었습니다. 이 테스트에서 얻은 예측의 정확도는 실제에 배치 할 경우 모델에 예상되는 정확도입니다. 따라서 테스트 데이터 세트는 마지막 단계입니다.

 

 

 

데이터 구성 비율

 

먼저 요약 해보겠습니다. 데이터 세트를 얻은 다음 세 부분으로 나눕니다. 실무자들이 어떻게 접근할까요? 완벽하게 정의된 규칙은 없습니다. 보통 80, 10, 10 처럼 나눕니다. 모델을 취급하는 데이터 세트는 보다 상당히 커야합니다. 유효한 샘플을 확보하면서 모델 훈련에 최대한 많은 데이터를 할당하려고합니다.

훈련 데이터 세트를 사용하여 모델을 학습합니다. 언제나 유효성 검사 데이터 세트로 모델을 실행하여 모델의 유효성을 검사합니다. 일반적으로 모든 가중치를 조정할 때마다 모든 에포크에서 유효성을 검사하고  훈련 손실과 유효성 검사 손실이 계산되어 함께 확인이 가능합니다. 

검증 손실이 증가하고 있고 과적합한다는 것을 인지한 경우, 훈련을 멈추어야 합니다. 그 다음, 테스트 데이터 세트로 모델을 테스트해야 합니다. 이 단계에서 얻은 정확도는 머신 러닝의 정확도라고 할 수 있습니다.

반응형