SW/머신러닝

머신러닝 : 앙상블 개요, 장점, 정의

얇은생각 2019. 12. 29. 07:30
반응형

앙상블 개요

다수의 데이터 집합에 대해서 각각의 분류기(CLAssifier)를 학습합니다. 학습이 진행된 분류기의 예측을 결합하여 사용하는 방법을 앙상블이라고 합니다. 

다수의 데이터 집하에 대래 분류를 진행합니다. 전체 데이터 집합에 비해 크기가 줄어 가각의 샘플 데이터 집합에서 과적합이 발생합니다. 그러나, 앙상블은 각각의 예측 결과를 다수결을 이용행 결합합니다. 그 과정을 통해, 과적합의 오류를 줄여주는 효과를 만들어 냅니다. 

즉, 앙상블은 다양한 분류기의 예측 결과를 결합하여 단일 분류기보다 신뢰성이 높은 예측 값을 얻을 수 있습니다. 

 

 

앙상블의 장점

데이터 마이닝에 있어 데이터 수집은 가장 기본적입니다. 하지만 힘든 작업 중 하나입니다. 이러한 앙상블은 데이터가 적거나 많은 경우에 대한 해결책을 제시해줍니다. 

데이터가 많은 경우 계산 속도 상의 문제로 단일 분류기를 통한 학습이 힘들 수 있습니다. 데이터를 적절히 나누어 여러 분류기를 통해 학습하는 것이 효과적입니다. 

데이터가 적은 경우, 여러 데이터 마이닝 모형에서 학습이 제대로 이루어지지 않습니다. 부트스트랩 샘플을 이용해, 여러 분류기를 이용하는 것이 효과적입니다. 

약한 분류기를 통해서 복잡한 학습이 가능합니다. 약한 분류기란 최소한 성능이 좋은 분류기를 의미합니다. 즉 에러율이 0.5 이하인 것들을 의미합니다. 성능이 좋은 단순한 선형 분류기를 통해서 비선형으로 이루어진 복잡한 문제 역시 해결이 가능합니다. 

비선형으로 이루어진 복잡한 문제도 비교적 간단한 원의 조합을 통해 복잡한 분류가 가능합니다. 

반응형