SW/머신러닝

머신러닝 : Bagging (배깅) : 개념, 공식, 기능

얇은생각 2019. 12. 30. 07:30
반응형

Bagging이란

앙상블의 종류로는 크게 bagging, boosting, random forest가 있습니다. 먼저 Bagging에 대해 알아보았습니다.

Bagging이란 bootstrap 의 aggregating의 약자입니다. 부트스트랩을 이용해 추출한 데이터 집합들이 동일한 가중치를 갖는 모델입니다.

즉, 부투스트랩을 이용하여 샘플을 복원 추출하는 방법입니다. 부트스트랩 샘플의 크기가 전체 학습 집합의 크기와 같은 경우가 있습니다. 약 63.2%의 학습 데이터가 중복 포함됩니다.

bagging 방법

 

Bagging이란

출력 데이터가 범주형인 경우 bagging을 수학적으로 표현하면 아래와 같습니다. 

 

출력 변수가 연속형인 경우에는 어떨까요? bagging을 수학적으로 표현함면 아래와 같습니다.

bagging을 통해 예측하는 출력 변수를 뜻합니다. B는 부트스트랩을 통해 추출한 샘플의 수를 뜻합니다. f^b(x)는 각각의 샘플에 대해 예측한 출력 변수입니다.

이러한 bagging은 간단한 선형 모형을 사용했음에도 모든 데이터에 대해 정확한 분류가 가능하기도 합니다.

반응형