SW/머신러닝

머신 러닝 : Random Forest 특징, 개념, 장점, 단점

얇은생각 2020. 1. 3. 07:30
반응형

Random Forest

Random Forest

여러 의사 결정 나무를 생성한 후에 다수결 또는 평균에 따라 출력 변수를 예측하는 알고리즘입니다. 즉 의사 결정 나무와 bagging을 혼합한 형태라고 볼 수 있습니다.

 

Random Forest의 특징

부트스트랩을 이용하여 학습 집하에서 다양한 샘플을 추출합니다. 입력 변수 중 일부의 입력 변수만 사용합니다. 데이터 샘플링 및 변수 선택을 통해 의사 결정 나무의 다양성을 확보합니다. 

 

Variable Importance ( 변수 중요도 )

회귀 또는 분류 문제에서 속성 또는 변수의 중요성의 순위를 매길 수 있습니다. Decision Tree에서는 노드 t에서 속성 xi가 혼잡도를 얼마나 줄일 수 있는 지에 대해서 알 수 있습니다. 

Random forest는 여러 개의 나무로 구성되어 있습니다. 그 안에서 속성 Xi가 여러번 등장하게 됩니다. 각 나무의 노드 t에서 속성 Xi를 사용했을 때 도출된 information gain을 가중 평균으로 구해, Xi의 중요성을 도출하는 것이 핵심 아이디어 입니다. 

변수에 대한 중요도는 제공합니다. 그러나 어떤 변수까지 선택해야하는 지에 대해서는 제공하지 않습니다. 

 

Random Forest 장점

예측의 변동성이 줄어들며, 과적합을 방지합니다. 결측치에 대해 강건합니다. 결측치의 비율이 높아져도 높은 정확도를 나타냅니다. 변수의 중요성을 파악할 수 있습니다.

 

Random Forest 단점

데이터의 수가 많아지면 의사 결정나무에 비해 속도가 크게 떨어집니다. 결과에 대한 해석이 어려운 단점이 있습니다. 

반응형