군집화(Clustering)
대상 데이터를 일부 카테고리(클래스)로 그룹화하는 것을 뜻합니다. 같은 그룹의 데이터는 비슷한 특징을 가지고 있습니다. 따라서 그룹이 1에 얼마나 "근접"하고 있는가를 근거로 군집을 가리킵니다. 보통 비지도 학습(Unsupervised learning)에서 활용됩니다.
분류(Classification)
새로운 데이터를 알려진 범주 중 하나로 분류하는 것을 뜻합니다. 카테고리에는 "라벨"을 보유합니다. 현실에서는 예측 문제에서 적용하고 있습니다. 주로 지도 학습(Supervised learning)에서 활용합니다.
분류분석 절차
1. 라벨(클래스) 정보가 있는 대상 데이터셋을 준비한다.
2. 대상 데이터셋을 트레이닝 데이터 및 테스트 데이터로 나눈다. - 테스트 데이터의 라벨은 모른다고 가정한다.
3. 테스트 데이터를 이용해 모델을 트레이닝한다.
4. 학습모델을 이용한 테스트 데이터의 클래스 라벨을 예측한다.
5. 예측 정확도를 평가한다.
Binary vs multiple classification
Binary Classification Error
실제 값과 예측 값을 비교하여 총 4가지의 경우로 나눌 수 있습니다. 그리고 유효한 경우와 유효하지 않은 경우를 통해 정확도를 나타낼 수 있습니다. 아래 그림을 참조하세요.
이진 분류 오류에는 Sensitivity(민감도)와 Specificity(특이도)에 대한 개념이 있습니다.
Sensitivity= TP/(TP+FN)
Specificity= TN/(TN+FP)
Sensitivity(민감도)
- 정확히 예측한 클래스에서 클래스(true)의 모든 fraction을 의미한다.
- 우리가 찾고 있는 것을 찾는 데 얼마나 능숙한가에 대한 기준입니다.
Specificity(특수성)
- 실제 클래스(false)에서 예측한 false 정도를 나타내는 분수를 의미합니다.
– 클래스(false) 중 몇 개를 클래스(true)에서 걸러내는가에 대한 기준입니다.
어떤 평가기준이라도 값이 클수록 좋습니다.
'SW > R' 카테고리의 다른 글
R : KNN classification (개념 및 예제) (0) | 2019.03.15 |
---|---|
R : k-means clustering- 군집화 ( 개념 및 예제 ) (0) | 2019.03.14 |
R : 로지스틱 회귀 ( 개념 및 예제 ) (0) | 2019.03.12 |
R : 중선형 회귀 분석 (개념 및 예제) (0) | 2019.03.11 |
R : 데이터 마이닝과 단순 선형 회귀 (개념 및 예제) (0) | 2019.03.10 |