R : 군집화-Clustering, 분류-Classification (개념 및 예제)

SW/R

R : 군집화-Clustering, 분류-Classification (개념 및 예제)

얇은생각 2019. 3. 13. 12:30

군집화(Clustering)

대상 데이터를 일부 카테고리(클래스)로 그룹화하는 것을 뜻합니다. 같은 그룹의 데이터는 비슷한 특징을 가지고 있습니다. 따라서 그룹이 1에 얼마나 "근접"하고 있는가를 근거로 군집을 가리킵니다. 보통 비지도 학습(Unsupervised learning)에서 활용됩니다.

R : 군집화-Clustering, 분류-Classification (개념 및 예제)

분류(Classification)

새로운 데이터를 알려진 범주 중 하나로 분류하는 것을 뜻합니다. 카테고리에는 "라벨"을 보유합니다. 현실에서는 예측 문제에서 적용하고 있습니다. 주로 지도 학습(Supervised learning)에서 활용합니다.

R : 군집화-Clustering, 분류-Classification (개념 및 예제)

분류분석 절차

1. 라벨(클래스) 정보가 있는 대상 데이터셋을 준비한다.

2. 대상 데이터셋을 트레이닝 데이터 및 테스트 데이터로 나눈다. - 테스트 데이터의 라벨은 모른다고 가정한다.

3. 테스트 데이터를 이용해 모델을 트레이닝한다.

4. 학습모델을 이용한 테스트 데이터의 클래스 라벨을 예측한다.

5. 예측 정확도를 평가한다.

Binary vs multiple classification

분류는 크게 분류하는 기준이 2개인 경우와 다수인 경우로 나누어집니다.

R : 군집화-Clustering, 분류-Classification (개념 및 예제)

Binary Classification Error

실제 값과 예측 값을 비교하여 총 4가지의 경우로 나눌 수 있습니다. 그리고 유효한 경우와 유효하지 않은 경우를 통해 정확도를 나타낼 수 있습니다. 아래 그림을 참조하세요.

R : 군집화-Clustering, 분류-Classification (개념 및 예제)

이진 분류 오류에는 Sensitivity(민감도)와 Specificity(특이도)에 대한 개념이 있습니다.

Sensitivity= TP/(TP+FN)

Specificity= TN/(TN+FP)

Sensitivity(민감도)

- 정확히 예측한 클래스에서 클래스(true)의 모든 fraction을 의미한다.

- 우리가 찾고 있는 것을 찾는 데 얼마나 능숙한가에 대한 기준입니다.

Specificity(특수성)

- 실제 클래스(false)에서 예측한 false 정도를 나타내는 분수를 의미합니다.

– 클래스(false) 중 몇 개를 클래스(true)에서 걸러내는가에 대한 기준입니다.

어떤 평가기준이라도 값이 클수록 좋습니다.

저작자표시 (새창열림)

'SW > R' 카테고리의 다른 글

R : KNN classification (개념 및 예제) (0)	2019.03.15
R : k-means clustering- 군집화 ( 개념 및 예제 ) (0)	2019.03.14
R : 로지스틱 회귀 ( 개념 및 예제 ) (0)	2019.03.12
R : 중선형 회귀 분석 (개념 및 예제) (0)	2019.03.11
R : 데이터 마이닝과 단순 선형 회귀 (개념 및 예제) (0)	2019.03.10

현재글R : 군집화-Clustering, 분류-Classification (개념 및 예제)

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

쵸코쿠키의 연습장