SW/Python

python : 머신러닝 기본 용어 정리

얇은생각 2019. 7. 16. 07:30
반응형



특징, 속성 (feature, attribute)

특징이란 학습 모델로 정답을 도출하기 위해 고려할 데이터를 의미합니다. 의미 있는 특징이 많으면 그만큼 학습이 용이합니다. 일련의 특징을 특징 벡터라고도 합니다. 특징을 속성이라고도 부릅니다. 



레이블, 클래스 (lable, class)

레이블이란 특징 벡터를 머신러닝 모델에 통과 시켰을 때 도출되기를 기대하는 정답입니다. 클래스도 레이블과 같은 의미를 가집니다. 머신러닝 분야에서는 표준 용어가 정립되어 있지 않습니다. 주로 레이블이나 클래스라는 용어를 혼용합니다.



인스턴스, 사례, 샘플 (instance, example, sample)

인스턴스란 학습 데이터에 포함된 하나의 특징벡터를 의미합니다. 지도학습의 경우 레이블이 부여된 특징 벡터가 될 것입니다. 같은 의미로 사례, 샘플이라고도 부릅니다. 



학습 데이터 (train data)

학습 데이터는 학습 모델을 적합화하거나 훈련하는 데 쓸 재료가 되는 데이터입니다. 학습 데이터의 품질이 학습의 성패를 좌우합니다. 지도학습에서의 학습 데이터는 정답을 부여한 특징 벡터의 집합으로 볼 수 있습니다. 



평가 데이터 (test data)

정답을 아는 특징벡터의 집합입니다. 학습된 머신러닝 모델에 이 특징 벡터를 통과시킬 때 정답이 도출되는지 확인하여 학습의 성패를 검증합니다. 



손실, 비용, 오차 (loss, cost, error)

학습 데이터 또는 평가 데이터를 학습 모델에 통과시킬 때 정답과의 괴리 정도를 손실이라 합니다. 학습을 진행함에 따라 손실이 줄어듭니다. 그리고 데이터에 적합화됩니다. 비용과 오차도 같은 의미로 쓰입니다. 



과적합(overfitting)

학습 데이터에 과도하게 적합화하여 학습 데이터에 포함된 샘플을 학습 모델에 통과시킵니다. 그러면, 정답이 많이 도출됩니다. 하지만, 평가 데이터의 샘플에서는 오답이 많이 발생하는 문제를 과적합이라 합니다.

반응형