SW/딥러닝

40. 딥러닝 : Categorical Data (범주형 데이터) : 개념, 필요성, 종류

얇은생각 2020. 8. 30. 20:00
반응형

40. 딥러닝 : Categorical Data (범주형 데이터) : 개념, 필요성, 종류

 

대부분은 거래량, 가격 등을 거래하는 수치 변수의 예를 알아보았습니다. 짧은 범주형 데이터도 다루어야 합니다. 종종 우리의 고양이 개 예제와 같은 그룹 또는 범주를 참조합니다. 알고리즘은 값이 아닌 숫자만 취하므로 범주형 데이터로 작업 할 때 문제는 범주를 숫자로 변환하는 방법이 필요합니다. 모델 또는 출력에 입력할 수 있어야 합니다. 결국에는 분명히 다른 숫자의 의미가 연관되어야합니다. 

 

 

 

40. 딥러닝 : Categorical Data (범주형 데이터) : 개념, 필요성, 종류

 

각 범주에 의미에 대해 알아보겠습니다. 우리 가게에 빵 요구르트와 머핀 세 가지 제품이 있다고 가정해보겠습니다. 이제 이러한 범주를 숫자로 어떻게 변환 할 수 있을까요? 가능한 해결책은 다음과 같이 열거하는 것입니다.

빵, 요구루트, 머핀은 각 1개, 2개, 3개가 있습니다. 이것은 주문이 있음을 의미합니다. 머핀이 빵, 요구르트보다 많다고 하는 것과 같습니다.

가격에 대해 생각해 보겠습니다. 1달러, 2달러, 3달러는 1달러 3개는 3달러와 같습니다. 같은 논리를 사용하면 빵의 3배가 머핀 1개와 같다고 하면 이해가 될까요? 빵에서 머핀으로 이동하는 또 다른 수준의 모호함이 있습니다.

요거트는 궁극적으로 데이터에 순서가 있다고 가정하지만 데이터가 카테고리로 나눌 때 일반적으로 문제가 됩니다. 가게에 있는 제품에 대해, 다른 자동차 브랜드나 사람에 대해 생각해보십시오. 

 

 

40. 딥러닝 : Categorical Data (범주형 데이터) : 개념, 필요성, 종류

 

이러한 카테고리는 머신 러닝 알고리즘에 유용하게 사용할 수 있습니다. 두 가지 주요 방법이 채택됩니다. 첫 번째 방법은 원 핫 인코딩과 이진 인코딩입니다. 다음 포스팅에서 범주형 데이터 수행 방법에 대해 알아보도록 하겠습니다.

반응형