숫자 데이터로 작업 할 때 가장 일반적인 문제는 크기의 차이에 관한 것입니다. 첫 번째 강의에서 언급했듯이 이 문제에 대한 쉬운 해결 방법은 표준화입니다. 이 용어에 다른 용어로 기능 확장 및 정규화가 있습니다. 머신 러닝 내에서도 몇 가지 추가 개념을 참조 할 수 있습니다. 이것이 바로 표준화 및 정규화 또는 기능 확장이라는 용어를 고수하는 이유입니다.
작업중인 데이터를 표준 규모로 변환하는 프로세스입니다. 이 문제에 접근하는 매우 일반적인 방법은 다음과 같습니다. 평균을 빼고 표준 편차로 나누면 데이터 셋에 관계없이 항상 평균이 0 인 분포를 얻을 수 있습니다.
예를 사용하면 알고리즘을 쉽게 증명할 수 있는 1의 표준 편차인 데이터가 있습니다. 입력 변수 유로 달러 환율과 일일 거래량을 3 일 동안의 관측치로 가지고 있습니다.
첫 번째 값은 유로 달러 환율, 두 번째 값은 일일 거래량을 보여줍니다. 이 수치를 표준화하고 다른 유로 달러 환율에 대한 유로 달러 환율을 표준화합니다.
평균은 1.3. 위에서 언급한 변환을 통해 5에 대한 표준 편차 영점 0은 0.07 0.96과 마이너스 1.03이되는 반면, 거래량을 표준화하면 마이너스 0.25 마이너스 0.5 이런 식으로 매우 다른 척도의 수치를 비슷하게 보이도록 할 수 있습니다.
그래서 표준화의 또 다른 이름이 기능 척도인 이유입니다. 이렇게하면 선형 조합이 두 변수를 동일하게 처리 할 수 있습니다. 거래량의 변화를 통해 거래량을 십만, 구만팔천칠백, 십삼억오천은 -0.25, -0.85, 1.1 이런 식으로 세 번째 항은 평균보다 상당히 높습니다.
첫 번째 항은 평균에 가깝지만 하루에 135만이라고 할 수 있습니다. 높은 수치입니다. 9만 9천 7백은 낮지만 3 개의 관찰이 갖는 단순화를 의미합니다. 그냥 예일뿐입니다. 표준화 외에도 다른 대중적인 방법도 있습니다.
너무 자세히 공부하지 않고도 도입할 수 있습니다. 정규화는 몇 가지 개념을 의미하며, 머신 러닝에서 흔히 등장하는 그 중 하나는 L2 표준을 사용하여 각 샘플을 단위 길이 벡터로 변환하는 것으로 구성되며 또 다른 전처리 방법은 주성분 분석을 위한 PCA입니다.
동일한 더 큰 개념 또는 잠재 변수를 참조하는 여러 변수로 작업 할 때 사용됩니다. 다른 협회와 양육에 대한 종교 투표 역사 참여에 대한 데이터는 이민에 대한 태도를 반영하기 위해 이 네 가지를 결합 할 수 있습니다.
이 새로운 변수는 일반적으로 평균이 0 인 범위에서 표준화되며 하나의 화이트닝의 표준 편차는 또 다른 기술입니다. 이는 종종 pca 후에 수행되며 데이터 포인트 간의 기본 상관 관계 대부분을 제거합니다. 화이트닝은 데이터가 상관 관계가 없어야 하지만 관측에 반영되지 않은 경우 유용 할 수 있습니다.
각각 모든 전략들을 다룰 수는 없습니다. 그러나 표준화는 가장 일반적인 것이며 앞으로 포스팅에서도 접하게 되고 실제 예제에서 사용할 것입니다. 범주형 데이터를 처리하는 방법을 살펴 보겠습니다.
'SW > 딥러닝' 카테고리의 다른 글
41. 딥러닝 : 원핫, 바이너리 인코딩 : 개념, 차이, 장단점, 적용 차이 (0) | 2020.09.02 |
---|---|
40. 딥러닝 : Categorical Data (범주형 데이터) : 개념, 필요성, 종류 (0) | 2020.08.30 |
38. 딥러닝 : Basic Preprocessing (기본 전처리) : 개념, 사용, 예시 (0) | 2020.08.28 |
37. 딥러닝 : Preprocessing (전처리) : 개념, 목적 (0) | 2020.08.27 |
36. 딥러닝 : Adaptive Moment Estimation : 개념, 분석, 개요 (0) | 2020.08.23 |