SW/딥러닝

37. 딥러닝 : Preprocessing (전처리) : 개념, 목적

얇은생각 2020. 8. 27. 20:00
반응형

전처리

머신 러닝 알고리즘 생성을 시작할 때 수행해야하는 첫 번째 활동에 관한 것이며, 전처리는 모델을 통해 실행하기 전에 데이터 세트에 적용하는 모든 조작을 의미합니다.

이미 훈련에 적합하게 데이터를 사전 처리했습니다. 텐서플로우 인트로에서 이미 일부 사전 처리를 보았고 수행 한 모든 훈련을 PC 파일로 저장했습니다.

Excel 파일 csv 또는 NPC 파일에 저장하는 것은 전처리의 한 유형이지만 이전과 같이 순서를 변경하는 것보다 주로 데이터 변환에 중점을 두고 알아보겠습니다.

 

전처리의 목적

몇 가지 중요한 사항이 있습니다. 하나는 이전 10 분의 1에서 본 라이브러리와의 호환성 또는 Excel 스프레드 시트 및 데이터 과학이 아닌 텐서플로우에 관한 것입니다. 종종 어떤 형식 으로든 데이터가 제공되며 호환되도록 만들어야합니다.

 

 

두 번째로 다른 규모의 입력을 조정해야 할 수도 있습니다. 작업하는 입력 중 하나가 유로 달러 환율이 하루의 끝이라면 외환 거래 자라고 가정해 보겠습니다. 또 다른 입력은 100000 이상의 가치를 가질 수 있는 일일 거래량입니다. 분명히 규모의 차수가 상당히 다릅니다.

이러한 다른 기술에 기반한 숫자의 선형 조합은 순전히 수학적 용어에서 문제가 됩니다. 모든 입력이 벡터 또는 행렬의 동일한 기초에 있기 때문에 알고리즘은 1 주변의 모든 값을 무시할 가능성이 높습니다. 이 값은 본질적으로 유로 달러 환율 자체를 나타냅니다. 따라서 종종 거래량보다 더 중요합니다.

세 번째 이유는 일반화입니다. 다른 문제의 입력데이터는 표준화하는 유사한 모델을 통해 다른 것처럼 보이는 문제를 해결할 수 있습니다. 똑같은 모델을 재사용합니다. 때로는 이미 훈련 된 네트워크를 재사용 할 수 있는 경우가 있습니다. 이전에 모델을 훈련했다고 가정해보면 새로운 문제에 직면합니다. 모델을 테스트하면 매력적으로 작동합니다. 머신 러닝에서는 드문 일이 아닙니다.

다음 몇 포스팅에서는 이러한 개념에 중점을두고 몇 가지 전처리 기술에 대해 공부해볼 것입니다.

반응형