사전 처리를 시작하기 전에 잠시 데이터 세트 밸런싱의 중요성에 대해 이야기 하겠습니다. 두 클래스 고양이와 강아지의 사진 분류 문제에 대해 생각해 보겠습니다. 좋은 모델에서 기대하는 정확도는 어느 정도일까요? 사진의 70%를 정확하게 분류한다면 그리 나쁘지 않을 것입니다. 80%의 정확도는 좋은 반면 90%는 초보자에게 매우 좋습니다. 구글과 페이스북의 분류가 대부분의 문제에서 99.9퍼센트 정확도를 달성하는 것에 대해 말하는 것이 아닙니다. 90% 정확도는 인상적인 성과입니다. 이제 알고리즘에 무엇을 먹이든 동물 사진을 찍고 고양이만 출력하는 모델을 상상해 보세요. 항상 정답으로 고양이를 출력합니다. 좋은 모델은 그렇지 않아요. 이 기계에게 물어볼 수 있을 까요? 원하는 기계 학습 알고리즘의 결과는 분..