SW/딥러닝

50. 딥러닝 : 사용자 예측 사례 : 이용자가 물품을 재구매하는 지 예측 방법

얇은생각 2020. 9. 16. 07:30
반응형

50. 딥러닝 : 사용자 예측 사례 : 이용자가 물품을 재구매하는 지 예측 방법

 

안녕하세요. 기본적인 비즈니스 사례에 대해 알아보겠습니다. 이미 알고있는 모든 것을 단순히 적용하는 것입니다.

문제가 있습니다. 오디오 북 앱을 논리적으로 데이터베이스의 각 고객이 최소 한 번 이상 구매 한 도서의 오디오 버전과 관련된 데이터가 있습니다. 데이터를 기반으로 머신 러닝 알고리즘을 만들어 고객은 오디오 북 회사에서 다시 구매할 것을 예측합니다.

주된 아이디어는 회사가 돌아올 가능성이 없는 개인을 대상으로 광고 예산을 지출해서는 안된다는 것입니다. 다시 전환 할 가능성이있는 고객에게 노력을 집중할 수 있다면 매출 및 수익성 개선 수치를 얻을 수 있습니다. 따라서 모델은 몇 가지 측정 항목을 취하고 인간 행동을 예측하려고 노력할 것입니다.

모델이 고객이 돌아 오는 데 가장 중요한 측정 항목이 무엇인지 보여줄 것이라는 점입니다. 잠재 고객을 식별하는 데이터와 기술은 많은 가치와 성장 기회를 창출합니다. 데이터 과학의 더 나은 응용 프로그램 중 하나입니다. 여기에 데이터가 있습니다.

 

 

 

50. 딥러닝 : 사용자 예측 사례 : 이용자가 물품을 재구매하는 지 예측 방법

 

모델을 학습 할 때 각 행은 사람을 나타냅니다. 열을 살펴보고 각 열이 사용 가능한 이유를 살펴 보겠습니다. 먼저 고객 ID가 있습니다ID에 정보가 포함되어 있지 않으므로 차이가 없습니다. 알고리즘에서 건너 뛸 것입니다. 다음으로 전체 책 길이는 모든 구매 길이의 합이고, 평균 책 길이는 기본적으로 구매 횟수로 나눈 평균 책 길이입니다. 

만약 누군가가 하나의 오디오 북을 구입했다면 이 사람의 평균 길이와 전체 길이는 괜찮을 것입니다. 방금 설명한 두 가지 변수에 포함되어 있으므로 구매 횟수를 포함 할 필요가 없습니다. 이 변수들은 책 길이와 동일한 방식으로 구성되었으며, 가격은 알고리즘에 차이는 없지만 달러 단위입니다. 그런데 가격 변수는 거의 항상 행동을 예측하는 좋은 지표입니다. 

다음 변수는 review입니다. Review는 부울입니다. 고객이 리뷰를 남겼는지 보여줍니다. 이는 플랫폼에 대한 참여도를 보여주는 측정 항목입니다. 리뷰를 남긴 사람들이 다시 전환 할 가능성이 더 높다고 가정합니다. 이것은 다른 변수입니다. 1부터 10까지의 척도로 고객에 대한 리뷰를 측정합니다. 여기에서 첫 번째 사전 처리 트릭을 보여 주므로 여기에 주의를 기울입니다.

논리적으로 가치만 가질 것입니다. 테이블을 검토하여 리뷰를 남긴 사람들을 위해 대부분의 사람들이 리뷰를 남기지 않는 것을 빠르게 볼 수 있습니다. 대부분의 마켓 플레이스에서 그렇듯이 이는 데이터 세트에 좋지 않고 일반적으로 좋지 않습니다. 평판에 게시된 리뷰를 남겨두고 모든 누락 된 값을 평균 리뷰로 대체하기로 결정했다고 말하면 평균은 기계 학습 알고리즘에 대해 8점, 9점, 1점입니다.

8점, 9점, 1점은 현재 상태가 8 점 이상임을 의미합니다. 9점, 1점은 평균 이상의 감정을 나타내는 반면, 8점, 9점 미만의 리뷰는 평균 이하의 느낌을 나타냅니다. 리뷰는 평균적인 또 다른 변수입니다. 고객은 플랫폼에서 2 ~3 권의 책을 구매했을 수 있으며, 남긴 평균 리뷰는 매체의 콘텐츠에 대한 감정 또는 매체 전체에 대한 느낌을 나타냅니다. 평균 10 점 만점에 2점은 그 사람이 즐거운 경험이 없었음을 나타냅니다.

특히 평균이 8, 9, 1일 때 그런 고객이 다시 구매할 가능성이 없다는 것이 논리적입니다. 여기에서 총 시간이 단축되어 그 옆에 있는 참여도를 측정합니다. 사람들이 책을 읽지 않는다고 가정하고 구매한 책의 총 길이로 나눈 총 시간 () 입니다. 두 변수는 자명합니다. 다음 변수는 지원 요청이며 숫자이며, 그 사람이 가지고 있는 총 지원 요청 수를 보여줍니다. 지원이란 암호를 잊은 것부터 플랫폼 사용에 대한 지원에 이르기까지 모든 것을 의미합니다.

이는 참여의 척도입니다. 사람이 더 많은 지원을 필요로 할 수록 더 많이 또는 그녀는 플랫폼에 싫증이 나거나 플랫폼을 포기했거나 너무 좋아해서 앱을 사용하면 다른 문제가 발생합니다. 앱을 열지 않은 사람과 달리 마지막으로 사람이 마지막으로 상호 작용 한 시간의 차이를 측정하는 변수가 있습니다. 플랫폼과 첫 구매 일자 참여의 또 다른 척도입니다. 차이가 클수록 좋습니다. 사람이 플랫폼에 정기적으로 참여하면 이 차이가 더 커집니다.

따라서 이 변수의 값이 다음과 같으면 고객이 다시 전환 할 가능성이 높습니다. 고객이 자신이 구매한 제품에 액세스할 수 없거나 첫날에만 액세스할 수 없다고 확신합니다. 따라서 다시 전환 할 가능성은 낮습니다. 이것들이 입력입니다. 항상 고민해보아야 합니다. 데이터 수집 방법이 정보는 오디오 북 앱에서 수집 된 데이터를 분석하는 데 유용합니다. 2년 간의 참여를 의미합니다.

이제 지도 학습을 수행하고 있으므로 올바른 목표가 필요합니다. 목표는 사람이 전환하면 부울 1이 되고 전환하지 않으면 0이 됩니다. 하지만 전환이란 무엇을 의미하는지 여기에서 중요한 질문입니다. 2년 후 데이터를 추가로 6개월 동안 전환한 사용자가 2 6개월이 걸렸는지 확인합니다. 처음 2년은 여기에 있는 데이터 세트에 포함되어 있습니다. 다음 6 개월에는 전환 여부가 표시됩니다. 만약 그렇다면 그것들을 전환으로 계산할 수 있고 목표는 1이 될 것입니다. 그렇지 않으면 그것은 0입니다. 그렇게 목표의 열을 만든 방법 6개월이 충분히 합리적으로 들렸습니다.

그 기간동안 새 오디오 북을 사지 않으면, 기회가 경쟁사에 갔거나 정보를 소화하는 오디오 북 방식이 마음에 들지 않습니다. 작업은 간단하게 고객이 다시 구매할 것인지 예측할 수 있는 기계 학습 알고리즘을 생성하는 것입니다. 이것은 두 클래스의 분류 문제로 해결할 수 있습니다. 0 1로 문제 해결을 직접 시도합니다.

반응형