SW/머신러닝

머신 러닝 : 기계 학습 : 쉬운 용어로 이해하기

얇은생각 2023. 4. 10. 07:30
반응형

분석이 ML과 어떻게 관련이 있는지 설명하겠습니다. 머신러닝과 관련된 몇 가지 말도 안 되는 말들을 해독하고 ML의 프로세스와 유형을 설명하겠습니다.

분석이 머신러닝과 어떻게 관련이 있는지 설명하겠습니다. ML에 관한 몇 가지 말도 안 되는 말들을 해독하고, 기계 학습의 과정과 유형을 설명하려고 노력할 것입니다. 마지막으로, 다음 단계의 인공지능 - 딥 러닝을 설명하는 몇 개의 비디오를 공유할 것입니다.

인공지능 전문가가 아니더라도 걱정하지 마십시오. 선형 회귀 및 K-평균 클러스터링에 대해서는 다시 언급하지 않겠습니다. 이것은 쉬운 영어로 된 기사입니다.

 

 

분석 및 기계 학습

빅 데이터는 SQL 쿼리와 테라바이트급 데이터의 전부라고 생각해도 무방하겠지만, 진정한 목적은 통찰력을 확보하여 데이터에서 가치를 추출하는 것입니다. 데이터에서 유용한 것을 찾기 위해섭니다. 예를 들어, "가격을 5% 낮추면 판매량을 10% 늘릴 것입니다."

주요 기술은 분석이며, 여기에는 다음이 포함됩니다: 

설명적 분석: 무슨 일이 있었는지 확인하려고요? 여기에는 일반적으로 발생한 상황을 설명하는 데 도움이 되는 보고서가 포함됩니다. 예를 들어, 이번 달 매출을 작년 동기와 비교하는 것입니다.

진단 분석: 일반적으로 OLAP 기능이 있는 대시보드를 사용하여 데이터를 조사하고 상관 관계를 찾기 위한 데이터 마이닝 기술을 사용합니다.

예측 분석: 발생할 수 있는 상황을 추정하려고 시도합니다. 예측 분석을 사용하여 귀하의 직책, 관심사 및 다른 사람과의 연결을 바탕으로 귀하를 이 기사의 잠재적인 독자로 선정했을 가능성이 높습니다.

기계 학습(ML)은 예측 분석 분야에 적합합니다.

 

 

 

기계 학습이란

기계 학습은 기계가 과거의 경험으로부터 학습하는 인공지능의 하위 집합입니다. 데이터. 개발자가 모든 잠재적 조건을 예측하고 코딩해야 하는 기존 프로그래밍과 달리 머신러닝 솔루션은 데이터를 기반으로 출력을 효과적으로 조정합니다.

머신 러닝 알고리즘은 문자 그대로 코드를 작성하는 것이 아니라, 세계의 컴퓨터 모델을 구축하고, 이를 어떻게 훈련시키는지에 따라 수정합니다.

"컴퓨터가 바둑에서 인간을 이기기까지는 100년이 걸릴지도 모릅니다."— 뉴욕 타임즈, 1997

 

작동 방법

스팸 필터링 소프트웨어가 좋은 예입니다. 기계 학습 기술을 사용하여 수백만 개의 메일 메시지에서 스팸을 식별하는 방법을 학습합니다. 패턴을 식별하는 데 도움이 되는 통계적 기법을 사용하여 작동합니다.

예를 들어, "싸다"와 "비아그라"라는 단어가 포함된 100개의 이메일 중 85개가 스팸 메시지인 것으로 밝혀진다면, 85%의 확신을 가지고 그것들이 정말 스팸이라고 말할 수 있습니다. 이것을 다른 여러 지표(예: 메일을 전혀 받지 않은 보낸 사람으로부터)와 결합하고 알고리즘을 10억 개의 다른 전자 메일과 비교하여 테스트하면 시간이 지남에 따라 신뢰도와 정확도를 향상시킬 수 있습니다.

실제로 Google은 발송된 스팸의 약 99.99%를 중지한다고 밝혔습니다.

"마스터 오브 바둑 게임은 구글 컴퓨터 프로그램에 의해 월롭됩니다." — 뉴욕 타임즈, 2016

 

 

기계 학습 예제

말 그대로 다음을 포함하여 이미 수백 개의 애플리케이션이 있습니다.

타깃 마케팅: 구글과 페이스북이 개인의 관심사를 바탕으로 광고를 공략하고, 넷플릭스가 볼 만한 영화를 추천하고, 아마존이 살 만한 상품을 추천하는 데 사용합니다.

신용 점수: 은행은 대출 불이행 여부를 예측하기 위해 소득 데이터(당신이 사는 곳에서 추정), 나이 및 결혼 상태를 사용합니다.

카드 부정 행위 탐지: 이전의 가능한 소비 습관에 따라 온라인에서 신용 카드 또는 직불 카드의 부정 사용을 중지하는 데 사용됩니다.

바스켓 분석: 수백만 명의 유사한 고객의 구매 습관을 바탕으로 어떤 특별 제안을 사용할 가능성이 더 높은지 예측하는 데 사용됩니다.

한 가지 논란의 여지가 있는 사례에서, 미국 소매업체 Target은 25개의 서로 다른 건강 및 화장품 제품에 대한 바스켓 분석을 사용하여 출산 예정일을 포함한 임신을 놀라운 정확도로 성공적으로 예측했습니다. 어린 소녀의 아버지가 그녀가 임신과 관련된 특별 제안을 받은 후 타겟이 십대 엄마들을 격려하고 있다고 불평했습니다. 그는 나중에 소매상이 자신보다 더 많이 알고 있다는 것을 알았을 때 사과했습니다.

 

 

필요한 것

효과적으로 데이터에서 상관 관계를 찾고 있지만 결과를 확인하려면 도메인 전문가가 필요합니다. 네, 컴퓨터는 정말 멍청합니다. 패턴을 찾을 수 있지만, 그것이 관련이 있는지는 전문가만이 확인할 수 있습니다. 요약하면 다음이 필요합니다: 

목표: 해결하려는 문제입니다. 예를 들어, 이 신용카드를 도난당했나요? 주가가 오를까요, 내릴까요? 고객이 가장 재미있게 볼 영화는 무엇입니까?

많은 데이터예를 들어, 주택 가격을 정확하게 예측하려면 광범위한 부동산 세부 정보와 함께 상세한 과거 가격이 필요합니다.

전문가: 생성된 결과를 확인하고 모델이 충분히 정확한지 확인하려면 정답을 이해하는 도메인 전문가가 필요합니다.

패턴: 데이터에서 패턴을 찾고 있습니다. 패턴이 없으면 데이터가 잘못되었거나 불완전하거나 패턴이 전혀 없을 수 있습니다.

 

 

실수로부터 배우기: 기계 학습의 유형

예측 분석은 과거 데이터를 기반으로 미래의 결과를 예측하려고 하며, 가장 일반적인 방법은 지도 학습이라고 합니다.

 

기계 학습의 유형은 다음과 같습니다: 

지도 학습: 과거 데이터의 정답을 알고 있지만 미래의 결과를 예측해야 할 때 사용됩니다. 예를 들어, 과거 주택 가격을 사용하여 현재 및 미래 가치를 예측할 수 있습니다. 시행착오 기반 통계 개선 프로세스를 효과적으로 사용하는 기계는 감독자가 제공한 값 집합에 대해 결과를 테스트함으로써 점차 정확도를 향상시킵니다.

비지도 학습: 명확한 정답은 없지만 데이터에서 새로운 것을 발견합니다. 대부분 데이터를 분류하거나 그룹화하는 데 사용됩니다. 예를 들어 Spotify에서 음악을 분류하여 들을 수 있는 앨범을 추천하는 데 도움이 됩니다. 그런 다음 청취자를 분류하여 라디오헤드 또는 저스틴 비버를 들을 가능성이 더 높은지 확인합니다. 

강화 학습: 도메인 전문가가 필요하지 않지만 사전 정의된 목표를 향해 지속적인 개선이 필요합니다. 이것은 신경망을 자주 사용하는 기술입니다. 예를 들어, 아파고가 자신을 상대로 수백만 게임의 바둑을 두어서 결국 세계 챔피언이 된 딥마인드입니다.

 

 

기계 학습 프로세스

체스를 배우는 기계에 대한 미래적인 이미지와 달리, 대부분의 기계 학습은 (현재) 상당히 힘들며 아래 다이어그램에 설명되어 있습니다:

 

 

미래에는 특히 데이터 수집 및 정리 영역에서 프로세스 속도를 높이는 데 도움이 되는 머신러닝이 적용될 가능성이 높지만 주요 단계는 다음과 같습니다: 

문제를 정의: 다른 기사에서 지적했듯이, 항상 명확하게 정의된 문제와 목표를 염두에 두고 시작하십시오.

데이터 수집: 적절한 데이터의 볼륨과 다양성이 커질수록 기계 학습 모델은 더 정확해질 것입니다. 이 정보는 상용 데이터 소스뿐만 아니라 스프레드시트, 텍스트 파일 및 데이터베이스에서도 얻을 수 있습니다.

데이터 준비: 여기에는 데이터 분석, 청소 및 이해가 포함됩니다. 특이치 제거 또는 수정합니다. 이 작업은 종종 전체 시간과 노력의 60% 이상을 차지합니다. 그런 다음 데이터는 교육 및 테스트 데이터라는 두 개의 다른 부분으로 분리됩니다.

모델 교육: 일련의 교육 데이터에 대해 - 반복 시행착오 개선 방법을 사용하여 정확도를 점진적으로 향상시키면서 데이터의 패턴이나 상관 관계를 식별하거나 예측하는 데 사용됩니다.

모형 평가: 검사 데이터 집합과 결과의 정확도를 비교합니다. 편향되지 않고 독립적인 검정을 보장하기 위해 시스템을 교육하는 데 사용되는 데이터와 비교하여 모형을 평가하지 않는 것이 중요합니다.

배포 및 개선: 완전히 다른 알고리즘을 시도하거나 더 다양한 데이터 또는 볼륨을 수집하는 것이 포함될 수 있습니다. 예를 들어, 주택 소유자가 제공한 데이터를 사용하여 후속 주택 개선의 가치를 추정함으로써 주택 가격 예측을 개선할 수 있습니다.

요약하자면, 대부분의 기계 학습 과정은 사실 순환적이고 지속적입니다. 추가적인 데이터가 추가되거나 상황이 바뀌기 때문입니다. 세상은 결코 가만히 있지 않고 항상 개선의 여지가 있기 때문입니다.

 

 

요약

아래 다이어그램은 기계 학습 시스템에서 사용되는 주요 전략을 보여줍니다.

 

 

결론적으로, 모든 기계 학습 시스템의 중요한 구성 요소는 데이터입니다. 추가 알고리즘, 현명한 프로그래밍 및 보다 정확한 데이터의 대량 선택이 가능하므로 빅 데이터가 매번 승리합니다.

또한 Google’s Deep Mind에 있는 이 14분짜리 비디오에 관심이 있을지도 모릅니다. 이 비디오는 케임브리지에 기반을 둔 과학자들이 Space Invaders를 포함한 컴퓨터 게임에서 이기기 위해 강화 학습을 사용하는 인공지능 시스템을 어떻게 개발했는지 설명합니다. 1980년대 영화 "War Games"을 매우 연상시킵니다 

이 방법이 도움이 된다면 제 웹 사이트에서 빅 데이터, 클라우드 컴퓨팅, 데이터베이스 아키텍처 및 데이터 웨어하우징의 미래에 대한 더 많은 기사를 볼 수 있습니다. www.Analytics.Today

반응형