SW/R

데이터 시대 개념

얇은생각 2019. 1. 9. 07:30
반응형

우리가 R 언어를 본격적으로 학습하기에 앞서서 데이터라는 것이 왜 중요하고 또 데이터를 분석하는 것이 왜 필요한가? 요즘 우리가 살고 있는 이 시대를 설명할 때, 데이터의 시대에 살고 있다. 얼마 전까지만 해도 우리는 정보화 시대에 살고 있다. 거기에서 한발 더 나아가서 데이터의 시대에 살고 있다. 우리가 데이터의 시대에 살고 있다, 이게 무슨 뜻일까요?


우리의 어떤 생활환경을 둘러싸고 있는그 모든 것들이 그 데이터라고 하는, 데이터 소스하고 연결돼 있고, 또 우리의 삶의 많은 부분들이 디지털 데이터화 되고 있다. 우리가 사용하는 이메일, SNS, 휴대폰, 그런 것에 대한 기록, 신용카드 거래 기록, 또 병원에 가면 여러분이 병원에서 치료한 것들에 대한 기록이 남는다. 혹시 여러분이 학교 다니고 있다면 여러분의 성적 정보가 또 이렇게 쭉 쌓일 것이다. 은행 거래를 하고 있다면 또 은행 거래 정보, 사용 정보가 또 쭉 쌓이고 있을 것이다.


이런 것과 같이 우리가 행동하고 생활할 때, 우리와 연관된 데이터들이 어디엔가는 계속해서 누적이 되고 쌓이고 있고, 그것에 의존해서 우리가 삶을 영위하는, 그런 시대에 우리가 접어들었다는 것이다. 이런 류의 데이터들의 증가 속도가 과거에 비해서 점점 빨라지고 있습니다. 그러다 보니까 과거에는 엑셀을 가지고서 처리할 수 있었던 그런 종류의 일들이 지금은 도저히 너무 데이터가 커지다 보니까 그래서 전통적인 방법으로는 처리가 어려운 작업들도 많이 생기게 됩니다. 소위 그런 유형의 데이터, 한꺼번에 처리하기가 어려울 정도의 큰 사이즈의 데이터를 빅 데이터라 부른다.


정치, 경제, 사회, 문화, 이런 모든 사회 전반의 영역들이 데이터와 연관이 되어 있는 시대에 우리가 살고 있다. 데이터가 과거에 비해서 폭발적으로 증가를 하고 있다.



이 그래프에서 보는 것처럼 2000년도를 넘어서면서부터 데이터의 증가 속도가 굉장히 빨라지고 있습니다.


굉장히 빠른 속도로 이렇게 증가를 하고 있는 것들을 여러분이 확인할 수가 있다. 이런 것들이 데이터의 시대를 열렸다는 것에 대한 어떤 지표 같은 걸로 우리가 이해를 할 수 있습니다. 그래서 데이터를 활용한 여러 가지 비즈니스나 업무, 이런 것들이 많이 늘어나고 있다. 그래서 굉장히 유명한 인사들이 이러한 데이터의 시대에 대해서 다양한 표현들을 했다.


이 데이터라고 하는 것이 어떤 비즈니스를 위한 새로운 원천 소스가 되고 있다.

과거에 비즈니스라고 하면 여러분이 상상하는 전통적인 비즈니스는 뭘까요? 물건을 만들고 팔고, 또 고객을 만나고, 그런 것이라 할 수 있습니다. 그런데 그런 거와 전혀 상관없이 데이터라는 것이 있으면, 예를 들면 고객이 주문한 데이터라든가, 이런 데이터만 있으면 그 데이터 자체를 가지고 뭔가 분석하고 이용하는 것만으로도 새로운 비즈니스가 될 수 있다. 


이 데이터의 탭이 열렸다

수도꼭지가 틀어졌다. 그리고 결코 다시 잠가지지 않을 것이다. 즉 이제 데이터가 쏟아지기 시작했는데 이것은 결코 멈추지 않을 것이고 점점 더 많아질 것이다.


데이터를 가지기 전에 어떤 중요한 이론을 만드는 것은 굉장히 중요한 실수다.

즉 이제는 어떤 이론을 우리가 발표를 할 때, 그것을 뒷받침할 수 있는 데이터가 없으면그런 이론에 대해서는 우리가 신뢰하기 어렵다.


데이터가 새로운 오일, 새로운 석유다.

이 석유라는 것이 굉장히 가치 있는 것입니다. 부를 만들어 낼 수 있는데, 그런데 그와 같이 데이터를 우리가 잘 퍼 올려서 잘 활용하면 그것이 새로운 돈이 될 수 있다.


이 모든 것들이 다 어떤 데이터의 시대에 대한 그런 표현이다. 결국은 이런 데이터 시대에는 데이터를 잘 다룰 줄 아는 기업, 또 데이터를 잘 다를 줄 아는 개인이 성공할 수밖에 없는 그런 시대가 도래한 것이다.  이 내용을 읽는 분들의 이유도 아마 이런 것이겠죠?


우리가 데이터의 시대에 살고 있다고 계속 얘기했는데, 몇 가지 사례를 한번 살펴보겠다.


타깃


첫 번째 사례는 미국의 타깃이라고 하는 유통 전문점에서 일어난 일이다. 우리나라로 말하면서 이마트나 이런 류의 대형 유통 마트를 뜻한다. 어느 날 이 타깃 매장에 어떤 남자가 막 씩씩거리면서 들어섰다고 합니다. 그러면서 ‘매니저 나와!’ 이런 겁니다. 그래서 매니저가 무슨 영문인가? 영문을 모르고 나왔는데 이 남자의 손에는 이 타깃에서 이 남자의 집에 우편물로 보낸 것이 있었다. 거기에 보니까 아기 옷, 아기 침대, 또 유아용품, 이런 것에 대한 할인 쿠폰이 들어 있었다는 것이다. 외국은 이런 대형마트에서 할인 쿠폰을 많이 보내는 것들이 일상화되어 있다. 그런 것들이 들어 있었다는 것이다. 그러면 이 남성이 항의하기를 우리 딸애는 아직 고등학생인데 이런 쿠폰을 그 딸애한테 보내느냐? 이게 무슨 임신을 부추기고 조장하는 거냐? 이러면서 열심히 화를 냈다. 그래서 매니저는 죄송하다고 사과를 열심히 했다. 그래서 잘 달래서 돌려보내고 다음에 다시 이 남성에게 사과 전화를 하기 위해서 그 윗선에서 전화를 한 번 더 했다. 그래서 죄송하다고 했더니만 이 남성이 뜻밖의 얘기를 하는데, 우리 딸이 임신한 것을 며칠 전에 알게 되었다는 것이다. 이게 도대체 무슨 일일까? 그 딸의 아버지도 이 딸이 임신한 것을 알지 못하고 있었는데 어떻게 대형 유통점인 이 타깃에서 어느 집의 딸이 임신하는 것을 알고서 그에 맞는 용품 할인 쿠폰, 이런 것들을 보냈냐 하는 것이다. 무엇 때문에 그럴까요? 데이터 때문에 그렇다. 이 사건은 뉴욕타임스에 보도가 된 내용이었는데, 이 대형 마켓, 이 타깃에는 이런 고객이 물건을 사면 신용카드로 결제를 합니다. 그런 데이터를 많이 쌓아 놓고 그걸 분석하는 분석 팀이 있었다. 도대체 이 분석 팀은 어떻게 분석을 했기에 임신 사실을 알게 됐을까? 이 빅 데이터 팀에서는 고객의 구매 패턴을 25가지 정도는 분류를 해 가지고 분석을 했다. 분석을 해 본 결과, 여성이 임신과 출산하게 되면 구매 패턴이 달라진다는 것을 알아내게 된 것이다. 향이 나는 로션을 사던 어떤 여성이 갑자기 향이 없는 로션으로 바꿨다. 아기한테 안 좋으니까 바꾼 것이다. 평소에 사지 않던 미네랄 영양제를 갑자기 사기 시작했다. 왜 살까? 아기에게 좋으니까. 구매 패턴의 변화를 잘 분석을 하면 이 사람이 왜 이렇게 바뀌었는지를 알게 되고, 이 빅 데이터 팀에서는 그런 변화가 있는 고객들에게 집중적으로 이런 적당한 쿠폰으로 보낸 것이죠. 만약에 그렇다고 하면 우리 고객의 입장에서 나에게 딱 맞는, ‘내가 이거 좀 필요한데’라고 생각하고 있는데 그거에 대한 할인 쿠폰 왔다. 그러면 당연히 많이 사게 된다. 이와 같이 데이터 분석이 비즈니스에 어떻게 활용이 됐는지 에 대해 보여 주는 굉장히 재미있는 사례라고 할 수가 있다.



두 번째 데이터를 잘 활용한 사례는 오바마 대통령이다. 왜 빅 데이터 얘기를 하면 오바마 대통령이 나오냐면, 이 오바마 대통령은 데이터에 기초한 개인 맞춤형 선거 홍보 전략을 아주 정확하게 구사한 첫 번째 최초의 정치인으로 보고 있습니다. 책도 나와 있는 상황입니다. 이걸 아주 극명하게 보여 주는 것이 이 오바마의 상대 후보, 매케인 대통령하고 오바마하고 후원금을 모금을 하는데 미국에서 후원금 모금하려고 하면 파티 같은 거 열어 가지고 사람도 불러 가지고 연설 한번해야 합니다. 그런 식의 후원을 하다가 오바마는 온라인으로 눈을 돌렸다. 그리고 자기를 지지해 줄 만한 적절한 사람들을 잘 찾아내고, 그 사람들에게 집중적으로 홍보하는 것들을 통해서 이 후원금 모금액 전체로 봐도어마어마한 양을  모금한 것을 알 수 있고, 특히 온라인상에서의 모금액이 오프라인을 압도하는 것들을 보게 된다. 그래서 굉장히 유권자 데이터를 잘 활용한 그런 사례다, 이렇게 볼 수가 있다.



세 번째 사례는 구글의 자동 번역 부분이다. 우리가 한글로 입력을 하면서 번역을 누르면 거의 실시간으로 오른쪽에 이렇게 번역이 되어서 나온다. 이게 왜 데이터하고 번역이 연관이 되어 있냐 하면, 과거에는 번역을 하려면 문법을 따졌습니다. 단어 순서를 바꾸고, 그 단어에 맞는 영어를 찾고, 이런 식으로 문법이나 형태소 분석, 이런 어떤 단어와 단어 사이의 의미, 이런 것들에 의해서 번역을 했습니다. 그러다 보니까 이상하고 쓸 수가 없는 그런 수준이었다. 구글에서는 번역을 어떻게 하기 시작했냐면, 그냥 이 문장을 통째로 과거의 번역 중에서 이와 유사한 번역이 무엇이 있는지를 찾는 것이다. 그래서 이와 가장 유사한 형태로 영어로 바꿔 준다. 그런데 구글이 알다시피 검색 회사이다. 그래서 이 구글은 그런 데이터를 많이 모을 수 있다. 한글이 있고, 그것이 잘 번역된 영어를 같이 수집을 해서 현재 번역하고자 하는 것과 가장 유사한 그런 문장을 찾고 약간의 변형을 가하면 아주 훌륭한 영어 문장이 된다. 사실은 이게 기계가 번역한 게 아니라 누군가 사람이 번역한 것이다. 그러니까 훨씬 정교할 수밖에 없다. 그래서 이런 번역 데이터가 쌓이면 쌓일수록 점점 더 정교한 번역이 가능한, 요즘은 우리가 표준어에 없는 그런 시류를 따르는 그런 것들까지도 번역해 낼 수 있는 그런 수준으로 번역이 이루어지고 있다. 이것도 다 데이터의 힘이다.


네 번째 사례는 얼마 전에 있었던 세계미래포럼에서 향후 10년 내에 가장 세상을 바꿀 수 있는 가장 중요한 기술을 발표했다. 그 안에 인공지능도 있고, 빅 데이터가 있다. 즉 데이터를 가공하고 활용하는 기술이 향후 10년 내에 세상을 바꿀 기술인 것이다. 4차 산업혁명의 핵심 요소 중의 하나가 이 데이터라는 것을  많이 들었을 것이다. 이 데이터를 잘 활용할 수 있고, 잘 분석하고 이해하고, 사용할 수 있다는 것은 현재 이 4차 산업혁명시대에서는 굉장히 중요한 기술이다. 그리고 그걸 갖추면 굉장히 큰 경쟁력이 된다.

반응형

'SW > R' 카테고리의 다른 글

R : 벡터(vector) 개념 및 예제  (0) 2019.01.29
R : 변수(variable) 개념 및 예제  (0) 2019.01.29
R 기본사용법 (사칙연산, 함수)  (0) 2019.01.28
R, RStudio 설치 방법  (0) 2019.01.10
빅데이터 개념  (0) 2019.01.09