데이터, 그러면 우리가 흔히 듣는 용어 중에 빅 데이터라고 하는 것을 연관 지어서 생각할 수밖에 없다. 빅 데이터, 그러면 빅이라는 것이 크다. 양이 많은, 그런 데이터를 빅 데이터, 이렇게 쉽게 이해를 할 수가 있다. 데이터를 분석하는 차원에서 빅 데이터가 갖는 특징들을 이해하면 큰 도움이 될 것 같아 이 빅 데이터의 어떤 특성들을 이해하고 지나가도록 하겠다.
이 빅 데이터란 용어는 데이터의 어떤 규모에 초점을 맞춘 정의다. 정의하는 사람마다 다르다. 보통 많이 회자되는 그런 정의는 기존의 데이터베이스 관리 도구의 데이터 수집, 저장, 관리, 분석 역량을 넘어서는 규모의 데이터가 일반적으로 빅 데이터다. 과거에는 데이터를 관리할 때 데이터베이스라는 데다 넣어서 분석했다. 그렇게 할 수 있는 수준을 넘어서는 크기의 데이터를 빅 데이터라 한다.
또 규모가 아니라 업무 수행 방식에 초점을 맞추고, 데이터를 사용하는 방식에 초점을 맞춘 정의도 있다. 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고, 데이터의 빠른 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 또는 아키텍처를 빅 데이터라 한다.
보통 일반적으로는 규모에 초점을 둔 정의가 조금 더 익숙하다. 왜 빅 데이터가 나오게 됐을까? 왜 빅이라는 단어가 붙었느까? 이런 배경을 살펴보면 제일 큰 게 스마트 폰과 같은 모바일 기기, 그 다음에 SNS이다. 그래서 스마트폰 같은 디지털 기기가 보급이 되고, 그리고 다양한 종류의 소셜 네트워크 서비스가 부상을 하면서부터 엄청난 양의 데이터가 생산이 되고 있고, 그것이 쌓이고 있는 것이다.
전통적으로는 병원의 환자 데이터, 대형 병원 같은 경우에는 하루에도 환자들이 수천 명씩 내원을 하는데, 그냥 그런 것들이 계속 매일매일 쌓인 것이다. 그리고 은행권의 거래 데이터, 은행 거래를 하지 않는가? 그리고 ATM도 자주 이용을 하는데, 전국 단위로 보면 1초에도 수십 혹은 수백 명의 사람들이 ATM을 이용하거나, 아니면 은행 창구에서 뭔가 거래를 하고, 데이터로 만들어집니다. 굉장히 큰 사이즈의 데이터입니다.
교통 이용 데이터도 최근에 등장한 빅 데이터 중의 하나이다. 다 교통카드 기능이 있는 신용카드나 교통카드를 이용합니다. 그럼 여러분이 한번 퇴근할 때마다 그 데이터가 한 건 생성이 된다. 내릴 때 또 한 번 태그한다. 그러면 여러분이 버스나 지하철, 이런 걸 한 번만 이용해도 데이터가 두 개씩 쌓이는데, 이게 매일 천만 명, 2천만 명, 이렇게 이용을 한다. 그러면 이게 전체적으로 보면 또 어마어마한 데이터가 거의 매초, 매시간, 매일 계속해서 어딘가에는 쌓이고 있다. 이것도 굉장히 큰 사이즈의 데이터가 됩니다.
그런데 단순히 쌓여만 있으면 이게 아무 쓸모가 없다. 그냥 쓰레기인데, 기업이나 정부, 의료, 교육 분야에서 그 가치가 입증되고 있다. 그리고 이 빅 데이터를 적극적으로 비즈니스에 활용하면 어떤 수익을 높일 수 있는 그런 수단이 될 수도 있다. 최근에는 자본도 없고 아무것도 없는데 아이디어 하나만 가지고 공개돼 있는 데이터를 이용해서 서비스를 해 주는 이런 스타트업들도 꽤 심심찮게 우리가 볼 수가 있다.
예를 들면 숙박 앱이라든가, 혹은 어떤 관광지의 음식점, 맛집 소개를 해 준다든가, 이미 관광 데이터나
이런 빅 데이터가 우리도 볼 수 있는 게 있다. 그런 것들을 잘 활용해서 가공을 해서 서비스를 함으로써
어떤 부가가치를 창출하는 수 있는 일들도 지금 일어나고 있다. 그래서 보통 빅 데이터 그러면 그림에 있는 이 세 가지의 특성을 얘기를 하고 있다.
그래서 이 세 가지, 볼륨, 버라이어티, 벨로시티, 이런 세 가지의 특성을 가지고 있다. 이 세 개의 요소 중에서 두 가지 이상만 충족이 되면 빅 데이터라고 부를 수가 있다. 우선 빅 데이터의 특성 중의 하나는 볼륨, 즉 크기이다.
우리가 사실은 개인적으로 다룰 수 있는 데이터의 크기의 단위라고 한다면 이 그림에 있는 것처럼 메가, 몇 백 메가, 이런 단위가 많다. 혹은 영화나 이런 쪽으로 넘어가면, 기가 단위가 된다. 그래도 화질이 좋은 거 보려 그러면 5기가, 6기가, 이런 영화를 다운 받아서 보게 되는데, 기가 정도가 아무래도 우리가 다루는, 영화도 동영상 데이터라고 본다고 하면 그런 정도이다. 빅 데이터는 이게 기가 단위가 아니고, 빅 데이터에서 가장 작은 단위가 테라 단위이다. 1테라는 1000 기가바이트이다. 1000배, 기가의 1000배인 테라바이트 정도가 되어야 빅 데이터다. 그리고 우리가 들어 보지 못한 페타바이트, 에타, 이런 굉장히 천문학적인 그런 정도의 단위들이 사용되고 있습니다. 그리고 이것들이 소위 데이터 센터라고 불리는 곳에 집중적으로 지금 전 세계적으로, 혹은 우리나라에서도 쌓이고 있는 상황이다. 그래서 빅 데이터, 그러면 굉장히 큰 사이즈, 굉장히 큰 사이즈의 데이터를 의미한다. 이것이 하나의 빅 데이터의 특성이 된다.
그다음에 다양성은 과거에 컴퓨터로 다루는 데이터라고 하면 엑셀에 불러서 작업을 하는 그런 격자 형태에 숫자가 들어 있는 그런 형태였습니다. 테이블 형태로 되어 있는 데이터가 대부분이었는데, 요즘에 처리되고 다루는 데이터를 보면 이게 모양이 굉장히 다양해졌다. 테이블 형태의 숫자 데이터뿐만 아니고 동영상도 있다. 동영상 데이터, 음악이나 음성도 들어가 있다. SNS 같은 것들, 그리고 여러 가지 위치 기반,
GPS 기반의 어떤 위치 정보들, 그리고 여러 가지 인터넷의 게시물 등등, 모양과 형태가 다양한 것들이 어마어마하게 쌓이는데, 이거를 테이블 형태의 숫자 데이터만 다루던 기술 가지고는 처리할 방법이 없다. 그래서 이런 빅 데이터는 다양성이라고 하는 특징이 있고, 이런 것들 어떻게 다룰 것인가? 이런 것들이 빅 데이터 처리의 이슈다.
그 다음으로 속도란 의미는 데이터가 쌓이는 속도를 말한다. 앞에서 살펴본 이 다양한 데이터들이 하루에 1테라가 아니라 1초에 몇 테라씩, 이런 식으로 엄청난 속도로 쌓이다 보니까 이거를 따라가면서 처리하기가 어려운 정도로 그런 데이터다. 그래서 굉장히 쌓이는 증가 속도가 매우 빠른 그런 특성이 있다. 굉장히 큰 사이즈, 그 다음에 굉장히 다양한 형태의 데이터, 그리고 굉장히 빠른 속도로 증가하는 저장 속도, 이런 것들이 빅 데이터를 특징짓는, 그런 요소들이 된다. 이런 것들 어떻게 다룰 것인가 하는 것들이 빅 데이터 기술이다.
이런 종류의 빅 데이터, 규모가 큰, 여러분이 개인적으로 실습에 쓰는 거 말고, 규모가 몇 십만 건이 되는 이런 큰 사이즈의 데이터를 여러분이 접해 보고 싶다고 한다면 우리나라에도 이런 사이트가 구축이 되고 있다. 공공데이터 포털, 여기 들어가면 각 정부 기관에서 정보 공개를 통해서 다양한 형태의 데이터를 여기다 공개를 하고 있다.
이 중에 많은 부분을 그냥 바로 다운로드 받아서 분석을 할 수 있는 데이터들이 많이 있습니다. 그래서 한 번씩 들어가서 어떤 것들이 있는지, 또 다운로드 받아서 어떤 내용인지, 이런 것도 한번 살펴보면 좋을 거라고 생각된다. 이런 빅 데이터를 이용해서 여러 가지 웹상에서 서비스해 주는 여러 가지 서비스들이 있다. 그 중의 하나가 구글 트렌드다.
그래서 어떤 키워드를 여러분이 주면 사람들이 웹상에서 검색을 하게 되면 검색 빈도에 따라서 사람들의 관심도를 알 수 있다. 그래서 사이트를 만들어서 어떤 빅 데이터를 서비스하는 서버들도 있으니까 이것도 한번 이용을 해보면 재밌을 것 같다.
'SW > R' 카테고리의 다른 글
R : 벡터(vector) 개념 및 예제 (0) | 2019.01.29 |
---|---|
R : 변수(variable) 개념 및 예제 (0) | 2019.01.29 |
R 기본사용법 (사칙연산, 함수) (0) | 2019.01.28 |
R, RStudio 설치 방법 (0) | 2019.01.10 |
데이터 시대 개념 (0) | 2019.01.09 |