반응형

SW/R 52

R : 데이터 프레임(data frame) 개념 및 예제

data frame 만들기 data frame을 만드는 방법은 다음과 같습니다. 일단 city라고 하는 vector가 있습니다. 그 다음에 rank라고 하는 vector가 있습니다. 2개 이상 여러 개의 vector를 data.fame이라고 하는 것으로 이렇게 묶으면 됩니다. 이렇게 묶으면 c.info라고 보이는 것과 같은 data fame이 만들어지는데, 아시다시피 city는 지금 문자열 형태로 되어 있고 rank는 숫자형입니다. 문자형 column과 숫자형 column이 같이 묶어진 이런 형태의 data fame을 만들게 되는데, data fame도 마찬가지로 만들어서 우리가 분석하는 경우는 잘 없습니다. 대체로는 다 이미 파일로 저장되어 있는 데이터를 쭉 불러오면 R이 알아서 문자 column과 숫..

SW/R 2019.02.03

R : 매트릭스(matrix) 개념 및 예제

matrix1차원 데이터를 저장하기 위해서는 vector라고 하는 자료 구조에 저장을 했습니다. 이제는 2차원 데이터를 저장하는 내용을 학습을 시작할 텐데요. 보통 분석을 위해서 데이터를 얻게 되면 1차원 데이터인 경우도 많이 있습니다. 그렇지만 거의 대부분은 2차원 형태 엑셀의 테이블 형태로 되어있는 자료 구조가 대부분입니다. 그래서 R에서는 이런 2차원 형태의 데이터를 저장하기 위해서 matrix하고 data fame이라고 하는 장치를 제공합니다. matrix와 data fame 둘 다 2차원 데이터를 저장할 수 있습니다. 그런데 matrix는 그 matrix에 저장되는 모든 자료의 종류가 동일해야 합니다. 그에 비해서 data fame은 2차원 데이터를 저장하는데, 숫자와 문자 이런 것들을 섞어서 ..

SW/R 2019.02.02

R : 네이버 데이터랩 (개념 및 활용법)

네이버 데이터랩 텍스트로 되어있는 데이터를 다루는 여러 가지 방법이 있습니다. 하지만 네이버 데이터랩이라고 하는 데를 한 번 방문해보셨나요? 네이버 데이터랩은 네이버가 검색 엔진을 제공하는 기관입니다. 키워드를 통계를 내서 정보를 제공해주는 사이트입니다. 그러면 키워드를 가지고서 분석을 하면 뭐가 나올 수 있을까요? 기본적으로는 실시간 검색어가 나올 수 있습니다. 현재 지금 사람들이 무엇에 관심을 갖고 있는가, 어떤 검색어가 뜨고 있는가, 이런 것들도 알 수 있습니다. 이제 시간대별로 누적해서 보면 어떤 주제가, 어떤 키워드가 언제 관심이 있었는지 볼 수 있습니다. 활용법 여러분들이 알다시피 컴퓨터에서 뭔가 일을 하면 여러분이 어떤 위치, 어느 지점에서 컴퓨터를 사용하고 있는지가 대략 수집이 됩니다. 그..

SW/R 2019.02.02

R : 워드클라우드-wordcloud ( 개념 및 예제 )

텍스트 마이닝텍스트 마이닝은 비정형 텍스트에서 의미 있는 정보를 추론하는 기술을 의미합니다. 단어를 분류하거나 문법적 구조를 분석합니다. 이러한 자연 언어 처리 기반의 기술입니다. 문서들을 분류하고 문서들을 군집화합니다. 그리고 정보를 추출하고 문서를 요약할 때 주로 활용합니다. 문서내에서 자주 활용되는 단어일 수록 폰트의 크기를 크게 배치하여 강조합니다. 아래 그림을 참고하세요. 필요한 패키지는 총 3가지입니다. wordcloud, KoNLP, RColorBrewer를 설치해주세요. wordcloud는 워드클라우드를 작성할 때 활용합니다. 또 KoNLP는 한국어를 처리할 때 사용합니다. 마지막으로 RColorBrewer는 단어의 색을 처리할 때 사용합니다. KoNLP 오류 해결 먼저 java se를 다..

SW/R 2019.02.01

R : help 기능 개념 및 사용법

help 기능함수의 사용법 알고 싶을 때 (함수 이름을 알면) help(sum) # help("sum") 도 가능 ? sum함수의 이름을 알고 있다면 위와 같은 명령어를 활용하면 됩니다. 함수의 사용법 알고 싶을 때 (함수 이름을 모르면) help.search("average")함수의 이름을 정확히 모른다면 위와 같은 명령어를 활용하면 됩니다. 그러면 기능과 관련된 내용을 찾아줍니다. history()R은 최근에 사용한 명령어를 25개까지 기억합니다. 위아래 화살표 키를 이용해 사용한 명령어를 불러올 수 있습니다. history() 함수를 사용하면 25개의 목록을 한눈에 확인할 수 있습니다. 이 함수를 활용해 최근에 내가 무슨 함수를 썼는 지 알 수 있겠죠? Rstudio에서 help 사용 직접 Rstu..

SW/R 2019.01.30

R : 벡터(vector) 개념 및 예제

벡터이번 포스팅에서는 벡터에 대해 알아보겠습니다. 우리가 분석하고자 하는 데이터는 어떤 모양일까요? 대부분 1차원 배열과 2차원 배열의 형태를 가지고 있습니다. 그 이상의 데이터는 복잡하겠죠? 1차원 배열 데이터의 모양은 위와 같습니다. 아래와 같은 데이터는 위와 같은 모양을 가집니다.- 1학년 학생들의 성적 자료- 2학년 학생들의 키 자료- 1학년 학생들의 선호하는 도형 자료 2차원 배열 데이터는 위와 같습니다. 아래와 같은 내용의 데이터는 위와 같은 모양을 가집니다.- 3학년 학생들의 전과목 성적 자료 R에서 벡터는 1차원 데이터를 저장하기 위한 자료 구조를 뜻합니다. 수학에서 사용하는 벡터의 의미와 다루는 방법이 같습니다. 벡터는 따라서 동일한 자료형의 값이 여러 개 연속되어 있는 것입니다. 변수들..

SW/R 2019.01.29

R : 변수(variable) 개념 및 예제

변수란?R은 단순 계산이 아니라 좀 더 복잡한 분석 작업을 하기 위해서는 변수라고 하는 개념을 이해해야할 필요가 있습니다. 보통 프로그래밍 언어를 배울때에도 변수라는 개념을 이용하는데 이 변수를 이해하고 잘 쓰실수 있으면 굉장히 효과적으로 데이터 분석작업을 할 수 있습니다. 변수는 직역을 하면 변할 수 있는 숫자입니다. 우리가 어떤 물건을 보관해 놓는 보관 장소 혹은 그림에 보는것처럼 어떤 박스라고 생각하면 됩니다. 그래서 이 박스에다가 10을 10이라고하는 숫자를 저장해놓을 수 도 있고 50이라고하는 숫자를 저장해놓을수 있습니다. 어떤 형태의 자료를 이렇게 보관해 놓을수 있는 그릇 보관장소를 변수라고 이해를 하면 됩니다. 이 변수는 어떤 숫자나 자료를 보관해 놓을수 있는 박스 같은건데 이름을 붙여 놓읍..

SW/R 2019.01.29

R 기본사용법 (사칙연산, 함수)

R 데이터 분석을 위해서 기본이 되는 R언어에 대해서 학습을 시작하도록 하겠습니다. 특별히 데이터 분석을 할때 데이터의 종류가 보통 1차원 데이터하고 2차원 데이터를 대상으로 합니다. 이번 포스팅에서는 1차원 데이터를 분석하는데 있어서 R언어를 어떻게 사용할까에 초점을 두고 알아보겠습니다. 들어가기에 앞서서 R언어의 특징을 한번 알아보겠습니다. R언어는 기본적으로 자료분석이나 통계작업에 특화된 소프트웨어로 알려져 있습니다. 일반적으로 컴퓨터를 이용해서 계산 작업을 많이 합니다.그 계산기로도 R을 쓸수가 있습니다. R이 프로그래밍 언어하고도 비슷하다 라는 느낌을 받게되는데 맞습니다. R을 이용해서 간단한 프로그래밍도 가능합니다. 또 R은 자료분석이나 통계분석을 위해서 굉장히 많은 함수들 그리고 패키지 이런..

SW/R 2019.01.28

R, RStudio 설치 방법

데이터를 다루려면 얘기했지만 뭔가 도구가 필요하다. 엑셀을 가지고 할 수는 없고, 데이터를 처리하고 가공하고 분석할 수 있는 뭔가 도구가 필요하다. 그중에 학습하려고 하는 R이라고 하는 것이 굉장히 중요한 도구로 사용이 되고 있다. R 스튜디오는 이 R을 잘 사용할 수 있도록 도와주는 보조 도구인데, 이번 포스팅에서는 이 R과 R 스튜디오를 설치하고 간단한 사용법을 익히도록 하겠다. 이 R은 오픈 소스 소프트웨어이기 때문에 R 사이트에 방문을 하면 여러분이 다운로드를 받을 수가 있다. 그래서 첫 페이지의 메인 페이지에서 다운로드를 클릭을 하면 다운로드 받을 수 있는 사이트가 나온다. 워낙 전 세계적으로 널리 쓰이는 것이다 보니 나라별로 다운로드 받을 수 있는 사이트가 있다. 사실 아무 데서나 받아도 되는..

SW/R 2019.01.10

빅데이터 개념

데이터, 그러면 우리가 흔히 듣는 용어 중에 빅 데이터라고 하는 것을 연관 지어서 생각할 수밖에 없다. 빅 데이터, 그러면 빅이라는 것이 크다. 양이 많은, 그런 데이터를 빅 데이터, 이렇게 쉽게 이해를 할 수가 있다. 데이터를 분석하는 차원에서 빅 데이터가 갖는 특징들을 이해하면 큰 도움이 될 것 같아 이 빅 데이터의 어떤 특성들을 이해하고 지나가도록 하겠다. 이 빅 데이터란 용어는 데이터의 어떤 규모에 초점을 맞춘 정의다. 정의하는 사람마다 다르다. 보통 많이 회자되는 그런 정의는 기존의 데이터베이스 관리 도구의 데이터 수집, 저장, 관리, 분석 역량을 넘어서는 규모의 데이터가 일반적으로 빅 데이터다. 과거에는 데이터를 관리할 때 데이터베이스라는 데다 넣어서 분석했다. 그렇게 할 수 있는 수준을 넘어..

SW/R 2019.01.09

데이터 시대 개념

우리가 R 언어를 본격적으로 학습하기에 앞서서 데이터라는 것이 왜 중요하고 또 데이터를 분석하는 것이 왜 필요한가? 요즘 우리가 살고 있는 이 시대를 설명할 때, 데이터의 시대에 살고 있다. 얼마 전까지만 해도 우리는 정보화 시대에 살고 있다. 거기에서 한발 더 나아가서 데이터의 시대에 살고 있다. 우리가 데이터의 시대에 살고 있다, 이게 무슨 뜻일까요? 우리의 어떤 생활환경을 둘러싸고 있는그 모든 것들이 그 데이터라고 하는, 데이터 소스하고 연결돼 있고, 또 우리의 삶의 많은 부분들이 디지털 데이터화 되고 있다. 우리가 사용하는 이메일, SNS, 휴대폰, 그런 것에 대한 기록, 신용카드 거래 기록, 또 병원에 가면 여러분이 병원에서 치료한 것들에 대한 기록이 남는다. 혹시 여러분이 학교 다니고 있다면 ..

SW/R 2019.01.09
반응형