반응형

SW 2319

R : 반복문 for (개념 및 예제)

반복문 for for : 예제1 for(i in 1:10) { print(i) }# 1# 2# 3# 4# 5# 6# 7# 8# 9# 10 for 반복문의 원리가 느껴지시나요? i가 1부터 10까지 할당되서 print문이 10번 실행됩니다. for : 예제2 for(i in 1:10) { cat("2*",i,"=",2*i,"\n") }# 2* 1 = 2 # 2* 2 = 4 # 2* 3 = 6 # 2* 4 = 8 # 2* 5 = 10 # 2* 6 = 12 # 2* 7 = 14 # 2* 8 = 16 # 2* 9 = 18 # 2* 10 = 20 for문을 이해하셨다면 위처럼 응용해서 원하는 다양한 값도 도출할 수 있습니다. for : 예제3 for(i in 1:20) { if(i%%2==0) { # 짝수인지 확..

SW/R 2019.02.17

R : if문 (개념 및 예제)

R 프로그래밍 R은 데이터 분석 도구입니다. 그러나 동시에 프로그래밍 언어의 성격도 포함하고 있습니다. R프로그래밍 기본 문법을 알고 활용할 수 있어야 합니다. 그래야 다른 사람의 분석 코드도 이해할 수 있습니다. 그렇다면 프로그래밍은 무엇일까요? 주어진 문제를 컴퓨터가 해결할 수 있도록 절차를 문법에 맞추어 써내려가는 과정을 뜻합니다. R에서 제공하는 함수만으로는 분석의 한계가 있습니다. 그 경우 프로그래밍을 활용하여 문제를 해결할 수 있습니다. if 문 if (logical expression) { statements}else { alternative statements} 먼저 if문에 대해 배워보겠습니다. 위에 서술된 구문은 if문의 기본 형태입니다. 만약 logical expression이 참일 ..

SW/R 2019.02.16

R : 데이터 분석 사례 (개념 및 예제)

데이터셋 일반 정보 str(iris) # 데이터셋의 전체 정보 확인# 'data.frame': 150 obs. of 5 variables:# $ Sepal.Length: num 5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...# $ Sepal.Width : num 3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...# $ Petal.Length: num 1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...# $ Petal.Width : num 0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...# $ Species : Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 ..

SW/R 2019.02.15

R : 선그래프 (개념 및 예제)

선그래프연도별 증감 추이와 같은 데이터를 표현할 때 많이 활용합니다. 시간 순서에 따른 데이터를 시각화할 때 자주 사용됩니다. 예를 들어 월별 지각생 통계가 있습니다. 위 통계를 활용해 월병 지각생 통계의 선 그래프를 그려봅시다. month = 1:12 # 월 데이터 입력late = c(5,8,7,9,4,6,12,13,8,6,6,4) # 각 월마다 지각생 수plot(month, # x 데이터 입력하기 late, # y 데이터 입력하기 main="Late students", # 메인 이름 type= "l", # 그래프의 종류 정하기 lty=1, # 선의 종류 정하기 lwd=1, # 선의 굵기 정하기 xlab="Month ", # x축 이름 정하기 ylab="Late cnt" # y축 이름 정하기) http..

SW/R 2019.02.14

R : 산점도 (개념 및 예제)

다변량 자료다변량 자료는 키와 몸무게의 관계와 같이 두개 이상의 변수를 동시에 다루어야 하는 자료를 뜻합니다. 두개인 경우에는 특히 이변량 자료라고 칭합니다. 일변량 자료는 vectcor에 저장하면 되지만, 다변량 자료는 matrix 또는 data frame에 저장하여 분석합니다. 키와 몸무게의 관계를 분석할 떄 키, 몸무게는 변수가 됩니다. 각 변수는 데이터셋에서 열로 표현됩니다. 이변량 자료의 분포 및 상관관계 시각화mtcars 데이터셋에서 자동차 중량(wt) 와 연비(mpg) 의 상관관계를 산점도를 통해 확인해보겠습니다. wt

SW/R 2019.02.12

R : 문자열 함수 (개념 및 예제)

paste() 함수 paste("Good", "Morning", "Tom", sep=" ")# "Good Morning Tom" paste("Good", "Morning", "Tom", sep="/")# "Good/Morning/Tom" paste(1:10, "is good", sep=" ")# "1 is good" "2 is good" "3 is good" "4 is good" # "5 is good" "6 is good" "7 is good" "8 is good" # "9 is good" "10 is good" paste() 함수는 여러 문자열을 연결하여 하나로 만들어줍니다. sep은 연결하는 단어 사이에 넣을 값을 뜻합니다. 다양한 방식으로 문자열을 핸들링이 가능합니다. 예제를 통해 확인하세요. s..

SW/R 2019.02.11

R : 일변량 양적 자료의 분석 (개념 및 예제)

양적자료질적 자료에 비해 양적자료는 분석 방법이 많습니다. 대표적인 분석방법은 아래내용과 같습니다. - 평균/중앙값- 4분위수- 분산, 표준편차- Boxplot- Histogram- 나무-잎 그림 나라에서 국민들의 소득자료를 가지고 있습니다. 이 자료를 분석해서 설명할수 있는 값은 아래와 같이 여러가지가 있습니다. 평균(mean)평균은 균형점, 무게중심을 의미합니다. 중앙값(median)어떤 주어진 값들을 정렬합니다. 그 때, 가장 중앙에 위치하는 값을 의미합니다. 절사평균(trimmed mean)표본중에서 작은값 n% 와 큰값 n%를 제외합니다. 그리고 나머지 (100-2n)% 의 자료만 사용하여 구한 평균을 의미합니다. 왜 이렇게 3가지 값으로 나누어서 표현할까요? 즉, 위 그림처럼 상위권이나 하위권..

SW/R 2019.02.10

R : 기초 통계 개념

기초통계 개념통계 기법은 무엇일까요? 자료를 정리하는 수단입니다. 또 분석할 수 있는 강력한 수단입니다. 데이터 분석에서 많은 부분이 통계적 기법을 필요로 합니다. 다음의 예를 참고하세요. - 여론조사 결과 분석입- 제조업 불량율 분석- 학습 효과 분석 위 예시 말고도 많은 예가 있겠죠? 따라서 데이터 분석가 되기 위해서 통계학을 이해해야 합니다. 질적 자료(qualitative data) 또는 범주형 자료(categorical data)질적 자료는 무엇일까요? 숫자로 표현할 수 없는 자료를 의미합니다. 원칙적으로 말이죠. 예를 들면 학력 수준, 성별이 있습니다. 양적 자료(quantitative data)양적 자료는 자료 자체가 숫자로 표현된 것을 의미합니다. 크게 두가지로, 이산자료, 연속자료로 나누..

SW/R 2019.02.08

R : 패키지(Package) 설치 방법

Package 설치이번 포스팅에서는 R Package 설치에 대해 알아보겠습니다. R을 배워 나가는 것은 무엇일까요? 결국 제공하는 유용한 함수들을 공부하고 사용법을 배우는 것입니다. R에는 수많은 함수들이 있습니다. 비슷한 기능을 하는 많은 함수들끼리 묶여서 패키지 형태로 제공됩니다. 자주 사용하는 기본적인 함수들은 base 패키지에 있습니다. R을 설치할 때 기본적으로 설치가 됩니다. 따라서 별도로 패키지를 불러오는 작업이 필요 없습니다. 기본 패키지에 없는 함수를 사용할때는 어떻게 할까요? 우선 그 함수가 포함된 package를 install 합니다. 그 다음 package를 불러옵니다. library, require 함수를 이용해서 불러옵니다. 그 후 원하는 함수를 사용하면 됩니다. 다운로드된 패..

SW/R 2019.02.07

R : list와 factor (개념 및 예제)

List 우리가 데이터를 저장할 때 vector, 또 matrix, data frame을 썼습니다. 그것 말고도 많이 쓰이는 것 중에 list와 factor라고 하는 type이 있습니다. list는 일차적으로는 vector하고 비슷합니다. vector는 들어가는 원소들의 데이터 type이 다 똑같아야 하는 것입니다. 똑같아야 저장이 되는데, 이 리스트는 아무거나 들어갑니다. 숫자 들어갔다가 문자 들어갔다가 심지어는 vector도 들어갔다가, 또 다른 matrix로 저장하고, 그냥 뭐 이상한 보따리 같은 형태로 되어있습니다. 구분해서 짝짝짝 들어갈 수 있는 섞어서 넣을 수 있는 형태가 list입니다. 그래서 이 예를 보면 list에 name은 kim 이렇게 되어있습니다. 이 name은 이렇게 준 이 nam..

SW/R 2019.02.06

R : 매트릭스(matrix), 데이터 프레임(data frame) 사용법 및 예제

데이터프레임에 대해서 여러가지 정보를 얻어오는 다양한 함수들이 있습니다. 우선 어떤 데이터 프레임이 있습니다. 파일에서 읽어왔습니다. 굉장히 데이터가 많이 들어있습니다. 그러면 이것이 행이 몇 행이 있고 열이 몇 열이 있을까요? 그래서 dim으로 2차원 matrix의 행의 수와 열의 수를 알아내는 함수입니다. 그렇게 실행하면 아래 보이는 것처럼 150, 5 이렇게 나오는데 이게 한 이렇게 나오는데 이것이 행과 열의 수가 됩니다. 그다음에 nrow는 number of row의 약자입니다. 그래서 행의 개수를 가져오게 됩니다. 그다음에 ncol는 number of column 그래서 column의 수를 가져옵니다. 그 다음에 namesiris 그러면 이것은 column의 이름입니다. 나중에 보면 colnam..

SW/R 2019.02.04

R : 데이터 프레임(data frame) 개념 및 예제

data frame 만들기 data frame을 만드는 방법은 다음과 같습니다. 일단 city라고 하는 vector가 있습니다. 그 다음에 rank라고 하는 vector가 있습니다. 2개 이상 여러 개의 vector를 data.fame이라고 하는 것으로 이렇게 묶으면 됩니다. 이렇게 묶으면 c.info라고 보이는 것과 같은 data fame이 만들어지는데, 아시다시피 city는 지금 문자열 형태로 되어 있고 rank는 숫자형입니다. 문자형 column과 숫자형 column이 같이 묶어진 이런 형태의 data fame을 만들게 되는데, data fame도 마찬가지로 만들어서 우리가 분석하는 경우는 잘 없습니다. 대체로는 다 이미 파일로 저장되어 있는 데이터를 쭉 불러오면 R이 알아서 문자 column과 숫..

SW/R 2019.02.03

R : 매트릭스(matrix) 개념 및 예제

matrix1차원 데이터를 저장하기 위해서는 vector라고 하는 자료 구조에 저장을 했습니다. 이제는 2차원 데이터를 저장하는 내용을 학습을 시작할 텐데요. 보통 분석을 위해서 데이터를 얻게 되면 1차원 데이터인 경우도 많이 있습니다. 그렇지만 거의 대부분은 2차원 형태 엑셀의 테이블 형태로 되어있는 자료 구조가 대부분입니다. 그래서 R에서는 이런 2차원 형태의 데이터를 저장하기 위해서 matrix하고 data fame이라고 하는 장치를 제공합니다. matrix와 data fame 둘 다 2차원 데이터를 저장할 수 있습니다. 그런데 matrix는 그 matrix에 저장되는 모든 자료의 종류가 동일해야 합니다. 그에 비해서 data fame은 2차원 데이터를 저장하는데, 숫자와 문자 이런 것들을 섞어서 ..

SW/R 2019.02.02

R : 네이버 데이터랩 (개념 및 활용법)

네이버 데이터랩 텍스트로 되어있는 데이터를 다루는 여러 가지 방법이 있습니다. 하지만 네이버 데이터랩이라고 하는 데를 한 번 방문해보셨나요? 네이버 데이터랩은 네이버가 검색 엔진을 제공하는 기관입니다. 키워드를 통계를 내서 정보를 제공해주는 사이트입니다. 그러면 키워드를 가지고서 분석을 하면 뭐가 나올 수 있을까요? 기본적으로는 실시간 검색어가 나올 수 있습니다. 현재 지금 사람들이 무엇에 관심을 갖고 있는가, 어떤 검색어가 뜨고 있는가, 이런 것들도 알 수 있습니다. 이제 시간대별로 누적해서 보면 어떤 주제가, 어떤 키워드가 언제 관심이 있었는지 볼 수 있습니다. 활용법 여러분들이 알다시피 컴퓨터에서 뭔가 일을 하면 여러분이 어떤 위치, 어느 지점에서 컴퓨터를 사용하고 있는지가 대략 수집이 됩니다. 그..

SW/R 2019.02.02

R : 워드클라우드-wordcloud ( 개념 및 예제 )

텍스트 마이닝텍스트 마이닝은 비정형 텍스트에서 의미 있는 정보를 추론하는 기술을 의미합니다. 단어를 분류하거나 문법적 구조를 분석합니다. 이러한 자연 언어 처리 기반의 기술입니다. 문서들을 분류하고 문서들을 군집화합니다. 그리고 정보를 추출하고 문서를 요약할 때 주로 활용합니다. 문서내에서 자주 활용되는 단어일 수록 폰트의 크기를 크게 배치하여 강조합니다. 아래 그림을 참고하세요. 필요한 패키지는 총 3가지입니다. wordcloud, KoNLP, RColorBrewer를 설치해주세요. wordcloud는 워드클라우드를 작성할 때 활용합니다. 또 KoNLP는 한국어를 처리할 때 사용합니다. 마지막으로 RColorBrewer는 단어의 색을 처리할 때 사용합니다. KoNLP 오류 해결 먼저 java se를 다..

SW/R 2019.02.01

R : help 기능 개념 및 사용법

help 기능함수의 사용법 알고 싶을 때 (함수 이름을 알면) help(sum) # help("sum") 도 가능 ? sum함수의 이름을 알고 있다면 위와 같은 명령어를 활용하면 됩니다. 함수의 사용법 알고 싶을 때 (함수 이름을 모르면) help.search("average")함수의 이름을 정확히 모른다면 위와 같은 명령어를 활용하면 됩니다. 그러면 기능과 관련된 내용을 찾아줍니다. history()R은 최근에 사용한 명령어를 25개까지 기억합니다. 위아래 화살표 키를 이용해 사용한 명령어를 불러올 수 있습니다. history() 함수를 사용하면 25개의 목록을 한눈에 확인할 수 있습니다. 이 함수를 활용해 최근에 내가 무슨 함수를 썼는 지 알 수 있겠죠? Rstudio에서 help 사용 직접 Rstu..

SW/R 2019.01.30
반응형