데이터 마이닝
지금까지는 주로 전통적인 통계 분석 도구를 이용하여 데이터를 분석하는 방법을 배웠습니다. 데이티 마이닝 도구를 학습하면 데이터로 부터 다양한 정보를 얻을 수 있습니다. 데이터 마이닝은 데이터 안에서 의미 있는 패턴, 추세 등을 발견해나가는 과정을 의미합니다. 앞으로 회귀분석, 분류, 군집화 등에 대해 알아보겠습니다.
단순 선형 회귀
종속 변수(y) 와 독립변수(x) 사이의 선형 관계를 파악하고 이를 예측에 활용하는 방법을 뜻합니다. (x)와 (y) 사이의 관계식을 모델(model) 이라 한다. 보통 회귀 모델, 예측 모델이라 합니다.
단순 선형 회귀식은 다음과 같은 형태를 나타냅니다.
y = Wx + b
즉, 상수인 W와 b 를 찾는 것이 모델을 만드는 과정이다. 현실세계에서는 두 변수가 선형 관계에 있는 경우가 많아서 선형회귀 분석이 유용합니다. 두변수가 선형 관계에 있는지 알아보는 방법은 두가지가 있습니다. 바로 산점도와 상관계수입니다.
회귀식에서 W 와 b 를 찾는 방법
다음과 같이 산점도를 통해 상관계수를 유추합니다. 유추하는 과정에서 아래와 같이 예측값, 실제값, 오차가 발생합니다.
R 을 이용하여 회귀 모델 구하기
주행속도(speed) 와 제동 거리(dist) 사이의 회귀식을 구해보았습니다. 종속, 독립 변수를 모델에 입력하여 b와 w를 구하였습니다. 완성된 모델은 아래와 같습니다.
dist = 3.932 * speed - 17.579
구한 값을 회귀식에 대입하면 됩니다. 이 모델을 통해 각 속도마다 예상 제공 거리를 구할 수 있겠죠?
모델의 예측값과 실제값 사이에 어느정도 차이가 나는지 알수있습니다. 아래 예제를 참조하세요.
회귀식을 산점도에 표현할 수 있습니다. 위 예제에 있는 plot 함수와 abline을 통해 데이터를 가시화하여 얼마나 차이나는지 눈으로 확인할 수 있습니다.
'SW > R' 카테고리의 다른 글
R : 로지스틱 회귀 ( 개념 및 예제 ) (0) | 2019.03.12 |
---|---|
R : 중선형 회귀 분석 (개념 및 예제) (0) | 2019.03.11 |
R : ggmap-데이터 크기를 지도에 표현 (개념 및 예제) (0) | 2019.03.09 |
R : ggmap-마커, 텍스트 출력 (개념 및 예제) (0) | 2019.03.08 |
R : ggmap-특정 지역 지도 보기 (개념 및 예제) (16) | 2019.03.07 |