SW/머신러닝

머신러닝 : 단순 선형 회귀분석 : 개념, 기능, 방법, 개요

얇은생각 2020. 1. 18. 07:30
반응형

회귀분석이란

입력 데이터와 출력 데이터 간의 상호 관련성을 찾으려는 시도가 많이 있었습니다. 따라서, 두 변수 간의 관계식, 관계 정도에 대한 연구가 진행되었습니다.

회귀분석은 주어진 데이터를 기반으로 입력 데이터와 출력 데이터 사이에 수학적 관계에 대한 모형을 추정하는 방법론이라 할 수 있습니다.

회귀분석을 통해 2가지를 기대할 수 있습니다. 변수들 간에 함수 관계가 성립하는지, 만약 성립한다면 입력 변수의 중요도를 파악할 수 있습니다. 또한,  함수 관계를 바탕으로 입력 변수로 출력 변수 값을 추정 또는 예측하는 데 사용가능합니다.

 

 

단순 선형 회귀의 회귀식은  위와 같이 나타낼 수 있습니다. B0는 절편, B1은 기울기를 의미합니다. 실제 값은 구하기 어려우며, 추정을 통해 얻어내는 것입니다. 이렇게 추정한 값들을 회귀 계수라고 합니다. 모집단의 특징을 잘 설명할 수 있는 학습 집합을 선택하는 것이 중요하다고 할 수 있습니다. 회귀계수 절편 B0의 변화는 결과의 변화량을 의미하므로, 변수의 중요도로 간주할 수 있습니다. 따라서, 회귀식을 통해서 X가 주요 인자인지를 판단할 수 있습니다.

 

랜덤오차라고도 불리는 e는 일종의 정규분포 확률변수입니다. e는 확률변수이므로 Y도 확률변수입니다. 특정한 X값에서 Y값은 평균 회귀선을 중심으로 분포한다는 것을 알 수 있습니다. 또한, 분산이 일정한 상수임을 뜻합니다.

 

 

일종의 우리가 알고 싶은 식이 있다고 가정합니다. 그러면 알고싶은 식과 가장 가까운 회귀식을 추정해야합니다. 이떄 어떻게 해야 가장 좋은 직선을 얻어 낼 수 있을까요? 

추정하는 방법과 가장 좋은 직선을 얻어내는 방법에 대해 다음 포스팅에서 알아보도록 하겠습니다.

반응형