회귀분석이란
입력 데이터와 출력 데이터 간의 상호 관련성을 찾으려는 시도가 많이 있었습니다. 따라서, 두 변수 간의 관계식, 관계 정도에 대한 연구가 진행되었습니다.
회귀분석은 주어진 데이터를 기반으로 입력 데이터와 출력 데이터 사이에 수학적 관계에 대한 모형을 추정하는 방법론이라 할 수 있습니다.
회귀분석을 통해 2가지를 기대할 수 있습니다. 변수들 간에 함수 관계가 성립하는지, 만약 성립한다면 입력 변수의 중요도를 파악할 수 있습니다. 또한, 함수 관계를 바탕으로 입력 변수로 출력 변수 값을 추정 또는 예측하는 데 사용가능합니다.
단순 선형 회귀의 회귀식은 위와 같이 나타낼 수 있습니다. B0는 절편, B1은 기울기를 의미합니다. 실제 값은 구하기 어려우며, 추정을 통해 얻어내는 것입니다. 이렇게 추정한 값들을 회귀 계수라고 합니다. 모집단의 특징을 잘 설명할 수 있는 학습 집합을 선택하는 것이 중요하다고 할 수 있습니다. 회귀계수 절편 B0의 변화는 결과의 변화량을 의미하므로, 변수의 중요도로 간주할 수 있습니다. 따라서, 회귀식을 통해서 X가 주요 인자인지를 판단할 수 있습니다.
랜덤오차라고도 불리는 e는 일종의 정규분포 확률변수입니다. e는 확률변수이므로 Y도 확률변수입니다. 특정한 X값에서 Y값은 평균 회귀선을 중심으로 분포한다는 것을 알 수 있습니다. 또한, 분산이 일정한 상수임을 뜻합니다.
일종의 우리가 알고 싶은 식이 있다고 가정합니다. 그러면 알고싶은 식과 가장 가까운 회귀식을 추정해야합니다. 이떄 어떻게 해야 가장 좋은 직선을 얻어 낼 수 있을까요?
추정하는 방법과 가장 좋은 직선을 얻어내는 방법에 대해 다음 포스팅에서 알아보도록 하겠습니다.
'SW > 머신러닝' 카테고리의 다른 글
머신 러닝 : 기계 학습 : 쉬운 용어로 이해하기 (0) | 2023.04.10 |
---|---|
머신러닝 : 단순 선형 회귀 분석 : 잔차의 의미 : 추정 방법 (0) | 2020.01.19 |
머신러닝 : 분류 모형 성능 지표 : 종류, 개념, 정의, 공식 (0) | 2020.01.16 |
머신러닝 : k-Fold 교차 검증 (k-Fold Cross Validation) : 개념, 방식 (0) | 2020.01.15 |
머신러닝 : 데이터 분할 : 방법, 방식, 절차 (0) | 2020.01.14 |