본문 바로가기

SW/머신러닝

머신러닝 : 단순 선형 회귀 분석 : 잔차의 의미 : 추정 방법 잔차의 의미 (Residual) 회귀 계수의 추정에 대해 이해하기 위해서는 잔차를 이해해야 한다고 합니다. 잔차는 실제 출력 변수와 예측한 출력 변수의 차를 의미합니다. 그 차이를 표현하면 위 수식으로 표현할 수 잇습니다. 잔차를 그림으로 본다면 위와 같습니다. 즉, 예측한 식과 실제 값과의 거리들이 표현되고 있는 것을 알 수 있습니다. 잔차의 제곱합 SSE는 아래와 같습니다. 그렇다면 가장 예측력이 좋은 회귀식을 가져오기 위해서는 이러한 SSE 값을 최소화하는 방식으로 추정해나가야 하는 것입니다. 따라서 SSE를 최소화하기 위해 편미분을 합니다. 이러한 방식을 최소자승법이라고도 하며 OLS라고도 합니다. OLS는 ordinary least square method라고 부릅니다. SSE가 가장 작은 지점..
머신러닝 : 단순 선형 회귀분석 : 개념, 기능, 방법, 개요 회귀분석이란 입력 데이터와 출력 데이터 간의 상호 관련성을 찾으려는 시도가 많이 있었습니다. 따라서, 두 변수 간의 관계식, 관계 정도에 대한 연구가 진행되었습니다. 회귀분석은 주어진 데이터를 기반으로 입력 데이터와 출력 데이터 사이에 수학적 관계에 대한 모형을 추정하는 방법론이라 할 수 있습니다. 회귀분석을 통해 2가지를 기대할 수 있습니다. 변수들 간에 함수 관계가 성립하는지, 만약 성립한다면 입력 변수의 중요도를 파악할 수 있습니다. 또한, 함수 관계를 바탕으로 입력 변수로 출력 변수 값을 추정 또는 예측하는 데 사용가능합니다. 단순 선형 회귀의 회귀식은 위와 같이 나타낼 수 있습니다. B0는 절편, B1은 기울기를 의미합니다. 실제 값은 구하기 어려우며, 추정을 통해 얻어내는 것입니다. 이렇게 추..
머신러닝 : 분류 모형 성능 지표 : 종류, 개념, 정의, 공식 MSE f가 제대로 추정되었는지 평가하기 위함입니다. 예측한 값이 실제 값과 유사한지 평가하는 척도가 필요합니다. MSE ( mean squared error) 는 모형의 적합성(오류)를 평가하는 지표입니다. MSE는 실제 종속 변수와 예측한 종속 변수간의 차이를 의미합니다. 따라서 작을수록 좋지만, 과도하게 줄이면 과적합의 오류를 범할 가능성이 있습니다. 따라서, 검증 집합의 MSE를 줄이는 방향으로 f를 추정합니다. MAPE mean absolute percentage error는 모형의 적합성을 평가하는 지표입니다. MAPE는 퍼센트 값을 가지며 0에 가깔우수록 회귀 모형의 성능이 좋다고 할 수 있습니다. 0% ~ 100% 사이의 값을 가져 이해하기 쉬울 수 있습니다. 성능 비교 해석이 또한 가능합..
머신러닝 : k-Fold 교차 검증 (k-Fold Cross Validation) : 개념, 방식 k-Fold 교차 검증 (k-Fold Cross Validation) 모형의 적합성을 보다 객관적으로 평가하기 위한 방법입니다. 데이터를 k개로 나누어 줍니다. 그 중 하나를 검증 집합, 나머지를 학습 집합으로 분류합니다. 위 과정을 k 번 반복합니다. 그 다음 k 개의 성능 지표를 평균하여 모형의 적합성을 평가합니다. LOOCV ( Leave One Out Cross Validation ) 데이터의 수가 적을 떄 사용하는 교차 검증 방법입니다. 총 n 개의 모델을 만듭니다. 각 모델은 하나의 샘플만 제외합니다. 모델을 만들고 제외한 샘플로 성능 지표를 계산합니다. 이렇게 도출된 n 개의 성능 지표를 평균 내어 최종 성능 지표를 도출합니다.
머신러닝 : 데이터 분할 : 방법, 방식, 절차 데이터 분할 과적합을 방지하기 위해서는 전체 데이터를 학습 데이터, 검증 데이터, 테스트 데이터로 나누어야 합니다. 보통 비율은 5 : 3 : 2 로 정합니다. 따라서 생각보다 많은 데이터를 보유해야만 좋은 모형을 만들 수 있습니다. 학습 데이터 : train data : 모형 f 를 추정하는 데 필요합니다. 검증 데이터 : validation data : 추정한 모형 f 가 적합한지 검증합니다. 테스트 데이터 : test data : 최종적으로 선택한 모형의 성능을 평가합니다. 데이터 분할 : 전체 데이터를 학습 데이터, 검증 데이터, 테스트 데이터로 나누어집니다. 모형 학습 : 학습 데이터를 사용하여, 각 모형을 학습합니다. 모형 선택 : 검증 데이터를 사용하여, 각 모형의 성능을 비교하고 선택합니다..
머신러닝 : 모형의 적합성 : 평가 방법 모형의 적합성을 평가하는 방법 모형의 복잡도에 따른 학습 집합의 MSE(회색)와 검증 집합의 MSE(빨간색)의 변화를 위 그림을 통해 알아보았습니다. 학습 집합의 MSE는 복잡한 모형일수록 감소합니다. 학습 데이터가 아닌 또 다른 데이터 (검증 데이터)의 MSE는 일정 시점 이후로 증가합니다. 증가하는 원인은 왼쪽 그림에 초록색처럼 학습 집합에 과적합되기 때문입니다. 그렇다면, 각 색깔마다 어떠한 결과가 나왔는 지 알아보도록 하였습니다. 검은색 : 실제 f를 나타내는 모형입니다. 노란색 : 가장 낮은 복잡도를 가지므로 편파성이 높아져 가장 높은 MSE 값을 가집니다. 초록색 : 가장 높은 복잡도를 가지므로 학습 집합에 과적합되어 있습니다. 분산이 높아집니다. 따라서, 검증 데이터의 MSE가 하늘색에 비해..
머신러닝 : 분산(variance)과 편파성(Bias)의 딜레마 분산(variance)과 편파성(Bias)의 딜레마 모형 f^(x)로 모집단의 전체 데이터를 예측하는 경우 발생하는 총 에러를 계산합니다. 이 떄 에러는 reducible error와 irreducible error로 표현됩니다. reducible 에러는 다시 분산과 편파성으로 구성됩니다. 분산은 전체 데이터 집합 중 다른 학습 데이터를 이용했을 떄, 추정한 f가 변하는 정도를 의미합니다. 복잡할 수록 분산이 높아집니다. 편파성은 학습 알고리즘에서 잘못된 예측을 할 떄, 발생하는 오차를 의미합니다. 간단할수록 편파성이 높습니다. 복잡한 모형 f^(x) 를 사용하여 편파성을 줄일 수 있습니다. 그러며 반대로 분산이 커지는 것입니다. 간단한 모형이라면 그 반대의 현상이 발생하는 것입니다. 따라서, 엔지니어들..
머신러닝 : 데이터셋 , 과적합(오버피팅) : 개념, 팁, 의미, 개요 최적의 데이터 셋 분석용 데이터의 이상적 조건에 대해 알아보도록 하겠습니다. 입력 데이터에 상관성이 작아야 이상적입니다. 반면에 입력 데이터와 출력 데이터의 상관성이 커야 합니다. 위 두 성질을 만족하는 소수의 입력 변수 집합이 이상적이라고 할 수 있습니다. 또한 많은 양질의 데이터가 있으면 좋습니다. 양질의 데이터란 결측치와 노이즈가 없는 깨끗한 데이터를 의미합니다. 현실적으로는 입력 변수는 많고 출력 변수는 적은 데이터가 많습니다. 이러한 데이터는 모형의 성능이 떨어지는 문제가 발생할 수 있습니다. 입력 변수는 상관성이 적고, 출력 변수는 상관성이 큰 독립 변수만을 추출하고 선택해야 합니다. 그러기 위해서 변수를 선택하고 차원을 축소하는 과정이 필요합니다. 과적합 문제 과적합에 대해 알아보도록 하겠습..