SW/딥러닝

16. 딥러닝 : 왜 딥러닝에는 비선형성이 필요한가? : 개념, 원리

얇은생각 2020. 3. 4. 07:30
반응형

활성화 함수란?

 

더 복잡한 관계를 표현할 수 있도록 비선형성이 필요하다고 말했습니다. 하지만, 비선형성을 포함시키는 중요한 이유는 선형 레이어를 쌓을 수있는 능력은 선형만 있을 때 레이어를 쌓을 수 없다는 점입니다.

 

 

 

활성화 함수가 없다면?

 

하나의 숨겨진 레이어가 있고 비선형성이 없다고 상상해보십시오. 숨겨진 레이어에는 8 개의 입력 노드가 9 개의 헤드와 노드가 있고 4 개의 출력 노드가 있으므로 8 x 9 개의 행렬이 있습니다.

입력 레이어와 숨겨진 레이어 사이의 관계를 매트릭스 W라고합니다. 선형 모델 H에 따라 숨겨진 유닛은 x 곱하기 w와 같습니다.

잠시 바이어스를 무시하고 생각해보겠습니다 .그래서 숨겨진 유닛은 행렬 H로 1 x 9의 형태로 요약됩니다. 출력 배치 선형 모델 Y에 따라 숨겨진 레이어에서 다시 한 번 h x W2와 같습니다. 이 가중치가 다르기 때문에 W2가 있습니다. 이미 H 행렬이 X와 동일하다는 것을 알고 있습니다. 얻는 것은 8 x 4 크기의 결합 행렬 W입니다.

그런 다음 딥 네트워크는 위 식과 같이 선형 모델로 단순화할 수 있습니다. 이 경우에 숨겨진 계층이 쓸모가 없다는 것을 알 수 있습니다. 결국, 이 간단한 선형 모델을 훈련 시킬 수 있으며, 수학에서도 동일한 결과를 얻을 수 있습니다. 그러나 머신 러닝에서는 그렇지 않습니다.

두 개의 연속 선형 변환은 단일 변환과 동일합니다. 결국 100개의 레이어를 추가하더라도 단일 변환으로 단순화되는 것입니다. 이것이 바로 비선형성이 필요한 이유입니다. 

 

 

 

활성화 함수가 없다면?

 

쌓이는 레이어가 결국 깊이가 없어지는 것입니다. 깊이가 없는 것은 이전에 포스팅했던 단순 선형 예제와 같아지는 것입니다. 이것이 바로 딥러닝과 머신러닝의 경계선이라고도 할 수 있습니다.

한 문장으로 왜 활성화함수가 필요한지, 왜 비선형성이 필요한지 요약할 수 있습니다. 즉, 딥 뉴럴 네트워크는 임의의 함수을 통해 복잡한 관계를 찾기 위해서는 비선형성이 필요한 것입니다.

반응형