SW/딥러닝

18. 딥러닝 : 소프트맥스(Softmax) : 개념, 원리, 차이점

얇은생각 2020. 3. 6. 07:30
반응형

소프트 맥스 그래프

 

대부분의 그리스 문자를 포함하는이 표를 계속 탐색해 봅시다. softmax 함수에 명확한 그래프 y가 없다고 말했으므로 공식을 주의 깊게 살펴보면 이 함수와 다른 함수의 주요 차이점을 볼 수 있습니다. 따라서 softmax 함수는 위치에 있는 요소의 지수와 같습니다. 벡터의 모든 요소의 지수의 합으로 나눕니다. 따라서 다른 활성화 함수는 입력 값을 얻습니다.

 

 

 

소프트 맥스 구하는 방식

 

SoftMax는 가지고 있는 전체 수에 대한 정보를 고려하는 다른 요소들에 관계 없이 변환합니다. 예를 들어 보겠습니다. A는 잘 알려진 모델인 xw + B와 같습니다. 3의 유닛을 가진 숨겨진 레이어를 보겠습니다. 여기서 a는 선형 조합을 통해 변환한 후 hw + B와 같습니다. 0.2에서 1을 빼고 세 개의 유닛을 가진 벡터를 얻습니다.

이제 S 자형과 같은 다른 활성화를 사용한다면 우리는 단순히 3 개의 숫자 각각에 대한 공식을 적용하고 3 개의 새로운 숫자를 포함하는 새로운 벡터를 얻을 것입니다. 그러나 SoftMax는 특별합니다. 출력은 입력의 전체 요소 집합에 따라 달라집니다.

첫 번째 SAAF 최대 값을 찾으십시오. 분모를 계산하겠습니다. 그러면 각각의 지수를 이 분모로 나눠서 새로운 벡터를 얻습니다. 결과는 0.1 0.2와 0.7입니다. 이것은 출력 레이어입니다. 변환은 출력 값이 0에서 1 사이의 범위에 있다는 것입니다. 일부는 정확히 1입니다.

 

 

 

소프트 맥스 출력

 

다른 속성이 있습니다. 바로 확률입니다. 실제로. 소프트맥스 변환의 요점은 임의로 크거나 작은 무리를 변형하는 것입니다. 이전 레이어에서 나온 숫자를 유효한 확률 분포입니다. 이것은 매우 중요하고 유용합니다.

고양이 개와 말에 대한 예제를 기억하십시오. 하나의 사진은 0.1 0.2와 0.7을 포함하는 벡터로 설명되어 있습니다. 소프트 맥스 변환을 통해 확률에 대해 알 수 있습니다. 확률을 통해 이미지가 말의 그림이라고 확신 할 수 있습니다.

다음 활성화가 종종 매우 직관적이고 유용하게 만듭니다. 알고리즘의 최종 출력 이전에 어떤 일이 발생하든 확률 분포는 지금까지 유용하게 활용되고 있습니다. 

반응형