SW/딥러닝

31. 딥러닝 : 경사 하강 함정 (gradient descent pitfalls) : 원인, 이유, 배경

얇은생각 2020. 3. 25. 07:30
반응형

포스팅할 내용으로 기다리고 있었고 가장 중요하지만 일찍 포스팅하는 것은 합리적이지 않았습니다. 지금까지 그래디언트 하강과 확률적 그래디언트 하강을 보았습니다.

그라디언트 디센트 알고리즘이 시작하고, 단일 배치 GD를 내림차순으로 시작하는 것은 느리지만 결국 일관된 방식으로 최소값에 도달합니다.

 

 

 

SGD

 

SGD는 이전 포스팅에서 말했듯이 여전히 많은 가치를 지니고 있지만 훨씬 더 빠릅니다. 실제 함수는 그렇게 규칙적이지 않습니다. 실제 함수에서는 마지막 함수값이 최소값이 아니라는 것입니다.  최소한 중 하나 일뿐입니다. 

 

 

 

최소값 지점

 

최소 손실 지점을 나타냅니다. 각 로컬 최소값은 기계 학습 최적화에 대한 차선책입니다. 그라디언트 디센트는 이 문제에 취약합니다. 종종 글로벌 최소값이 아닌 시작점에서 가장 가까운 최소값에 속할 수 있습니다.

물론 학습 속도(런닝 레이트)에 따라 달라집니다. 학습 속도(learning rate)가 높을수록 첫 번째 지역 최소값을 지나치고 전체 계곡쪽으로 직접 떨어질 수 있습니다.

그라디언트 디센트에 중점을 두겠습니다. 그래서 그라디언트 디센트 최적화 방법이 전능하지 않다는 것을 의미합니다. 필요한 결과에 도달하기 위해 새로운 솔루션을 적용할 필요는 없습니다. 다음 포스팅에서는 해당 솔루션을 다루도록 하겠습니다.

반응형