주변 값에 얽매이지 않고 최소값에 도달 할 수있는 기회를 개선 할 수 있는 추가 방법을 모색해보겠습니다. 그라디언트 하강 및 확률적 그라디언트 하강은 모델을 훈련시키는 좋은 방법입니다. 그것들을 적용하면서 할 가장 간단한 확장으로 진행해야합니다.
모멘텀 (momentum)
모멘텀이란 무엇입니까? 모멘텀을 설명하는 쉬운 방법은 물리학적 비유를 통한 것입니다. 작은 언덕은 볼이 멈추지 않는 평평한 표면에 도달 할 때까지 롤링을 계속하지 않을 것입니다. 작은 언덕은 지역 최소값이고, 큰 계곡은 전역 최소값입니다.
운동량이 없으면 공은 원하는 최종 목적지에 도달하지 못합니다. 속도가 전혀 떨어지지 않고 작은 언덕에서 멈추었을 것입니다. 지금까지 모멘텀을 고려하지 않았습니다. 즉, 작은 언덕에 빠질 가능성이있는 알고리즘을 만들었습니다.
그래서 알고리즘에 운동량을 추가하는 방법에 대해 알아보아야 합니다. 규칙은 운동량을 포함한 w에 손실의 기울기를 활용합니다. 위 식을 참조해주세요. 지금까지 내려간 속도를 고려할 것입니다. 공이 빨리 굴러가는 경우 운동량은 높고 그렇지 않으면 운동량이 낮습니다. 볼이 얼마나 빨리 움직이는 지 알아내는 가장 좋은 방법은 전에 공이 얼마나 빨리 굴렀는지를 확인하는 것입니다. 이는 머신 러닝에 채택 된 방법이기도합니다.
이전 업데이트 단계에 계수에 곱하는 수식의 경우, 그렇지 않으면 현재 업데이트와 이전 업데이트에 동일한 중요치를 할당합니다. 일반적으로 알파 0.9 값을 적용해 업데이트를 조정합니다. 이것은 기존의 경험 법칙이며 많은 이들이 사용하는 것중 하나라고 합니다. 모멘텀을 고려한 학습 속도에 대해 살펴볼 계획입니다. 학습 속도는 알고리즘의 주요 하이퍼파라미터 중 하나입니다.
'SW > 딥러닝' 카테고리의 다른 글
34. 딥러닝 : 학습률 (learning rate) : 좋은 학습 속도인지 분별하는 방법 (0) | 2020.03.28 |
---|---|
33. 딥러닝 : 학습률 (learning rate) : 방법, 원리, 설정 팁, 개념 (0) | 2020.03.27 |
31. 딥러닝 : 경사 하강 함정 (gradient descent pitfalls) : 원인, 이유, 배경 (0) | 2020.03.25 |
30. 딥러닝 : 확률적 경사 하강 : 개념, 원리, 장점, 사용 이유 (0) | 2020.03.24 |
29. 딥러닝 : Xavier Initialization (변수 초기화 방법 ) : 개념, 방식, 원리, 적용 (0) | 2020.03.23 |