반응형
학습률에 대해 이야기하지 않고 포스팅을 하는 동안, 위 그림이 매우 중요하지만, 크게 다루지는 않았습니다.
지금까지는 낮은 학습 속도 사례만 살펴보았습니다. 목표에 도달하는 작은 학습 속도를 사용했습니다. 그러나 학습 속도가 높으면 손실을 빠르게 최소화할 수 있지만, 어느정도까지만 도달하고, 진동을 시작하고 손실 값이 멈추게 됩니다.
학습률이 너무 높을수록 손실을 최소화할 수 없으며 비용은 그래프에서 볼 수 있듯이 상향으로 폭발 할 것입니다. 지수 적으로 스케쥴에 따라 정의된 학습률과 같이 잘 선택된 학습률은 낮은 학습률보다 훨씬 빨리 손실을 최소화합니다. 또한 높은 학습 속도보다 더 정확하게 수행 할 수 있습니다.
개발자는 항상 좋은 학습 속도를 목표로 하고 있습니다. 문제는 특정 데이터 모델에 대한 이 학습 속도가 무엇인지 모른다는 것입니다. 지금 몇 가지 학습률 값을 보여주고 있으며 가장 좋은 곡선과 가장 유사한 것을 찾아내기 위해 노력해야 합니다.
높은 학습률은 손실을 최소화하지 못할 수 있습니다. 낮은 학습률은 결국 좋은 학습률과 수렴합니다. 그러나, 시간이 좀 더 소요될 것입니다. 이 내용이 유용하지만, 의심스러운 내용들이 있을 것입니다. 해당 내용들은 나중 포스팅에서 알아보도록 하겠습니다.
반응형
'SW > 딥러닝' 카테고리의 다른 글
36. 딥러닝 : Adaptive Moment Estimation : 개념, 분석, 개요 (0) | 2020.08.23 |
---|---|
35. 딥러닝 : Adaptive Learning Rate Schedules : 개념, 방법, 개요 (0) | 2020.08.22 |
33. 딥러닝 : 학습률 (learning rate) : 방법, 원리, 설정 팁, 개념 (0) | 2020.03.27 |
32. 딥러닝 : 모멘텀 (Momentum) : 개념, 원리, 필요 이유 (1) | 2020.03.26 |
31. 딥러닝 : 경사 하강 함정 (gradient descent pitfalls) : 원인, 이유, 배경 (0) | 2020.03.25 |