SW/딥러닝

33. 딥러닝 : 학습률 (learning rate) : 방법, 원리, 설정 팁, 개념

얇은생각 2020. 3. 27. 07:30
반응형

하이퍼 매개 변수의 개념을 소개합니다. 가중치, 바이어스 매개 변수는 알고리즘의 가중치 및 깊이와 숨겨진 유닛의 값과 레이어 값과 같은 것입니다. 알고리즘과 데이터에 가장 적합한 경로를 찾기 위해 하이퍼 매개 변수를 가져야 한다고 언급 했습니다.

 

 

 

 

최소값으로 크게 진동하지 않고 최소값에 도달하거나 무한대로 분기하지 않고 손실 함수가 완만하게 내려갈 수 있을 정도로 작아야합니다. 또한 최적화가 적당한 시간 내에 이루어 지도록 충분히 커야 했습니다. 하나의 매개 변수에 대해 그라디언트 하강에 제공하는 것으로 학습 속도가 있습니다.

충분히 작거나 충분히 큰 학습률은 너무 모호합니다. 적절한 학습 속도 선택을 다루는 현명한 방법은 소위 학습 속도 스케쥴을 채택하는 것입니다. 학습 속도 스케쥴은 가장 좋은 방법 중 하나입니다.

 

 

 

학습 속도 설정 방법

 

높은 초기 학습 속도에서 시작합니다. 이로 인해 더 빠른 훈련이 이루어집니다. 이러한 방식으로 훈련이 훈련이 끝날 무렵에 점차적으로 속도를 낮추고,0 최소에 빠르게 접근합니다. 학습 스케쥴을 실제로 구현하는 방법 두 가지 기본 방법이 있습니다. 가장 간단한 방법은 미리 결정된 부분 단위 학습 속도를 설정하는 것입니다.

예를 들어 학습 속도는 0.1입니다. 처음 5 개의 에포크의 경우 0.01, 다음 5의 경우 0.01, 끝까지의 0.001. 이로 인해 손실 함수가 최소로 훨씬 빠르게 수렴되어 정확한 결과를 얻을 수 있습니다.

 

 

 

지수 일정 방식

 

두 번째로 더 똑똑한 접근 방식은 지수 일정입니다. 지수 일정은 학습 속도를 부드럽게 줄이는 것보다 훨씬 나은 대안입니다. 일반적으로 eata와 같은 높은 값에서 시작합니다. 이 식에서 규칙을 사용하는 방법은 현재 에포크(C)는 상수이면서, 위 그림에서는 C는 20에 해당하는 학습률로 제공합니다. 상수 C에 대한 규칙은 없지만 일반적으로 크기 순서는 같아야 합니다.

예를 들어 100에서 100까지의 에포크 값이 필요한 경우 50에서 500 사이의 c 값이 모두 괜찮습니다. 500에서 5000까지의 1000 값이 필요한 경우 일반적으로 훨씬 적을 것입니다. c의 정확한 값은 그다지 중요하지 않습니다. 큰 차이를 만드는 것은 학습률 자체가 있다는 것입니다. C는 하이퍼 매개 변수입니다. 모든 하이퍼 매개 변수는 특정 문제에 차이를 줄 수 있습니다. c의 다른 값을 시도하여 얻은 결과에 어떤 영향을 미치는지 확인할 수 있습니다.

학습 스케쥴 및 모멘텀과 같은 멋진 새로운 개선 사항에 대해 알아보았습니다. 하이퍼 파라미터의의 값을 증가시켜 더욱 좋은 결과를 만드는 경우가 많습니다. 일반적으로 이러한 규칙은 잘 동작하지만, 일부 특정 문제에 대해서는 그렇지 않을 수 있습니다.

반응형