딥러닝의 다른 것들과 마찬가지로 학습 속도 비율에 대해 더 깊이 파고들어야 합니다. 간단한 규칙을 사용하여 학습 속도를 조정하는 대신, 이 주제에 대한 고급 연구 결과를 사용할 수 있습니다.
Ada grad를 사용하면 마술이 평소대로 일어날 것이라고 말할 수 있습니다. 머신 러닝으로 훈련 할 때 최첨단 머신 러닝으로 전체 비디오를 살펴 보는 것이 좋습니다. 모델 훈련을 위한 최상의 방법을 선택할 수 있어야 합니다.
먼저 우리는 Ada grad는 Adaptive Gradient 알고리즘의 약자이며 2011년에 새로 제안되었으므로 각 업데이트 및 모든 가중치에 대해 학습 속도를 동적으로 변경하므로, 원래 규칙은 다른 방식이었습니다.
w의 변화는 m과 같습니다. 학습 속도와 W에 대한 손실의 부분 미분 값을 곱한 것. Adaptive Gradient을 고려할 때 지금까지 새로운 것은 없었습니다.
가중치의 변화는 같은 표현으로 시작됩니다. G는 EPOC T에서의 Adaptive G가 T에서 1에 그라디언트의 제곱을 더하고 Epoq t가 0과 같지 않은 g에서 시작한다는 것을 의미합니다.
음수가 아닌 숫자에 더해지기 때문에 각 단계 G는 증가합니다. 따라서 G는 단조 증가하는 함수입니다. 학습 속도를 단조 증가 함수로 나눈 값은 분명히 감소합니다. G가 0이면 나눗셈을 수행 할 수 없기 때문에 약간의 숫자를 입력해야합니다.
기본적으로 Smart Adatpvie Learning rate 스케줄러는 기본적으로 효과적인 학습 속도가 기반이라는 사실을 나타냅니다. 훈련 과정과 상관없이 모든 값이 계산되는 기하 급수적 일정과 같은 사전 설정된 학습 일정이 아닙니다. 또 다른 중요한 점은 적응이 가중치 당 동작하는 것입니다. 이는 전체 네트워크의 모든 개별 체중이 다른 가중치가 동시에 최적의 값에 도달하지 않으므로 중요한 관찰입니다.
두 번째 방법은 RMS Prop 또는 근사 평균 제곱 전파입니다. 업데이트 규칙이 정의된 Ada grad와 매우 유사합니다. 같은 방식이지만 g 함수는 약간 다릅니다. 두 항에는 가중치 베타와 하나의 마이너스 베타가 각각 할당됩니다.
이 새로운 하이퍼 매개 변수 베타는 0과 1 사이의 숫자입니다. 운동량 섹션의 알파와 비슷한 상황을 보였으며, 여기서 함수가 더 이상 단조롭게 증가하지 않는다는 의미입니다. e의 식을 G의 제곱근으로 나눈 값은 단조 감소하지 않습니다.
경험적 증거에 따르면 이러한 방식으로 속도가 훨씬 더 효율적으로 적응할 수 있습니다. 두 방법 모두 매우 논리적이고 똑똑합니다. 그러나 이 두 가지를 기반으로 한 세 번째 방법이 우수합니다. 다음번에는 세번째 방법에 대해 공부해보도록 하겠습니다.
'SW > 딥러닝' 카테고리의 다른 글
37. 딥러닝 : Preprocessing (전처리) : 개념, 목적 (0) | 2020.08.27 |
---|---|
36. 딥러닝 : Adaptive Moment Estimation : 개념, 분석, 개요 (0) | 2020.08.23 |
34. 딥러닝 : 학습률 (learning rate) : 좋은 학습 속도인지 분별하는 방법 (0) | 2020.03.28 |
33. 딥러닝 : 학습률 (learning rate) : 방법, 원리, 설정 팁, 개념 (0) | 2020.03.27 |
32. 딥러닝 : 모멘텀 (Momentum) : 개념, 원리, 필요 이유 (1) | 2020.03.26 |