(DL) 확률적 경사하강법 및 옵티마이저

1. 확률적 경사하강법(SGD)

경사 하강법

확률적 경사하강법

'추천 관련글,

확률적 경사하강법은 데이터를 미니 배치로 분할합니다. 그 이후에는 주문이 영향을 받을 수 있습니다. 데이터를 섞은 후 미니 배치를 하나씩 추가합니다. 공식은 경사하강법과 동일합니다.

2. 여러 최적화 방법

1) 모멘텀 기반: 식 뒤에 추가 값이 추가됩니다. 현재 스텝 속도를 저장하고 다음 속도를 계산하여 값을 반환합니다(= 임펄스에 대한 표현). \( \gamma \) 값은 사용자가 설정하며 일반적으로 0.9입니다.

2) 적응적 학습률: 특정 규칙에 따라 \( \mu \)를 변경합니다.

ADAM(적응 모멘트 추정)

RMSProp 및 Momentum 개념 병합
가장 많이 사용
그라디언트 및 단계 크기 자체의 이전 정보를 저장하여 생성됩니다. \( \beta_{1} \) 및 \( \beta_{2} \)는 상수이며 사용자가 임의로 설정할 수 있습니다. \( \epsilon \)은 분모가 0이 되지 않도록 설정됩니다.

스케줄링

1) stepLR: 학습 과정의 수에 따른 계획. 증분이 작아진다

2) ExponentialLR: 단계 크기는 \( \gamma^{epoch}*\mu \)에 따라 점진적으로 감소합니다.

3) 코사인 글로우: 코사인 공식을 사용합니다. 반복적으로 setp 크기를 줄이고 늘립니다. Mu의 최소값과 최대값을 사용합니다.

평소 사용하는 그대로