Adagrad(Adaptive Gradient Algorithm)는 경사하강법의 변형 알고리즘 중 하나로, 각 파라미터마다 다른 학습률을 적용해주는 방식. 자주 업데이트되는 파라미터는 학습률을 줄이고, 드물게 업데이트되는 파라미터는 학습률을 크게 해서 균형 잡힌 학습을 가능하게 함.1. 기본 아이디어경사하강법은 모든 파라미터에 동일한 학습률 η 사용 → 비효율적일 수 있음Adagrad는 파라미터마다 누적된 기울기 제곱합을 이용해 학습률을 조정2. 수식 $$g_t = \nabla_{\theta}J(\theta_t) \quad (\text{t시점의 기울기})$$ $$G_t = \sum_{\tau=1}^{t} g_{\tau}^2 \quad (\text{기울기 제곱의 누적합})$$ $$\..