SARSA(State–Action–Reward–State–Action)는 강화학습(Reinforcement Learning)에서 사용하는 온-폴리시(On-policy) 방법으로, 에이전트가 실제로 취한 행동을 기준으로 Q값(상태-행동 가치)을 학습하는 알고리즘임. 1. 수식SARSA는 경험의 다섯 요소에서 이름이 나옴:$$(S_t, A_t, R_{t+1}, S_{t+1}, A_{t+1})$$$S_t$: 현재 상태(State)$A_t$: 현재 행동(Action)$R_{t+1}$: 행동 후 얻는 보상(Reward)$S_{t+1}$: 다음 상태(State)$A_{t+1}$: 다음 행동(Action)👉 즉, "현재 상태-행동 $\rightarrow$ 보상 $\rightarrow$ 다음 상태-행동" 흐름을 따라..