'2026/02/23 글 목록

2026/02/23 1

SARSA(State–Action–Reward–State–Action)는 강화학습(Reinforcement Learning)에서 사용하는 온-폴리시(On-policy) 방법으로, 에이전트가 실제로 취한 행동을 기준으로 Q값(상태-행동 가치)을 학습하는 알고리즘임. 1. 수식SARSA는 경험의 다섯 요소에서 이름이 나옴:$$(S_t, A_t, R_{t+1}, S_{t+1}, A_{t+1})$$$S_t$: 현재 상태(State)$A_t$: 현재 행동(Action)$R_{t+1}$: 행동 후 얻는 보상(Reward)$S_{t+1}$: 다음 상태(State)$A_{t+1}$: 다음 행동(Action)👉 즉, "현재 상태-행동 $\rightarrow$ 보상 $\rightarrow$ 다음 상태-행동" 흐름을 따라..

AI·ML/강화학습 2026.02.23

Polaris

정보보안 실무자의 학습 기록 정보보호·개인정보보호 분야에서 일하며 공부한 내용을 정리하는 개인 아카이브입니다. 정보보호 관리체계, 개인정보보호 법령, 네트워크·시스템 보안, 클라우드 보안, 정보보호 기술 및 동향, 그 밖의 IT·CS 관심 주제를 정리합니다. 본 블로그의 모든 글은 공개된 자료와 개인 학습 경험을 바탕으로 정리한 기록입니다.

검정, 신용정보법, 통계, 딥러닝, 전처리, CERT, 가상화, 정보통신망법, 개인정보보호법, 클라우드컴퓨팅법, 데이터분석, 머신러닝, nlp, 사고대응, 실무, Ai, 네트워크, ML, 컨테이너, 클라우드,

Today :
Yesterday :

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28

2026/02/23 1

티스토리툴바