prediction1 [강화학습][1] Reinforcement Learning Reinforcement Learning원하는 작업의 달성을 위한 별도의 구체적인 지정없이 보상(Reward)과 벌칙 (Punishment)를 통한 Agent 학습목표 : 축적된 보상을 최대화하는 control policy를 찾는 것St : t시간의 StateAt : t시간의 ActionSt+1 : t+1시간의 StateRt : RewardS1 -> R1 -> A1 -> S2 -> R2 -> A2 -> S3 .. 지속반복하는 방법을 통하여 보상을 최대화하며 최적의 Policy를 찾아보는 것입니다.위 그림에서 에이전트 (강아지)는 강화학습의 주체, 학습하는 대상이며, 각 상황(St)에서 Action을 하고 그에 따라 Environment (사람)는 보상(Reward)을 주고 다음 상태(St+1)의 정보를 .. 2022. 5. 5. 이전 1 다음