value policy1 [강화학습][2] Reinforcement Learning https://jasmine46.tistory.com/81 [강화학습][1] Reinforcement LearningReinforcement Learning 원하는 작업의 달성을 위한 별도의 구체적인 지정없이 보상(Reward)과 벌칙 (Punishment)를 통한 Agent 학습 목표 : 축적된 보상을 최대화하는 control policy를 찾는 것 St : t시간의 St..jasmine46.tistory.com Bellman Equation (벨만 방정식)어떤 상태 (state)에서 value를 구할 때, 벨만 방정식을 이용합니다.이 때 다이나믹 프로그래밍 (Dynamic Programming)을 이용하여 작은 문제로 나누고 Iteration하는 방법으로 문제를 해결합니다. 기대방정식과 최적방정식으로.. 2022. 5. 5. 이전 1 다음