728x90 AI/강화학습1 Model Free Control Control - 환경을 모를 때 최적의 정책을 찾는 것 - 저번 강의에선 MDP를 모를 때 value를 찾는 prediction 문제에 대해 다룸- 이번 강의에선 MDP를 모를 때 최적의 정책을 찾는 것을 다룸(최적의 가치 = 최적의 정책) - On-policy는 내가 최적화하고자 하는 정책과 환경에서 경험을 쌓는 정책이 같은 것- Off-policy는 다른 에이전트가 행동한 경험들을 통해 배우는 정책 방법 정책 평가 (Policy Evaluation):현재 정책 π\piπ에 대해 상태가치 함수 VπV^\piVπ를 추정합니다.예: 반복 정책 평가 (Iterative Policy Evaluation)정책 개선 (Policy Improvement):현재 정책 π\piπ를 사용하여 새로운 정책 π′\pi'.. 2024. 6. 25. 이전 1 다음 728x90