728x90 AI/강화학습14 Markov Decsion Processes(MDP) 마르코프 결정 과정(MDP)- MDP란? RL에서 환경(environmnet)을 설정하는 것이다. t+1의 상태는, 오직 이전인 t상태만 고려!1. Markov Processor- 마르코프 프로세스란, 특정 상태에서 다른 상태로 전이할 확률P를 의미한다. - State는 7개, 화살표는 State의 전이하는 것. 확률도 써있다. Sleep는 마지막 종료 프로세스로 생각하면 된다. Pass로 가면 무조건 Sleep으로 가서 끝낸다. - 에피소드(episode)는 랜덤한 한 상태에서 시작하여, 특정 상태에 도달하는 것 까지의 과정을 에피소드라고 한다. 에피소드를 여러개 하는것을 샘플링이라고 한다. 에피소드 하나를 샘플이라고 볼 수 있다.-State Transition Matrix: t상태에서, t+1의 상태.. 2024. 5. 12. 강화학습 소개(David Silver) - 인공지능 학습은 크게 머신러닝이 있고, 머신러닝으로 지도 학습, 비지도 학습, 강화학습 3종류가 있다.강화학습의 특징1. 강화학습에는 답을 알려주는 사람이 없고, 오직 보상 신호만 제공한다.- 레이블(지도 학습)을 제공하는게 아닌, 목표만 정해주는 것임!2. 피드백이 즉각적으로 제공되지 않고, 약간의 딜레이가 있을 수 있다.- 내가 좋은 액션을 했을 때 바로 보상이 주어지지 않고 나중에 받을 수도 있다. (단점)3. 시간이 중요하다. 연속적인 데이터를 제공받기 때문이다. (순서도 중요함)4. 에이전트의 행동은 받게되는 데이터에 영향을 준다. 정해진 데이터 셋을 잘 정해줘야 한다.보상이란?- 보상은 무조건 스칼라 값이다.- 에이전트가 얼마나 잘하고 있냐의 지표이다.- 한 학습에서 보상 값들의 합이 최대.. 2024. 5. 11. 이전 1 2 3 다음 728x90