본문 바로가기
728x90

AI10

Model Free Control Control - 환경을 모를 때 최적의 정책을 찾는 것 - 저번 강의에선 MDP를 모를 때 value를 찾는 prediction 문제에 대해 다룸- 이번 강의에선 MDP를 모를 때 최적의 정책을 찾는 것을 다룸(최적의 가치 = 최적의 정책) - On-policy는 내가 최적화하고자 하는 정책과 환경에서 경험을 쌓는 정책이 같은 것- Off-policy는 다른 에이전트가 행동한 경험들을 통해 배우는 정책 방법  정책 평가 (Policy Evaluation):현재 정책 π\piπ에 대해 상태가치 함수 VπV^\piVπ를 추정합니다.예: 반복 정책 평가 (Iterative Policy Evaluation)정책 개선 (Policy Improvement):현재 정책 π\piπ를 사용하여 새로운 정책 π′\pi'.. 2024. 6. 25.
Model Free Prediction - Model Free : MDP에 대한 정보를 모르는 상황 - Prediction : 주어진 policy 에 대하여 value function 을 찾는 것 - 본 단원에서는 MDP에 대해 알 수 없는 상황에서 주어진 Policy를 평가하는 것, 즉 대응하는 value function을 찾는 것에 대해 배울 수 있습니다. - DP는 MDP를 푼 것- 이번 강의에선 Model-free prediction(value function 찾기)- 다음 강의에선 정책 찾기 - 몬테카를로 - 직접 구하기 어려운 문제를, 직접 하나씩 해보면서 실제 값들을 통해서 추출하는 것 - 특정 상태에 처음 방문한 것만 카운팅함- 특정 상태에 방문한 모든 방문 횟수를 카운트 - 몬테카를로는 결국 여러번 해본것의 평균을 구하는 것이.. 2024. 6. 16.
Planning by Dynamic Programming - Policy Evaluation - 정책이 정해졌을때(고정), Value Function이 어떻게 될지 찾는 것- Policy Iteration - 최적의 정책을 찾아나가는 과정, 정책 중심- Value Iteration - 최적의 정책을 찾아나가는 과정, 밸류 중심 다이나믹 프로그래밍이란? 복잡한 문제를 푸는 방법론이다. 큰 문제를 작은 문제로 분할해서 풀고, 그 솔류션들을 저장해서 모아서 큰 문제를 해결 1. 큰 문제가 작은 문제로 나뉘어졌을때 답이 나와야 한다.2. 작은 문제들을 저장해 둬서 사용이 가능해야 한다.3. 마크로브 결정 과정이 동적 프로그래밍과 유사하다. - 다이나믹 프로그래밍은 MDP에 대한 모든 지식을 알고 있다고 가정한다.- prediction 문제는 value function.. 2024. 6. 15.
Markov Decsion Processes(MDP) 마르코프 결정 과정(MDP)- MDP란? RL에서 환경(environmnet)을 설정하는 것이다. t+1의 상태는, 오직 이전인 t상태만 고려!1. Markov Processor- 마르코프 프로세스란, 특정 상태에서 다른 상태로 전이할 확률P를 의미한다. - State는 7개, 화살표는 State의 전이하는 것. 확률도 써있다. Sleep는 마지막 종료 프로세스로 생각하면 된다. Pass로 가면 무조건 Sleep으로 가서 끝낸다. - 에피소드(episode)는 랜덤한 한 상태에서 시작하여, 특정 상태에 도달하는 것 까지의 과정을 에피소드라고 한다. 에피소드를 여러개 하는것을 샘플링이라고 한다. 에피소드 하나를 샘플이라고 볼 수 있다.-State Transition Matrix: t상태에서, t+1의 상태.. 2024. 5. 12.
강화학습 소개(David Silver) - 인공지능 학습은 크게 머신러닝이 있고, 머신러닝으로 지도 학습, 비지도 학습, 강화학습 3종류가 있다.강화학습의 특징1. 강화학습에는 답을 알려주는 사람이 없고, 오직 보상 신호만 제공한다.- 레이블(지도 학습)을 제공하는게 아닌, 목표만 정해주는 것임!2. 피드백이 즉각적으로 제공되지 않고, 약간의 딜레이가 있을 수 있다.- 내가 좋은 액션을 했을 때 바로 보상이 주어지지 않고 나중에 받을 수도 있다. (단점)3. 시간이 중요하다. 연속적인 데이터를 제공받기 때문이다. (순서도 중요함)4. 에이전트의 행동은 받게되는 데이터에 영향을 준다. 정해진 데이터 셋을 잘 정해줘야 한다.보상이란?- 보상은 무조건 스칼라 값이다.- 에이전트가 얼마나 잘하고 있냐의 지표이다.- 한 학습에서 보상 값들의 합이 최대.. 2024. 5. 11.
AI 학습의 이해(입력층, 은닉층, 출력층) 입력값 1000개, 은닉층 100개, 출력층 10, 각각의 뉴런을 설정한다고 가정하자, 입력이 1000개 들어오면, 일단 은닉층을 100개 선언할 때 각각의 은닉층의 뉴런들은 랜덤한 가중치를 갖게된다. 입력1000개에 대하여 가중치를 곱하고(벡터의 경우 내적) 그 값을 은닉층에 있는 뉴런들이 갖게되고, 그 값을 다시 랜덤하게 가중치가 설정된 출력층 10개의 뉴런에 곱하면, 결국 그게 출력층 10개의 뉴런이 서로 다른 값으로 만들어진다. 입력층에서 넣어준 1000개의 데이터가, '1'이라는 숫자가 그려진 사진의 픽셀 데이터였다면 출력층에서는 값이 가장 큰 값을 가지는 뉴런을 최종 학습하는 뉴런으로 본다. 예를들어 출력층 뉴런의 값들이 100, 200, 300, 400, 500, 600, 700, 800, .. 2024. 5. 5.
728x90