본문 바로가기

AI21

Model Free Prediction - Model Free : MDP에 대한 정보를 모르는 상황 - Prediction : 주어진 policy 에 대하여 value function 을 찾는 것 - 본 단원에서는 MDP에 대해 알 수 없는 상황에서 주어진 Policy를 평가하는 것, 즉 대응하는 value function을 찾는 것에 대해 배울 수 있습니다. - DP는 MDP를 푼 것- 이번 강의에선 Model-free prediction(value function 찾기)- 다음 강의에선 정책 찾기 - 몬테카를로 - 직접 구하기 어려운 문제를, 직접 하나씩 해보면서 실제 값들을 통해서 추출하는 것 - 특정 상태에 처음 방문한 것만 카운팅함- 특정 상태에 방문한 모든 방문 횟수를 카운트 - 몬테카를로는 결국 여러번 해본것의 평균을 구하는 것이.. 2024. 6. 16.
Planning by Dynamic Programming - Policy Evaluation - 정책이 정해졌을때(고정), Value Function이 어떻게 될지 찾는 것- Policy Iteration - 최적의 정책을 찾아나가는 과정, 정책 중심- Value Iteration - 최적의 정책을 찾아나가는 과정, 밸류 중심 다이나믹 프로그래밍이란? 복잡한 문제를 푸는 방법론이다. 큰 문제를 작은 문제로 분할해서 풀고, 그 솔류션들을 저장해서 모아서 큰 문제를 해결 1. 큰 문제가 작은 문제로 나뉘어졌을때 답이 나와야 한다.2. 작은 문제들을 저장해 둬서 사용이 가능해야 한다.3. 마크로브 결정 과정이 동적 프로그래밍과 유사하다. - 다이나믹 프로그래밍은 MDP에 대한 모든 지식을 알고 있다고 가정한다.- prediction 문제는 value function.. 2024. 6. 15.
Markov Decsion Processes(MDP) 마르코프 결정 과정(MDP)- MDP란? RL에서 환경(environmnet)을 설정하는 것이다. t+1의 상태는, 오직 이전인 t상태만 고려!1. Markov Processor- 마르코프 프로세스란, 특정 상태에서 다른 상태로 전이할 확률P를 의미한다. - State는 7개, 화살표는 State의 전이하는 것. 확률도 써있다. Sleep는 마지막 종료 프로세스로 생각하면 된다. Pass로 가면 무조건 Sleep으로 가서 끝낸다. - 에피소드(episode)는 랜덤한 한 상태에서 시작하여, 특정 상태에 도달하는 것 까지의 과정을 에피소드라고 한다. 에피소드를 여러개 하는것을 샘플링이라고 한다. 에피소드 하나를 샘플이라고 볼 수 있다.-State Transition Matrix: t상태에서, t+1의 상태.. 2024. 5. 12.
강화학습 소개(David Silver) - 인공지능 학습은 크게 머신러닝이 있고, 머신러닝으로 지도 학습, 비지도 학습, 강화학습 3종류가 있다.강화학습의 특징1. 강화학습에는 답을 알려주는 사람이 없고, 오직 보상 신호만 제공한다.- 레이블(지도 학습)을 제공하는게 아닌, 목표만 정해주는 것임!2. 피드백이 즉각적으로 제공되지 않고, 약간의 딜레이가 있을 수 있다.- 내가 좋은 액션을 했을 때 바로 보상이 주어지지 않고 나중에 받을 수도 있다. (단점)3. 시간이 중요하다. 연속적인 데이터를 제공받기 때문이다. (순서도 중요함)4. 에이전트의 행동은 받게되는 데이터에 영향을 준다. 정해진 데이터 셋을 잘 정해줘야 한다.보상이란?- 보상은 무조건 스칼라 값이다.- 에이전트가 얼마나 잘하고 있냐의 지표이다.- 한 학습에서 보상 값들의 합이 최대.. 2024. 5. 11.
AI 학습의 이해(입력층, 은닉층, 출력층) 입력값 1000개, 은닉층 100개, 출력층 10, 각각의 뉴런을 설정한다고 가정하자, 입력이 1000개 들어오면, 일단 은닉층을 100개 선언할 때 각각의 은닉층의 뉴런들은 랜덤한 가중치를 갖게된다. 입력1000개에 대하여 가중치를 곱하고(벡터의 경우 내적) 그 값을 은닉층에 있는 뉴런들이 갖게되고, 그 값을 다시 랜덤하게 가중치가 설정된 출력층 10개의 뉴런에 곱하면, 결국 그게 출력층 10개의 뉴런이 서로 다른 값으로 만들어진다. 입력층에서 넣어준 1000개의 데이터가, '1'이라는 숫자가 그려진 사진의 픽셀 데이터였다면 출력층에서는 값이 가장 큰 값을 가지는 뉴런을 최종 학습하는 뉴런으로 본다. 예를들어 출력층 뉴런의 값들이 100, 200, 300, 400, 500, 600, 700, 800, .. 2024. 5. 5.
Image 처리, grabCut, Canny Edge Detection 알고리즘 GrabCub 알고리즘이란? grabCut 알고리즘은, 이미지에서 전경을 추출하거나, 분리하기 위한 기술이다. 제공해준 특정 영역을 바탕으로 이미지의 전경과 배경을 구분한다. 가우시안 혼합 모델(GMM)사용 그래프 (Graph Cut) 알고리즘을 사용하여, 이미지가 그래프로 변환된 후, 그래프를 잘라서 전경과 배경을 분리 그래프 알고리즘에서 이미지를 그래프로 변환할 떄, 각 픽셀은 노드(node)로, 픽셀 간의 관계는 에지(Edge)로 표현됨 픽셀간의 유사성에 따라 에지에 가중치를 더함.(ex 색상, 밝기 등) 그래프를 두 부분으로 잘라 에지 가중치의 합이 최소가 되는 컷을 찾아 분리하는 것임. Candy Edge Detection 알고리즘이란? 1. 가우시안 필터로 이미지의 노이즈를 줄인다. 2. 그래.. 2024. 4. 14.