728x90 AI/강화학습14 3. [OPENAI] Algorithms Spinning Up 알고리즘 설명 및 구조1. 문서에 포함된 알고리즘Spinning Up은 6개의 주요 강화학습 알고리즘을 제공합니다:Vanilla Policy Gradient (VPG)가장 기본적인 정책 경사(Policy Gradient) 알고리즘. TRPO와 PPO의 기초가 되는 알고리즘.Trust Region Policy Optimization (TRPO)정책 업데이트 안정성을 높이기 위한 기법.Proximal Policy Optimization (PPO)TRPO를 간소화하여 안정성과 샘플 효율성을 제공.Deep Deterministic Policy Gradient (DDPG)연속 제어 환경을 위한 오프-정책 Q-러닝 알고리즘.Twin Delayed DDPG (TD3)DDPG를 개선하여 안정성과 .. 2025. 1. 20. 2. [OPENAI] Installation(Window) 1. 아래 명령어로 WSL 필수 기능 활성화powershell(관리자 권한) 실행 후 명령어 입력dism.exe /online /enable-feature /featurename:Microsoft-Windows-Subsystem-Linux /all /norestartdism.exe /online /enable-feature /featurename:VirtualMachinePlatform /all /norestart 2. WSL 최신 버전 설치wsl --install이 명령은 WSL을 최신 상태로 업데이트하고 기본 배포판(Ubuntu)을 설치합니다. 3. WSL 2 설정wsl --set-default-version 2이후 PC 재부팅 4. "가상 머신 플랫폼"을 사용하도록 설정wsl.exe --inst.. 2025. 1. 17. 1. [OpenAI] Spinning Up in Deep RL Introduction 핵심 내용1. Spinning Up이란?딥 RL(강화학습과 딥러닝의 조합)을 쉽게 배우도록 돕는 교육 자료 및 코드 리포지토리.다음 리소스를 포함:RL 용어 및 기본 이론 설명.RL 연구자가 되는 방법에 대한 에세이.주제별로 정리된 주요 논문 목록.주요 알고리즘의 짧고 독립적인 구현 코드.RL 학습을 위한 연습 문제.2. 왜 Spinning Up을 만들었나?딥 RL은 딥러닝보다 접근하기 어려운 분야로, 새로운 연구자와 실무자가 시작하는 데 높은 장벽이 존재.주요 문제:RL 논문에서 알고리즘의 핵심 설계 세부사항이 누락되거나 모호함.기존 구현(예: Baselines, rllib)은 학습 목적보다는 연구 생산성을 위해 설계되어 이해하기 어려움.목적:새로운 연구자와 실무자가 딥 RL을 배우고 기여할 수 있도록.. 2025. 1. 16. Model Free Control Control - 환경을 모를 때 최적의 정책을 찾는 것 - 저번 강의에선 MDP를 모를 때 value를 찾는 prediction 문제에 대해 다룸- 이번 강의에선 MDP를 모를 때 최적의 정책을 찾는 것을 다룸(최적의 가치 = 최적의 정책) - On-policy는 내가 최적화하고자 하는 정책과 환경에서 경험을 쌓는 정책이 같은 것- Off-policy는 다른 에이전트가 행동한 경험들을 통해 배우는 정책 방법 정책 평가 (Policy Evaluation):현재 정책 π\piπ에 대해 상태가치 함수 VπV^\piVπ를 추정합니다.예: 반복 정책 평가 (Iterative Policy Evaluation)정책 개선 (Policy Improvement):현재 정책 π\piπ를 사용하여 새로운 정책 π′\pi'.. 2024. 6. 25. Model Free Prediction - Model Free : MDP에 대한 정보를 모르는 상황 - Prediction : 주어진 policy 에 대하여 value function 을 찾는 것 - 본 단원에서는 MDP에 대해 알 수 없는 상황에서 주어진 Policy를 평가하는 것, 즉 대응하는 value function을 찾는 것에 대해 배울 수 있습니다. - DP는 MDP를 푼 것- 이번 강의에선 Model-free prediction(value function 찾기)- 다음 강의에선 정책 찾기 - 몬테카를로 - 직접 구하기 어려운 문제를, 직접 하나씩 해보면서 실제 값들을 통해서 추출하는 것 - 특정 상태에 처음 방문한 것만 카운팅함- 특정 상태에 방문한 모든 방문 횟수를 카운트 - 몬테카를로는 결국 여러번 해본것의 평균을 구하는 것이.. 2024. 6. 16. Planning by Dynamic Programming - Policy Evaluation - 정책이 정해졌을때(고정), Value Function이 어떻게 될지 찾는 것- Policy Iteration - 최적의 정책을 찾아나가는 과정, 정책 중심- Value Iteration - 최적의 정책을 찾아나가는 과정, 밸류 중심 다이나믹 프로그래밍이란? 복잡한 문제를 푸는 방법론이다. 큰 문제를 작은 문제로 분할해서 풀고, 그 솔류션들을 저장해서 모아서 큰 문제를 해결 1. 큰 문제가 작은 문제로 나뉘어졌을때 답이 나와야 한다.2. 작은 문제들을 저장해 둬서 사용이 가능해야 한다.3. 마크로브 결정 과정이 동적 프로그래밍과 유사하다. - 다이나믹 프로그래밍은 MDP에 대한 모든 지식을 알고 있다고 가정한다.- prediction 문제는 value function.. 2024. 6. 15. 이전 1 2 3 다음 728x90