본문 바로가기
728x90

AI21

4. [OPENAI] Running Experiments 핵심 요약: Spinning Up 실험 실행 방법Spinning Up은 강화학습 실험을 체계적으로 관리하고 쉽게 실행할 수 있는 다양한 기능을 제공합니다. 명령줄 실행, 스크립트 실행, ExperimentGrid를 사용하여 하이퍼파라미터 탐색을 지원합니다.1. 명령줄에서 실행기본 형식:python -m spinup.run [알고리즘 이름] [플래그]예시:python -m spinup.run ppo --env Walker2d-v2 --exp_name walker중요 매개변수:--env: Gym 환경 이름 지정 (예: Walker2d-v2).--exp_name: 실험 이름 (저장 디렉토리 이름에도 사용).--seed: 랜덤 시드 값 설정 (다수 값 제공 시 여러 실험 실행).--hid: 신경망의 히든 레이어.. 2025. 1. 21.
3. [OPENAI] Algorithms Spinning Up 알고리즘 설명 및 구조1. 문서에 포함된 알고리즘Spinning Up은 6개의 주요 강화학습 알고리즘을 제공합니다:Vanilla Policy Gradient (VPG)가장 기본적인 정책 경사(Policy Gradient) 알고리즘. TRPO와 PPO의 기초가 되는 알고리즘.Trust Region Policy Optimization (TRPO)정책 업데이트 안정성을 높이기 위한 기법.Proximal Policy Optimization (PPO)TRPO를 간소화하여 안정성과 샘플 효율성을 제공.Deep Deterministic Policy Gradient (DDPG)연속 제어 환경을 위한 오프-정책 Q-러닝 알고리즘.Twin Delayed DDPG (TD3)DDPG를 개선하여 안정성과 .. 2025. 1. 20.
2. [OPENAI] Installation(Window) 1. 아래 명령어로 WSL 필수 기능 활성화powershell(관리자 권한) 실행 후 명령어 입력dism.exe /online /enable-feature /featurename:Microsoft-Windows-Subsystem-Linux /all /norestartdism.exe /online /enable-feature /featurename:VirtualMachinePlatform /all /norestart 2. WSL 최신 버전 설치wsl --install이 명령은 WSL을 최신 상태로 업데이트하고 기본 배포판(Ubuntu)을 설치합니다. 3.  WSL 2 설정wsl --set-default-version 2이후 PC 재부팅 4.  "가상 머신 플랫폼"을 사용하도록 설정wsl.exe --inst.. 2025. 1. 17.
1. [OpenAI] Spinning Up in Deep RL Introduction 핵심 내용1. Spinning Up이란?딥 RL(강화학습과 딥러닝의 조합)을 쉽게 배우도록 돕는 교육 자료 및 코드 리포지토리.다음 리소스를 포함:RL 용어 및 기본 이론 설명.RL 연구자가 되는 방법에 대한 에세이.주제별로 정리된 주요 논문 목록.주요 알고리즘의 짧고 독립적인 구현 코드.RL 학습을 위한 연습 문제.2. 왜 Spinning Up을 만들었나?딥 RL은 딥러닝보다 접근하기 어려운 분야로, 새로운 연구자와 실무자가 시작하는 데 높은 장벽이 존재.주요 문제:RL 논문에서 알고리즘의 핵심 설계 세부사항이 누락되거나 모호함.기존 구현(예: Baselines, rllib)은 학습 목적보다는 연구 생산성을 위해 설계되어 이해하기 어려움.목적:새로운 연구자와 실무자가 딥 RL을 배우고 기여할 수 있도록.. 2025. 1. 16.
GPT-SoVITS 학습 가이드 보호되어 있는 글 입니다. 2025. 1. 9.
Model Free Control Control - 환경을 모를 때 최적의 정책을 찾는 것 - 저번 강의에선 MDP를 모를 때 value를 찾는 prediction 문제에 대해 다룸- 이번 강의에선 MDP를 모를 때 최적의 정책을 찾는 것을 다룸(최적의 가치 = 최적의 정책) - On-policy는 내가 최적화하고자 하는 정책과 환경에서 경험을 쌓는 정책이 같은 것- Off-policy는 다른 에이전트가 행동한 경험들을 통해 배우는 정책 방법  정책 평가 (Policy Evaluation):현재 정책 π\piπ에 대해 상태가치 함수 VπV^\piVπ를 추정합니다.예: 반복 정책 평가 (Iterative Policy Evaluation)정책 개선 (Policy Improvement):현재 정책 π\piπ를 사용하여 새로운 정책 π′\pi'.. 2024. 6. 25.
728x90