본문 바로가기
728x90

전체 글425

9. [OPENAI] Part 3: Intro to Policy Optimization 수식적인 부분이 마크다운, html로도 작성이 정상적으로 되지 않아 본문 참고 바랍니다. (tistory 자체적인 문제로 보임)https://spinningup.openai.com/en/latest/spinningup/rl_intro3.html Part 3: Intro to Policy Optimization — Spinning Up documentationWe give a short PyTorch implementation of this simple version of the policy gradient algorithm in spinup/examples/pytorch/pg_math/1_simple_pg.py. (It can also be viewed on github.) It is only 128 l.. 2025. 2. 5.
8. [OPENAI] Part 2: Kinds of RL Algorithms Part 2: 강화학습 알고리즘의 종류이제 우리는 강화학습(RL)의 기본 용어와 표기법을 이해했으므로, 현대 RL 알고리즘의 다양한 유형과 알고리즘 설계 시 고려해야 할 트레이드오프(trade-offs)를 살펴볼 수 있습니다.RL 알고리즘의 분류🔹 RL 알고리즘의 분류 체계아래 그림은 현대 RL 알고리즘의 비포괄적(non-exhaustive)이지만 유용한 분류 체계입니다. RL 알고리즘은 모듈성이 높아 트리 구조로 완벽하게 정리하기 어렵지만, 핵심적인 설계 선택지와 관련된 트레이드오프를 설명하기 위해 이 분류법을 사용합니다.🚀 RL 알고리즘 설계의 주요 요소이 섹션에서는 다음을 목표로 합니다.심층 강화학습(Deep RL) 알고리즘의 주요 설계 선택지를 강조→ 무엇을 학습할 것인가? 어떻게 학습할 것인.. 2025. 2. 4.
7. [OPENAI] Part 1: Key Concepts in RL RL은 에이전트(agent)가 시도와 실패(trial and error)를 통해 학습하는 방법을 다루며, 행동에 대한 보상이나 처벌이 미래 행동을 변화시키는 방법을 공식화한 학문입니다.What Can RL Do?강화 학습의 활용 사례:로봇 제어(시뮬레이션 및 실제 환경에서)전략 게임(예: 바둑, Dota)에서의 인공지능 학습아타리 게임을 픽셀 정보만으로 학습사람의 명령을 따르는 시뮬레이션 로봇 학습Key Concepts and TerminologyAgent와 EnvironmentAgent(에이전트): 학습하고 행동을 수행하는 주체Environment(환경): 에이전트가 상호작용하는 세상에이전트는 상태(state)나 관측(observation)을 기반으로 행동(action)을 선택하며, 행동의 결과로 보상.. 2025. 1. 24.
6. [OPENAI] Plotting Results Spinup의 결과 플로팅 유틸리티는 실험 데이터를 시각화하는 데 유용합니다. 이를 사용하면 실험의 성능을 비교하거나 데이터를 보다 명확하게 해석할 수 있습니다. 다음 명령어로 플로팅 유틸리티를 실행할 수 있습니다:python -m spinup.run plot [path/to/output_directory ...] [--legend [LEGEND ...]] [--xaxis XAXIS] [--value [VALUE ...]] [--count] [--smooth S] [--select [SEL ...]] [--exclude [EXC ...]]필수 인자 (Positional Arguments)logdir설명:플로팅할 로그 디렉토리 또는 디렉토리 접두어(prefix)를 문자열로 입력합니다.플로팅 유틸리티는 제공.. 2025. 1. 23.
5. [OPENAI] Experiment Outputs 1. 알고리즘 출력Spinning Up에서 실행된 알고리즘은 아래와 같은 항목들을 저장합니다:하이퍼파라미터 설정학습 진행 상태학습된 에이전트와 가치 함수가능하다면 환경의 복사본출력 디렉토리 구조pyt_save/: PyTorch 학습 결과 저장.내용: model.pt는 학습된 에이전트를 복원할 수 있는 PyTorch 모델.tf1_save/: Tensorflow 학습 결과 저장.내용: Tensorflow SavedModel 관련 파일들 (variables/, model_info.pkl, saved_model.pb).config.json: 실험 실행 시 사용된 파라미터를 기록한 JSON 파일 (단, 실행 재현 불가).progress.txt: 학습 진행 상태 (예: Epoch, Average Return 등) .. 2025. 1. 22.
4. [OPENAI] Running Experiments 핵심 요약: Spinning Up 실험 실행 방법Spinning Up은 강화학습 실험을 체계적으로 관리하고 쉽게 실행할 수 있는 다양한 기능을 제공합니다. 명령줄 실행, 스크립트 실행, ExperimentGrid를 사용하여 하이퍼파라미터 탐색을 지원합니다.1. 명령줄에서 실행기본 형식:python -m spinup.run [알고리즘 이름] [플래그]예시:python -m spinup.run ppo --env Walker2d-v2 --exp_name walker중요 매개변수:--env: Gym 환경 이름 지정 (예: Walker2d-v2).--exp_name: 실험 이름 (저장 디렉토리 이름에도 사용).--seed: 랜덤 시드 값 설정 (다수 값 제공 시 여러 실험 실행).--hid: 신경망의 히든 레이어.. 2025. 1. 21.
3. [OPENAI] Algorithms Spinning Up 알고리즘 설명 및 구조1. 문서에 포함된 알고리즘Spinning Up은 6개의 주요 강화학습 알고리즘을 제공합니다:Vanilla Policy Gradient (VPG)가장 기본적인 정책 경사(Policy Gradient) 알고리즘. TRPO와 PPO의 기초가 되는 알고리즘.Trust Region Policy Optimization (TRPO)정책 업데이트 안정성을 높이기 위한 기법.Proximal Policy Optimization (PPO)TRPO를 간소화하여 안정성과 샘플 효율성을 제공.Deep Deterministic Policy Gradient (DDPG)연속 제어 환경을 위한 오프-정책 Q-러닝 알고리즘.Twin Delayed DDPG (TD3)DDPG를 개선하여 안정성과 .. 2025. 1. 20.
컴퓨터 용량 부족? 이 방법으로 해결하자. win + R 을 눌러서1. temp 입력 후 폴더로 들어가 전체 삭제. 임시 파일이기 떄문에 삭제하면 된다.2. %temp% 입력 후 폴더로 들어가 전체 삭제.3. wsreset.exe, 마이크로소프트 샵에 저장된 캐시, 임시파일 제거 2025. 1. 18.
2. [OPENAI] Installation(Window) 1. 아래 명령어로 WSL 필수 기능 활성화powershell(관리자 권한) 실행 후 명령어 입력dism.exe /online /enable-feature /featurename:Microsoft-Windows-Subsystem-Linux /all /norestartdism.exe /online /enable-feature /featurename:VirtualMachinePlatform /all /norestart 2. WSL 최신 버전 설치wsl --install이 명령은 WSL을 최신 상태로 업데이트하고 기본 배포판(Ubuntu)을 설치합니다. 3.  WSL 2 설정wsl --set-default-version 2이후 PC 재부팅 4.  "가상 머신 플랫폼"을 사용하도록 설정wsl.exe --inst.. 2025. 1. 17.
728x90