본문 바로가기
728x90

분류 전체보기441

7. [OPENAI] Part 1: Key Concepts in RL RL은 에이전트(agent)가 시도와 실패(trial and error)를 통해 학습하는 방법을 다루며, 행동에 대한 보상이나 처벌이 미래 행동을 변화시키는 방법을 공식화한 학문입니다.What Can RL Do?강화 학습의 활용 사례:로봇 제어(시뮬레이션 및 실제 환경에서)전략 게임(예: 바둑, Dota)에서의 인공지능 학습아타리 게임을 픽셀 정보만으로 학습사람의 명령을 따르는 시뮬레이션 로봇 학습Key Concepts and TerminologyAgent와 EnvironmentAgent(에이전트): 학습하고 행동을 수행하는 주체Environment(환경): 에이전트가 상호작용하는 세상에이전트는 상태(state)나 관측(observation)을 기반으로 행동(action)을 선택하며, 행동의 결과로 보상.. 2025. 1. 24.
6. [OPENAI] Plotting Results Spinup의 결과 플로팅 유틸리티는 실험 데이터를 시각화하는 데 유용합니다. 이를 사용하면 실험의 성능을 비교하거나 데이터를 보다 명확하게 해석할 수 있습니다. 다음 명령어로 플로팅 유틸리티를 실행할 수 있습니다:python -m spinup.run plot [path/to/output_directory ...] [--legend [LEGEND ...]] [--xaxis XAXIS] [--value [VALUE ...]] [--count] [--smooth S] [--select [SEL ...]] [--exclude [EXC ...]]필수 인자 (Positional Arguments)logdir설명:플로팅할 로그 디렉토리 또는 디렉토리 접두어(prefix)를 문자열로 입력합니다.플로팅 유틸리티는 제공.. 2025. 1. 23.
5. [OPENAI] Experiment Outputs 1. 알고리즘 출력Spinning Up에서 실행된 알고리즘은 아래와 같은 항목들을 저장합니다:하이퍼파라미터 설정학습 진행 상태학습된 에이전트와 가치 함수가능하다면 환경의 복사본출력 디렉토리 구조pyt_save/: PyTorch 학습 결과 저장.내용: model.pt는 학습된 에이전트를 복원할 수 있는 PyTorch 모델.tf1_save/: Tensorflow 학습 결과 저장.내용: Tensorflow SavedModel 관련 파일들 (variables/, model_info.pkl, saved_model.pb).config.json: 실험 실행 시 사용된 파라미터를 기록한 JSON 파일 (단, 실행 재현 불가).progress.txt: 학습 진행 상태 (예: Epoch, Average Return 등) .. 2025. 1. 22.
4. [OPENAI] Running Experiments 핵심 요약: Spinning Up 실험 실행 방법Spinning Up은 강화학습 실험을 체계적으로 관리하고 쉽게 실행할 수 있는 다양한 기능을 제공합니다. 명령줄 실행, 스크립트 실행, ExperimentGrid를 사용하여 하이퍼파라미터 탐색을 지원합니다.1. 명령줄에서 실행기본 형식:python -m spinup.run [알고리즘 이름] [플래그]예시:python -m spinup.run ppo --env Walker2d-v2 --exp_name walker중요 매개변수:--env: Gym 환경 이름 지정 (예: Walker2d-v2).--exp_name: 실험 이름 (저장 디렉토리 이름에도 사용).--seed: 랜덤 시드 값 설정 (다수 값 제공 시 여러 실험 실행).--hid: 신경망의 히든 레이어.. 2025. 1. 21.
3. [OPENAI] Algorithms Spinning Up 알고리즘 설명 및 구조1. 문서에 포함된 알고리즘Spinning Up은 6개의 주요 강화학습 알고리즘을 제공합니다:Vanilla Policy Gradient (VPG)가장 기본적인 정책 경사(Policy Gradient) 알고리즘. TRPO와 PPO의 기초가 되는 알고리즘.Trust Region Policy Optimization (TRPO)정책 업데이트 안정성을 높이기 위한 기법.Proximal Policy Optimization (PPO)TRPO를 간소화하여 안정성과 샘플 효율성을 제공.Deep Deterministic Policy Gradient (DDPG)연속 제어 환경을 위한 오프-정책 Q-러닝 알고리즘.Twin Delayed DDPG (TD3)DDPG를 개선하여 안정성과 .. 2025. 1. 20.
컴퓨터 용량 부족? 이 방법으로 해결하자. win + R 을 눌러서1. temp 입력 후 폴더로 들어가 전체 삭제. 임시 파일이기 떄문에 삭제하면 된다.2. %temp% 입력 후 폴더로 들어가 전체 삭제.3. wsreset.exe, 마이크로소프트 샵에 저장된 캐시, 임시파일 제거 2025. 1. 18.
728x90