본문 바로가기

728x90

AI/강화학습14

PPO(Proximal Policy Optimization Algorithms) 알고리즘 🚦 PPO의 핵심 개념PPO는 정책 최적화(Policy Optimization) 방식을 사용하며, **신뢰 영역(Trust Region)**을 유지(정책 업데이트 폭을 조절)하면서 정책을 업데이트하는 데 중점을 둡니다. 주요 특징은 다음과 같습니다:정책 기반 학습(Policy-Based Learning)액션을 직접적으로 출력하는 **정책 πθ(a|s)**를 학습합니다.가치 기반(Value-Based) 알고리즘과 달리, 정책(Policy) 자체를 최적화합니다.클리핑(Clipping) 기법 사용기존의 TRPO는 KL Divergence를 사용해 정책 업데이트 폭을 제한했지만, PPO는 이를 **클리핑(Clipping)**으로 대체하여 복잡한 계산을 줄였습니다.손실 함수를 클리핑하여 정책 변화 폭을 제한함으.. 2025. 2. 25.

8. [OPENAI] Part 2: Kinds of RL Algorithms Part 2: 강화학습 알고리즘의 종류이제 우리는 강화학습(RL)의 기본 용어와 표기법을 이해했으므로, 현대 RL 알고리즘의 다양한 유형과 알고리즘 설계 시 고려해야 할 트레이드오프(trade-offs)를 살펴볼 수 있습니다.RL 알고리즘의 분류🔹 RL 알고리즘의 분류 체계아래 그림은 현대 RL 알고리즘의 비포괄적(non-exhaustive)이지만 유용한 분류 체계입니다. RL 알고리즘은 모듈성이 높아 트리 구조로 완벽하게 정리하기 어렵지만, 핵심적인 설계 선택지와 관련된 트레이드오프를 설명하기 위해 이 분류법을 사용합니다.🚀 RL 알고리즘 설계의 주요 요소이 섹션에서는 다음을 목표로 합니다.심층 강화학습(Deep RL) 알고리즘의 주요 설계 선택지를 강조→ 무엇을 학습할 것인가? 어떻게 학습할 것인.. 2025. 2. 4.

7. [OPENAI] Part 1: Key Concepts in RL RL은 에이전트(agent)가 시도와 실패(trial and error)를 통해 학습하는 방법을 다루며, 행동에 대한 보상이나 처벌이 미래 행동을 변화시키는 방법을 공식화한 학문입니다.What Can RL Do?강화 학습의 활용 사례:로봇 제어(시뮬레이션 및 실제 환경에서)전략 게임(예: 바둑, Dota)에서의 인공지능 학습아타리 게임을 픽셀 정보만으로 학습사람의 명령을 따르는 시뮬레이션 로봇 학습Key Concepts and TerminologyAgent와 EnvironmentAgent(에이전트): 학습하고 행동을 수행하는 주체Environment(환경): 에이전트가 상호작용하는 세상에이전트는 상태(state)나 관측(observation)을 기반으로 행동(action)을 선택하며, 행동의 결과로 보상.. 2025. 1. 24.

6. [OPENAI] Plotting Results Spinup의 결과 플로팅 유틸리티는 실험 데이터를 시각화하는 데 유용합니다. 이를 사용하면 실험의 성능을 비교하거나 데이터를 보다 명확하게 해석할 수 있습니다. 다음 명령어로 플로팅 유틸리티를 실행할 수 있습니다:python -m spinup.run plot [path/to/output_directory ...] [--legend [LEGEND ...]] [--xaxis XAXIS] [--value [VALUE ...]] [--count] [--smooth S] [--select [SEL ...]] [--exclude [EXC ...]]필수 인자 (Positional Arguments)logdir설명:플로팅할 로그 디렉토리 또는 디렉토리 접두어(prefix)를 문자열로 입력합니다.플로팅 유틸리티는 제공.. 2025. 1. 23.

5. [OPENAI] Experiment Outputs 1. 알고리즘 출력Spinning Up에서 실행된 알고리즘은 아래와 같은 항목들을 저장합니다:하이퍼파라미터 설정학습 진행 상태학습된 에이전트와 가치 함수가능하다면 환경의 복사본출력 디렉토리 구조pyt_save/: PyTorch 학습 결과 저장.내용: model.pt는 학습된 에이전트를 복원할 수 있는 PyTorch 모델.tf1_save/: Tensorflow 학습 결과 저장.내용: Tensorflow SavedModel 관련 파일들 (variables/, model_info.pkl, saved_model.pb).config.json: 실험 실행 시 사용된 파라미터를 기록한 JSON 파일 (단, 실행 재현 불가).progress.txt: 학습 진행 상태 (예: Epoch, Average Return 등) .. 2025. 1. 22.

4. [OPENAI] Running Experiments 핵심 요약: Spinning Up 실험 실행 방법Spinning Up은 강화학습 실험을 체계적으로 관리하고 쉽게 실행할 수 있는 다양한 기능을 제공합니다. 명령줄 실행, 스크립트 실행, ExperimentGrid를 사용하여 하이퍼파라미터 탐색을 지원합니다.1. 명령줄에서 실행기본 형식:python -m spinup.run [알고리즘 이름] [플래그]예시:python -m spinup.run ppo --env Walker2d-v2 --exp_name walker중요 매개변수:--env: Gym 환경 이름 지정 (예: Walker2d-v2).--exp_name: 실험 이름 (저장 디렉토리 이름에도 사용).--seed: 랜덤 시드 값 설정 (다수 값 제공 시 여러 실험 실행).--hid: 신경망의 히든 레이어.. 2025. 1. 21.

이전 1 2 3 다음

728x90

티스토리툴바