728x90
Part 2: 강화학습 알고리즘의 종류
이제 우리는 강화학습(RL)의 기본 용어와 표기법을 이해했으므로, 현대 RL 알고리즘의 다양한 유형과 알고리즘 설계 시 고려해야 할 트레이드오프(trade-offs)를 살펴볼 수 있습니다.
RL 알고리즘의 분류
🔹 RL 알고리즘의 분류 체계
아래 그림은 현대 RL 알고리즘의 비포괄적(non-exhaustive)이지만 유용한 분류 체계입니다. RL 알고리즘은 모듈성이 높아 트리 구조로 완벽하게 정리하기 어렵지만, 핵심적인 설계 선택지와 관련된 트레이드오프를 설명하기 위해 이 분류법을 사용합니다.
🚀 RL 알고리즘 설계의 주요 요소
이 섹션에서는 다음을 목표로 합니다.
- 심층 강화학습(Deep RL) 알고리즘의 주요 설계 선택지를 강조
→ 무엇을 학습할 것인가? 어떻게 학습할 것인가? - 이 선택지에서 발생하는 트레이드오프를 설명
→ 각 방법의 장점과 단점 - 대표적인 최신 RL 알고리즘을 해당 선택지의 맥락에서 설명
→ 유명한 RL 알고리즘이 어떤 맥락에서 사용되는지 이해
1️⃣ 모델 기반 vs 모델 프리 RL
강화학습 알고리즘에서 가장 중요한 분기점 중 하나는 에이전트가 환경의 모델을 학습하거나 활용하는지 여부입니다.
📌 모델(Model)이란?
모델이란, 현재 상태(state)에서 다음 상태로의 전이(transition)와 보상(reward)을 예측할 수 있는 함수를 의미합니다.
✅ 모델을 활용하는 장점 (Model-Based RL)
- 계획(Planning)이 가능해짐
→ 앞으로 발생할 수 있는 결과를 예측하고 최적의 선택을 할 수 있음
→ 대표적인 예: AlphaZero - 샘플 효율성(Sample Efficiency) 증가
→ 환경과 직접 상호작용하는 것보다 빠르게 학습 가능
❌ 모델을 활용하는 단점
- 완벽한 환경 모델은 거의 없음
→ 환경의 동적 변화를 완벽하게 반영하는 모델을 갖추기 어렵다. - 모델의 편향(Bias)이 문제를 초래할 수 있음
→ 모델이 학습한 내용이 실제 환경과 다를 경우, 성능이 저하되거나 엉뚱한 행동을 할 수 있음
→ 예: 모델을 활용했더니 실제 환경에서 성능이 극도로 나빠지는 경우
🔹 모델 기반 (Model-Based) vs 모델 프리 (Model-Free)
모델 기반 RL모델 프리 RL
장점 | 샘플 효율성이 높음 | 구현이 쉽고 안정적 |
단점 | 모델이 부정확하면 성능 저하 | 샘플 효율성이 낮음 |
예시 | AlphaZero, Dyna | DQN, PPO, A2C |
현재(2024년 기준)에도 모델 프리 방법이 더 많이 사용되고 있으며, 모델 기반 방법은 연구가 활발히 진행 중입니다.
2️⃣ 무엇을 학습할 것인가? (What to Learn)
강화학습에서 학습할 수 있는 요소는 다음과 같습니다.
✅ 학습할 수 있는 요소들
- 정책(Policy) : 에이전트가 어떤 행동을 해야 할지 결정하는 함수
- Q 함수(Action-Value Function) : 상태-행동 쌍의 가치를 나타내는 함수
- 가치 함수(Value Function) : 상태의 가치를 나타내는 함수
- 환경 모델(Environment Model) : 환경의 동작 방식을 학습하는 모델
3️⃣ 모델 프리 RL에서의 학습 방식
🔹 정책 최적화 (Policy Optimization)
- 정책을 확률적으로 또는 결정적으로 나타내고 직접 최적화
- 온-정책(On-policy) 학습 방식 → 최신 정책으로만 학습
- 대표 알고리즘
- A2C / A3C: 정책의 성능을 직접 최대화
- PPO: 성능 변화가 너무 급격하지 않도록 보조 목적 함수(surrogate objective) 사용
🔹 Q-러닝 (Q-Learning)
- Q 함수 Q(s,a)Q(s, a) 를 학습하여 최적 정책을 찾음
- 오프-정책(Off-policy) 학습 방식 → 과거의 경험도 재사용 가능 → 샘플 효율성 증가
- 대표 알고리즘
- DQN: 딥러닝을 활용한 Q-learning 기법
- C51: 보상을 확률 분포 형태로 모델링하는 Q-learning 기법
🔹 정책 최적화 vs Q-Learning 비교
정책 최적화Q-Learning
강점 | 직접 최적화 → 안정적 | 샘플 효율성이 높음 |
약점 | 샘플 효율성이 낮음 | 학습이 불안정할 수 있음 |
예시 | A2C, PPO | DQN, C51 |
🔹 두 가지 방법을 혼합한 기법 (예: DDPG, SAC)
- DDPG: 결정적 정책을 학습하면서 Q-러닝도 활용
- SAC: Q-learning과 정책 최적화를 혼합하여 안정적인 학습 가능
4️⃣ 모델 기반 RL에서의 학습 방식
🔹 ① 순수 계획 (Pure Planning)
- 정책을 직접 학습하지 않고, 환경 모델을 이용해 계획(Planning)만 수행
- 대표적인 기법: MPC (Model Predictive Control)
→ 매 단계마다 최적의 행동을 예측한 후, 첫 번째 행동만 실행
🔹 ② 전문가 반복 학습 (Expert Iteration)
- 모델을 활용해 여러 행동을 시뮬레이션하고 최적 행동을 선택한 후, 정책을 업데이트
- 대표적인 기법:
- AlphaZero: 몬테카를로 트리 탐색(MCTS)와 신경망을 결합하여 학습
🔹 ③ 모델을 활용한 데이터 증강 (Data Augmentation)
- 모델을 활용해 가짜 경험을 생성하고, 이를 학습에 활용
- 대표적인 기법:
- MBVE (Model-Based Value Expansion)
- World Models (모델을 학습한 후, 모델 안에서 학습 진행)
🔹 ④ 계획을 정책 내부에 포함 (Planning Embedded in Policy)
- 정책 내부에 계획 기능을 포함하여, 계획이 필요한 경우에만 모델을 사용하도록 함
- 대표적인 기법:
- I2A (Imagination-Augmented Agents): 정책이 스스로 계획을 활용할지를 결정
✅ 결론: 강화학습 알고리즘 선택 가이드
🔹 모델 프리 vs 모델 기반
- 빠르게 학습하고 싶다면? → 모델 기반 RL
- 안정적으로 학습하고 싶다면? → 모델 프리 RL
🔹 정책 최적화 vs Q-Learning
- 안정적인 학습이 필요하다면? → 정책 최적화 (PPO, A2C)
- 샘플 효율성이 중요하다면? → Q-Learning (DQN, SAC)
728x90
'AI > 강화학습' 카테고리의 다른 글
7. [OPENAI] Part 1: Key Concepts in RL (0) | 2025.01.24 |
---|---|
6. [OPENAI] Plotting Results (0) | 2025.01.23 |
5. [OPENAI] Experiment Outputs (1) | 2025.01.22 |
4. [OPENAI] Running Experiments (0) | 2025.01.21 |
3. [OPENAI] Algorithms (0) | 2025.01.20 |