본문 바로가기
AI/강화학습

8. [OPENAI] Part 2: Kinds of RL Algorithms

by 보안매크로 2025. 2. 4.
728x90

Part 2: 강화학습 알고리즘의 종류

이제 우리는 강화학습(RL)의 기본 용어와 표기법을 이해했으므로, 현대 RL 알고리즘의 다양한 유형과 알고리즘 설계 시 고려해야 할 트레이드오프(trade-offs)를 살펴볼 수 있습니다.


RL 알고리즘의 분류

🔹 RL 알고리즘의 분류 체계

아래 그림은 현대 RL 알고리즘의 비포괄적(non-exhaustive)이지만 유용한 분류 체계입니다. RL 알고리즘은 모듈성이 높아 트리 구조로 완벽하게 정리하기 어렵지만, 핵심적인 설계 선택지와 관련된 트레이드오프를 설명하기 위해 이 분류법을 사용합니다.

🚀 RL 알고리즘 설계의 주요 요소

이 섹션에서는 다음을 목표로 합니다.

  1. 심층 강화학습(Deep RL) 알고리즘의 주요 설계 선택지를 강조
    → 무엇을 학습할 것인가? 어떻게 학습할 것인가?
  2. 이 선택지에서 발생하는 트레이드오프를 설명
    → 각 방법의 장점과 단점
  3. 대표적인 최신 RL 알고리즘을 해당 선택지의 맥락에서 설명
    → 유명한 RL 알고리즘이 어떤 맥락에서 사용되는지 이해

1️⃣ 모델 기반 vs 모델 프리 RL

강화학습 알고리즘에서 가장 중요한 분기점 중 하나는 에이전트가 환경의 모델을 학습하거나 활용하는지 여부입니다.

📌 모델(Model)이란?

모델이란, 현재 상태(state)에서 다음 상태로의 전이(transition)와 보상(reward)을 예측할 수 있는 함수를 의미합니다.

✅ 모델을 활용하는 장점 (Model-Based RL)

  • 계획(Planning)이 가능해짐
    → 앞으로 발생할 수 있는 결과를 예측하고 최적의 선택을 할 수 있음
    → 대표적인 예: AlphaZero
  • 샘플 효율성(Sample Efficiency) 증가
    → 환경과 직접 상호작용하는 것보다 빠르게 학습 가능

❌ 모델을 활용하는 단점

  • 완벽한 환경 모델은 거의 없음
    → 환경의 동적 변화를 완벽하게 반영하는 모델을 갖추기 어렵다.
  • 모델의 편향(Bias)이 문제를 초래할 수 있음
    → 모델이 학습한 내용이 실제 환경과 다를 경우, 성능이 저하되거나 엉뚱한 행동을 할 수 있음
    → 예: 모델을 활용했더니 실제 환경에서 성능이 극도로 나빠지는 경우

🔹 모델 기반 (Model-Based) vs 모델 프리 (Model-Free)

모델 기반 RL모델 프리 RL

장점 샘플 효율성이 높음 구현이 쉽고 안정적
단점 모델이 부정확하면 성능 저하 샘플 효율성이 낮음
예시 AlphaZero, Dyna DQN, PPO, A2C

현재(2024년 기준)에도 모델 프리 방법이 더 많이 사용되고 있으며, 모델 기반 방법은 연구가 활발히 진행 중입니다.


2️⃣ 무엇을 학습할 것인가? (What to Learn)

강화학습에서 학습할 수 있는 요소는 다음과 같습니다.

학습할 수 있는 요소들

  • 정책(Policy) : 에이전트가 어떤 행동을 해야 할지 결정하는 함수
  • Q 함수(Action-Value Function) : 상태-행동 쌍의 가치를 나타내는 함수
  • 가치 함수(Value Function) : 상태의 가치를 나타내는 함수
  • 환경 모델(Environment Model) : 환경의 동작 방식을 학습하는 모델

3️⃣ 모델 프리 RL에서의 학습 방식

🔹 정책 최적화 (Policy Optimization)

  • 정책을 확률적으로 또는 결정적으로 나타내고 직접 최적화
  • 온-정책(On-policy) 학습 방식 → 최신 정책으로만 학습
  • 대표 알고리즘
    • A2C / A3C: 정책의 성능을 직접 최대화
    • PPO: 성능 변화가 너무 급격하지 않도록 보조 목적 함수(surrogate objective) 사용

🔹 Q-러닝 (Q-Learning)

  • Q 함수 Q(s,a)Q(s, a) 를 학습하여 최적 정책을 찾음
  • 오프-정책(Off-policy) 학습 방식 → 과거의 경험도 재사용 가능 → 샘플 효율성 증가
  • 대표 알고리즘
    • DQN: 딥러닝을 활용한 Q-learning 기법
    • C51: 보상을 확률 분포 형태로 모델링하는 Q-learning 기법

🔹 정책 최적화 vs Q-Learning 비교

정책 최적화Q-Learning

강점 직접 최적화 → 안정적 샘플 효율성이 높음
약점 샘플 효율성이 낮음 학습이 불안정할 수 있음
예시 A2C, PPO DQN, C51

🔹 두 가지 방법을 혼합한 기법 (예: DDPG, SAC)

  • DDPG: 결정적 정책을 학습하면서 Q-러닝도 활용
  • SAC: Q-learning과 정책 최적화를 혼합하여 안정적인 학습 가능

4️⃣ 모델 기반 RL에서의 학습 방식

🔹 ① 순수 계획 (Pure Planning)

  • 정책을 직접 학습하지 않고, 환경 모델을 이용해 계획(Planning)만 수행
  • 대표적인 기법: MPC (Model Predictive Control)
    → 매 단계마다 최적의 행동을 예측한 후, 첫 번째 행동만 실행

🔹 ② 전문가 반복 학습 (Expert Iteration)

  • 모델을 활용해 여러 행동을 시뮬레이션하고 최적 행동을 선택한 후, 정책을 업데이트
  • 대표적인 기법:
    • AlphaZero: 몬테카를로 트리 탐색(MCTS)와 신경망을 결합하여 학습

🔹 ③ 모델을 활용한 데이터 증강 (Data Augmentation)

  • 모델을 활용해 가짜 경험을 생성하고, 이를 학습에 활용
  • 대표적인 기법:
    • MBVE (Model-Based Value Expansion)
    • World Models (모델을 학습한 후, 모델 안에서 학습 진행)

🔹 ④ 계획을 정책 내부에 포함 (Planning Embedded in Policy)

  • 정책 내부에 계획 기능을 포함하여, 계획이 필요한 경우에만 모델을 사용하도록 함
  • 대표적인 기법:
    • I2A (Imagination-Augmented Agents): 정책이 스스로 계획을 활용할지를 결정

✅ 결론: 강화학습 알고리즘 선택 가이드

🔹 모델 프리 vs 모델 기반

  • 빠르게 학습하고 싶다면?모델 기반 RL
  • 안정적으로 학습하고 싶다면?모델 프리 RL

🔹 정책 최적화 vs Q-Learning

  • 안정적인 학습이 필요하다면?정책 최적화 (PPO, A2C)
  • 샘플 효율성이 중요하다면?Q-Learning (DQN, SAC)
728x90

'AI > 강화학습' 카테고리의 다른 글

7. [OPENAI] Part 1: Key Concepts in RL  (0) 2025.01.24
6. [OPENAI] Plotting Results  (0) 2025.01.23
5. [OPENAI] Experiment Outputs  (1) 2025.01.22
4. [OPENAI] Running Experiments  (0) 2025.01.21
3. [OPENAI] Algorithms  (0) 2025.01.20