Part 2: 강화학습 알고리즘의 종류

이제 우리는 강화학습(RL)의 기본 용어와 표기법을 이해했으므로, 현대 RL 알고리즘의 다양한 유형과 알고리즘 설계 시 고려해야 할 트레이드오프(trade-offs)를 살펴볼 수 있습니다.

RL 알고리즘의 분류

🔹 RL 알고리즘의 분류 체계

아래 그림은 현대 RL 알고리즘의 비포괄적(non-exhaustive)이지만 유용한 분류 체계입니다. RL 알고리즘은 모듈성이 높아 트리 구조로 완벽하게 정리하기 어렵지만, 핵심적인 설계 선택지와 관련된 트레이드오프를 설명하기 위해 이 분류법을 사용합니다.

🚀 RL 알고리즘 설계의 주요 요소

이 섹션에서는 다음을 목표로 합니다.

심층 강화학습(Deep RL) 알고리즘의 주요 설계 선택지를 강조
→ 무엇을 학습할 것인가? 어떻게 학습할 것인가?
이 선택지에서 발생하는 트레이드오프를 설명
→ 각 방법의 장점과 단점
대표적인 최신 RL 알고리즘을 해당 선택지의 맥락에서 설명
→ 유명한 RL 알고리즘이 어떤 맥락에서 사용되는지 이해

1️⃣ 모델 기반 vs 모델 프리 RL

강화학습 알고리즘에서 가장 중요한 분기점 중 하나는 에이전트가 환경의 모델을 학습하거나 활용하는지 여부입니다.

📌 모델(Model)이란?

모델이란, 현재 상태(state)에서 다음 상태로의 전이(transition)와 보상(reward)을 예측할 수 있는 함수를 의미합니다.

✅ 모델을 활용하는 장점 (Model-Based RL)

계획(Planning)이 가능해짐
→ 앞으로 발생할 수 있는 결과를 예측하고 최적의 선택을 할 수 있음
→ 대표적인 예: AlphaZero
샘플 효율성(Sample Efficiency) 증가
→ 환경과 직접 상호작용하는 것보다 빠르게 학습 가능

❌ 모델을 활용하는 단점

완벽한 환경 모델은 거의 없음
→ 환경의 동적 변화를 완벽하게 반영하는 모델을 갖추기 어렵다.
모델의 편향(Bias)이 문제를 초래할 수 있음
→ 모델이 학습한 내용이 실제 환경과 다를 경우, 성능이 저하되거나 엉뚱한 행동을 할 수 있음
→ 예: 모델을 활용했더니 실제 환경에서 성능이 극도로 나빠지는 경우

🔹 모델 기반 (Model-Based) vs 모델 프리 (Model-Free)

모델 기반 RL모델 프리 RL

장점	샘플 효율성이 높음	구현이 쉽고 안정적
단점	모델이 부정확하면 성능 저하	샘플 효율성이 낮음
예시	AlphaZero, Dyna	DQN, PPO, A2C

현재(2024년 기준)에도 모델 프리 방법이 더 많이 사용되고 있으며, 모델 기반 방법은 연구가 활발히 진행 중입니다.

2️⃣ 무엇을 학습할 것인가? (What to Learn)

강화학습에서 학습할 수 있는 요소는 다음과 같습니다.

✅ 학습할 수 있는 요소들

정책(Policy) : 에이전트가 어떤 행동을 해야 할지 결정하는 함수
Q 함수(Action-Value Function) : 상태-행동 쌍의 가치를 나타내는 함수
가치 함수(Value Function) : 상태의 가치를 나타내는 함수
환경 모델(Environment Model) : 환경의 동작 방식을 학습하는 모델

3️⃣ 모델 프리 RL에서의 학습 방식

🔹 정책 최적화 (Policy Optimization)

정책을 확률적으로 또는 결정적으로 나타내고 직접 최적화
온-정책(On-policy) 학습 방식 → 최신 정책으로만 학습
대표 알고리즘
- A2C / A3C: 정책의 성능을 직접 최대화
- PPO: 성능 변화가 너무 급격하지 않도록 보조 목적 함수(surrogate objective) 사용

🔹 Q-러닝 (Q-Learning)

Q 함수 Q(s,a)Q(s, a) 를 학습하여 최적 정책을 찾음
오프-정책(Off-policy) 학습 방식 → 과거의 경험도 재사용 가능 → 샘플 효율성 증가
대표 알고리즘
- DQN: 딥러닝을 활용한 Q-learning 기법
- C51: 보상을 확률 분포 형태로 모델링하는 Q-learning 기법

🔹 정책 최적화 vs Q-Learning 비교

정책 최적화Q-Learning

강점	직접 최적화 → 안정적	샘플 효율성이 높음
약점	샘플 효율성이 낮음	학습이 불안정할 수 있음
예시	A2C, PPO	DQN, C51

🔹 두 가지 방법을 혼합한 기법 (예: DDPG, SAC)

DDPG: 결정적 정책을 학습하면서 Q-러닝도 활용
SAC: Q-learning과 정책 최적화를 혼합하여 안정적인 학습 가능

4️⃣ 모델 기반 RL에서의 학습 방식

🔹 ① 순수 계획 (Pure Planning)

정책을 직접 학습하지 않고, 환경 모델을 이용해 계획(Planning)만 수행
대표적인 기법: MPC (Model Predictive Control)
→ 매 단계마다 최적의 행동을 예측한 후, 첫 번째 행동만 실행

🔹 ② 전문가 반복 학습 (Expert Iteration)

모델을 활용해 여러 행동을 시뮬레이션하고 최적 행동을 선택한 후, 정책을 업데이트
대표적인 기법:
- AlphaZero: 몬테카를로 트리 탐색(MCTS)와 신경망을 결합하여 학습

🔹 ③ 모델을 활용한 데이터 증강 (Data Augmentation)

모델을 활용해 가짜 경험을 생성하고, 이를 학습에 활용
대표적인 기법:
- MBVE (Model-Based Value Expansion)
- World Models (모델을 학습한 후, 모델 안에서 학습 진행)

🔹 ④ 계획을 정책 내부에 포함 (Planning Embedded in Policy)

정책 내부에 계획 기능을 포함하여, 계획이 필요한 경우에만 모델을 사용하도록 함
대표적인 기법:
- I2A (Imagination-Augmented Agents): 정책이 스스로 계획을 활용할지를 결정

✅ 결론: 강화학습 알고리즘 선택 가이드

🔹 모델 프리 vs 모델 기반

빠르게 학습하고 싶다면? → 모델 기반 RL
안정적으로 학습하고 싶다면? → 모델 프리 RL

🔹 정책 최적화 vs Q-Learning

안정적인 학습이 필요하다면? → 정책 최적화 (PPO, A2C)
샘플 효율성이 중요하다면? → Q-Learning (DQN, SAC)

저작자표시 비영리 (새창열림)

'AI > 강화학습' 카테고리의 다른 글

PPO(Proximal Policy Optimization Algorithms) 알고리즘 (0)	2025.02.25
7. [OPENAI] Part 1: Key Concepts in RL (1)	2025.01.24
6. [OPENAI] Plotting Results (0)	2025.01.23
5. [OPENAI] Experiment Outputs (1)	2025.01.22
4. [OPENAI] Running Experiments (0)	2025.01.21

평범한 개발자 코스프레

8. [OPENAI] Part 2: Kinds of RL Algorithms

Part 2: 강화학습 알고리즘의 종류

RL 알고리즘의 분류

🔹 RL 알고리즘의 분류 체계

🚀 RL 알고리즘 설계의 주요 요소

1️⃣ 모델 기반 vs 모델 프리 RL

📌 모델(Model)이란?

✅ 모델을 활용하는 장점 (Model-Based RL)

❌ 모델을 활용하는 단점

🔹 모델 기반 (Model-Based) vs 모델 프리 (Model-Free)

2️⃣ 무엇을 학습할 것인가? (What to Learn)

3️⃣ 모델 프리 RL에서의 학습 방식

🔹 정책 최적화 (Policy Optimization)

🔹 Q-러닝 (Q-Learning)

🔹 정책 최적화 vs Q-Learning 비교

🔹 두 가지 방법을 혼합한 기법 (예: DDPG, SAC)

4️⃣ 모델 기반 RL에서의 학습 방식

🔹 ① 순수 계획 (Pure Planning)

🔹 ② 전문가 반복 학습 (Expert Iteration)

🔹 ③ 모델을 활용한 데이터 증강 (Data Augmentation)

🔹 ④ 계획을 정책 내부에 포함 (Planning Embedded in Policy)

✅ 결론: 강화학습 알고리즘 선택 가이드

🔹 모델 프리 vs 모델 기반

🔹 정책 최적화 vs Q-Learning

'AI > 강화학습' 카테고리의 다른 글

티스토리툴바

8. [OPENAI] Part 2: Kinds of RL Algorithms

Part 2: 강화학습 알고리즘의 종류

RL 알고리즘의 분류

🔹 RL 알고리즘의 분류 체계

🚀 RL 알고리즘 설계의 주요 요소

1️⃣ 모델 기반 vs 모델 프리 RL

📌 모델(Model)이란?

✅ 모델을 활용하는 장점 (Model-Based RL)

❌ 모델을 활용하는 단점

🔹 모델 기반 (Model-Based) vs 모델 프리 (Model-Free)

2️⃣ 무엇을 학습할 것인가? (What to Learn)

3️⃣ 모델 프리 RL에서의 학습 방식

🔹 정책 최적화 (Policy Optimization)

🔹 Q-러닝 (Q-Learning)

🔹 정책 최적화 vs Q-Learning 비교

🔹 두 가지 방법을 혼합한 기법 (예: DDPG, SAC)

4️⃣ 모델 기반 RL에서의 학습 방식

🔹 ① 순수 계획 (Pure Planning)

🔹 ② 전문가 반복 학습 (Expert Iteration)

🔹 ③ 모델을 활용한 데이터 증강 (Data Augmentation)

🔹 ④ 계획을 정책 내부에 포함 (Planning Embedded in Policy)

✅ 결론: 강화학습 알고리즘 선택 가이드

🔹 모델 프리 vs 모델 기반

🔹 정책 최적화 vs Q-Learning

'AI > 강화학습' 카테고리의 다른 글

관련글

티스토리툴바