PPO(Proximal Policy Optimization Algorithms) 알고리즘

AI/강화학습

보안매크로 2025. 2. 25. 10:28

PPO는 정책 최적화(Policy Optimization) 방식을 사용하며, **신뢰 영역(Trust Region)**을 유지(정책 업데이트 폭을 조절)하면서 정책을 업데이트하는 데 중점을 둡니다. 주요 특징은 다음과 같습니다:

정책 기반 학습(Policy-Based Learning)
- 액션을 직접적으로 출력하는 **정책 πθ(a|s)**를 학습합니다.
- 가치 기반(Value-Based) 알고리즘과 달리, 정책(Policy) 자체를 최적화합니다.
클리핑(Clipping) 기법 사용
- 기존의 TRPO는 KL Divergence를 사용해 정책 업데이트 폭을 제한했지만, PPO는 이를 **클리핑(Clipping)**으로 대체하여 복잡한 계산을 줄였습니다.
- 손실 함수를 클리핑하여 정책 변화 폭을 제한함으로써 학습의 안정성을 높입니다.

PPO에서는 기존 정책(πθ_old)과 새로운 정책(πθ)의 비율인 **확률 비율(r(θ))**을 사용하여 손실 함수를 정의합니다.

PPO의 손실 함수는 클립(Clip) 기법을 사용하여 다음과 같이 정의됩니다:

**클립 함수(Clip)**는 정책의 변화 비율이 1±ε 범위를 넘어가지 않도록 합니다. 이를 통해 큰 정책 변화로 인한 학습 불안정성을 막을 수 있습니다.

환경과의 상호작용
- 에이전트가 환경에서 **다양한 상태(state)와 보상(reward)**을 수집합니다.
어드밴티지 추정(Advantage Estimation)
- GAE(Generalized Advantage Estimation) 기법을 사용해 어드밴티지를 계산합니다.
정책 업데이트
- **손실 함수(LCLIP)**를 최소화하도록 **정책 네트워크(Policy Network)**를 업데이트합니다.
- 여러 에포크(epoch)에 걸쳐 미니배치(Mini-batch) 학습을 수행합니다.
반복 수행
- 정책을 일정 횟수 업데이트한 후, 다시 환경과 상호작용하며 새로운 데이터를 수집합니다.

알고리즘학습 방식주요 특징구현 난이도성능 안정성