728x90 AI21 Transformer의 학습과정 (Training) 🔍 Transformer의 학습과정 (Training)1. Encoder의 역할입력: 주어진 텍스트 전체번역 태스크에서는 번역 전 텍스트를, 분류 태스크에서는 분류할 텍스트, 질의응답(QA) 태스크에서는 **질문(Query)**을 입력으로 받습니다.작동 방식:텍스트를 **토큰 임베딩(Token Embedding)**과 **위치 임베딩(Position Embedding)**을 통해 고정된 크기의 벡터로 변환합니다.이 벡터는 **Transformer의 인코더(Encoder)**를 거쳐 맥락(Context) 정보를 포함한 인코딩 벡터로 변환됩니다.예시:입력 문장: "고양이가 매트 위에 앉아있어"인코더 입력: "고양이가 매트 위에 앉아있어" → 벡터 변환2. Decoder의 역할⭕ 학습 시 Decoder의 입.. 2025. 2. 26. PPO(Proximal Policy Optimization Algorithms) 알고리즘 🚦 PPO의 핵심 개념PPO는 정책 최적화(Policy Optimization) 방식을 사용하며, **신뢰 영역(Trust Region)**을 유지(정책 업데이트 폭을 조절)하면서 정책을 업데이트하는 데 중점을 둡니다. 주요 특징은 다음과 같습니다:정책 기반 학습(Policy-Based Learning)액션을 직접적으로 출력하는 **정책 πθ(a|s)**를 학습합니다.가치 기반(Value-Based) 알고리즘과 달리, 정책(Policy) 자체를 최적화합니다.클리핑(Clipping) 기법 사용기존의 TRPO는 KL Divergence를 사용해 정책 업데이트 폭을 제한했지만, PPO는 이를 **클리핑(Clipping)**으로 대체하여 복잡한 계산을 줄였습니다.손실 함수를 클리핑하여 정책 변화 폭을 제한함으.. 2025. 2. 25. 8. [OPENAI] Part 2: Kinds of RL Algorithms Part 2: 강화학습 알고리즘의 종류이제 우리는 강화학습(RL)의 기본 용어와 표기법을 이해했으므로, 현대 RL 알고리즘의 다양한 유형과 알고리즘 설계 시 고려해야 할 트레이드오프(trade-offs)를 살펴볼 수 있습니다.RL 알고리즘의 분류🔹 RL 알고리즘의 분류 체계아래 그림은 현대 RL 알고리즘의 비포괄적(non-exhaustive)이지만 유용한 분류 체계입니다. RL 알고리즘은 모듈성이 높아 트리 구조로 완벽하게 정리하기 어렵지만, 핵심적인 설계 선택지와 관련된 트레이드오프를 설명하기 위해 이 분류법을 사용합니다.🚀 RL 알고리즘 설계의 주요 요소이 섹션에서는 다음을 목표로 합니다.심층 강화학습(Deep RL) 알고리즘의 주요 설계 선택지를 강조→ 무엇을 학습할 것인가? 어떻게 학습할 것인.. 2025. 2. 4. 7. [OPENAI] Part 1: Key Concepts in RL RL은 에이전트(agent)가 시도와 실패(trial and error)를 통해 학습하는 방법을 다루며, 행동에 대한 보상이나 처벌이 미래 행동을 변화시키는 방법을 공식화한 학문입니다.What Can RL Do?강화 학습의 활용 사례:로봇 제어(시뮬레이션 및 실제 환경에서)전략 게임(예: 바둑, Dota)에서의 인공지능 학습아타리 게임을 픽셀 정보만으로 학습사람의 명령을 따르는 시뮬레이션 로봇 학습Key Concepts and TerminologyAgent와 EnvironmentAgent(에이전트): 학습하고 행동을 수행하는 주체Environment(환경): 에이전트가 상호작용하는 세상에이전트는 상태(state)나 관측(observation)을 기반으로 행동(action)을 선택하며, 행동의 결과로 보상.. 2025. 1. 24. 6. [OPENAI] Plotting Results Spinup의 결과 플로팅 유틸리티는 실험 데이터를 시각화하는 데 유용합니다. 이를 사용하면 실험의 성능을 비교하거나 데이터를 보다 명확하게 해석할 수 있습니다. 다음 명령어로 플로팅 유틸리티를 실행할 수 있습니다:python -m spinup.run plot [path/to/output_directory ...] [--legend [LEGEND ...]] [--xaxis XAXIS] [--value [VALUE ...]] [--count] [--smooth S] [--select [SEL ...]] [--exclude [EXC ...]]필수 인자 (Positional Arguments)logdir설명:플로팅할 로그 디렉토리 또는 디렉토리 접두어(prefix)를 문자열로 입력합니다.플로팅 유틸리티는 제공.. 2025. 1. 23. 5. [OPENAI] Experiment Outputs 1. 알고리즘 출력Spinning Up에서 실행된 알고리즘은 아래와 같은 항목들을 저장합니다:하이퍼파라미터 설정학습 진행 상태학습된 에이전트와 가치 함수가능하다면 환경의 복사본출력 디렉토리 구조pyt_save/: PyTorch 학습 결과 저장.내용: model.pt는 학습된 에이전트를 복원할 수 있는 PyTorch 모델.tf1_save/: Tensorflow 학습 결과 저장.내용: Tensorflow SavedModel 관련 파일들 (variables/, model_info.pkl, saved_model.pb).config.json: 실험 실행 시 사용된 파라미터를 기록한 JSON 파일 (단, 실행 재현 불가).progress.txt: 학습 진행 상태 (예: Epoch, Average Return 등) .. 2025. 1. 22. 이전 1 2 3 4 다음 728x90