본문 바로가기
728x90

전체 글430

[인프라] Linux 주로 발견되는 취약점 및 해결방안 1. OS(Linux) - faillock.conf 파일 내 unlock_time을 설정해서, 패스워드 입력 임계값을 설정하여야 한다. 단, root는 문제가 발생할 수 있으므로 설정하지 않는다. 계정 잠금 시간 임계값은, 관리자가 인지 가능할 만큼 충분한 시간으로 설정.2. OS - 패스워드 쉽게 하지말고, 영문, 숫자, 특수문자 섞기3. OS - 유지보수용 계정은 기본적으로 Lock시키고, 유지보수시에만 사용, 이상한 계정은 삭제, 로그인이 필요하지 않은 서비스 계정들에 대해서는 shell 제한4. GET, POST만 사용가능하게 하기. 취약한 HTTP METHOD 사용 자제, 사용하더라도 권한 가진 사람만 사용 가능하게 하기5. OS - MultiViews 옵션 끄기6. OS - 파일은 640 ~ .. 2025. 3. 26.
[정보처리기사] 네트워크 부분 vs 호스트 부분 네트워크 부분(Network)과 호스트 부분(Host) 개념 정리IP 주소는 네트워크 주소와 호스트 주소로 나뉩니다.이 구분을 위해 **서브넷 마스크(Subnet Mask)**가 사용됩니다.1. 네트워크 부분(Network Part)같은 네트워크에 속한 모든 장치(PC, 서버, 라우터 등)가 공유하는 주소 부분입니다.네트워크 식별을 위한 영역입니다.서브넷 마스크에서 1로 설정된 비트가 네트워크 부분을 의미합니다.같은 네트워크에 속한 장치들은 동일한 네트워크 부분을 가집니다.2. 호스트 부분(Host Part)네트워크 안에서 개별 장치를 구별하는 주소 부분입니다.동일한 네트워크 안에 있는 컴퓨터, 스마트폰, 서버 등 각각의 기기가 가지는 고유한 값입니다.서브넷 마스크에서 0으로 설정된 비트가 호스트 부분을.. 2025. 3. 3.
[정보처리기사] 네트워크 주소 구하는 방법 1. 네트워크 주소란?네트워크 주소는 같은 네트워크에 속한 장치들이 공유하는 주소입니다. 같은 네트워크에 속한 모든 장치는 동일한 네트워크 주소를 갖게 됩니다.네트워크 주소를 구하는 공식:네트워크 주소=IP 주소∧서브넷 마스크\text{네트워크 주소} = \text{IP 주소} \land \text{서브넷 마스크}(∧\land는 비트 단위 AND 연산을 의미)2. 서브넷 마스크(Subnet Mask)의 역할서브넷 마스크는 IP 주소에서 네트워크 부분(Network)과 호스트 부분(Host)을 구분하는 역할을 합니다.네트워크 부분: 서브넷 마스크에서 1로 설정된 비트호스트 부분: 서브넷 마스크에서 0으로 설정된 비트예제IP 주소: 192.168.1.10 (10진수) → 11000000.10101000.00.. 2025. 3. 2.
Transformer의 학습과정 (Training) 🔍 Transformer의 학습과정 (Training)1. Encoder의 역할입력: 주어진 텍스트 전체번역 태스크에서는 번역 전 텍스트를, 분류 태스크에서는 분류할 텍스트, 질의응답(QA) 태스크에서는 **질문(Query)**을 입력으로 받습니다.작동 방식:텍스트를 **토큰 임베딩(Token Embedding)**과 **위치 임베딩(Position Embedding)**을 통해 고정된 크기의 벡터로 변환합니다.이 벡터는 **Transformer의 인코더(Encoder)**를 거쳐 맥락(Context) 정보를 포함한 인코딩 벡터로 변환됩니다.예시:입력 문장: "고양이가 매트 위에 앉아있어"인코더 입력: "고양이가 매트 위에 앉아있어" → 벡터 변환2. Decoder의 역할⭕ 학습 시 Decoder의 입.. 2025. 2. 26.
PPO(Proximal Policy Optimization Algorithms) 알고리즘 🚦 PPO의 핵심 개념PPO는 정책 최적화(Policy Optimization) 방식을 사용하며, **신뢰 영역(Trust Region)**을 유지(정책 업데이트 폭을 조절)하면서 정책을 업데이트하는 데 중점을 둡니다. 주요 특징은 다음과 같습니다:정책 기반 학습(Policy-Based Learning)액션을 직접적으로 출력하는 **정책 πθ(a|s)**를 학습합니다.가치 기반(Value-Based) 알고리즘과 달리, 정책(Policy) 자체를 최적화합니다.클리핑(Clipping) 기법 사용기존의 TRPO는 KL Divergence를 사용해 정책 업데이트 폭을 제한했지만, PPO는 이를 **클리핑(Clipping)**으로 대체하여 복잡한 계산을 줄였습니다.손실 함수를 클리핑하여 정책 변화 폭을 제한함으.. 2025. 2. 25.
9. [OPENAI] Part 3: Intro to Policy Optimization 수식적인 부분이 마크다운, html로도 작성이 정상적으로 되지 않아 본문 참고 바랍니다. (tistory 자체적인 문제로 보임)https://spinningup.openai.com/en/latest/spinningup/rl_intro3.html Part 3: Intro to Policy Optimization — Spinning Up documentationWe give a short PyTorch implementation of this simple version of the policy gradient algorithm in spinup/examples/pytorch/pg_math/1_simple_pg.py. (It can also be viewed on github.) It is only 128 l.. 2025. 2. 5.
8. [OPENAI] Part 2: Kinds of RL Algorithms Part 2: 강화학습 알고리즘의 종류이제 우리는 강화학습(RL)의 기본 용어와 표기법을 이해했으므로, 현대 RL 알고리즘의 다양한 유형과 알고리즘 설계 시 고려해야 할 트레이드오프(trade-offs)를 살펴볼 수 있습니다.RL 알고리즘의 분류🔹 RL 알고리즘의 분류 체계아래 그림은 현대 RL 알고리즘의 비포괄적(non-exhaustive)이지만 유용한 분류 체계입니다. RL 알고리즘은 모듈성이 높아 트리 구조로 완벽하게 정리하기 어렵지만, 핵심적인 설계 선택지와 관련된 트레이드오프를 설명하기 위해 이 분류법을 사용합니다.🚀 RL 알고리즘 설계의 주요 요소이 섹션에서는 다음을 목표로 합니다.심층 강화학습(Deep RL) 알고리즘의 주요 설계 선택지를 강조→ 무엇을 학습할 것인가? 어떻게 학습할 것인.. 2025. 2. 4.
7. [OPENAI] Part 1: Key Concepts in RL RL은 에이전트(agent)가 시도와 실패(trial and error)를 통해 학습하는 방법을 다루며, 행동에 대한 보상이나 처벌이 미래 행동을 변화시키는 방법을 공식화한 학문입니다.What Can RL Do?강화 학습의 활용 사례:로봇 제어(시뮬레이션 및 실제 환경에서)전략 게임(예: 바둑, Dota)에서의 인공지능 학습아타리 게임을 픽셀 정보만으로 학습사람의 명령을 따르는 시뮬레이션 로봇 학습Key Concepts and TerminologyAgent와 EnvironmentAgent(에이전트): 학습하고 행동을 수행하는 주체Environment(환경): 에이전트가 상호작용하는 세상에이전트는 상태(state)나 관측(observation)을 기반으로 행동(action)을 선택하며, 행동의 결과로 보상.. 2025. 1. 24.
6. [OPENAI] Plotting Results Spinup의 결과 플로팅 유틸리티는 실험 데이터를 시각화하는 데 유용합니다. 이를 사용하면 실험의 성능을 비교하거나 데이터를 보다 명확하게 해석할 수 있습니다. 다음 명령어로 플로팅 유틸리티를 실행할 수 있습니다:python -m spinup.run plot [path/to/output_directory ...] [--legend [LEGEND ...]] [--xaxis XAXIS] [--value [VALUE ...]] [--count] [--smooth S] [--select [SEL ...]] [--exclude [EXC ...]]필수 인자 (Positional Arguments)logdir설명:플로팅할 로그 디렉토리 또는 디렉토리 접두어(prefix)를 문자열로 입력합니다.플로팅 유틸리티는 제공.. 2025. 1. 23.
728x90