머신러닝 - 강화학습

07.AI 2025. 3. 24. 21:03
728x90
반응형
Reinforcement Learning

(개념)  데이터의 상태(State)을 인식하고 이에 반응한 행위(Action)에 대하여 환경으로부터 받는 포상(Reward)을 학습하여 행위에 대한 포상을 최적화하는 정책(Model)을 찾는 기계학습

-반복적인 결정 및 착오와 경험에 기반하여 상태의 최적의 행동을 조금씩 학습하는 알고리즘
 
[Book] Mathematical Foundation of Reinforcement Learning
 
[강화학습의 개념모델요소]
- Agent, Enviroment (action, reward, state)
 
[강화학습의 세부 알고리즘 및 활용분야]
알고리즘 > 세부예시 : Brute force, Monte Carlo methods, Markov Decision Process, Value Functions, Q-Learning, Dynamic Programming
         > 활용분야 : 목표에 이르긴 위한 예측치 계산과 가장 높은 Value 에 도달하는 매커니즘 결정
활용분야 > 세부예시 : 로봇 제어(알파고), 게임 개인화 공정 최적화
 

 

 

학습 에이전트의 개략도(사진:논문 캡처)

강화 학습은 기계 학습의 한 영역이다. 행동심리학에서 영감을 받았으며, 어떤 환경(Environment) 안에서 정의된 에이전트(Agent)가 현재의 상태(State)를 인식하여, 선택 가능한 행동(action) 중 보상(Reword)을 최대화하는 행동 혹은 행동 순서를 선택하는 방법이다.
 

https://discuss.pytorch.kr/t/deep-research-llm/6112

 

[Deep Research] 강화학습의 개념과 주요 기법 분석, LLM에서의 활용 및 발전 방향에 대한 보고서

들어가며 :pytorch:🇰🇷 최근 DeepSeek-R1 모델의 GRPO를 비롯하여 LLM 및 Multimodal LLM의 사후 학습 과정에서 강화학습(RL)을 적용하려는 시도가 많아지고 있습니다. 관련하여 강화학습의 개념과 주요 기

discuss.pytorch.kr

https://github.com/MathFoundationRL/Book-Mathematical-Foundation-of-Reinforcement-Learning/blob/main/Book-all-in-one.pdf?utm_source=pytorchkr&ref=pytorchkr

 

Book-Mathematical-Foundation-of-Reinforcement-Learning/Book-all-in-one.pdf at main · MathFoundationRL/Book-Mathematical-Foundat

This is the homepage of a new book entitled "Mathematical Foundations of Reinforcement Learning." - MathFoundationRL/Book-Mathematical-Foundation-of-Reinforcement-Learning

github.com

 

728x90
Posted by Mr. Slumber
,