07.AI
머신러닝 - 강화학습
Mr. Slumber
2025. 3. 24. 21:03
728x90
반응형
Reinforcement Learning
(개념) 데이터의 상태(State)을 인식하고 이에 반응한 행위(Action)에 대하여 환경으로부터 받는 포상(Reward)을 학습하여 행위에 대한 포상을 최적화하는 정책(Model)을 찾는 기계학습
-반복적인 결정 및 착오와 경험에 기반하여 상태의 최적의 행동을 조금씩 학습하는 알고리즘

[강화학습의 개념모델요소]
- Agent, Enviroment (action, reward, state)
[강화학습의 세부 알고리즘 및 활용분야]
알고리즘 > 세부예시 : Brute force, Monte Carlo methods, Markov Decision Process, Value Functions, Q-Learning, Dynamic Programming
> 활용분야 : 목표에 이르긴 위한 예측치 계산과 가장 높은 Value 에 도달하는 매커니즘 결정
활용분야 > 세부예시 : 로봇 제어(알파고), 게임 개인화 공정 최적화



















강화 학습은 기계 학습의 한 영역이다. 행동심리학에서 영감을 받았으며, 어떤 환경(Environment) 안에서 정의된 에이전트(Agent)가 현재의 상태(State)를 인식하여, 선택 가능한 행동(action) 중 보상(Reword)을 최대화하는 행동 혹은 행동 순서를 선택하는 방법이다.



https://discuss.pytorch.kr/t/deep-research-llm/6112
[Deep Research] 강화학습의 개념과 주요 기법 분석, LLM에서의 활용 및 발전 방향에 대한 보고서
들어가며 :pytorch:🇰🇷 최근 DeepSeek-R1 모델의 GRPO를 비롯하여 LLM 및 Multimodal LLM의 사후 학습 과정에서 강화학습(RL)을 적용하려는 시도가 많아지고 있습니다. 관련하여 강화학습의 개념과 주요 기
discuss.pytorch.kr
Book-Mathematical-Foundation-of-Reinforcement-Learning/Book-all-in-one.pdf at main · MathFoundationRL/Book-Mathematical-Foundat
This is the homepage of a new book entitled "Mathematical Foundations of Reinforcement Learning." - MathFoundationRL/Book-Mathematical-Foundation-of-Reinforcement-Learning
github.com
728x90