728x90
반응형
Reinforcement Learning
(개념) 데이터의 상태(State)을 인식하고 이에 반응한 행위(Action)에 대하여 환경으로부터 받는 포상(Reward)을 학습하여 행위에 대한 포상을 최적화하는 정책(Model)을 찾는 기계학습
-반복적인 결정 및 착오와 경험에 기반하여 상태의 최적의 행동을 조금씩 학습하는 알고리즘

[강화학습의 개념모델요소]
- Agent, Enviroment (action, reward, state)
[강화학습의 세부 알고리즘 및 활용분야]
알고리즘 > 세부예시 : Brute force, Monte Carlo methods, Markov Decision Process, Value Functions, Q-Learning, Dynamic Programming
> 활용분야 : 목표에 이르긴 위한 예측치 계산과 가장 높은 Value 에 도달하는 매커니즘 결정
활용분야 > 세부예시 : 로봇 제어(알파고), 게임 개인화 공정 최적화















강화 학습은 기계 학습의 한 영역이다. 행동심리학에서 영감을 받았으며, 어떤 환경(Environment) 안에서 정의된 에이전트(Agent)가 현재의 상태(State)를 인식하여, 선택 가능한 행동(action) 중 보상(Reword)을 최대화하는 행동 혹은 행동 순서를 선택하는 방법이다.
https://discuss.pytorch.kr/t/deep-research-llm/6112
[Deep Research] 강화학습의 개념과 주요 기법 분석, LLM에서의 활용 및 발전 방향에 대한 보고서
들어가며 :pytorch:🇰🇷 최근 DeepSeek-R1 모델의 GRPO를 비롯하여 LLM 및 Multimodal LLM의 사후 학습 과정에서 강화학습(RL)을 적용하려는 시도가 많아지고 있습니다. 관련하여 강화학습의 개념과 주요 기
discuss.pytorch.kr
Book-Mathematical-Foundation-of-Reinforcement-Learning/Book-all-in-one.pdf at main · MathFoundationRL/Book-Mathematical-Foundat
This is the homepage of a new book entitled "Mathematical Foundations of Reinforcement Learning." - MathFoundationRL/Book-Mathematical-Foundation-of-Reinforcement-Learning
github.com
728x90
'07.AI' 카테고리의 다른 글
LLM - 성능 - 벤치마크 - τ-bench (0) | 2025.03.29 |
---|---|
생성형 AI - 미스트랄 AI - 미스트랄 스몰 3.1 (0) | 2025.03.24 |
AI 저널리즘 - 생성형 AI 저작권 - 2025 인공지능-저작권 제도개선 협의체 (0) | 2025.03.23 |
생성형 AI - Microsoft VASA (0) | 2025.03.23 |
생성형 AI - Tango2 (0) | 2025.03.23 |