Char :: 머신러닝 - 강화학습

머신러닝 - 강화학습

07.AI 2025. 3. 24. 21:03

728x90

Reinforcement Learning

(개념) 데이터의 상태(State)을 인식하고 이에 반응한 행위(Action)에 대하여 환경으로부터 받는 포상(Reward)을 학습하여 행위에 대한 포상을 최적화하는 정책(Model)을 찾는 기계학습

-반복적인 결정 및 착오와 경험에 기반하여 상태의 최적의 행동을 조금씩 학습하는 알고리즘

[Book] Mathematical Foundation of Reinforcement Learning

[강화학습의 개념모델요소]

- Agent, Enviroment (action, reward, state)

[강화학습의 세부 알고리즘 및 활용분야]

알고리즘 > 세부예시 : Brute force, Monte Carlo methods, Markov Decision Process, Value Functions, Q-Learning, Dynamic Programming

> 활용분야 : 목표에 이르긴 위한 예측치 계산과 가장 높은 Value 에 도달하는 매커니즘 결정

활용분야 > 세부예시 : 로봇 제어(알파고), 게임 개인화 공정 최적화

http://www.aitimes.kr/news/articleView.html?idxno=20590

[AI 리뷰] 인공지능 강화학습(RL) 속도... 양자 기술이 63% 더 높였다 - 인공지능신문

인공지능 분야가 발전할수록 데이터와 빠르고 더 효율적으로 학습할 수 있는 알고리즘에 대한 관심은 증폭된다.현재, 인공지능 분야에서 가장 효율적으로 학습할 수 있는 알고리즘으로 강화학

www.aitimes.kr

강화 학습은 기계 학습의 한 영역이다. 행동심리학에서 영감을 받았으며, 어떤 환경(Environment) 안에서 정의된 에이전트(Agent)가 현재의 상태(State)를 인식하여, 선택 가능한 행동(action) 중 보상(Reword)을 최대화하는 행동 혹은 행동 순서를 선택하는 방법이다.

출처: http://blog.lgcns.com/1692

https://discuss.pytorch.kr/t/deep-research-llm/6112

[Deep Research] 강화학습의 개념과 주요 기법 분석, LLM에서의 활용 및 발전 방향에 대한 보고서

들어가며 :pytorch:🇰🇷 최근 DeepSeek-R1 모델의 GRPO를 비롯하여 LLM 및 Multimodal LLM의 사후 학습 과정에서 강화학습(RL)을 적용하려는 시도가 많아지고 있습니다. 관련하여 강화학습의 개념과 주요 기

discuss.pytorch.kr

https://github.com/MathFoundationRL/Book-Mathematical-Foundation-of-Reinforcement-Learning/blob/main/Book-all-in-one.pdf?utm_source=pytorchkr&ref=pytorchkr

Book-Mathematical-Foundation-of-Reinforcement-Learning/Book-all-in-one.pdf at main · MathFoundationRL/Book-Mathematical-Foundat

This is the homepage of a new book entitled "Mathematical Foundations of Reinforcement Learning." - MathFoundationRL/Book-Mathematical-Foundation-of-Reinforcement-Learning

github.com

728x90

저작자표시 (새창열림)

'07.AI' 카테고리의 다른 글

생성형 AI - 추론 ‘inference’ vs ‘reasoning’ (0)	2025.04.03
LLM - 성능 - 벤치마크 - τ-bench (0)	2025.03.29
생성형 AI - 미스트랄 AI - 미스트랄 스몰 3.1 (0)	2025.03.24
AI 저널리즘 - 생성형 AI 저작권 - 2025 인공지능-저작권 제도개선 협의체 (0)	2025.03.23
생성형 AI - Microsoft VASA (0)	2025.03.23

Posted by Mr. Slumber

일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

Char

머신러닝 - 강화학습

'07.AI' 카테고리의 다른 글

카테고리

태그목록

최근에 올라온 글

최근에 달린 댓글

글 보관함

달력

링크

티스토리툴바