강화학습 논문 및 학습 소스

아래는 강화학습 분야의 저명한 논문들을 최대한 많이, 패러다임의 전환점을 명확히 표시해 포함하였습니다. 각 논문에 대해 PDF 링크가 있을 경우 첨부하였으며, 인용수가 많고 학계에서 영향력 있는 논문들입니다.github+10

패러다임 전환점 논문

Reinforcement Learning: An Introduction
Sutton & Barto (2018, 2nd Ed.)
강화학습 기본 교과서, 가치 함수, 정책, Q-learning, TD-learning 등 핵심 개념 정립, RL 연구의 출발점 [PDF]stanford
전환점: RL 이론 및 용어의 표준화
Human-level control through deep reinforcement learning
Mnih et al. (2015, Nature)
Deep Q-Network(DQN) 제안. Atari 환경에서 복잡한 문제를 딥러닝으로 해결한 첫 사례 [PDF]googleapis
전환점: 딥러닝과 RL의 결합, DeepRL 태동
Policy Gradient Methods for Reinforcement Learning with Function Approximation
Sutton et al. (2000)
정책 경사 (Policy Gradient) 방법을 RL에 도입, 함수 근사로 확장하며, 이후 PPO, A2C 등 여러 알고리즘의 토대가 됨spinningup.openai+1
Asynchronous Methods for Deep Reinforcement Learning (A3C)
Mnih et al. (2016, ICML)
병렬 학습 프레임워크인 A3C를 제안, 학습 속도와 안정성이 크게 발전github+1
전환점: 분산 RL 학습 실현
AlphaGo: Mastering the game of Go with deep neural networks and tree search
Silver et al. (2016, Nature)
정책과 가치망, MCTS의 결합으로 바둑에서 인간을 초월한 최초 인공지능spinningup.openai
전환점: RL 기반 복합 시스템의 실제 문제 해결
Dark, Beyond Deep: A Paradigm Shift to Cognitive AI with Humanlike Common Sense
Zhu et al. (2020)
기존 심층학습 한계를 인지 AI, 인간적 상식을 가미하는 방향으로 강조sciencedirect
전환점: RL+인지, 상식, 추론으로 확장
Play with Emotion: Affect-Driven Reinforcement Learning
Barthet et al. (2022)
감정 연계 강화학습을 통해, 행동뿐만 아니라 정서적 패턴까지 정책 학습 [PDF]arxiv
전환점: 정서/행동의 통합적 강화학습
GenAI-based Multi-Agent Reinforcement Learning towards Distributed Agent Intelligence: A Generative-RL Agent Perspective
Wang & Zhang (2025)
멀티에이전트 환경에서 생성AI 기반 proactive intelligence 방식 제시 [PDF]arxiv
전환점: 생성 패러다임으로의 전환, 멀티에이전트 동적협력 강화

분야별 주요 논문 리스트

기본 알고리즘 및 이론

Q-learning, Watkins & Dayan (1992)
Temporal Difference learning, Sutton (1988)
DDPG (Deep Deterministic Policy Gradient), Lillicrap et al. (2015)spinningup.openai
Double DQN, Hasselt et al. (2016)github

심층 강화학습

DQN, Mnih et al. (2015)[PDF]googleapis
DDPG, Lillicrap et al. (2015)
A3C, Mnih et al. (2016)
Rainbow DQN, Hessel et al. (2018)

정책 경사

TRPO (Trust Region Policy Optimization), Schulman et al. (2015)
PPO (Proximal Policy Optimization), Schulman et al. (2017)
REINFORCE, Williams (1992)spinningup.openai

메타/모델 기반 RL

Model-based RL, Ha & Schmidhuber (World Models, 2018)
Meta-Reinforcement Learning Based on Self-Supervised Task Representation Learning, Wang et al. (2023)[PDF]github
Offline Meta RL with In-distribution Online Adaptation, Wang et al. (2023)[PDF]github

인간 상호작용, 언어모델, 인지 및 감정 RL

Deep RL from Human Preferences, Christiano et al. (2017)[PDF]github
Training Language Models to Follow Instructions with Human Feedback, Ouyang et al. (2022)[PDF]github
Reward Design with Language Models, Kwon et al. (2023)[PDF]github
Cognitive AI with Humanlike Common Sense, Zhu et al. (2020)sciencedirect
Affect-Driven RL, Barthet et al. (2022)[PDF]arxiv

멀티에이전트 RL

GenAI-based Multi-Agent RL, Wang & Zhang (2025)[PDF]arxiv

응용 및 기타 영향력 논문

Efficient Online RL with Offline Data, Ball et al. (2023)[PDF]proceedings.mlr
RL for Power Systems, Chen et al. (2021)[PDF]arxiv

PDF링크 있는 논문 목록

논문명PDF 링크패러다임 전환점 여부

Reinforcement Learning: An Introduction	✔️ [PDF]stanford	✔️
Human-level control through deep RL (DQN)	✔️ [PDF]googleapis	✔️
Play with Emotion: Affect-Driven RL	✔️ [PDF]arxiv	✔️
GenAI-based Multi-Agent RL	✔️ [PDF]arxiv	✔️
Efficient Online RL with Offline Data	✔️ [PDF]proceedings.mlr
RL for Power Systems	✔️ [PDF]arxiv
Meta-Reinforcement Learning 논문	✔️ [PDF]github
Deep RL from Human Preferences	✔️ [PDF]github
다양한 RL, LLM 관련 논문	✔️ [PDF]github

기타 참고 및 종합 리스트

Spinning Up Key Papersspinningup.openai
Awesome RL Papers Githubgithub
RL 교과서 및 리뷰arxiv+1
분야별 최신 논문 검색: PaperDigest, PaperGuide, etcpaperdigest+3

추가로 원하는 특정 분야나 응용 분야가 있으면 더 상세 리스트를 제공할 수 있습니다.

강화학습의 수학적 요소를 체계적으로 공부할 수 있는 자료들을 핵심 위주로 정리했습니다. 기본 연산부터 고급 응용, 실습자료, 문제집, 그리고 강의와 PDF까지 모두 포함하였습니다.github+11

수학적 기초(연산·개념 위주)

Mathematical Foundation of Reinforcement Learning (MFoRL)
쉽고 수학적으로 강화학습 핵심을 설명, grid-world 예제와 연습문제 포함.
- PDF, 강의, 슬라이드, 예제 코드 제공
- 수학적 개념(확률, 마르코프 결정과정(MDP), 벨만 방정식, 가치 함수, 정책 등)부터 차근차근 출발discuss.pytorch+3youtube
- 책 PDF 링크, 강의 자료, 코드
- 한국어 소개discuss.pytorch
Reinforcement Learning: An Introduction (Sutton & Barto)
RL 수학의 바이블, 벨만 방정식, 마르코프 과정, DP, 몬테카를로 등 기초부터 설명
- [PDF, 2판]andrew.cmu+1
- 공식 연습문제와 해답enjeeneer
- 각 챕터별 기본·고급 수학문제 및 풀이 실습
The Mathematics of Reinforcement Learning
강화학습의 개념을 수학적으로 해설하는 독일 마인츠대 강의 슬라이드, 기초부터 점진적 심화
- [강의 PDF]wim.uni-mannheim+1
- Multi-armed bandit, DP, 상태-가치 함수, 정책 평가 등 수식 중심
A Course in Reinforcement Learning (D.P. Bertsekas)
DP와 RL의 수학을 풍부한 연습/실전예제와 함께 다룸
- [2nd Edition PDF]mit
- 롤아웃/뉴럴넷/정책학습/적용 예제 등 실제 계산 연습 포함

실용 응용 및 고급 수학 자료

Foundations of Reinforcement Learning with Applications in Finance
RL 이론 및 수학적 원리를 금융 데이터 응용과 연계, 프로그래밍 실습 강조stanford
- [PDF]stanford
RL Theory Book (AJKS)
RL과 제어 이론을 수학적으로 정리, 확률적 추론 관점에서 접근
- [PDF]rltheorybook.github
- 확률적 추론, Optimal Control, 정책 최적화 등 이론적/실무적 응용
CS234: Reinforcement Learning (Stanford)
2025년 최신 실전/이론/코딩 실습 강의. 수식 설명과 문제풀이, 과제 제공stanford
Open Course: Mathematical Foundations of Reinforcement Learning (Shiyu Zhao)
약 50개의 쇼트 강의 동영상, PDF 텍스트북과 슬라이드 제공
- [YouTube 강좌]youtube
- [오픈코스 PDF, 연습문제, 해설]shiyuzhao.westlake+1

종합 추천 (기본→응용 순차적 학습)

기초와 연산:
- MFoRL PDF + Sutton & Barto PDF + 각 연습문제/풀이
- 독일 대학 수학 강의 슬라이드(수식 중심)wim.uni-mannheim+1
수학 응용:
- Bertsekas RL Book(연습/적용)
- RL Theory Book, 금융·제어 응용 PDF
- CS234, Shiyu Zhao 등 실제 강의 따라 실습
실제 코딩 및 실습:
- MFoRL의 grid-world 예제
- Sutton & Barto 공식 문제
- 오픈코스 강의 실습·코드

PDF 및 강의/자료 링크

자료명학습 내용PDF/강의

MFoRL	수학적 기초~알고리즘	✔️ PDF+강의+코드github+2youtube
Sutton & Barto	RL 핵심수학~실습	✔️ PDFstanford+1, ✔️ 연습문제enjeeneer
Bertsekas	DP+RL 심화이론/실습	✔️ PDFmit
RL Theory Book (AJKS)	확률적 추론, 정책최적화	✔️ PDFrltheorybook.github
Finance/Control RL	RL 실제 금융/제어	✔️ PDFstanford
Mathematics of RL	최소수식, 쉽게 설명	✔️ PDFwim.uni-mannheim+1
Stanford CS234 등	응용+실전연습	✔️ 강의+슬라이드stanford
Shiyu Zhao 오픈코스	이론+실습+동영상	✔️ PDFshiyuzhao.westlake+2, ✔️ 강의youtube

필요시 각 자료별로 접근법·학습법도 추가 안내 가능합니다.

무아의 잡다지식