아래는 강화학습 분야의 저명한 논문들을 최대한 많이, 패러다임의 전환점을 명확히 표시해 포함하였습니다. 각 논문에 대해 PDF 링크가 있을 경우 첨부하였으며, 인용수가 많고 학계에서 영향력 있는 논문들입니다.github+10
패러다임 전환점 논문
- Reinforcement Learning: An Introduction
Sutton & Barto (2018, 2nd Ed.)
강화학습 기본 교과서, 가치 함수, 정책, Q-learning, TD-learning 등 핵심 개념 정립, RL 연구의 출발점 [PDF]stanford
전환점: RL 이론 및 용어의 표준화 - Human-level control through deep reinforcement learning
Mnih et al. (2015, Nature)
Deep Q-Network(DQN) 제안. Atari 환경에서 복잡한 문제를 딥러닝으로 해결한 첫 사례 [PDF]googleapis
전환점: 딥러닝과 RL의 결합, DeepRL 태동 - Policy Gradient Methods for Reinforcement Learning with Function Approximation
Sutton et al. (2000)
정책 경사 (Policy Gradient) 방법을 RL에 도입, 함수 근사로 확장하며, 이후 PPO, A2C 등 여러 알고리즘의 토대가 됨spinningup.openai+1 - Asynchronous Methods for Deep Reinforcement Learning (A3C)
Mnih et al. (2016, ICML)
병렬 학습 프레임워크인 A3C를 제안, 학습 속도와 안정성이 크게 발전github+1
전환점: 분산 RL 학습 실현 - AlphaGo: Mastering the game of Go with deep neural networks and tree search
Silver et al. (2016, Nature)
정책과 가치망, MCTS의 결합으로 바둑에서 인간을 초월한 최초 인공지능spinningup.openai
전환점: RL 기반 복합 시스템의 실제 문제 해결 - Dark, Beyond Deep: A Paradigm Shift to Cognitive AI with Humanlike Common Sense
Zhu et al. (2020)
기존 심층학습 한계를 인지 AI, 인간적 상식을 가미하는 방향으로 강조sciencedirect
전환점: RL+인지, 상식, 추론으로 확장 - Play with Emotion: Affect-Driven Reinforcement Learning
Barthet et al. (2022)
감정 연계 강화학습을 통해, 행동뿐만 아니라 정서적 패턴까지 정책 학습 [PDF]arxiv
전환점: 정서/행동의 통합적 강화학습 - GenAI-based Multi-Agent Reinforcement Learning towards Distributed Agent Intelligence: A Generative-RL Agent Perspective
Wang & Zhang (2025)
멀티에이전트 환경에서 생성AI 기반 proactive intelligence 방식 제시 [PDF]arxiv
전환점: 생성 패러다임으로의 전환, 멀티에이전트 동적협력 강화
분야별 주요 논문 리스트
기본 알고리즘 및 이론
- Q-learning, Watkins & Dayan (1992)
- Temporal Difference learning, Sutton (1988)
- DDPG (Deep Deterministic Policy Gradient), Lillicrap et al. (2015)spinningup.openai
- Double DQN, Hasselt et al. (2016)github
심층 강화학습
- DQN, Mnih et al. (2015)[PDF]googleapis
- DDPG, Lillicrap et al. (2015)
- A3C, Mnih et al. (2016)
- Rainbow DQN, Hessel et al. (2018)
정책 경사
- TRPO (Trust Region Policy Optimization), Schulman et al. (2015)
- PPO (Proximal Policy Optimization), Schulman et al. (2017)
- REINFORCE, Williams (1992)spinningup.openai
메타/모델 기반 RL
- Model-based RL, Ha & Schmidhuber (World Models, 2018)
- Meta-Reinforcement Learning Based on Self-Supervised Task Representation Learning, Wang et al. (2023)[PDF]github
- Offline Meta RL with In-distribution Online Adaptation, Wang et al. (2023)[PDF]github
인간 상호작용, 언어모델, 인지 및 감정 RL
- Deep RL from Human Preferences, Christiano et al. (2017)[PDF]github
- Training Language Models to Follow Instructions with Human Feedback, Ouyang et al. (2022)[PDF]github
- Reward Design with Language Models, Kwon et al. (2023)[PDF]github
- Cognitive AI with Humanlike Common Sense, Zhu et al. (2020)sciencedirect
- Affect-Driven RL, Barthet et al. (2022)[PDF]arxiv
멀티에이전트 RL
- GenAI-based Multi-Agent RL, Wang & Zhang (2025)[PDF]arxiv
응용 및 기타 영향력 논문
- Efficient Online RL with Offline Data, Ball et al. (2023)[PDF]proceedings.mlr
- RL for Power Systems, Chen et al. (2021)[PDF]arxiv
PDF링크 있는 논문 목록
논문명PDF 링크패러다임 전환점 여부
| Reinforcement Learning: An Introduction | ✔️ [PDF]stanford | ✔️ |
| Human-level control through deep RL (DQN) | ✔️ [PDF]googleapis | ✔️ |
| Play with Emotion: Affect-Driven RL | ✔️ [PDF]arxiv | ✔️ |
| GenAI-based Multi-Agent RL | ✔️ [PDF]arxiv | ✔️ |
| Efficient Online RL with Offline Data | ✔️ [PDF]proceedings.mlr | |
| RL for Power Systems | ✔️ [PDF]arxiv | |
| Meta-Reinforcement Learning 논문 | ✔️ [PDF]github | |
| Deep RL from Human Preferences | ✔️ [PDF]github | |
| 다양한 RL, LLM 관련 논문 | ✔️ [PDF]github |
기타 참고 및 종합 리스트
- Spinning Up Key Papersspinningup.openai
- Awesome RL Papers Githubgithub
- RL 교과서 및 리뷰arxiv+1
- 분야별 최신 논문 검색: PaperDigest, PaperGuide, etcpaperdigest+3
추가로 원하는 특정 분야나 응용 분야가 있으면 더 상세 리스트를 제공할 수 있습니다.
- https://github.com/Allenpandas/Reinforcement-Learning-Papers
- https://www.reddit.com/r/reinforcementlearning/comments/1is773d/must_read_papers_for_reinforcement_learning/
- https://spinningup.openai.com/en/latest/spinningup/keypapers.html
- https://paperguide.ai/papers/top/research-papers-reinforcement-learning/
- https://arxiv.org/abs/2408.07712
- https://arxiv.org/abs/2507.09495
- https://web.stanford.edu/class/psych209/Readings/SuttonBartoIPRLBook2ndEd.pdf
- https://www.sciencedirect.com/science/article/pii/S2095809920300345
- https://storage.googleapis.com/deepmind-media/dqn/DQNNaturePaper.pdf
- https://arxiv.org/abs/2102.01168
- https://proceedings.mlr.press/v202/ball23a/ball23a.pdf
- https://arxiv.org/abs/2208.12622
- https://github.com/terryum/awesome-deep-learning-papers
- https://www.andrew.cmu.edu/course/10-703/textbook/BartoSutton.pdf
- https://www.paperdigest.org/2024/09/most-influential-icml-papers-2024-09/
- https://papers.baulab.info
- https://pub.towardsai.net/5-papers-you-cant-miss-reinforcement-learning-fca7a12c676d
- https://www.doradolist.com/papers/21-most-cited-machine-learning-papers
- https://www.ieee-jas.net/en/article/doi/10.1109/JAS.2025.125495
강화학습의 수학적 요소를 체계적으로 공부할 수 있는 자료들을 핵심 위주로 정리했습니다. 기본 연산부터 고급 응용, 실습자료, 문제집, 그리고 강의와 PDF까지 모두 포함하였습니다.github+11
수학적 기초(연산·개념 위주)
- Mathematical Foundation of Reinforcement Learning (MFoRL)
쉽고 수학적으로 강화학습 핵심을 설명, grid-world 예제와 연습문제 포함.- PDF, 강의, 슬라이드, 예제 코드 제공
- 수학적 개념(확률, 마르코프 결정과정(MDP), 벨만 방정식, 가치 함수, 정책 등)부터 차근차근 출발discuss.pytorch+3youtube
- 책 PDF 링크, 강의 자료, 코드
- 한국어 소개discuss.pytorch
- Reinforcement Learning: An Introduction (Sutton & Barto)
RL 수학의 바이블, 벨만 방정식, 마르코프 과정, DP, 몬테카를로 등 기초부터 설명- [PDF, 2판]andrew.cmu+1
- 공식 연습문제와 해답enjeeneer
- 각 챕터별 기본·고급 수학문제 및 풀이 실습
- The Mathematics of Reinforcement Learning
강화학습의 개념을 수학적으로 해설하는 독일 마인츠대 강의 슬라이드, 기초부터 점진적 심화- [강의 PDF]wim.uni-mannheim+1
- Multi-armed bandit, DP, 상태-가치 함수, 정책 평가 등 수식 중심
- A Course in Reinforcement Learning (D.P. Bertsekas)
DP와 RL의 수학을 풍부한 연습/실전예제와 함께 다룸- [2nd Edition PDF]mit
- 롤아웃/뉴럴넷/정책학습/적용 예제 등 실제 계산 연습 포함
실용 응용 및 고급 수학 자료
- Foundations of Reinforcement Learning with Applications in Finance
RL 이론 및 수학적 원리를 금융 데이터 응용과 연계, 프로그래밍 실습 강조stanford- [PDF]stanford
- RL Theory Book (AJKS)
RL과 제어 이론을 수학적으로 정리, 확률적 추론 관점에서 접근- [PDF]rltheorybook.github
- 확률적 추론, Optimal Control, 정책 최적화 등 이론적/실무적 응용
- CS234: Reinforcement Learning (Stanford)
2025년 최신 실전/이론/코딩 실습 강의. 수식 설명과 문제풀이, 과제 제공stanford - Open Course: Mathematical Foundations of Reinforcement Learning (Shiyu Zhao)
약 50개의 쇼트 강의 동영상, PDF 텍스트북과 슬라이드 제공- [YouTube 강좌]youtube
- [오픈코스 PDF, 연습문제, 해설]shiyuzhao.westlake+1
종합 추천 (기본→응용 순차적 학습)
- 기초와 연산:
- MFoRL PDF + Sutton & Barto PDF + 각 연습문제/풀이
- 독일 대학 수학 강의 슬라이드(수식 중심)wim.uni-mannheim+1
- 수학 응용:
- Bertsekas RL Book(연습/적용)
- RL Theory Book, 금융·제어 응용 PDF
- CS234, Shiyu Zhao 등 실제 강의 따라 실습
- 실제 코딩 및 실습:
- MFoRL의 grid-world 예제
- Sutton & Barto 공식 문제
- 오픈코스 강의 실습·코드
PDF 및 강의/자료 링크
자료명학습 내용PDF/강의
| MFoRL | 수학적 기초~알고리즘 | ✔️ PDF+강의+코드github+2youtube |
| Sutton & Barto | RL 핵심수학~실습 | ✔️ PDFstanford+1, ✔️ 연습문제enjeeneer |
| Bertsekas | DP+RL 심화이론/실습 | ✔️ PDFmit |
| RL Theory Book (AJKS) | 확률적 추론, 정책최적화 | ✔️ PDFrltheorybook.github |
| Finance/Control RL | RL 실제 금융/제어 | ✔️ PDFstanford |
| Mathematics of RL | 최소수식, 쉽게 설명 | ✔️ PDFwim.uni-mannheim+1 |
| Stanford CS234 등 | 응용+실전연습 | ✔️ 강의+슬라이드stanford |
| Shiyu Zhao 오픈코스 | 이론+실습+동영상 | ✔️ PDFshiyuzhao.westlake+2, ✔️ 강의youtube |
필요시 각 자료별로 접근법·학습법도 추가 안내 가능합니다.
- https://github.com/MathFoundationRL/Book-Mathematical-Foundation-of-Reinforcement-Learning
- https://discuss.pytorch.kr/t/mathematical-foundation-of-rl/6405
- https://shiyuzhao.westlake.edu.cn/Teaching.htm
- https://huggingface.co/posts/Kseniase/484268922176188
- https://enjeeneer.io/sutton_and_barto/rl_exercises.pdf
- https://www.cs.toronto.edu/~zemel/documents/411/rltutorial.pdf
- https://www.wim.uni-mannheim.de/media/Lehrstuehle/wim/doering/RL/RL_VORLESUNG.pdf
- https://www.mit.edu/~dimitrib/RLCOURSECOMPLETE%202ndEDITION.pdf
- https://ee.kaist.ac.kr/en/node02/18258/
- https://www.wim.uni-mannheim.de/media/Lehrstuehle/wim/doering/RL/RL_test_Leif.pdf
- https://stanford.edu/~ashlearn/RLForFinanceBook/book.pdf
- https://rltheorybook.github.io/rltheorybook_AJKS.pdf
- https://www.youtube.com/watch?v=ZHMWHr9811U
- https://www.andrew.cmu.edu/course/10-703/textbook/BartoSutton.pdf
- https://web.stanford.edu/class/psych209/Readings/SuttonBartoIPRLBook2ndEd.pdf
- http://web.stanford.edu/class/cs234/
- https://www.reddit.com/r/learnmachinelearning/comments/1f4wspf/any_source_to_learn_reinforcement_learning/
- https://www.reddit.com/r/reinforcementlearning/comments/a9ols4/all_you_need_to_completely_learn_rl_courses/
- https://indico.cern.ch/event/1208723/contributions/5229962/attachments/2604045/4497098/A%20crash%20course%20on%20reinforcement%20learning%20-%20Felix%20Wagner.pdf