본문 바로가기
코딩/강화학습

강화학습 논문 및 학습 소스

by 적막한숲 2025. 9. 13.

아래는 강화학습 분야의 저명한 논문들을 최대한 많이, 패러다임의 전환점을 명확히 표시해 포함하였습니다. 각 논문에 대해 PDF 링크가 있을 경우 첨부하였으며, 인용수가 많고 학계에서 영향력 있는 논문들입니다.github+10


패러다임 전환점 논문

  • Reinforcement Learning: An Introduction
    Sutton & Barto (2018, 2nd Ed.)
    강화학습 기본 교과서, 가치 함수, 정책, Q-learning, TD-learning 등 핵심 개념 정립, RL 연구의 출발점 [PDF]stanford
    전환점: RL 이론 및 용어의 표준화
  • Human-level control through deep reinforcement learning
    Mnih et al. (2015, Nature)
    Deep Q-Network(DQN) 제안. Atari 환경에서 복잡한 문제를 딥러닝으로 해결한 첫 사례 [PDF]googleapis
    전환점: 딥러닝과 RL의 결합, DeepRL 태동
  • Policy Gradient Methods for Reinforcement Learning with Function Approximation
    Sutton et al. (2000)
    정책 경사 (Policy Gradient) 방법을 RL에 도입, 함수 근사로 확장하며, 이후 PPO, A2C 등 여러 알고리즘의 토대가 됨spinningup.openai+1
  • Asynchronous Methods for Deep Reinforcement Learning (A3C)
    Mnih et al. (2016, ICML)
    병렬 학습 프레임워크인 A3C를 제안, 학습 속도와 안정성이 크게 발전github+1
    전환점: 분산 RL 학습 실현
  • AlphaGo: Mastering the game of Go with deep neural networks and tree search
    Silver et al. (2016, Nature)
    정책과 가치망, MCTS의 결합으로 바둑에서 인간을 초월한 최초 인공지능spinningup.openai
    전환점: RL 기반 복합 시스템의 실제 문제 해결
  • Dark, Beyond Deep: A Paradigm Shift to Cognitive AI with Humanlike Common Sense
    Zhu et al. (2020)
    기존 심층학습 한계를 인지 AI, 인간적 상식을 가미하는 방향으로 강조sciencedirect
    전환점: RL+인지, 상식, 추론으로 확장
  • Play with Emotion: Affect-Driven Reinforcement Learning
    Barthet et al. (2022)
    감정 연계 강화학습을 통해, 행동뿐만 아니라 정서적 패턴까지 정책 학습 [PDF]arxiv
    전환점: 정서/행동의 통합적 강화학습
  • GenAI-based Multi-Agent Reinforcement Learning towards Distributed Agent Intelligence: A Generative-RL Agent Perspective
    Wang & Zhang (2025)
    멀티에이전트 환경에서 생성AI 기반 proactive intelligence 방식 제시 [PDF]arxiv
    전환점: 생성 패러다임으로의 전환, 멀티에이전트 동적협력 강화

분야별 주요 논문 리스트

기본 알고리즘 및 이론

  • Q-learning, Watkins & Dayan (1992)
  • Temporal Difference learning, Sutton (1988)
  • DDPG (Deep Deterministic Policy Gradient), Lillicrap et al. (2015)spinningup.openai
  • Double DQN, Hasselt et al. (2016)github

심층 강화학습

  • DQN, Mnih et al. (2015)[PDF]googleapis
  • DDPG, Lillicrap et al. (2015)
  • A3C, Mnih et al. (2016)
  • Rainbow DQN, Hessel et al. (2018)

정책 경사

  • TRPO (Trust Region Policy Optimization), Schulman et al. (2015)
  • PPO (Proximal Policy Optimization), Schulman et al. (2017)
  • REINFORCE, Williams (1992)spinningup.openai

메타/모델 기반 RL

  • Model-based RL, Ha & Schmidhuber (World Models, 2018)
  • Meta-Reinforcement Learning Based on Self-Supervised Task Representation Learning, Wang et al. (2023)[PDF]github
  • Offline Meta RL with In-distribution Online Adaptation, Wang et al. (2023)[PDF]github

인간 상호작용, 언어모델, 인지 및 감정 RL

  • Deep RL from Human Preferences, Christiano et al. (2017)[PDF]github
  • Training Language Models to Follow Instructions with Human Feedback, Ouyang et al. (2022)[PDF]github
  • Reward Design with Language Models, Kwon et al. (2023)[PDF]github
  • Cognitive AI with Humanlike Common Sense, Zhu et al. (2020)sciencedirect
  • Affect-Driven RL, Barthet et al. (2022)[PDF]arxiv

멀티에이전트 RL

  • GenAI-based Multi-Agent RL, Wang & Zhang (2025)[PDF]arxiv

응용 및 기타 영향력 논문

  • Efficient Online RL with Offline Data, Ball et al. (2023)[PDF]proceedings.mlr
  • RL for Power Systems, Chen et al. (2021)[PDF]arxiv

PDF링크 있는 논문 목록

논문명PDF 링크패러다임 전환점 여부
Reinforcement Learning: An Introduction ✔️ [PDF]stanford ✔️
Human-level control through deep RL (DQN) ✔️ [PDF]googleapis ✔️
Play with Emotion: Affect-Driven RL ✔️ [PDF]arxiv ✔️
GenAI-based Multi-Agent RL ✔️ [PDF]arxiv ✔️
Efficient Online RL with Offline Data ✔️ [PDF]proceedings.mlr  
RL for Power Systems ✔️ [PDF]arxiv  
Meta-Reinforcement Learning 논문 ✔️ [PDF]github  
Deep RL from Human Preferences ✔️ [PDF]github  
다양한 RL, LLM 관련 논문 ✔️ [PDF]github  
 

기타 참고 및 종합 리스트


추가로 원하는 특정 분야나 응용 분야가 있으면 더 상세 리스트를 제공할 수 있습니다.

  1. https://github.com/Allenpandas/Reinforcement-Learning-Papers
  2. https://www.reddit.com/r/reinforcementlearning/comments/1is773d/must_read_papers_for_reinforcement_learning/
  3. https://spinningup.openai.com/en/latest/spinningup/keypapers.html
  4. https://paperguide.ai/papers/top/research-papers-reinforcement-learning/
  5. https://arxiv.org/abs/2408.07712
  6. https://arxiv.org/abs/2507.09495
  7. https://web.stanford.edu/class/psych209/Readings/SuttonBartoIPRLBook2ndEd.pdf
  8. https://www.sciencedirect.com/science/article/pii/S2095809920300345
  9. https://storage.googleapis.com/deepmind-media/dqn/DQNNaturePaper.pdf
  10. https://arxiv.org/abs/2102.01168
  11. https://proceedings.mlr.press/v202/ball23a/ball23a.pdf
  12. https://arxiv.org/abs/2208.12622
  13. https://github.com/terryum/awesome-deep-learning-papers
  14. https://www.andrew.cmu.edu/course/10-703/textbook/BartoSutton.pdf
  15. https://www.paperdigest.org/2024/09/most-influential-icml-papers-2024-09/
  16. https://papers.baulab.info
  17. https://pub.towardsai.net/5-papers-you-cant-miss-reinforcement-learning-fca7a12c676d
  18. https://www.doradolist.com/papers/21-most-cited-machine-learning-papers
  19. https://www.ieee-jas.net/en/article/doi/10.1109/JAS.2025.125495

강화학습의 수학적 요소를 체계적으로 공부할 수 있는 자료들을 핵심 위주로 정리했습니다. 기본 연산부터 고급 응용, 실습자료, 문제집, 그리고 강의와 PDF까지 모두 포함하였습니다.github+11


수학적 기초(연산·개념 위주)

  • Mathematical Foundation of Reinforcement Learning (MFoRL)
    쉽고 수학적으로 강화학습 핵심을 설명, grid-world 예제와 연습문제 포함.
  • Reinforcement Learning: An Introduction (Sutton & Barto)
    RL 수학의 바이블, 벨만 방정식, 마르코프 과정, DP, 몬테카를로 등 기초부터 설명
  • The Mathematics of Reinforcement Learning
    강화학습의 개념을 수학적으로 해설하는 독일 마인츠대 강의 슬라이드, 기초부터 점진적 심화
    • [강의 PDF]wim.uni-mannheim+1
    • Multi-armed bandit, DP, 상태-가치 함수, 정책 평가 등 수식 중심
  • A Course in Reinforcement Learning (D.P. Bertsekas)
    DP와 RL의 수학을 풍부한 연습/실전예제와 함께 다룸
    • [2nd Edition PDF]mit
    • 롤아웃/뉴럴넷/정책학습/적용 예제 등 실제 계산 연습 포함

실용 응용 및 고급 수학 자료

  • Foundations of Reinforcement Learning with Applications in Finance
    RL 이론 및 수학적 원리를 금융 데이터 응용과 연계, 프로그래밍 실습 강조stanford
  • RL Theory Book (AJKS)
    RL과 제어 이론을 수학적으로 정리, 확률적 추론 관점에서 접근
    • [PDF]rltheorybook.github
    • 확률적 추론, Optimal Control, 정책 최적화 등 이론적/실무적 응용
  • CS234: Reinforcement Learning (Stanford)
    2025년 최신 실전/이론/코딩 실습 강의. 수식 설명과 문제풀이, 과제 제공stanford
  • Open Course: Mathematical Foundations of Reinforcement Learning (Shiyu Zhao)
    약 50개의 쇼트 강의 동영상, PDF 텍스트북과 슬라이드 제공

종합 추천 (기본→응용 순차적 학습)

  1. 기초와 연산:
    • MFoRL PDF + Sutton & Barto PDF + 각 연습문제/풀이
    • 독일 대학 수학 강의 슬라이드(수식 중심)wim.uni-mannheim+1
  2. 수학 응용:
    • Bertsekas RL Book(연습/적용)
    • RL Theory Book, 금융·제어 응용 PDF
    • CS234, Shiyu Zhao 등 실제 강의 따라 실습
  3. 실제 코딩 및 실습:
    • MFoRL의 grid-world 예제
    • Sutton & Barto 공식 문제
    • 오픈코스 강의 실습·코드

PDF 및 강의/자료 링크

자료명학습 내용PDF/강의
MFoRL 수학적 기초~알고리즘 ✔️ PDF+강의+코드github+2youtube
Sutton & Barto RL 핵심수학~실습 ✔️ PDFstanford+1, ✔️ 연습문제enjeeneer
Bertsekas DP+RL 심화이론/실습 ✔️ PDFmit
RL Theory Book (AJKS) 확률적 추론, 정책최적화 ✔️ PDFrltheorybook.github
Finance/Control RL RL 실제 금융/제어 ✔️ PDFstanford
Mathematics of RL 최소수식, 쉽게 설명 ✔️ PDFwim.uni-mannheim+1
Stanford CS234 등 응용+실전연습 ✔️ 강의+슬라이드stanford
Shiyu Zhao 오픈코스 이론+실습+동영상 ✔️ PDFshiyuzhao.westlake+2, ✔️ 강의youtube
 

필요시 각 자료별로 접근법·학습법도 추가 안내 가능합니다.

  1. https://github.com/MathFoundationRL/Book-Mathematical-Foundation-of-Reinforcement-Learning
  2. https://discuss.pytorch.kr/t/mathematical-foundation-of-rl/6405
  3. https://shiyuzhao.westlake.edu.cn/Teaching.htm
  4. https://huggingface.co/posts/Kseniase/484268922176188
  5. https://enjeeneer.io/sutton_and_barto/rl_exercises.pdf
  6. https://www.cs.toronto.edu/~zemel/documents/411/rltutorial.pdf
  7. https://www.wim.uni-mannheim.de/media/Lehrstuehle/wim/doering/RL/RL_VORLESUNG.pdf
  8. https://www.mit.edu/~dimitrib/RLCOURSECOMPLETE%202ndEDITION.pdf
  9. https://ee.kaist.ac.kr/en/node02/18258/
  10. https://www.wim.uni-mannheim.de/media/Lehrstuehle/wim/doering/RL/RL_test_Leif.pdf
  11. https://stanford.edu/~ashlearn/RLForFinanceBook/book.pdf
  12. https://rltheorybook.github.io/rltheorybook_AJKS.pdf
  13. https://www.youtube.com/watch?v=ZHMWHr9811U
  14. https://www.andrew.cmu.edu/course/10-703/textbook/BartoSutton.pdf
  15. https://web.stanford.edu/class/psych209/Readings/SuttonBartoIPRLBook2ndEd.pdf
  16. http://web.stanford.edu/class/cs234/
  17. https://www.reddit.com/r/learnmachinelearning/comments/1f4wspf/any_source_to_learn_reinforcement_learning/
  18. https://www.reddit.com/r/reinforcementlearning/comments/a9ols4/all_you_need_to_completely_learn_rl_courses/
  19. https://indico.cern.ch/event/1208723/contributions/5229962/attachments/2604045/4497098/A%20crash%20course%20on%20reinforcement%20learning%20-%20Felix%20Wagner.pdf