高级强化学习2025-课程主页


课程信息

  • 教师: 袁雷 助理研究员
  • 授课对象: 研究生
  • 教室: 仙1-111
  • 时间: 周四1-2
  • 助教: 吴智超 (Contact: wuzc@lamda.nju.edu.cn), 卞煜齐 (Contact: bianyq@lamda.nju.edu.cn)
  • 课程讨论QQ群: 2161024087
  • 教材:
    • Richard S. Sutton, Andrew G. Barto. Reinforcement Learning, second edition: An Introduction, MIT Press, 2018.
    • Albrecht, Stefano V., Filippos Christianos, and Lukas Schäfer. Multi-agent reinforcement learning: Foundations and modern approaches. MIT Press, 2024.
    • Hands-on Reinforcement Learning


作业

迟交作业的处理原则:迟交一周以内,折扣系数为0.8;迟交一周以上,折扣系数为0.6.
  • 作业1: 编程实现DDPG及TD3 截止日期: 3月16日 23:59:59   提交方式:上传到sftp 主机地址: www.lamda.nju.edu.cn 作业文件夹地址:/D:/courses/advanceRL25_HW/HW1/submission (用户名: advanceRL25, 密码: RL2025@NJU)
  • 作业2: 多智能体值函数算法 截止日期: 4月3日 23:59:59   提交方式:上传到sftp 主机地址: www.lamda.nju.edu.cn 作业文件夹地址:/D:/courses/advanceRL25_HW/HW2/submission (用户名: advanceRL25, 密码: RL2025@NJU)
  • 大作业1: PPO及其技巧 截止日期: 4月7日 23:59:59   提交方式:上传到sftp 主机地址: www.lamda.nju.edu.cn 作业文件夹地址:/D:/courses/advanceRL25_HW/HW3/submission (用户名: advanceRL25, 密码: RL2025@NJU) 我们将在下一次课(4.10)日抽取10位同学分享作业报告!
  • 作业3: RLHF及DPO理论推导 截止日期: 5月20日 23:59:59   提交方式:上传到sftp 主机地址: www.lamda.nju.edu.cn 作业文件夹地址:/D:/courses/advanceRL25_HW/HW4/submission (用户名: advanceRL25, 密码: RL2025@NJU)
  • 大作业2: 论文阅读分享 截止日期:  


课程材料

 

学术诚信

允许同学之间的相互讨论,但是署你名字的工作必须由你完成,不允许直接照搬任何已有的材料,必须独立完成作业的书写过程。

按照此处的说明,在完成作业过程中,对他人工作(出版物、互联网资料)中文本的直接照搬(包括原文的直接复制粘贴及语句的简单修改等)都将视为剽窃,剽窃者成绩将被取消。对于完成作业中有关键作用的公开资料,应予以明显引用。

如果发现作业之间高度相似将被判定为互相抄袭行为, 抄袭和被抄袭双方的成绩都将被取消。因此请主动防止自己的作业被他人抄袭。



Edit

学术资源


The end