强化学习2023-课程主页


课程信息

  • 教师: 俞扬 教授, 章宗长 副教授
  • 授课对象: 人工智能学院研究生
  • 教室: 仙1-206
  • 时间: 周三1-2
  • 教材: Richard S. Sutton, Andrew G. Barto. Reinforcement Learning, second edition: An Introduction, MIT Press, 2018.
  • 助教: 刘旭辉 (Contact: liuxh@lamda.nju.edu.cn) 贾乘兴   (Contact: jiacx@lamda.nju.edu.cn)
  • 总评:
  • 课程讨论QQ群: 426243423
  • 考试:

作业


迟交作业的处理原则:迟交一周以内,折扣系数为0.8;迟交一周以上,折扣系数为0.6.
  • 作业1: Dagger算法 截止日期: 10月15日 23:59:59   提交方式:上传到sftp 主机地址: www.lamda.nju.edu.cn 作业文件夹地址:/D:/courses/introRL23_HW/HW1/submission (用户名: IntroRL, 密码: RL2023fall@LAMDA!)
  • 作业2: Q-learning算法 截止日期: 11月1日 23:59:59   提交方式:上传到sftp 主机地址: www.lamda.nju.edu.cn 作业文件夹地址:/D:/courses/introRL23_HW/HW2/submission (用户名: IntroRL, 密码: RL2023fall@LAMDA!)
  • 作业3: DQN算法及其变体 截止日期: 11月25日 23:59:59   提交方式:上传到sftp 主机地址: www.lamda.nju.edu.cn 作业文件夹地址:/D:/courses/introRL23_HW/HW3/submission (用户名: IntroRL, 密码: RL2023fall@LAMDA!)
  • 作业4: Model-Based算法 截止日期: 12月20日 23:59:59   提交方式:上传到sftp 主机地址: www.lamda.nju.edu.cn 作业文件夹地址:/D:/courses/introRL23_HW/HW4/submission (用户名: IntroRL, 密码: RL2023fall@LAMDA!)
  • 作业5: Offline RL算法 作业数据集下载 截止日期: 1月12日 23:59:59   提交方式:上传到sftp 主机地址: www.lamda.nju.edu.cn 作业文件夹地址:/D:/courses/introRL23_HW/HW5/submission (用户名: IntroRL, 密码: RL2023fall@LAMDA!)


Edit

课程材料

  1. Lecture 1 (PDF)
  2. Lecture 2 (PDF)
  3. Lecture 3 (PDF)
  4. Lecture 4 (PDF)
  5. Lecture 5 (PDF)
  6. Lecture 6 (PDF)
  7. Lecture 7 (PDF)
  8. Lecture 8 (PDF)
  9. Lecture 9 (PDF)

 

学术诚信

允许同学之间的相互讨论,但是署你名字的工作必须由你完成,不允许直接照搬任何已有的材料,必须独立完成作业的书写过程。

按照此处的说明,在完成作业过程中,对他人工作(出版物、互联网资料)中文本的直接照搬(包括原文的直接复制粘贴及语句的简单修改等)都将视为剽窃,剽窃者成绩将被取消。对于完成作业中有关键作用的公开资料,应予以明显引用。

如果发现作业之间高度相似将被判定为互相抄袭行为, 抄袭和被抄袭双方的成绩都将被取消。因此请主动防止自己的作业被他人抄袭。



Edit

学术资源


The end