万盛华

南京大学LAMDA组博士研究生

专注于强化学习及其在现实世界中的应用,主要研究sim2real问题,包括策略诱导的世界模型学习、跨模态观测下的世界模型学习以及噪声环境中的学习控制。

万盛华

关于我

个人简介与教育背景

我于2021年6月获得南京大学地理信息系统学士学位,同年免试进入南京大学攻读博士学位,师从詹德川教授,在周志华教授领导的LAMDA组从事研究工作。

我的研究兴趣主要集中在强化学习及其在现实世界中的应用,特别是sim2real问题。我致力于开发能够在模拟环境和现实世界之间有效迁移的算法,使智能体能够在复杂、不确定的环境中学习和适应。

目前,我获得了国家自然科学基金青年科学基金(博士研究生)(624B200197)和江苏省研究生科研与实践创新计划(KYCX24_0302)等多项资助,支持我的研究工作。

LAMDA实验室

研究兴趣

探索强化学习的前沿领域

策略诱导的世界模型学习

研究如何通过学习世界模型来预测环境动态,从而减少对真实环境交互的依赖,提高样本效率。

跨模态观测下的世界模型学习

探索在不同感知模态(如视觉、触觉等)下如何构建统一的世界模型,实现多模态信息的融合与利用。

噪声环境中的学习控制

研究在存在感知噪声和执行噪声的环境中,如何设计鲁棒的学习算法,使智能体能够有效学习和决策。

学术成果

精选论文与研究成果

会议论文

SeeX论文

Leveraging Separated World Model for Exploration in Visually Distracted Environments

Kaichen Huang*, Shenghua Wan*, Minghao Shao, Shuai Feng, Le Gan, De-Chuan Zhan

NeurIPS 2024

我们提出了一个名为Separation-assisted eXplorer (SeeX)的双层优化框架。在内层优化中,SeeX训练一个分离的世界模型来提取外生和内生信息,最小化不确定性以确保任务相关性。在外层优化中,它学习一个策略在内生状态空间生成的想象轨迹上最大化任务相关的不确定性。

SeMOPO论文

SeMOPO: Learning High-quality Model and Policy from Low-quality Offline Visual Datasets

Shenghua Wan, Ziyuan Chen, Shuai Feng, Le Gan, De-Chuan Zhan

ICML 2024

我们提出了一种新方法——分离模型离线策略优化(SeMOPO),通过保守采样将状态分解为内生和外生部分,并仅在内生状态上估计模型不确定性。我们提供了模型不确定性的理论保证和SeMOPO的性能界限,并构建了低质量视觉深度数据驱动数据集(LQV-D4RL)用于强化学习。

AD3论文

AD3: Implicit Action is the Key for World Models to Distinguish the Diverse Visual Distractors

Yucen Wang*, Shenghua Wan*, Le Gan, Shuai Feng, De-Chuan Zhan

ICML 2024

我们提出了隐式动作生成器(IAG)来学习视觉干扰物的隐式动作,并提出了一种新算法——隐式动作信息多样化视觉干扰物区分器(AD3),利用IAG推断的动作来训练分离的世界模型。

期刊论文

JSTARS论文

A Novel Multi-Training Method for Time-Series Urban Green Cover Recognition From Multitemporal Remote Sensing Images

Wen-ye Wang, Sheng-hua Wan, Peng-feng Xiao, Xue-liang Zhang

IEEE JSTARS 2022

我们设计了一个通用的多时相框架,使用多训练这一新颖的半监督学习方法从多时相遥感图像中提取城市绿地覆盖信息。(本科期间完成)

预印本

MAPO论文

Pre-training World Models from Videos with Generated Actions by the Multi-Modal Large Models

Shenghua Wan, Xingye Xu, Le Gan, De-Chuan Zhan

我们提出了MAPO(基于多模态大模型生成动作的视频预训练),利用视觉语言模型生成详细的语义动作描述,建立带有因果解释的动作-状态关联。实验结果表明,MAPO显著提高了在DeepMind Control Suite和Meta-World上的性能,特别是在长时程任务中。

奖励模型综述

Reward Models in Deep Reinforcement Learning: A Survey

Rui Yu, Shenghua Wan, Yucen Wang, Chen-Xiao Gao, Le Gan, Zongzhang Zhang, De-Chuan Zhan

在这篇综述中,我们全面回顾了强化学习文献中的奖励建模技术。我们首先概述了奖励建模的背景和基础知识。接着,我们介绍了最新的奖励建模方法,并根据来源、机制和奖励学习范式进行分类。在此基础上,我们讨论了这些奖励建模技术的各种应用,并回顾了评估奖励模型的方法。

荣誉奖项

学术与研究成就的认可

2024
LAMDA杰出贡献奖
2024
博士研究生国家奖学金
2024
LAMDA优秀学生奖
2021
南京大学校长特别奖学金(博士新生)
2021
南京大学优秀毕业生
2021
平安保险数据挖掘竞赛冠军
2020
众安杯保险数据挖掘竞赛第二名