报告信息
题目:支持大模型的分布式训练技术
报告人:崔 斌 教授,北京大学
摘要:机器学习系统是人工智能应用的重要基础,其核心包括数据组织形式、模型计算方法以及硬件使用方式等。日益增长的模型和数据规模对现有系统带来了严峻的挑战。本次报告介绍了课题组自主研发的面向大模型的分布式深度学习框架--河图。报告首先剖析了目前“大模型”发展情况,然后重点介绍了河图面向复杂模型和硬件环境的优化进展以及在自动化并行训练上的探索。最后,对机器学习系统的发展进行了展望。河图系统已在GitHub开源:https://github.com/PKU-DAIR/Hetu