报告时间:2022年5月11日(周三)14:30 – 16:30
报告地点:线上腾讯会议,会议ID(126909701)
报告题目:如何训练一个全能的预训练模型?兼顾理解和生成的中文预训练模型CPT
报告简介:中文预训练模型现如今正在蓬勃发展,新的模型层出不穷。这些模型一般可分为两类:一类采用BERT相似的架构,重点提升自然语言理解任务的性能;另一类致力于更好的文本生成,使用生成式架构和训练任务。致力于同时兼顾理解和生成任务,我们提出了一种非对称的单输入多输出模型——CPT。通过简单的参数共享和多任务预训练,使得模型能学到自然语言理解和文本生成的共性知识和特性知识。同时,模型采用深层编码器和浅层解码器的非对称结构,保证了下游任务微调时的灵活性和易用性。实验结果表明,CPT在下游的自然语言理解任务和文本生成任务中都有明显效果,并且特有的浅层解码器结构能大大加速模型的训练和预测。本报告将介绍兼顾理解和生成的中文预训练模型,训练和微调方法。
报告人介绍:邱锡鹏,复旦大学计算机学院教授,国家优青获得者,于复旦大学获得理学学士和博士学位。主要从事自然语言处理、深度学习等方向的研究,发表CCF A/B类论文70余篇,获得ACL 2017杰出论文奖(CCF A类)、CCL 2019最佳论文奖,有4篇论文入选PaperDigest发布的IJCAI/ACL/EMNLP的最有影响力论文(各会议每年10篇)。出版开源专著《神经网络与深度学习》,Github关注数1.5万,豆瓣评分9.4分。主持开发了开源框架FudanNLP和FastNLP,已被国内外数百家单位使用。2015年入选首届中国科协青年人才托举工程项目,2018年获钱伟长中文信息处理科学技术奖青年创新奖一等奖,2020-2021年连续两年入选由清华-中国工程院知识智能联合研究中心发布的"AI 2000人工智能全球最具影响力提名学者"等。培养学生曾获中国中文信息学会优博、中国人工智能学会优博、上海市优博、微软学者、百度奖学金等。