百度发布PLATO-XL,全球首个百亿参数中英文对话预训练生成模型_zenRRan的博客-程序员秘密

技术标签: 机器学习  百度  深度学习  人工智能  大数据  

【导读】和 AI 进行无障碍的对话,是什么样的体验?你或许能够在这篇文章里找到答案!

近日,百度全新发布 PLATO-XL,参数达到了 110 亿,超过之前最大的对话模型 Blender ,是当前最大规模的中英文对话模型,并再次刷新了开放域对话效果。

65eb82bdc153b05f5e6a95f8bdb32b1a.png

很难相信,以上是 AI 与人交流的真实对话记录。近日,百度发布新一代对话生成模型 PLATO-XL,一举超过 Facebook Blender、谷歌 Meena 和微软 DialoGPT,成为全球首个百亿参数中英文对话预训练模型,再次刷新了开放域对话效果,打开了对话模型的想象空间。

尽管大规模参数的模型在自然语言处理领域如雨后春笋出现,并且在多个自然语言理解和生成任务上取得了很多成果,但多轮开放域对话的主动性和常识性问题一直无法很好解决。

百度 NLP 于 2019 年 10 月预发布了通用领域的对话生成预训练模型 PLATO,在 ACL 2020 正式展示。2020 年升级为超大规模模型 PLATO-2,参数规模扩大到 16 亿,涵盖中英文版本,可就开放域话题深度畅聊。

如今,百度全新发布 PLATO-XL,参数规模首次突破百亿达到 110 亿,是当前最大规模的中英文对话生成模型。

  • 论文名称 : PLATO-XL: Exploring the Large-scale Pre-training of Dialogue Generation

  • 论文地址:https://arxiv.org/abs/2109.09519

PLATO-XL:百亿参数对话预训练生成模型

让机器进行像人一样有逻辑、有知识、有情感的对话,一直是人机智能交互的重要技术挑战;另一方面,开放域对话能力是实现机器人情感陪伴、智能陪护、智能助理的核心,被寄予了很高的期望。

预训练技术大幅提升了模型对大规模无标注数据的学习能力,如何更高效、充分的利用大规模数据提升开放域对话能力,成为主流的研究方向。

从谷歌 Meena、Facebook Blender 到百度 PLATO,开放域对话效果不断提升。在全球对话技术顶级比赛 DSTC-9 上,百度 PLATO-2 创造了一个基础模型取得 5 项不同对话任务第一的历史性成绩。

如今,百度发布 PLATO-XL,参数达到了 110 亿,超过之前最大的对话模型 Blender(最高 94 亿参数),是当前最大规模的中英文对话生成模型,并再次刷新了开放域对话效果。

百度 PLATO 一直有其独特的从数据到模型结构到训练方式上的创新。PLATO-1, PLATO-2 不仅刷新了开放域对话效果,也具有非常好的参数性价比,即在同等参数规模下效果超越其他模型。PLATO-XL 在参数规模达到新高的同时,其对话效果也不出意外地再次达到新高。下面,我们将展开介绍 PLATO-XL 模型的核心技术特点。

690ee11f334b36bb6d4e6d36a72dd374.png

PLATO-XL 模型:更高参数性价比,大幅提升训练效果

PLATO-XL 网络架构上承袭了 PLATO unified transformer 结构,可同时进行对话理解和回复生成的联合建模,参数性价比很高。通过灵活的注意力机制,模型对上文进行了双向编码,充分利用和理解上文信息;对回复进行了单向解码,适应回复生成的 auto-regressive 特性。此外,unified transformer 结构在对话上训练效率很高,这是由于对话样本长短不一,训练过程中 padding 补齐会带来大量的无效计算,unified transformer 可以对输入样本进行有效的排序,大幅提升训练效率。

4bd7642c6c0ea9abc7a4b09772ab9cb9.png

为了进一步改善对话模型有时候自相矛盾的问题,PLATO-XL 引入了多角色感知的输入表示,以提升多轮对话上的一致性。对话模型所用的预训练语料大多是社交媒体对话,通常有多个用户参与,表述和交流一些观点和内容。在训练时,模型较难区分对话上文中不同角度的观点和信息,容易产生一些自相矛盾的回复。针对社交媒体对话多方参与的特点,PLATO-XL 进行了多角色感知的预训练,对多轮对话中的各个角色进行清晰区分,辅助模型生成更加连贯、一致的回复。

PLATO-XL 包括中英文 2 个对话模型,预训练语料规模达到千亿级 token,模型规模高达 110 亿参数。PLATO-XL 也是完全基于百度自主研发的飞桨深度学习平台,利用了飞桨 FleetX 库的并行能力,使用了包括 recompute、sharded data parallelism 等策略,基于高性能 GPU 集群进行了训练。

PLATO-XL 效果:多种类型、多种任务,对话效果全面领先

为了全面评估模型能力,PLATO-XL 与当前开源的中英文对话模型进行了对比,评估中采用了两个模型针对开放域进行相互对话(self-chat)的形式,然后再通过人工来评估效果。PLATO-XL 与 Facebook Blender、微软 DialoGPT、清华 EVA 模型相比,取得了更优异的效果,也进一步超越了之前 PLATO-2 取得的最好成绩。此外,PLATO-XL 也显著超越了目前主流的商用聊天机器人。

dd83db9d020c7219e0311e537e7ca899.png

除了开放域闲聊对话,模型也可以很好的支持知识型对话和任务型对话,在多种对话任务上效果全面领先。

8a1fa242c3640b931f00598ef9462dcd.png

PLATO 系列涵盖了不同规模的对话模型,参数规模从 9300 万到 110 亿。下图可以看出,模型规模扩大对于效果提升也有显著作用,呈现较稳定的正相关关系。

33deac0b60192b3400843b9324e389ce.png

PLATO-XL 不管是在英文,还是中文上的多轮对话,模型都可以与用户进行有逻辑、有内容且有趣的深入聊天。

dd8c9bf6af65c1e968d363ffd3d3040d.png

80cde17628b167f1c5f9715e46e84a74.png

百度 PLATO-XL 模型中文对话效果

结语

让机器用自然语言与人自由地交流,是人工智能的终极目标之一。百度 PLATO-XL 的发布,是开放域对话在大模型上的一次深入探索。相信在不久的将来,更加强大的对话预训练模型将会陆续发布。未来,对话模型可以更加拟人、更有知识。

百度开放接口服务供大家体验最新中文 PLATO 百亿模型的效果,对智能对话感兴趣的小伙伴一定不能错过。

更多的 PLATO 技术交流或应用需求可发送邮件到:[email protected]baidu.com;未来 PLATO 技术还将开放更多能力,敬请关注百度大脑 UNIT 平台或点击阅读原文进入百度大脑UNIT主页了解更多详情。

百度大脑 UNIT:

https://ai.baidu.com/unit/home

英文体验方式:

https://nlp.baidu.com/special/plato/englishDemo

中文体验方式:扫码关注 “百度 PLATO” 微信公众号,进行深度畅聊。

85b66048bfe12ca257df04ee4b41eb72.png

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/qq_27590277/article/details/120426284

智能推荐

【MATLAB】基本绘图 ( 线条设定 | 线条设定组合 )_韩曙亮的博客-程序员秘密_matlab绘图线条类型

一、线条设定、1、matlab 线条设定官方文档、2、线条设定样式、二、代码示例、1、两个样式组合、4、三个样式组合

黑掉Mac系统只花2分钟 黑客大赛结果已出_lizhizeng的博客-程序员秘密

前报道的在加拿大举行的CanSecWest安全会议黑客大赛阶段已经有了结果.一位名叫米勒的黑客只用了2分钟时间就轻松击溃MacBook Air的安全防线,拿到了系统控制权,他是所有黑客中最快攻破目标系统的,在场的观众用掌声来为他加冕,米勒因此获得1万美元的奖金.根据规则规定,攻击者必须利用系统默认内置组件来实施进攻,米勒可能利用了苹果Safari浏览器的漏洞成功进入系统 

MOT_ryontang的博客-程序员秘密

1.8贝叶斯滤波回顾后验密度用P表示,为了清晰所见,我们在p下面增加了子索引,以便于清楚我们指的是什么密度,在这里我们有状态X的密度,如果上下文清晰可见,跳过此索引。如果P的PDF是高斯PDF,有均值:x bar(预测值), 协方差矩阵P1.9运动建模怎么哪哪都是density?? Transition density本来这个预测是一个非线性转换后的数值,但是由于高斯噪声的存在,硬生生变成一个PDF了,而且是高斯的PDFf(x1∣xk−1)f(x_1|x_{k-1})f(x1​

医药网订单对接ERP软件订单接口_心有猛虎安于现状的博客-程序员秘密

SET ANSI_NULLS ONGOSET QUOTED_IDENTIFIER ONGOALTER PROCEDURE [dbo].[Orderinterface]ascreate table #a --创建临时表#a储存查询的结果集(ID   int IDENTITY (0,1),--自增列从0开始每次增加1o_id int,--医药网订单IDo_buy

thinkphp整合系列之gulp实现前端自动化_chouyulai0489的博客-程序员秘密

这又是一个一次整合终身受益;不止是终身;换个项目同样可以很方便复用;不信你看另一个项目: thinkphp整合系列之gulp实现前端自动化 虽然我等叫php程序猿;但是不可避免的是要跟html打交道的;而且php这么容易开发web;难道我们不想自己随手写点什么?laravel这...

TYPE-C接口的定义诠释以及功能参数挖掘_Q2185126449的博客-程序员秘密_type-c

现在的安卓手机大多都采用了Type-C接口,如华为、荣耀、小米、三星、魅族等。对于这个接口,大家不再陌生,但大多数人对它的认识还停留在“支持正反插”、“用来充电”的基础层面。今天就来深入挖掘一下TYPE-C发展七年至今,为何能够统一市场。

随便推点

[转]MySQL存储过程调试工具_Jlins的博客-程序员秘密

工具官网地址:http://www.devart.com/dbforge/mysql/studio/     本文转自:http://blog.chinaunix.net/uid-26364035-id-3179231.html 对于某些存储过程很多且复杂的SQL的应用,在短时间内要使得所有MySQL存储过程和函数正常运行,那么如果能找到一个比较好的调试工具,就可以事半功倍, 这里介绍

结构方程模型:技术接受度模型TAM2_yanyanwenmeng的博客-程序员秘密_技术接受模型

课程地址:https://study.163.com/course/courseLearn.htm?courseId=1210809833#/learn/video?lessonId=1283244027&courseId=1210809833续接前一篇文章:https://liangyan.blog.csdn.net/article/details/122240605一、概念模型与理论框架二、研究假设三、构念的操作型定义四、测量工具的开发五、测量工具的选取六、抽样方式与

jupyter(ipython notebook) 安装和入门教程_dianliao7817的博客-程序员秘密

近期大家无论是自己做数据分析还是紧急答辩做PPT,可能都需要画一些数据的展示图;以前大家都是用excel画图,但excel画图存在一定的局限性,比如你要画个累积直方图,excel就很麻烦了,所以给大家介绍一个基于python的交互数据分析工具,ipython notebook。本文会给大家介绍从零开始安装和使用notebook的入门教程,写的不详细...

[hihoCoder] #1093 : 最短路径·三:SPFA算法_weixin_34082854的博客-程序员秘密

时间限制:10000ms单点时限:1000ms内存限制:256MB描述万圣节的晚上,小Hi和小Ho在吃过晚饭之后,来到了一个巨大的鬼屋!鬼屋中一共有N个地点,分别编号为1..N,这N个地点之间互相有一些道路连通,两个地点之间可能有多条道路连通,但是并不存在一条两端都是同一个地点的道路。不过这个鬼屋虽然很大,但是其中的道路并不算多,所以小Hi还是希望能够知道从入口...

oracle pmon andsmon,oracle smon与pmon ckpt功能的作用(ZT)_weixin_39926103的博客-程序员秘密

SMON是Oracle数据库至关重要的一个后台进程,SMON 是System Monitor 的缩写,意即:系统监控。在数据库启动过程中,SMON排在CKPT进程之后,在Oracle9i中排在第六号的位置:PMON started with pid=2DBW0 started with pid=3LGWR started with pid=4CKPT started with pid=5SMON ...

Keras深度学习实战——新闻文本分类_盼小辉丶的博客-程序员秘密

在先前的应用实战中,我们分析了结构化的数据集,即数据集中包含变量及其对应实际输出值。但是现实式结构更多的数据是非结构化的,并没有预定义的数据模型,文本、图像和音频等均属于非结构化数据。在本节中,将介绍新闻文本分类任务,处理一个以文本作为输入的非结构化数据集,预期的输出是文本相关的分类主题。

推荐文章

热门文章

相关标签