T5模型和GPT2模型初步对比_t5和gpt2-程序员宅基地

技术标签: python  语言模型  深度学习  自然语言处理  神经网络  

T5模型和GPT2模型初步对比


之前试着用GPT2模型训练了一个诗词对联生成程序( 训练诗词生成模型)。
这个周末初步试了一下用T5模型做同样的事,是想对比一下看看两个模型的区别。

这两种模型都是基于经典的 Transformer 模型该进来的,都比最初的 Transformer 强大复杂的多。最大的区别是 GPT2 只有解码器,T5 同时有编码器和解码器。理论上T5这种模型比较善于应对给定输入,产生对应的输出的应用:比如翻译,知识问答等。GPT2 比较善于自由创作,比如写一篇短文等。还有一类只有编码器的模型,擅长处理分类问题。但实际上,只要模型够强大,各种NPL问题都能用同一个模型就解决。(比如我在GPT3模型的网站上大致测试了一下它的功能,它在写作、翻译、对话、分类等各种应用中的表现都非常出色。)

T5模型总体上比GPT2模型大不少。我这次测试的是最小型的T5模型,但也比我上次测试的小型GPT2规模大了一倍以上。我用的是与训练GPT2模型大致相同的数据集。训练了个把小时。只对于T5这么庞大的模型来说,可能是有些不够的。所以我也就不做定量分析了,只大致比较一些GPT2和T5预测诗词的效果。

结果和我预想的差不多。T5的对联生成效果稍好于GPT2的效果;但是GPT2的诗词生成效果远好于T5。
T5这种模型非常适合给定上文然后生成相对固定的下文。比如用于中英翻译,上文是“我喜欢打游戏”,下文基本就可以确定为“I like to play video games”,最多用词上时态上稍有变化。这种对应关系是非常明确的。对联的上下联之间也是有比较明确的对应关系的。所以T5处理起来得心应手。GPT2模型生成对联时候,很明显越长的对联,越容易出错。GPT2模型可以明显的感觉到,它在生成新文字时候,更重视附近的单词的影响。这是可以理解的,在一篇文章里,关系越紧密的文字通常距离也越近。但是对于对联中的文字来说,影响最大的却不是附近的字,而是上联中对应位置的哪个字。那个字如果和当前的字间隔了十几个甚至几十个其它的字,GPT2的生成效果就会大受影响。
T5在这方面处理的更好。但是对联和翻译还是不太一样。在翻译任务中,上下文的对应关系十分明确。而一个上联是可以有非常多不同的对应下联的。在这种灵活性上,GPT2反而更有优势。总的来说,普通对联算是个相对简单的问题。T5模型处理的更好,但GPT2也够用了。至于涉及高级技巧的对联,比如拆字联、无情对等等,目前两个模型都还没办法处理好。

诗词生成难度比对联更大。所以总体来说,两个模型产生的效果都还有待提高。相对来说GPT2的结果更顺畅一些。我网页上演示的结果(https://www.qizhen.xyz/)也还是使用的 GPT2 模型。

接续摘录一些生成的结果:

东风吹绿柳,西日映红霞。
人家在何处,月影对芳华。

春风一缕柳丝柔,又见飞花入眼流。
不是东君都解意,只因明月误归舟。

西风吹叶归,秋老金菊黄 。
霜寒衣袖凉,心冷梦魂长 。

长河万里碧,远岫千峰青。山色横江眼,天光上晚星。
朝花香满袖,暮雨露盈庭。回首人生路,孤帆万里行。

红日正当年,欲乘东风追远梦;春光更好处,唯凭彩笔写新篇

其它乱七八糟的结果我就贴在这里了:
http://py.qizhen.xyz/

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/ruanqizhen/article/details/121069947

智能推荐

服务器设置虚拟内存有什么好处,高频率内存有哪些优势?虚拟内存是什么-程序员宅基地

文章浏览阅读601次。为增进大家对内存的认识,本文将为大家介绍高频率内存的优势。此外,小编还将对虚拟内存加以探讨。我们每天都在同内存打交道,但大家对内存真的了解吗?上篇文章中,我们对服务器内存以及服务器内存技术有所介绍,为增进大家对内存的认识,本文将为大家介绍高频率内存的优势。此外,小编还将对虚拟内存加以探讨。如果你对内存及其相关知识具有兴趣,不妨继续往下阅读哦。一、高频率内存优势由于决定内存性能的核心因素有内存容量、..._服务器内存频率高有什么好处

微信小程序使用echarts真机调试报错:HTMLCanvasView is not defined_html canvas is not defined-程序员宅基地

文章浏览阅读3.6k次,点赞4次,收藏8次。报错内容:解决办法:给组件传入force-use-old-canvas="true"就可以在真机调试里展示了。重点:发布线上时,一定要将这句去掉,现在只是不支持真机调试,线上是可以使用的。重点:发布线上时,一定要将这句去掉,现在只是不支持真机调试,线上是可以使用的。重点:发布线上时,一定要将这句去掉,现在只是不支持真机调试,线上是可以使用的。<view style="width:..._html canvas is not defined

计算机基础知识 常见简答,第一章 计算机基础知识(多选和简答)及答案-程序员宅基地

文章浏览阅读457次。计算机第一章计算机基础知识多项选择题(有两个或两个以上正确答案)1、下列说法中,正确的是________。A、一个汉字用1个字节表示 B、在微机中,使用最普遍的字符编码是ASCII码C、高级语言程序可以编译为目标程序 D、ASCII码的最高位用作奇偶校验位2、文件型(外壳型)计算机病毒主要感染扩展名为________。A、COM B、BAT C、EXE D、DOC3、..._达成某一任务的指令的会合称为语言

[SceneKit专题]25-如何制作一个像Can-Knockdown的游戏-程序员宅基地

文章浏览阅读232次。说明SceneKit系列文章目录更多iOS相关知识查看github上WeekWeekUpProject本教程将包含以下内容:在SceneKit编辑器中建立基本的3D场景.编程加载并呈现3D场景.建立仿真物理,如何应用力.通过触摸与3D场景中的物体交互.设计并实现基本的碰撞检测.开始开始前,先下载初始项目starter project打开项目,简单查看一下里面都有些..._can knockdown1下载

Unity Shader的结构_unity的扩展sprites的shader-程序员宅基地

文章浏览阅读1.3k次。材质和Unity Shader在unity中,需要配合使用材质Material和Unity Shader才能达到需要的效果流程创建一个材质→创建一个Unity Shader,并把它赋给上一步中创建的材质→把材质赋给要渲染的对象→在材质面板中调整Unity Shader的属性,以得到满意的效果Unity中的材质Unity中的材质需要配合一个GameObject的Mesh或者Particle Systen组件来工作,它决定了我们的游戏对象看起来是什么样子的Unity中的Shader为了和前面通用的_unity的扩展sprites的shader

spring cloud 的断路器(Hystrix) 依赖添加注意点_hystrix最新依赖-程序员宅基地

文章浏览阅读3.6k次。最新的Hystrix 依赖都是隶属于netfix下,这样@HystrixCommand 和@EnableHystrixDashboard 才能使用&lt;dependency&gt; &lt;groupId&gt;org.springframework.cloud&lt;/groupId&gt; &lt;artifactId&gt;spring-cloud-starter-netf..._hystrix最新依赖

随便推点

Qt之文本编码转换_qt 将txt文件转换成字符串-程序员宅基地

文章浏览阅读844次。一、QTextCodecQTextCodec类提供了文本编码转换功能。指定字符集对文本进行转换。1.Qt程序中所有要显示到界面上的字符串最好都是用tr()函数;代码如下(示例):QTextCodec::setCoderForTr(QTextCodec::codecForName("UTF-8"));QLabel label;label.setText(QObject::tr("你好,世界!"));2.对于不是要显示到界面上的字符串中如果包含了中文,可以使用QString()进行编码转换。代_qt 将txt文件转换成字符串

在idea上使用git建立连接gitee上的仓库_the breanch to pull from should be selected-程序员宅基地

文章浏览阅读2k次。error: failed to push some refs to 'https://gitee.com/liyue25/test.git'To https://gitee.com/liyue25/test.githint: Updates were rejected because the remote contains work that you dohint: not have locally. This is usually caused by another repository push_the breanch to pull from should be selected

day11-函数作业_写一个自己的rjust函数,创建一个字符串的长度是指定长度,原字符串在新字符串中右-程序员宅基地

文章浏览阅读94次。写一个自己的rjust函数,创建一个字符串的长度是指定长度,原字符串在新字符串中右对齐,剩下的部分用指定的字符填充。写一个自己的index函数,统计指定列表中指定元素的所有下标,如果列表中没有指定元素返回-1。写一个自己的replace函数,将指定字符串中指定的旧字符串转换成指定的新字符串。编写一个函数,提取指定字符串中所有的字母,然后拼接在一起产生一个新的字符串。写一个自己的endswith函数,判断一个字符串是否已指定的字符串结束。写一个自己的upper函数,将一个字符串中所有的小写字母变成大写字母。._写一个自己的rjust函数,创建一个字符串的长度是指定长度,原字符串在新字符串中右

spring自定义全局异常_18jzz大全-程序员宅基地

文章浏览阅读1.3k次。spring自定义全局异常背景学习目标案列背景在springmvc的controller中程序员经常要封装错误对象返回错误,前端显示错误文案。通过spring的异常处理器,来进行自定义异常处理学习目标学习全局异常拦截器处理controller所有的异常的返回封装定义枚举异常码,设计自定义异常案列创建枚举异常码,定义系统异常情况/** * @author tianjz */..._18jzz大全

[py]你真的了解多核处理器吗? 了解多线程-程序员宅基地

文章浏览阅读95次。越来越多的人搞爬虫,设计到多线程爬取, 还有一些机器学习的一些模块也需要这玩意, 感觉自己不会逼格不高. 抽时间赶紧玩一玩这东西, 希望提高对软件的认知和归属感,不要太傻.cpu内部架构参考你知道CPU是如何工作的?-视频CPU核心越多越好?你的CPU可能正在养老!你真的了解多核处理器吗?1.双核≠双性能多核不一定会使你的手机或电脑速度更快,但它将提高你的PC的整体性能,这是一个...

XBee模块实现QGC与PX4飞控的组网通信连接_xbee实现多机控制-程序员宅基地

文章浏览阅读2k次,点赞5次,收藏18次。本篇博客介绍如何利用XBee模块实现QGC地面站与飞控的通信_xbee实现多机控制

推荐文章

热门文章

相关标签