技术标签: 无监督预训练 论文解读 wav2vec2.0 HUBERT 语音识别
文章来源:icassp2021
相比于CV和NLP领域,ASR领域中自监督预训练方法面临3个挑战。
在这篇文章中,作者提出了HIdden-Unit BERT(HUBERT)模型,采用k-means聚类,为BERT预训练模型提供target label。**作者方法成功的关键因素是只在被masked的区域计算预测损失函数。**这使得模型在预训练阶段能够受益于无监督teacher的一致性,而不是teacher的质量。在初始阶段,只进行100类别的聚类,进行两次迭代的聚类,HUBERT模型的性能能够在低资源场景下,和最优的wav2vec2.0模型相当。
在讲解本文的做法之前,需要先了解预训练模型wav2vec2.0的做法。wav2vec2.0是一个很优秀的自监督预训练模型,在预训练阶段不需要语音-文本pair数据,但是预训练模型训练需要构建自监督任务所需要的target。
wav2vec2.0模型采用原始语音输入,然后进行features encoder学习类似于fbank的局部特征,然后features encoder的输出被多段mask后,进入transformer,通过transformer上下文预测被mask的表征,然后features encoder输出的被多段mask的真实特征进入VQ模块进行量化,这个VQ模块本质上是一个聚类器,是一个提供预训练target的模块,这里的VQ本身是随着训练进行参数更新,是一个在线聚类的过程。wav2vec2.0先了解到这里。
HUERT是一个离线聚类获取target的过程,具体做法:
作者在实验中发现,只在被mask的位置计算损失函数性能最好。
可以看出,finetune性能与在预训练阶段teacher的质量有很好的相关性。而且在MFCC上k-means聚类中心数目对性能影响不大。
增大batch-size能够明显提升性能;训练更长时间性能会更好。另外这个结果优于DiscreteBERT中采用13.5k的聚类中心数目的结果,作者猜测HUBERT性能好的原因:使用了更合适的聚类中心数目并且将原始mfcc作为输入,不会丢弃信息。
无监督的teacher模型融合,可以带来比单个teacher更好的性能。
作者在采用预训练模型进行迭代式聚类时,采用不同层的输出进行聚类,发现中间层6层的表征产生target进行二次预训练对下游finetune任务帮助最大。
一、问题描述1、ArcMap 是32位,运行的Python也是32位;2、ArcGIS Server 是64位,运行的Python是64位;3、这样就导致注册表和环境变量起冲突,即如果Server能运行,ArcMap就不能运行,反之亦然;4、ArcServer 错误,很明显Server调用的Python脚本目录指向了32位Python安装目录。5、ArcMap错误是在运行GP模型之后发...
2.4G低功耗无线传输应用始于千年,并逐渐渗透到生活的各个方面。当时,由于功耗性能和蓝牙技术问题,在许多市场中,例如游戏手柄,遥控赛车,键盘和鼠标配件等,主要使用专用的2.4G应用程序。在2011年之前,TI推出了业界首款低功耗蓝牙芯片,由于与手机的互操作性便利,低功耗蓝牙市场开始爆炸。它从可穿戴应用程序开始,逐渐渗透到传统的2.4G私有协议市场,并扩展到电池供电的无线传输应用程序,例如智能家居和...
今天打开项目点击底部首页导航突然报错从别的页面进入然后点击底部首页导航就不会报错;去router的index.js页面(引入vue-router的页面)添加如下代码可以完美解决const originalPush = Router.prototype.push;Router.prototype.push = function push (location) { return origi...
昨天更新了Virtualmin的系统识别部分,目的是让它能支持Debian系统下的一键安装和优化,代码修改了差不多,将VPS重新安装为Debian,通过sh ./virtualmin.sh执行代码就报“Syntax error: “(” unexpected”错误,通过bash ./virtualmin.sh执行就没问题。几经查找语法,没有问题,后来在网上找到问题原因: 代码对于标...
共回答了20个问题采纳率:95%computer is a machine that manipulates data according to a list of instructions.The first devices that resemble modern computers date to the mid-20th century (1940–1945), although the ...
package cn.Date;import java.text.Format;import java.text.SimpleDateFormat;import java.util.Date;/**DateFormat 是日期/时间格式化子类的抽象类,因为他是一个抽象类,所以要有具体构造方法 *public cla
流程资源RepositoryServiceRepositoryService包含了管理流程资源的所有方法。流程资源服务接口。提供对流程定义的部署、查询、删除和流程图查看等操作。1.部署流程://通过classpath中的文件名加载repositoryService.createDeployment().addResou
vs2015安装完后,会默认打开的是Microsoft Blend for Visual Studio,据说blend for visual studio 这个并不是用于开发中写代码的,而是专门用来做WPF的界面设计的。写代码,还必须手动打开安装目录C:\Program Files (x86)\Microsoft Visual Studio 14.0\Common7\IDE里面有一...
全网最细华为MPLS VPN组网配置
一直想自己做一下这个功能,这次有机会在网上找了段代码,没想到直接拿来就成功了! 在这里记录下,防止原帖删除! 出处:http://www.cnblogs.com/xdp-gacl/p/4200090.html需要的jar包放在lib下 commons-fileupload-1.2.1.jar commons-io-1.4.jarupload.jsp<%@ page language="jav
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 ...
1.UE4UE4是由全球顶级游戏EPIC公司虚幻引擎的最新版本,EPIC中国唯一授权机构GA游戏教育基地。UE4支持DirectX 11、物理引擎PhysX、APEX和NVIDIA 3D技术,以打造非常逼真的画面。UE4是一个面向虚拟现实游戏开发、主机平台游戏开发和DirectX 11个人电脑游戏开发的完整开发平台,提供了游戏开发者需要的大量的核心技术、数据生成工具和基础支持。登陆设备包括PC,主机,手机和掌机。(1)优点UE4作为后起之秀,UE4在虚拟现实游戏开发者界大出风头,其强大的开发能力