【计算机科学】【2016.06】基于神经网络的鲁棒实时语音识别中的音频分割_梅花香——苦寒来的博客-程序员秘密_卡尔斯鲁厄 理工学院 人脸识

在这里插入图片描述
本文为德国卡尔斯鲁厄理工学院(作者:Micha Wetzel)的学士论文,共57页。

多媒体内容损害了自动语音识别(ASR)系统的识别精度和速度。本学士学位论文介绍了一种分段器,通过检测音频源中的音乐和噪声片段并用静音代替,来提高实时ASR系统的性能。提出了一种由帧分类和平滑两步组成的方法。大小为10毫秒的音频帧用分类模型分类为语音、音乐或噪声。以神经网络和支持向量机为模型,对多种设置进行了比较,分类精度达到87%。在第二步中,平滑算法考虑时间上下文以防止分类的快速波动。所提出的分段器能够产生与手动移除音乐片段相同的ASR系统的转录质量,同时保持270毫秒的实时可用延迟。

Multimedia content hurts the recognition accuracy and speed of automatic speech recognition (ASR) systems. This bachelor thesis introduces a segmenter to increase the performance of an real-rime ASR system by detecting music and noise segments in an audio source and replacing it with silence. A two step approach is proposed, consisting of frame classification and smoothing. Audio frames of size 10 milliseconds are classified as speech, music or noise with a classification model. Multiple settings with neural nets and support vector machines as model are compared, resulting in an classification accuracy of 87%. In the second step the smoothing algorithm considers the temporal context to prevent rapid class fluctuations. The proposed segmenter yields a transcript quality of an ASR system en-par with manual removal of the music segments, while maintaining a real-time applicable delay of 270 milliseconds.

  1. 引言
  2. 项目背景
  3. 以有的工作
  4. 研究方法
  5. 实验
  6. 结论

更多精彩文章请关注公众号:在这里插入图片描述

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/weixin_42825609/article/details/104316764

智能推荐

GitHub上的Java面试项目汇总 侵立删_心神沫沫的博客-程序员秘密

转自:https://mp.weixin.qq.com/s/QqGgcKM735XtfYCwN_LUwA 对于很多人来说,找到一份工作不是问题,但找到一个合适而满意的工作,却不那么简单。有些人虽然很有实力但是往往卡在面试环节。 本文为大家找了几个Java相关的面试项目,其中有的已经在GitHub上获得了26236个Star,下面我们一起来盘点一下这几个Java面试项目:1、Ja...

在Ubuntu的Linux下用cmake生成可执行文件_西西敏的博客-程序员秘密

1.建立CMakeLists.txt文件,编写 CMakeLists.txt文件2.建立一个文件夹build,用来存放cmake生成的文件3.进入build目录:cmake .make./执行文件名注:这三步中,最难理解的就在于编写CMakeLists.txt文件。用以下几步,一定能运行出结果,但不知原理:CMAKE_MINIMUM_REQUIRED(VERSION...

java计算年龄_java根据出生日期计算出年龄_ONE字幕组的博客-程序员秘密

java根据出生日期计算出年龄发布时间:2018-05-18 16:07,浏览次数:3155, 标签:java日期年龄计算StringdataOfBirth="1991-10-21";//出生日期try{//此处是获得的年龄intage=getAge(parse(dataOfBirth));//由出生日期获得年龄}catch(Exceptione){e...

eclilpse 添加 springboot 项目_一码归一码归一码的博客-程序员秘密

1、添加Spring Tool插件(操作过程用代理会比较快,因为要连国外的官网)Help -> Eclipse Makcketplace搜索Spring Tool或者选Popular选项卡,点击Install(安装) -> 重启eclipse2、添加Springboot工程快捷键Ctrl + n,或者 File -> New -> Other选择 Spring Boot -> Spring Starter Project填写工程信息,.

com.google.code.findbugs引起的错误_陆羽_的博客-程序员秘密

错误描述: Error:Conflict with dependency ‘com.google.code.findbugs:jsr305’. Resolved versions for app (1.3.9) and test app (2.0.1) differ. See http://g.co/androidstudio/app-test-app-conflict for de

mapreduce的自定义输入格式_lds_include的博客-程序员秘密

mapreduce自定义输入格式概念:当普通的输入格不能满足客户的要求的时候。因为普通的输入格式是将文件的每一行输入的数据作为一个value值然后进行map端的操作。现在有的需求是将数据库中的数据作为一个输入的格式,或者是将一个文件的整体作为一个输入格式等。举例:现在有一个需求是将一个目录下的所有小文件读取进来,将文件的整个内容都作为一个value值进行输入。出来map端的值是文件名...

随便推点

servlet中页面跳转response.sendRedirect() 详解_zhuoyuetec的博客-程序员秘密

问题提出:sendRedirect两次提交,forword一次提交。既然sendRedirect会返回浏览器,为什么在跳转之前输出out.prinln()不起作用分析:服务器在向客户端输出时,即out.prinln(),并不会及时的返回到客户端,而是会放到缓冲区中,只有当缓冲区溢出或则调用out.flush()或则response.flushBuffer()提交时才向客户端输出,而调用re

【IoT】物联网之 WIFI 一键配网 smartConfig 浅析(ESP32)_产品人卫朋的博客-程序员秘密

一、背景物联网时代技术开始规模化服务于民众,方便快捷显得尤为重要,WIFI 直连便是一个典型案例。目前主流的 WIFI 配置模式有以下 2 种:1、智能硬件处于 AP 模式(类似路由器,组成局域网),手机用于 STA 模式手机连接到处于 AP 模式的智能硬件后组成局域网,手机发送需要连接路由的 SSID 及密码至智能硬件,智能硬件主动去连接指定路由后,完成配网2、一键配网(sm...

zabbix告警时间和恢复时间相同的解决方法_weixin_33763244的博客-程序员秘密

出现原因:在动作,恢复操作中,恢复时间成了{EVENT.DATE} {EVENT.TIME},所以和告警时间相同。解决方法:将{EVENT.DATE}{EVENT.TIME}改成{EVENT.DATE}{EVENT.RECOVERY.TIME}即可转载于:https://www.cnblogs.com/as007012/p/10368262.html...

python2.7 requests如何不使用系统代理。_python requests 不使用代理_Altlentis的博客-程序员秘密

背景: Windows 环境下,爬虫在爬取过程中使用selenium IEdriver爬取,IEdriver设置了代理,这个代理是系统代理。此时使用requests 怎么避免使用系统代理?解决方案: 1. 指定域名不使用代理import osimport requestsos.environ['NO_PROXY'] = 'stackoverfl...

qt界面旋转~笔记_qt控件旋转_诺水城子的博客-程序员秘密

Qt程序界面旋转,通常有两种方式:方式一: qt需要支持旋转,在编译嵌入式qt库(如qte生成的Lib)的时候要加上-qt-gfx-transformed,-qt-gfx-linuxfb选项;启动Qt程序时加上参数 ./qtdemo-qws-display "Transformed:Rot180",qtdemo应用程序界面会整体旋转180度。方式二: 通过Qt代码实现,在Qt程序main.cpp文件中使用QGraphicsScene和QGraphicsPr...

mysql unique key使用_mysql unique key在查询中的使用与相关问题_栖渔的博客-程序员秘密

1、建表语句: CREATE TABLE `employees` (`emp_no` int(11) NOT NULL,`birth_date` date NOT NULL,`first_name` varchar(14) NOT NULL,`last_name` varchar(16) NOT NULL,`gender` char(1) NOT NULL,`hire_date` date NOT...

推荐文章

热门文章

相关标签