【AI视野·今日Sound 声学论文速览第二十一期】Mon, 9 Oct 2023-程序员宅基地

技术标签：语音合成扩散模型神经语音增强语音克隆音视频扩散模型 Papers Sound audio 音频事件检测语音疾病检测语音合成

AI视野·今日CS.Sound 声学论文速览
Mon, 9 Oct 2023
Totally 13 papers
上期速览更多精彩请移步主页

在这里插入图片描述

Interesting:

MBTFNet,用于歌声质量增强的多带宽时频神经网络 (from 西工大 Audio, Speech and Language Processing Group (ASLP@NPU),)
在这里插入图片描述

Daily Sound Papers

MBTFNet: Multi-Band Temporal-Frequency Neural Network For Singing Voice Enhancement
Authors Weiming Xu, Zhouxuan Chen, Zhili Tan, Shubo Lv, Runduo Han, Wenjiang Zhou, Weifeng Zhao, Lei Xie
典型的神经语音增强SE方法主要处理语音和噪声混合，这对于歌声增强场景来说并不是最佳的。音乐源分离MSS模型平等地对待人声和各种伴奏成分，与仅考虑人声增强的模型相比，这可能会降低性能。在本文中，我们提出了一种新颖的多频带时频神经网络 MBTFNet 用于歌声增强，特别是从歌声录音中去除背景音乐、噪音甚至背景人声。 MBTFNet 结合了带间和带内建模，以更好地处理全带信号。引入双路径建模来扩展模型的感受野。我们提出了基于信噪比 SNR 估计的隐式个性化增强 IPE 阶段，进一步提高了 MBTFNet 的性能。

U-Style: Cascading U-nets with Multi-level Speaker and Style Modeling for Zero-Shot Voice Cloning
Authors Tao Li, Zhichao Wang, Xinfa Zhu, Jian Cong, Qiao Tian, Yuping Wang, Lei Xie
零样本说话人克隆的目的是在仅给出当前说话人的单个语音参考的情况下，为 TTS 系统构建过程中未见过的任何目标说话人合成语音。尽管在实际应用中更实用，但当前的零样本方法仍然产生自然度和说话人相似度不理想的语音。此外，还没有考虑在零样本设置中赋予目标说话者任意的说话风格。这是因为零样本说话者和风格克隆的独特挑战是仅从表示任意说话者和任意风格的简短参考中学习解开的说话者和风格表示。为了应对这一挑战，我们提出了 U Style，它采用 Grad TTS 作为骨干，特别是在文本编码器和扩散解码器之间级联特定于说话者的编码器和特定于风格的编码器。因此，利用信号扰动，U Style 被明确分解为说话者和风格特定的建模部分，从而实现更好的说话者和风格分离。为了提高未见过的说话人和风格建模能力，这两个编码器通过跳过连接的 U 网进行多级说话人和风格建模，结合表示提取和信息重建过程。此外，为了提高合成语音的自然度，我们在这些编码器中采用基于均值的实例归一化和风格自适应层归一化来分别执行表示提取和条件自适应。实验表明，在自然性和说话人相似性方面，U Style 显着超越了看不见的说话人克隆中最先进的方法。

Layer-Adapted Implicit Distribution Alignment Networks for Cross-Corpus Speech Emotion Recognition
Authors Yan Zhao, Yuan Zong, Jincen Wang, Hailun Lian, Cheng Lu, Li Zhao, Wenming Zheng
在本文中，我们提出了一种新的无监督域自适应 DA 方法，称为层自适应隐式分布对齐网络 LIDAN，以解决跨语料库语音情感识别 SER 的挑战。 LIDAN 扩展了我们之前的 ICASSP 工作，即深度隐式分布对齐网络 DIDAN，其主要贡献在于引入了一种称为隐式分布对齐 IDA 的新颖正则化术语。该术语允许在源训练语音样本上训练的 DIDAN 仍然适用于预测目标测试语音样本的情感标签，而不管跨语料库 SER 中的语料库差异如何。为了进一步增强这种方法，我们将 IDA 扩展到分层适配的 IDA LIDA ，从而产生 LIDAN。该层适应扩展由三个修改后的 IDA 术语组成，它们考虑不同粒度级别的情感标签。这些术语战略性地排列在 LIDAN 的不同全连接层中，与层深度方面不断增强的情感辨别能力相一致。与 DIDAN 相比，这种安排使 LIDAN 能够更有效地学习跨各种语料库的 SER 的情感辨别和语料库不变特征。还值得一提的是，与大多数依赖估计统计矩来描述预先假设的显式分布的现有方法不同，IDA 和 LIDA 都采用了不同的方法。他们利用目标样本重建的思想来直接弥合特征分布差距，而不对其分布类型做出假设。因此，DIDAN 和 LIDAN 可以被视为隐式跨语料库 SER 方法。为了评估 LIDAN，我们在 EmoDB、eNTERFACE 和 CASIA 语料库上进行了广泛的跨语料库 SER 实验。

HuBERTopic: Enhancing Semantic Representation of HuBERT through Self-supervision Utilizing Topic Model
Authors Takashi Maekaku, Jiatong Shi, Xuankai Chang, Yuya Fujita, Shinji Watanabe
最近，自监督表示学习 SSRL 方法的有用性已在各种下游任务中得到证实。其中许多模型（例如 HuBERT 和 WavLM）使用从光谱特征或模型自身的表示特征生成的伪标签。从之前的研究可知，伪标签包含语义信息。然而，HuBERT 的学习标准屏蔽预测任务侧重于局部上下文信息，可能无法有效利用全局语义信息，如说话人、演讲主题等。在本文中，我们提出了一种丰富 HuBERT 语义表示的新方法。我们将主题模型应用于伪标签，为每个话语生成主题标签。 HuBERT 中添加了一个辅助主题分类任务，以主题标签为教师。这允许以无监督的方式合并附加的全局语义信息。实验结果表明，我们的方法在大多数任务中实现了与基线相当或更好的性能，包括自动语音识别和八个 SUPERB 任务中的五个。此外，我们发现主题标签包含有关话语的各种信息，例如性别、说话者及其主题。

Zero-Shot Emotion Transfer For Cross-Lingual Speech Synthesis
Authors Yuke Li, Xinfa Zhu, Yi Lei, Hai Li, Junhui Liu, Danming Xie, Lei Xie
跨语言语音合成中的零样本情感转移旨在将情感从源语言中的任意语音参考转移到目标语言中的合成语音。构建这样的系统面临着不自然的外国口音的挑战以及对不同语言的共享情感表达进行建模的困难。本文以 DelightfulTTS 神经架构为基础，通过引入专门设计的模块来分别对语言特定的韵律特征和语言共享的情感表达进行建模，从而解决了这些挑战。具体来说，通过非自回归预测编码NPC模块学习特定于语言的语音韵律，以提高合成跨语言语音的自然度。不同语言之间共享的情感表达是从具有强大泛化能力的预训练自监督模型HuBERT中提取的。我们进一步使用分层情感模型来捕获跨不同语言的更全面的情感。

EFFUSE: Efficient Self-Supervised Feature Fusion for E2E ASR in Multilingual and Low Resource Scenarios
Authors Tejes Srivastava, Jiatong Shi, William Chen, Shinji Watanabe
自监督学习 SSL 模型在各种语音任务中表现出了卓越的性能，特别是在资源匮乏和多语言领域。最近的研究表明，与使用一种 SSL 模型相比，融合 SSL 模型可以获得更优越的性能。然而，融合模型增加了模型参数大小，导致推理时间更长。在本文中，我们提出了一种从单个 SSL 模型预测其他 SSL 模型特征的新颖方法，从而形成具有竞争性能的轻量级框架。我们的实验表明，SSL 特征预测模型在多语言语音识别任务中优于单个 SSL 模型。领先的预测模型在 ML SUPERB 基准测试中平均 SUPERB 分数提高了 135.4。

Diffusion Models as Masked Audio-Video Learners
Authors Elvis Nunez, Yanzi Jin, Mohammad Rastegari, Sachin Mehta, Maxwell Horton
在过去的几年中，音频和视觉信号之间的同步已被用来学习更丰富的视听表示。借助大量未标记视频的帮助，许多无监督训练框架在各种下游音频和视频任务中表现出了令人印象深刻的结果。最近，Masked Audio Video Learners MAViL 已成为最先进的音频视频预训练框架。 MAViL 将对比学习与屏蔽自动编码相结合，通过融合两种模态的信息来联合重建音频频谱图和视频帧。在本文中，我们研究了扩散模型和 MAViL 之间的潜在协同作用，寻求从这两个框架中获得共同利益。将扩散纳入 MAViL，并结合各种训练效率方法（包括使用掩蔽比课程和自适应批量大小调整），可将预训练浮点运算 FLOPS 显着减少 32 倍，预训练挂钟时间减少 18 倍。

Securing Voice Biometrics: One-Shot Learning Approach for Audio Deepfake Detection
Authors Awais Khan, Khalid Mahmood Malik
自动说话人验证 ASV 系统容易遭受使用音频深度伪造的欺诈活动，也称为逻辑访问语音欺骗攻击。由于生成式人工智能和语音合成技术的最新进展，这些深度伪造品对语音生物识别技术构成了令人担忧的威胁。虽然已经开发了几种用于语音合成检测的深度学习模型，但大多数模型的通用性很差，特别是当攻击具有与所看到的统计分布不同的统计分布时。因此，本文提出了 Quick SpoofNet，这是一种使用一次性学习和度量学习技术来检测 ASV 系统中可见和不可见的合成攻击的方法。通过使用有效的频谱特征集，该方法从语音样本中提取紧凑且有代表性的时间嵌入，并利用度量学习和三元组损失来评估相似性指数并区分不同的嵌入。该系统有效地对相似的语音嵌入进行聚类，将真实的语音分类为目标类别，并将其他聚类识别为欺骗攻击。使用 ASVspoof 2019 逻辑访问 LA 数据集对所提出的系统进行评估，并针对 ASVspoof 2021 数据集中未见过的深度伪造攻击进行测试。

Transferring speech-generic and depression-specific knowledge for Alzheimer's disease detection
Authors Ziyun Cui, Wen Wu, Wei Qiang Zhang, Ji Wu, Chao Zhang
从自发语音中检测阿尔茨海默病 AD 引起了越来越多的关注，而训练数据的稀疏性仍然是一个重要问题。本文通过知识转移来处理这个问题，特别是从语音通用知识和抑郁症特定知识。该论文首先研究了在大量语音和文本数据上预训练的通用基础模型的顺序知识迁移。基于从不同基础模型的不同中间块中提取的表示，对 AD 诊断进行块分析。除了来自语音通用表征的知识之外，本文还提出基于抑郁症和 AD 的高共病率，同时迁移来自语音抑郁症检测任务的知识。研究了并行知识转移框架，该框架共同学习这两个任务之间共享的信息。

Analysis on the Influence of Synchronization Error on Fixed-filter Active Noise Control
Authors Guo Yu
主动噪声控制技术在减轻城市噪声（特别是低频分量）方面的功效已得到充分证实。在传统学术研究领域中，自适应算法（例如滤波参考最小均方方法）被广泛用于在许多应用中实现实时降噪。然而，该技术在商业产品中的应用往往因其巨大的计算复杂性和固有的不稳定性而受到阻碍。在这种特殊情况下，采用固定滤波器策略成为解决这些挑战的可行替代方案，尽管在降噪功效方面可能需要权衡。本工作旨在对数字主动噪声控制 ANC 系统的同步误差进行理论研究。

Dementia Assessment Using Mandarin Speech with an Attention-based Speech Recognition Encoder
Authors Zih Jyun Lin, Yi Ju Chen, Po Chih Kuo, Likai Huang, Chaur Jong Hu, Cheng Yu Chen
痴呆症的诊断需要一系列不同的测试方法，既复杂又耗时。早期发现痴呆症至关重要，因为它可以防止病情进一步恶化。本文利用语音识别模型在图片描述任务中构建了一个针对普通话使用者的痴呆症评估系统。通过在与现实世界场景非常相似的语音数据上训练基于注意力的语音识别模型，我们显着增强了模型的识别能力。随后，我们从语音识别模型中提取了编码器，并添加了用于痴呆症评估的线性层。我们收集了 99 名受试者的普通话语音数据，并从当地一家医院获得了他们的临床评估。

Challenges and Insights: Exploring 3D Spatial Features and Complex Networks on the MISP Dataset
Authors Yiwen Shao
多通道多说话者语音识别在语音处理领域提出了巨大的挑战，其特点是背景噪声、混响和重叠语音等问题。克服这些复杂性需要利用上下文线索将目标语音从不和谐的混合中分离出来，从而实现准确的识别。在这些线索中，3D 空间功能已成为一种前沿解决方案，特别是在配备有关目标说话者的空间信息时。它具有识别混合音频中目标说话者的卓越能力，通常会导致中间处理冗余，为直接训练多合一 ASR 模型铺平了道路。这些模型在模拟和现实数据上都表现出了值得称赞的性能。在本文中，我们将这种方法扩展到 MISP 数据集，以进一步验证其功效。

Audio Event-Relational Graph Representation Learning for Acoustic Scene Classification
Authors Yuanbo Hou, Siyang Song, Chuang Yu, Wenwu Wang, Dick Botteldooren
大多数基于深度学习的声学场景分类 ASC 方法根据从音频剪辑转换而来的声学特征来识别场景，其中包含由复调音频事件 AE 纠缠的混合信息。然而，这些方法很难解释它们使用什么线索来识别场景。本文进行了首次研究，揭示了现实生活中的声学场景与最相关的 AE 的语义嵌入之间的关系。具体来说，我们提出了一种用于 ASC 的事件关系图表示学习 ERGL 框架来对场景进行分类，并同时清楚、直接地回答分类中使用了哪些线索。在事件关系图中，每个事件的嵌入被视为节点，而从每对节点导出的关系线索由多维边缘特征描述。在现实生活中的 ASC 数据集上进行的实验表明，所提出的 ERGL 通过仅学习有限数量的 AE 的嵌入，在 ASC 上实现了有竞争力的性能。结果表明基于音频事件关系图识别不同声学场景的可行性。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com

本文链接：https://blog.csdn.net/u014636245/article/details/133762172

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

C#连接OPC C#上位机链接PLC程序源码 1.该程序是通讯方式是CSharp通过OPC方式连接PLC_c#opc通信-程序员宅基地

文章浏览阅读565次。本文主要介绍如何使用C#通过OPC方式连接PLC，并提供了相应的程序和学习资料，以便读者学习和使用。OPC服务器是一种软件，可以将PLC的数据转换为标准的OPC格式，允许其他软件通过标准接口读取或控制PLC的数据。此外，本文还提供了一些学习资料，包括OPC和PLC的基础知识，C#编程语言的教程和实例代码。这些资料可以帮助读者更好地理解和应用本文介绍的程序。1.该程序是通讯方式是CSharp通过OPC方式连接PLC，用这种方式连PLC不用考虑什么种类PLC，只要OPC服务器里有的PLC都可以连。_c#opc通信

Hyper-V内的虚拟机复制粘贴_win10 hyper-v ubuntu18.04 文件拷贝-程序员宅基地

文章浏览阅读1.6w次，点赞3次，收藏10次。实践环境物理机：Windows10教育版，操作系统版本 17763.914虚拟机：Ubuntu18.04.3桌面版在Hyper-V中的刚安装好Ubuntu虚拟机之后，会发现鼠标滑动很不顺畅，也不能向虚拟机中拖拽文件或者复制内容。在VMware中，可以通过安装VMware tools来使物理机和虚拟机之间达到更好的交互。在Hyper-V中，也有这样的工具。这款工具可以完成更好的鼠标交互，我的..._win10 hyper-v ubuntu18.04 文件拷贝

java静态变量初始化多线程，持续更新中_类初始化一个静态属性为线程池-程序员宅基地

文章浏览阅读156次。前言互联网时代，瞬息万变。一个小小的走错，就有可能落后于别人。我们没办法去预测任何行业、任何职业未来十年会怎么样，因为未来谁都不能确定。只能说只要有互联网存在，程序员依然是个高薪热门行业。只要跟随着时代的脚步，学习新的知识。程序员是不可能会消失的，或者说不可能会没钱赚的。我们经常可以听到很多人说，程序员是一个吃青春饭的行当。因为大多数人认为这是一个需要高强度脑力劳动的工种，而30岁、40岁，甚至50岁的程序员身体机能逐渐弱化，家庭琐事缠身，已经不能再进行这样高强度的工作了。那么，这样的说法是对的么？_类初始化一个静态属性为线程池

idea 配置maven，其实不用单独下载Maven的。以及设置新项目配置，省略每次创建新项目都要配置一次Maven_安装idea后是不是不需要安装maven了?-程序员宅基地

文章浏览阅读1w次，点赞13次，收藏43次。说来也是惭愧，一直以来，在装环境的时候都会从官网下载Maven。然后再在idea里配置Maven。以为从官网下载的Maven是必须的步骤，直到今天才得知，idea有捆绑的 Maven 我们只需要搞一个配置文件就行了无需再官网下载Maven包以后再在新电脑装环境的时候，只需要下载idea ，网上找一个Maven的配置文件放到默认的包下面就可以了！也省得每次创建项目都要重新配一次Maven了。如果不想每次新建项目都要重新配置Maven，一种方法就是使用默认的配置，另一种方法就是配置 .._安装idea后是不是不需要安装maven了?

奶爸奶妈必看给宝宝摄影大全-程序员宅基地

文章浏览阅读45次。家是我们一生中最重要的地方,小时候,我们在这里哭、在这里笑、在这里学习走路,在这里有我们最真实的时光,用相机把它记下吧。　　很多家庭在拍摄孩子时有一个看法,认为儿童摄影团购必须是在风景秀丽的户外,即便是室内那也是像大酒店一样...

构建Docker镜像指南，含实战案例_rocker/r-base镜像-程序员宅基地

文章浏览阅读429次。Dockerfile介绍Dockerfile是构建镜像的指令文件，由一组指令组成，文件中每条指令对应linux中一条命令，在执行构建Docker镜像时，将读取Dockerfile中的指令，根据指令来操作生成指定Docker镜像。Dockerfile结构：主要由基础镜像信息、维护者信息、镜像操作指令、容器启动时执行指令。每行支持一条指令，每条指令可以携带多个参数。注释可以使用#开头。指令说明FROM 镜像：指定新的镜像所基于的镜像MAINTAINER 名字：说明新镜像的维护（制作）人，留下_rocker/r-base镜像

随便推点

毕设基于微信小程序的小区管理系统的设计ssm毕业设计_ssm基于微信小程序的公寓生活管理系统-程序员宅基地

文章浏览阅读223次。该系统将提供便捷的信息发布、物业报修、社区互动等功能，为小区居民提供更加便利、高效的服务。引言：随着城市化进程的加速，小区管理成为一个日益重要的任务。因此，设计一个基于微信小程序的小区管理系统成为了一项具有挑战性和重要性的毕设课题。本文将介绍该小区管理系统的设计思路和功能，以期为小区提供更便捷、高效的管理手段。四、总结与展望：通过本次毕设项目，我们实现了一个基于微信小程序的小区管理系统，为小区居民提供了更加便捷、高效的服务。通过该系统的设计与实现，能够提高小区管理水平，提供更好的居住环境和服务。_ssm基于微信小程序的公寓生活管理系统

如何正确的使用Ubuntu以及安装常用的渗透工具集.-程序员宅基地

文章浏览阅读635次。文章来源i春秋入坑Ubuntu半年多了记得一开始学的时候基本一星期重装三四次=-= 尴尬了觉得自己差不多可以的时候就吧Windows10干掉了 c盘装Ubuntu 专心学习. 这里主要来说一下使用Ubuntu的正确姿势Ubuntu（友帮拓、优般图、乌班图）是一个以桌面应用为主的开源GNU/Linux操作系统，Ubuntu 是基于DebianGNU/Linux，支..._ubuntu安装攻击工具包

JNI参数传递引用_jni引用byte[]-程序员宅基地

文章浏览阅读335次。需求：C++中将BYTE型数组传递给Java中，考虑到内存释放问题，未采用通过返回值进行数据传递。public class demoClass{public native boolean getData(byte[] tempData);}JNIEXPORT jboolean JNICALL Java_com_core_getData(JNIEnv *env, jobject thisObj, jbyteArray tempData){ //resultsize为s..._jni引用byte[]

三维重建工具——pclpy教程之点云分割_pclpy.pcl.pointcloud.pointxyzi转为numpy-程序员宅基地

文章浏览阅读2.1k次，点赞5次，收藏30次。本教程代码开源：GitHub 欢迎star文章目录一、平面模型分割1. 代码2. 说明3. 运行二、圆柱模型分割1. 代码2. 说明3. 运行三、欧几里得聚类提取1. 代码2. 说明3. 运行四、区域生长分割1. 代码2. 说明3. 运行五、基于最小切割的分割1. 代码2. 说明3. 运行六、使用 ProgressiveMorphologicalFilter 分割地面1. 代码2. 说明3. 运行一、平面模型分割在本教程中，我们将学习如何对一组点进行简单的平面分割，即找到支持平面模型的点云中的所有._pclpy.pcl.pointcloud.pointxyzi转为numpy

以NFS启动方式构建arm-linux仿真运行环境-程序员宅基地

文章浏览阅读141次。一其实在 skyeye 上移植 arm-linux 并非难事,网上也有不少资料, 只是大都遗漏细节, 以致细微之处卡壳，所以本文力求详实清析, 希望能对大家有点用处。本文旨在将 arm-linux 在 skyeye 上搭建起来，并在 arm-linux 上能成功 mount NFS 为目标, 最终我们能在 arm-linux 里运行我们自己的应用程序. 二安装 Sky..._nfs启动 arm

攻防世界 Pwn 进阶第二页_pwn snprintf-程序员宅基地

文章浏览阅读598次，点赞2次，收藏5次。00为了形成一个体系，想将前面学过的一些东西都拉来放在一起总结总结，方便学习，方便记忆。攻防世界 Pwn 新手攻防世界 Pwn 进阶第一页01 4-ReeHY-main-100超详细的wp1超详细的wp203 format2栈迁移的两种作用之一：栈溢出太小，进行栈迁移从而能够写入更多shellcode，进行更多操作。栈迁移一篇搞定有个陌生的函数。C 库函数 void *memcpy(void *str1, const void *str2, size_t n) 从存储区 str2 _pwn snprintf