克隆你的声音，可能只需要5秒钟：MockingBird实现AI拟声 (详解)_提取音色模仿声音的软件-程序员宅基地

技术标签：语音克隆 python AI Machine Learning

克隆你的声音，可能只需要5秒钟：MockingBird实现AI拟声

0. 引
1. 背景
2. 环境搭建
3. 运行MockingBrid
- 3.1 运行Web版
- 3.2 运行Toolbox版
4. 录音->合成语音
5. 效果优化
6. 结论：
博主热门文章推荐：

在这里插入图片描述

0. 引

老铁们好，今天Howie介绍一个AI语音克隆算法项目MockingBird，号称仅需要你的一段声音，仅需5秒钟，就可以根据任意文字，克隆出你新的声音，听起来，就像你在说这段文字一样？。还让人真假难辨？

那岂不是，一个骗子不看话术，改看兵法了?

在这里插入图片描述
虽然听起来恐怖如斯，但真实情况是什么样的？AI拟声真的可以以假乱真，并且实现方式简单至极？

（注：因为CSDN blog不支持上传语音内容，有兴趣听AI拟音语音的小伙伴，请关注微信公众号同名文章: https://mp.weixin.qq.com/s/AHvdj88kHbjitL8UuvCehg）

试想一下，在夜深人静的夜晚，你接到一通电话。说了几句以为是骗子就直接挂断了，心里暗骂就这还能骗到本大爷？？然而，之后一段时间，以你的声音发出的借钱/诈骗电话，却传遍了你的朋友圈。。细思极恐~

这不是演习，无论微信语音/电话，还是视频中的声音，只要骗子得到了你的一段声音；就可以通过AI算法，学习并模拟你的声音，然后合成任意一段话术，比如“借钱”，转发给你的亲友，实施诈骗。。

那么问题来了，有一天你收到电话，虽然只有只言片语，但听起来声音却和老板或亲友“一模一样”，声称情况紧急要打钱？
到底该不该相信？
到底要不要打钱?

切入正题，下面我们来真正实践下AI拟声项目，来看看上面的情况是否属实？。。

1. 背景

继“AI换脸”，“眼见不实” 刷屏之后，AI换声/拟声技术也受到大量关注。

AI换声/拟声技术，是指利用AI模型学习声音特征，比如（一个人的声音音色，音调，语速）等特征，通过语音合成技术，重新生成新的声音。

就类似于大家熟知的变声器，只不过变的是某人的真人声音，达到"以假乱真"。

MockingBird是基于Github项目： Real-Time-Voice-Cloning 修改的中文语音支持版本，号称能在5秒内克隆语音以实时生成任意语音，地址

GitHub：https://github.com/babysor/MockingBird
GitCode：https://gitcode.net/mirrors/babysor/MockingBird/

项目实现的核心论文是基于：SV2TTS (Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis)

论文地址：https://arxiv.org/pdf/1806.04558.pdf

实现上主要分为三个模块（三个单独的pt模型）：在这里插入图片描述

Encoder：负责提取声音的音色

Encoder 会提取的输入声音的音色向量，是确保输出声音相似度的关键所在

在这里插入图片描述

Synthesizer：Sequence-to-sequence synthesizer，将Text文本转换成mel-spectrogram梅尔频谱图

在这里插入图片描述

Encoder模块提取的说话人音色向量，会作为speaker embedding，融合入Synthesizer Encoder的输出结果（concat），然后基于Attention，将目标文本转换成mel-spectrogram

Vocoder: 使用WaveNet vocoder, 将mel-spectrogram转换成时域的声音waveform

在这里插入图片描述

最终通过Vocoder模块将mel-spectrogram转换成声音的waveform，播放出来。

总结来说，整个算法模块通过Encoder获取说话声音的音色（输入语音），然后使用Synthesizer和Vocoder根据输入文字实现TTS（text-to-speech）合成语音（输出语音）

该项目的Reference如下：
在这里插入图片描述

2. 环境搭建

开始搭建运行环境，建议使用Anaconda，可参加之前博文：最新Anaconda3的安装配置及使用教程（详细过程）

2.1 安装pytorch

这里我直接pip安装的CPU版本

pip3 install torch torchvision torchaudio

在这里插入图片描述

如果有GPU可以安装CUDA版：
在这里插入图片描述

torch安装完成：
在这里插入图片描述

2.2 安装ffmpeg

打开ffmpeg org 官网，https://ffmpeg.org/download.html#get-packages

在这里插入图片描述

选择相应平台即可下载l

下载地址1：https://www.gyan.dev/ffmpeg/builds/

在这里插入图片描述

下载地址2：https://github.com/BtbN/FFmpeg-Builds/releases

在这里插入图片描述

下载后，把bin 目录放到系统环境变量中

在这里插入图片描述

cmd查看下，ffmpeg安装完成：

ffmpeg -version

2.3 下载MockingBird源码

直接git clone即可

git clone https://github.com/babysor/MockingBird.git

在这里插入图片描述
clone完毕，源码目录结构如下：

2.4 安装requirements

进入源码目录，安装requirements

pip install -r requirements.txt

在这里插入图片描述

然后安装webrtcvad

pip install webrtcvad-wheels

在这里插入图片描述

2.5. 下载预训练模型

在synthesizer目录下创建一个saved_models文件夹，下载预训练模型后放入到该目录中即可

https://github.com/babysor/MockingBird 下载时在Github上找最新的版本即可：
在这里插入图片描述

这里我下载了4个 synthesizer model：
在这里插入图片描述

同时也检查下encoder 和vocoder 的saved_models目录是否有pt模型，如果没有需要检查代码版本

3. 运行MockingBrid

3.1 运行Web版

python web.py

运行时如果 synthesizer model是0，则检测下上一步下载的model路径
在这里插入图片描述

会在localhost 8080启动服务：
在这里插入图片描述

web.py:

在这里插入图片描述

但web版本功能使用上不太方便，还是推荐使用下面的toolbox

3.2 运行Toolbox版

先直接运行demo_toolbox.py

python demo_toolbox.py

在这里插入图片描述

启动后GUI是这样的
在这里插入图片描述

使用说明：
在这里插入图片描述

如果有数据集可以运行：

python demo_toolbox.py vc -d <datasets_root>

4. 录音->合成语音

如果有录音wav文件，可以点击Browse打开本地录音，如果没有可以点击Recording当场录制（会录制5秒电脑音频）

本地录音也最在10s以下，注意尽量保持录音环境没有多余噪音，而且只有一个声音。说话间隔也保持正常，尽量不要使用语气词。
最简单的就是念一行文字

在这里插入图片描述

注意选择相应的model：
在这里插入图片描述
录好一段声音后，即可在文本框输入要合成的文字，点击Synthesize and vocode ，

在这里插入图片描述

等待一段时间，进度条和log可以显示进度，完成后即可输出结果并自动播放合成的声音：
在这里插入图片描述

在这里插入图片描述

输入和输出的音频都可以在下拉框选择，而且可以点击replay、export进行播放、导出生成的语音
在这里插入图片描述

合成过程可以看到log：
在这里插入图片描述

5. 效果优化

如果输出的声音效果不好，比如电音严重，可以尝试下面方式优化

使用更精确的Synthesize model ，或利用数据集迁移学习继续训练
将vocoder从hifiGAN切换到pretrained 或wavernn_pretrained：
优化输入录音，比如提升说话清晰度、减少噪音、保持语调等。

在这里插入图片描述

通过查看mel spectrogram梅尔频谱图，就可有看到语音合成的效果：

好的频谱图纹理清晰，间隔分明（和真实语音匹配度高），例如下面就是好的频谱图
在这里插入图片描述

而差的频谱图就相反，例如：
在这里插入图片描述

**小技巧：**在使用中，可以先使用Synthesize ，查看梅尔图，如果效果好，再进行Vocode

在这里插入图片描述

如果想自己找数据集使用train.py训练，可以参考:
https://vaj2fgg8yn.feishu.cn/docs/doccn7kAbr3SJz0KM0SIDJ0Xnhd

支持的数据集有：

aidatatang_200zh ：http://www.openslr.org/62/
magicdata：http://www.openslr.org/68/
aishell3：http://www.openslr.org/93/

没有GPU的话Training需谨慎。

调优技巧可参考：https://zhuanlan.zhihu.com/p/425692267

6. 结论：

不训练情况直接简单使用，生成语音欺骗性较低

在不重新训练Model的情况下，直接运用MockingBird算法，只依靠十几秒左右的录音，虽然可以合成比较“相似”的声音，但听起来和原音还是有所区别，熟悉的人还是能够很快听出来。

生成的声音与正常人声高度相似，调试好的话，基本上听不出来是AI合成声音

我听起来合成的就是一个正常人的声音，感觉起码比那些骚扰电话的AI机器声音要好很多

合成速度够快，仅需10秒左右的原音，输出上来讲，5s左右即可生成任意话术的语音，而且普通话比较标准，

普通话不好的（像我这种），在制作视频/语音讲解的时候，可以考虑使用这个生成语音解说，比自己录的效果要好。。

如果收集到一个人的足够多的声音数据，重新针对性的训练Mocking Bird，利用MockingBird是可以合成极高相似度的声音的，足以让人“耳听不实”。

但这样的训练/调参/声音数据处理，就不是简单就可以实现的了，而且MockingBird作者使用的aidatatang_200zh、magicdata、aishell3数据集，是目前最大的三个开源中文语音训练数据集，目前来看也比较全面了

所以简单操作，还是骗不过亲人们的

下面有机会Howie可以深入研究解读下MockingBird和Real-Time-Voice-Cloning的源码，这里面的东西非常多，并且很多是当前语音领域先进的理论/技术的工程应用。。。

在这里插入图片描述

博主热门文章推荐：

一篇读懂系列：

LoRa Mesh系列：

网络安全系列：

嵌入式开发系列：

AI / 机器学习系列：

本文链接：https://blog.csdn.net/HowieXue/article/details/124084645

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

攻防世界_难度8_happy_puzzle_攻防世界困难模式攻略图文-程序员宅基地

文章浏览阅读645次。这个肯定是末尾的IDAT了，因为IDAT必须要满了才会开始一下个IDAT，这个明显就是末尾的IDAT了。，对应下面的create_head()代码。，对应下面的create_tail()代码。不要考虑爆破，我已经试了一下，太多情况了。题目来源：UNCTF。_攻防世界困难模式攻略图文

达梦数据库的导出（备份）、导入_达梦数据库导入导出-程序员宅基地

文章浏览阅读2.9k次，点赞3次，收藏10次。偶尔会用到，记录、分享。1. 数据库导出1.1 切换到dmdba用户su - dmdba1.2 进入达梦数据库安装路径的bin目录，执行导库操作　　导出语句：./dexp cwy_init/[email protected]:5236 file=cwy_init.dmp log=cwy_init_exp.log　注释：　　 cwy_init/init_123..._达梦数据库导入导出

js引入kindeditor富文本编辑器的使用_kindeditor.js-程序员宅基地

文章浏览阅读1.9k次。1. 在官网上下载KindEditor文件，可以删掉不需要要到的jsp，asp，asp.net和php文件夹。接着把文件夹放到项目文件目录下。2. 修改html文件，在页面引入js文件：<script type="text/javascript" src="./kindeditor/kindeditor-all.js"></script><script type="text/javascript" src="./kindeditor/lang/zh-CN.js"_kindeditor.js

STM32学习过程记录11——基于STM32G431CBU6硬件SPI+DMA的高效WS2812B控制方法-程序员宅基地

文章浏览阅读2.3k次，点赞6次，收藏14次。SPI的详情简介不必赘述。假设我们通过SPI发送0xAA，我们的数据线就会变为10101010，通过修改不同的内容，即可修改SPI中0和1的持续时间。比如0xF0即为前半周期为高电平，后半周期为低电平的状态。在SPI的通信模式中，CPHA配置会影响该实验，下图展示了不同采样位置的SPI时序图[1]。CPOL = 0，CPHA = 1：CLK空闲状态 = 低电平，数据在下降沿采样，并在上升沿移出CPOL = 0，CPHA = 0：CLK空闲状态 = 低电平，数据在上升沿采样，并在下降沿移出。_stm32g431cbu6

计算机网络-数据链路层_接收方收到链路层数据后,使用crc检验后,余数为0,说明链路层的传输时可靠传输-程序员宅基地

文章浏览阅读1.2k次，点赞2次，收藏8次。数据链路层习题自测问题1.数据链路(即逻辑链路)与链路(即物理链路)有何区别?“电路接通了”与”数据链路接通了”的区别何在?2.数据链路层中的链路控制包括哪些功能?试讨论数据链路层做成可靠的链路层有哪些优点和缺点。3.网络适配器的作用是什么?网络适配器工作在哪一层?4.数据链路层的三个基本问题(帧定界、透明传输和差错检测)为什么都必须加以解决？5.如果在数据链路层不进行帧定界，会发生什么问题？6.PPP协议的主要特点是什么？为什么PPP不使用帧的编号？PPP适用于什么情况？为什么PPP协议不_接收方收到链路层数据后,使用crc检验后,余数为0,说明链路层的传输时可靠传输

软件测试工程师移民加拿大_无证移民，未受过软件工程师的教育（第1部分）-程序员宅基地

文章浏览阅读587次。软件测试工程师移民加拿大无证移民，未受过软件工程师的教育(第1部分) (Undocumented Immigrant With No Education to Software Engineer(Part 1))Before I start, I want you to please bear with me on the way I write, I have very little gen...

随便推点

Thinkpad X250 secure boot failed 启动失败问题解决_安装完系统提示secureboot failure-程序员宅基地

文章浏览阅读304次。Thinkpad X250笔记本电脑，装的是FreeBSD，进入BIOS修改虚拟化配置（其后可能是误设置了安全开机），保存退出后系统无法启动，显示：secure boot failed ，把自己惊出一身冷汗，因为这台笔记本刚好还没开始做备份.....根据错误提示，到bios里面去找相关配置，在Security里面找到了Secure Boot选项，发现果然被设置为Enabled，将其修改为Disabled ，再开机，终于正常启动了。_安装完系统提示secureboot failure

C++如何做字符串分割（5种方法）_c++ 字符串分割-程序员宅基地

文章浏览阅读10w+次，点赞93次，收藏352次。1、用strtok函数进行字符串分割原型： char *strtok(char *str, const char *delim);功能：分解字符串为一组字符串。参数说明：str为要分解的字符串，delim为分隔符字符串。返回值：从str开头开始的一个个被分割的串。当没有被分割的串时则返回NULL。其它：strtok函数线程不安全，可以使用strtok_r替代。示例：//借助strtok实现split#include <string.h>#include <stdio.h&_c++ 字符串分割

2013第四届蓝桥杯 C/C++本科A组真题答案解析_2013年第四届c a组蓝桥杯省赛真题解答-程序员宅基地

文章浏览阅读2.3k次。1 .高斯日记大数学家高斯有个好习惯：无论如何都要记日记。他的日记有个与众不同的地方，他从不注明年月日，而是用一个整数代替，比如：4210后来人们知道，那个整数就是日期，它表示那一天是高斯出生后的第几天。这或许也是个好习惯，它时时刻刻提醒着主人：日子又过去一天，还有多少时光可以用于浪费呢？高斯出生于：1777年4月30日。在高斯发现的一个重要定理的日记_2013年第四届c a组蓝桥杯省赛真题解答

基于供需算法优化的核极限学习机(KELM)分类算法-程序员宅基地

文章浏览阅读851次，点赞17次，收藏22次。摘要：本文利用供需算法对核极限学习机(KELM)进行优化，并用于分类。

metasploitable2渗透测试_metasploitable2怎么进入-程序员宅基地

文章浏览阅读1.1k次。一、系统弱密码登录1、在kali上执行命令行telnet 192.168.26.1292、Login和password都输入msfadmin3、登录成功，进入系统4、测试如下：二、MySQL弱密码登录：1、在kali上执行mysql –h 192.168.26.129 –u root2、登录成功，进入MySQL系统3、测试效果：三、PostgreSQL弱密码登录1、在Kali上执行psql -h 192.168.26.129 –U post..._metasploitable2怎么进入

Python学习之路：从入门到精通的指南_python人工智能开发从入门到精通pdf-程序员宅基地

文章浏览阅读257次。本文将为初学者提供Python学习的详细指南，从Python的历史、基础语法和数据类型到面向对象编程、模块和库的使用。通过本文，您将能够掌握Python编程的核心概念，为今后的编程学习和实践打下坚实基础。_python人工智能开发从入门到精通pdf