常用音频数据库记录_weixin_33834628的博客-程序员秘密

技术标签: 爬虫  人工智能  数据库  

记录一下常用的数据库。

  • TIMIT
    也忘记当时从哪下的了,网上也没看到好一点的链接。
    TIMIT全称The DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus, 是由德州仪器(TI)、麻省理工学院(MIT)和坦福研究院(SRI)合作构建的声学-音素连续语音语料库。TIMIT数据集的语音采样频率为16kHz,一共包含6300个句子,由来自美国八个主要方言地区的630个人每人说出给定的10个句子,所有的句子都在音素级别(phone level)上进行了手动分割,标记。70%的说话人是男性;大多数说话者是成年白人。
  • THCHS30
    THCHS30是Dong Wang, Xuewei Zhang, Zhiyong Zhang这几位大神发布的开放语音数据集,可用于开发中文语音识别系统。
  • CSTR VCTK Corpus 

Google Wavenet用到的数据库。
This CSTR VCTK Corpus includes speech data uttered by 109 native speakers of English with various accents. Each speaker reads out about 400 sentences, most of which were selected from a newspaper plus the Rainbow Passage and an elicitation paragraph intended to identify the speaker's accent. The newspaper texts were taken from The Herald (Glasgow), with permission from Herald & Times Group. Each speaker reads a different set of the newspaper sentences, where each set was selected using a greedy algorithm designed to maximise the contextual and phonetic coverage. The Rainbow Passage and elicitation paragraph are the same for all speakers. The Rainbow Passage can be found in the International Dialects of English Archive: (http://web.ku.edu/~idea/readings/rainbow.htm). The elicitation paragraph is identical to the one used for the speech accent archive (http://accent.gmu.edu). The details of the the speech accent archive can be found at http://www.ualberta.ca/~aacl2009/PDFs/WeinbergerKunath2009AACL.pdf

All speech data was recorded using an identical recording setup: an omni-directional head-mounted microphone (DPA 4035), 96kHz sampling frequency at 24 bits and in a hemi-anechoic chamber of the University of Edinburgh. All recordings were converted into 16 bits, were downsampled to 48 kHz based on STPK, and were manually end-pointed. This corpus was recorded for the purpose of building HMM-based text-to-speech synthesis systems, especially for speaker-adaptive HMM-based speech synthesis using average voice models trained on multiple speakers and speaker adaptation technologies.

VoxForge创建的初衷是为免费和开源的语音识别引擎收集标注录音(在Linux/Unix,Windows以及Mac平台上)。
我们以GPL协议开放所有提交的录音文件,并制作声学模型,以供开源语音识别引擎使用,如CMUSphinx,ISIP,Julias(github)和HTK(注意:HTK有分发限制)。

OpenSLR是一个有声书数据集。

OpenSLR is a site devoted to hosting speech and language resources, such as training corpora for speech recognition, and software related to speech recognition. We intend to be a convenient place for anyone to put resources that they have created, so that they can be downloaded publicly.

其他:

来自论文 Zhang et al., 2015。这是有八个文字分类数据集组成的大型数据库。对于新的文字分类基准,它是最常用的。样本大小为 120K 到 3.6M,包括了从二元到 14 阶的问题。来自 DBPedia, Amazon, Yelp, Yahoo!,搜狗和 AG 的数据集。

地址:https://drive.google.com/drive/u/0/folders/0Bz8a_Dbh9Qhbfll6bVpmNUtUcFdjYmF2SEpmZUZUcVNiMUw1TWN6RDV3a0JHT3kxLVhVR2M

WikiText

标签:实用 学术基准

源自高品质维基百科文章的大型语言建模语料库。Salesforce MetaMind 维护。

地址:http://metamind.io/research/the-wikitext-long-term-dependency-language-modeling-dataset/

Question Pairs

标签:实用

Quora 发布的第一个数据集,包含副本/语义近似值标记。

地址:https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs

SQuAD

标签:实用 学术基准

斯坦福的问答社区数据集——适用范围较广的问题回答和阅读理解数据集。每一个回答都被作为一个 span,或者一段文本。

地址:https://rajpurkar.github.io/SQuAD-explorer/

CMU Q/A Dataset

标签:无

人工创建的仿真陈述问题/回答组合,还有维基百科文章的难度评分。

地址:http://www.cs.cmu.edu/~ark/QA-data/

Maluuba Datasets

标签:实用

为 NLP 研究人工创建的复杂数据集。

地址:https://datasets.maluuba.com/

Billion Words

标签:实用 学术基准

大型、通用型建模数据集。时常用来训练散布音(distributed)的词语表达,比如 word2vec 或  GloVe。

地址:http://www.statmt.org/lm-benchmark/

Common Crawl

标签:实用 学术基准

PB(拍字节)级别的网络爬虫。最经常被用来学习词语嵌入。可从 Amazon S3 免费获取。对于 WWW 万维网的信息采集,是一个比较有用的网络数据集。

地址:http://commoncrawl.org/the-data/

bAbi

标签:学术基准 经典

Facebook AI Research (FAIR) 推出的合成阅读理解和问题回答数据集。

地址:https://research.fb.com/projects/babi/

The Children's Book Test

标签:学术基准

Project Gutenberg(一项正版数字图书免费分享工程)儿童图书里提取的成对数据(问题加情境,回答)基准。对问答、阅读理解、仿真陈述(factoid)查询比较有用。

地址:https://research.fb.com/projects/babi/

Stanford Sentiment Treebank

标签:学术基准 经典 较旧

标准的情绪数据集,对每一句话每一个节点的语法树,都有细致的情感注解。

地址:http://nlp.stanford.edu/sentiment/code.html

20 Newsgroups

标签:经典 较旧

一个较经典的文本分类数据集。通常作为纯粹分类或者对 IR / indexing 算法验证的基准,在这方面比较有用。

地址:http://qwone.com/~jason/20Newsgroups/

Reuters

标签:经典 较旧

较老的、基于纯粹分类的数据集。文本来自于路透社新闻专线。常被用于教程之中。

地址:https://archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collection

 IMDB

标签:经典 较旧

较老的、相对比较小的数据集。用于情绪分类。但在文学基准方面逐渐失宠,让位于更大的数据集。

地址:http://ai.stanford.edu/~amaas/data/sentiment/

UCI’s Spambase

标签:经典 较旧

较老的、经典垃圾邮件数据集,源自于 UCI Machine Learning Repository。由于数据集的管理细节,在学习私人订制垃圾信息过滤方面,这会是一个有趣的基准。

地址:https://archive.ics.uci.edu/ml/datasets/Spambase

语音

大多数语音识别数据库都是专有的——这些数据对其所有公司而言有巨大价值。绝大部分该领域的公共数据集已经很老了。

2000 HUB5 English

标签:学术基准 较旧

只包含英语的语音数据。最近一次被使用是百度的深度语音论文。

地址:https://catalog.ldc.upenn.edu/LDC2002T43

LibriSpeech

标签:学术基准

有声图书数据集,包含文字和语音。接近 500 个小时的清楚语音,来自于多名朗读者和多个有声读物,根据图书章节来组织。

地址:http://www.openslr.org/12/

VoxForge

标签:实用 学术基准

带口音英语的清晰语音数据集。如果你需要有强大的不同口音、语调识别能力,会比较有用。

地址:http://www.voxforge.org/

TIMIT

标签:学术基准 经典

只含英语的语音识别数据集。

地址:https://catalog.ldc.upenn.edu/LDC93S1

CHIME

标签:实用

含大量噪音的语音识别挑战杯数据集。它包含真实、模拟和清晰的录音:真实,是因为该数据集包含四个说话对象在四个不同吵闹环境下接近 9000 段的录音;模拟,是通过把多个环境与语音结合来生成;清晰,是指没有噪音的清楚录音。

地址:http://spandh.dcs.shef.ac.uk/chime_challenge/data.html

TED-LIUM

标签:无

TED 演讲的音频转录。包含 1495 场 TED 演讲,以及它们的完整字幕文本。

地址:http://www-lium.univ-lemans.fr/en/content/ted-lium-corpus

 

其他

  • 语音合成

1-HTS:HMM-based Speech Synthesis System (HTS) 

2-Wavenet,Google的大杀器,后边打算单独写文介绍

  • 语音识别

1-HTK

2-Kaldi

3-Juicer

4-Julius

  • 语音增强

1-Loizou教授, 主要贡献在于从听觉上把握/分析/优化 语音增强, 工作做的比较细

2-I. Cohen,此人灌水了一大批文章, 看他的文章抓住一点就行了, speech presence probability, 说水是比较而言,此人算是高手了

3-Y.Ephraim, 此人大牛, 可以说开启/总结 了语音增强的三个方向,statiscial model based, HMM training based, subspace based. 

4-R.Martin,主要贡献在于noise power estimation 和 super-Guassian model based speech enhancement 

 

其他:

1)手机 音频延迟测试:http://superpowered.com/latency

2)语音课程:

  a)课件:http://llcao.net/cu-deeplearning17/schedule.html

  b)有视频:https://telecombcn-dl.github.io/2017-dlsl/

3)Hinton-deep_learning课程:https://www.youtube.com/watch?v=cbeTc-Urqak&list=PLoRl3Ht4JOcdU872GhiYWf6jwrk_SNhz9

4)NLP,stanford讲义:https://web.stanford.edu/~jurafsky/NLPCourseraSlides.html

https://web.stanford.edu/~jurafsky/slp3/

NLP方向:http://web.stanford.edu/class/cs224s/

 

参考:

http://www.cnblogs.com/AriesQt/articles/6742721.html

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/weixin_33834628/article/details/86357126

智能推荐

Keep-Alive简介及在Tomcat中配置 _libin7758521的博客-程序员秘密

Keep-Alive功能使客户端到服务器端的连接持续有效,当出现对服务器的后继请求时,Keep-Alive功能避免了建立或者重新建立连接。市场上 的大部分Web服务器,包括iPlanet、IIS和Apache,都支持HTTP Keep-Alive。对于提供静态内容的网站来说,这个功能通常很有用。但是,对于负担较重的网站来说,这里存在另外一个问题:虽然为客户保留打开的连 接有一定的好处,但它同样影响...

Vue2.0与Vue3.0响应式原理简析_攻城狮的天地的博客-程序员秘密

Vue2.0的响应式原理主要使用Object.defineProperty(),核心思想是observe()遍历1.对象的响应式遍历每个对象的key值,设置定义getter和setter2.数组的响应式覆盖数组原型方法,额外增加通知逻辑覆盖可以修改数组的7个方法,从数组的原型中获取这7个方法,覆盖为可以更新发送通知的函数const arrMethods = ["pop","push","shift","unshift","reserve","sort","splice.

基于FPGA的串口指令帧接收与解析的verilog代码_9527华安的博客-程序员秘密

基于FPGA的串口指令帧接收与解析的verilog代码网上的verilog串口指令帧接收与解析源码很多,但大多数都说不到点子上,对初学者来说很不友好,今天分享一个自己调通的小工程。串口指令帧格式如下:串口接收模块直接用的正点原子的源码,个人感觉正点原子的代码虽然写得冗杂,但严谨性还行,数据在波特率计数周期的中间点采集,源码如下:module uart_recv( input sys_clk, //系统时钟 input

黑马程序员---API_黑马api接口_zhenxing133的博客-程序员秘密

------Java培训、Android培训、iOS培训、.Net培训、期待与您交流! -------第一讲 API的String类一,API简介  API(Application Programming Interface,应用程序编程接口)是一些预先定义的函数,  目的是提供应用程序与开发人员基于某软件或硬件的以访问一组例程的能力,而又无需访问源码,  或理解内部工作机

WWDC 2019 新的 framework_伊织code的博客-程序员秘密

WWDC 2019 新的 framework参考翻译自:https://developer.apple.com/documentation/文章目录WWDC 2019 新的 frameworkRealityKitPencilKitVisionKitSoundAnalysisCore HapticsCore Audio TypesQuickLookThumbnailingCombineBack...

重读 CenterNet,一个在Github有5.2K星标的目标检测算法_我爱计算机视觉的博客-程序员秘密

本文带领大家重温Objects as Points 一文,其于2019年4月发布于arXiv,谷歌学术显示目前已有403次引用,Github代码仓库已有5.2K星标,无论在工业界和学术...

随便推点

javascript入门学习历程与练习_KI-WI的博客-程序员秘密

javascript,prompt,confirm,alert,window.open

mysql事务大小限制_MySQL InnoDB引擎索引长度受限怎么办_weixin_39862899的博客-程序员秘密

ALTER TABLE t1 ADD INDEX(or CREATE INDEX)ALTER TABLE t1 ADD FULLTEXT INDEXALTER TABLE t1 ADD COLUMN, ALGORITHM = INPLACEOPIMIZE t1对于最后两个用例,ALTER 会创建一个中间表。中间表索引(主要和次要)使用“排序索引构建”构建。算法在 0 级别创建页,还要为此页创建一个...

LDAP的特定错误_seanzed的博客-程序员秘密

LDAP的特定错误Error: com.macromedia.contribute.server.exception.DBException: Error in bind() from LDAP source: [server]:[port] 错误:com.macromedia.contribute.server.exception.DBException:绑定错误的()从LDAP来源:[

ACM算法--spfa算法--最短路算法_最短路 acm spfa_xuanweiace的博客-程序员秘密

 求单源最短路的SPFA算法的全称是:Shortest Path Faster Algorithm。     SPFA算法是西南交通大学段凡丁于1994年发表的。    从名字我们就可以看出,这种算法在效率上一定有过人之处。     很多时候,给定的图存在负权边,这时类似Dijkstra等算法便没有了用武之地,而Bellman-Ford算法的复杂度又过高,SPFA算法便派上用场了。有人称sp...

nginx负载均衡配置及测试_nginx 配置负载及接口探测_Nazarite_KakaLuoTo的博客-程序员秘密

1、下载两个tomcat,一个放在物理机中,另一个放在VMware中的ubuntu14.04中,并且分别在tomcat的webapps\ROOT目录下新建test.jsp文件目录,并且启动起来test.jsp文件中的主要内容(其他内容参照上一篇博客,内容页分别加了一句话,用于区分是返回的是哪个页面):<span id="nav-home">The remote server IP is...

简单几招模拟网络超时情况_weixin_30546933的博客-程序员秘密

我们先来聊一聊网络超时的概念。以及模拟网络超时对我们程序的必要性要想了解怎样模拟网络超时的情况,我们须要先了解一下为什么会网络超时呢简单的说:就是你向服务端发送数据请求。然尔server没返回数据,或返回数据太慢导致未收到返回数据。比方,你要下载一个东东,你向server发送下载这个东东的请求。但等了好长时间都没有收到server允许你接收下载数据的请求,所以也不能一...

推荐文章

热门文章

相关标签