史上最详细唇语识别数据集综述-程序员宅基地

技术标签: 数据集  史上最详细  深度学习  最新进展  唇语识别  

更新:VIPL官网网页格式更改,导致旧的LRW1000链接无法访问,现已更新LRW1000数据集链接,内部包含申请需要的文件

推荐一个大佬的综述,关于实现唇语识别的多种途径。

说明:本文包括经常用语唇语识别的数据集,以及各个数据集的官方网地址和下载方法,以及英文网站的翻译和一些说明
这是目前唇语识别最高精度的项目解析Lipreading Using TCN
这是目前常用的几个大型数据集的介绍史上最详细LRW、LRW-1000和OuluVS2数据集介绍

唇读(Lip Reading),也称视觉语音识别(Visual Speech Recognition),通过说话者口
型变化信息推断其所说的内容,旨在利用视觉信道信息补充听觉信道信息,在现实生活中有重要应用。例如,应用在医疗领域辅助听力受损的病人提高沟通交流能力,在军事领域提高情报获取和处理能力,在多媒体领域提高人机交互的多样性和鲁棒性等。随着深度学习技术的发展,以及数据集规模的不断完善,基于深度学习的框架方法已经逐渐取代传统方法,成为唇读的主流方法。本文对构建自动唇读系统过程中常用到的数据集进行总结介绍。根据自动唇读系统解决的目标任务不同,可将现有数据集分为字母、数字数据集,单词、短语数据集和语句数据集三大类。

目录:

  1. AVLetters
  2. XM2VTS 数据集
  3. BANCA 数据集
  4. GRID 数据集
  5. OuluVS 数据集
  6. LRW 数据集
  7. LRW-1000 数据集
  8. AVICAR 数据集
  9. MOBIO 数据集
  10. IO 数据集样本
  11. LRS 数据集
  12. Multi-PIE

一、字母、数字数据集

1.AVLetters 数据集

数据集地址
在这里插入图片描述

AVLetters 数据集由英国东英吉利大学、曼彻斯特大学团队于 1998 年创建,是第一个视听
语音数据集。数据集初始包含 10 个说话人,每个人分别 3 次独立的陈述 26 个英文字母,总计780 个话语实例。由于提出年份较早,拍摄条件有限,视频分辨率较低,仅为 376 像素288 像素,每秒 25 帧。在手动定位每张图像中嘴唇的位置之后,将整个图像裁剪至 80 像素60 像素,形成最终的数据集。

2. XM2VTS 数据集

数据集地址
在这里插入图片描述
############################ start ###########################

这是XM2VTSDB多模式面部数据库项目的主页。在这个项目中,一个大型多模式数据库被捕获到高质量的数字视频。XM2VTSDB包含了四个月的295个受试者的四段录音。每一段录音包括一个讲话头部射击和一个旋转头部射击。从这个数据库获得的数据包括高质量的彩色图像,32 KHz 16位的声音文件,视频序列和一个3d模型。有关该数据库的更多信息以及如何对其进行排序,请点击本页旁边的链接。
该数据库是M2VTS项目(远程服务和安全应用的多模式验证)所需的,该项目是欧盟法令计划的一部分,通过使用人脸的多模式识别来处理访问控制。使用多模态识别方案的目的是通过结合单一模式,即人脸和语音特征来提高识别效率。
XM2VTSDB是按成本价格提供的——不期望从发行版获得任何好处——我们要求终端用户在使用该数据库时承认M2VTS项目(参见用户协议)。

########################### end ##############################
XM2VTS 数据集是从 M2VTS 项目(Multi ModalVerification for Teleservices and Securi
ty applications)中获得,由英国萨里大学、瑞士 IDIAP 研究所团队于 1999 年提出,该数据集创建的初衷是为研究团队提供高质量数据来测试多模态人脸验证算法。共 295 名志愿者参加了该数据集的记录,每个志愿者以正常语速读两个数字序列和一个语音平衡的句子(10 个数字、7个单词),这个过程进行两次。此外,考虑到志愿者自然变化的影响,在五个月时间内平均进行4 次记录,总计 7080 个话语实例。值得一提的是,该数据集考虑了头部姿态变化因素,并记录了志愿者在不同角度的头部图像(头部姿态变化的过程中未说话)。

3. BANCA 数据集

数据集地址
在这里插入图片描述
###################### start #####################

BANCA数据库是一个新的大型、现实和具有挑战性的多模态数据库,旨在培训和测试多模态验证系统。BANCA数据库以四种欧洲语言的两种模式(面部和声音)被捕获。为了记录,使用了高质量和低质量的麦克风和照相机。研究对象被记录在三个月内的12个不同阶段的三种不同情景中,分别为受控、降级和不良反应。总共有208人被捕,一半是男人,一半是女人。
与数据库相关联的是BANCA协议。协议规定了用于培训、评估和测试的数据集。根据该协议进行实验可以使各机构轻松地将其结果与其他机构进行比较。2004年将举行两场针对BANCA数据库和相关协议的图像的人脸验证比赛。第一次会议与ICBA联合举行,第二次会议与ICPR 2004联合举行。
通过这个网站,BANCA数据库的一部分可以提供给研究社区。随着更多的数据可用,它将在这里发布。目前,已提供了完整的英文图像。
BANCA数据库为研究社区提供了在一个大型、现实且具有挑战性的数据库上测试其多模态验证算法的机会。希望这个数据库和协议能够成为一个标准,就像XM2VTS数据库一样,这样机构就可以轻松地将自己的算法的性能与其他算法进行比较。

##################### end ######################

BANCA 数据集是由瑞士 IDIAP 研究所、西班牙卡洛斯三世大学、英国萨里大学团队于2003年创建,旨在训练和测试多模态身份验证系统。该数据集由四种不同的语言(英语、法语、意大利语、西班牙语)进行记录,并且在三个环境条件下(controlled, degraded and adverse)进行拍摄。数据量也有了一个大的提升,总共有 208个参与者,将近 30000 个话语实例。参与者除了读一个数字序列之外,还需要说出自己的姓名、住址、生日等信息。BANCA 数据集为不仅研究团体提供了在具有挑战性的数据集上测试多模式身份验证算法的机会,也同时推动了唇读研究的发展。

二、单词、短语数据集

4. GRID 数据集

数据集地址
在这里插入图片描述
##########################start#########################

网格是一个支持语音感知联合计算-行为研究的大型多语言视听句子语料库。简而言之,该语料库由34名说话者(18名男性,16名女性)每人说出1000句话的高质量音频和视频(面部)录音组成。句子的形式是“put red at G9 now”。语料库和抄写本可免费供研究使用。

##########################end#########################

GRID 数据集是由美国谢菲尔德大学团队于2006 年提出,旨在为语音感知和自动语音识别研究提供实验数据。该数据集在实验室环境下录制,只有 34 个志愿者,这在大型数据集中人数算比较少的,但每个志愿者说 1000 个短语,共 34000个话语实例。该数据集短语构成符合一定的规律,每个短语包含 6 个单词,不是常见的短语,而是在 6 类单词中每类随机挑选一个组成随机短语。这 6 类单词分别是“命令”、“颜色”、“介词”、“字母”、“数字”和“副词”,例如:Bin blueat A 1 again。每类单词规定了数量,单词总数共 51 个。数据集是完全公开的,不需要与发布者联系,也不需要填写保密协议即可在网上下载使用。

5. OuluVS 数据集

数据集地址
在这里插入图片描述
##################start#################

OuluVS数据库包括20个受试者说出10个短语的视频和音频数据:Hello, Excuse me, I am sorry, Thank you, Good bye, See you, Nice to meet you, you are welcome, How are you, Have a Good time。每个人把每个短语说五遍。还有一些视频是头部从前到左,从前到右,不说话,每个人五次。
这里是数据库收集信息的文档。有关视觉语音识别的详细资料及基线结果,请参阅:
赵,Barnard M & Pietikainen M(2009)利用本地时空描述符进行语音阅读。IEEE多媒体学报11(7):1254-1265。
例如,可以使用该数据库来研究视觉语音识别(lipreading)。如果您想获取该数据库,请与赵国英联系。

###################end#################

OuluVS 数据集是由芬兰奥卢大学团队于 2009 年发布,旨在为视听语音识别系统进行性能评估提供一个统一的标准。该数据集包含 20 个参与者,每名参与者陈述 10 个日常问候短语 5 次,一共 1000 个话语实例。OuluVS 数据集是最早几个针对短语任务而构建的数据集之一,将唇读(自动语音识别)系统的发展推向了一个新的起点。

6. LRW 数据集

数据集地址
在这里插入图片描述
#################start####################
该数据集由多达1000个包含500个不同单词的话语组成,由数百个不同的说话者说出。所有视频长度为29帧(1.16秒),单词出现在视频的中间。元数据中给出了单词duration,从中可以确定开始和结束帧。数据集统计信息如下表所示。
包含视频和元数据的软件包可供非商业学术研究使用。您需要与BBC研发部门签署一份数据共享协议才能访问。下载协议副本请到BBC野外唇读和野外数据集页唇读句子。一旦批准,您将被提供一个密码,然后包可以下载下面。如果您使用数据集,请在下面引用[1]。
##################end####################

LRW 数据集是由牛津大学视觉几何团队于2016 年提出。因深度学习的兴起,大规模数据集的需求越来越大,LRW 数据集应运而生。不同于以往数据集,LRW 数据集数据来源于 BBC 广播电视节目而不是由志愿者或实验人员录制,使得该数据集数据量有了质的飞跃。数据集选择了 500最常出现的单词,截取说话人说这些单词的镜头,因此说话人超过 1000 个,话语实例超过 550000万个,一定程度上满足了深度学习对于数据量的需求。

7. LRW-1000 数据集

数据集地址-已更新

在这里插入图片描述
##################start####################

  1. 概述
    LRW-1000是一个自然分布的大规模基准测试,用于在野外进行单词级别的语音阅读,包括1000个类和大约718,018个视频样本,这些样本来自2000多个个体演讲者。总共有100多万个汉字实例。每一类对应一个由一个或几个汉字组成的汉语单词的音节。此数据集的目的是涵盖不同语音模式和成像条件的自然变化,以结合在实际应用中遇到的挑战。在各个类别的样本数量、视频分辨率、光照条件以及说话人的姿态、年龄、性别、化妆等属性上都有很大的变化,如图1和图2所示。
    图1 LRW-1000中说话者外观的多样性
    图2 lrwl -1000的Lip样本
  2. 统计数据

1000000汉字的实例
718,018个样本,平均每个类有718个样本
1000个类,每个类对应一个普通话单词的音节
2000多名不同的说话人,覆盖说话方式,包括语速、视点、年龄、性别、化妆等
3.评估协议
我们为实验提供了两个评价指标。A).由于这是一个分类任务,因此对所有1000个类的识别精度自然被视为基本度量。B).由于数据在许多方面表现出很大的多样性,例如每个类的样本数量,我们也提供了Kappa系数作为第二个评价指标。

  1. 下载
    lrw1 -1000数据库仅供大学和研究机构研究之用。如欲索取资料库副本,请按下列方法办理:
    下载数据库发布协议[pdf],仔细阅读,并适当完成。请注意,协议必须由全职工作人员签署(即不接受学生)。然后将签署好的协议扫描后发送到[email protected]。收到您的回复后,我们会提供下载链接给您。

################## end ##################

################## 数据集发布公告 start ##################

实验室近日发布目前最大规模的中文词级唇读数据集LRW-1000(链接:http://vipl.ict.ac.cn/view_database.php?id=14)。该数据集总计包含1000个中文词汇,总计大约718,018个样本。据我们所知,这是目前唇语识别领域规模最大的词级公开数据集,也是唯一公开的大规模中文唇语识别数据集。该数据集中视频序列均来源于电视节目,因此包含了复杂的变化条件,包括光照、说话人姿态、语速、视频分辨率等,是分布自然而极具挑战的唇读数据集。具体来说,LRW-1000具有以下特点:

  1. 关于说话人(Speakers):总计大约超过2000个不同的说话人,说话人的性别、姿态、年龄、化妆与否等均无限定,同时说话时的语速也未做严格限制,基本覆盖了自然场景下的说话情况。
  2. 关于数据样本(Word Samples):总计包含大约718,018个序列片段,每个序列片段对应于一个中文词汇,平均每个样本约0.3秒。在实际应用中大量存在的短词汇也正是研究的难点所在。
  3. 关于分辨率(Lip Region Resolution):该数据集取自各类电视节目,覆盖了较大的人脸分辨率范围,唇部区域分辨率从2020到300300不等,与实际应用情况基本相符。
    注:其它详细信息请参考我们的论文:《LRW-1000: A Naturally-Distributed Large-Scale Benchmark for Lip Reading in the Wild》(https://arxiv.org/pdf/1810.06990.pdf)

考虑到数据集的难度,为方便进行唇语识别技术的对比与测试,我们分别依照说话人的姿态、唇部区域分辨率的大小以及每个中文词汇的长短,将数据划分为了不同难度的三个等级,如下:
在这里插入图片描述

综合来说,LRW-1000是目前最大的词级唇语识别数据集,也是目前唯一公开的大规模中文唇语识别数据集,欢迎各位同行申请使用。(联系邮箱:[email protected]; [email protected])

################## 数据集发布公告 end ##################

LRW-1000 数据集是由中科院计算所、中国科学院大学和华中科技大学团队于 2018 年提出,旨在建立一个在室外环境下并且图像尺寸不一的大规模基准。该数据集涵盖了不同语音模式和成像条件下的自然变化,以应对实际应用中遇到的挑战。该数据集来源于中文电视节目,包含 1000 个类,每一个类对应由一个或几个汉字组成的汉语单词。该数据集是规模最大的中文单词唇读数据集,截取的镜头包括超过2000个说话人,将近 720000 个话语实例。该数据集数据的丰富性保证了深度学习模型得到充分的训练。同时,该数据集也是唯一一个公开的中文普通话唇读数据集。

三、语句数据集

8.AVICAR 数据集

数据集地址
在这里插入图片描述
######################start#####################
AVICAR语料库是由伊利诺斯大学的研究人员收集和转录的资金从摩托罗拉在2003-2004年。有关数据库的更多信息,你可以观看AVI或Quicktime格式的视频,阅读Interspeech论文,或阅读数据库自读文件。AVICAR12版本(2013年3月)中的所有数据都是同步的视听语音数据,正字法转录为ELAN格式,并具有以下特点:
在仪表盘上横向排列的4个摄像头
在遮阳板上横向排列的7个麦克风
5噪音状况发动机空转(IDL),打开车窗时35英里/小时(35U),关闭车窗时35英里/小时(35D),打开车窗时55英里/小时(55U),关闭车窗时55英里/小时(55D)
4种读语音类型:孤立数字(D),孤立字母(L),十位数电话号码§, TIMIT句子(S)
10脚本:脚本A |脚本B |脚本C |脚本D |脚本E |脚本F |脚本G |脚本H |脚本I |脚本J,加上一个用于孤立数字和孤立字母的通用脚本。
包括46名男性和40名女性在内的86名演讲者

参与本研究的受试者同意将他们的数据通过安全http免费分发给任何语音或语言研究者,但不同意将他们的视频发布在网络上。如果您是一位演讲或语言研究者,对下载数据感兴趣,请发送一个通知给Mark hasegwa - johnson教授(jhasegaw at illinois.edu),说明您的姓名、所在机构的名称,以及(简要)您对数据感兴趣的原因。
许多人要求数据集的有限版本:孤立的数字或孤立的字母,只有一个麦克风的录音。由于有这么多人感兴趣,这些录音现在可以在这里下载:avicar_somedigits。邮政,avicar_someletters.zip。
######################end#####################

AVICAR 数据集是由美国伊利诺伊大学的研究团队于 2004 年提出,该数据集全部在汽车中进行拍摄,旨在创建一个带有环境噪声的数据集,为噪声条件下的唇读系统提供数据支持。AVICAR数据集包括 100 名参与者,数据包括独立字母、独立数字、数字序列(10 个)和语音平衡的句子,一共 59000 个话语实例。为了模拟在车内的实际噪声情况,该数据集在5中不同条件下进行拍摄,分别是:时速 35 公里(开、关窗)、时速 55 公25里(开、关窗)和静止(引擎空转)。

9. MOBIO 数据集

数据集地址
在这里插入图片描述
##################start##################
MOBIO数据库由来自152人的双模态(音频和视频)数据组成。该数据库的男女比例接近1:2(100名男性和52名女性),从2008年8月到2010年7月在5个不同国家的6个不同地点收集。这导致了一个包含母语为英语和非母语为英语的人的多样化双模式数据库。
总共为每个客户捕获了12个会议:为第一阶段捕获6个会议,为第二阶段捕获6个会议。第一阶段数据由21个问题组成,问题类型包括:短回答问题、短回答自由言论、固定言论、自由言论。第二阶段的数据由11个问题组成,问题类型包括:简短回答问题、固定演讲问题和自由演讲问题。下面提供了客户询问的问题的更详细的描述。
数据库是用两种移动设备记录的:一部手机和一台笔记本电脑。用于捕获数据库的手机是诺基亚N93i手机,而笔记本电脑是标准的2008年MacBook。笔记本只用于捕获第一次会话的一部分,第一次会话由在笔记本和移动电话上捕获的数据组成。

确认
所有报告使用该语料库的研究的出版物都将参考以下出版物以确认MOBIO数据库:
克里斯•迈克尔Sebastien Marcel Abdenour哈迪德,马蒂·Pietikainen,帕维尔垫ějka, JanČernocky,诺曼Poh,约瑟夫难应付的,安东尼落叶松,克利斯朵夫Levy Driss Matrouf,让Bonastre,菲尔-特雷萨登说道,和提摩太笨蛋,“双模人在手机上识别:利用手机数据”,在IEEE ICME车间在移动Mutlimedia热门话题,2012。
问题的详细描述
请注意,简短回答言论自由和言论自由问题的答案不一定与问题有关,因为唯一的目的是让主体言论自由,因此,所有这些问题的答案都被假定为错误的。

  1. 短的响应问题
    短回答问题由五个预定义的问题组成,它们是:
    你叫什么名字?-用户提供他们的假名
    你的地址是什么?-用户提供他们的假地址
    你的生日是什么时候?-用户提供他们的假生日
    你的车牌号是多少?-用户提供了他们的假身份证号码(每个人都一样)
    你的信用卡号码是多少?-用户提供他们的假卡号
  2. 短回应言论自由
    从30-40个问题中随机抽取5个问题。用户必须用大约5秒的录音时间来回答这些问题(有时多一些,有时少一些)。
    3.组演讲
    用户被要求大声朗读预定义的文本。这篇文章的朗读时间超过了10秒钟,并且参与者可以在阅读这些段落时纠正自己。
    所宣读的案文是:
    我已经签署了MOBIO同意书,并且我理解我的生物特征数据将被收集到一个数据库中,这个数据库可能会被公开用于研究目的。
    我明白我对我的陈述内容和我的行为负全部责任。
    我将确保在回答任何问题时,我不会提供任何个人信息。
  3. 言论自由
    言论自由会议从大约30个问题中随机选出10个问题。回答每一个问题大约需要10秒钟(有时更短,有时更多)。
    ##################end##################

MOBIO 数据集由瑞士 IDIAP 研究所、芬兰奥卢大学、捷克布尔诺理工大学、英国萨里大学和法国阿维尼翁大学团队于 2012 年发布,该数据集基本上全部由记录者手持手机进行拍摄记录,旨在对手机上人脸语音自动识别系统进行评估,改进在移动设备上应用于生物识别技术的研究。该数据集是在不受控的条件下拍摄的,因为拍摄设备在记录人自己手中而不是固定在某一个特定的位置,记录者头部位置、背景、光照等因素都在发生变化。有 150 人参加了数据集构建,得到将近 31000 个话语实例,其语料可以分为三大类:五个提前定义好的问题的答案、对一个随机问题的长约5秒的回答以及提前定义好的一段文本。

10. OuluVS2 数据集

数据集地址
在这里插入图片描述
在这里插入图片描述
数据集官方说明:

############################# 原文开始 ###########################

Author: Ziheng Zhou


This is the README document for the OuluVS2 database, a multi-view audiovisual database designed mainly for visual speech recognition (VSR). For details of the database, please read our paper

Anina I, Zhou Z, Zhao G and Pietikainen M (2015) OuluVS2: A multi-view audiovisual database for non-rigid mouth motion analysis. Proc. IEEE International Conference on Automatic Face and Gesture Recognition (FG 2015), Ljubljana, Slovenia, 1-5.


File List
|
|- README
|
|- transcript_digit_phrase
|
|- transcript_sentence.zip
|
|- cropped_audio.zip
|
|- cropped_mouth_mp4_digit.zip
|
|- cropped_mouth_mp4_phrase.zip
|
|- orig_s{SID}.zip


Basic information of the OuluVS2 database:

  1. Number of subjects: 53
  2. Number of camera views: 5 (starting from the frontal, 30 degree, 45 degree, 60 degree to the profile view)
  3. Number of utterances per subject: 70

During each recording session, a subject was asked to utter

10 fixed 10-digit strings each repeated three times (30 utterances)
10 short phrases each repeated three times (30 utterances)
10 randomly-selected TIMIT sentences each spoken once (10 utterances)

Since most participants were not native English speakers, we intentionally excluded sentences with words that were too difficult for them to pronounce.


Videos in the database are named as

sSID_vVID_uUID.mp4

where letters ‘s’, ‘v’, ‘u’ stand for ‘Subject’, ‘View’ and ‘Utterance’ respectively. Variables SID, VID and UID are the subject, camera-view and utterance indices.

You can find all the original videos in folder ‘orig’. NOTE THAT CURRENT RELEASE ONLY INCLUDES ORIGINAL VIDEOS OF DIGITS AND PHRASES.

In addition, we have, so far, preprocessed videos of DIGITS and PHRASES to remove the head movement which is irrelevant to VSR and cropped off the mouth region. Cropped mouth videos can be found in folders ‘cropped_mouth_mp4_digit’ and ‘cropped_mouth_mp4_digit’, and they are named in the same way as the orginal video files.


Notes:

  1. Video data of Subject 29 turned out to be unusable since his mouth was not seen most of the time.

  2. Subject 3 repeated the 7th digit string only twice which means there are no videos of the 21st utterance for him.

  3. Due to image orientation, cropped mouth images could include some artificial black area. Moreover, lower part of the talking mouth could be outside image in the original videos. See both the original and preprocessed versions of ‘s32_v2_u15.mp4’ for example.

############################# 原文结束 ###########################

#############################翻译开始##############################
作者:子恒周


这是OuluVS2数据库的README文档,这是一个主要为视觉语音识别(VSR)而设计的多视图视听数据库。有关数据库的详情,请参阅我们的论文
Anina I, Zhou Z, Zhao G和Pietikainen M (2015) OuluVS2:一种用于非刚性嘴部运动分析的多视图视听数据库。IEEE自动人脸与手势识别国际会议(FG 2015),卢布尔雅那,斯洛文尼亚,1-5。


文件列表
|
| -自述
|
| - transcript_digit_phrase
|
| - transcript_sentence.zip
|
| - cropped_audio.zip
|
| - cropped_mouth_mp4_digit.zip
|
| - cropped_mouth_mp4_phrase.zip
|

- orig_s {SID} . zip
OuluVS2数据库基本信息:
1)受试者人数:53人
2)摄像头视图数量:5个(从正面开始,30度、45度、60度到侧面视图)
每个主语使用的话语数量:70

在每次录音过程中,都有一名受试者被要求发言
10个固定的10位字符串,每个重复3次(30个话语)
10个短句,每个重复3次(30个话语)
随机选择每说一次TIMIT句子(10个句子)
由于大多数参与者的母语不是英语,所以我们有意地排除了那些对他们来说太难发音的句子。


数据库中的视频命名为
sSID_vVID_uUID.mp4
字母“s”,“v”,“u”分别代表“Subject”,“View”和“Utterance”。变量SID、VID和UID是subject、camera-view和话语索引。
你可以在文件夹“orig”中找到所有的原始视频。注意,当前的版本只包括数字和短语的原始视频。
此外,到目前为止,我们已经对数字和短语的视频进行了预处理,去除了与VSR无关的头部运动,并对嘴部区域进行了裁剪。剪切后的口部视频可以在文件夹“cropped_mouth_mp4_digit”和“cropped_mouth_mp4_digit”中找到,其命名方式与原始视频文件相同。


注:
1)受试者29的视频数据无法使用,因为他的嘴大部分时间都没有被看到。
2)被试3只重复了第7个数字串两次,这意味着没有第21个单词的视频。
3)由于图像方向的原因,被裁剪的嘴部图像可能会包含一些人工黑色区域。此外,在原始视频中,说话嘴的下半部分可以是外部图像。查看’s32_v2_u15的原始版本和预处理版本。mp4”为例。

#############################翻译结束##############################

申请先通过邮件与负责人联系,取得登录账号,填写授权文件,即可下载

OuluVS2 数据集是由芬兰奥卢大学团队于2015 年发布,是继 2009 年提出的短语数据集
OuluVS 之后在语句识别领域中的又一高质量数据集,旨在促进唇读的进一步研究。该数据集包含 53 名参与者,记录了将近 4000 个话语实例。同样包括三大类语料:连续数字序列、日常短语和 TIMIT 语句。值得一提的是,OuluVS2 是为数不多的多视角唇读数据集之一,采用 5 个高清摄像头同时拍摄,分别位于说话人的 0、30、45、60、90 度方向,分辨率也达到了很高的 1920 像素*1080 像素。

11. LRS 数据集

数据集地址
在这里插入图片描述
########################start########################
该数据集由数千个来自英国广播公司电视的口语句子组成。每个句子的长度不超过100个字符。训练集、验证集和测试集按照播出日期进行划分。数据集统计信息如下表所示。
预训练集中的话语既对应部分句子,也对应多个句子,而训练集只包含单个完整的句子或短语。在训练前集和训练集之间有一些重叠。
虽然在预训练和训练集中可能存在一些标签噪声,但测试集经过了额外的验证;所以,就我们所知,测试集中没有错误。
########################end########################

LRS 数据集是由牛津大学视觉几何团队于2017 年提出,是继大规模单词数据集 LRW 发布之后,针对句子任务构建的另一大规模唇读数据集。和 LRW 类似,该数据集也来源于 BBC 广播电视节目,同样处理开放世界(句子无任何限制)的问题。数据集包含超过 1000 个说话人,截取将近150000 个话语实例,由于截取时对句子无限制,不同的单词数有将近63000个,数据丰富性极高,更好的适用于基于深度学习进行唇读模型的研究。随后于同年,为了研究侧面图像数据对唇读系统的影响,基于 LRS 的多视角数据集 MV-LRS被提出,在 LRS 的基础上加入了 0~90 度所有角度的镜头,同时数据量也有所保证,达到将近75000 个话语实例。

12.Multi-PIE

数据集地址
在这里插入图片描述

CMU的Multi-PIE face数据库包含了337人在5个月内4个时间段内的75万多张图像。研究对象在15个观察点和19个光照条件下拍摄了一系列面部表情的照片。此外,还获得了高分辨率的额叶图像。该数据库总共包含超过305 GB的人脸数据。内容页更详细地描述了数据库。
MultiPie Dataset 是一个多视点人脸图像数据集,其主要用于身份鉴定,是 PIE 数据库的替代品,其包含在 15 个视点下捕获的 337 个主题,其中涵盖共计超过 750,000 个图像,该数据集由卡耐基·梅隆大学于 2009 年发布。
PIE 数据库由卡耐基·梅隆大学于 2000 年收集,其在推动姿势和光照的人脸识别研究具有很大的影响力,尽管 PIE 数据库取得成功,但它有如下缺点:主题数量有限、单个记录会话和捕获的表达式较少。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/qq_44697805/article/details/108341618

智能推荐

JAVA开发Web Service几种框架介绍-程序员宅基地

文章浏览阅读68次。郑重声明:此文为转载来的,出处已不知了,侵告删。  在讲Web Service开发服务时,需要介绍一个目前开发Web Service的几个框架,分别为Axis,axis2,Xfire,CXF以及JWS(也就是前面所述的JAX-WS,这是Java6发布所提供的对 Web Service服务的一种实现。)前面几项都为开源项目,而其中又以axis2与cxf所最为常用,Axis与XFir..._java开发使用的几种server的名称

C/C++:编译全过程——预处理、编译、汇编、链接(包含预处理指令:宏定义,文件包括、条件编译)_怎么在devc++里面把c文件变成汇编语言-程序员宅基地

文章浏览阅读1.4k次。一、前言 C/C++的编译过程包含了四个步骤: 1. 预处理(Preprocessing) 2. 编译(Compilation) 3. 汇编(Assemble) 4..链接(Linking)二、预处理 预处理阶段主要处理一些预处理指令,比如文件包括、宏定义、条件编译。1.文件包括 文件包括就是将所有的#include..._怎么在devc++里面把c文件变成汇编语言

Pytorch深度学习实践第十二讲 RNN 课后1(LSTM)_pytorch深度学习实践12课后作业-程序员宅基地

文章浏览阅读837次,点赞3次,收藏9次。B站 刘二大人 传送门 循环神经网络(基础篇)课件链接:https://pan.baidu.com/s/1vZ27gKp8Pl-qICn_p2PaSw提取码:cxe4模型还是将输入“hello”训练输出为“ohlol”,用LSTM网络实现。按照计算图实现LSTM之后,又尝试了加入embedding的方法。加embedding的训练快,但是我的LSTM效果不如前面RNN的,不知道是我网络写的有问题还是怎么回事。LSTM的网络结构示意图和公式:根据我自己的理解写出来的LSTM模型,有不对的地方_pytorch深度学习实践12课后作业

android实训项目无线点餐系统服务器的设置,无线点餐系统的设计与实现--Android实训.doc...-程序员宅基地

文章浏览阅读208次。Android课程设计报告院 系: 计算机与信息工程学院班 级: 10级软件技术一班学 号:姓 名:PAGEPAGE 14目录TOC \o "1-3" \h \u 24017 一、系统架构 311293 二、功能分配 35248 2.1.浏览功能 326351 2.2.查询功能 314154 2.3.插入功能 328656 2.4.修改功能 41740 2.5.删除功能 41540 三、内..._android无线点餐系统

Python3 --- Scrapy安装_command "e:\python3.7.3\python.exe -u -c "import s-程序员宅基地

文章浏览阅读566次。安装方式一:如果使用的是PyCharm则File-->Settings-->Project Interpreter,选择绿色加号搜索Scrapy安装即可,如下图:这里需要注意Manage Repositories可以配置成: https://pypi.douban.com/simple/ http://mirrors.aliyun.com/pypi/simple/..._command "e:\python3.7.3\python.exe -u -c "import setuptools, tokenize;__file

cookie和session的区别(简单理解)_cookie和session区别-程序员宅基地

文章浏览阅读471次。由于HTTP协议是无状态的协议,所以服务端需要记录用户的状态时,就需要用某种机制来识具体的用户,这个机制就是Session.典型的场景比如购物车,当你点击下单按钮时,由于HTTP协议无状态,所以并不知道是哪个用户操作的,所以服务端要为特定的用户创建了特定的Session,用用于标识这个用户,并且跟踪用户,这样才知道购物车里面有几本书。这个Session是保存在服务端的,有一个唯一标识。在服务端保..._cookie和session区别

随便推点

OwlCarousel使用-程序员宅基地

文章浏览阅读1.4w次,点赞6次,收藏19次。参考:http://www.jq22.com/jquery-info6010使用方法Owl Carousel 2是上一版Owl Carousel的升级版本。Owl Carousel 2可以让你创建漂亮的响应式旋转木马的jQuery插件,它支持移动触摸屏,功能十分强大。Owl的新特性有: 可以无限循环 项目可以居中显示 灵活的速度控制 多级别的paddin..._owlcarousel

【深度学习】使用caffeNet训练自己的数据集(caffe框架)-程序员宅基地

文章浏览阅读3.5k次。主要参考:官方网址:http://caffe.berkeleyvision.org/gathered/examples/imagenet.html数据集及第一部分参考网址:http://www.lxway.com/4010652262.htm主要步骤:1. 准备数据集2. 标记数据集3. 创建lmdb格式的数据4. 计算均值5. 设置网络及求解器6. 运行求解由于imagenet的数据集太大,博主..._caffenet

SpringBoot集成Quartz 2.3.1动态管理定时任务_springboot实现动态管理quartz-程序员宅基地

文章浏览阅读1.8k次,点赞5次,收藏12次。我写了一个简单的Demo项目,有需要的文末可获取项目github地址,该项目我会一直保持更新。基于quartz2.3.1实现动态管理定时任务。使用swagger实现接口文档。前后端统一使用JSON格式交互。使用Hutool工具类直接连接数据库,避免Job任务中不能使用Autowired问题。swagger文档如下图:后续文章创建JobDetail(JobBuilder详解)创建CronTrigger(TriggerBuilder详解)_springboot实现动态管理quartz

C#控制利用模板文件通过BarTender控制斑马打印机打印_c# 直接调用斑马打印机打印固定模板-程序员宅基地

文章浏览阅读2k次。重点在后面:https://blog.csdn.net/z_344791576/article/details/46328443?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522159546478119725219951536%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fall.%2522%257D&request_id=15954647811972521995_c# 直接调用斑马打印机打印固定模板

matlab multiple animatedline,matlab画图详解-程序员宅基地

文章浏览阅读926次。一. 二维图形(Two dimensional plotting)1. 基本绘图函数(Basic plotting function):Plot,semilogx,semilogy, loglog,polar, plotyy(1). 单矢量绘图(single vectorplotting):plot(y),矢量y的元素与y元素下标之间在线性坐标下的关系曲线。例1:单矢量绘图y=[0 0.6 2...._animatedline 添加图例

推荐文章

热门文章

相关标签