MTCNN 论文学习_mtcnn算法论文-程序员宅基地

技术标签: 深度学习  目标检测  人脸识别  

Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Network

论文地址:https://arxiv.org/ftp/arxiv/papers/1604/1604.02878.pdf

Abstract

在无条件约束的环境下进行人脸检测和对齐是非常具挑战性的,因为你要考虑不同的姿势,光照,和遮挡。最近的研究显示,深度学习方法能在这两个任务上获得不错的效果。这篇论文提出了一个深度级联多任务框架,探索它们内在的关系,进而提升表现。此框架采取了一个级联架构,包含三个阶段的深度卷积网络由粗到细地来预测人脸和特征点位置。此外,在学习过程中,我们提出一个新的 online hard example mining 策略,可以自动提升表现,而不需人工选取样本。此方法在 人脸检测的 FDDB 和WIDER FACE benchmarks 上获得了 state of art 的成绩,在人脸对齐的 AFLW benchmark 上也表现不俗。

1. Introduction

人脸检测和对齐对于人脸应用至关重要,如人脸识别和表情分析。但是,面部在视觉呈现上的差异,如遮挡,姿势变化,和极端光照,给现实世界中的人脸应用带来了巨大的挑战。

Viola 与 Jones 提出了一个级联人脸检测器,它利用 Haar 特征和 AdaBoost 来训练一个级联分类器,获得了不错的表现。但是一些实验表明这个检测器在实际应用中效果会下降很多,当人脸的视觉变化很大时。另有一些论文介绍了 deformable part models (DPM) 用于人脸检测,表现优异。但是它们都需要很高的算力,而且在训练阶段需要很多的标注数据。Yang et al. 提出了用于人脸属性识别的深度卷积网络,以获取人脸区域的高响应,然后进一步产生人脸候选框。但是,由于 CNN 结构复杂,在实际应用中很费时。Li et al. 利用级联 CNNs 来识别人脸,但是需要候选框校准,这带来了额外的计算成本,而且忽略了人脸关键点位置和边框回归中的内在关联。

人脸对齐也受到了很大的关注。基于回归的模型与 template fitting approaches 是两个主要的方向。最近,Zhang et al. 提出利用人脸属性识别作为辅助,使用 CNN 来增强人脸对齐表现的方法。

但是,绝大多数的人脸检测和对齐方法都忽略了这两个任务之间的内在联系。尽管有些工作试图去共同解决这俩问题,但是效果有限。例如,Chen et al. 利用随机森林和像素值差异,来共同进行对齐和检测任务。但是,人为选取的特征限制了它的效果。Zhang et al. 使用多任务 CNN 来提升 multi-view 的人脸检测准确率,但是初始检测窗口是由一个弱人脸检测器产生,因而检测精度有限。

另一方面,训练过程中的 mining hard samples 对增强检测器的效果至关重要。但是传统的 hard sample mining 通常是 offline 的方式操作,这就需要更多的人为操作。所以,针对人脸检测和对齐设计一个 online hard sample mining 方法就变得非常迫切,它能自动地适应当前训练过程。

这篇论文中,我们提出了一个新的框架,利用级联 CNNs 整合检测和对齐的任务。它主要包含3个阶段。第一阶段,快速地通过一个较浅的 CNN 来产生候选窗口。然后,通过一个复杂点的 CNN 来优化候选窗口,剔除那些不包含人脸的窗口。最终,使用一个更复杂的 CNN 来优化结果,输出人脸关键点位置。该多任务学习框架能显著地提升了算法的表现。这篇论文的主要贡献如下:

  1. 提出了一个新的级联 CNNs 框架,共同进行人脸检测和对齐;
  2. 提出了一个高效的方法来进行 online hard sample mining 来提升表现;
  3. 在 benchmarks 上进行充分的实验,与目前 state of art 的方法进行比较。

2. Approach

A. Overall Framework

我们的方法流程如图1中所示。给定一张图片,我们首先将它的大小调整为不同的比例,产生图像金字塔,然后将该图像金字塔作为“3-阶段级联框架”的输入:

阶段一:我们使用了一个全卷积网络,叫 Proposal Network (P-Net),来获取候选框,以及它们的边框回归向量。然后用估计的边框回归向量来校准这些候选框。然后,用非最大抑制(non-maximum suppression, NMS)来合并高度重合的候选框。

阶段二:将所有的候选框输入进另一个 CNN,叫 Refine Network (R-Net),它进一步剔除那些假的候选框,对边框回归进行校准,然后用 NMS 来合并重合的候选框。

阶段三:它与阶段二类似,但是在这一步我们的目的是获得人脸更多的细节。尤其是,网络将输出人脸的关键点位置。

B. CNN Architecture

在论文“A convolutional neural network cascade for face detection” 中,作者设计了多个 CNNs 来进行人脸检测。但是,我们注意到,它的表现受以下几方面限制:(1)一些滤波器缺乏权值的多样性,这限制了它们去产生 discriminative 信息;(2)与其它多类别目标检测和分类任务相比,人脸检测是一个二元分类任务,所以它需要的滤波器数量就比较少,但是这些滤波器的判别能力要强。所以,作者就降低了滤波器的个数,将 5 × 5 5\times 5 5×5的滤波器改为 3 × 3 3\times 3 3×3的滤波器,降低计算量,增加网络深度,这样来提升性能。有了这些改善,我们就能获得更优的检测效果,运行时间更短。

C. Training

我们使用3个任务来训练我们的 CNN 检测器:有人脸/没人脸分类,边框回归,人脸关键点定位。

  • 人脸分类:学习目标就是一个两类别的分类任务。对每个样本 x i x_i xi,我们使用交叉熵损失函数:
    L i d e t = − ( y i d e t l o g ( p i ) ) + ( 1 − y i d e t ) ( 1 − l o g ( p i ) ) ( 1 ) L_i^{det} = -(y_i^{det} log(p_i)) + (1-y_i^{det})(1-log(p_i))\quad \quad \quad (1) Lidet=(yidetlog(pi))+(1yidet)(1log(pi))(1)

p i p_i pi是网络输出的,一个样本是否是人脸的概率。 y i d e ∈ { 0 , 1 } y_i^{de} \in \{0,1\} yide{ 0,1}表示 ground-truth 标签。

  • 边框回归:对每个候选框,我们预测它和最近的 ground truth 边框(ground truth 边框的左上角位置,高度和宽度)的偏移量。学习目标是一个回归问题,我们对每个样本 x i x_i xi使用欧式损失:
    L i b o x = ∣ ∣ y ^ i b o x − y i b o x ∣ ∣ 2 2 ( 2 ) L_i^{box} = ||\hat y_i^{box} - y_i^{box}||^2_2 \quad \quad \quad (2) Libox=y^iboxyibox22(2)

y ^ i b o x \hat y_i^{box} y^ibox 是从网络中获得的回归值,而 y i b o x y_i^{box} yibox 是ground truth 坐标。有4个坐标,包括左上角位置,高度和宽度,因此 y i b o x ∈ R 4 y_i^{box} \in \mathbb{R}^4 yiboxR4

  • 人脸关键点定位:与边框回归任务类似,人脸关键点检测也被看作一个回归问题,我们最小化欧式损失:
    L i l a n d m a r k = ∣ ∣ y ^ i l a n d m a r k − y i l a n d m a r k ∣ ∣ 2 2 ( 3 ) L_i^{landmark} = ||\hat y_i^{landmark} - y_i^{landmark}||^2_2\quad \quad \quad (3) Lilandmark=y^ilandmarkyilandmark22(3)

y ^ i l a n d m a r k \hat y_i^{landmark} y^ilandmark是人脸关键点的坐标,从网络中计算得来; y i l a n d m a r k y_i^{landmark} yilandmark 是 ground truth 坐标。有5个关键点,包括左眼,右眼,鼻子,左嘴角,和右嘴角,所以 y i l a n d m a r k ∈ R 1 0 y_i^{landmark}\in \mathbb{R}^10 yilandmarkR10

  • 多源训练:因为我们在每个 CNN 里要做不同的任务,就要有不同类别的训练图像,如人脸,没人脸,部分对齐的人脸。这样,前面的一些损失函数就没有使用。例如,对背景区域的样本,我们只计算 L i d e t L_i^{det} Lidet,其它两个损失函数都设为0。我们只需要一个样本类型表示器就可以做到。这样,整个学习目标如下:
    m i n ∑ i = 1 N ∑ j ∈ { d e t , b o x , l a n d m a r k } α j β i j L i j ( 4 ) min \sum_{i=1}^N \sum_{j\in \{det,box,landmark\}} \alpha_j \beta_i^j L_i^j \quad \quad \quad (4) mini=1Nj{ det,box,landmark}αjβijLij(4)

N N N是训练样本的个数, α j \alpha_j αj表示任务的重要程度。我们在 P-Net 和 R-Net 中使用 α d e t = 1 , α b o x = 0.5 , α l a n d m a r k = 0.5 \alpha_{det}=1, \alpha_{box}=0.5, \alpha_{landmark}=0.5 αdet=1,αbox=0.5,αlandmark=0.5,在 O-Net 中使用 α d e t = 1 , α b o x = 0.5 , α l a n d m a r k = 1 \alpha_{det}=1, \alpha_{box}=0.5, \alpha_{landmark}=1 αdet=1,αbox=0.5,αlandmark=1 来更精准地获取人脸关键点位置。 β i j ∈ { 0 , 1 } \beta_i^j \in \{0,1\} βij{ 0,1}是样本类型表示器。这样,我们很自然地就会去选择随机梯度下降法来训练 CNNs。

  • Online hard example mining:与传统方法的在分类器训练后进行 hard sample mining 不同,我们在人脸分类任务中就进行 online hard example mining,让它自动地适应训练过程。

在每个 mini-batch 中,我们对前向传播中得到的损失值进行排序,选择最高的 70 % 70\% 70% 作为 hard samples。然后在反向传播时,我们只计算 hard samples 中的梯度。意思就是,在训练过程中我们忽略容易掉样本,因为它们对提升检测器没有太多帮助。实验表明,这个训练策略能产生更好的表现,而不需要人为的样本选择。

3. Experiments

Pls read paper for more details.

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/calvinpaean/article/details/85048918

智能推荐

c# 调用c++ lib静态库_c#调用lib-程序员宅基地

文章浏览阅读2w次,点赞7次,收藏51次。四个步骤1.创建C++ Win32项目动态库dll 2.在Win32项目动态库中添加 外部依赖项 lib头文件和lib库3.导出C接口4.c#调用c++动态库开始你的表演...①创建一个空白的解决方案,在解决方案中添加 Visual C++ , Win32 项目空白解决方案的创建:添加Visual C++ , Win32 项目这......_c#调用lib

deepin/ubuntu安装苹方字体-程序员宅基地

文章浏览阅读4.6k次。苹方字体是苹果系统上的黑体,挺好看的。注重颜值的网站都会使用,例如知乎:font-family: -apple-system, BlinkMacSystemFont, Helvetica Neue, PingFang SC, Microsoft YaHei, Source Han Sans SC, Noto Sans CJK SC, W..._ubuntu pingfang

html表单常见操作汇总_html表单的处理程序有那些-程序员宅基地

文章浏览阅读159次。表单表单概述表单标签表单域按钮控件demo表单标签表单标签基本语法结构<form action="处理数据程序的url地址“ method=”get|post“ name="表单名称”></form><!--action,当提交表单时,向何处发送表单中的数据,地址可以是相对地址也可以是绝对地址--><!--method将表单中的数据传送给服务器处理,get方式直接显示在url地址中,数据可以被缓存,且长度有限制;而post方式数据隐藏传输,_html表单的处理程序有那些

PHP设置谷歌验证器(Google Authenticator)实现操作二步验证_php otp 验证器-程序员宅基地

文章浏览阅读1.2k次。使用说明:开启Google的登陆二步验证(即Google Authenticator服务)后用户登陆时需要输入额外由手机客户端生成的一次性密码。实现Google Authenticator功能需要服务器端和客户端的支持。服务器端负责密钥的生成、验证一次性密码是否正确。客户端记录密钥后生成一次性密码。下载谷歌验证类库文件放到项目合适位置(我这边放在项目Vender下面)https://github.com/PHPGangsta/GoogleAuthenticatorPHP代码示例://引入谷_php otp 验证器

【Python】matplotlib.plot画图横坐标混乱及间隔处理_matplotlib更改横轴间距-程序员宅基地

文章浏览阅读4.3k次,点赞5次,收藏11次。matplotlib.plot画图横坐标混乱及间隔处理_matplotlib更改横轴间距

docker — 容器存储_docker 保存容器-程序员宅基地

文章浏览阅读2.2k次。①Storage driver 处理各镜像层及容器层的处理细节,实现了多层数据的堆叠,为用户 提供了多层数据合并后的统一视图②所有 Storage driver 都使用可堆叠图像层和写时复制(CoW)策略③docker info 命令可查看当系统上的 storage driver主要用于测试目的,不建议用于生成环境。_docker 保存容器

随便推点

网络拓扑结构_网络拓扑csdn-程序员宅基地

文章浏览阅读834次,点赞27次,收藏13次。网络拓扑结构是指计算机网络中各组件(如计算机、服务器、打印机、路由器、交换机等设备)及其连接线路在物理布局或逻辑构型上的排列形式。这种布局不仅描述了设备间的实际物理连接方式,也决定了数据在网络中流动的路径和方式。不同的网络拓扑结构影响着网络的性能、可靠性、可扩展性及管理维护的难易程度。_网络拓扑csdn

JS重写Date函数,兼容IOS系统_date.prototype 将所有 ios-程序员宅基地

文章浏览阅读1.8k次,点赞5次,收藏8次。IOS系统Date的坑要创建一个指定时间的new Date对象时,通常的做法是:new Date("2020-09-21 11:11:00")这行代码在 PC 端和安卓端都是正常的,而在 iOS 端则会提示 Invalid Date 无效日期。在IOS年月日中间的横岗许换成斜杠,也就是new Date("2020/09/21 11:11:00")通常为了兼容IOS的这个坑,需要做一些额外的特殊处理,笔者在开发的时候经常会忘了兼容IOS系统。所以就想试着重写Date函数,一劳永逸,避免每次ne_date.prototype 将所有 ios

如何将EXCEL表导入plsql数据库中-程序员宅基地

文章浏览阅读5.3k次。方法一:用PLSQL Developer工具。 1 在PLSQL Developer的sql window里输入select * from test for update; 2 按F8执行 3 打开锁, 再按一下加号. 鼠标点到第一列的列头,使全列成选中状态,然后粘贴,最后commit提交即可。(前提..._excel导入pl/sql

Git常用命令速查手册-程序员宅基地

文章浏览阅读83次。Git常用命令速查手册1、初始化仓库git init2、将文件添加到仓库git add 文件名 # 将工作区的某个文件添加到暂存区 git add -u # 添加所有被tracked文件中被修改或删除的文件信息到暂存区,不处理untracked的文件git add -A # 添加所有被tracked文件中被修改或删除的文件信息到暂存区,包括untracked的文件...

分享119个ASP.NET源码总有一个是你想要的_千博二手车源码v2023 build 1120-程序员宅基地

文章浏览阅读202次。分享119个ASP.NET源码总有一个是你想要的_千博二手车源码v2023 build 1120

【C++缺省函数】 空类默认产生的6个类成员函数_空类默认产生哪些类成员函数-程序员宅基地

文章浏览阅读1.8k次。版权声明:转载请注明出处 http://blog.csdn.net/irean_lau。目录(?)[+]1、缺省构造函数。2、缺省拷贝构造函数。3、 缺省析构函数。4、缺省赋值运算符。5、缺省取址运算符。6、 缺省取址运算符 const。[cpp] view plain copy_空类默认产生哪些类成员函数

推荐文章

热门文章

相关标签