人脸比对(1:N)_1:n人脸检索 学术-程序员宅基地

技术标签: 人脸1:N  学习笔记  项目笔记  

1 前言

设计出人脸1:N,随着N的增大准确率降低最小的解决方案具有很强的现实意义。人脸1:N的框架大致分为:人脸检测、人脸对齐、人脸映射与人脸识别LOSS的设计,结构如下图所示:

图1:人脸1:N的主要框架

人脸1:N在学术界有着广泛的研究,对于人脸检测与人脸对齐(MTCNN、TCDCN等)在业界已经有较好的效果,目前的主要性能提升有:DeepFace、DeepID,框架为CNN + Softmax,网络在第一个FC层形成判别力很强的人脸特征,用于人脸识别。对于人脸识别的特征映射来说,并不满足人脸对比的需求;DeepID2, DeepID2+, DeepID3都采用Softmax + Contrastive Loss,使得同类特征的L2距离尽可能小,不同类特征的L2距离大于某个间隔;FaceNet是目前引用量最高的人脸对比方法,提出了Triple Loss,以三元组形式进行优化,获得类内紧凑和类间差异;SphereFace是L-Softmax的改进,归一化了权值W,让训练更加集中在优化深度特征映射和特征向量角度上,降低样本数量不均衡问题。Center Loss为每个类别学习一个中心,并将每个类别的所有特征向量拉向对应类别中心,联合Softmax一起使用;COCO loss,归一化了权值c,归一化了特征f,并乘尺度因子,在LFW上达到99.86%;在损失函数上设计还包括:L2-Softmax、Additive Margin Loss、CosFace、ArcFace等。

本文在FaceNet的框架基础上,对于MTCNN进行改进实现了更精确的人脸对齐结果。同时,对训练样本进行增强,使用人脸随机旋转、随机裁剪、人脸色相、饱和度的变换等扩充样本,进一步降低训练误差。将Triple Loss改为最新的COCO loss,结构风险最小化的正则化因子设为:10^-3,梯度下降采用RMSPROP,mini-batch设置为100,实验环境为:GT1080TI,训练时间:48-55h,在华为训练集上人脸1:N的准确率为:99.92%-99.97%之间。

2章 功能及原理

2.1人脸对齐

对人脸检测与切割并进行对齐与规范化。通过Landmark得到人脸的特征点,通过与正脸比较,学习到单应性矩阵,通过单应性矩阵对人脸图像进行旋转,旋转效果明显优于MTCNN的对齐。

  

 

图2:人脸特征点定位结果

 

图3:(a)原始图像 (b) MTCNN对齐结果 (c) 本文对齐结果

2.1.1 人脸特征点定位

       人脸特征点可以被用来将人脸对齐到平均人脸,这样在对齐之后所有图像中的人脸特征点的位置几乎是相同的。直观上来看,用对齐后的图像训练的人脸识别算法更加有效,这个观点已经被很多论文验证。

本文采用是最新的TCDCN模型,该模型思想:通过一些多样的精细的任务,来优化提升特征点定位精度。就是在人脸特征点检测的时候,同时进行多个任务的学习,这些任务包括:性别,是否带眼镜,是否微笑和脸部的姿势。使用这些辅助的属性帮助更好的定位特征点,根据论文结果,这样的确对人脸特征点检测有一定的帮助。该模型优势:1)优于现有的方法,特别是在处理一些遮挡和大姿态的面部图像时。2)与现有的state-of-the-art的级联深度模型方法相比,其动态的降低了模型的复杂度。

图4:TCDCN的结构

损失函数就是不同任务的损失函数直接相加。而在人脸特征点检测的任务中,不同的任务具有不同的loss,特征点检测是平方和误差,而其它分类任务是交叉熵损失,因此最后的loss就是:

(1)

2.1.2 单应性矩阵

平面的单应性即为一个平面到另一个平面的投影映射。若点Q到成像仪上的点q的映射使用齐次坐标,则单应性(如图13所示)可以表示为:

                                                                                      (2)

其中和s是任意尺度的比例。H是由用于定位观察的物体平面的物理变换和使用摄像机内参数矩阵的投影两部分组成的。

 

图 5: 平面单应性的示意图

物理变换部分是与观测到的图像平面相关的部分旋转R和部分平移t的影响之和,可以表示为:

                                                                                  (3)

M为摄像机内参数矩阵,即:

                                                                    (4)

则单应性可以重写为

                                                                                  (5)

又因为单应性是研究一个平面到另一个平面的映射。因此,我们可以令z=0,即物体平面上的点用x, y表示,则可以简化为平面坐标中的,即可以推导为:

                                                                             (6)

其中,,所以最终的单应性矩阵可以表示为:

                                                                                      (7)

 

所以,可以通过一张规范化之后的人脸并将其特征点存储起来,之后计算人脸特征点与标准人脸的人脸特征点的单应性矩阵,通过变换关系即可将人脸规范到统一的标准。通常只需要4对点即可对矩阵估计,为了更加准确估计图像的变换关系,将所有人脸的特征点加入计算可以列出68组方程,方程组个数大于带求解的系数,用过RANSAC算法来求解这个超正定方程,每次计算4个点,选取内点个数最多的作为最终的结果。

                (8)

实现效果如下所示:

 

图 6:单应性矩阵估计(a) 标准人脸及特征点 (b)-(d):通过变换得到标准人脸

2.2 Embedding

按照FaceNet的思路,选取不同的卷积神经框架作为的前级输入,对特征进行L2规范化后,进行特征映射,将特征映射成128维的向量。

图 7:FaceNet的框架图

ResNet有效的解决了深度卷积神经网络难训练的问题。这是因为在误差反传的过程中,梯度通常变得越来越小,从而权重的更新量也变小。这个导致远离损失函数的层训练缓慢,随着层数的增加这个现象更加明显。通过对比效果,最终选择图8(d)的结构作为深度结构,并在利用在CASIA上的训练结果作为预训练模型。

图8:不同的卷积神经网络框架图

 

2.3相似度计算(LOSS选择)

通过相似度计算函数得到人脸之间的距离,通过交叉验证方法设置最佳阈值将人脸和非人脸分开。“COCO Loss”,其目的同样是:

  • 拉近同类样本的特征(类内方差小)
  • 拉远不同分类样本的特征(类间方差大)
    公式为:
              (9)
    我们会发现该Loss的优化目标是分子越大越好(类内Cos相似度高),分母越小越好(类间Cos相似度低)。通过可视化不同损失函数,对比不同相似度计算之间的聚类性,不难看出,COCO Loss 的聚类性明显更好,最终选择COCO Loss 作为最终的损失。

    图9:不同的Loss之间的对比

 

2.4梯度下降方法

由于调整学习率时分母上的变量s一直在累加按元素平方的小批量随机梯度,目标函数自变量每个元素的学习率在迭代过程中一直在降低(或不变)。所以,当学习率在迭代早期降得较快且当前解依然不佳时,Adagrad在迭代后期由于学习率过小,可能较难找到一个有用的解。为了应对这一问题,RMSProp算法对Adagrad做了一点小小的修改。RMSProp算法使用了小批量随机梯度按元素平方的指数加权移动平均变量s,并将其中每个元素初始化为0。给定超参数γ且0≤γ<1, 在每次迭代中,RMSProp首先计算小批量随机梯度g,然后对该梯度按元素平方项g^2做指数加权移动平均。

3章 特色综述

  1. 对样本增广、对模型参数进行设置,较高的识别稳定性。
  2. 对Loss进行选择,在FaceNet基础上增加识别率。
  3. 较好的人脸对齐和预处理效果,环境适应性强。
     

4章 开发工具及技术

编译环境:Python 3.5 (anaconda3)、Tensorflow 1.2、Scikit-learn、opencv-python、h5py、Matplotlib、Pillow、requests、psutil。

硬件环境:I7-7700K,1080TI,64G内存。

技术:人脸对齐、单应性矩阵估计、Facenet、COCO Loss、梯度下降方法、深度学习(卷积神经网络设计)。

下一篇:人脸识别之数据、网络结构、损失函数

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/intflojx/article/details/81278330

智能推荐

Spring Boot 获取 bean 的 3 种方式!还有谁不会?,Java面试官_springboot2.7获取bean-程序员宅基地

文章浏览阅读1.2k次,点赞35次,收藏18次。AutowiredPostConstruct 注释用于在依赖关系注入完成之后需要执行的方法上,以执行任何初始化。此方法必须在将类放入服务之前调用。支持依赖关系注入的所有类都必须支持此注释。即使类没有请求注入任何资源,用 PostConstruct 注释的方法也必须被调用。只有一个方法可以用此注释进行注释。_springboot2.7获取bean

Logistic Regression Java程序_logisticregression java-程序员宅基地

文章浏览阅读2.1k次。理论介绍 节点定义package logistic;public class Instance { public int label; public double[] x; public Instance(){} public Instance(int label,double[] x){ this.label = label; th_logisticregression java

linux文件误删除该如何恢复?,2024年最新Linux运维开发知识点-程序员宅基地

文章浏览阅读981次,点赞21次,收藏18次。本书是获得了很多读者好评的Linux经典畅销书**《Linux从入门到精通》的第2版**。下面我们来进行文件的恢复,执行下文中的lsof命令,在其返回结果中我们可以看到test-recovery.txt (deleted)被删除了,但是其存在一个进程tail使用它,tail进程的进程编号是1535。我们看到文件名为3的文件,就是我们刚刚“误删除”的文件,所以我们使用下面的cp命令把它恢复回去。命令进入该进程的文件目录下,1535是tail进程的进程id,这个文件目录里包含了若干该进程正在打开使用的文件。

流媒体协议之RTMP详解-程序员宅基地

文章浏览阅读10w+次,点赞12次,收藏72次。RTMP(Real Time Messaging Protocol)实时消息传输协议是Adobe公司提出得一种媒体流传输协议,其提供了一个双向得通道消息服务,意图在通信端之间传递带有时间信息得视频、音频和数据消息流,其通过对不同类型得消息分配不同得优先级,进而在网传能力限制下确定各种消息得传输次序。_rtmp

微型计算机2017年12月下,2017年12月计算机一级MSOffice考试习题(二)-程序员宅基地

文章浏览阅读64次。2017年12月的计算机等级考试将要来临!出国留学网为考生们整理了2017年12月计算机一级MSOffice考试习题,希望能帮到大家,想了解更多计算机等级考试消息,请关注我们,我们会第一时间更新。2017年12月计算机一级MSOffice考试习题(二)一、单选题1). 计算机最主要的工作特点是( )。A.存储程序与自动控制B.高速度与高精度C.可靠性与可用性D.有记忆能力正确答案:A答案解析:计算...

20210415web渗透学习之Mysqludf提权(二)(胃肠炎住院期间转)_the provided input file '/usr/share/metasploit-fra-程序员宅基地

文章浏览阅读356次。在学MYSQL的时候刚刚好看到了这个提权,很久之前用过别人现成的,但是一直时间没去细想, 这次就自己复现学习下。 0x00 UDF 什么是UDF? UDF (user defined function),即用户自定义函数。是通过添加新函数,对MySQL的功能进行扩充,就像使..._the provided input file '/usr/share/metasploit-framework/data/exploits/mysql

随便推点

webService详细-程序员宅基地

文章浏览阅读3.1w次,点赞71次,收藏485次。webService一 WebService概述1.1 WebService是什么WebService是一种跨编程语言和跨操作系统平台的远程调用技术。Web service是一个平台独立的,低耦合的,自包含的、基于可编程的web的应用程序,可使用开放的XML(标准通用标记语言下的一个子集)标准...

Retrofit(2.0)入门小错误 -- Could not locate ResponseBody xxx Tried: * retrofit.BuiltInConverters_已添加addconverterfactory 但是 could not locate respons-程序员宅基地

文章浏览阅读1w次。前言照例给出官网:Retrofit官网其实大家学习的时候,完全可以按照官网Introduction,自己写一个例子来运行。但是百密一疏,官网可能忘记添加了一句非常重要的话,导致你可能出现如下错误:Could not locate ResponseBody converter错误信息:Caused by: java.lang.IllegalArgumentException: Could not l_已添加addconverterfactory 但是 could not locate responsebody converter

一套键鼠控制Windows+Linux——Synergy在Windows10和Ubuntu18.04共控的实践_linux 18.04 synergy-程序员宅基地

文章浏览阅读1k次。一套键鼠控制Windows+Linux——Synergy在Windows10和Ubuntu18.04共控的实践Synergy简介准备工作(重要)Windows服务端配置Ubuntu客户端配置配置开机启动Synergy简介Synergy能够通过IP地址实现一套键鼠对多系统、多终端进行控制,免去了对不同终端操作时频繁切换键鼠的麻烦,可跨平台使用,拥有Linux、MacOS、Windows多个版本。Synergy应用分服务端和客户端,服务端即主控端,Synergy会共享连接服务端的键鼠给客户端终端使用。本文_linux 18.04 synergy

nacos集成seata1.4.0注意事项_seata1.4.0 +nacos 集成-程序员宅基地

文章浏览阅读374次。写demo的时候遇到了很多问题,记录一下。安装nacos1.4.0配置mysql数据库,新建nacos_config数据库,并根据初始化脚本新建表,使配置从数据库读取,可单机模式启动也可以集群模式启动,启动时 ./start.sh -m standaloneapplication.properties 主要是db部分配置## Copyright 1999-2018 Alibaba Group Holding Ltd.## Licensed under the Apache License,_seata1.4.0 +nacos 集成

iperf3常用_iperf客户端指定ip地址-程序员宅基地

文章浏览阅读833次。iperf使用方法详解 iperf3是一款带宽测试工具,它支持调节各种参数,比如通信协议,数据包个数,发送持续时间,测试完会报告网络带宽,丢包率和其他参数。 安装 sudo apt-get install iperf3 iPerf3常用的参数: -c :指定客户端模式。例如:iperf3 -c 192.168.1.100。这将使用客户端模式连接到IP地址为192.16..._iperf客户端指定ip地址

浮点性(float)转化为字符串类型 自定义实现和深入探讨C++内部实现方法_c++浮点数 转 字符串 精度损失最小-程序员宅基地

文章浏览阅读7.4k次。 写这个函数目的不是为了和C/C++库中的函数在性能和安全性上一比高低,只是为了给那些喜欢探讨函数内部实现的网友,提供一种从浮点性到字符串转换的一种途径。 浮点数是有精度限制的,所以即使我们在使用C/C++中的sprintf或者cout 限制,当然这个精度限制是可以修改的。比方在C++中,我们可以cout.precision(10),不过这样设置的整个输出字符长度为10,而不是特定的小数点后1_c++浮点数 转 字符串 精度损失最小

推荐文章

热门文章

相关标签