姿态估计——LightTrack:A Generic Framework for Online Top-Down Human Pose Tracking_top down pose_乐亦亦乐的博客-程序员秘密

技术标签: 论文阅读  深度学习  

论文地址:https://arxiv.org/pdf/1905.02822.pdf

github地址:https://github.com/Guanghan/lighttrack

 

论文提出了轻量级的多目标跟踪框架LightTrack。包含YOLOV3的目标检测,基于CPN_res101,MSRA152,mobile_deconv这3个网络种任意一个的关键点检测,基于SGCN的人体姿势匹配。整体结构是一种自上而下的结构。

主要贡献:

  1. 提出了一个通用的基于自上而下的骨架跟踪框架。
  2. 提出了SGCN作为一个REID模块进行姿势跟踪。
  3. 根据各种不同的设置进行了大量的实验。

Abstract

       在本文中,我们提出了一种新的有效的轻量级框架,称为LightTrack,用于在线人体姿态跟踪。所提出的框架被设计为用于自顶向下姿态跟踪的通用框架,并且比现有的在线和离线方法更快。单人姿势跟踪(SPT)和视觉对象跟踪(VOT)被合并到一个统一的功能实体中,很容易由一个可替换的单人姿势估计模块实现。我们的框架将单人姿态跟踪与多人身份关联结合起来,并首先揭示了将关键点跟踪与目标跟踪连接起来的问题。在姿态跟踪系统中,我们还提出了一种用于人体姿态匹配的图卷积网络(SGCN)作为Re-ID模块。 与其他Re-ID模块相反,我们使用人类关节的图形表示进行匹配。基于骨架的表示有效地捕捉了人类姿态的相似性,并且在计算上是廉价的。它对引入人类漂流的突然相机移位具有很强的鲁棒性。据我们所知,这是第一篇以自上而下的方式提出在线人体姿态跟踪框架的论文。所提出的框架足够通用,以适应其他姿态估计器和候选匹配机制。我们的方法优于其他在线方法,同时保持更高的帧速率。

1.Introduction

       姿态跟踪是估计视频中多人的姿态,并为跨帧的每个关键点分配唯一的实例ID的任务。准确估计人类的关键点-轨迹对于人类的动作识别、人类互动理解、运动捕捉和动画等都是有用的。最近,公开可用的PoseTrack数据集[18,3]和MPII Video Pose数据集[17]将人类运动分析的研究推向了其现实世界场景的一步。两个Pose Track挑战已经举行。然而现存大多数方法都属于 离线方法,缺少实时性。与帧每秒(FPS)标准相比,多目标跟踪精度(Multi-Object Tracking)标准得到了更多的强调。现有的离线方法将人类检测、候选姿态估计和身份关联的任务分为顺序阶段。在这个过程中,多人的姿势是在视频中跨帧估计的。基于姿态估计结果,通过求解优化问题计算姿态跟踪输出。它要求预先计算未来帧的姿态,或者至少对于某些范围内的帧。

       在本文中,我们提出了一种新的有效的轻量级框架姿态跟踪。 它被设计成通用的、自顶向下的(即,姿态估计是在检测到候选者之后执行的),并且是在线的。 该框架将单人姿态跟踪与多人身份关联相结合。它首先揭示了将关键点跟踪与目标跟踪连接起来。据我们所知,这是第一篇以自上而下的方式提出在线姿态跟踪框架的论文。所提出的框架足够通用,以适应其他姿态估计器和候选匹配机制。因此,如果未来进一步改进单个组件,我们的框架将更快和/或更准确。与Visual Object Tracking(VOT)方法相反,在这种方法中,视觉特征由内核或CNN特征图隐式表示,我们通过递归地更新包围框及其相应的姿态来跟踪每个人的姿态。目标的bounding box区域是从显式特征,即人类关键点推断出来的。人的关键点可以看作是一系列特殊的视觉特征。使用pose作为显式特征的优点包括:1)明确的特征与人有关,可解释,与bounding box位置有非常强和稳定的关系。人体姿态对bounding box区域施加直接约束。2)姿态估计和跟踪任务首先需要预测人的关键点。利用预测的关键点是有效的跟踪ROI区域。这种机制使在线跟踪成为可能。自然的保留了候选的身份,大大减轻了系统中数据关联的负担。即使数据关联是必要的,我们也可以重用基于骨架的姿态匹配的姿态特征。因此,单姿态跟踪(SPT)和单视觉对象跟踪(VOT)被合并到一个统一的功能实体中,很容易由一个可替换的单人人体姿态估计模块实现。因此,单姿态跟踪(SPT)和单视觉对象跟踪(VOT)被合并到一个统一的功能实体中,很容易由一个可替换的单人人体姿态估计模块实现。

       我们的贡献有三个方面:(1)我们提出了一种通用的在线姿态跟踪框架,适用于自顶向下的人体姿态估计方法。人体姿态估计器和Re-ID模块都是可替换的。与多目标跟踪(MOT)框架相比,我们的框架是专门为姿态跟踪任务设计的。据我们所知,这是第一篇以自上而下的方式提出在线人体姿态跟踪系统的论文。提出了一种用于人体姿态匹配的Siamese Graph Convolution Network (SGCN)作为姿态跟踪系统中Re-ID模块。与现有的Re-ID模块不同,我们使用人类关节的图形表示进行匹配。基于骨架的表示有效地捕捉了人类姿态的相似性,并且在计算上是廉价的。(3)我们对各种环境和消融研究进行了广泛的实验。我们提出的在线姿态跟踪方法优于现有的在线方法,并且对离线状态具有竞争力,但帧速率要高得多。我们公开代码,以促进未来的研究。

2.Related Work

2.1. Human Pose Estimation and Tracking
     随着基于CNN的方法的出现,人类姿态估计(HPE)取得了迅速的进展,最广泛使用的数据集,例如MPII[4]和LSP[20],都充满了达到90%和更高精度的方法。多人姿态估计更具有挑战性。并随着COCO关键点挑战的主办而受到越来越多的关注。现有方法可分为自上而下和自下而上。自顶向下的方法[14,32,15]依赖于检测模块来获得人类候选点,然后应用单人位姿估计来定位人类关键点。自下而上的方法[6,35,30]从所有潜在的候选者中检测人类关键点,然后根据各种数据关联技术将这些关键点组装成每个人的肢体。自下而上的方法的优点是它们在估计精度和计算成本之间有很好的权衡,因为成本与图像中的人类候选数几乎不变。相反,自顶向下的方法的优点是它们能够将任务分解成多个相对容易的任务,即对象检测和单人姿态估计。对象检测器是检测硬(通常是小)候选的专家,因此姿态估计器将在聚焦回归空间中表现得更好。姿态跟踪是一个新的课题,主要由姿态跟踪数据集[18,3]和MPII视频姿态数据集[17]引入。任务是估计人的关键点,并在视频中跨帧的实例级别上为每个关键点分配唯一的ID。在[17]中引入了一种典型的自顶向下但离线的方法,其中姿态跟踪被转化为具有图分区公式的最小成本多割问题。
    
2.2. Object Detection vs. Human Pose Estimation
 
       先前在对象检测中的工作将视觉特征回归到边界框坐标中。另一方面,HPE通常将视觉特征回归到热图中,每个通道代表一个人的关节。最近,HPE的研究启发了许多关于物体检测的工作。这些工作预测了一组特殊关键点的热图,以推断检测结果(bounding box)。基于这一动机,我们提出了预测人类关键点来推断bounding box区域。人类关键点是一组特殊的关键点,仅代表人类类的检测。
2.3. Multi-Object Tracking
       MOT的目的是通过寻找目标位置来估计多个物体的轨迹,同时保持它们在帧之间的身份。离线方法使用过去和未来的帧来生成轨迹,而在线方法只利用在当前帧之前可用的信息。提出了一个在线MOT管道[41],应用一个单一的目标跟踪器,以保持跟踪每个目标,给定这些目标检测在每个帧。目标状态被设置为跟踪,直到跟踪结果变得不可靠。然后,将目标视为丢失,并执行数据关联来计算轨迹和检测之间的相似性。我们提出的在线姿态跟踪框架还分别跟踪每个目标(具有相应的关键点),同时保持它们的身份,并在目标丢失时执行数据关联。然而,我们的框架在几个方面是不同的:(a)检测仅在关键帧由物体检测器产生,因此不一定在每个帧提供。(b)单个物体跟踪器实际上是一种姿态估计器,根据扩大的区域预测关键点。
 
2.4. Graphical Representation for Human Pose 
      最近[38]研究了如何用一个专门定制的图形卷积操作有效地建模动态骨架。图卷积运算将骨架转化为人的行为的时空表示。在这项工作的启发下,我们提出使用GCN将人类关节之间的空间关系编码成人类姿态的潜在表示。表示的目的是鲁棒编码姿态,这是不变的人的位置或视角。我们测量这种编码的相似性,以匹配人类的姿势。
 
 

3.Proposed Method

3.1. Top-Down Pose Tracking Framework
      我们提出了一种新的自顶向下姿态跟踪框架。 事实证明,人体姿态可以更好地推断人体位置。我们观察到,在自上而下的方法中,精确的人体位置也可以方便地估计人体的姿势。我们进一步研究这两个层次信息之间的关系:(1)粗略的人体位置可以通过单人姿态估计器提取身体关键点实现。(2)人体关节的位置可以直接用来表示人体候选物的大致位置。(3)因此,不断地从另一个中估计一个是单人姿势跟踪(SPT)的可行策略)。然而,仅仅将多目标姿态跟踪(MPT)问题视为多个人重复的SPT问题并不是一个好主意。因为需要满足某些约束条件,例如在某个框架中,两个不同的ID不应该属于同一个人;两个候选人也不应该有相同的id。一个更好的方法是同时跟踪多个个人,并使用额外的Re-ID模块保存/更新他们的身份。Re-ID模块是必不可少的,因为它通常很难始终保持正确的身份。它不太可能有效地跟踪个人的姿态跨帧的整个视频。例如,在下列情况下,必须更新身份:(1)有些人从镜头中消失或被遮挡;二)新候选人出现或者以前的候选人重新出现。(三)人与人之间互相走动(两个身份如果不仔细处理,可以合并为一个);四)由于摄像机的快速移动或者放大,造成跟踪失败。
      
   在我们的方法中,我们首先分别对待每个人类候选人,以便他们的相应身份被保存在整个框架中。这样,我们就规避了耗时的离线优化过程。 如果跟踪候选由于遮挡或摄像机移位而丢失,我们然后调用检测模块来恢复候选,并通过姿态匹配将它们与前一帧中的跟踪目标关联起来。利用SPT模块和姿态匹配模块实现多目标姿态跟踪。具体来说,即将到来的帧中的人的bounding box 是从姿态模块从当前帧估计的关节推断出来的。我们找到最小坐标和最大坐标,并将这个ROI区域每边放大20%。放大的bounding box 被视为下一帧中此人的局部区域。 如果从估计的关节的平均置信度分数 s低于标准Ts,则反映目标丢失,因为关节不太可能出现在bounding box区域。
如果目标丢失,我们有两种模式:
(1) Fixed Keyframe Interval (FKI)  忽略这个目标,直到预定的下一个关键帧,其中检测模块重新生成候选对象,然后将它们的ID与跟踪历史记录相关联。
(2) Adaptive Keyframe Interval (AKI)  通过候选检测和身份关联立即恢复丢失的目标。
由于关键帧的固定间隔,FKI模式的优点是姿态跟踪的帧速率是稳定的。AKI模式的优点是,对于非复杂视频,平均帧速率可以更高。在我们的实验中,我们通过使用具有固定间隔的关键帧来合并它们,同时一旦目标丢失,在下一个关键帧之前调用检测模块。跟踪精度更高,因为当目标丢失时,它会立即处理。
对于身份关联,我们提出考虑两个互补信息:空间一致性和姿态一致性。我们首先依赖于空间一致性,即如果来自当前和前一帧的两个边界框是相邻的,或者它们的交并比(IOU)超过一定的阈值,我们认为它们属于同一个目标。具体来说,如果跟踪目标tk∈Tk与对应的关键帧k的检测dk∈Dk之间的最大IOU   o(tk,Di,k)高于阈值τo,我们将匹配标志m(tk,dk)设置为1。 否则m(tk,dk)设置为0:
 
上述准则是基于这样的假设,即从前一帧跟踪的目标与当前帧中目标的实际位置有显著的重叠,这在大多数情况下是正确的。然而,这种假设并不总是可靠的,特别是当相机快速移动时。在这种情况下,我们需要匹配新的观察跟踪的候选人。在Re-ID问题中,这通常是由视觉特征分类器完成的。然而,具有不同身份的视觉相似的候选者可能会混淆这种分类器。在在线跟踪系统中提取视觉特征在计算上也很昂贵。因此,我们设计了一个图卷积网络(GCN)来利用人体关节的图形表示。我们观察到,在两个相邻的帧中,一个人的位置可能会因为突然的相机移位而漂移,但人类的姿态将保持几乎相同,因为人们通常不能动作那么快,如图2所示。因此,人类骨骼的图形表示可以成为候选匹配的有力线索,我们在下面的文本中称之为姿态匹配。
 
3.2. Siamese Graph Convolutional Networks
Siamese Network :以二维坐标的形式给出了人体关节序列,构造了一个以关节为图节点的空间图,以人体结构中的连接性为图边。我们的图卷积网络的输入是图节点上的联合坐标向量。它类似于基于图像的CNN,其中输入是由驻留在二维图像网格上的像素强度向量形成的。在输入上执行多个图卷积,以生成一个特征表示向量作为人类姿态的概念摘要。它内在地编码了人类关节之间的空间关系。因此,孪生网络(Siamese Network)的输入是GCN网络的一对输入。两个输出特征之间的距离表示两个姿态之间的相似程度。两种姿势如果在概念上相似,就称为匹配。网络如图3所示。Siamese由2个GCN层和1个卷积层组成,采用contrastive loss。我们以归一化的关键点坐标作为输入;输出是128维特征向量。网络是用对比损失L进行优化的,因为我们希望网络生成特征表示,这些特征表示对于正对来说足够接近,而对于负对来说,它们至少是最小的。
Graph Convolution for Skeleton:对于自然图像上的标准2D卷积,输出特征映射可以与具有步长1和适当填充的输入特征映射具有相同的大小。同样,图卷积运算被设计成输出相同数量的图结点。这些节点的属性的维数,类似于标准卷积中特征映射通道的数量,在图形卷积操作之后可能会发生变化。标准卷积运算定义如下:给定核大小为K×K的卷积核和通道数为c的输入特征图,空间位置x处单个通道的输出值可以写成:
 
 
 
图上的卷积运算是通过将上述公式扩展到输入特征图驻留在空间图Vt上的情况,即。 特征映射f in:Vt→Rc在图的每个节点上都有一个向量。扩展的下一步是重新定义采样函数p和权重函数w。我们遵循[38]中提出的方法。对于每个节点,只对其相邻节点进行采样。节点Vi的邻居集是 。采样函数p   可以被写为 这样,相邻节点的数目不是固定的,也不是加权顺序。为了有固定数量的样本和固定的加权顺序,我们用固定数量的分区标记根节点周围的邻居节点,然后根据它们的分区类对这些节点进行权重。具体的划分方法如图4所示。
 
 
其中规范化项, Z i( v j ) = | { v k | l i( v k) = l i( v j ) } |,是平衡不同子集输出的贡献。根据上述划分方法,我们有:
 
其中ri是训练集中所有帧上从重心到关节i的平均距离。
 

4.Experiments

 

 

5.Conclusions 

在本文中,我们提出了一个有效和通用的轻量级框架在线人体姿态跟踪。我们还提供了一个使用该框架的基线,并在我们的姿态跟踪系统中提出了一个用于人体姿态匹配的图卷积网络(siamese)作为Re-ID模块。基于骨架的表示有效地捕捉了人类姿态的相似性,并且在计算上是廉价的。我们的方法明显优于其他在线方法,并且与离线最先进的方法非常有竞争力,但帧速率要高得多。我们认为所提出的框架由于其优越的性能、通用性和可扩展性而值得广泛使用。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/qq_41251963/article/details/110306081

智能推荐

html背景音乐自动播放embed,HTML中添加音乐video embed audio_徐柚柚的博客-程序员秘密

做H5页面时需要添加背景音乐,方法如下方式一:这种方式显示播放器。方式二:这个方式主要是支持的播放器多。一定程度上解决了浏览器兼容的问题。方式三:这个不显示播放器。标签默认是隐藏的。补充:问题1:苹果手机Safari和微信不播放音乐问题:用加进去后用微信(iOS系统)浏览页面没有自动播放,点击暂停后再次点击播放正常,这就说明播放功能没有问题,将页面用iOS自带浏览器Safari打开后也不能自动播...

90%程序员写不出无BUG的二分查找程序?[email protected] % 8014_itkbase的博客-程序员秘密

  90%程序员写不出无BUG的二分查找程序?相关文章链接如下:微软过桥问题与测试人员素养 等价类分法 新解 测试用例设计中的NP难题 测试驱动需求分析--需求文档评审实例 C/C++代码检视实例 《编程珠玑》(第二版)一书第四章中提及过100多名专业程序员使用两个小时的充足时间编写一个简单的二分查找程序,结果发现90%的人编出的代码都有BUG,Knuth也在他的《Sorting and Sear

在滴滴云上搭建 API-Gateway Kong 实践_付江的博客-程序员秘密

1. 什么是 API-Gateway ?什么是 Kong ?API-Gateway 是微服务架构体系中一个比较重要的组件,它通常构成所有微服务的入口,它的职责比较多,其较为通用的一些功能是:路由:路由是 API-Gateway 最重要的功能,基于路由 API-Gateway 通常能根据请求的特征,将流量导向不同的服务,或是不同服务的不同版本;或是同一服务的不同单元。协议转换:在 API-G...

android打包失败的问题_halo1416的博客-程序员秘密

失败前:1. gradle版本:2. 签名设置报错:我一直以为是静态资源的问题,和同事两个人找了半天,结果并不是......解决:1. 修改gradle版本===>> 这样之后可以打包,不会报错了!!但是,app会闪退!闪退原因:react-native-modal-picker这个库里面 propTypes 的 Vie...

maxent分布预测如何选择环境气候数据_maxent 气象数据_生信小窝的博客-程序员秘密

maxent分布预测如何选择环境气候数据在做分布预测时,选择气候数据的类型会直接影响到预测结果的合理性和准确性,不同物种要选择不同的气候数据。例如,我们做植物的分布预测,我们要选择与植物生境分布息息相关的气候因子,其中,降雨,温度,海拔坡度,最重要的还有土壤类型,如上面截图中的土壤属性,我们都知道基本多数植物只有在合适的土壤类型中才会生长,所以土壤数据对植物的分布预测至关重要。例如,我们做的是海洋动物,因为海洋动物基本不受降雨,土壤类型的影响,所以这类数据是不需要的,我们要根据相关的文献资料参考选择合

电脑上打开chm文件时系统提示:不能打开文件:mk:@MSITStore:(文件路径)_青山师的博客-程序员秘密

电脑上打开chm文件时系统提示:不能打开文件:mk:@MSITStore:(文件路径)电脑无法打开.chm文件: 电脑“开始-运行”里面输入 regsvr32 itss.dllregsvr32 hhctrl.ocx 即可

随便推点

《啊哈,C语言》 第三章课后习题练习记录_OSS爱好者的博客-程序员秘密

第一节一起来找茬我的解答:第一题我的解答:#include <stdio.h>#include <stdlib.h>int main(){ while(1>0) printf("你好"); return 0;}第二节一起来找茬我的解答:第一题我i的解答:#include <stdio.h>#include <stdlib.h>int main(){ in

windows下数据挖掘比赛提交文件换行符问题_Yvettre的博客-程序员秘密

1. 问题在天池大数据比赛、腾讯算法比赛等中都需要提交结果文件,一般是csv文件win下的默认换行符是CRLF(回车换行),linux或macos下的默认换行符是LF(换行),这些比赛要求提交的文件大多数都需要是LF换行符我是在windows10下使用vscode敲代码的,代码也是在win10下跑的,如果不留心,就会生成CRLF换行符的文件,提交结果总会出现没成绩、格式错误、表头信息错误...

caffe代码阅读4:LayerRegistry的介绍与实现_c++ @[email protected]_等待破茧的博客-程序员秘密

一、LayerRegistry的作用简介LayerResistry的功能很简单,就是将类和对应的字符串类型放入到一个map当中去,以便灵活调用。主要就是注册类的功能二、LayerRegistry类的详细介绍1)构造函数和析构函数构造函数 [cpp] view plain copy // 禁止实例化,因为该类都是静态函数,所以是

史上最美女程序员:手写代码把人类送上月球_weixin_33690367的博客-程序员秘密

1969年,美国“阿波罗11号”宇宙飞船载着三明宇航员成功登上月球,宇航员阿姆斯特朗踏上月球表面的这一刻,人类实现了千百年来的飞天梦,也成就了那句经典名言——这只是我一个人的一小步,但缺失整个人类的一大步。可是,你知道阿波罗号宇宙飞船背后的“最强大脑”是谁吗?她就是史上最美的女程序员玛格丽特·汉密尔顿(Margaret Hamilton),不走寻常路...

SPA项目开发之登录注册_weixin_30794491的博客-程序员秘密

spa项目完成登录注册布局安装开发模块npm install element-ui -Snpm install axios -Snpm install qs -S npm install vue-axios -S下载完毕的话,就会出现下列代码:引入main.js配置import Vue from 'vue'...

fiddler抓包小技巧之自动保存抓包数据(可根据需求过滤)_fiddler定时保存_luyaran的博客-程序员秘密

    说起这个抓包啊,大家都不陌生。辣么,将自己抓获的数据保存下来进行数据分析就是个问题了。一般情况下,这个软件就是操作软件的,设置自动保存的话,只能依靠软件自身来设置。但是呢,这个fiddler不得不让我们又一次见识到了它的强大。废话不多说,咱们直接来看配置哈。    首先:    然后选择:    或者你可以直接按Ctrl+R这个组合键,就可以打开CustomRules.js这个文件了。当然...

推荐文章

热门文章

相关标签