论文笔记:ATOM: Accurate Tracking by Overlap Maximization-程序员宅基地

技术标签: 人工智能  

ATOM: Accurate Tracking by Overlap Maximization

 2019-03-12 23:48:42 

Paperhttps://arxiv.org/pdf/1811.07628 

Codehttps://github.com/visionml/pytracking 

 

1. Background and Motivation: 

这篇文章的主要动机是从改善重合度的角度,来提升跟踪的总体性能。因为现有的算法,大部分都在强调,怎么做才能跟的上,而很少有人专门研究:“怎么跟踪,才能跟踪的好?”这里的好,不但是指能时刻跟住目标,而且所预测的 BBox 要能很好的框柱目标物体。所以,这里就要谈到重合度的问题了,即文章标题所体现的 “Overlap Maximization”。文章主要是受到 IoU Net  的启发,有兴趣的可以先去看下这个物体检测的文章。

 

作者将跟踪任务主要分为两种:a classification task and an estimation task。前者是粗略的将提取的图像块分类为前景和背景,得到一个粗略的目标位置;而后者是通过一个 BBox 来预测目标的状态。最新的一个顶尖跟踪算法,也是依赖于模型中的分类成分来进行目标预测。但是这种策略是有很大局限性的,因为 bounding box estimation 是一个非常具有挑战性的任务,需要对目标的姿态有高层的理解,如下图所示:

而本文尝试解决 target classification 和 estimation in visual tracking 存在的鸿沟。作者引入一种新颖的多任务跟踪框架,主要包括两个成分,用于 target estimation 和 classification。本文的跟踪示意图如下图所示。基于 IoU-Net,作者训练一个目标预测模块(Target estimation module)来预测 target 和 estimated BBox 之间的 IoU overlap,即:the Jaccard Index。但是,由于原本的 IoU-Net 是class-specific,并不能直接拿过来用于 tracking,所以作者提出一个新的框架,将 target-specific information 融合到 IoU 的预测中。作者用过引入一个 modulation-based network component,将 target appearance 结合到 reference image 中,以得到特定目标的重合度预测(the target-specific IoU estimates)。酱紫,就可以让作者的目标预测模块在大型数据集上,进行 offline 的训练。在跟踪的过程中,目标 BBox 就是简单的最大化每一帧预测的 IoU overlap。

 

此外,作者还设计了一个 classification module,并且是 online 训练的,提供了较高的鲁棒性。作者最终的跟踪过程就是:target classification,estimation,and model update。作者在四个数据集上取得了极大地提升,包括:NFS, UAV123, TrackingNet and VOT-2018。 

 

2. Overview of ATOM:

该模型主要包括两个部分,一个是 target estimation,另一个是 target classification。

对于 target estimation,就是刚刚提到的 IoU-predictor,主要包括四个输入:

1). 当前视频帧的 feature;

2). 当前视频帧预测的 bounding box;

3). reference image 的 feature;

4). reference image 的目标 BBox;

然后,该网络输出的是:当前视频帧 BBox 的 IoU 预测得分。

 

第二个网络是用于 target classification,是 online 训练的。就是用于对提取的 proposal 进行打分,进行前景和背景的区分。但是,作者并没有采用常规的 SGD optimizator,而是用了基于 Conjugate Gradient and Gauss-Newton 的优化策略。原因呢?就是可以确保 fast online training。

 

3. The Details of ATOM:  

3.1 Target Estimation by Overlap Maximization

IoU-Net 介绍

 

网络结构

 

如上图所示,作者想要设计一种 IoU-Net 用于跟踪问题,想要做到 target-specific IoU prediction,由于 IoU 预测任务是更加高层的,所以,在单张图像上进行训练或者微调是不可行的。所以,作者认为目标预测网络需要离线训练,以学习一个 general 的表达进行 IoU prediction。作者刚开始的实验表明:简单的将 reference image 和 current-frame features 进行结合的效果并不好。作者也发现:Siamese 的网络结构也无法得到最好的效果。在本文中,在给定单张参考图像的条件下,作者就提出一种 modulation-based network architecture 来预测任意一个物体的 IoU,如上述流程图所示。

 

该网络包含两个分支,这两个分支都是依赖于 ResNet-18 Block 3 和 Block 4 的feature 作为输入。

The reference branch 将参考图像的 features x0 和 target BBox 标注 B0 作为输入,其返回一个 modulation vector c(x0, B0)。具体网络结构就是:一个卷积层,然后接一个 PrPool 和 一个 fc 层。

The current image,即我们要预测目标包围盒的状态,是在 test branch 进行的。其首先将 feature map x 输入到两个卷积层,然后经过 PrPooling layer,得到的结果是 z(x, B)。这样子得到的 target-specific representation,有效的结合了 reference appearance information。然后将该特征输入到 IoU predictor module g,这个是由三个全连接层构成的。

为了训练这个网络,我们最小化公式(1)的预测误差。在跟踪的过程中,我们最大化该 IoU 来预测目标的状态。

 

3.2 Target Classification by Fast Online Learning: 

有了 proposal,剩下的就是对这些样本进行前景和背景的判别了。作者的目标分类模型是一个 2层的全卷机层,定义为:

此处,x 是 backbone feature map,w 是网络参数,$\phi$ 是激活函数,*  是标准的多通道卷积。受到最近一些判别性相关滤波方法的启发,作者将相似性学习的目标定义成与 L2 分类误差类似的形式:

最小化上述公式(3)的一种比较粗暴的方式,就是采用 标准的 SGD 的方法。但是这些方法缺对 online learning 的方式不够友善,因为其收敛速度很慢。所以作者自己提出了一种新的优化方法,进行更加高效的优化,具体细节见原文。关于这一块,等我仔细研读后,再对博文进行更新。

 

实验部分:

实验在多个数据集上都取得了顶尖的效果,而且提升不是一星半点。

 

==

 

转载于:https://www.cnblogs.com/wangxiaocvpr/p/10520522.html

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/a1424262219/article/details/102148661

智能推荐

“体面人”俞敏洪,要步罗永浩的后尘了?-程序员宅基地

文章浏览阅读248次。NEW关注Tech逆向思维视频号 最新视频→【男生的秋裤,女生的打底裤,哪个更抗冻?】出品|雷达财经 文|张凯旌 编辑|深海...

关于通过DDMS向Android系统的模拟器的sdcard中导入mp3文件的问题_ddms怎么导入音乐文件-程序员宅基地

文章浏览阅读3.9k次。问题描述: 向sdcard文件夹导入不成功,报错如下:[2011-02-11 12:27:06] Failed to push the items: Invalid argument但是试着向data文件夹导入则导入成功,但是如果文件名为中文则显示乱码,将名称改为英文或数字即可。 解决方案:重启了adb就可以向sdcard文件夹导入了,只是名称一定是英文或数字才行。若名称为中文,则依旧无法导入。重启adb的按钮位于DDMS界面上的Devices的Menu里,Reset adb就是。_ddms怎么导入音乐文件

time模块_time模块‘-程序员宅基地

文章浏览阅读284次。时间戳(timestamp)通常来说,时间戳表示的是从1970年1月1日00:00:00开始按秒计算的偏移量。我们运行“type(time.time())”,返回的是float类型。#时间戳-->结构化时间#time.gmtime(时间戳) #UTC时间,与英国伦敦当地时间一致#time.localtime(时间戳) #当地时间。例如我们现在在北京执行这个方法:与UTC时间相差..._time模块‘

vscode利用Settings Sync进行插件配置同步_vscode无法同步-程序员宅基地

文章浏览阅读736次。如果拥有两台电脑,A电脑拥有经常使用的vscode开发软件,B电脑上没有,你可以尝试如下方法将A电脑的vscode插件配置同步到B电脑,前提是你要拥有Github账号(可能要借助科学上网工具)。一、利用Settings Sync进行插件配置同步1.首先在vscode中安装Settings Sync插件,在扩展商店搜索并安装即可。2.第二步打开github网站登录自己的账号,登录成功后在左上角头像处点击,选择设置如图所示 3.在左侧面板找到开发者设置选项,如下图所示,点击该选项。4._vscode无法同步

《利用Python 进行数据分析》 - 笔记(4)_使用type/cat查看ex2.csv中的内容,将本文件夹内的ex2.csv文件采用read _cs-程序员宅基地

文章浏览阅读4.3k次。问题导读:1.读写文本格式的数据2.二进制数据格式3.使用HTML和Web API4.使用数据库解决方案:读写文本格式的数据:pandas 提供了一些用于将表格型数据读取为DataFrame对象的函数pandas 中的解析函数函数的选项可以划分为以下几个大类索引:将一个或多个列当做返回的DataFrame处理,以及是否_使用type/cat查看ex2.csv中的内容,将本文件夹内的ex2.csv文件采用read _csv方

Perforce介绍_perforce depot type local-程序员宅基地

文章浏览阅读6.4k次。http://hi.baidu.com/weiyousheng/blog/item/7c1d8d545b754953d10906e1.html_perforce depot type local

随便推点

30天自制操作系统学习_第一天_.bat .nas .imp_写个nas操作系统需要多久-程序员宅基地

文章浏览阅读292次。30天自制操作系统helloos().folder,第一天的初始文件夹helloos().folder,第一天的初始文件夹1. run.bat(1)run.bat、install.bat是自建的批处理命令,!cons_9x.bat与!cons_nt.bat是自带的,批处理命令可用于调用文件夹,处理图片等等,可以视为初等方法,可以使实现基本的if ,copy等语句,一个批处理文件可以用来对应的..._写个nas操作系统需要多久

人工智能 | ShowMeAI资讯日报 #2022.06.30_partially observable multi-agent-程序员宅基地

文章浏览阅读1.1w次。ShowMeAI资讯日报 2022-06-30 期,flair 集成最先进NLP技术的框架、cleanlab 机器学习数据集错误自动发现修复工具、darts 时序处理与预测库(Python)、读博申请攻略、Go语言入门与进阶课程、8篇前沿论文…点击获取全部资讯......_partially observable multi-agent

iOS组件化-本地资源加载问题_ios加载pod bundle失败-程序员宅基地

文章浏览阅读1k次。组件代码的上传:上传组件至CocoaPods在组件工程的.podspec配置中说到,本地资源加载的配置方式有两种:# 方式一:会自动创建一个.bundle包,将资源放到.bundle下# bundle名称可以自定义,在下面配置s.resource_bundles = { 'TRectDetector' => ['TRectDetector/Assets/resource/*..._ios加载pod bundle失败

ICP综述_icp选点-程序员宅基地

文章浏览阅读3.8k次,点赞8次,收藏41次。ICP 求解过程 ICP 有好多变种,ICP求解步骤可以分为以下部分: 1、选点 在模型或者场景中选取匹配点 2、匹配 将选取的一组点匹配另一组点 3、分配权重 给匹配的点对分配权重 4、去除错误匹配 根据单个匹配点对或者根据总体匹配情况去除错误匹配点_icp选点

android Dialog 自定义 继承Dialog基类_继承dialog类,新建自定义的对话框类dialogpro-程序员宅基地

文章浏览阅读2.7k次。只有一个Activity,当点击Button的时候就弹出这个自定义的Dialog里面的几张图都比较丑,我不多会美工,随便用powerpoint画了几张图,原理是一样的,先不计较这些。下面正入正题为了照顾到所有的码农,在些把所有的代码都贴出来新建工程在此就不贴出来了,只是为了方便大家的复制粘贴,取包名为com.and.mydialog,主Activity取名为MyDi_继承dialog类,新建自定义的对话框类dialogpro

交互式绘图_halcon 交互式绘图-程序员宅基地

文章浏览阅读418次。##交互式绘图from plotly.graph_objs import Scatter,Layoutimport plotlyimport plotly.offline as pyimport numpy as npimport plotly.graph_objs as go## 制作折线图N = 100random_x = np.linspace(0,1,N)random_..._halcon 交互式绘图

推荐文章

热门文章

相关标签