人工智能应用于自动驾驶、智能交通、智能零售等场景时,经常需要识别和跟踪动态的人或物体由于遮挡、光照变化和尺度变化等一系列问题,目标跟踪一直面临着巨大的挑战。
最近,上塘的SiamRPN系列目标跟踪算法的SIAM RPN ++取得了新的突破,入选CVPR 2019(口语)。它在多个数据集上超过了10%,是SOTA(最有效的)算法。在
上方的动态图表中,红色的方框是暹罗+的跟踪效果,蓝色的方框是2018年ECCV UPDT的结果。可以看出,SiMarPn ++具有更好的跟踪效果,更稳定的跟踪效果和更精确的帧。从这个图中,我们还可以看到跟踪的一些挑战:光照的急剧变化,形状和大小的变化,等等。
目标跟踪有一个“特殊的大脑”——暹罗网络。简而言之,左右神经网络具有相同的权重,并且提取的特征是相似的。如下图所示:
经过几年的发展,上塘智能视频团队已经专注于双网络的目标跟踪算法技术,并发表了三系列总结研究成果的论文,这些论文都被国际知名的计算机视觉会议所采用。这三篇论文分别是为2018年CVPR奥运会挑选的暹罗人,为2018年欧洲通信会议赢得VOT研讨会冠军的达西亚人,以及刚刚为2019年CVPR奥运会挑选的暹罗人++人
您想知道目标跟踪的SOTA算法是如何改进的吗?汤堂君提出了三个系列的文章来解释,一个为你从浅到深。
第一张纸暹罗:在跟踪中引入检测算法
目标跟踪是指在视频的第一帧中确定目标的位置,并在后续帧中进行跟踪虽然双网络可以快速定位目标,但不能调整目标的框架和跟踪目标的形状。跟踪不仅仅是定位和比较,它和目标帧的回归预测一样重要(可以理解为目标范围)
SiMarpN将检测中的区域推荐网络引入跟踪中的双网络:双网络可以利用被跟踪目标的信息;区域推荐网络可以更准确地预测目标位置。通过两者的结合,SiamRPN可以进行端到端的训练,使得跟踪帧更加精确。
除了算法创新之外,SiamRPN还对数据施加影响,采用了更大的数据训练集Youtube-BB(约为VID的50倍),进一步提高了跟踪性能
结合了上述两项创新。基于基线算法SiamFC(卷积双网络),SiamRPN实现了五个以上的改进点(OTB100,VOT15/16/17数据集),并且还实现了更快的速度(160fps),更好的平衡精度和速度2018年CVPR接受的暹罗纸(聚光灯)
第二篇论文DaSiamRPN:改进训练数据集和增强识别能力
SiAmerpN取得了很好的性能,但其训练集主要来自VID和YoutbeBB,对象类别很少,只有20或30个类别,难以满足一般类别目标跟踪的需要。仅仅“知道”几十种类型的图像是不够的。
那么如何解决数据类别不足的问题呢?
我们知道COCO和ImageNet Det分别有80类和200类检测数据集,所以上塘智能视频团队尝试将这两个检测数据集引入系统。双网络的训练只需要图像对,不需要完整的视频,因此检测图像也可以扩展到跟踪训练数据。
,但在将检测数据集引入跟踪后,发现了一个新问题:该网络将响应所有语义样本,而不是只响应目标对象例如,让它跟踪一个人,但是当它遇到一把椅子时,它也会有很高的反应。因为在以前的训练模式中,阴性样本(与目标无关的样本)只有背景信息,这在一定程度上限制了网络的识别能力
研究是解决问题的过程。研究人员在DaSiamRPN中对该方法进行了改进,增加了一些语义否定样本对来增强跟踪器的区分能力,即模板和搜索区域在训练过程中不再是同一个目标。而是让网络学习辨别能力,在搜索区域找到与模板更相似的对象,而不是简单的语义对象
经过上述改进后,网络的辨别能力变得更强,检测分数变得更有辨别能力,因此可以根据检测分数来判断目标是否消失。基于此,DaSiamRPN可以将短期跟踪扩展到长期跟踪,在UAV20L数据集上比以前的最佳方法提高了6个百分点。
DASIARPN也包括在2018年ECCV大奖赛中,DASIARPN在2018年ECCV VOT车间赢得了实时锦标赛,比去年的锦标赛增加了80%。
第三篇论文暹罗网++孪生网络本身已经被“切断”。在深层网络中使用
以上的双网络对算法和训练数据集进行了改进。没有什么可以改进的吗?
否!还有。汤汤智能视频团队的研究人员也“刺伤”了这个孪生网络本身。以前的孪生网络是基于浅层卷积网络(如AlexNet),不能使用深层网络来提高跟踪算法的准确性。
但是deep network不能直接引入,否则会有不利影响-性能会大大降低在
引入深度网络之前,有必要缓解位置偏差问题。研究者建议在训练过程中加入“位置平衡抽样策略”来缓解这个问题,以便深层网络能够发挥其应有的作用。在
缓解了这个问题之后,深度网络可以用于双网络,这不仅可以跟踪更详细的信息(浅层网络特征),而且可以跟踪更多的语义信息(深层网络特征),并且通过使用多层融合信息来进一步提高性能
同时,本文还提出了一种新的连接组件——深度相关与之前的上行信道相关(后简称为UP)相比,小波变换可以大大简化参数量,平衡两个分支的参数量,同时使训练更加稳定,收敛更好。
为了验证上述内容,研究者们做了详细的对比实验。在常用的VOT和OTB数据集上,SiamRPN++获得了SOTA结果
还获得了VOT18长期跟踪的SOTA结果和一些最近开发的大规模数据集,如LaSOT、TrackingNet、SiamRPN++等
SimarpN ++论文也被CVPR 2019口语采用。有关详细信息,请参考论文“暹罗人++的演变与非常深的网络暹罗视觉跟踪”
此外,上塘科技智能视频团队还首次开通了目标跟踪研究平台PySOT,该平台包括目标跟踪SOTA算法SiamRPN++和SiamMask等。在https://github.com/STVIR/pysot可以访问开源地址
参考文献:
1 .李波,魏武,王强,张芳奕,梁军兴,接君燕,“SiAmerpN ++的演变:暹罗视觉跟踪与非常深的网络”(口头)在美国电气和电子工程师学会会议的计算机视觉和模式识别(CVPR) 2019.
2。郑竹,王蔷,李博,吴伟,阎俊杰,“注意干扰物的暹罗视觉目标跟踪网络”,欧洲计算机视觉会议(ECCV) 2018.
3。,阎俊杰,吴伟,郑竹,胡小林,“高性能视觉跟踪与暹罗地区建议网络”(聚光灯)在美国电气和电子工程师学会计算机视觉和模式识别会议(CVPR) 2018.
4。Luca Bertinetto,Jack Valmadre,Joo f . Henriques,Andrea Vedaldi,Philip H. S. Torr
“用于目标跟踪的全卷积暹罗网络”,ECCV研讨会2016.
5。古塔姆·巴特、乔金·约翰兰德、马丁·达内尔詹、法哈德·沙赫巴兹·汗、迈克尔·费尔斯伯格。“揭示深度跟踪的力量”欧洲计算机视觉会议(ECCV) 2018.