计算机视觉“奥斯卡”CVPR 2020宣布收录论文,百度精选22篇论文

近日,计算机视觉领域的“奥斯卡”CVPR 2020正式宣布了论文征集的结果。随着提交数量的急剧增加,接受率开始经历一个持续下降的过程。今年,在6656份有效提交的论文中,共收到1470篇论文,接收率约为22%,与去年25%的入学率相比,下降了3%。随着论文接受率的下降,中国科技企业接受的论文数量非但没有下降,反而有所增加。作为人工智能的代表企业,百度今年选择了22篇论文,比去年的17篇增加了5篇。< br>

近年来,CVPR蓬勃发展的重要原因很大一部分来自中国科技企业的贡献。在这次会议上,百度在22篇论文中被选中,涵盖了人脸检测的视野。识别、视频理解&许多热门的子领域,如分析、图像超分辨率、自动驾驶中的车辆检测、场景实例级分割等。也向国际领域展示了中国视觉技术水平的深厚积淀。除了收录几篇论文外,百度还将联合主办第二届影响数据学习研讨会和第四届媒体取证研讨会,由中国科学院和CVPR其他机构联合主办,与更多顶尖学者进行深入交流。百度为CVPR 2020:

人脸检测与识别

邮箱:最近在探索检测外脸的在线高质量锚点

百度学术查重

,针对人脸检测器使用锚点构建分类和坐标框架回归组合的多任务学习问题,有效的锚点设计和锚点匹配策略使人脸检测器能够在大姿态和大尺度变化下准确定位人脸。本文中,百度提出了一种在线高质量锚点挖掘策略HAMBox,该策略可以用高质量的锚点对异常的外部人脸进行补偿。HAMBox方法可以作为基于锚点的单步人脸检测器的通用优化方案。该方案在WIDER FACE、FDDB、AFW和PASCAL Face多数据集上的实验表明了其优越性。与此同时,该计划在2019年国际知名的宽面和行人挑战赛中以57.13%的地图赢得冠军。

faceescape:一个大规模的高质量3d facedataset和详细的可触发3d faceprediction

百度学术查重

本文发布了一个大规模的高精度3d人脸模型数据库faceescape,并首次提出了一种从单个图像预测高精度和可控3d人脸模型的方法。FaceScape数据库包含大约18,000个高精度三维面部模型。每个模型都包括一个基本模型、一个4K分辨率的位移图和纹理图,它们可以代表人脸极其精细的三维结构和纹理。与现有的公共3D人脸数据库相比,FaceScape在模型数量和质量上处于世界最高水平。在FaceScape数据库的基础上,本文还探索了一个具有挑战性的新课题:以单幅人脸图像为输入,预测一个高精度、表情可控的三维人脸模型。该方法的预测结果可以通过表情操作生成精细的人脸模型序列,生成的模型在新的表情下仍然包含逼真的细节三维结构据报道,FaceScape数据库和代码将在不久的将来免费发布,用于非商业性学术研究。

用于人脸识别的分级多样性注意网络

百度学术查重

目前主流的人脸识别方法很少考虑不同层次的多尺度局部特征因此,本文提出了一种分层金字塔式的多元化注意力模型当面部的整体外观发生巨大变化时,局部区域将发挥重要作用。最近的一些工作已经应用了注意力模块来自动定位局部区域。如果不考虑多样性,学习到的注意力通常会在一些相似的局部块周围产生冗余响应,而忽略其他具有辨别能力的潜在局部块。此外,由于姿势或表情的变化,局部块可能以不同的比例出现。为了缓解这些挑战,百度团队提出了一种金字塔式多样化关注模块,能够自动、自适应地学习多尺度多样化的局部表征更具体地说,开发了一个金字塔注意模块来捕捉多尺度特征。同时,为了鼓励模型关注不同的局部区域,开发了多样化的学习方法。其次,为了融合局部细节或来自较低层的小规模面部特征地图,可以使用分层双线性池来代替连接或添加。

目标检测与跟踪

关联-3d检测:用于3d点云对象检测的感知到概念关联

百度学术查重

目标检测技术是机器人和自主驾驶领域中最重要的模式识别任务之一。提出一种域自适应方法来增强稀疏点云特征的鲁棒性更具体地,来自真实场景的特征(感知域特征)与包含丰富细节信息的完整虚拟点云特征(概念域特征)相关联。这种领域自适应特征关联方法实际上是模拟人脑感知物体时的关联功能。该三维目标检测算法增强了训练过程中的特征提取能力,并且在推理阶段不需要引入任何额外的组件,从而使得该框架易于集成到各种三维目标检测算法中。基于点云的3D视频对象检测的

神经消息传递和注意时空转换器基于单帧点云的

百度学术查重

3D目标检测器通常无法处理目标遮挡、长距离和非均匀采样等情况,而点云视频(由多个点云帧组成)通常包含丰富的时空信息,这可以提高上述情况下的检测效果。因此,本文提出了一种端到端的在线三维点云视频目标检测器本文提出的支柱消息传递网络可以将点云顶视图下的非空网格编码成图节点,并在节点间传递信息,动态提高节点感受野。PMPNET能有效地将图形空间的非欧洲特征与有线电视新闻网的欧洲特征结合起来。在时空特征聚合模块中,还提出了时空注意机制来增强原始Conv-GRU层。空间注意机制在新的存储器上执行前景增强和背景抑制,时间注意机制用于对齐相邻帧中的动态前景对象3D点云视频目标检测器在nuScenes大型参考集中取得了领先的效果。

A用于有效在线多目标跟踪的统一目标运动和关联模型

百度学术查重

使用单个目标跟踪器(SOT)作为运动预测模型来执行在线多目标跟踪(MOT)是当前流行的方法,但是这种方法通常需要额外设计复杂的相似性估计模型来解决类似的目标干扰和密集遮挡问题。本文采用多任务学习策略将运动预测和相似性估计到一个模型中。值得注意的是,该模型还设计了一个三重网络,可以同时进行目标识别分类和排序。网络输出的显著特征使模型能够更准确地定位、识别目标和关联多目标数据。此外,提出了任务特定注意模块,以强调特征的不同上下文区域,并进一步增强特征,以适合SOT和相似性估计任务。该方法最终获得了低存储量(30M)和高效率(5FPS)的在线MOT模型,在MOT2016和MOT2017标准测试集上取得了领先的效果。

视频理解与分析

ACT BERT:学习全球-本地视频-文本演示

百度学术查重

受BERT自我监督培训的启发,百度团队进行了类似的视频和文本联合建模,并基于叙事视频对视频和文本的对应关系进行了研究对齐后的文本通过现成的自动语音识别功能提供,这些叙事视频是视频文本关系研究的丰富数据源。ActBERT增强了视频的角色特征,可以发现细粒度的对象和全局动作意图百度团队验证了ActBERT在文本视频片段检索、视频字幕生成、视频问题解决、动作分割和动作片段定位等许多视频和语言任务上的泛化能力。ActBERT明显优于最新的视频文字处理算法,进一步证明了其在视频文本特征学习中的优越性。

高效交互式视频对象分割的内存聚合网络

百度学术查重

本文的目的是设计一个快速交互式视频分割系统。用户可以基于一帧视频在对象上画一条简单的线,分割系统将在整个视频中分割对象。以前,交互式视频分割方法通常使用两个独立的神经网络来分割交互式帧,并将分割结果分别传输到其他帧本文将交互和传导集成到一个框架中,采用像素嵌入的方法。在视频中,每帧只需要提取一个像素嵌入,效率更高。此外,该方法使用创新的内存存储机制将以前交互的内容应用于每个帧并存储它们。在新一轮交互中,读取存储器中相应帧的特征图,并及时更新存储器该方法大大提高了分割结果的鲁棒性,在DAVIS数据集上取得了领先的结果

具有联合自监督临时域自适应的动作分割

百度学术查重

尽管在动作分割技术的完全监督领域中最近取得了进展,但是其性能仍然不足。一个主要的挑战是时间和空间变化的问题(例如,不同的人可能以不同的方式执行相同的动作)因此,本文采用未标记视频来解决这个问题。该方法是将动作分割任务重新设计成跨域问题,跨域问题主要针对时空变化引起的域差异为了减小这种差异,提出了“自监督时域自适应(SSTDA)”方法,该方法包括两个自监督辅助任务(二进制和序列域预测),以联合对齐的方式在时域中嵌入不同尺度的动态跨域特征空间,从而获得比其他域自适应(DA)方法更好的结果。在三个具有挑战性的公共数据集(GTEA、50沙拉和早餐)上,SSTDA远远领先于当前最新的方法,并且仅需要65%的标签训练数据来获得与当前最新方法相当的性能,这也表明该方法能够有效地利用未标记的目标视频来适应各种变化。

图像超分辨率基于

通道注意力的深度图超分辨率迭代学习随着深度信息应用范围的扩大,深度图像超分辨率问题引起了研究者的广泛关注。深度图像超分辨率是指在低分辨率深度图像的基础上获得高质量、高分辨率的深度图像。提出了一种深度图像的超分辨率方法,分析了低分辨率深度图像的生成方法,并提出了两种模拟低分辨率深度图像生成的方法:带噪声的非线性插值下采样生成方法和区间下采样生成方法

对于不同类型的低分辨率深度图像,本文采用以低分辨率深度图像为输入的迭代残差学习框架,以由粗到细的方式逐步恢复高分辨率深度图像的高频信息。同时,信道增强策略用于增强包含更多高频信息的信道在整个学习框架中的作用。此外,多阶段融合策略还用于有效地重用从粗到细过程中获得的有效信息。最后,通过TGV约束和输入损失函数进一步优化获得的高分辨率深度图像该方法能有效解决深度图像的超分辨率问题。与目前已知的方法相比,效果显著,优势明显。

车辆识别

3 d零件引导图像编辑用于精细分级的物体理解

百度学术查重

在自动驾驶场景中,对“特殊”状态车辆的准确感知对驾驶安全至关重要(例如,当车门打开时,乘客可能会下车,闪烁的尾灯意味着车道即将改变)为了解决这一问题,本文提出了一种新的数据合成(增强)方法,即通过对齐的组件级三维模型在二维图像中编辑车辆,自动生成大量车辆图像和语义标注结果,处于“特殊”状态(例如,车门打开、行李箱、发动机罩、闪烁的前灯、尾灯)根据生成的训练数据,本文设计了一个双向骨干网络,使模型可以推广到实际测试数据。与传统的模型渲染方法相比,该方法平衡了领域差异问题,更加轻量级和方便

为了验证该方法的有效性,本文构建了CUS数据集,对真实街道场景下的1400幅特殊状态车辆图像进行了标注。实验结果表明,本文提出的方法能够有效地检测出“特殊”状态车辆,在实例层次上分割整辆车,分割部件的语义,描述状态,对自动驾驶的安全决策具有重要意义。

神经网络结构搜索

GP-NAS:基于高斯过程的神经结构搜索

百度学术查重

通过深层神经网络的自动模型结构搜索,神经结构搜索在各种计算机视觉任务中超越了人工设计模型结构的性能本文旨在解决网络连接存储中的三个重要问题:(1)如何度量模型结构与其性能之间的相关性?(2)如何评价不同模型结构之间的相关性?(3)如何从少量样本中学习这些相关性?为此,本文首先从贝叶斯角度对这些相关性进行建模

首先,介绍了一种新的基于高斯过程的关联分析方法,并通过定制的核函数和均值函数对关联进行建模此外,可以在线学习均值函数和核函数,以实现不同搜索空间中复杂相关性的自适应建模此外,通过结合基于互信息的采样方法,可以用最少的采样次数来估计/学习GP-NAS的均值函数和核函数在学习了均值函数和核函数之后,GP-NAS可以预测任何模型结构在不同场景和不同平台下的性能,并从理论上获得这些性能的置信度在CIFAR10和ImageNet上的大量实验证明了算法的有效性,并获得了SOTA的实验结果本文提出的

bfbox是一种基于神经网络结构的搜索方法,同时搜索适合人脸检测的特征提取器和特征金字塔。动机是我们发现了一个有趣的现象:为图像分类任务设计的流行特征提取器已经验证了它们在常见目标检测任务上的重要兼容性,但是它们在人脸检测任务上没有达到预期的效果。同时,不同特征提取器和特征金字塔的组合并不是完美的正相关首先,本文分析了较好的特征提取器,提出了一个适合人脸的搜索空间。其次,提出了一种特征金字塔注意模块(FPN-注意模块)来加强特征提取器和特征金字塔之间的联系。最后,采用SNAS方法同时搜索出适合人脸的特征提取器和特征金字塔结构在多个数据集上的实验表明了BFBox方法的优越性。

结构设计

用于视觉识别的门控通道变换

百度学术查重

本文提出了一种用于深度卷积神经网络的常规且易于应用的变换单元,即门控通道变换(GCT)模块。GCT结合了规范化方法和注意机制,并使用轻量级和易于分析的变量来隐式学习网络通道之间的关系这些通道幅度变量可以直接影响神经元之间的竞争或合作行为,并且可以方便地与卷积网络本身的权重参数一起参与训练通过引入归一化方法,GCT模块比SE-Nets的SE模块轻得多,这使得在每个卷积层部署GCT成为可能,而不会使网络过于臃肿。本文针对几个基本的视觉任务,在几个大型数据集上进行了充分的实验,即基于ImageNet数据集的图像分类、基于COCO的对象检测和实例分割以及基于动力学的视频分类。在这些视觉任务中,GCT模块的引入可以带来显著的性能提升这些众多的实验充分证明了GCT模块的有效性。用于长尾视觉识别的

标记学习

标记隔离记忆实际场景中的

数据通常遵循“长尾”分布大量类别的数据较少,而少数类别有足够的数据。为了解决类别不平衡问题,引入了用于长尾视觉识别的类别隔离记忆结构首先,LIM增强了卷积神经网络快速学习尾部类别特征的能力通过存储每个类别的最重要类别特征并独立更新存储单元,LIM进一步降低了分类器偏差的可能性其次,本文介绍了一种新的用于多尺度空间特征编码的区域自关注机制为了提高尾类识别的通用性,有必要融合更多的特征。本文提出对局部特征地图进行多尺度编码,并融合背景信息。该方法配有线性模型和区域自我注意机制,在5个数据集上取得了最佳性能。

CVPR是计算机视觉领域的顶级国际会议。百度可以在CVPR保持多年的优势。它的背后是百度大脑,是百度人工智能技术积累和多年商业实践的大师。百度大脑人工智能开放平台已经对外开放了240个核心人工智能功能。除了视觉技术在国际上取得了许多突出的成就外,它的语音、人脸、自然语言处理、光符识别等技术也取得了显著的成绩,通话量居中国之首。未来,百度将继续完善和创新人工智能技术,从高端学术研究、前瞻性技术布局和行业深度应用等方面为全球科技发展做出贡献。

大家都在看

相关专题