-
梅林:计算机视觉大赛 中国团队全面获胜亮点在哪里?
关键字: 计算机视觉大赛ImageNet ILSVRC2016图像识别ImageNet日前,全球最权威的计算机视觉竞赛ILSVRC2016落下帷幕,中国学术界和工业界团队包揽了多项冠军。具体成绩如下:
CUImage(商汤科技和港中文):标检测第一;
Trimps-Soushen(公安部三所):目标定位第一;
CUvideo(商汤和港中文):视频中物体检测子项目第一;
NUIST(南京信息工程大学):视频中的物体探测两个子项目第一;
HikVision(海康威视):场景分类第一;
SenseCUSceneParsing(商汤和港中文):场景分析第一。
今年的竞赛和往年相比有什么亮点呢?是否意味着中国团队在世界计算机视觉的舞台将越走越远?
想必很多人从未听说过计算机视觉大赛,在看到这则消息时除了感受到中国技术团队在比赛中取得了优异佳绩之外,对于这些成绩各有什么意义也是一头雾水。有鉴于此,观察者网专访公安部第三研究所物联网技术研发中心梅林主任,为大家解读这些成绩代表着什么,又各有什么意义。
观察者网:除了行业内人士外,想必很多人从未听说过Imagenet比赛,能否说说这个比赛到底是什么样一个地位,又为何被称为全球最为权威的计算机视觉大赛?
梅林:ILSVRC(ImageNet Large Scale Visual Recognition Challenge)竞赛是基于ImageNet图像数据库的国际计算机视觉识别竞赛。2010年开始举办,逐渐发展为国际计算机视觉领域受关注度最大、水平最高、竞争最激烈的竞赛。之所以成为全球最为权威的计算机视觉大赛,和其数据规模空前、历年来吸引力众多工业巨头和知名高校参与并且不少参赛队伍提出的创新方法都直接推动了相关技术的应用有关。历年来,工业巨头如谷歌、 微软、Facebook等,以及来自世界知名高校研究单位,如牛津大学、加州大学伯克利分校、多伦多大学、东京大学、阿姆斯特丹大学、香港中文大学、北京大学、中国科学院自动化所等均多次参加该竞赛。竞赛主办方会在每年的国际顶级计算机视觉大会ECCV(Europeon Conference on Computer Vision)或ICCV( IEEE International Conference on Computer Vision) 举办专题论坛,交流分享参赛经验。特别是2012年多伦多大学Geoffrey Hinton带领的团队,首次在大规模数据集上使用深度神经网络模型将竞赛中图像分类任务的成绩大幅度提高,引起了学术界的空前关注。基于该竞赛数据训练的模型,被验证具有很好的泛化能力,可以大幅提升各项计算机视觉任务的性能。因此该竞赛一直得到学术界和工业界的积极参与和高度关注。
观察者网:贵单位取得了不错的成绩,能简单地介绍下么?
梅林:参赛团队Trimps-Soushen来自公安部第三研究所,至今为止也是国内外公安系统唯一参赛的团队。公安部第三研究所是公安部直属综合性科研机构,主要从事信息网络安全、公安信息化等领域的规划设计、产品研发和检测服务工作,近年来一直走在创新型公安研究所的前列,首席科学家胡传平所长提出的视频结构化描述(VSD)、网络身份识别系统(eID)、车辆电子身份标识(RFID)和警用数字化单兵(PDD)的公安物联网4D战略,起到了引领行业发展的作用。Trimps-Soushen团队全部来自公安部第三研究所物联网技术研发中心,物联网中心作为国家视频监控规划应用的国家队,近年来一直按照“战研结合”的思路,围绕一线的实际需求开展研究工作,尤其是围绕视频警务、移动警务和公安大数据三大战略方向,致力于新一代视频监控信息化、移动警务信息化及公安大数据的顶层设计、关键技术研究、产品研发和标准化工作。包括人证合一核查核录、动态人脸识别、卡口图片车辆信息结构化描述、以图搜图等在内的相关产品已经成功应用在刑侦、治安、交通、反恐等领域,起到良好的社会经济效益,是平安中国建设的主力军。
我们今年是第四次参加这个竞赛,本次参加了所有5项任务中的4项比赛,取得了前所未有的突破,在最传统的目标分类和目标定位任务中荣获冠军!其中,在仅使用标准数据的情况下,目标分类任务位列国际第一,目标定位任务位列国际第一,目标检测任务、视频目标检测任务和场景分类任务均位列第三。目前已获邀前往荷兰参加欧洲计算机视觉大会(ECCV2016),并做专题报告,届时将与国际顶级的研究团队进行深入交流。
观察者网:目标检测考验哪方面的技术?又有怎样的意义?
梅林:目标检测任务是计算机视觉领域一项比较难的任务,其任务是将图像中多个物体类别识别出来,同时还要定位到其具体位置。在真实的自然图像中,目标视角、光线、尺度等变化,以及遮挡、复杂背景等都给任务带来很大的挑战。目标检测的任务是一项重要的基础技术,无论是在科研还是在实际应用中都具有重要意义。实际问题很少是单纯分类或者定位的应用,而往往是包含了复杂背景和多个目标的场景,在这些场景中进行目标检测是许多其他任务的基础。
目标检测
观察者网:在目标检测中分为两个子任务,任务A是用提供的数据进行目标检测,任务B是使用附加训练数据进行目标检测,这两个任务有什么区别?
梅林:任务A是指只能用竞赛举办方指定的数据进行模型训练等工作,不能用指定范围外的数据参与到任务中的任何一个环节。任务B是指除了官方指定的数据外,参赛团队可以使用任何数据进行模型训练等工作,只要参赛团队认为这些数据对模型具有提高作用,即可使用。
观察者网:目标定位考验哪方面的技术?能说说目标定位的作用么?
梅林:目标定位一般是对图像中主目标进行类别识别,并给出该类目标的具体位置。目标定位适用于图像中具有显著主目标的情形,它是图像分类任务的延伸。而图像分类作为ILSVRC中最传统的比赛项目,对整个计算机视觉领域的进步起到了巨大的推动作用。历届竞赛中获得优胜的模型(比如Alexnet、VGGNet、GoogLeNet、ResNet等)无不是在图像分类中得到验证。目标定位/分类是一项重要的基础技术,也是历年竞赛中备受关注的一项任务。今年竞赛中,Trimps-Soushen团队首次将目标定位的错误率降至8%以内,也是唯一一支达到这个成绩的参赛队。
目标定位
观察者网:视频中目标物体检测分为四个子任务,分别是基于给定训练数据进行的视频中的目标物体检测、使用附加训练数据进行的视频中的目标物体检测、给定训练数据进行的视频中物体检测和追踪、附加训练数据进行的视频中目标物体检测和追踪,能说说这四个子任务各有什么含义么?
梅林:视频中目标检测任务是去年新增的任务之一,其特点是数据量大,类别少。无论是训练数据、验证数据还是测试数据,数量均非常大,同时由于是视频数据,数据的冗余量也大。在此任务中,基于给定训练数据进行的视频中的目标物体检测子任务,是指参赛团队只使用举办方指定的数据进行模型训练、验证等工作,不使用官方指定数据的任何额外数据参与到工作中。使用附加训练数据进行的视频中的目标物体检测子任务,则是说,参赛团队可以使用官方指定的数据之外的数据参与训练、验证等工作,只要参赛团队认为对其模型具有帮助作用,均可使用。给定训练数据进行的视频中物体检测和追踪子任务和附加训练数据进行的视频中目标物体检测和追踪子任务,是今年新增的任务,目的是不仅要考察算法对单帧图像的目标检测能力,同时也要考察算法在较长时间(多帧)内对目标的跟踪能力。和前面两项任务中一样,该两项任务中也是针对数据使用情况进行的区分。
视频中的目标检测
-
本文仅代表作者个人观点。
- 请支持独立网站,转发请注明本文链接:
- 责任编辑:孙武
-
“特朗普政府已通知盟友,将停止参加欧洲未来军演” 评论 41默茨急剧掉头,“这是典型的‘尼克松访华时刻’” 评论 160对欧洲“感到愤怒”,“特朗普想把驻德美军全撤走” 评论 176特朗普威胁“不谈就打”,伊朗最高领袖表态 评论 322美媒哀叹:所谓的“西方”,已荡然无存 评论 159最新闻 Hot
-
欧洲多国惊觉:被美国掌握一个“致命开关”
-
对欧洲“感到愤怒”,“特朗普想把驻德美军全撤走”
-
纽约发生多起山火,纽约州进入紧急状态
-
特朗普威胁“不谈就打”,伊朗最高领袖表态
-
“乌克兰半瞎了,欧洲急了”
-
尹锡悦获释第二天,首尔10万民众集会游行
-
美媒哀叹:所谓的“西方”,已荡然无存
-
“1500亿欧元贷款计划,法德又吵起来了”
-
“看看中国高铁再看美铁,尬死了”
-
特朗普怒砍哥大4亿美元:打击“反犹”不给力啊
-
“特朗普想重新划定美加边界”
-
“鲁比奥与马斯克干架了”,特朗普忙灭火
-
“因为我是美国人,在台积电被骂又懒又蠢”,下月开庭
-
“普京愿意,但有条件”
-
“最大受害者是波音,中国要么用国产,要么买空客”
-
特朗普:和乌克兰打交道比和俄罗斯更难
-