技术动态 > 正文
人脸识别界的“世界杯”榜单出炉 中国参赛团队位列第二
2017/7/21 09:54   新智元      关键字:识别,人脸,数据,竞赛,训练,微软,团队      浏览量:
据微软技术与研究院(Microsoft Technology and Research)首席研究员/研究经理张磊博士介绍:首先,MS-Celeb-1M 的目标是识别百万人脸,是计算机视觉内最大规模的分类问题,并且其中一个人物对应一个 entity,绑定了知识库,并且知识库中提供了每个人的职业,性别等等丰富的信息,从而解决了人物重名的问题,可以从识别达到认知。“最开始我们是面向学术界做的这个数据集,”张磊告诉新智元:“但后来很多工业界的同行也表示我们的数据集对他们的研究工作很有帮助。”

业界公认人脸识别“世界杯”的微软百万名人识别竞赛 MS-Celeb-1M 结果出炉:百万名人识别子命题,Panasonic-新加坡国立大学合作夺得第一,CIGIT和中科院合作队伍与美国东北大学位列第二第三。MS-Celeb-1M 数据集有效填补了工业界跟学术界的空白,通过有针对的评估指标设计,竞赛实现了人脸“端到端”识别,有助于参赛模型投入现实应用。最后,竞赛识别单一训练样本的名人子命题的冠军团队成员分享了他们的思路方法和参赛经验。

2016年6月,微软向公众发布了大规模现实世界面部图像数据集MS-Celeb-1M,含有10万个名人的约1000万(10M)张脸部图片,鼓励研究人员开发先进的人脸识别技术。

同时宣布的还有MS-Celeb-1M百万人脸识别挑战赛。参赛者需要根据(但不限于)挑战赛提供的数据集作为训练数据,开发图像识别系统,从脸部图像中识别100万个名人。

近日竞赛结果公布,其中:

百万名人识别子命题:

a,无限制类(可以自由使用外部数据),Panasonic-NUS(新加坡国立大学)获得第一名,中科院重庆绿色智能技术研究院(CIGIT)与中科院合作团队第二,美国东北大学第三;

b,有限制类(只使用竞赛提供数据),第一名是 Beijing Orion Star Technology Co., Ltd.

识别单一训练样本的名人子命题:

a,无限制类(可以自由使用外部数据),第一名是 NUS-Panasonic

b,有限制类(只使用竞赛提供数据),第一名是美国东北大学

优胜团队在技术上都采用了基于深度学习的方法,以及网络大数据。从中可以看出,网络大数据是发展趋势,多模型融合是现在各个比赛得奖的利器。

微软百万名人识别竞赛MS-Celeb-1M:填补学术界与工业界的空白

人脸识别竞赛有很多,微软的百万名人识别挑战赛与已有的竞赛有什么不同?

据微软技术与研究院(Microsoft Technology and Research)首席研究员/研究经理张磊博士介绍:首先,MS-Celeb-1M 的目标是识别百万人脸,是计算机视觉内最大规模的分类问题,并且其中一个人物对应一个 entity,绑定了知识库,并且知识库中提供了每个人的职业,性别等等丰富的信息,从而解决了人物重名的问题,可以从识别达到认知。“最开始我们是面向学术界做的这个数据集,”张磊告诉新智元:“但后来很多工业界的同行也表示我们的数据集对他们的研究工作很有帮助。”

深度学习算法的进步使视觉识别在过去几年中取得了很大的进步。但是,学术上的创新和实际投入生活使用的智能服务间仍然存在巨大差距,主要因为:

(1)学术研究缺乏现实世界的大规模数据,从而阻碍了有效训练和评估算法;

(2)缺乏公开透明的平台进行公正、高效的评估,使识别结果可复现,容易获得。

目前,几个主要的人脸识别数据集,公开获取的(下图绿色)有:

    LFW 是美国马萨诸塞大学的一个数据集,规模在万这个级别(13k);

YFD 是耶鲁人脸数据集,由耶鲁大学计算视觉与控制中心创建,有不同的光照、表情和姿态的变化,但数量较少;

CelebFace 含有 20 多万张图片;

CASIA WebFace 是中科院自动化研究所的几种数据集,里面包含掌纹、手写体、人体动作等 6 种数据集;需要按照说明申请,免费使用。接下来,Facebook 和谷歌的数据集规模虽大,但都无法公开获取。这些无不体现了存在于学术界和产业界之间的一道明显的鸿沟。

因此,微软技术与研究院的郭彦东博士等人才在2016年提出了MS-Celeb-1M基准测试MS-Celeb-1M虽然也是名人脸部数据,但使用从网络上搜集的一个名人所有可能收集到的脸部图像作为训练数据。基于知识库的丰富信息有助于消除歧义,并提供丰富的人物信息,提高识别准确性,从而贴近于各种现实应用,比如图像字幕和新闻视频分析、舆情分析等等。有效弥补了学术界与产业界之间由于数据造成的模型、算法等差距。

竞赛指标设计:实现端到端识别,有助于现实应用

在竞赛指标设置方面,微软的MS-Celeb-1M也针对现有竞赛做了填补。

目前,数据能够公开获取的比较著名的人脸识别竞赛有 LFW 和 MegaFace。LFW 的规模在万这个级别,由于训练数据不共享等原因,近年来已经呈现出容易过拟合的趋势,而且微软的研究人员发现,LFW 的最佳算法往往难以完全复现。此外,LFW 竞赛是比对两张图像的相似度,距离实际应用还有一定距离。

MegaFace 是美国华盛顿大学发布的数据集,内容是几十位互联网明星照片加上普通人的一百万左右的图片的干扰数据。但是,MegaFace 的目标设定有所不同,相比“识别”,更倾向于“在大噪声情况下的人脸验证”(face verification)。具体来说,MegaFace 竞赛的目标则是在上百万人中识别出特定的几十人。几十个人对人脸识别性能评估作用很难非常全面,与实际应用尚有一些距离。此外,MegaFace 的测试数据没有经过人为标注,含有噪声。测试数据的噪声在衡量高性能的模型时干扰很严重。

为此,微软调整了MS-Celeb-1M的评估指标。竞赛的输入是一张图片,输出是一个人名,十分贴近现实中人脸识别的应用场景——判断一张人脸图片是否是某个具体的人。

“我们这个任务是端到端的任务,具体的说,任务是从图像到知识库中的名人识别码。这样的话,很自然而然引入了很多有价值的研究问题,比如如何有效从网络有效获取数据(我们允许自己增加训练数据),如何利用好有噪音的标注训练数据(规模巨大,超过人工标注的成本核算),如何处理海量数据(目标一百万人,千万级别的图),当有些人的数据特别少,数据不均衡的时候怎么办等等,这些都是 CV 里面有意思的问题。”郭彦东说。

参赛队伍的目标是识别出混百万人中的1000个人,但具体是哪1000人参赛者并不知道。因此,为了实现尽可能高的召回率和准确度,参赛模型需要覆盖尽可能多的人,乃至全部百万规模。这就对模型提出了很高的要求。此外,微软的研究团队非常仔细地人工标注了测试集合,在测试集合上保证了非常高的准确度,这样对衡量高性能模型以及模型在几乎100%的准确率下的表现(recall@high precision)就非常有效。

不仅如此,MS-Celeb-IM 百万名人识别竞赛还设有“小样本学习”(lowshot learning)环节,这里特别关注当有些人的训练数据很少的时候,怎么把模型效果做上去。

在这里,参赛队伍需要从2万1000人中识别1000人。但是,这1000人都每个人都只有 1 张用于训练的图片。在很多情况下,比如公安人脸识别,犯罪嫌疑人只有1张模糊的或有遮盖的图片,要将其在茫茫人海中找出来,就属于小样本学习。

这在一定程度上倡导了当今人工智能的另一个垂直方向:从有限样本中学习视觉概念。

微信扫描二维码,关注公众号。