技术动态 > 正文
最精准人脸数字模型 任意2D照片转换逼真3维人脸
2017/5/3 08:49   36氪      关键字:模型,lsfm      浏览量:
现在,伦敦帝国理工学院(ICL)的计算机科学家 James Booth 和同事开发了一种新的方法,可以自动构建 3DMM,并使其能够融入更广泛的人脸,比如不同种族的特征。

伦敦帝国理工学院的研究人员开发了一种新的系统,能自动对各种族、年龄的人脸进行准确的 3D 建模。他们还建立了一个大规模人脸扫描数据库,用于训练这个系统。实验证明,该系统比当前常用的最好模型表现优异许多,可以将任意角度拍摄的 2D 快照生成逼真的 3D 人脸。Science 对此作了报道,标题中提到“计算机科学家构建了迄今最精准的人脸数字模型”。(题图即为新模型随意生成的一些人脸。)

如果你用过智能手机应用程序 Snapchat(译注:类似国内美图秀秀),你可以将自己的照片变成迪斯科熊,或者将你的脸和另一个人的脸融合在一起。现在,一组研究人员已经创造出当前最先进的 3D 人脸建模技术。使用这一系统不仅可以改善视频游戏中的个性化头像、提升人脸识别的安全性——当然,也能让你拥有更好的 Snapchat 滤镜。

计算机处理人脸时,有时会依赖一种所谓的“3D 变形模型”(3DMM)。这一模型代表了一个平均人脸,但同时也包含了与这一平均值常见的偏差模式信息。例如,如长了一个长鼻子的脸也可能有一个很长的下巴。鉴于这种相关性,计算机可以在不将有关你脸部全部表征信息都存储下来的情况下,只列出几百个数字描述你的脸与平均人脸的偏差,就能够生成专属于你的面部图像了。不仅如此,这些偏差还包括大致的年龄、性别和脸部长度等参数。

但是,这样也有一个问题。因为世界上的人脸千变万化,要将所有人脸与平均人脸的偏差都存储下来,3DMM 需要集成许多面部的信息。目前为止所采用的方法是扫描大量人脸,然后人工仔细标记所有的特征。也因此,目前最好的模型也只是基于几百张人脸——大部分还都是白人,而且模型在模仿不同年龄和种族人脸方面的能力十分有限。

结合三种算法,全自动精准人脸 3D 建模

现在,伦敦帝国理工学院(ICL)的计算机科学家 James Booth 和同事开发了一种新的方法,可以自动构建 3DMM,并使其能够融入更广泛的人脸,比如不同种族的特征。这种方法有 3 个主要步骤。首先,一个算法自动对人脸扫描图像做标记(landmnrk)——将鼻尖和其他点打上标签。然后,另一种算法根据标记对所有扫描图像进行排序,并将其组合成一个模型。最后,第三个算法检测和删除无用(bad)的扫描图像。

没有参与这项研究的英国约克大学计算机视觉研究所的 William Smith 说:“这项工作真正巨大贡献在于他们展示了如何将这一过程全面自动化。”

德国达姆施塔特弗劳恩霍夫计算机图形研究所(Fraunhofer Institute for Computer Graphics Research in Darmstadt, Germany)计算机科学家 Alan Brunton 也没有参与这项研究。Brunton 评论说,在人脸上做标记实际上是很难的事情,“你以为打标签就是点一下鼠标很容易,但嘴角究竟在哪里很多时候是说不清楚的,所以即使是人工打标签也会发生错误。”此外,Brunton 还表示,在很多张人脸上打标签是十分乏味又无聊的工作。

在 3DMM 中有两种用于建立密集对应(dense correspondence)的技术。上排是在 UV 空间(通常是网格状和纹理信息的圆柱形投影)中建立的人脸对应。每个网格的 UV 图像都会注册到模板 UV 图像,随后的采样会生成一个与模板对应的混合图形(mesh)。下排展示的是非刚性迭代最近点(NICP),NICP 可以迭代使用,不断将 3D 模板变形从而匹配每个网格,完全避开 UV 空间。来源:Booth, J., Roussos, A., Ponniah, A. et al. Int J Comput Vis (2017). doi:10.1007/s11263-017-1009-7

创建大规模人脸模型 LSFM,包含不同种族、年龄的人脸

在建立了这样一个自动化 3D 人脸建模系统后,Booth 和他的同事还将系统应用到近 10,000 张人口统计学得到的多样化人脸扫描图像上。这个扫描是整形外科医生 Allan Ponniah 和 David Dunaway 在伦敦一家科学博物馆里做的,他们做这些扫描的目的是希望提升重建面部手术的质量。

做完扫描后,Ponniah 和 Dunaway 联系了 ICL 计算机科学家 Stefanos Zafeiriou,想让后者帮助他们分析这些数据。于是,Zafeiriou 也参与到项目中,将 Booth 他们的算法应用于这些扫描图像,创建了他们所谓的“大规模人脸模型”(large scale facial model,LSFM)。

在与现有模型的对比测试中,LSFM 更准确地表示人脸,现在论文的预印版已经在 Springer 旗下的International Journal of Computer Vision 在线公开发表,下期就会出版。

在一项对比试验中,他们用一张孩子的照片创建这个孩子的 3D 人脸模型。使用 LSFM,模型看起来与照片上的孩子很像。但是,使用当前最常用一个变形模型——这些模型的数据是完全基于成年人的——生成的模型看起来像一个跟照片上孩子无关的成年人。

LSFM-global 形状模型的可视化呈现:最左边是平均形状(μ),后面依次是最初的 5 个主要组成部分,后面的每张脸都从平均脸上增加或减去了某些特征。来源:Booth, J., Roussos, A., Ponniah, A. et al. Int J Comput Vis (2017). doi:10.1007/s11263-017-1009-7

Booth 和他的同事还有足够的扫描图像,为不同的种族和年龄的人创造更具体的变形模型。不仅如此,他们的模型还能根据面部形状自动将人脸按年龄分类。

论文:大规模 3D 变形模型

    摘要

我们提出了一个大规模的人脸模型(LSFM),这是一个3维形变模型(3DMM),从9663个独特的脸部标志中自动地搭建。研究者介绍,据他们了解,LSFM 是迄今为止被构建出来的最大规模的形变模型,包含了从一个巨大的人口变量中提取的统计信息。为了搭建出这样一个模型,研究者创造了一个全新而且全自动且稳定的形变模型搭建管道,通过对目前最好的密集(dense)通信技术进行评估来获得信息。

训练 LSFM 的数据集包括关于每个主题的丰富的人口统计信息,不仅可以构建全球3DMM模型,还可以构建针对特定年龄,性别或族裔群体的模型。研究者利用所提出的模型,从3D形状单独执行年龄分类,并重建低维模型空间中的噪声样本外数据。此外,他们还对构建的3DMM模型进行系统分析,展示其质量和描述能力。

研究提出的深度定性和定量评估表明,他们所提出的3DMM取得了最先进的结果,大大优于现有模型。最后,为了造福研究社区,他们公开了所提出的自动3DMM建造管道的源代码,以及构建的全球3DMM和根据年龄,性别和种族量身定制的各种定制模型。

全自动构建大型 3DMM 流程示意图。(1)基于综合呈现视图进行自动标记。这些视图注册了像素级的形状信息,因此可将 2D 标记(landmark)可信地投影回 3D 表面。(2)在自动标记的引导下,3D 模型不断迭代变形,以精确匹配数据集的每个 3D 面部网格。(3)构建初步的全局 PCA,(4)自动删去错误的对应。(5)由剩余的干净数据构建 LSFM 模型。来源:Booth, J., Roussos, A., Ponniah, A. et al. Int J Comput Vis (2017). doi:10.1007/s11263-017-1009-7

为MeIn3D数据集的特定子集产生定制纹理模型。来源:Booth, J., Roussos, A., Ponniah, A. et al. Int J Comput Vis (2017). doi:10.1007/s11263-017-1009-7

训练 AI 系统,将 2D 人脸快照精准转换为 3D 模型

Booth 团队现在已经将把新的模型投入使用。在另一篇论文中,也是他们投稿 CVPR 2017 的论文 Face Normals “in-the-wild” using Fully Convolutional Networks 当中,研究人员利用 LSFM 合成的 100,000 张人脸训练了一个人工智能程序,将任意(casual)2D 快照转换为精确的 3D 人脸模型。研究人员表示,这种方法可以用于查看照片上犯罪嫌疑人从另外的角度看上去是什么样子,或者 20 年以后脸变成什么样了。至于更偏公众向的应用,你也可以使用这一系统根据历史人的肖像画制作 3D 的这个人物出来。

从左到右:Photoface,ICT-3DRFE,3D变形模型拟合(fitting),使用作者提出的 3D变形模型合成的图像。下排是每个数据集相关的 ground truth normal。来源:Trigeorgis G.et al., Face Normals “in-the-wild” using Fully Convolutional Networks

LSFM 也有医疗应用的潜力。如果有人因故没了鼻子,这项技术可以根据面孔其他部分的特征,帮助整形外科医生确定新的鼻子应该长成什么样子。

此外,面部扫描也被用于识别可能的遗传疾病,例如威廉氏症候群(见注释),这是一种与与心脏问题相关的病症。更好的人脸模型及其变化特征数据可以提高这种测试的精度。Ponniah 表示,新模型“打开了好几个更多的门”。

注释:威廉氏症候群,一种罕见的神经发育异常,患者鼻根较低,拥有像小精灵的外观,且脸部特征随年龄增长而更加明显。大部分病人智能不足但语言能力较正常人好,行为举止异常兴奋且不怕生。症状还包括心血管疾病如主动脉瓣上狭窄与高血钙,此病在描述尚不完全时曾被部分医师称为自发性婴儿高血钙(idiopathic infantile hypercalcemia)。

论文:使用全卷积网络还原“in-the-wild”人脸

    摘要

本研究中,我们提出了一种数据驱动型的方法,解决如何从一张单独的浓缩照片中预测整个一般平面,特别聚焦于人脸。论文创造了一种新的方法,探索将可用的人脸数据集用于数据库建设的可行性。研究者特意设计了一个深度卷积神经网络来评估人脸“in-the-wild”状态下的正常表面。还训练了一个全卷积的网络,能够精确地从多样化的表情的图片中还原正常表情。我们比较最先进的 Shape-from-Shading 和 3D 重建技术,结果表明我们提出的网络可以大幅度恢复更正确和逼真的人脸。而且,相比其他现有的面部特异性表面恢复方法, 由于我们网络的完全卷积性质,我们不需要解决明确的对齐问题。

使用 Helen 数据集,对人脸正常估计和表面重建示例。最左边的是作者提出的,后面两个依次是 IMM(注释:由丹麦技术大学创建的人脸库,包含了 240 张不同姿态、表情、光照的人脸图像)和 Marr Revisited。

部分表面重建示例。这些都是从由 300W 人脸数据集 “in-the-wild” 生成的。上图展示了作者提出的网络能广泛适用于多种不同人脸和表情。最左边是 300W 数据集的原始图像。中间一列是 3D形状重建,右边一列是将图像中采样到的纹理转换为形状。来源:Trigeorgis G.et al., Face Normals “in-the-wild” using Fully Convolutional Networks

未来研究及计划

研究者接下来的计划是在模型中加入面部表情相关的数据,这样无论是嘲笑还是哭泣,任何形式的人脸模型都能识别。Zafeiriou 表示,他们现在正回到博物馆,扫描更多的游客的人脸信息。

微信扫描二维码,关注公众号。