技术动态 > 正文
视觉技术演进:2D到3D平滑过渡 三维应用需求爆发
2019/1/25 09:11   21世纪经济报道      关键字:三维,视觉技术,3D      浏览量:
在1月23日举行的3D传感&人工智能前沿科技论坛上,多名业内专家指出,在三维相关数据库、人才仍存在较大缺口的当下,业内研究更多的方向是基于如今的二维数据构建三维模型并逐步进行技术优化。同时,在真正的3D视觉传感器量产商用之前,业界对三维识别的应用仍存在一定分歧。

面向三维世界的战役早已打响,苹果只是加速了其应用进程。

在1月23日举行的3D传感&人工智能前沿科技论坛上,多名业内专家指出,在三维相关数据库、人才仍存在较大缺口的当下,业内研究更多的方向是基于如今的二维数据构建三维模型并逐步进行技术优化。

从3D视觉整体技术发展而言,包括硬件模组、技术、数据库等方面,均存在一定的优化空间,而世界范围内都面临的巨大人才缺口亦是不可忽视的问题。

回到技术本身,清华大学自动化系副教授刘烨斌在演讲中指出,真实世界视觉信息的采集、数字化记录与重建是当前视觉媒体技术发展的核心关键,随着iPhone X等智能手机新增加实时深度探测模块,动态场景的三维重建变得更加便捷。目前,动态场景的三维重建主要面临精准性、便捷性和实时性三方面的挑战。

应用方面而言,三维世界的当下,对于3D视觉的需求其实极为庞大,国防科技大学电子科学学院讲师郭裕兰就表示,未来3D智能感知与理解在自动驾驶、机器人、VR/AR以及遥感等领域都将有大量应用。

从2D到3D

三维世界中,有更多场景体验诉求在从平面走向立体,如何从二维世界平滑走向三维,是自上世纪八十年代就开始研究的议题。只是苹果将3D传感器应用于手机端之后,这种诉求在C端看起来被快速放大。

当然,这并不意味着从二维到三维的演进会是一场彻底的淘汰,至少在目前情况下,3D视觉的发展仍在逐步迭代演进过程中,而2D在其间产生的作用不容忽视。

北京航空航天大学计算机学院长聘副教授黄迪指出,两种技术如何更好融合在一起,提供更好的解决方案是一个主要议题。他认为,目前比较有前景的一个方向是,2D和3D获取的信息各有优势,二者存在互补性。比如面部的立体器官眼、鼻、嘴在3D信息中属于最有区分度的信息,但平面的2D无法进行区分。因此二者信息不仅是直接融合,业界更应关注的方向,是在各自不同的步骤上发挥各自优势。

四川大学计算机学院副教授赵启军有相同看法,他在演讲时表示,比如基于安防监控的数据,相关公安部门积累了大量多维度的二维信息,3D技术短期内尚不能快速取代2D,那么如何将三维和二维进行互补,是他所在团队的主要工作。“我们的工作成果核心是基于二维图像,合成建设出三维图像。基于这些二维图形作为回归的依据,再进行纹理处理,可以得到多视角的图像。做形状恢复、纹理拼接,纹理完整贴合在一张人脸上,从而得到带有纹理特征的三维人脸。”

至于3D传感的发展路径,黄迪向21世纪经济报道记者解释道,与2D的逐步迭代路径类似,3D视觉的发展,最先也要从包括摄像头在内的整体传感器这类硬件方面开始。在像素逐步升级的过程中,保证图像信息采集的精度和速度。

这意味着对国内3D传感器硬件生产制造商的诉求,但与此同时由于三维数据是一个更加庞大的信息集合,因此对搭载在硬件的“端”侧计算能力同样有所要求,则与硬件搭载的芯片有莫大关系。

因此论坛现场,多名专家均指出,包括奥比中光在内的三维数据采集设备制造商,一定程度推进了三维人脸分析技术的进一步发展和应用。这令以较低成本、快速编辑获取高精度三维数据成为现实。

“随着硬件的成熟,获取的数据库也在不断丰富,此后运算模型和方法自然会逐步变多。等到硬件、计算模型到数据库都逐步完善后,才能得到一个完美的替代方案。但不能等到完全成熟再用,这必然是出来一些技术就应用在合适场景中,再不断迭代的过程。”黄迪如此告诉记者。

从二维到三维过程中,数据运算量有多大?黄迪向记者举例道,“二维的图像数据是按照矩阵格排序,其不同数据采集点的位置是确定的。但3D技术采集到的数据,是一堆无序的点状信息,如果不做网格化,实际上这些点之间并不会自发形成位置关联。即使使用卷积技术,数据点之间无法辨别相互之间的位置关系,就无法进行网格搭建,计算无法进行。如果想要计算,就需要用额外的代价形成一种组织方式,结构化之后才可以计算。”当然,他指出,如果只是简单配合2D图像,仅把3D作为防伪插件,其做法则相对简单。

应用战役打响

在真正的3D视觉传感器量产商用之前,业界对三维识别的应用仍存在一定分歧。

黄迪表示,2D视觉的技术已经很成熟,造成此前业界对3D视觉的解决方案存在一定争议。“苹果带来的face ID引发应用上不小的革命,这宣告3D视觉已经可以带来定制化产品的应用。”这也是包括他在内的3D视觉业者在思索的问题:2D识别已经很好,为什么要做3D?

实际上,目前的2D视觉技术还存在一些难以解决的问题。最直观就是夜间无法实现识别。但3D传感器的硬件本身配备红外灯,解决了这一难题。

更关键的改善在于姿态变化识别方面。虽然2D识别已经配备一些关键点检测,但该项技术通过对信息的重新加工,会对原有信息带来破坏。而3D识别技术并不会对原图进行破坏。在对抗防伪攻击方面,3D识别技术对打印的照片或者视频乃至仿真面具均存在天然免疫。

黄迪告诉记者,从广义上说,3D信息本身包括2D的平面信息,这可以理解为是3D对2D的替代。但从狭义来说,正因为当下2D的基础尤为广泛,3D的应用更多还是要从具体场景的使用诉求和成本等多重因素共同考虑。“比如如果从形状角度,用具备三维物理信息坐标轴的XYZ信息完全取代具备色彩信息的二维RGB信息,这并不可能。”

在面部识别之外,三维+互联网世界中,对三维信息的获取和应用需求正在爆发。在前述论坛上,刘烨斌就指出,总结下来,3D视觉的应用领域包括实时深度成像、游戏制作、客厅生态、安防监测、全息通信、服装时尚、医疗生物、网络社交(手机APP)、直播培训、增强现实、影视制作等。“比如三维虚拟试衣属产业价值极大的产业,需求点在于分别对人体和服装建模,并对人体和服装的交互进行计算。”

黄迪则向记者举例表示,比如影视行业的应用,是包括互联网巨头在内的诸多厂商十分关注的方向。“对我们国家而言,电影的3D视觉应用需求在明年会很大。因为自媒体时代,人人都可以是导演,对于自主编辑制作的短片诉求会很广泛。”

3D表情应用方面,则是医学领域的高诉求。比如通过对面部表情,进行精神疾病的评估,医美也有较高市场关注度。

在游戏的设计引擎方面,虽然目前仍是较为粗糙的3D构架,“虽然现在对计算机视觉的逐帧生成还达不到手工一帧一帧抠的效果,但已经非常接近实用化的效果。现在达到的程度,可以生成视频,然后通过人工略加改动,就能达到不错的效果。”

手机厂商也在通过与其他平台合作的模式,探索3D视觉的进一步应用拓展。在2018年12月举行的OPPO开发者大会现场,21世纪经济报道记者就看到,OPPO通过与京东合作,在AR实景购物方面有所尝试。

本质而言,应用的普及更大程度与软硬件配套等一系列因素都息息相关。囿于获取数据库的容量有限,3D视觉技术此前曾面临过一次传统计算方法的瓶颈。黄迪介绍道,直到三年后的2018年,海外一所大学教授基于现有数据库点对点的数据,进行虚拟ID合成,再创造了约10万个面部信息ID,同时对姿态进行数据扩增。

在有更充足数据库的基础上,才得以在技术层面进一步优化。不过黄迪指出,当前硬件设备获取的3D深度数据,仍存在不支持大规模识别算法的难题,因此重建后的三维数据进行识别是一种可靠的数据库扩充方式。

另一难题在于人才。即使在世界范围内,3D视觉方面的相关技术人才都十分缺乏。黄迪向记者指出,“国内做3D视觉的人,可能还没有2D从业人员的1/10。这是因为3D视觉进入门槛更高,对于数据的初期操作都要比2D复杂很多。”

微信扫描二维码,关注公众号。