21日,《麻省理工科技评论》发布全球十大突破性技术榜单,百度以人脸识别技术获得提名。在榜单揭晓后一个关于人脸识别的圆桌论坛上,百度深度学习实验室主任林元庆、易宝支付联合创始人兼总裁余晨、 清华大学电子系副教授汪玉 以及硅谷知名早期基金和米资本(Hemi Ventures)管理合伙人谷懿 参加了论坛,对人脸支付的技术和商用场景等问题做了探讨,雷锋网节选了部分内容。
主持人:刷脸支付、刷脸验证,在国内实际应用已经有一段时间了,作为一个比较有中国特色的技术。您(林元庆)认为,百度能够入选十大突破技术有什么必然性?
林元庆: 其实百度这是连续第二年获得十大突破,去年是语音识别。在过去的一年里面,语音识别在百度也发展的非常迅猛。包括,我们最近成为独立事业部的度秘,在这些非常前端的技术上,百度投入非常大。今年,我们也非常荣幸获得了跟人脸识别有关的十大突破技术之一。
我们之前就已经投入很大,2016年更是加大了投入,我们觉得刷脸的时代已经来了,不仅仅是刷脸支付,其实现在去百度可以刷脸进入办公区,刷脸进乌镇,从去年的世界互联网大会之后这套系统一直在运作。今年,大家会看到更多刷脸进景区的情况发生,我们现在预估今年至少有100个以上的景区能布置百度的刷脸技术。以后就不用带票了,直接往里走就可以了。
《麻省理工科技评论》确实看的技术非常准,作为中国的企业这次入选也非常荣幸,我们也期待这些技术在中国有非常广泛的应用。
主持人:易宝支付作为行业支付的领导者,在互联网支付领域已深耕多年。您对人脸识别等新技术融入现有支付体系有什么看法?从用户隐私、安全性等方面来说,人脸识别技术是否会在互联网金融领域开始普及?
余晨: 支付界有一句话,随着信用跟数据的发展,支付这个行为本身会消失。因为,只要你走到一个餐馆里面,无论通过什么技术能认出你,你吃完饭走就可以了,不用掏信用卡,或者其它支付行为。从用户角度来讲,这样才是最理想的状态。从这个角度来讲,大家也能看到人脸识别一定是未来对金融领域、对支付是一个非常重要的新兴技术。
刚才您也提到隐私跟安全方面的问题,基于生物特征的这些识别技术,可能都是跟原来我们基于字码和文本字串的不同,它有一定的模糊性跟不确定性。所以,从现在技术成熟的程度来讲,肯定还有一定的误识率。
另外一点,跟生物特征相关的东西,刚才您举了指纹的例子,有10个指头,人脸只有1张,它最大的特征就是没有办法去改变,你说你的密码万一被人家截获了或者是丢了,你改一就可以了。人脸,万一别人获取了你的生物特征,有办法把你的东西复制出来,你没办法换一张脸,除非你去做整形手术,所以从这个角度来讲,肯定是生物特征的技术,也有它带给大家的一些担忧,甚至有一些社会影响。
但是从长远来讲,人脸识别和生物特征,一定会帮助实现我刚才讲的理想态,就是所谓支付最高的境界——没有支付。短期之内可能你会看到的一些相对局限一些的应用,比如说利用于小额支付,或者说利用一些金融服务的开户服务,而不是我们泛泛的讲,所有的支付就可以靠刷脸来实现了。
主持人:请问汪教授,除了通过传统的GPU进行人脸识别技术,国内以深鉴科技为代表,通过FPGA进行相关计算的能耗和效率,已经展现出光明的前景。您是否可以介绍一下,目前FPGA以及深度学习处理器方面的研究进展,以及该技术在人脸识别方面的应用?
汪玉: 感谢这个问题,其实这个问题还是比较技术的,就是说为什么FPGA好?我觉得,FPGA好,可能要从4个方面来看:
1、它的功耗相对来说不是很高,虽然比芯片还是要高一些,大概是在几瓦到20瓦这样一个量级,就是FPGA的功耗,一般来说一个GPU是从10-200瓦不等,所以功耗上来看是要有优势的。
2、功耗虽然低了,那你性能是不是可以高一点,第二点它的能量效率还比较高,每瓦特能够提供的计算次数在深度学习这个领域,我们来看的话,还算比较高的,一般来说一个CPU它的能量效率大概在1G这样一个计算能力。GPU每瓦20GUps,大概是这样的。FPGA其实可以做到,每瓦能够提供50、60。
所以,从一个小的功耗上来看,能够提供比较高的性能,其实是第二个点。
3、现在虽然深度学习在很多地方用起来了,但是它的算法还在不断地进步,如果这个进步还在不断地持续,那么这种FPGA,本身具备的可重配性,就会带来一定的好处,所以可重配性是一个非常重要的事情。
4、如果你在FPGA里面把结构捎进去,那可能你的软件做的比较好,软件的人用起来比较方便,可能有一个一键式的Dpua,就可以把想做的深度学习的算法放上去。
我们觉得FPGA可能还是一个比较好的选择,当然芯片肯定是未来最好的选择,因为他的功耗更低,大概低不到一个量级,性能也会高一个量级,大概是100倍的提升。
但是芯片的问题在于:
1、目前算法是否收敛。
2、深度学习是不是已经能够做所有的事情了,你只做一个深度学习的芯片可能不够,你可能还需要其他的东西。
所以,这是我对于硬件方面的认识。
关于跟人脸的结合,我是觉得,刚才谈到了隐私,如果我只是在前端去做一些计算的话,有可能我这个图片是不需要传回去的,所以部分的避免了隐私的泄漏。以后在嵌入式设备上,大家慢慢的会把人脸这件事情做起来,把一部分信息,可能能够公开的东西,然后再传回去,不会太有问题。
而且现在深度学习,我知道很多公司都在做特别小的网络,这样的话,不管是在嵌入式的GPU,还是嵌入式的CPU,甚至FPGA上,都有可能用起来,所以我觉得这应该是未来会有很多应用的场景。
主持人:谢谢汪教授。下面,我们问问谷懿,您多年来一直都在从事国际化投资,特别是在硅谷从事高科技投资,也非常了解中美两地的一些高科技投资。原来有一种说法,硅谷领先美国半年,美国又领先全球半年。但现在又有一种说法,在人工智能领域,或者由于人工智能的出现,中美的科技竞争已经拉到了同一个起跑线上。
谷懿: 现在我在美国看到的趋势比较多的是其实每个垂直行业划分的很细,所以我们基本上可能从比如说从基础层、芯片这个级别到算法层再到应用层,每个层基本上都有公司去投,但是在中国,我自己的理解是大家都在做一个很长的解决方案,可能从头要做到尾,这个我觉得是中美在创意公司上面有点不一样的地方。美国的生态系统相对比较完善一点,每个人可能做得更窄,中国可能需要做得更全一点,所以你要融更多的钱,要去把摊子真的铺起来。
第二点我看到很不一样的是客户层面,很明显我觉得中国的很多客户对于新的科技是愿意买单的,包括我们有一些深度学习的公司到中国来,其实和很多金融机构其实都有合作,然后是从第一天就开始能够真金白银的合作,这个其实比起去美国一个银行或者是欧洲一个银行,相对来说是要容易很多,因为他们有更多的监管、更多的测试。在这点上,我觉得其实是一件好事,真的是能够在实用上面使用起来。
第三点,是时间方面,反正每次回国,我觉得大家都很乐观,都觉得好像人工智能就实现了,我们都可以回家歇着去了,多仆役让机器人做事儿了,这点上,可能国外稍微会谨慎一点和保守一点。
这三点,是我可能看到中国和美国或者是国外不太一样的地方。
主持人:有人跟我说了一个很真实的数据,说现在在全世界各地有关人工智能的论坛,现场70%都是中国人。因为大家都非常自信,所以愿意在这个领域投入更多的时间、精力。
最后一个问题,场上各位嘉宾,如果你们自己出来做一家创业公司,你会选择哪个领域、哪个赛道?
余晨: 我换个角度回答吧,怎样判断一个技术是不是很重要?
比如飞机也是个很重要的技术,但飞机的出现,它直接改变的就是我们的出行,当然连带也带动了旅游业和贸易的发展。但是,有一些其它技术更有基础性、普适性跟平台性,比如互联网、人工智能、深度学习,或者说的再窄一点,人脸识别,它本身可以成为其它技术和应用的基础。
所以,出来做这些的话,就会影响更广泛的面。
其实我们做支付也一样,因为各行各业只要有交易,都会用到支付嘛。所以我想,大家在创业的时候,现在一方面会想的越来越专,但另外一方面,怎样判断一个技术的影响?我觉得是,拥有普适性、基础性、平台性的基础,就像今天讨论的人工智能、深度学习、人脸识别,能够被广泛的应用到其它领域,跟其它的技术相比可能是比较重要的领域。
汪玉: 我们其实已经开始做一家公司,虽然我今天title写的是清华大学的副教授,但后面还有一半叫深鉴科技联合创始人。
其实我特别有感触,这种平台性的技术确实很好,但它有一个很大的问题,可能你的客户最开始是不明确的,因为大家都需要。比如,我们现在做基于FPGA平台的深度学习处理器,大家可能会说这东西挺好的呀,每个人都说我来试一试。但是,到底哪件事情是突破口?这个迭代和窗口期到底在什么地方?其实是这种平台技术的共性问题,包括人脸识别,如果没有金融这件事情的话,还有监控,这两件事情其实撑起了目前人脸识别的主要市场,也酝酿了很久,最开始的时候大家还没有想到这些事情,但做着做着发现这可能是最重要的事情,所以2B的公司比较惨,慢慢来。
谷懿:我在做投资之前也创业来着,所以每次说有什么创业想法的时候,我都特有想法,虽然现在也创不了业了。
但是,有一个方向大家可以考虑考虑,在座如果想创业的话。今天讨论的刷脸支付,有个很重要的大家有没有想过?脸到底从哪来?这个算法到底怎么找到这些脸做这些算法和技术的测试?
不知道百度现在有多少脸的数据,但是我知道的是,2015年Google自己宣布过,2015年他们已经有2.5 亿张脸的数据了,这可能比起任何一家公司都不是一个层面的,所以在人脸识别技术方面,他们已经远远的走在前面了,作为一个创业公司很难再有很大的突破了。
我觉得现在最大的瓶颈在于,这些脸在哪,有没有人能造这些脸出来,让更多的公司能够在这些数据上面受益?我觉得,这是非常好的方向,所以希望大家有空造造脸,让刷脸支付更好。
林元庆:我回答一下谷女士的问题,我们前一阵参加《最强大脑》的时候,当时用了2亿张照片,现在百度人脸上的数据,今天大概是8个亿。
说一下我们现在看到的一些有意思的技术趋势,其中一个应该会在接下来的几年非常重要,那就是视频。当然,这里面包括两个层面:
1、视频基础的理解,比如汽车自动驾驶的情况下需要视频的数据,希望得到象素级别的视频理解,这个象素是人,还是车,还是天空或建筑物,这些技术在行业里面是非常核心的,但现在应该没有一家公司能做到99%以上的象素级的精度。如果这个技术能做出来,我觉得影响面是非常大的。这个方向我们百度也在做,但这个方向算是这个行业里面非常前沿的技术。
2、视频的语义理解。这个视频里面到底在做什么,比如这个人在打球吗?不只是原来的简单分分类,要非常好的理解视频中的意思。
过去很多年,图片是一个非常重要的载体,我相信接下来这几年视频会是非常重要的方向。
我刚才说的当然需要积累非常多的数据,也需要对技术进行深挖,才能真正产品非常有意义的你能做得到、别人做不到的事情。
雷锋网版权文章,未经授权禁止转载。详情见转载须知。
微信扫描二维码,关注公众号。