高端访谈 > 正文
云天励飞陈宁:解决了视觉智能问题,就解决了80%以上的问题
2017/12/15 09:56   云天励飞      关键字:云天励飞,陈宁,视觉智能      浏览量:
人工智能在实际场景中的应用,要比想象的要更加复杂,除了现实环境的干扰外,还要考虑到工程化、兼容性、成本控制等一系列的问题。深圳云天励飞就是一家将芯片、算法、应用场景有机结合起来的计算机视觉公司。活动上,云天励飞联合创始人兼CEO陈宁也发表了主题为“视界智能,用芯实现”的演讲。

  2017年12月14日,亿欧2017创新者年会AI产业应用峰会在北京举办。作为一家产业创新服务平台,亿欧率先提出了AI产业落地的理念,被行业所认可。在此次活动上,中国科学技术发展战略研究院副研究员李修全,国科嘉和管理合伙人王戈,云天励飞联合创始人兼CEO陈宁,深醒科技联合创始人袁培江,汉王科技副总裁黄磊,京东集团副总裁颜伟鹏,云从科技高级副总裁孙庆凯等嘉宾进行了精彩的分享,共话AI在各行各业的应用经验与前景。

  人工智能在实际场景中的应用,要比想象的要更加复杂,除了现实环境的干扰外,还要考虑到工程化、兼容性、成本控制等一系列的问题。深圳云天励飞就是一家将芯片、算法、应用场景有机结合起来的计算机视觉公司。活动上,云天励飞联合创始人兼CEO陈宁也发表了主题为“视界智能,用芯实现”的演讲。

  以下为演讲内容整理。

  今天很荣幸有机会跟大家介绍一下云天励飞在深圳创业三年多走过的一些历程和做的一些事情。

  天眼,通过一套系统,调用全球的视频监控资源对任何一个个体进行实时定位,这个技术在科幻大片当中层出不穷,大家也都非常熟悉。

  就像天眼一样,云天励飞团队在深圳用两年的时间,打造区域级的深目系统,基于动态人像识别,处理器芯片技术、大数据挖掘和深度结合公安的应用场景,这套系统使得今天深圳的两万民警手中有一款动态人像的APP,在两秒钟的时间内,在深圳的任意个体从机场到地铁、南山、龙岗跨区域的城市面的活动轨迹,可以实时在终端级进行定位,并且落地身份、查询逃犯的记录、前科的记录等等一系列的功能。这套系统2015年底在深圳龙岗公安分局小规模上线,从前端108个人脸抓拍相机到后台11台搜索引擎,到搭载云天深目1.0系统,到去年下半年升级到3000个前端的人脸抓拍相机,遍布在龙岗区地铁口、商超、网吧等出入口。

  这套系统从去年7、8月份开始推广到深圳的机场、地铁南山等各个区域,目前为止深圳已经拥有了接近五千路公安的一类视频监控高清前端,云天励飞的人脸抓拍相机。在上线一年多的时间,它协助公安破获3000起的案例,涉及到经侦、技侦、拐卖等等各个警种的应用。

  今年除夕仅仅用了15个小时,从武昌火车站解救了深圳一名三岁被拐带的男童,从接到报警到通过深目系统落地查询轨迹发现犯罪嫌疑人仅用了不到一个小时的时间就已经将男童带上火车。从除夕前一天男童被拐带,到第二天除夕从武昌火车站解救回来,送回父母的怀抱里,整个过程耗时15个小时,深圳一些公安局的局长已经可以对部里面的领导来讲,在我们的区域两盗两抢和重大的刑事案件的破案率是100%,这个信心来源于底层的技术手段的支撑。并且这套系统从去年年底开始向全国公安进行推广,在北京、上海、杭州、武汉等等全国15所左右的城市,并且是一线城市,都有商业化的落地应用。

  从算法到计算力硬件平台的有机结合

  所有的这些智能化的应用背后,是一个面向深度学习的处理器。我们知道2016年3月份AlphaGo引爆了大家对人工智能的狂热关注,其实大家忽略了一组数据是,阿尔法狗1.0的系统最大变体曾经使用了1920个CPU和280个GPU,训练一盘围棋的电费需要上千美元,原因就是在深度学习算法快速发展的今天,我们底层的计算力硬件平台,CPU、GPU并不适合深度学习在线快速、精准的业务应用需求。

  三年前谷歌公布了自研的Google Tensor Processing Unit的Google TPU2的架构。随之而来的Alpha Go以及Alpha Gozero,从庞大计算机群变为单机版。同样云天励飞背后也是一个跨界创新的产物,面向深度学习的算法和处理器芯片设计的全新一套指令级的结合,这样在端上结构化的处理器的芯片,能够将海量的视频本地化、快速、集合、准确的转为结构化的信息传输到云端进行海量数据检索以及业务应用。

  我们的联合创始团队2014年从美国回到深圳,也是这样一个组成,从处理器芯片设计到计算机视觉、到机器学习、深度学习的算法的融合,这样的团队组合是解决深度学习、解决人工智能底层技术在算法以及计算力上的有机结合的必然产物。

  为什么选择视觉方向?

  人工智能,大家都在谈算法、芯片、数据,而数据是驱动所有这些业务场景的源头,人类有史以来积累所有了大数据中,85%以上是视频和图象数据,我们认为人工智能的核心之一是视觉智能,如果要量化一点的话,我们就打个比喻,解决了视觉智能的问题就解决了80%以上的问题。

  过去十年随着通讯的发展,随着万兆光纤遍布全国各地,随着4G、5G的移动通讯标准的不断进步,我们认为过去十年的视频通讯时代已经逐步走向了成熟,未来十年将是视觉智能的十年。

  回到安防应用场景,过去十年是视频监控的十年,它的出发点是视频采集是由人看的所以要有监控。每一个监控的网络,每一个小区都有一个视频监控室,需要保安坐在大屏后面不断的盯着所有的这些摄像头,几年前全国数千万个监控摄像头已经带来了巨大的挑战,人眼再也看不过来海量视频监控资源。随着在深圳实现的这样一些产业化落地和试点的规模,我们相信传统的视频监控时代的1.0将步入视觉智能的2.0,这些视频将由机器来看。

  这样的时代变化必然对计算力提出了新的挑战和需求,是传统的CPU还是现在GPU,还是未来的XPU?这个问题非常值得我们思考。这个问题的回答取决于不同的应用场景对于端到云的任务分工和切割。在前端需要用什么样的应用平台,需要用什么样的硬件平台,在云上又需要用什么样的业务应用平台?这些跟应用场景有密切的关系。

  视觉计算,很显然已经成为了云计算的核心需求方,城市级视频监控每一天产生的数据量轻易可以达到TB级甚至PP级。这些业务场景各自有具体需求,比如说机场、地铁,发现一个逃犯需要几分钟之内马上出警,发现一个恐怖分子需要及时响应,需要人像、人脸系统实时的报警。

  这种高速、本地化的智能分析和报警加上海量的象素处理,对于传统云计算提出了巨大的挑战。将全国的数千万的监控视频资源全部拉到云端,哪怕有万兆级的光纤网络在云端进行统一的处理和分析,已经完全无法满足计算力算法搜索等等各项业务层面的需求。端到云的计算架构应运而出。在云端可以基于特征值的海量检索和业务应用,就要求我们不管在边缘、端计算、物计算或者层计算,总之在终端有一系列定制化在线信息的学习平台,我们叫做IPU,即视觉处理的前端,并且这款前端能够让机器理解视频和图象的内容。

  基于这样一个端的本地化视觉智能分析和云端大数据的海量数据分析,以及和应用场景的绑定,我们相信可以逐步去解决视觉计算在城市大脑计算平台上的问题。这样一个大数据的分析平台上,包括平安城市的每一路摄像头,到每一辆无人驾驶汽车上的激光、视觉传感器,再到每一台机器人或者机械制造的每一个机器视觉的传感器前端,通过这些本地化的感知层和认知层的视觉芯片,能够及时将这些信息面向应用场景进行结构化的处理,并且将结构化的信息传输到城市大脑云端进行分析和处理,提供未来智能化的解决方案,推动真正意义上的智慧城市的落地。

  我相信,未来十年,将是基于视觉智能的新十年,谢谢大家。

微信扫描二维码,关注公众号。