高端访谈 > 正文
张炳泉:基于深度学习的视频识别 开启智能安防新阶段
2017/12/27 08:57   qianjia.com      关键字:深度,安防,智能,人工智能,张炳泉      浏览量:
作为机器学习的一个重要分支,是模仿人的大脑对信息的一种分析和处理方式,并且通过建立由线性或者是非线性变换的处理单元组成的,核心是具有层次结构的多层神经网络结构。

一年一度的建筑智能化行业大型盛会——2017年第十八届中国国际建筑智能化峰会成都站,于11月17日下午在成都环球中心天堂洲际大酒店成功举办。本次活动由千家智客主办,主题为:人工智能开创智能建筑新时代。活动得到了四川省智能建筑专业委员会的大力支持,以及成都地区400多名智能化专业人士的积极参与,共同探讨人工智能技术在智能建筑领域的创新应用。

中国科学院成都计算机应用研究所总工张炳泉出席本次活动,并做了关于“基于深度学习的视频识别,开启智能安防的新阶段”的主题演讲。张炳泉表示,我们的天网经历了从无到有、从看得清到读得懂的阶段,现在对天网的发展已经提出了智能化的要求。人工智能时代,随着核心技术和基础环境的不断积累、成熟,已经到达了一个爆发的阶段。视频监控将是人工智能深度学习应用的重要领域,将给行业带来全新的变革。

中国科学院成都计算机应用研究所总工张炳泉

以下是张炳泉总工的现场演讲实录:

(现场实录,错误之处在所难免,千家网做了不改变原意的优化修改。特此说明)

尊敬的各位嘉宾,每年一度,再一次有机会在我们的中国国际建筑智能化论坛上表达个人对智能化安防的一个认识。记得在去年的论坛上,我跟大家推荐的是面向智能安防阶段的新的系统架构,并且也预言了智能的前端如果有新的突破的话,将会更加快的促进我们安防的智能化。今天我这个题目叫做《基于深度学习的视频识别,开启智能安防新阶段》。我们的论坛是说智能安防将进入一个新的时代,我这儿还给它保留了一下,没说进入了新的时代,因为还有一个从启动到成熟的过程。

我们的天网经历了从无到有、从看得清到读得懂的阶段,现在对天网的发展已经提出了智能化的要求。人工智能时代,随着核心技术和基础环境的不断积累、成熟,已经到达了一个爆发的阶段。基础的技术是指移动互联网、物联网和云计算的支持之下,基于大数据的人工智能的技术日渐成熟。当今世界,尤其是进入今年以后,人工智能是一个热门的话题,人工智能表现在多方面的环境,小至我们的家居环境、智能建筑、汽车场景、移动场景,大至教育行业、医疗行业到司法行业。每个领域,每个行业,乃至每个企业都将有自己的人工智能平台,专注解决各自不同领域里边的人工智能问题,并且开发出相关的产品和服务。

举几个例子,谷歌搜索大家都非常地熟悉,有没有感觉到,我们现在用谷歌越来越感觉到它能够领会查询者的意图,或者说谷歌变得越来越聪明,越来越懂你。那么实际上在谷歌的搜索引擎里面,隐藏了人工智能。我们在谷歌上的每一次搜索,你得到的是搜索的结果,实际上你的搜索主题和你认可的方向,都是在辅导谷歌隐藏的搜索引擎的人工智能进行一次深度学习。谷歌最近已经在宣传,不久的将来,将会推出无人驾驶,无人驾驶汽车不单是车辆,而且是一套车载的导航系统、感知系统。它的问世将会取代人类的工作,解放人类的双手,这实际上是一套人工智能系统的完善的应用。那么中间的例子很多,我跳过,在我们国内,人工智能也在一些关键部门得到快速地发展。可能有的同仁已经很熟悉的360的QVM引擎,在病毒库里面是一个崭新的角色。360的病毒搜索,或者说杀毒的效能很高,实际上360QVM被称为第三代杀毒引擎,它的病毒检测率已经超过了前两代引擎的综合,而且查杀的速度至少提高一倍。那么怎么来支持它这么一个高的性能,不在于它的搜索方法的灵活,实际上,它是一套智能的引擎。通过对病毒样本的分析和分类形成样本向量和向量机,基于向量机建立一个机器学习的决策机模型,从而预测了病毒的发展方向和未来会生成的模式。因此,运用人工智能技术的QVM引擎,正在重新定义杀毒软件的历史。

大家可以看到,从最近在我们国内把人工智能提到了一个非常高的、一个新的发展阶段,实际上在国际上,人工智能的起步很早,起步于1956年的达特茅斯会议,这个时候AI已经诞生了,并且有过一段基于神经网络感知机的发展历程。但是到了70年代,它走向了一次低谷,因为那个时候的网络能力不足以支持解决复杂问题的人工智能。此后,在1975年出现了第二波的基于优化神经网络训练的BP算法,理论上它再一次受到了重视,但是到1990年,由于计算能力的限制,它无法进行大规模的教育,数据训练。这个时候又进入了第二个低谷,直到2006年,Hinton提出了深度学习的神经网络。深度学习的神经网络的出现,基于前面说的大数据、云计算这些物理环境的支持和数据的支持,在视觉识别和语音上取得了超越人类的成功。从2005年开始,人工智能的形式出现了巨大的变革,源于深度学习技术的出现,那么深度学习已经在人脸识别、自动驾驶等领域崭露头角,它的原理是基于神经元的训练和反馈性的收缩的方法。

给深度学习下一个定义: 作为机器学习的一个重要分支,是模仿人的大脑对信息的一种分析和处理方式,并且通过建立由线性或者是非线性变换的处理单元组成的,核心是具有层次结构的多层神经网络结构。那么深度学习它所需要的算法,能够通过底层特征的不断组合抽象能形成具有语义的更加高级的特征,来更好的表达数据。这样的定义听起来有一点抽象,也有一点深奥,我们用图形来具体的看一下。

在让机器深度学习以前,我们要知道一下人是怎么来思维的,人脑在我们的左边的图上,显示了是分层处理的,从感知、初步认识,到判断,到归纳出一个事物或者是一个人物他的特征性的这么一个过程。那么在神经网络架构下的深度学习,右边的架构是模拟了人脑的这种层次架构,所以说从底下的图片,我们用一个形象的表示,它把一个原始的、模糊的车辆的图片,焦距不清或者是像素分辨率不够的这么一个图片,但是拥有着车的轮廓的特征。然后分析出他的车牌所在,分析车的颜色,车辆的特征等,从初级特征到中级特征,一直逐渐地细化到高度概括这是某车型的一个抽象的型号。深度学习在语音识别、文字识别和图象识别方面,就像人的大脑在这方面的与生俱来的分析能力一样,具有特别高的概括能力。

我们看一组数字,在2010年,对语音识别的错误率相对降低了30%,2011年,对汉字识别的错误率可以降低30%,到2012年,图象识别的绝对错误率可以降低10%,逐年下降,一直到2016年,阿尔法狗战胜了人类围棋的冠军李世石,这是一个划时代的变化。

深度学习所表现出来的优势,不像传统的模拟的方法,有一个极限,传统方法就像红色的这个曲线,它是渐进的,会逼近真实,但是有一个极限。而深度学习基于深层次的分析和思索,以及高度概括的能力,它会自我的提高其对事物的认识的深度和速度,因此深度学习是突破性的。到2016年,在图象领域,它的层次结构已经可以从128万训练图像,1000类的物体识别,绝对分类错误率从25.8%降到了2.99%,也就是说误差率不到3%。而神经网络的深度提高到了200层以上,我们今天无法对深度学习以及神经网络去做一个非常全面地讲述,但是从这几个数据我们可以领会基于神经网络的深度学习的要点。

在这里我们比较一下传统机器学习和深度学习的差异。基于算法模型处理,提取特征,找到相似度的传统的机器学习方式,相似度高于70%,我们可以认为是同一个人。但是深度学习的神经元,现在我们的相似度已经可以以97%来度量。基于深度学习的神经元、神经网络还有一个特征,它是一个反馈闭环,而且不断地自我调整的一个过程。所以基于传统机器学习,是用样本和特征来学习,而基于深度学习的神经元,是通过反馈它的差异,来调整学习模型的深度,直到正确,来输出可以用于下一轮学习的模型。

那么为什么深度学习直到2006年,乃至最近几年得到了高度的重视,并得到了突破,它基于图形处理器,因为硬件环境的支持,是它的神经元的训练和学习得以工程应用的一个基础。基于图形处理的一个处理器叫做GPU,GPU对于图形的处理,原先是在电子游戏里面已经得到了应用,它可以使得计算速度提高10倍,而且可以在有限的时间里面训练大规模的网络成为可能。所以基于高性能、高开发、高准确率特点的GPU,比X86的解决方案,有了成倍的效率提升。我们今天也无法对GPU的性能特点、结构等等去做展开,我们只是点一个题。GPU的发展,它除了对图形处理效率的提高之外,还有比通用的X86结构的芯片,在性能功耗比上的极大的优势。在相同的能力下,GPU和X86的功耗比是1:20,而相同的U度情况下,GPU和X86的性能比是相差20倍。这就支持了当今基于GPU来进行深度学习的场景化成为了现实。

在视频识别领域里面,海康威视已经成为规模化发展最快的一家公司,他们所走的路程,大家看到他们规模的巨大、产品的创新,还有很有眼光的前瞻性的做法,就是在深度学习的研发上,做了大量的投入。首先基于亿级的高质量的数据,由于有很多的案例,成为其大规模数据训练的基础。并且基于高性能的硬件平台,来提高数十倍训练效率,并且由此从2013年开始,在深度学习的团队方面,以及算法的突破方面,取得了创新。所以从2013年开始,在多项基于人工学习的国际竞赛中,海康威视代表我们国家的视频产品取得了多项的第一。

我们在这儿用几张图来看一看一个视频理解的过程,我们看到左边,传统对目标的一个理解,首先是从一个图像中间找出我们关注的目标,所以叫做目标检测。然后我们对特定的目标进行跟踪、归类,以及目标中间对于关注对象的检索,以及行为分析,这是传统的视频理解过程。基于深度学习的时候,我们对目标的跟踪是一个动态的跟踪,它是在边检测、边跟踪的过程中间找到了它的轨迹,并且自然的形成它的分类。比如按性别、短发还是长发、有没有背包、拎东西、戴帽子、穿的长袖还是短袖、长裤或短裤或裙子,以及有没有戴口罩、有没有骑车等等。这些特征,以往的摄像头,如果不给它定义,它会关注吗,但是是不是很像我们人在第一眼看到的时候,是一个老朋友。你归纳这个老朋友的特征是从他的种种特征,性别、年龄以及外貌的特征等等,首先从你的库里面很快的得到了最接近形象的搜索,这里边人脑的思索自然有一个归类的过程。那么在人脸的检索流程中间,也就反映了多层的神经网络、快速的检索以及从最本质的特征中间找出一个你所要定位的对象,这么一个思索的过程。同样,对车辆也是这样,所以我们在传统的视频图像中间,对于人员、对于群体、对于车辆和交通状况,可以进行快速地基于深度学习的检索和快速的特征的提取,从而实现目标的快速定位。从此我们也就看到了,基于深度学习的视频产品,如果一旦应用,它会促进智慧城市、智慧安防、智慧医疗等等,以及智慧交通快速地发展。我们可以形成一个车辆,以及这个车辆中间的驾乘人员他在城市中间的轨迹的特征提取。我们可以根据车辆的密度、流向等等,来规划一个城市的智慧交通。也可以根据一个固定的建筑中间,人员的密度,他的性别特征来为商业行为提供精确的分析和可供决策的商业数据。

我们在这个中间,看到了深度学习所依据的三要素,基于网络架构以及带宽高速的发展,以及数据规模的增长和计算能力的更充分的支持,所以基于深度学习的某系列的智能前端产品已经诞生。

基于智慧或者说智能安防,它的一个核心问题是人脸识别。李宗南老师在我们当初学习视频技术的安防评估的时候说过一句话,视频技术有很多优越性,直观、形象、可记录、可追溯。但是视频技术有一个本质的局限,它是被动识别,一个摄像头再清晰、焦距拉得再长、广角更远、更广,但是指到哪里看到哪里,不能成为一个报警的手段。但是李老师预测,一旦当视觉智能的技术发展到一定的高度,我们的摄像头能够成为一个主动发现的报警装置的时候,我们的安防技术将会得到本质上的突破。以前,我们可以看到一幅图像,但是不知道图像中间有一个逃犯。我们可以看到道路上的车辆,但是不知道其中有一辆是肇事车。现在有了基于GPU的摄像机,机器终于能够认识人,能够认识特定的车辆,那么这正是我们的公安工作,大多数是围绕着人或者是车的身份识别这一个特征来开展的。

视频技术的几个关键问题,嵌入式GPU设备在满足通用性的前提之下,其功耗、稳定性和性能上的优势,是优于X86的阶段。未来还可能会有新的企业,但是一定不是基于数字计算的CPU,而是基于图形处理、基于神经网络自学习结构的一种新的模式。

大数据已经谈了几年,大家都知道大数据特征表现在四个方面:数据规模巨大、数据类型多样化、数据时效性高以及总体价值高。但是请各位重新关注一下,海量的数据中间所隐藏的非常有价值的特征信息,即大数据的总体价值。总体价值的发掘,需要基于深度学习的人工智能来发掘这么一种总体的价值。所以市场的趋势,是把中心智能向分布智能+中心智能发展。智能分析已经到了突破的阶段,分布智能和中心智能的支持,基于神经网络的人工学习的弹性配置,中心智能的易维护,直到最终在大数据上发掘和归纳的特点,将会促使我们的智能安防进入一个新的时代。

谢谢大家。

微信扫描二维码,关注公众号。