近年来,随着信号处理技术的进步,视频和图像处理技术得到迅速发展,并逐步渗透到我们的社会生活中。大量的视频监控应用已经出现,我们可能都已经看到,视频监控几乎无所不在:银行柜台和ATM机,小区、酒店、写字楼、机场等公共场所的安全管理,高速公路和停车场的车辆收费管理,以及道路交通的流量管理等等。
与此同时,大规模视频监控带来的海量视频信息成为了系统安装后的处理难题。系统利用率低、有效信息提取困难,而视频图像识别分析技术则可以解决这个问题,智能视频分析软件就是基于此点迅速发展起来。
技术发展状况
视频图像识别分析技术源自计算机视觉(CV,Computer Vision)技术。计算机视觉技术是人工智能(AI,Artificial Intelligent)研究的分支之一,它能够在图像及图像描述之间建立映射关系,从而使计算机能够通过数字图像处理和分析来理解视频画面中的内容。而视频监控中所提到的智能视频技术主要指的是:“自动分析和抽取视频源中的关键信息。”如果把摄像机看作人的眼睛,而智能视频系统或设备则可以看作人的大脑。人脸辨识、车牌识别以及行为分析三项技术则是智能视频软件的核心技术。
人脸辨识技术
人脸辨识是一个相当古老的题目,早在1981年便有人发明模拟人脸,做人脸辨识的计算机视觉系统,在1991年以及1997年分别有两个重要的人脸辨识方法发表,其分别是Eigenface以及Fisherface。
Eigenface法是假设所有人脸可以用一组基底人脸的线性组合所表示,作者以PCA组成分析原理(Principle Components Analysis)找出这组基底。
Fisherface法则是进一步利用LDA线性判别式分析法(Linear Discriminant Analysis ),强制将不同的人脸在投射空间中尽量分开,因而提高了辨识率。
基本上人脸辨识可以分为两种主要方法,一是整体特征方法,一是局部特征方法。
整体特征方法:直接将整张人脸当作单一特征来做辨识;局部特征方法:先找出脸上的局部特征,通常是眼睛、鼻子和嘴巴,然后分别根据这些局部特征做辨识,最后将个别局部特征的结果统合而得到最后结果。近来的研究发现局部特征方法要比整体特征方法有更高的准确率,但局部特征方法存在局部特征的对位问题,在实际应用上有较高的困难度。
大部分的人脸辨识方法会先将原始影像数据经过降维的程序,在投射的子空间进行辨识,如此一来降低了运算量,例如前述的利用PCA或LDA方法。
近来也有方法是利用不连续余弦转换法DCT(Discrete Cosine Transform)来做降维,其与PCA 和LDA不同处在于DCT法抽取的是影像的低频部分作为特征,并且不用象PCA或LDA需要很多样本(sample)来计算转置矩阵,而是利用单一公式直接对每个样本降维。
在抽取出特征后(不管是原始影像或是降维空间),做辨识通常是利用最近邻居法( Nearest-Neighbor),Eigenface以及Fisherface皆属于这种方式。比较快速的方式是利用中枢网络法(Neural Network),再配合DCT的处理结果作为特征后,在Yale以及ORL人脸数据库有不错的辨识率。
近来非常热门的Support Vector Machine(SVM)方法也被应用到人脸辨识的题目上,其直接取原始影像作为特征,或是经过PCA降维后当作特征,再训练出SVM来做辨识。
一个很有创意的人脸辨识方法是利用DCT加上Hidden Markov Model(HMM)来做人脸辨识,其是利用了人脸由上而下,眼睛、鼻子和嘴巴这些特征是有一定顺序的性质。
人脸辨识目前公认存在的难题有两个,一是不同光源的问题,一是不同角度的问题。由于同一张人脸在不同光线以及角度下常常会有很大的差别,所以传统的方法通常会失败。
近来有不少方法致力于处理上述两问题,在处理光线问题方面有Illumination Cone、 Quotient Image以及Self Quotient Image和Intrinsic Illumination Subspace四种方法。
Illumination Cone提出建立3D脸部模型,理论上可以重建固定视角下所有光源的脸2D样貌,因而处理了光线变化的问题。
Quotient Image、Self Quotient Image和Intrinsic Illumination Subspace概念上都是一种前处理的手段,三者皆先将欲辨识的人脸转成删除光源信息的格式,再做人脸辨识。
在处理不同角度方面有Morphable model、View-Base Eigenspaces、Elastic Bunch Graph Matching和Active appearance model四种方法。
Morphable model 与Active appearance model提供将视角为非正面输入影像转换成正面影像,因而去除了不同视角的因素,在此条件下做人脸辨识自然有较高的精确度。
View-Base Eigenspaces是基于Eigenface的方法,但根据不同的视角都个别去做,因而数据库中储存了同一人在不同视角下的数据。
Elastic Bunch Graph Matching方法则是根据人脸上的特征点建立一个图(graph),藉由允许此图变形而使得不同视角下脸部的特征点仍位于脸上相同位置,因此藉由这些特征点来做人脸辨识便排除了不同视角的因素。
上述的这些方法皆是利用2D的模型来进行人脸辨识。另外一类的方法使用3D模型来进行人脸辨识,如在FRVT 2002中三维Morphable模型的测试被证明可以有效地改善不同视角的辨識率。
传统的人脸辨识使用单张影像,相对于此种静态影像辨识方法外,利用影片中连续的多张影像来做辨识的方法则称为动态影像辨识。动态影像相对于静态影像有许多优势,一是多张影像提供的信息比单张影像丰富,其中包括了不同的视角,相邻影像的信息等,这些信息都能够增加人脸辨识的准确度。
总结来说,光线和视角仍是目前人脸辨识的难题,虽然有相当多的研究是针对这两点的,但并没有完全解决。近来的研究趋向利用动态影像来得到更高的精确度,而利用3D的人脸模型来进行辨识也因为在视角改变的状况下有不错的表现,在近几年也受到重视。
相关专题: