二、数字编解码技术说明
二十年来数字编解码标准采用的基本方法几乎都是基于块的混合编码框架,混合编码框架其技术方式主要包括基于DCT变换编码、运动补偿的预测编码和熵编码这是现代视频编码的关键技术。所谓“基于块”,指的是首先将一幅图像分成矩形的像素块,作为编码处理的基本单元。“混合”指的是消除时间冗余的运动估计与消除空间冗余的变换编码的结合。在理想情况下为了充分利用像素之间的空间相关性,变换应该应用于整幅图像或视频帧;另一方面,如果以单个像素为单位进行运动估计,就能够精确地消除时间冗余。但是以上两种方式的计算复杂度都相当高,且要求两者是互相矛盾的。因此,通常采用适当大小的矩形像素块作为变换编码和运动估计的基本单位,平衡了编码效率和计算复杂度两方面的矛盾。
数字视频编码是减少数据冗余的过程。虽然表示数字视频的数据量很大,但数据之间往往保持高度的相关性,这些相关性表现出数据的冗余。视频压缩编码就是采用一定的方式减少数据之间的相关性,尽可能消除冗余,使数据最有效的表示信息。通常的数据冗余存在与三个方面,时间、空间和心理视觉冗余。
空间冗余产生的原因在于视频序列都是由一帧一帧的图像序列组成,对于每帧图像,前景物体和背景都有很大的相关性。据统计,图像内的每个像素都与其距离小于16个像素点的像素相关。
时间冗余存在的原因在于视频序列在时间上的相关性,视频帧在时间上呈现的是一种近似连续的变化;在动态视频序列中,前一帧图像和后一帧图像有很大的相关性,形成时间上的数据冗余。在一定的时间间隔内,视频序列中往往背景都相同,前景物体只做微小的变化,或平移、或旋转、或拉伸等等,所以相邻的两帧或几帧上间有许多相同或相近的地方,没有必要在每帧中都把这些数据信息表示出来。
心理视觉冗余是由于人类视觉系统对图像的变化感知产生的,人的视觉系统是非均匀和非线性的,并不是图像的所有变化都能感知,同时,人眼对图像的亮度和色度的敏感度相差很大,对亮度的敏感度远大于色度的敏感度。心理视觉冗余就是利用人的错觉来压缩数据量。数字视频编码通过变换编码和预测编码达到消除冗余的目的,通过较小的带宽传输尽量多的有效数据。
三、数字编解码技术发展前景
随着计算机网络的不断发展和应用需求的多样化,对于视频编码技术的研究不再仅仅局限于压缩特性,而渐渐开始向网络适应性、用户交互性等方面转移。因此,这几年来,视频编码技术一方面继续以混合编码为框架研究如何进一步提高压缩特性,另一方面不断的向可伸缩编码、多视点编码、智能等分支方向发展。
可伸缩编码技术将视频编解码框架转变为更多考虑网络适应性和灵活性的编解码框架。2005年2月,JVT将可伸缩性编码(Sca1able Video Coding,SVC)作为H.264标准的扩展,并起草了H.264标准的可伸缩性扩展第一草案。可伸缩视频编码因为具有时域、空域和质量等多方面的灵活性,不仅特别适合网络传输,而且应用到视频监控领域中还能满足监控视频资料的存储、检索、分析等方面的特殊需求。在安防行业,很多情况下,监控需要两份码流,一份为了本地存储,需要高分辨率高质量的视频,另一份是为了网络传输到监控中心实时查看,需要低分辨率中等质量的视频,常用的解决方案是编码两次。如果需要更多不同的码流就需要编码更多次,这样将大大增加计算量,现有的硬件条件很难满足。因此可伸缩视频编解码技术不仅是JVT组织中的当前热点研究问题,更是视频监控技术中的研究热点问题。到目前为止,实现可伸缩技术的方法大致上可以划分为两种:基于小波变换的可伸缩技术和基于传统的混合编码结构的可伸缩技术。基于小波的视频编码是指以离散小波变换(DWT)为核心的视频编码方案,分为以下四大类:纯三维小波方案、小波框架的运动补偿方案、小被子带预测方案、帧间小波滤波方案。基于混合编码结构的可伸缩技术包括:时间可伸缩、空间可伸缩和质量/信噪比可伸缩性。
多视点编码技术。多视点视频是一种新型的具有立体感知和交互操作功能的视频技术,它由一组平行、会聚相机阵列拍摄得到视频信号。2001年,MPEG成立了3DAV工作组,其首要任务就是定义3D音视频领域的范围和应用场景,并为其中的关键技术制定标准。在视频监控类的应用中,多视点视频编码技术有助于实现多视角立体监控,多摄像头联动等应用。视点间相关性是多视点视频序列的重要特性,它与相机阵列形式、相机间距、相机和拍摄对象间距离存在极大的关系,直接反映在同一时刻相邻视点两幅图像的视差上。由于该类系统存在着大量的数据冗余,如何组织和压缩数据就成为重要的研究课题。
安防行业的智能化已是发展的必然趋势,笔者认为如何将视频监控智能化与视频压缩编解码结合起来,也将是未来视频编解码发展的重要方向。早在MPEG-4的时代,就已经提出了基于内容的视频编码,将场景分割为不同的层次,如背景和前景等,对背景和前景分别利用不同的模型进行编码,不过由于当时视频监控智能化还未起步,因此这种基于内容的视频编码发展缓慢。智能视频监控技术涉及图像处理、图像分析、机器视觉、模式识别、人工智能等众多研究领域,视频监控的智能化表现为计算机视觉算法在视频分析中的应用。智能视频监控区别于传统意义上的监控系统在于变被动监控为主动监控(自动检测、识别潜在入侵者、可疑目标和突发事件),即它的智能性。简单而言,不仅用摄像机代替人眼;而且用计算机代替人、协助人,来完成监视或控制的任务,从而减轻人的负担,同时以智能分析为基础的编码技术,可以对视频的内容智能进行分类,采用不同的编码策略,也就是常说的感兴趣区域编码。基于智能分析的感兴趣区域编码就是指编码器根据智能分析的结果,对图片内容进行智能分类,然后在压缩时根据分类的结果指定不同的压缩质量,或在恢复时指定某些区域的解压缩要求。这是因为子波在空间和频率域上具有局域性,要完全恢复图像中的某个局部,并不需要所有编码都被精确保留,只要对应的一部分编码没有误差就可以了。在实际应用中,我们就可以对一幅图像中感兴趣的部分采用低压缩比以获取较好的图像效果,而对其他部分采用高压缩比以节省存储空间。这样就能在保证不丢失重要信息的同时又有效地压缩了数据量,实现了真正的交互式智能压缩。
【作者单位】北京声迅电子股份有限公司
相关专题: