人工智能技术在执法记录仪中的应用可以有效提升执法记录的功能、性能和使用便利性。本文探讨了智能语音技术在执法记录仪中的应用场景,分析了各场景的区别和应用价值。并根据各种应用的实现难度和所需技术成熟度给出了应用发展的阶段建议以及相应的业务模式,重点梳理了实现智能语音应用业务对执法记录仪自身的硬软件要求和功能要求,特别讨论了语音控制、敏感词识别和声纹识别三种应用。最后以敏感词识别为例,给出了智能语音应用业务的系统架构和业务实现流程。
执法记录仪在公安和非公安行业已经得到了普遍应用,并成为很多行业的标配。执法记录仪对音视频证据的记录和取证作用,有效达到了还执法者一个清白,还老百姓一个明白的目的。随着技术的发展成熟和记录仪的深入应用,用户希望能更深入地挖掘所记录数据的价值,以使数据发挥更大作用、使用也更加便利高效。重要视频标志技术和已有执法子系统的自动关联技术、4G传输技术、车牌识别技术、人脸识别技术、大规模组网技术都逐步在执法记录仪及其系统解决方案中得到应用。这些技术有的侧重于所记录音视频的属性挖掘,有的侧重于音视频的实时传输,有的侧重于视频和照片内容中特定内容(比如人、车)的挖掘。但记录的音频、或音视频中的语音还没有得到足够的重视也缺乏深入的研究和应用。目前只有少数公司在这个方向上发展并提供了产品。一般来说,音频总时长大于(因为有单独录音)或者等于视频的总时长,音频可以提供大量的证据信息,需进一步探索其所含语音的业务价值点、业务应用模式、对执法记录仪和管理平台的要求以及整体解决方案。
1智能语音技术应用场景和价值
1.1语音控制
行标要求执法记录仪可以在全天候,包括白天夜间、高温低温(最低-30度)、晴天下雨等不同场景下使用。为了实现行标要求功能,一般的执法记录仪都至少具备开关机键(电源键)、摄像键、录音键、拍照健、重要视频标记健。因执法记录仪属于穿戴性设备,从佩戴舒适感考虑,需要尽量轻薄小巧。在比较小巧的执法记录仪上,按键都不会做得太大。普通执法记录仪使用时,执法者必须用双手按动不同按键方能开启或者关闭相应功能。但在全天候的场景里,很多情况下使用双手是不方便,甚至是不可行的。
雨天如执法者穿有透明雨衣,佩戴在肩章上或胸前的记录仪被遮挡,不易操作;低温下,如执法者戴有厚手套,也不便操作比较小的按键:手有污物的情况下,手动操作易造成脏污,后期需要清洁,增加工作量;黑夜里,按键更不易摸准;特别地,执行任务过程中,如执法者双手被占用,则不能操作。
在记录仪物理按键的基础上,执法记录仪可以实现语音控制功能,即执法记录仪能够识别执法者的语音命令词,如开关机、开始/停止摄像、开始/停止拍照、重要视频标记,识别后即可执行相应的操作。这样语音命令会代替按键操作,解放了执法者双手,克服了上述困难。
1.2敏感词识别
语音控制功能仅使得执法记录仪使用更方便,而敏感词识别则可以挖掘所记录的音视频中的重要语音信息,使得现场信息不仅能够被记录下来,而且在要用时还能够快速找得到,从而让这些信息发挥更大的证据作用。
在执法过程中,具有证据作用的往往是执法者和玻执法者发生冲突的情况下记录下来的音视频资料。冲突中人情绪激动,往往话语也有明显的暴力或者侮辱性的特征,比如“打人了”、“他妈的”关键性词语被称为敏感词。
记录仪实时监控预录模式下的声音,如果识别到敏感词则开启自动摄录功能,记录现场信息。同时将摄录的音视频文件属性标记为次重要视频(为了和执法者主动标记为重要视频的文件相区别),并记录下敏感词出现时的时间戳。如果在摄录过程中识别到敏感词,也做相同的标记。在后续使用时,可以进行敏感词搜索,根据音视频的重要属性和敏感词所在的时间戳准确定位到敏感词第一次出现时的音视频帧,从而可以快速看到音视频信息,也避免依靠人工进行大量的筛选。
特别地,在记录过程中,如果执法者语言不规范,则可以在不规范的敏感词被识别后,立即以声光电方式提醒执法者,起到规范执法者言语的作用。
1.3声纹识别
语音控制和语音识别都属于语义识别的范畴,只识别所录的声音的含义。声纹识别则是识别发出声音的人的身份。与指纹一样,任何两个人的声纹都是不同的,声纹识别通过对语音、特别是音色所包含的特征信息进行提取、以及和目标声纹进行比对,从而识别出发声者的身份。在进行识别时,如果限定发声内容,称之为文本相关的声纹识别,否则,则称之为文本无关的声纹识别。相较于文本相关的语音识别,文本无关的声纹识别难度更大,而记录仪记录的音视频中的语音信息,无法固定语音内容,属于后者。
对记录仪记录的音视频进行声纹识别,并和记录仪本身声纹库或者管理平台的声纹库进行比对,如果发声者属于目标人员,则可以进行告警或者提醒执法标记以及目标声纹出现时的时间戳标记,便于后续查找和使用。
2智能语音技术应用发展阶段
2.1应用成熟度
以上三种应用在技术要求、实现难度和成熟度上均不同,对于记录仪操作系统和应用配套环境的要求上也有很大差异,可以在记录仪中逐步实施。
语音控制只需要记录仪能够识别少数几个固定的命令词,命令词可以在产品开发期间录制好,无需后期改变。更重要的是由于指令发出者是执法者,执法者可以事先进行训练,在发音距离、语速、音量、口音等方面相对更为标准,这就避免了语音识别技术中较难解决的瓶颈点,达到较高识别率。而且,由于每次识别比对的目标词更少,所以程序规模小,对内存消耗只有几十KB,功耗小,对记录仪的续航时间没有大的影响。目前无论是国内还是进口的芯片都很成熟,一般支持嵌人式操作系统。和当前执法记录仪DSP主要采用的安霸等平台自带的操作系统RTOS相吻合,可以优先实施。目前市面可见的是深圳警翼智能科技股份公司的F5执法记录仪131。
敏感词识别则有很大不同。相同含义的敏感词词汇具有多样性,而且呈现地域性差异,所以敏感词识别需要识别和比对的词汇数量相对更多,甚至需要后期由执法者根据需要进行编辑,技术难度增大。敏感词识别不仅需要识别执法者的语音,还需要识别被执法者的语音,被执法者无法事先训练,在发音距离、语速、音量方面的非标准化对词语识别造成了很大的挑战。当语音是方言时,就需要记录仪语音识别软件具备智能识别功能或者事先进行机器学习甚至是深度学习训练。这类软件一般要求内存较大,CPU较强,而且一般都只支持Android操作系统。如需在主流执法记录仪的嵌入式系统上运行,则需进行SDK定制,费用大、周期长、成熟度差。另外对被执法者背景噪音影响的处理也是应用的一大挑战。但敏感词识别一旦实现,则具备支持词汇量大、可自由编辑、识别率更高的特点。同时能够解决对被执法者的方言语音的识别问题,目前市场上还没有见到能进行敏感词识别的录仪。
声纹识别在记录仪应用是文本无关的,难度也是所有应用中最高的。目前国内声纹识别支持厂家,比如得意音通、天聪智能等,要么只能提供服务器端的识别SDK,要么提供的终端侧识别的SDK不支持当前记录仪主流实时操作系统,只支持Android或IOS系统。这和记录仪的应用要求还有较大的距离。目前也未见厂家推出支持声纹识别的记录仪。
2.2离线、在线和混合模式
受限于记录仪内存、计算资源和功耗要求,记录义只能存储较少的语音识别对象。为提高识别率,支持大批量识别对象比对,则需要服务器端支持。而记录仪作为穿戴执法装备,是在运动过程中记录并发现重要证据信息,实时性要求很高。所以根据实时性,记录仪语音应用又分为离线识别、在线识别和混合识别三种。
离线识别适合语音控制和对方言等要求不高的敏感词识别,以及不支持4G或WIFI等实时通讯功能的传统执法记录仪。离线识别使用前需要先将对比目标存储到记录仪。因记录仪不需要支持4G或者WIFI功能,所以对记录仪功能、成本和功耗要求都较低。在线识端具备语音识别库或声纹识别库。大量的识别和比对在服务器端进行,可以充分利用服务器的资源优势和类似深度学习等更先进的算法,解决终端侧不能完成的类似方言识别、语种识别等难题。
在网络覆盖不好的情况下,离线识别会失效,为了尽可能地实现识别功能,需要支持离线在线的混合模式:优先用在线,在线服务不可用时用离线;或者离线服务优先比对高频目标,其余目标比对采用在线模式。
3智能语音技术应用对记录仪的要求
记录仪的操作系统和内存需要与语音应用SDK或芯片的要求相配合。同时在功能方面还要考虑以下因素:
3.1双咪降噪
语音识别的识别率和准确率是实现应用的基础采用双咪降噪的技术可以有效去除环境杂音,提高识别率和准确率。
3.2唤醒词定义
在几个控制命令中,“开机”以外的控制命令都是在记录仪开机状态下实现的,此时语音识别芯片或者算法处于激活状态,实现相对简单。但为了在关机状态下实现语音开机功能,就需要特别IC不断检测激活语音芯片的唤醒词(类似百度语音的唤醒词:小度小度),同时唤醒词也需要根据不同的使用场景进行定制。这需要额外硬件和特定技术支持。
3.3唤醒功能
普通执法记录仪的控制功能是通过按键实现的,主确率几乎是100%。而在语音控制的情况下,为了提醒使用者确认达到了使用目的,需要在识别到语音控制命令并进行控制操作时进行相应命令的播报,比如识别到“开始录像”命令并开始录像前则播报“开始录像”。这样在识别失效的情况下可以提醒使用者次尝试或者补救,以确保达到使用目的。
3.4敏感词编辑
语音控制命令一般是固定的,出厂时即已录制好。敏感词和声纹则需要根据不同地域或场景要求,支持查找、增加,删除这样的编辑功能。原则是在保证不占用更多内存,降低比对量的前提下,提高速度,识别和比对目标。
3.5标记
对于记录的音视频,在识别到敏感词时需要标记敏感词出现的时间戳,并将敏感词和时间截与识别的音视频上传到数据采集设备或者管理平台进行存储,这样在平台侧进行敏感词查找时就能快速找到敏感出现的音视频帧,回放证据。
以上是对离线和在线识别的普遍要求,如果要支持在线识别或者是混合识别,记录仪还需具备支持较大带宽的实时通讯功能:比如4G、WIFI。这样才能将要识别的音视频及时传到平台侧,进行在线比对。同时将比对结果回传到记录仪,进行相应的声光电提醒,比如提醒对已进行了声纹匹配的犯罪嫌疑人的重点关注或者采取进一步行动。
4智能语音技术在执法记录仪的应用系统架构
系统基本架构仍然遵从行标规定,物理上包含执法记录仪、执法数据采集设备和管理平台。为支持以上语音应用,还需增加部分功能模块,具体如图2所示(为叙述方便,本处仅以语音识别为例,声纹识别同理)。
4.1系统架构和功能模块组成
执法记录仪需要增加词库、判断模块和语音识别模块。词库负责存储控制命令和敏感词。判断模块用于判断识别模式。如果是在线识别,则负责调用实时通讯模块将音频传输到管理服务器,否则就在记录仪端进行识别。语音识别模块用于离线以及高频语音的识别,并对于识别后含有敏感词的的语音打上时间戳属性,将音视频文件标记为次重要文件,便于和普通音视频文件区别。
执法数据采集设备除了在和记录仪以及管理平台的数据接口中增加对于时间戳的支持外,其余符合行标规定即可。
管理服务器中的数据库要能够存储执法记录仪中的语音识别模块或者管理服务器中的语音识别模块返回的时间戳属性,以及集中存储或者混合存储模式时的重要音视频。对于已经识别了有敏感词的次重要音视频也建议采用和重要音视频相同的存储策略。流媒体服务器负责接收分发执法记录仪上传的实时音视频流。Web服务器含播放器,用于词库编辑、敏感词检索和音视频播放。管理服务器中的语音识别模块用于在线语音识别,在服务器更强大的资源支持下,识别的词汇量更大。
整个系统也可以通过管理服务器与上级平台或者其它第三方语音平台对接,实现对音视频数据的更高级管理。
4.2业务流程
系统启动后,根据各地对敏感词识别的不同需要,可以通过Web服务器对词库进行增、删、查询操作(步骤(1))。
当执法记录仪已经开机进行预录,或已在录制音视频,或接收到语音控制指令时(步骤(2)),判断模块调用语音识别模块进行识别,如果识别模块识别到输入语音是词库里的控制命令,则执行相应的操作,流程终止。如果不是控制命令,而且当前模式是离线模式或混合模式,或实时通讯网络异常,则调用执法记录仪中的语音识别模块进行比对。对比完成后,保存文件,如果识别到敏感词,还要增加敏感词所在音视频文件的时间戳属性,更改文件为次重要音视频(步骤(3))。如果当前模式是在线模式,或在混合模式下没有识别到输入语音,则调用实时通讯模块将音视频流传到流媒体服务器,并同时告知这些流的目的是进行语音识别(步骤(4))。
流媒体服务器将这些音视频流分发到服务器端的语音识别模块进行识别,如果识别到敏感词,要增加敏感词所在音视频文件的时间戳属性(步骤(5)),并把音视频的重要属性和时间戳属性写入服务器数据库。同时返回识别结果给执法记录仪(步骤(5)、步骤(4)),便于记录仪根据是否识别到敏感词将文件命名为次重要音视频,并记录时间戳信息。
在执法记录仪连接到采集设备时,执法记录仪中的音视频连同时间戳属性被采集(步骤(6)),文件索引信息连同时间戳属性上传到服务器数据库存储(步骤(7)),按照分布式存储,混合式存储或者集中存储要求存储音视频文件(步骤(8))。
在Web页面,进行敏感词输入并搜索,Web模块会调用数据库中文件,得到时间戳,在Web页面进行搜索记录显示。进行回放时,播放器会直接跳到敏感词所在音视频帧(步骤(9)),实现对证据的快速取证。
5结论
利用人工智能技术提升执法记录仪的功能和使用便利程度,是执法记录仪的发展趋势。当前业界对于执法记录仪的智能语音技术应用探索较少。本文总结了执法记录仪的语音应用场景,分析了业务发展阶段,重点讨论了语音应用对执法记录仪硬软件方面的要求,最后以语音识别为例,给出了语音应用的整体系统架构和业务实现流程。
执法记录仪的语音应用难点在于语音识别的准确度,特别是针对方言,这点依赖于执法记录仪硬件、全天候使用需求下各种技术的平衡、以及语音识别和声纹识别技术的发展。随着智能语音技术应用的深入,记录仪的应用便利性将进一步提升,记录的音视频数据也将发挥更大的作用。
参考文献:
[1]刘健楠.公安现场执法记录仪使用研究[J].湖北警官学院学报,2013(11):20-22.
[2]张海峰.执法记录仪在消防执法领域中的应用[J].消防技术与产品信息,2015(3):71-73.
[3]李樊.执法记录仪在交警执法过程中的重要作用和规范使用[J].汽车与安全,2016(1):47-49.
[4]陆顺华.执法记录仪在烟草专卖执法中的运用[C].中国烟草学会2016年度优秀论文汇编——专卖管理主题,2016:285-286
[5]施程龙.海事执法工作中执法记录仪的使用[J].中国海事,2014(8):24-25.
[6]王芮,徐果,田辰,等.卫生计生综合监督执法记录仪规范化使用管理分析与探讨[J].中国卫生法制,2017(02):45-48+73.
[7]深圳市乾坤公共安全研究院.树立中国执法新形象——执法记录仪行业发展报告[J].中国公共安全,2015(12):104-107.
[8]CoudertF,ButinD,LeMétayer,Daniel.Body-womcamerasforpoliceaccountability:Opportunitiesandrisks[J].ComputerLaw&SecurityReview,2015,31(6):749-762.
[9]中华人民共和国公安部.单警执法视音频记录系统GA/T947.1-4-2015.2015
[10]娄相春.具备4G实时传输功能的智能化执法记录仪[J].军民两用技术与产品,2016(24):86-87.
[11]吴瑞玉,华佳峰,程晨,等.“互联网+”信息技术在执法记录仪中的应用研究[J].中国公共安全(学术版),2016(4):135-138.
[12]CorsoJJ,AlahiA,GraumanK,etal.VideoAnalysisforBody-wornCamerasinLawEnforcement[J].2016:1-9.
来源:中国公共安全期刊