城市社会治安视频监控系统运维管理工作探讨
2014/7/31 09:54   C114中国通信网      关键字:治安视频监控系统,运维管理      浏览量:
由于视频监控系统前端设备24小时不间断运行在室外环境,因此故障类型和数量也不断增加,有些故障还会直接影响社会治安及城市管理工作,如何加强视频监控系统运维管理工作,已经成为公安科技工作者的一个重要研究课题。

  随着社会经济的不断发展,各级政府行政机关社会管理压力越来越大,视频监控系统作为一种非接触式社会管理手段,已经成为维护社会治安以及城市管理秩序的重要抓手。据初步统计,广州市全市共建视频监控摄像机26.8万台,2013年公安机关利用视频系统提供犯罪侦查线索3万多条,协助破获刑事案件逾万宗,利用视频系统纠正、查处各类交通违法行为300万多起,协助处理城市管理事务近1.6万宗。然而,由于视频监控系统前端设备24小时不间断运行在室外环境,因此故障类型和数量也不断增加,有些故障还会直接影响社会治安及城市管理工作,如何加强视频监控系统运维管理工作,已经成为公安科技工作者的一个重要研究课题。笔者所在的广州市视频建设办承担了全市视频监控系统的运维统筹及管理工作,在2013年启动了广州市社会治安及城市管理智能化视频系统运维管理中心及其软件平台建设工作,现将有关设想介绍如下:

  一、运维管理工作现状

  目前,广州市视频系统已有约4.2万路的摄像头接入,其中有1万路接入公安网和3.2万路是接入视频专网。根据视频系统规模不断扩大、联网结构越来越复杂、产品升级换代节奏加快、系统建设升级改造活动越来越频繁的形势,广州市视频系统相关维护工作还是以落后的人工方式进行管理。随着广州市视频监控系统建设的不断深入,涵盖的应用系统越来越多,而且涉及的硬件和软件资源也变得相当庞大而复杂,管理上目前还较为被动、不能及早消除各种故障隐患,运维压力在日渐增大,缺少全面的管理手段和工具。虽然现有的视频监控联网管理平台具有部分的运维功能,但其主要作用在于实现视频资源的联网。其故障检测模块功能一是为监控中心人员提供查看前端摄像机的运行状态。二是监控范围限于对前端摄像机的故障进行简单判别,无法检测各类存储设备、视频传输网络和设备、服务器设备、平台软件、客户端的设备以及机房中心环境等具有关联的设备运行状态和参数,并对故障进行定位。三是未能定义运行监控相关的业务和技术规范,定义事件告警、运维作业、服务考核的各类业务标准和规范。

  二、运维软件平台总体功能

  广州市视频专网共接入约6万路的摄像枪及1万个IT设备,根据《广州市社会治安与城市管理智能化视频系统建设规划》(2013—2016年)及实施方案的工作要求,按照“管理、业务、服务”的三个层面进行建设,建立一种以流程为导向,以业务为中心、注重服务意识的管理模式,提高系统维护效率、减低运维成本、完善系统建设和运维历史档案管理、监督系统维护工作、评估系统运行绩效、优化系统设计和保障系统持续良好运行,由广州市社会治安与城市管理智能化视频系统运维中心进行统筹、分析、分配运行维护事件,实现专业化、智能化、实时在线的运维管理系统,提高广州市视频资源整体的运营效率,提供具有针对性和科学性的运行维护服务解决方案。提高智能视频系统应用,提高社会面管控及维稳处突能力,提高城市现代化管理水平,为建设“智慧广州、幸福广州、平安广州”打下坚实的基础。

  三、需求分析

  (一)设备管理

  前端设备管理:主要是针对视频前端的摄像头和DVR。平台可以自动巡检前端设备的运行状态,并且对异常设备进行 分 析 告 警。通 过 智 能 化 的成 像 巡 检 技 术,平台对 前 端 设备的成像质量检查并分析。视频故障主要分为视频清晰度异常、视频亮度异常、视频偏色、视频条纹干扰、雪花干扰、场景变化、云镜控制失效、画面冻结和信号缺失等。平台也可手动巡检前端设备的运行状态,可以灵活调度分析诊断某个前端设备的成像质量。

  存储设备管理:网络存储设备(磁盘阵列、NVR、IPSAN等)的管理需采集到以下的数据指标参数,包括设备名称,IP地址,子网掩码,当前状态,网络设备类型,操作系统及操作系统版本等基本信息;以及CPU利用率、内存利用率、磁盘利用率等统计图表,及时的反应服务器设备资源的当前使用情况。流媒体服务管理,主要管理流媒体服务器的最大并发数目、聚合输出带宽、请求响应延时、服务器端丢包率、延迟抖动、CPU内存占用率等。

  服务器设备管理:管理全网的服务器设备,服务器管理可以支持WINDOWS、LINUX、UNIX等操作系统,主要对服务器的基本信息、服务器运行参数(包括CPU、内存、硬盘等)、服务器接口信息等进行管理。

  网络管理:管理所有网络设备,实现网络资源管理,管理网络配置;提供网络故障管理,及时发现故障原因,并且实时告警。同时对网络安全设备进行管理。

  (二)应用管理

  要求对中间件系统进行管理,检测中间件关键的运行状态和性能,支持的中间件系统类型包括:Tomcat、weblogic和websphere等。

  (三)业务管理

  实现业务视图定制、统一告警、权限控制、性能分析等功能。

  (四)报表管理

  提供各种报表,管理人员能根据这些报告准确评估整个IT环境运行情况,及早发现故障隐患和评估威胁。

  (五)视频运维计费管理

  目前的视频及IT设备主要由专门的运维公司来维护,然后根据周期内IT设备的运行维护情况来计算运维费用,通过计费管理功能模块记录并定义各运维商的计费规则,以及根据规则自动生成计费报表。结合需求,整个计费管理模块分为维护商管理、计费规则模板管理、计费报表。

  四、总体框架设计

  (一)运维管理中心平台

  运维管理中心平台跨越公安内网、视频专网两个网络,针对该两个网络中视频相关资源进行运维管理。在视频专网环境中建设总运维中心系统,在公安内网、视频专网分别部署支撑服务器做为数据采集端,各数据采集端采集所在网络的IT或者视频资源运行数据。公安内网采集端运维数据通过边界接入平台传入视频专网,最终所有采集端的运维数据统一接入总运维中心。

  数据采集端的部署点及采集范围主要按管理范围(区、市直单位或公安直属部门)和各范围内设备数量来计算分配。设备量相对较多的范围由一个数据采集端负责数据采集,而设备量相对较少的范围可由一个数据采集端负责多个范围的数据采集,做到资源按范围和设备量的合理分配。

  (二)运维管理中心平台软件架构

  视频系统运维管理中心平台采用B/S架构,采用J2EE架构平台,使用JAVA开发语言和XML技术,采用易扩展维护的组件模式构造系统;考虑到平台建设的易维护性以及未来长期可扩展性的要求,平台主要构建在安全、稳定的主流操作系统和中间件上,使用集群式的大型关系型数据库管理数据。

  整个平台软件架构分为五层,分别如下:网元层,即视频资源层,指与视频相关的前端设备、网络、服务器、应用系统等资源。数据采集层,对网元层资源的运行数据进行采集和存储。数据分析层,对数据采集层采集到的数据进行分析。数据业务层,将分析后的数据与各业务功能进行结合,形成各业务功能模块。数据展现层,通过显示器或者大屏将各业务信息展现出来。

  由于整个平台运维管理的视频资源繁多并分布多个网络,所以视频资源预警系统采用分布式架构部署。

  (三)总体设计方案

  运维管理中心平台按功能性质分为视频资源预警系统和视频运维服务管理系统两套子系统。视频资源预警系统负责对视频相关资源的运行数据进行采集、分析并生成告警;视频运维服务管理系统为运维人员提供集故障处理、运维流转、工作协同为一体的平台。

  1、视频资源预警系统

  (1)管理范围

  系统压力预警:系统压力包括服务器运行压力、网络带宽传输压力、设备工作温度压力、机房环境压力等,如服务器的CPU占用率、内存占用率、剩余硬盘容量、CPU温度值等。

  系统故障告警:含应用系统、操作系统、数据库以及中间件故障,包括客户端声光报警、手机短信报警、电子邮件报警等。设备故障报警:视频监控系统的后台各种硬件设备包括网络设备,以及前端接入的摄像机、卡口等设备,当这些设备发生故障时,告警管理模块能及时的发出告警信息。

  网络流量告警:通过网管系统接口,能实时的采集到视频专网的网络流量信息,当发生网络阻 塞或业务峰值时,能通过告警管理模块自动进行告警。

  (2)数据采集方式

  数据的来源主要分以下几种方式:主动方式,包括SNMP、JMX、JDBC、HTTP轮询方式;2)被动方式,包括Syslog、Trap方式;3)手动数据采集,手动数据采集就是在设备维护、检测、管理时候,实现即时获取数据并且把结果呈现。手动数据采集主要支持协议有:SNMP、JDBC、JMX、RTMP、HTTP等。

  (3)告警管理

  告警管理包括网络管理模块、服务器管理模块、数据库管理模块、中间件管理模块、安全产品管理模块以及流量管理模块的告警信息。所有告警信息可以根据故障严重程度、对业务影响范围以及客户具体要求进行分级告警,告警生命周期管理。

  告警分级管理:系统可以自动区分事件不同的严重性和优先级别,使系统管理员可以迅速地把注意力放在重要的告警事件上,实现高效的分层告警管理,并以不同颜色的图标加以区分。

  告警升级管理:可以定义事件自动升级处理的阀值;能够基于时间信息升级处理;当事件处理超过预期时限,根据预定义的升级条件,能够将该事件自动/手工升级到指定的人员。

  预警流程管理:

  预警管理:提供建立故障预警管理,通过设置“阀值”,可以不断监测设备负载是否超标(CPU负载/Mem利用率)、线路流量是否正常,端口是否有持续的错包等现象,同时系统会发出告警 信息,分析判断网络的安 全状 态,分析非法入侵、攻击、病 毒、物理故障等。

  业务管理:业务管理模块可实现业务视图定制、统一告警、权限控制、性能分析等。

  (4)性能分析报表管理

  性能分析报表是一个依赖监测数据,然后把数据整合并且与基准值对比,最终形成对整个视频系统的健康情况的整体评分审查。以宏观角度对视频系统进行全面分析,提供性能分析描述建议,得到整个视频系统的运行情况,找到视频系统的性能瓶颈。

  性能分析报表的主要包括:指标生成、基准值设置、分数值设置、性能评分、预设评分表格等。

  (5)设备关系分析引擎

  关系分析引擎可以让网络管理摆脱传统一个个网元孤立的管理模式,通过网元的关系做为基础的地图,把告警信息通过基础信息全面提供告警分析。关系分析引擎可以让管理人员减少关系分析人手判断操作,自动化从海量信息筛选出设备信息。

  关系分析引擎是业务管理、性能分析和告警管理等智能分析基础引擎。通过自动发现,平台可以获取到主要视频系统的设备的部分关系。自动发现可以获取到网元管理主要有依赖关系和连接关系。管理人员可以通过手动维护设备的包含关系和关联关系。每当设备产生一条告警时候,就会进入关系分析引擎中,关系分析引擎就会遍历设备的关系,最终找出告警关系。

  2、视频运维服务管理系统

  (1)资产管理

  资产登记:对系统所有设备建立台帐,包括设备编号、设备分类、设备名称、设备型号、保管人、使用状态、设备折旧、特种设备等。

  资产使用:系统应实现对资产的采购、入库、维修、借调、领 用、折 旧、报 废 等 生命周 期 各 阶 段 的 管 理 功 能。

  备品与库存:备件管理(入库管理、出库管理、保管复核、库 存盘 点、备 件 信息、统计报 表)、工具管 理、废品记录、材料管理、耗材管理、备用库管理。

  资产配置:动态资产信息管理在静态资产信息管理的基础上应支持资产信息的自动发现和采集,资产信息的自动同步和更新。

  资产统计:能够录入、修改和查询每台监控设备的品牌、型号、编号、产品序列号、规格、供货商、联系方式、采购时间、保修期限等设备相关信息;

  (2)设备管理

  网络拓扑管理:系统以图形方式呈现视频监控系统基础设施和应用系统的信息。能够动态实时显示各类资源的运行状态,方便用户直观地了解资源的分布与状态信息以及对网络中的资源进行监控。各类视图之间应能灵活进行关联。系统支持网络拓扑图、机架视图、设备面板图、应用拓扑视图等。

  视频信号管理:对视频信号丢失、遮挡的监测,通过视频信号质量分析引擎,对视频信号的干扰、聚焦模糊、偏色、过白、过黑等信号异常进行轮巡检测,判定故障级别;

  存储设备状态管理:对存储设备在线状态、硬盘工作状态、硬盘容量、在线用户数等状态参数 进行监测;

  交换机、光端机状态管理:利用交换机、光端机提供的网管端口和网管协议对交换机的工作状态进行监测;

  服务器管理:对服务器的CPU和内存占用率、CPU温度、硬盘容量、空闲硬盘容量、程序进程数量等进行实时监测;

  录像存储状态管理:对存储录像资料进行自动检查,与录像计划进行比对,发现遗漏录像自动告警;

  应用系统管理:通过图表、图形界面直观显示运维管理平台数据库、应用服务器、WEB服务器以及各种后台服务的运行状态的监控。

  (3)工作台

  工作台是用户登录系统后所有功能的入口,为常用功能操作提供快捷方式。主要用于IT资源用户报告事故、运维服务请求和IT运维人员快速解决事故与响应服务请求,不同职责用户拥有不同的工作台功能和职责。

  工作台主要内容如下:事件申请、问题申请、变更申请、知识库查询等快捷操作。

  (4)事件管理

  事件登记:工作台值 班 人 员在收 到服 务 请 求、报 障、告警等信息或者收到视频资源管理预警系统的告警时,判断如果需要申请为事件,则进行事件登记,事件登记后进入事件管理流程。

  事件分配:在事件登记之后工作台值班人员对事件进行分配,根据事件详情将事件分配给合适的运维工程师或者运维商。

  事件接收:运维工程师或运维商收到事件后对其进行接收,接收后则说明开始处理。

  提交处理:事件接收人处理完事件后对该事件的处理结果进行提交。

  核实处理结果:工作台值班人员对提交处理结果的事件进行核实,如果处理好则结束事件,否则重新进入事件分配环节重新处理。

  事件结束:事件结束后事件则变为结束状态。

  (5)远程操作及管理

  远程重启:远程对工作不正常的设备进行重启,使其恢复正常工作。

  远程校时:对某台、某组或全部设备进行统一的远程校时,使系统时钟保持一致性。

  远程协作管理:对于紧靠运维外包服务商无法判断和处理的告警和故障信息、运维作业,运维管理中心人员可通过此模块发布协作任务到外部门户,收集外部设备厂商、外包服务商等多个方面的协作诊断反馈和故障处理办法的反馈意见,协 作反馈信息将同时推 送 给现场维护人 员。

  (6)问题管理

  问题管理的任务是将一系列事件变为一个已知的问题。一个已知问题是一个经过调查的事件,该事件有临时解决方案且潜在永久解决方案,但永久解决方案尚未实施。已知问题和他们的临时解决方案可供事件管理使用。

  问题管理的主要目标是找到系统所管理的IT资源所存在的问题、防止事件发生,提升事件管理的故障解决率,提升整体服务质量,从根源上解决问题。

  (7)变更管理

  变更管理的首要任务是降低与变更相关的风险,从而降低由于变更导致服务故障的可能性。

  变更管理检验变更计划,评估变更相关的影响和风险。只有变更和实施计划合理才可批准投入实施。

  变更管理需要进行配置才能生效,因此它与配置管理的一体化集成必不可少。变更管理从CMDB获取关于配置项变更的详细信息。实施变更后,CMDB也需要相应的进行更新。

  (8)知识库管理

  建立完善的知识库管理系统,使得运维人员可以获得最直接的专家帮助,可以最大程度协助运维人员方便、快捷的协助用户解决问题,提高IT服务效率和质量。

  知识库支持多层次分类,不同的权限可见范围也不一样。并提供收藏功能,用户对于自己比较感兴趣或者常用的知识进行收藏,以便以后能快速查找。

  (9)巡检管理

  以模板的方式定制巡检任务,可按半月、月、季度、半年、年等定义巡检周期,设置好巡检模板后系统根据周期自动生成巡检记录,并在周期结束时自动获取模板中指定的相关指标数据形成巡检记录报表,最后由运维人员对巡检结果进行确认。

  (10)公告及信息管理

  发布通知、公告、活动、政策法规等信息,使用富文本编辑器编辑信息,达到可见即可得效果,支持文字、表格、图片、flash和附件等多种内容展现方式,展现形式自由丰富。

  通过栏目设置对信息进行分类,栏目支持多层次,不同栏目可设置不同管理员,由管理员进行信息发布及管理。

  (11)运维报表管理

  提供多种运维报表,对事件、问题、变更和资产等运维信息进行统计,支持表格、图形等多种方式展现。   可以通过日、周、月、季度、半年、年以及自定义时间段等时间设置对各统计报表进行查询。

  包括以下几种统计报表:整体运维报表、工单办结统计、知识库更新率统计、资产运维统计、资产状态统计、巡检统计。   (12)工作流管理

  通过工作流管理模块自定义运维服务流程,系统管理员可根据实际工作流程的需求灵活的定制各运维服务流程。工作流管理包括流程分类、发布流程定义、流程设计、流程权限配置、流程表单配置、流程实例管理等主要功能。

  提供流程定义的流程图及定义XML文件的查看,工作流引擎支持并行、串行、转发、委托、指定接收人等复杂的流程功能。含流程设计、流程权限配置、流程表单配置、流程实例管理。

  (13)运维工单管理在系统的使用过程中,根据不同时期的需求可能需要修改最初的运维工单,通过运维工单管理模块简化运维工单的设 计 和 修 改 等 功 能。系 统管 理 员不用 依 赖 开发 人 员,自己即可设计和修改运维工单模板,达到运维工单的自定义。

  (14)视频运维计费管理

  目前的视频及IT设备主要由专门的运维公司来维护,然后根据周期内IT设备的运行维护情况来计算运维费用,通过计费管理功能模块记录并定义各运维商的计费规则,以及根据规则自动生成计费报表。结合需求,整个计费管理模块分为以下几个大功能点:运维商管理、计费规则模板管理、计费报表

  (15)考核管理

  外部服务商管理:对不同的外包运维服务商进行资料的维护和更新,关联记录外包服务商的负责人联系方式、外包服务合同要点、有效期、服务范围、服务承诺等。

  设备厂商管理:对当前所用到的设备厂商进行资料的维护和更新,关联记录设备商的技术支持服务获取方式、供货商的商务负责人、技术负责人、免维承诺条款等。

  服务绩效评估模型:按照对设备供货商和运维外包服务商的服务考核评估标准,定义服务绩效评估模型的指标项、权重、采集方式、计算模型、统计周期等。

  服务绩效评估:按照设备、设备商、运维服务商、运维人员、各分局等多个维度对设备完好率、故障率、平均无故障时间、响应时效性、按期完成率等实现多个维度的服务绩效评估图表分析,可生成绩效考核报表。

  (16)系统管理

  权限管理:用户进入门户系统时,系统的访问控制功能对访问者进行身份认证,合法用户将被赋予相应的门户访问权限。

  角色管理:角色管理功能是对系统内各类角色的管理,提供对角色属性的编辑、浏览功能。可以将属于该角色的操作员加入角色群组中。

  组织机构管理:定义并维护平台使用范围的组织机构,与实际组织机构进行结合设置,支持多层次维护。

  用户管理:操作员管理功能是提供给系统管理员为系统所有操作员基本信息维护管理的地方,功能包括增加、删除、修改、禁用、启用操作员。

  日志管理:日志管理包括安全日志管理,系统日志管理和数据处理日志管理。可提供系统完整的操作日志。

  系统配置:定义运维管理平台各类可配置的参数,如数据采集间隔、故障告警阈值、故障类型定义、告警模型定义、运维流程定义等等。

  3、分布式采集运算支撑服务平台

  由于整个平台运维管理的视频资源繁多并分步多个网络,所以视频资源预警系统采用分布式架构部署,在总运维中心部署总服务端,在需采集数据的各网络中搭建一到多台支撑服务器,部署视频资源预警系统数据采集支撑端。各网络环境中采集支撑端数量根据对应的视频资源数量进行计算得来。各采集支撑端对所在网络内的视频资源运行数据进行采集分析,最终统一汇总到总服务端,对其进行统一展现。

  (1) 业务建模

  综合运维管理平台系统提供动态的配置模型构建,借鉴业界通用标准DMTF的数据模型,基于面向对象技术,满足配置项多级分类、属性继承、关系建模、字典维护,并需要提供CI唯一性建模规则,系统可以灵活进行扩展,从而实现CMDB配置管理数据库结构的定义、配置元素结构的设定。

  动态配置模型依靠其独有的动态模型组装技术可以避免频繁二次开发带来的问题,通过其动态的装配,可以为用户随需定义符合管理需要的数据模型。

  (2) 数据采集

  配置项采集接口收集到来自监控系统(配置数据分析处理模块)、手工录入或者批量导入、第三方系统输入的配置数据后进行检查处理,然后将配置项数据写入配置库的“采集区”。

  (3) 配置项维护

  配置项维护模块主要提供配置项的人工维护功能,包括:基于类型继承树的导航查看和维护功能、自定义查询条件的导航查看和维护功能、配置项变更审核功能、配置项信息导入导出功能。

  (4) 可视化展现

  以Flash图形化技术展现各配置项的关联关系,并提供配置项详情的查看和维护功能。在可视化查看器里,可以查看到每个配置项以及和其有关系的配置项信息,查看的关系层次数可自行设定,另外可以从图中看出配置项之间的依赖关系。

  (5) 视图编辑展现平台

  视图编辑展现平台是以统一资源配置数据库为数据源的综合展现定制工具,实现各类设备监控和资源展现视图设计;综合展现定制平台的Web前端采用FLEX技术,能够根据设定在用户客户端就自动生成很漂亮的动态图表,为用户提供非常实用的客户体验。

  4 、与第三方系统接口设计

  与GIS系统的对接:只需访问视频监控预警及运维服务管理平台的界面即可完成与视频资源运维有关的GIS操作,GIS管理平台在后台运行,实现界面统一。

  与视频联网管理平台的对接:实现从视频联网管理平台获取视频流、视频图片的数据,通过对视频流和视频图片的成像质量检查并分析,形成诊断结果反馈至视频联网管理平台,并对异常设备分析告警。

  与卡口系统的对接:实现从卡口系统中获取视频图片及数据,通过对视频图片的成像质量进行诊断,并将诊断结果反馈至卡口系统,且对异常设备发出告警。

  五、总结

  广州市社会治安与城市管理智能化视频系统运维管理中心是建立一种以流程为导向,以业务为中心、注重服务意识的管理模式,实现应用与IT技术的高度整合,提高广州市视频资源整体的运营效率。并且实现了三个转变,一是变手工维护为机器自动运维,二是变被动响应为主动维护,三是变粗放管理为标准流程化管理,提高了运维效率及系统完好率,降低了视频运维成本,延长了系统使用寿命。

微信扫描二维码,关注公众号。