简单管理,高可靠,高密度,高性能,哈马德机场终于寻找到了理想中的监控数据管理方案,不仅仅降低了设备采购成本和管理成本;更使得能源消耗,机房空间占用至少降低了40%。随着监控数据的重要性不断提升,城市,机场,港口的监控系统都将进入新一轮的改造和升级。
客户背景
卡塔尔位于欧亚大陆中部,理所当然地成为众多旅行和商务人士的中转地。位于卡塔尔首都多哈的哈马德机场,占地2200公顷,在2014年4月30日正式启用,年均客流量为2900万人次,预计每年最多可处理5千万客流、32万架次航班,以及200万吨货物。哈马德机场被全球知名的航空公司服务质量评级机构Skytrax评定为年度五星级机场(超一流机场),是中东首家获此最高等级评定的机场。从高处看哈马德机场,这座银白色的新建筑就像波斯湾海滩卷起的一波海浪,在阳光下闪闪发光。
业务挑战
寻道,如何轻松管理海量数据
机场地域大、飞行区大、候机楼大、客货流量大、飞机起降量大,就如同一座“城市”,而国际机场更是对外开放的门户和对外交往的窗口。为了确保机场安全、有序、高效运行,安防工作一直是各大机场的重点工作之一,视频监控又是安防系统建设的重点。
截至2017年,哈马德机场已经部署一万多路高清摄像机,未来要进一步增加摄像机的数量,以实现360度无死角覆盖。另一方面,摄像机清晰度也需要逐步提升,实现从高清向4K演进。更重要的是,视频数据的保存时间将从当前的30天延长到120天。这些都将导致数据的爆炸性增长,预计5年内的存储需求高达69PB,若采用主流的4TB或6TB硬盘建设,需要10-20万块硬盘,约700多个机柜。如此海量的数据和设备,首先需要解决的问题是可管理性和可靠性。
具体而言,传统存储每个存储卷的容量通常仅数TB,单个文件系统也仅有几百TB。虽然当期数据规模只有10PB,但考虑到未来5年的数据总量需求,这意味着哈马德机场需要管理上万个存储卷或上千文件系统。如果按照这种方式来使用存储和管理数据,几乎是不可能完成的任务。
同时,数据的可靠性在过去是由RAID(Redundant array of independent disks)技术来保证,通常采用磁盘N+1或N+2冗余来对数据进行保护。如果一块硬盘故障,则系统可以将故障硬盘上的数据重构到热备份硬盘上。但是如果数据重构期间再次发生硬盘故障,则可能丢失数据。传统RAID技术每TB数据重构时间为10-20小时,6TB硬盘的重构大约需要60小时。当系统中有10万块硬盘时,按照业界年平均坏盘率3%来估算,每年失效的硬盘高达300块,平均每20小时就有一块硬盘失效。而完成失效硬盘上的数据重构需要60-120小时。数据丢失几成必然!
哈马德机场开始寻求上述问题的解决之道。来自全球多个国家的主流存储厂商、安防厂商给出了各种各样的方案。最终,基于分布式文件存储的方案凭借以下两个方面的能力脱颖而出。
首先,分布式文件存储技术将数百台存储硬件,组成一个高达几十甚至上百PB的单一系统,极大地降低了海量数据的管理复杂度。
其次,分布式文件存储通过数据分片技术,即分布式RAID,将原始视频数据和冗余校验数据均匀分布在多个设备、多块硬盘上,用户可以选择N+1、N+2、N+3、N+4等多种冗余策略。一旦某块硬盘失效,系统中的数十块甚至上百块硬盘都会参与数据重构,每TB数据重构时间从10-20小时缩短到1小时以内。即使是一块高达10TB容量的硬盘失效,其数据重构时间也低于10小时,比传统RAID重构一块1TB硬盘的时间还短。这使得数据可靠性得到了极大的提高。
受阻,性能成为新问题
可管理性、可靠性的问题解决了,但能耗、空间方面的挑战依然严峻。根据摩尔定律,全球计算机存储容量每18个月就提高一倍。哈马德机场希望磁盘容量的增长不仅满足摩尔定律,还要能够降低海量监控存储系统建设的TCO,所以开始探索大容量硬盘的建设。随着8TB、10TB硬盘相继面世,如果视频监控存储系统将单盘容量从6TB提升到10TB,则设备数量可减少,采购成本、机房空间、功耗都将大幅减少。
另一方面,在过去数十年的发展中,机械硬盘单位容量虽然持续提升,但单盘性能却基本没变。存储密度提升使得设备数量减少,这确实可以降低TCO,但新的问题也随之而来,比如上万路高清摄像机的7*24小时持续视频数据录入,需要几十Gbps的数据吞吐能力。单盘容量提升后,存储设备数量减少,还能满足上万路高清视频录入所需的性能吗?
哈马德机场首先基于8TB硬盘进行了尝试,但试用美国某厂商的分布式文件存储之后的结果却喜忧参半:如果视频数据保存120天,则8TB硬盘可以满足性能需求;如果只保存30天,性能需求就无法满足,录入视频时有丢帧。
这时,华为分布式文件存储OceanStor 9000带着容量更大的10TB硬盘方案,走进了哈马德机场的视野。
解决方案
成功,算法是关键
概念验证测试(POC)结果表明,华为分布式文件存储配合10TB硬盘,可以满足视频数据保存30天所需的性能需求,硬盘数量减少了40%,不但降低了采购成本,空间占用和能源消耗也同比降低40%。不仅如此,高达100PB的单一文件系统,使得数据可管理性得到大幅提升,即使未来扩展至69PB,也可以轻松应对;实测1TB数据重构仅用了50多分钟,存储系统和数据可用性也得到了大幅提升。
值得一提的是,不丢帧是如何做到的呢?
虽然分布式存储系统在处理大并发性能压力方面具有天然优势,但哈马德机场有1万多路高清摄像机,仅用了30多个节点,平均每节点需要承载接近400路高清视频,依然面临巨大压力。华为早就认识到只有通过提升存储系统的容量密度和性能,才能帮助客户应对监控视频存储数据爆炸性增长带来的挑战。海量视频数据持续不断写入存储系统,为了使每一帧画面都完整地保存到硬盘上,一定要使整个通道畅通无阻。
另外,要确保某些硬盘失效时数据依然可用,就需要把数据流截断,以便生成校验;而校验完成之后,又需要立即将数据和校验写入不同的硬盘中。这就如同在平静的河面上建起一座水坝,先蓄水然后周期性排空,浪涌由此产生。在下游建立缓冲,在数据流量和并发较小时,能够一定程度上规避浪涌带来的冲击;但数据流量和并发量特别大的时候,这个方案往往也无能为力。对此,华为开创性地将数据校验算法改造为无阻塞校验,这样就无需建立水坝,因数据浪涌导致的丢帧问题也就自然而然地解决了。
除校验算法上的优化以外,端到端的IO数据流优化也是帮助哈马德机场简化管理、降低TCO的关键。端到端的IO数据流优化包括:在以太网数据传输协议基础上,实现远程内存访问,可以极大地降低网络IO的时延;大容量非易失性写缓存,将离散的小块数据整合成连续读写,提升硬盘访问效率;以视频文件为单位进行数据布局优化,能减少硬盘内磁头寻址时间。上述一系列的技术优化,确保了极端压力情况下,视频数据录入依然不丢帧。哈马德机场POC测试表明,对每节点800路高清视频录入,华为分布式文件存储依然可以做到不丢帧。
客户收益
摄像机清晰度提升,监控死角的缩小乃至消失都将导致监控数据爆炸性增长;大数据,机器学习,人工智能技术不断发展,在加速监控数据从“存”到“用”,从“追溯”到“预防”的转变的同时,也呼唤监控数据从分散存储转变为大集中。从为了更好的应用这些数据加强安防保障,监控数据集中化势不可挡。如何高效、可靠的管理海量监控数据?这一问题亟待解决。
简单管理,高可靠,高密度,高性能,哈马德机场终于寻找到了理想中的监控数据管理方案,不仅仅降低了设备采购成本和管理成本;更使得能源消耗,机房空间占用至少降低了40%。随着监控数据的重要性不断提升,城市,机场,港口的监控系统都将进入新一轮的改造和升级。
哈马德机场通过与华为合作在视频监控存储系统中率先使用10TB硬盘,标志着视频监控系统的存储已进入超大容量硬盘的时代。未来的14TB,甚至更大容量的硬盘,将进一步简化海量视频数据管理。
华为2021世界安防博览会更多内容可扫下方二维码