企业新闻 > 正文
用大数据建模给硬盘做实时体检 希捷与腾讯云是这样操作的
2020/10/12 10:24   希捷      关键字:大数据 硬盘 希捷 腾讯云      浏览量:
作为国内领先的云服务提供商,腾讯云对系统的稳定性和可靠性要求严苛。腾讯云与希捷合作,通过FARM定期对硬盘的健康数据抓取,实时监控硬盘的健康状态。一旦发现有任何异常,便会及时采取措施,提醒客户重新设计工作负载,未雨绸缪,保护关键业务的延续性。
  随着数据中心规模的扩张,用于存储数据的硬盘数量不断增长。云计算平台中要使用数以百万级的硬盘作为数据存储载体,高效、可靠又稳定的硬盘存储系统对于云服务的重要性不言而喻。

  正因为硬盘是云计算系统中最为重要的存储载体,硬盘的健康管理是云服务稳健可靠的根本。为此,希捷与腾讯云服务器运营团队在2018年开始在腾讯云的数据中心中部署了FARM技术,从而对云平台和数据中心的每一块硬盘进行实时的“体检”与健康管理。
  为什么FARM能够做到硬盘的健康状况预知?这项技术又是怎样被应用的?今天我们就来系统地为大家追根溯源,看看FARM究竟是一项什么神秘的黑科技?
  FARM是什么?
  一看见FARM这个词,大家很容易联想到风吹草低见牛羊。但真相是,FARM的全称为Field Accessibility Reliability Metrics,最早于2018年OCP峰会上提出,它的字面意思是 “终端客户可方便获取的硬盘可靠性指标”,是一种让用户以极其简单的方法获取硬盘全方面参数的日志。FARM的目的在于让云计算用户以此建立基于机器学习的健康监控或者预测模型,以及实时直观地获取数据中心中每一块硬盘的健康状况。
  在目前的硬盘运维实践中,硬盘的数据采集主要基于SMART体系(Self-Monitoring Analysis and Reporting Technology,即自动检测分析及报告技术)。它能分析并预警硬盘可能发生的问题。SMART体系自投入使用已有25年时间,可涵盖10多项的参数。
  FARM是对SMART体系的重大改良。FARM本身获取方便,参数覆盖广,可以说是超级加强版的SMART。FARM的120多项参数包含了硬盘更加底层的传感器和磁头级别的相关参数,以及飞行高度、工作负载、环境等使用状况的参数,并且已经在多个希捷产品上实施,给硬盘做详细的“全身体检”。

  FARM的结构简单、数据量小,在抓取参数时,不会影响到系统本身在运转的业务。客户可以通过非常细的粒度按需抓取数据,以自己所需的频次获取硬盘健康日志及大量数据,并通过大数据建模,进行监控和分析。

  通过定期的FARM数据抓取, 希捷与腾讯云基于云业务模型,利用定制机器学习算法,将硬盘健康度进行打分评估,提前识别高风险硬盘,尽快采取措施,做业务迁移、风险规划等,避免极低概率下硬盘批量失效而导致业务中断和数据丢失。

  FARM都记录些什么?
  让我们举些例子↓:
  硬盘信息:SN序列号、WWN全球唯一名字、容量等基本信息,以及磁头数量、马达等零部件的运行时间、最近一次的硬盘状态等。
  读写数据量:除读写LBA(逻辑区块地址)数量之外,还包含按类别统计的读写命令数量(总数,随机命令数,非读写命令数),以及最近几个小时内在磁碟不同区域的读写命令数量等。
  错误统计:除记录SMART已经包含的错误处理数据之外,还包含固件内部异常事件、读写重试、机构部件重试等。同时对于不可恢复的错误,按照读写分别统计。
  u 环境参数:记录外界环境相关参数,除温度之外,还包含湿度、5V/12V输入电压、马达电压等。
  可靠性参数:包含周期性及空闲时的后台评估、IDD(In Drive Diagnostic)、偏心率、以及磁头级别的底层参数——误码率、信道补偿、寻道错误率、磁阻、飞行高度等。

  未雨绸缪,助力客户业务发展
  腾讯云是国内首家部署FARM的企业。通过此项目,希捷联合腾讯云对其数据中心的硬盘运行数据进行实时检测,应用大数据建模分析存在失效风险的硬盘。
  作为国内领先的云服务提供商,腾讯云对系统的稳定性和可靠性要求严苛。腾讯云与希捷合作,通过FARM定期对硬盘的健康数据抓取,实时监控硬盘的健康状态。一旦发现有任何异常,便会及时采取措施,提醒客户重新设计工作负载,未雨绸缪,保护关键业务的延续性。

  伴随腾讯云业务规模的快速增长,以及双方合作的深入,双方将继续保持紧密的技术沟通,不断完善相关技术,为更多用户打造更为稳定和可靠的数据存储方案。
濠电姷鏁告慨浼村垂閻熷府鑰块弶鍫涘妽濞呯姵淇婇妶鍌氫壕闁告浜堕弻鐔告綇妤e啯顎嶉梺鍝勬媼閸撴岸骞堥妸銉建闁糕剝顨呯粻娲⒑閸︻厼鍘村ù婊冪埣瀵鏁撻悩鑼紲濠殿喗锕╅崢濂杆囬埡鍌滅瘈闁冲皝鍋撻柛鎰碘偓顖嗗洦鐓涢悘鐐存灮瀹搞儲銇勯幘鐐藉仮鐎规洏鍔戦、娆戠磼閵忥紕鏌堥梻鍌氬€烽懗鍓佸垝椤栫偑鈧啴宕ㄩ鍏兼そ婵″爼宕ㄩ埡鍐獥闂佺懓鍚嬮悾顏堝礉瀹€鈧惀顏囶樄闁哄本娲樺鍕醇濠靛棭鐎虫繝鐢靛仜閻楀﹤顭垮鈧﹢浣糕攽閻樿宸ラ柛鐕佸灦楠炴垿鏁愰崶鈺冿紳閻庡箍鍎遍幏瀣i搹鍦<閺夊牄鍔岀粭鎺擃殰椤忓啫宓嗘鐐叉喘椤㈡瑧绱掗姀鈱掋儲绻濋悽闈浶ユい锝勭矙閸┾偓妞ゆ巻鍋撻柛鐔锋健閸┾偓妞ゆ帒鍊搁崢瀛樻叏婵犲嫭鍤€妤楊亙鍗冲畷濂告偄閾氬倹鐫忓┑锛勫亼閸婃牠鎮уΔ鍛殞濡わ絽鍟崑鍌炴煕瀹€鈧崑鐐烘偂濞嗘劑浜滈柡鍌涘閹牆鈹戦埄鍐嚋缂佺粯鐩畷濂告偄妞嬪簼绱濋柣搴㈩問閸犳牠鎮ラ悡搴f殾婵せ鍋撴い銏℃瀹曘劑顢欓崲澶涚節濮婄粯鎷呴悷閭﹀殝缂備礁顑嗛崹鍧楀箚鐏炲墽鐟归柍褜鍓熼妴浣割潩妫版繃鏅㈤梺鍛婃处閸嬪棝鎮¢幋鐐电瘈闁汇垽娼у瓭闂佸摜鍣ラ崹鎯版閻熸粌绉归崺銉﹀緞閹邦剛顔掗梺鍛婂姇濡﹪宕濇径鎰拺闁硅偐鍋涙俊鐣岀磼椤旇偐肖缂侇喖顑夐獮鎺懳旀繝鍐╂珜闂備礁鎲¢崜顒勫川椤栨粌甯ㄧ紓鍌氬€搁崐椋庢閿熺姴鍨傛い鏍ㄧ矋椤洘銇勯弮鍌氫壕妞ゎ偅娲樼换婵嬫濞戝崬鍓遍梺鎼炲€曢崐鍧楀蓟閿熺姴绀冮柕濞垮劗閸嬫捇宕稿Δ鈧粈鍌炴煕閵夘喖澧柣鎾跺枑閵囧嫰顢曢銏犵缂備椒鑳堕崗姗€寮婚敐澶嬫櫆閻犳亽鍔庨悡鎾绘⒑鏉炴壆顦︾紒澶婄秺瀵偊骞樼紒妯绘闂佽法鍣﹂幏锟�010-88820951

微信扫描二维码,关注公众号。