从用户层面上来看,无法找到数据或数据已损坏是硬盘完全失效前表现出来的主要故障形式,而这一问题一般就被归结为硬盘头盘界面问题。在硬盘故障机理研究领域,硬盘头盘间的磨损、过应力和磁头臂组件的共振这三种潜在故障机理风险最高,与之对应的头盘界面和磁头臂组件成了硬盘主要的故障源。
数字经济时代,数据具有基础性战略资源和关键性生产要素的双重属性,一方面,有价值的数据资源是催生和推动数字经济新产业、新业态、新模式发展的基础;另一方面,数据对其他生产要素具有乘数作用,可以利用数据实现供给与需求的精准对接、创新价值链流转方式,放大劳动力、资本等要素在社会各行业中的价值。数字经济规模高速增长,数据量将迎来进一步爆发,IDC预测2025 年全球数据量高达175ZB,数据存储的可靠与可用成为了数据经济时代的新挑战。
为数据选择合适的介质
存储介质作为数据存储的基础载体,并不是越贵越先进越好,而是根据应用环境,合理选择存储介质,才能保存好数据。目前常见的存储介质有:机械硬盘、固体硬盘、可记录光盘、闪存卡、磁带库等。在为数据选择存储介质时,要根据具体的应用特点、性能等需求,并要考虑成本等因素。
固态硬盘作为新兴的介质,虽起步较晚,但凭借性能优势,出货量占比的持续增长,价格持续优化,市场竞争力也在进一步提高,成为了企业核心应用数据存储的重要选择之一;但在大数据时代下,视频、音频、图片等非结构化数据的爆发式增长,考虑机械硬盘在保障企业数据生命周期上拥有过硬的寿命,也有存储容量与成本价格上的综合优势,机械硬盘目前仍是海量非结构化数据选择最广的存储介质。
为了提升这些需要存储在机械硬盘上数据的可靠可用,浪潮存储进行了关于硬盘与存储系统一系列的优化。
头盘界面是影响机械硬盘可靠性的主要因素
机械硬盘是一个涵盖电气、电子、磁学和机械领域的复杂系统,由磁头、磁盘、主轴电机等零部件组成。
磁头、磁盘和空气轴承共同构成了硬盘头盘界面( Head Disk Interface, HDI),作为硬盘执行读写数据的工作环境,其实时状态的好坏决定了硬盘能否正常为用户提供服务。头盘空间和飞行高度不仅影响信号的强度和分辨率,而且与硬盘的磁存储密度有着密切关系,随着磁存储密度的提高,头盘空间和飞行高度也相应地减小, 如今通过TFC(Thermal Fly-height Control Technology, 热飞高控制技术)已经能将头盘空间控制在1nm 左右,在极小空间,磁头磁盘难免会发生碰撞接触。
机械硬盘由于具有结构精密、复杂性高、耦合性强及抗冲击能力弱等特点,拥有多种潜在故障模式与机理,研究硬盘故障模式、原因、机理与可靠性试验已成为提高机械硬盘可靠性、保障存储系统稳定、数据安全的重要基础。
经过近十年的研究,硬盘头盘界面相关研究逐渐成为硬盘故障机理研究的热点方向,各硬盘厂商和国内外学者在硬盘故障机理方面进行了大量理论与试验研究。三星公司研究结果表明头盘界面故障是影响硬盘可靠性的主要因素,60%以上的故障与头盘界面有关;香港城市大学对硬盘的故障模式和机理进行分级排序,确定了硬盘的主要故障模式和机理为头盘间磨损、过应力和磁头臂组件的共振。
实际上,产品故障或失效一般可以分为渐变失效和突变失效两类,其中渐变失效在产品失效中占 70%~80%,是产品失效的主要形式。尽管机械硬盘拥有多种故障模式和机理,但统计发现超过 60%的故障是由机械故障导致的,而且机械故障是缓慢退化的过程,这对开展硬盘加速退化试验、故障预警和剩余寿命预测具有重要参考意义。
从用户层面上来看,无法找到数据或数据已损坏是硬盘完全失效前表现出来的主要故障形式,而这一问题一般就被归结为硬盘头盘界面问题。在硬盘故障机理研究领域,硬盘头盘间的磨损、过应力和磁头臂组件的共振这三种潜在故障机理风险最高,与之对应的头盘界面和磁头臂组件成了硬盘主要的故障源。
事实上,据三星公司统计,从硬盘加速寿命试验、可靠性验证试验以及现场反馈数据中反映出,头盘界面相关失效形式分别占到了各自总体失效的 64%、 77%和 64.6%,可以看出头盘界面是影响硬盘可靠性的主要因素,而头盘界面相关失效主要由头盘接触引起。
从介质和存储系统多层次保障数据可靠与可用
随着信息技术的快速发展,数据中心的数据越来越多,给存储系统可靠性和可用性的巨大挑战。为了构建高可靠、高可用的存储系统,系统设计者以及存储领域研究者越来越关注存储系统可靠性预测研究。
尤其存储系统的架构演变,存储组织和冗余布局也从设备(硬盘)视角变为数据(文件、对象)视角。但现有硬盘故障预测方法只是一种设备视角的可靠性动态评价,即孤立地给出硬盘个体的健康或潜在故障的评级,并未考虑它对系统(数据)可靠性的影响,如对于一个预警硬盘,如果它所属的某些校验组已经处于降级模式,只要再发生一个故障就会出现数据丢失,那么该预警硬盘的健康状况对系统可靠性的影响非常大;相反,如果它所属的校验组都处于完全健康的模式,可以容忍一个故障发生而不丢失数据,那么该预警盘的健康状况对系统可靠性的影响较小。因此,有效保障存储数据安全的故障预测,不仅要基于硬盘个体的实时健康度评价,更要结合硬盘在系统冗余布局中的角色,从存储介质和存储系统不同预测对象角度,综合评价硬盘潜在故障对系统可靠性的影响,这就相当于给存储系统带了"健康手环",为数据可靠性预警处理提供量化依据。
由于硬盘的TPI越来越高,飞高越来越低,轨道间距越来越窄,硬盘针对particle/contamination(颗粒/污染物)的敏感度越来越高。浪潮存储在和硬盘厂商在产线引入特有的测试方法,通过改变HDA内部的空气流动,将HDA腔体中散落在角落的particle/contamination搅动至磁碟表面,再通过磁臂的大幅摆动将尽可能多的污染颗粒吹至呼吸过滤器,减少头碟接触的风险;另外这种测试的引入也会尽可能在早期暴露因为游离颗粒产生的头碟接触风险,将因机械硬盘失效带来的数据丢失隐患降到更低。
为了保证硬盘生命周期内的可靠应用,浪潮存储通过上百次实验摸排存储系统的RV benchmark(旋转振动基准)去确认外界振动对机械硬盘和系统性能的影响,通过优化系统结构刚度,增加阻尼材料,吸震材料减少风扇振动对系统刚度的影响;同时从硬盘本体系统振型角度着手,通过检测系统功率谱识别设计结构中比较脆弱的频率段,通过和硬盘厂商技术合作,在伺服系统里增加前置反馈,notch filter(陷波滤波器)降低因为系统本身比较脆弱的抗冲击能力,增加整个系统的鲁棒性,改善硬盘的抗震性能,使硬盘在系统100%风扇转速,测试4种不同读写模式的IOPS吞吐量均可以维持在97%以上,有效保障数据的可靠、可用。
浪潮存储秉承"云存智用 运筹新数据"的存储理念,和合作伙伴一起合作进行技术创新,从介质、系统、应用全面的保障数据生命周期内的可靠、可用;未来浪潮存储从场景出发,持续打造"安全、可靠、经济、高效"的存储平台,加速企业数字化转型。