举例来说,视频分析软件可以对文件中的图像进行标记,并赋以特定的索引以便存储和搜索。这听起来也许稀松平常,实现起来却有诸多挑战,但这意味着非结构化数据会变得极具价值。
根据IDC的最新报告《2021-2025年全球数据及存储领域结构化和非结构化数据预测(2021年7月)》,超过90%的现有数据是非结构化数据,并且在过去十年中大体保持不变。然而,随着元数据的增加,越来越多的非结构化数据被“驯服”并进入结构化数据范畴。
其中有一个关键的驱动因素,那便是新型软件的出现,它使得非结构化数据的内容能够得到分析并提供背景信息。举例来说,视频分析软件可以对文件中的图像进行标记,并赋以特定的索引以便存储和搜索。这听起来也许稀松平常,实现起来却有诸多挑战,但这意味着非结构化数据会变得极具价值。
我们先来了解几个定义。非结构化数据是指原始格式的信息,它通常驻留于采集的源头或附近。非结构化数据代表着采集的所有原始数据类型,包括尚未编目或分析的数据。而结构化数据则是有组织的定量数据,其中最为常见的是数字数据和文本数据,它们以某种标准格式存在于文件或记录的固定字段中。电子表格或关系型数据库中驻留的信息是结构化数据的典型例子。这种类型的结构使得我们在查找特定数据或信息组时能够简便地查询数据。
非结构化信息也称为定性数据,也就是说它只是观察或记录的信息。举例来说,工厂的物联网(IoT)传感器采集设备性能方面的数据,然后,这些信息被发送至
服务器,并以非结构化的格式进行存储,例如:PDF和视频文件。
非结构化数据的其他例子还包括卫星照片、天气报告、患者生物信号数据,以及尚未以有组织的方式标记或编目的视频图像。它们的共同点是数据均为被动采集和传输,没有预定义的组织格式。当非结构化数据作为海量数据集的一部分进行审查和理解时,它非常有助于发现大规模的发展趋势和构建预测模型,但为了业务目的而进行搜索和分析却比较困难。
结构化数据与非结构化数据的差异
结构化数据和非结构化数据之间的主要区别在于格式。非结构化数据以其原生格式存储,例如:PDF、视频和传感器输出。结构化数据严格以预定义的形式呈现,或者带有描述它的预定义能指,以便轻松置入表单、电子表格或关系型数据库。
非结构化数据通常存放于数据湖,所谓数据湖本质上是一个以各种格式存储原始数据的存储库。结构化数据则驻留于数据仓库,这种存储库只接受按照预定义规范格式化的数据。数据湖是一个存储非结构化数据的存储库,但它也可以存储结构化数据,而数据仓库只能存储有组织和格式化的结构化数据。
无论是在数据湖中还是在数据仓库中,信息都是存储于某种类型的数据库。其主要区别在于:结构化数据存储在关系型数据库中,以结构化查询语言(SQL)、PostgreSQL、MongoDB 等组织格式按行列进行存储。这些格式使得用户或机器搜索、整理和处理结构化数据变得非常简便。相比之下,非结构化数据则存储在非关系型数据库中,例如:NoSQL。
结构化、非结构化数据的
处理工具和技术
在分析方式以及处理和操作所需的工具和人员方面,这两种类型的数据也有所不同。非结构化数据通常借助数据堆叠、数据挖掘等技术进行分析,这些技术可以处理元数据并得出较为一般性的结论。结构化数据则多采用数学方法进行分析,例如:数据分类、聚类和回归分析。在工具和技术方面,结构化数据比较便于管理和使用分析工具。用于处理结构化数据的工具示例如下:
1、关系型数据库管理系统(RDBMS)
2、客户关系管理(CRM)
3、联机分析处理(OLAP)
4、联机事务处理(OLTP)
能够处理多种格式的大型数据集的软件,通常用于管理和分析非结构化数据。用于管理非结构化数据的工具示例如下:
1、NoSQL数据库管理系统(DBMS)
2、AI驱动型数据分析工具
3、数据可视化工具
非结构化数据通常需要由训练有素的专家进行管理,并且相较于结构化数据,其软件处理工具也须具备更高级的人工智能(AI)和预测建模功能。机器学习便是用于分析非结构化数据的技术策略之一。
非结构化数据的存储和移动
无论是原始的还是经过初步处理的视频图像,都需要占用大量的存储空间。这推动了以硬盘为中心的大容量存储系统的需求不断攀升,而硬盘技术的持续发展也使得进一步扩大容量成为了可能,从而继续提供显著的总体拥有成本优势。
在源头附近访问非结构化数据,并根据需要将其移动至各种私有及公共云数据中心以用于不同的目的,这种需求也推动着封闭、专有、孤立的IT架构向开放、可组合、混合式的IT架构转变,以便数据在分布式企业范围内自由而高效地移动。
大容量存储系统,例如希捷的新型Exos? CORVAULT?,可以将大量的非结构化数据存储于区域边缘和数据中心环境。这种高密度的存储系统可以基于希捷突破性的存储架构提供SAN级的性能,该架构融合了第六代VelosCT? ASIC、ADAPT纠删码数据保护和硬盘自主重建功能。
此外,希捷的新型Lyve Mobile等模块化存储解决方案还提供了一种更好的方式,通过道路运输将大量数据从一个存储位置物理移动至另一个存储位置。
结论
目前,两种类型的数据各有用途。非结构化数据是设备或软件的原始输出,这些采集来的信息以原始格式移动至数据湖。结构化数据以数字或文本格式进行组织,可以按预定义的参数进行编目、组织、重组和分析。
中国互联网行业正在处于高速发展期,根据国际数据公司(IDC)预测,到2023年,中国的数据量将达到40ZB,其中80%超过是非结构化数据。释放非结构化数据背后的价值成为国内互联网企业角逐的目标。随着越来越多的非结构化数据进入结构化IT环境,尤其是来自于大量物联网设备的流媒体数据和大量的标记视频数据,机构有机会将这些数据转化成为信息和知识。当非结构化数据作为海量数据集的一部分进行审查和理解时,非常有助于发现大规模的发展趋势和构建预测模型。具有远见卓识的人们可以从中获取全新的、创新的洞察力,以推出新产品和新服务,从而充分挖掘这口蕴藏丰富的智慧之井。