破除存储神话 大数据的困难点在哪里?
2015/10/12 14:49 中关村在线 关键字:大数据,存储,难点 浏览量:
云计算、物联网时代的来临,大数据或者说是全部数据是如何收集的呢?得到这些数据量可能是一个吓人的整体,如何将他们变得更小更有用呢?
据Gartner称,到2018年,70%的Hadoop的部署将无法满足节约成本和增加收入的目的,这主要因为来自技能和整合方面的挑战。
技能和整合方面的挑战?目前所有厂商不是都生成能够使大数据轻松流畅的被使用吗?那么他的困难在哪里呢?下面就让我们来逐一来看。
收集数据
大数据或者说是全部数据是如何收集的呢?得到这些数据量可能是一个吓人的整体,如何将他们变得更小更有用呢?
在传统收集数据方面,例如,惠及、人力资源系统等的,这些交易系统已经很早就被用作数据源进行分析,ETL过程也非常到位。因为这些数据都是结构化的数据,所以相对起来更轻松容易。
云计算、物联网时代的来临,传感器和其它设备每天都会产生很多的数据,这些数据需要进行及时的收集,但是总体来说,这些数据通常还是非常标准版的,而上行数据转换的要求也并不巨大。
难点在非结构化数据方面,收集媒体文件、文本数据是大数据平台如Hadoop进行的。因为这些数据是非结构化数据,所以在存储方面,需要真正的了解数据,并弄清楚他们,给予适当的ETL工具和API接口,以及所需要的吞吐量,这些才是收集数据所面临的挑战。
存储数据
大数据平台是一个多类型产物,需要存储所有类型的数据,并且数据可以被表示出来。从简单的文件存储到复杂的非常规的数据存储,都需要进行存储。
由于大数据平台的设计理念,该平台是无限扩展的,他能够提供在云中的服务,具有非常好的弹性,至少,存储大数据来说是非常容易的。
然而存储数据最棘手的问题是如何使大数据平台在现实中应用,从核心的Hadoop平台,以及各种商业发行版以及数据库厂商提供的混合平台,有很多选择,很多价位,这对于企业来说,需要了解不同的变化,需要很深的技术水平。
使用数据
一旦你在数据平台中保存了所有的这些数据,那么你需要他们变换成你需要的核核对数据,并且确保跨多个源的一致性,保证数据的质量,这是大数据中最困难的部分。
如果你只需要在一个特定的额数据源上构建应用程序,或者在一直的数据上顶部做报告,anemia有许多解决方案能够自动化进行。
但是,当需要跨渠道的界限、探索和利用异构数据,这个时候对于企业用户往往是个难题,往往需要厂商的加入才能解决问题。
微信扫描二维码,关注公众号。