本次活动邀请了大数据领域和大数据应用企业的技术人员、数据科学家们分享大数据预测技术上的实践与经验。希望通过本次活动达到跨界和跨行业的数据从业者的交流,碰撞出更多探索的火花。
与会嘉宾有:Dell中国解决方案事业部的高级顾问忽林安、Kyligence联合创始人兼CEO韩卿、上海势航网络车联网平台总监万佳驹、敬众科技总经理瞿天锋、“聚信立”运营副总裁喻昊旻、苏州朗动网络CTO刘培彬。
以下是“Dell中国解决方案事业部的高级顾问忽林安”在现场的精彩发言,数据猿编辑整理:
忽林安:大家好!前两位嘉宾基于大数据的研发、大数据的应用给大家做了案例的分享!我作为Dell的技术工程师今天跟大家主要分享一下我们大数据的IT平台是怎么搭建的,以及对于企业来说有什么样的作用。
我今天主题演讲主要分为五个内容:第一部分大数据到底是什么以及大数据对企业有什么影响。第二部分,谈谈目前大数据的市场规模是怎样的。第三部分,大数据整个行业目前状况如何。第四部分,关于Dell针对大数据整体的解决方案。第五部分,Dell大数据在做的一些成功的案例分享。
一、什么是大数据?大数据对企业有什么影响?
现在进入到第一个部分,关于大数据的定义,大数据的定义其实我们作为Dell工程师来说,主要有两个方面,刚才其他嘉宾也讲到,大数据现在数据量非常大,我们传统的数据库可能没有办法满足这种数据需求,所以从技术层面来说的话,是指它的数据量非常大,超过了传统数据库能够处理的数据范畴。
第二个是从企业业务层面来讲,从这方面出发对于大数据来说主要体现在两个价值:一个是分析使用,一个是二次开发。这个说白了也比较简单,好比我们经常在淘宝购物,你可能很喜欢某一款商品,淘宝或者京东会根据用户的行为分析帮你推送一些你喜欢的产品,其实这也是基于大数据的分析使用。关于大数据的二次开发也可以这样来讲,很多店家做产品营销的时候收集客户的行为报告包括消费习惯,然后做一些有价值的消费推广。
如果将大数据跟传统的数据相比的话,在四个方面有很大的不一样:
首先,体量比较大,传统的数据库,数据量上升到TB的级别,而现在进入互联网时代,数据处于膨胀的状态,我们数据量基本上都是在TB到PB以上。
第二点,大数据的增量比较快,传统数据库数据增长量不是特别大,大数据正常来说年增长率在60%以上。
第三点,大数据的类型是多样化的,传统的数据大部分是结构化的数据,现在一般大数据有很多比如说半结构化、结构化的数据,还有多维数据。
第四点,大数据的价值,传统的数据库出一些简单的报表,包括数据简单的统计,进入到现在的互联网时代,大数据对于企业起到的作用非常重要,除了传统的报表、统计功能,还有预测分析,包括图形、算法,包括数据建模。
我们戴尔公司在两年前也请一家第三方公司做了关于大数据对企业的分析报告,从这边来看有两个轴,第一个轴,很多公司如果利用这个数据分析做的比较好的话,企业增长率大概在14%左右。大数据如果利用不是很好,增长率是8%。如果数据用的好,不只是公司可以成长,我们营业额也可能达到70%以上的增长。
一家企业怎么利用这个数据驱动自己的核心竞争力呢?我的角度来看主要分为以下四个步骤:
第一个步骤,首先把各种数据源连接起来,我们传统的企业是一些传统的数据库,随着互联网的不断发展,有一些互联网上面的数据,包括平板,车载电脑,物联网,传感器,以及云上的数据都是非常多的,而且有各种数据源。
第二个步骤,数据源拿到之后把数据集成,建立统一的数据管理平台,包括有一些数据格式的转换。
第三个步骤,智能数据分析。
第四个步骤,分析结果。从这边来看有三家客户基本上通过大数据的分析使他们的营业额包括他们的成本得到一定的提升。
二、大数据市场规模
现在再讲一下第二个议题,目前来说整个大数据市场规模是怎样的。
从2011年大数据在中国的营业规模只有37.4亿人民币,但我们可以看到,预测到2018年有可能达到258.6亿人民币,相当于翻了六七倍。基本上大数据每年的增长额度在30%左右,也就是说这个行业是非常有朝气,并且非常具有成长性。
三、大数据行业现状
大数据的行业动态,这边做了一个大数据生态系统,最底层是做数据收集的公司,中间层面是数据管理公司,最上层是做数据使用的,我们可以很清楚的看到传统的像一些做操作系统的或者做数据库的大部分公司都在做数据收集、数据管理这一块。而行业客户、做大数据分析的则是在数据使用这一块。据我们现在统计,目前来说整个大数据生态系统里面大概有60%的企业都是在数据使用的。
如果从大数据的应用来看分为两个维度:第一个维度,垂直化应用。第二个维度,行业化应用。
垂直化应用:指的是某一些公司可能仅应用到某一个数据分析方面,好比刚才其他嘉宾也讲,他们在是应用在征信系统方面,而有一些大数据公司,则是应用在互联网流量分析,某一个应用做的比较好,变成垂直化应用的大数据公司。
行业化应用:还有一些企业规模更大一些,就成为了行业化应用的公司,从电信行业来看,比较知名的是华为。华为最早就是做电信社起家的,包括电信的硬件平台、软件平台都有搭建,所以在大数据行业方面也是做的比较出众的。还有一家公司是海航卫士,做安防行业的,最早也是我们Dell的客户,它的总部在杭州,起初是做安防摄像头,随着互联网、大数据兴起之后,它越做越大,除了有前端的摄像头,还会有整体的,包括视频管理整个的一套解决方案,包括也卖了很多行业的解决方案给客户,所以它在大数据这一块也是比较知名的一家公司。
四、Dell的大数据解决方案
Dell的大数据解决方案,我们分为三个层面,最上层是我们Dell的软件,最下面是我们的最佳实践。中间这层,是技术白皮书。我们简单来讲,比如说我们买一台电脑,一般有两种选择,第一种选择自己到电脑城去买,自己进行组装。还有一种选择,简单一点,直接买一个品牌电脑,不用想那么多,直接用就可以了。
Dell大数据解决方案也是一样,如果对于软件部分来说,我们针对一些什么客户呢?一些客户想做大数据,可能IT人员或者研发能力并不是很强,针对这部分客户,我们建议客户选择灰色方案,我们提供整体交钥匙的工程,客户从Dell这边买大数据的分析软件,包括网络调优、硬件配置、售后等等都是由Dell一站式的服务。
还有一些客户,好比两位嘉宾演讲的,一些客户在大数据上面的研发能力比较强、IT能力也比较强,我们提供蓝色部分,这部分的客户可以根据蓝色部分的架构,帮助自己来搭建大数据的平台。今天由于时间的关系,我着重讲两个地方:
开源
第一个关于开源这一块,我们Dell跟Cloudera是合作伙伴,因为Cloudera做Hadoop目前来说在整个Hadoop的行业市场占有率第一,大概市场覆盖率在60%左右,Hadoop的创始人,现在也在Cloudera任首席架构师。
一体机方案
第二部分着重讲一下我们Dell也有一体机的方案,SAP HANA的方案,今天时间关系,我把这两点做一下详细的介绍。
SAP HANA
SAP HANA实际上做什么的呢?它是一个商业智能分析一体机的平台,这个平台基本上我们可以看到它会把第三方的数据,包括客户的数据、需要分析的数据通过ETL工具上传到我们HANA分析的服务器上面,所有的数据库的分析、测试实时呈现给客户,速度是非常快的。2014年德国捧得世界杯,这个最大的功劳应该记在SAP HANA上面。德国夺得世界杯之前有采用SAP HANA的方案,把竞争对手包括自己球员所有的在场数据通过传感器收集起来,在平台上进行分析,分析之后马上给教练呈现出一个结果,比如说这个球员的状态到底好不好,能不能上场,包括竞争对手球员的分析都通过HANA实现。包括经常看NBA的知道,球员半场的信息,得分的信息,实时呈现出来都有HANA的功劳在里面。
我们可以看一下HANA这个部分跟我们Dell什么关系?我们跟SAP公司已经有18年的合作关系了,目前来说很多国内的厂商也跟SAP有过这样的合作,但合作的时间并不是这么长,经验可能没有那么丰富。
我们SAP HANA Dell的一体机有四个优势:
第一个优势,所有SAP HANA平台都有预先经过我们网络调优、硬件调优,包括出厂的时候把SAP应用程序一整套的安装上去。
第二个,我们有一个全面的集成,客户买到我们HANA一体机大数据分析平台,比较简单,拿到现场之后你只需要把电脑打开,把你的IP地址配好,基本上开机就可以用。
第三个,我们Dell针对SAP HANA一体机提供相应的软件支持,比如说有针对SAP整个程序性能监控的Foglight的软件,这个软件可以监控整个大数据平台的性能;还有Toad的数据库的管理,因为Toad这个管理工具是比较强的,很多数据库都可以支持;我们还有SharePlex数据库的软件,这个是比较好用的,因为现在很多大型规模的公司把原来的的数据库的数据迁到Hadoop上面,怎么迁呢?也需要利用到第三方工具,SharePlex就是一个很好的工具,可以把传统的数据迁移到Hadoop上面。
除了这些,最重要的是客户数据,我们也有备份一体机DR4100/6100。针对SAP我们有相应的服务团队,这个方案上线之前有售前工程师跟客户进行沟通,有专属的项目经理一起推动这个,包括我们后端的支持。SAP公司针对它的数据库把所有厂家的两路服务器做性能测试,不管是两路的R730,还是四路的服务器M830,包括四路的服务器,这个都是名列前茅的。
我总结一下Dell的SAP HANA解决方案:
第一个,预先预装的SAP HANA的软件,HANA一般跑在SUSE、RedHat Linux上面。第二个,Dell硬件,我们出厂基本上已经都配好了。
第三个,安装和配置服务。
最后是整体调优,架构服务。
关于Hadoop的解决方案
我们讲完SAP HANA方案之后,先着重讲一下关于Hadoop的解决方案。刚才我说了那么多做大数据的公司,大家做的行业都不一样,但是最终要做两个事情,数据的分析以及数据的处理,最终数据也要进行落地。落地就会涉及两个层面的内容,一个是我们看到的计算节点,一般要求你的计算速度比较快、效率比较高。存储节点要求你的读取,包括你的性能,存放的容量也比较大。
刚才很多嘉宾都讲了,我不详细多讲了,我多提一点,Hadoop最重要的是两个东西:一个是分布式的文件系统HDFS;还有一个MapReduce。一个是专门做计算,一个专门做整个数据的落地。
Hadoop的一般模型
一般从最底层的Hadoop的HDFS的文件系统,到上层的HBase的数据库,再往上是MapReduce分析计算的框架,最上面是管理、维护、配置的界面。
我们Dell也有针对关于Cloudera技术的白皮书,包括也有针对Hadoop最佳实践的部署文档。如果要部署一个Hadoop平台,基本上会涉及到,比如说最开始是一个比较小型的规模,到后面可能会越做越大。
简单来讲,如果是一个很小型规模的一个数据分析平台,我们一般有推荐的架构,比如说前端做计算的服务器,一般最少用五台R730,后面数据存储落地这一块建议用大容量的服务器R730xd建议用十台。每一个节点建议配置128G的内存。数据和数据之间交互比较多,所以我们一般建议数据节点之间通信搭配Dell测试过的S4810万兆的交换机。软件用Cloudera企业版,也可以用Cloudera的公开发行版。操作系统用RHEL的操作系统。这是一个完整的小型规模的Hadoop的逻辑架构图。
如果到中等规模,也有一个完整的架构图。到最大规模,使用的硬件跟这个软件其实都差不多,只是说节点的数量会多一点。我们戴尔有公布出来的最佳实践文档,客户懂Hadoop架构的话,完全可以按照这个文档搭建自己Hadoop的平台。
最后Hadoop这一块做下总结,Dell可以提供很多东西,前端的预测分析的软件,包括Hadoop的平台, Dell的服务器, Dell的交换机,以及Dell一整套的部署服务。
五、案例分享
到最后跟大家说一下我们Dell大数据的一些成功案例分享。
Dell
首先说一下我们Dell也是从互联网企业起家的,Dell最早卖电脑,在网上卖,没有实体店。我们有自己的市场部门、销售部门,去年的时候拿了SAP HANA最大的一个奖,这个系统专门用于我们Dell自己的营销决策系统,主要做什么呢?我们知道Dell公司非常大,在全球有十几万人。每年分为四个季度,现在是第三季度,基本上在第二个季度末我们公司就会做一些销售数据的分析包括市场信息的分析,通过这些分析的数据来制定下一个季度的计划是什么。我们在自己公司内部上了一套SAP HANA系统,这个系统在去年拿到了最佳创新奖。我们从自身开始做大数据,目前也已经做得比较好了。
1再讲我们中国的一个客户,因为涉及到客户授权的原因,没有办法把客户名称公布出来,这个客户的数据量是比较大的,可能已经超过60个TB,主表有180亿条记录,按照传统的架构它的数据库都在硬盘里面,如果计算出来一个数据分析的结果,基本上要在两个小时以上,并且有可能因为性能不够或者数据库的原因在中间断掉。后来采取了我们戴尔的SAP HANA一体机的解决方案,我们相当于把单个查询缩短到20秒之内。
SAP HANA在中国也做了很多个客户,各个行业都有,传统的制造业,比如说公牛电器。还有一般的商业客户,包括韵达快递。还有政府行业。这一块的客户还是比较多的,这种比较适合于一些IT力量不是很强,但是希望把大数据平台搭建起来的公司。
第二个案例
现在分享第二个案例,第二个案例是专门做互联网大数据分析,包括一些用户消费习惯分析的一家公司。这家公司是懂大数据技术的,特别互联网方面非常强。但是它有一点,整个公司的规模,百分之七八十的人属于研发人才,硬件人才、网络人才相对比较匮乏一些。因此就比较担心如果大数据的分析平台达到一定规模的时候,会出现问题。像12306这个平台,一开始还是比较稳定的,但为什么会到过节的时候很多人一上线,并发一多,这个平台就瘫掉了。做大数据研发,很多公司也会担心出现12306这种情况。为什么淘宝、阿里巴巴他们双11没有出现这个问题,因为他们的研发工程师非常强,不管是硬件还是软件,都比较强。
我们这边接到客户的需求,建议客户选择Cloudera的方案,也跟客户做一个深入的探讨。深入探讨之后最终客户就选择了用我们整套的软件、硬件,不管交换机还是网络,包括服务器,一整套的从Dell采购,最终这个平台成功上线了。
我这边总结一下,为什么客户选择我们呢?
第一个,我们是真正了解用户的痛点在什么地方,客户软件比较强,我们硬件架构比较强,可以做行业的互补。
第二点,解决方案成熟度比较高,因为我们选择Hadoop的合作伙伴,也是行业最强的,所以客户也是比较认可这一点。
第三点,客户认可我们关于大数据整个方案的观点,因为Dell针对大数据提供的平台其实有很多可选性,有一站式的平台,也有参考架构的平台,我们会帮助客户挑选最佳性价比的方案,并且我们选择的Hadoop方案也是没有任何硬件绑定的,对于客户后续升级、使用,也是比较方便。
除此之外,再跟大家说一下,我们做大数据不是一个人在战斗,我们在中国今年成立了一个大数据联盟,大家可以在这个网站上面注册。我们可以在上面干什么呢?看到大数据很多方面的技术文档的分享,这是第一点。第二点,上面有大数据的DEMO演示中心,包括大数据的测试。还有一点,上面也会经常举办一些关于大数据的线上、线下的活动。
我们Dell公司比较大,在全球有四个研发中心,17家全球解决方案中心,现在中国是一个比较重要的地区,我们这四个研发中心有一个在上海,全球解决方案中心也有两个在中国,也就是说我们从前期的方案研发,包括到中间方案的验证,以及后续的方案实施、测试,最后完整的文档都可以通过Dell来实现。
最后,因为很多人不一定很了解Dell公司,我这边跟大家再说一点。其实Dell在很多方面都是做的非常好的。第一点,我们在服务器的销售,不管是服务器销售额还是服务器销售的台数基本上在全球排名第一。存储,目前来说也是排名第一的。为什么这么讲?我们现在跟EMC也合并了,包括数据中心里面使用的服务器我们也是排名第一。搜索引擎,我们大家知道谷歌、百度,很多做搜索引擎的公司用的服务器,4/5用的都是Dell的。
关于企业支持,我们做了很多企业客户,在支持排名方面也是第一的。包括做公有云、私有云的很多厂商选用的服务器也是Dell的。但是有一些软件涉及到国家法规的规定,没有办法在中国地区销售,但我们软件这一块也是非常强的,我们在珠海也有软件的研发中心。还有3/4的社交媒体,facebook、腾讯也有很多采用Dell的产品。
我今天关于大数据的分享就到此结束了。谢谢大家!
微信扫描二维码,关注公众号。