一、什么是数据治理?
通俗的讲,传统数据治理就是指在什么情况下、用什么方式、由谁、对哪些数据、采取哪些行动。传统数据治理侧重于“治”和“理”,弱化“价值创造”。
▲传统数据治理流程
咨询设计和治理实施占人力投入与项目收入的80%,在整个数据治理过程中,存在三大业务痛点:
(1)人力投入大、能力门槛高
前期依赖治理专家做咨询设计,后期依赖开发专家做治理实施。治理专家要懂方法论、行业经验、数仓设计;开发专家要精通SQL\MR\Spark开发;
(2)工作模式周期长、流程重
传统数据治理工作都是瀑布型工作流程,先要进行详细的设计,然后按照设计进行实施,前后强依赖,用户有新需求就需要重新设计,不敏捷、效率低;
(3)数据分析程度浅
开发出来的数据90%以上还是BI分析为主,缺少深层次数据挖掘。
因此,企业进行数据治理时的核心诉求有三方面:
(1)降低人力投入
日趋复杂、规模庞大的数据自动化&可信度数字化转型要求必须基于AI能力来实现;
(2)降低能力门槛
数据治理需要变成人人可参与的工作,面向数据使用者提供技术工具;
(3)改进工作模式
直接面向业务人员的交互式推荐式的数据探索模式,瀑布式的流水线开发模式已不适应敏捷化需求。
二、为什么企业需要做数据治理?
随着数字化转型的深入,数据作为核心资产要驱动业务和释放价值,需要:
能进得来,各种大量、多样性、实时的数据源能被高效集成;
能放得下,海量数据长期存储的性价比高,不用做各种模式转换,易于分析计算;
能理得清,基于业界最佳实践建模,数据之间的关系清晰可见,含义简单易懂,质量问题及时发现;
能找得快,迅速找到需要的是数据资产,能快速分析出价值;
能用得好,数据价值显性化,快速响应业务需求,驱动经营完善。
然而要实现上述目标,还面临三大挑战:
(1)数据治理难
从数据到支撑业务的资产,传统数据库、数仓建模和知识图谱等技术无法满足企业全业务流程分析和决策需求,导致难以管理和分析海量异构数据,治理好的数据也难以和应用有效融合;
(2)众多的系统和复杂的架构
随着业务成长,需要管理众多系统如湖、仓、AI等;
(3)技术门槛高
大多数企业缺乏大数据相关人员,研发效率低,维护成本高。
三、DataArts让数据治理走向自动化、智能化
目前,数据治理生产线DataArts在华为内外部有丰富的实践。在内部,基于数据治理生产线DataArts,华为生产出10多万个高质量的数据资产;在外部,DataArts服务了1000家以上的政企客户,每天有千万级数据任务在云上运行。
华为云数据治理生产线DataArts可以帮助企业解决数据智能化面临的挑战,让数据发挥价值,并能契合企业数据治理的核心诉求。
所谓数据生产线,顾名思义,就像生产线一样,把海量的复杂的无序的数据,生产成为清洁透明高质量的数据能源,输送给业务。
华为云数据治理生产线DataArts可以帮助企业数据实时的入湖、分析、处理;具备AI能力实现智能化的数据准备与治理;拥有全链路数据安全管理,保护好隐私数据,对数据使用进行合规性审计;帮助企业沉淀数据资产,发挥数据价值,实现业务创新与发展。
简单来说,数据治理生产线DataArts改变了传统“人拉肩抗”的数据处理方式,帮助提升效率;降低技术门槛,让“人人都是分析师”;让“数据‘慧’说话”,驱动高效决策。
四、华为数据治理生产线DataArts新特性起底
(1)数据入湖过程中,自动元数据发现和表格化存储
支持OBS、HDFS/SFTP、Kafka、REST等数据存储上的文件、消息元数据自动发现;
自定义分类器,支持CSV、JSON、文本、Parquet、ORC、Hudi等半结构化数据进行Schema自动模式推断和提取;
构建表、字段、分区,并感知其变化等元数据信息,便于数据的搜索、计算和分析。
(2)智能增强的AutoETL能力,数据准备效率提升20%
融合code模式与no-code模式:支持no-code模式开发流/批数据处理作业,作业节点数量降低20%,数据作业开发效率由天级别降到小时/分钟级别;
丰富的数据处理算子库:支持清洗、过滤、合并、Join等数据处理类别10+,算子数量200+。
(3)智能增强的数据异常检测,提升数据质量稽核效率
通过模糊索引、模式挖掘等方法发现潜在重复数据区块;
通过相似性对比检查数据的语法差异,以及领域知识库的实体解析检查数据的语义差异;
支持实时采样计算数据质量预览,支持高性能扫描计算数据质量,万张表扫描速度提升5倍。
(4)企业级数据目录,像搜索引擎一样搜索和管理数据资产
企业级数据目录,面向多云多Region逻辑数据湖的统一数据目录,技术元数据自动同步更新,并与业务元数据和管理元数据信息关联;
智能推荐:支持以自然语义搜索,并智能给出搜索建议、资产推荐和排序;
360全景“实体-关系”知识图谱,自动发现数据联系。智能导航,路径分析、社群分析等高级图分析,1W+点图分析响应时间200ms以内。
(5)全链路数据安全保护,中心化安全策略治理,智能识别隐私数据
中心化数据安全治理,支持企业实现企业数据安全策略统一管控;
智能数据安全,内置GDPR安全规则库、支持数据访问权限控制、敏感数据自动识别,智能数据保护(加密、脱敏、水印);
全链路数据安全保障,数据集成、传输、存储、数据架构设计、开发准备、资产搜索、服务开放等全链路都集成了数据安全能力。