创新技术
破解政企数据治理难题,释放数据价值
打破数据孤岛、提升数据质量、促进数据共享、保障数据隐私与安全,挖掘数据价值,是政企数据治理的关键。
文/华为云Stack业务部副总裁、解决方案部部长 李金锋
据在2020年被首次增列为生产要素,与传统四大生产要素并列成第五大生产要素,已成为数字经济发展和科技创新的关键驱动力,也是迈向企业深度用云,实现数字化转型的关键。为了让数据发挥最大的价值,数据治理作为数智化战略的一项必要举措,大多数企业已纳入战略行动计划,业界也有“数字转型、治理先行”的说法。但是谈到数据治理,业界有一个普遍共识,那就是“数据治理说起来容易,做起来难”。怎么通过数据治理解决这些难题?数据治理究竟难在哪里?华为作为典型的非数字原生企业是如何应对的呢?本篇文章提供了一些经验与借鉴。
优质高效的数据资产是数字化转型的重要基石
2018到2021年间全球8300家标杆企业中,全面拥抱数字技术的前10%企业相比后25%企业营收增速超过5倍(如图1)。数字化转型浪潮下,数据资产将成为关键生产要素支撑未来数据产业化升级,是未来政企实现跨越式发展的必然选择。
图1 数据资产成为数字化转型基石
根据华为在政企行业多年的深入耕耘和自身转型的实践,我们发现,优质高效的数据底座,是保障政企运营效率持续提升和业务创新升级的重要基石。打破数据孤岛、确保数据质量、促进数据共享、保障数据隐私与安全,是政企数据治理的关键。当前很多企业数据体系建设呈现出“烟囱化”的趋势,为政企数据治理带来了四大挑战:
- 进不来:数据来源复杂,集成难;
- 质量差:数据质量要求高,规则校验多,落地难;
- 出不去:数据烟囱林立,业务和数据匹配难,共享难;
- 不放心:数据安全、交互风险高。
构建华为数据治理体系,践行数据清洁可信共享
经过十多年的实践,华为总结出一套数据治理架构(如图2),即
- 四层保障:政策保障、组织保障、流程保障和IT落地保障;
- 两个抓手:信息架构、数据质量,是实现数据清洁可信共享的核心手段。
通过四层保障和两个抓手,确保关键数据资产的有清晰的业务管理责任,IT落地有稳定清晰的原则依据,作业人员有规范的流程指导。遇到争议时有裁决和升级处理机制,治理过程有充足的人力、组织、预算保障。建立了有效的数据治理环境,数据的质量和安全得到了充分保障。实现了业务可视,支撑快速准确决策,通过业务规则数字化、算法化,实现业务自动化等。
图2 华为数据治理架构
治以致用,释放数据价值
华为云Stack通过数智融合集成服务创新(如图3),聚集华为和伙伴优势,面向政企构建懂政企、一站式、开放、智能、贴心的数据治理生产线,提升端到到数据治理10~20倍以上,帮助客户解决以下挑战,从体系,流程,平台和服务全方位实现数据治理从战略到执行。
进得来:工具化物理和逻辑数据集成保障数据全面入湖
非数字原生企业发展普遍有较长的历史,业务系统间存在大量复杂的集成和嵌套,数据来源多样,数据形成孤岛难以集中共享。
简单易用的多源异构数据批量和实时集成,通过提供可视化配置与迁移任务编排,将数据迁移和集成的效率提升数十倍。除主流关系型数据库支持外,还支持40余种同/异构数据源及三方大数据平台批量迁移入湖。工具化物理入湖与HetuEngine跨湖跨仓协同的逻辑入湖作为两种重要数据集成方式协同互补,满足数据联接和用户数据消费不同场景需求,支撑客户数据湖从离线走向实时,构建物理分散、逻辑统一的逻辑数据湖。
图3 华为云Stack数智融合集成服务
理得清:从源端架构到平台工具端到端数据质量保障
企业在运转过程中,需要定义业务流程中涉及的人、事、物资源,实施有效的数据治理,确保各类数据在企业业务单元间高效、准确地传递,让上下游流程快速执行和运作,解决企业长期存在信息架构(如图4)与IT开发实施“两张皮”的现象。通过数据质量规则的模板化,实现数据规范的内化,图形化质量作业配置实现数据规则稽核的落地实现数据质量清洗和改进,通过自动生成质量报告,实现数据质量度量和持续提升。
结合华为数据治理专家团队与项目实践经验,数据治理生产线聚合华为和伙伴优势,实现了一体化设计和开发,实现从数据集成到数据消费端到到的数据治理过程,同时辅以本地化贴心的数据治理服务、成熟项目管理机制和丰富的实践经验,支撑政企场景化数据治理。如在政务大数据中心通过一体化数据治理生产线平台和专业服务,完成多个委办局全量数据接入,落地数据分层架构模型设计,完成基础库与主题库的建设,实现委办局数据全流程生命周期设计与落地,助力领导决策支持、宏观经济云图和惠民APP示范应用系统上线。
出得去:通过数据服务和数据地图实现数据自助消费
数据底座建设的目标是便捷地支撑数据消费,确保用户安全可靠地获取数据,并通过灵活的数据分析等方式,按需快捷的消费数据。
数据服务实现服务化方式数据按需供应,通过服务化方式对外提供,用户不再直接集成数据,而是通过聚合应用模型可视化构建,涵盖API发布、管理、运维、售卖的全生命周期管理,作为业务的“可消费产品”的关键要素之一,解决了数据的可供应性。
数据地图可实现从查询到分析到使用一站式自助,以数据搜索为核心,综合反映数据的来源、数量、质量、分布、标准、流向、关联关系,满足多用户、多场景的数据消费需求,解决了数据“可搜索/可获取性”的难点问题。
用得安:从模型、制度到平台多维度打造立体化数据安全体系
安全能力模型评估是系统化安全管理的抓手,数据安全能力成熟度模型是数据安全建设中的系统化框架,围绕数据全生命周期,结合业务的需求以及监管法规的要求,持续不断的提升组织整体的数据安全能力,提升数据安全水平和行业竞争力,确保数据生产要素安全流通和数字经济健康发展。
从制度到工具和服务,系通过落地统一安全治理框架,数据安全治理需要从决策层到技术层,从管理制度到工具支撑和服务体系,自上而下形成贯穿整个组织架构的完整链条。企业组织内的各个层级之间需要对数据安全治理的目标达成共识,确保采取合理和适当的措施;数据治理生产线数据通过定义数据密级、认证数据源、对数据动静态脱敏及添加水印等方式有效保护数字资产安全。
人工智能和数据治理深度融合,构建智能新世界
企业数字化转型逐步进入深水区,如何提升海量数据治理的效率和准确率,如何将专家经验固化传递都面临巨大的挑战。人工智能与数据治理深度融合(如图5)将会开启数据治理的新阶段,通过AI加速企业数据生产要素的变现、进一步释放数据价值。
- 智能数据资产编目:基于AI的智能数据编目系统具备数据的学习、理解和推理能力,帮助团队实现数据自主、简化数据探索、实现重要数据资产智能编目推荐。
- 智能数据标准推荐/去重:通过机器学习技术,自动扫描元数据信息,提炼关键数据项,智能识别新增数据标准、冗余存量数据标准去重,提高智能化程度。
- 智能重复/异常数据检测:智能重复/异常数据检测技术,将数据根据相似读音、相似数据类型分组,通过模型计算相似度得分,超出规定阈值时,自动异常检测和识别。
- 智能主外键识别:通过筛选候选主外键时构造特征向量,并调用分类器智能判别该元数据是否为主外键,提升数据模型质量,进而优化和简化后续资产梳理和对外提供数据服务。
数据是物理世界、数字世界和认知世界相互联接转换的纽带,大规模数据交互将构成庞大的政企数据生态。政企数字化转型不能一蹴而就,数据治理亦非一朝一夕之功,治理的数据规模日趋庞大,类型千变万化,手段也更智能丰富,需要我们共同携手从制度、流程、技术、生态多维度一起努力,将智能技术和数智融合实操经验沉淀为服务,践行“一切皆服务”理念,持续赋能政企深度用云,跃升数字生产力,共同构建数据智能新世界。
- 标签:
- 云