主页 > 工具 >
自然资源数据治理-治理工具
发布日期:2022-05-12 09:30   来源:未知   阅读:

  谈谈对于作为数据治理解决方案重要组成部分的数据治理工具的几点认知和理解。

  上一期文章谈了数据治理内容领域,今天谈谈数据治理工具。在过去几年,数慧有幸参与建设了几个自然资源领域的数据治理项目,发觉不少人对作为数据治理解决方案重要组成部分的数据治理工具,还是存在一些误解,在此谈几点认识和理解。

  很多人认为,以前没有用数据治理工具,数据管理也做得挺好的;还有认为,通过人员岗位、管控机制,就可以解决数据治理问题,从而得出,IT工具最多起到20%-30%的作用,有的在ppt或文章中专门写出来了。

  持这种观点的人认为,只要用了数据治理工具,所有问题都解决了,其他的事情就很简单了,尤其负责信息化的很多管理人员,觉得上个数据治理平台就解决了所有的数据问题。

  以上观点都有些片面,数据治理工具发挥价值,要看具体情况,要分类别、分阶段:

  如果是中小城市的自然资源局,核心系统不多,数据量不大,做好现有业务系统数据进行管理,确实没有必要采用数据治理工具;但对信息化起步比较早,业务系统繁多,数据种类复杂的中高级用户来说,把元数据维护更新、数据质量监控处理,仅靠人工、机制,肯定是不行的。

  数据治理是个持续性的工作,也要分阶段实施的,初始阶段,需要以人力为主的实施进行,流程化规范化后,以软件工具为主,越到后期,其价值作用越大,适合这种规则明确的重复性工作量大的工作。

  言而总之,数据治理是个持续性、系统性工作,是一个从上至下指导,从下而上推进的工作,不仅仅是工具技术,更多是组织、制度、流程、技术的组合,牵涉到很多层面工作,单纯某一项工作是不够的。

  数据治理工具,用于落实数据管理体系,实现数据管理自动化,提高数据管理效率,确保数据质量、实现安全数据共享,那到底需要什么类型的工具呢?下面从两个角度谈谈:

  主要包括数据治理门户、元数据管理、数据模型管理、数据质量管理、主数据管理、数据指标、数据标准、数据安全、数据集成、基础服务等,这些功能组件,通过微服务相关技术开发实现,可以单独呈现,也可以相互结合在一起,形成统一的治理平台,其核心模块有:

  元数据管理:目标是对数据分布及产生过程进行管理,主要包括:元数据采集,适应异构环境,支持从传统关系型数据库和大数据平台中采集从数据产生系统到数据加工处理系统到数据应用报表系统的全量元数据,包括过程中的数据实体(系统、库、表、字段的描述)以及数据实体加工处理过程中的逻辑,也可通过自动化的方式完成元数据采集;元数据展示,能够根据类别、类型等信息展示各个数据实体的信息及其分布情况,展示数据实体间的组合、依赖关系,以及数据实体加工处理上下游的逻辑关系;元数据应用能够利用元数据发现数据之间的关联性,一般包括数据地图、数据血缘分析、影响分析、全链分析、热度分析等;元数据搜索,可根据数据源库、类型等搜索元数据信息。

  指标管理:目标是实现对业务指标的管理,便于后续分析展现,主要包括:指标定义,包含指标主题分类、各业务域的具体指标定义、指标属性及模型管理。包含对指标的批量管理以及主题(即指标树)维护,其中主题维护主要包括对主题、一级主题、二级主题的维护;指标维度管理:主要是设置的时间维度、空间维度、层次维度等维度的信息和所含具体维度进行管理;指标维护,包括指标新增、修改、删除、审批、冻结、解冻、发布(分发)、导出等部分组成一个有机的整体,不同用户可根据自己的用户权限对数据指标进行申请、修改、查询、审批、冻结、解冻等功能操作;指标查询,提供对数据指标主题、属性、维度、指标以及导入表的按条件查询、模糊查询、树状查询数据等;指标值管理,实现对指标数据的集成及存储管理,定期向各系统发布。

  主数据管理:目标是用来定义、管理和共享主数据信息,保证这些主数据在各个信息系统间的准确性、一致性、完整性。具体包括:主数据存储整合,实现主数据整合、清洗、校验、合并等功能,根据业务规则和数据质量标准对收集到的主数据进行加工和处理,用于提取分散在各个支撑系统中的主数据集中到主数据存储库,合并和维护唯一、完整、准确的主数据信息;主数据管理,支持对主数据的操作维护,包括主数据申请与校验、审批、变更、冻结/解冻、发布、归档等全生命周期管理;主数据分析,实现对主数据的变更情况监控,为数据管理员提供对主数据进行分析、优化、统计、比较等功能;主数据分发共享,实现主数据对外查询和分发服务,前者用于在其它系统发出针对主数据实时响应类查询请求时,返回所需数据,后者则用于提供批量数据分发服务。

  数据模型:目标是对数据模型的管理、比对、分析、展示提供技术支撑,提供统一、多系统、基于多团队并行协作的数据模型管理。主要包括:模型设计,支持对于新建系统的正向建模能力,还应支持对原有系统的逆向工程能力,通过对数据模型进行标准化设计,能够将数据模型与整个企业架构保持一致,从源头上提高企业数据的一致性;模型差异稽核,提供数据模型与应用数据库之间自动数据模型审核、稽核对比能力,解决数据模型设计与实现不一致而产生的“两张皮”现象,针对数据库表结构、关系等差别形成差异报告,辅助数据模型管理人员监控数据模型质量问题;数据模型变更管控,支持数据模型变更管控过程,提供数据模型从设计、提交、评审、发布、实施到消亡的在线、全过程、流程化变更管理,实现各系统数据模型版本化管理,自动生成版本号、版本变更明细信息,可以辅助数据模型管理人员管理不同版本的数据模型,可以简单回溯任意时间点的数据模型设计状态以及数据模型设计变更的需求来由,实现各系统数据模型的有效管控,强化用户对其数据模型的掌控能力;模型可视化,支持将管理的数据模型 E-R 图(实体关系图)转换为图片、数据建模脚本(DDL)等可视化展示形式,方便人员以全局视角监控系统中各类数据实体结构及实体间关系。

  数据质量:从数据使用角度监控管理数据资产的质量,主要包括:质量需求,对数据使用过程中产生的问题进行收集、存储、分类并提供查询检索功能,为质量规则的制定提供依据;规则设置:能够提供稽核规则设置功能,用于设置稽核规则应用于哪类数据;规则校验:能够对所关注的数据执行数据质量规则的校验任务;任务管理:能够提供稽核任务调度功能,指定稽核任务周期执行;监控分析,对规则校验的结果进行监控和分析,校验结果能够定位到原始数据项;质量报警,能够对质量问题及时进行报警,避免数据污染的发生,造成成本或业务损失;报告生成,能够对校验结果的质量问题进行记录,积累形成问题知识库,并生成报告,在此基础上,能够根据检核结果,生成对问题数据的质量提高建议,并可直接操作修改数据。

  数据标准:目标是规范数据资产格式、命名的准确性和口径的一致性,主要包括:标准生成,可按照业务领域、业务主题、信息分类、信息项等生成标准细则;标准映射,可以将制定的标准与实际数据进行关联映射,即实现数据标准的落地执行,维护标准与元数据之间的落地映射关系,包括元数据与数据标准的映射、元数据与数据质量的映射,以及数据标准和数据质量的映射,能提供在线的手工映射配置功能,并能对映射结果做页面展;变更查询:是查询发布或废止的标准的变更轨迹;映射查询,是查询标准项与元数据之间的落地情况并提供下载功能;维护标准,是指对标准状态进行管理,包括增删改、审核、定版、发布、废止等;标准版本查询,是指对发布状态的标准进行版本管理;标准导出,是指按照当前系统中发布的最新标准或者选择版本来下载标准信息;标准文档管理,指对标准相关说明文档或手册的管理,包括创建、修改、链接查询等。

  数据安全:结合信息安全的技术手段保证数据使用和交换共享过程中的安全,执行数据安全政策和措施,为数据和信息提供适当的认证、授权、访问和审计,以防范可能的数据安全隐患。

  数据集成:主要提供数据服务实现数据交换、数据整合、数据复制、数据的传输、数据共享等功能,包括运行支撑、加工组件、服务组件、数据服务总线等组成。

  数据治理门户:实现数据分布与地图管理,建立可信数据源及数据所有者管理、数据目录树、数据实体、数据项、数据标签为基础的数据目录,打破信息孤岛和部门边界,实现组织范围内的数据关联与分析管理,实现数据的便捷查询、浏览,增强用户体验,提升业务价值,实现数据分级分类,为数据战略、数据管理策略的落地打下基础。

  轻量级。易上手,治理工具部署、管理、使用很简单方便,不需要专门的培训学习,上手容易,一看就可以知道如何使用;资源低,不要占用太多资源,对基础软硬件不宜要求太高;可拆合,治理工具可根据项目不同阶段需求,采用不同模块组件,并能进行灵活定制组合。

  智能性。针对繁琐的,重复性的,工作量大的工作,尽量自动化方式解决,最大化的降低人工工作量。通过机器学习自动提取元数据,将不同的数据进行关联并分析;通过配置和优化主数据,使主数据的管理更加便捷和准确;通过语义分析实现相同数据源的连接,简化数据集成流程;通过增强数据的分析、清理和识别,提升数据质量;通过机器学习,数据间的多维关系将被自动化识别和可视化展现。

  作为数据治理整体解决方案的治理工具,要客观看待其价值作用,既不要夸大也不宜贬低,相信随着新技术的快速发展,治理工具的自动化、智能化程度不断地提高,其在数据治理中的作用越来越大。