原标题:数据继承工具:定位数据错误和优化数据治理策略
[IT 168审查]数据治理的本质是帮助企业创建数据策略,并确保每个人都能遵守这些策略这些策略涉及一系列与数据相关的过程,包括数据保护、验证和使用指南。数据经理必须向业务用户征求数据需求,并与数据治理委员会成员合作,就通用数据定义达成一致,指定数据质量指标,阐明相关政策,并制定衡量合规性的方法。
然而,在定义数据治理策略和实施它们之间搭建桥梁通常是一个巨大的挑战这些策略的目的是跨业务工作流控制和监督数据资产的质量,但是承担关键数据质量管理职责的数据经理通常没有经过适当的培训或没有合格的技术。
这是使用数据沿袭工具的地方基于元数据的数据谱系信息记录了数据对象在组织系统中的旅程沿袭记录可以帮助数据分析师和其他最终用户理解他们使用的数据,但它也简化了两个关键的数据治理过程:分析数据质量问题的根本原因和源系统中数据集更改的影响
数据谱系和数据治理
如果不清楚数据错误在数据管理环境中的引入位置,数据管理员和数据质量分析师很难识别并修复它们。其结果是,如果数据缺陷继续在系统中传播,组织可能经常会受到不一致或不准确的分析和报告的困扰,从而导致业务运营中的错误决策。
在根本原因分析期间,数据沿袭工具提供了对处理阶段序列的可见性-通过被检查的数据流可以在每个阶段检查数据质量,以便数据治理和数据质量团队能够找出数据错误发生的位置。
从首次发现错误的位置开始,数据管理员可以在较早的位置插入控件,以监控数据是否满足当时定义的预期,或者是否发生了错误。通过确定在哪个处理阶段输入的数据符合要求但存在缺陷,数据管理员和参与数据治理过程的其他员工可以专注于消除根本原因,而不仅仅是纠正错误数据鉴于当前的数据管理环境通常比过去更加动态,
数据沿袭工具还可以帮助数据管理员进行影响分析,以了解数据管理环境中源数据格式和结构的变化所导致的问题。
当源数据发生变化时,下游可能会发生意外后果。通过从数据创建或收集的角度出发,数据管理员可以依靠数据沿袭文档来帮助跟踪数据依赖关系并确定受数据更改影响的处理阶段这使得数据治理和数据管理团队能够重新设计受影响的阶段,以适应变化并确保不同系统之间的数据一致性
如何选择数据沿袭工具
手动收集元数据和记录数据沿袭需要大量的资源投资,并且容易出错,这可能会导致重大问题,尤其是在依赖数据分析来推动业务运营的组织中因此,数据治理需要找到能够管理数据谱系表示的工具,并自动将它们映射到整个企业
在技术评估过程中,您应该寻找满足这些要求的数据沿袭工具:
。您可以在本地访问大量数据源和数据产品,调查它们包含的元数据,并为数据治理目的收集元数据。
...能够将捕获的元数据聚合到一个集中的存储库中
...可以推断数据类型,并将参考数据的常用用法与来自不同系统的数据元素进行匹配
...可以为各种最终用户提供聚合元数据的简化表示,并支持协作来验证元数据描述
,一种端到端映射,可以记录数据如何流经组织的处理流程
...可以生成数据谱系的可视化表示
...包含开发人员在构建可以查询沿袭记录的应用程序时使用的API
...可以创建反向索引,将数据元素名称映射到不同处理阶段的用例
...提供搜索功能,可以快速跟踪从起点到下游目标的数据流。
...使用户能够向前和向后监控数据流
数据沿袭产品
目前市场上有许多产品可供选择大型信息技术供应商销售的数据管理平台(包括IBM、甲骨文、SAP、SAS研究所等)。)通常包括记录和管理数据谱系的工具。专注于数据集成、质量和治理的小型软件供应商也将提供相应的产品。此外,数据谱系功能有时内置于数据目录软件中,各种商业智能和分析工具的供应商也是如此。
原作者:大卫·洛辛