在信息时代,数据逐渐成为资产,数据质量成为决定资产优劣的重要方面。 随着大数据的发展,越来越丰富的数据给提高数据质量带来了新的挑战和困难。 提出数据质量策略,从建立数据质量评价体系、执行质量信息采集分析和监控、建立持续改进的工作机制、改进元数据管理四个方面,形成多方位优化改进、最终完善的质量管理体系,为信息体系提供高质量的数据支持。
1 .信息系统的数据质量
信息由数据构成,数据是信息的基础,数据已经成为重要的资源。 对企业来说,调查市场信息、维护客户关系、展示财务报告、支持战略决策等,信息系统必须进行数据的收集、分析、知识发现,为决策者提供充分准确的信息和资料。 对政府来说,做好社会管理和公共服务,影响面更广、更深,政策和服务能否满足社会需求,是否有效利用公共资源,需要数据的支持和保障,数据需求更加紧迫,对数据质量的要求更加严格。
2 .大数据环境下数据质量管理面临的挑战
随着三网融合、移动互联网、云计算和物联网的快速发展,数据生产者、生产环节迅速上升,随之发生的数据呈指数增长。 在信息和网络技术迅速发展的今天,越来越多的企业业务和社会活动被数字化。
大数据时代的数据和传统的数据显示了很大的差异,直接影响了数据流的各个方面,给数据存储的处理分析性能、数据质量保障带来了很大的课题。 大数据和传统数据对如表1所示。
以上特性使大型数据信息系统更容易出现数据质量问题:
(1)在数据收集中,大数据的多样性决定数据源的复杂性。 许多源、结构不同,在许多不同源之间存在冲突、不一致或矛盾。 在数据取得阶段,需要保证数据定义的完整性、数据质量的可靠性。
(2)由于规模较大,在大规模数据检索、存储、传输和计算过程中可能会出现更多错误。 使用传统数据的人工错误检测和修复以及简单的程序匹配处理远远不能处理大规模数据环境下的数据问题。
(3)由于高速性,数据的大量更新会迅速发生过时的数据,也容易发生不匹配数据。
(4)迅速发展,市场庞大,制造商众多,直接发生的数据和产品发生的数据标准不完备,数据不一致和冲突的可能性很大。
(5)由于数据来源急剧增加,发生的数据来源多,结构不同,系统更新升级和应用技术更新频繁,不同数据源之间、同一数据源之间可能存在冲突、不一致或矛盾,而且数据收集和整合由多个团队协作完成
3 .数据质量管理战略
为了改善和提高数据质量,必须从数据的来源抓住,从管理开始,监视数据运行的全过程,关注数据质量的发展和变化,深入研究数据质量问题遵循的客观规律,分析发生机制,探索科学有效的控制方法和改进措施
建立数据质量管理体系解决数据质量问题
介绍解决数据质量问题的数据质量控制平台
EsDataClean数据质量管理平台是亿信华辰独自开发的数据质量管理平台,提供业界领先的质量规则管理方法、质量评价方法、零码质量检查规则、数据源对照、质量分析报告、数据质量整改、质量业绩评价等主要功能。 以数据标准为数据检验依据,以元数据为数据检验对象,通过引导化、可视化等简单操作手段,对质量评价、质量检验、质量整改和质量报告等工作环节进行了过程整合,形成了完整的数据质量管理闭环。
亿信数据质量管理平台在找到问题数据后,控制数据质量,贯彻一致性,全面提高数据的完整性、规范性、即时性、一致性,减少因数据不可靠而造成的决策偏差和损失。
四结
数据质量管理在数据生命周期的全过程中,涵盖质量评价、数据监测、数据勘探、数据清洗、数据诊断等方面。 随着数据源的增加,数据量的增加,以及新技术的推动,这些都给大数据的质量管理带来了困难和挑战。 因此,数据质量管理形成了完善的系统,建立了不断改进的过程和良性机制,不断监测各系统的数据质量变动情况和数据质量规则分析,及时升级数据质量监测手段和方法,不断掌握系统的数据质量状况,最终达到数据质量稳定状态