电子政务数据治理与数据问责研究

摘要:本文通过对江阴大数据中心各机构收集的数据进行数据治理,以质量评估为出发点,初步探讨大数据中心在数据治理中的数据责任问题,为下一步进行全面治理,充分发挥大数据中心的数据服务职责,提出了一种可行的管理方法

1、简介

在各地建立了大型数据中心,实现不同机构间的数据聚合。然而,各种多源异构系统的数据质量不同,管理、控制和互操作困难,成为难点和难点。尽管解决方案在于数据治理,但在面对不同组织、领域、业务和应用程序的差异以及涉及一系列复杂问题时,它仍然使许多大数据中心难以找到准确的切入点。

江阴大数据中心从实际出发,经过近一年的探索和实践,从数据质量评估入手,开展数据治理,取得了一些经验。同时,对密切相关的数据责任领域也有了一些初步的思考和认识。

2、江阴市政府数据治理问题

2017、江阴市作为江苏省唯一的综合改革示范县级市,市委、市政府提出构建“1中心+3平台”智慧城市总体框架“中心1”是指“江阴大数据中心建设项目”,包括数据共享和应用支持,作为整合改革的重点项目。江阴市建立了一个专职的大数据管理机构,借助全面改革的力量和系统集成的成效,召开了多次推进会议。截至2018年底,江阴市大数据中心已完成多批市委、政府部门(全覆盖)、群众团体、驻成都部分国有企业等机构的信息资源目录收集,整理出61个机构的信息资源、1205个数据集和26900多个有效数据项。其中,632个数据集、12,500个数据项和总计超过10.78亿个数据项主要从公共安全、人类社会、卫生保健、教育、环境保护、安全监管等61个单位获取。为促进政府信息资源共享的制度化、规范化发挥了作用,为电网、政府服务、“江阴最便捷系统”、精确协助、税收征管等近20个领域提供了数据支持。然而,

电子政务对数据“聚合、沟通和使用”的应用需求凸显了数据质量不明确、语义和格式不一致、业务支持薄弱等问题我们认识到,当数据收集到一定数量、数据源增加、我们面临越来越深入的服务和建立新业务的需要时,就必须进行数据治理。然而,大数据中心面临不同机构和不同系统收集的数据。它不像其他组织那样只关心特定的线路服务,而是负责政府整体情况的数据资源。因此,找出大数据中心特殊的数据治理内涵、范围和边界、切入点和后续延伸等,是全球大数据中心亟待解决的问题。

3、江阴大数据治理思路

江阴大数据中心从数据治理理念、治理框架、要素选择、定量评价等方面进行了系统探索。,并委托了具有丰富数据治理经验的第三方参与评估,取得了一些实际成果,具体如下:

(1)很明显,数据治理概念

“数据治理”是同义词,而“治理”在英语中的意思是“治理、管理、治理、治理模式、管理模式”等。“政府距离”一词与“政府”一词有相同的词根。可以看出,数据治理的最初含义是数据的管理和管理活动。政府数据治理是对数据的规则、治理和相应措施,但其前提是要弄清数据的家族背景、供求范围和质量水平。

(2)选择

数据中心作为每个组织的资源中心对于在多源、多向和异构资源环境中启动数据治理来说是一个复杂的问题。因此,权威的系统架构应该被用作治理的内容基础DAMA国际给出的典型数据治理模型如图1所示。

在图1中,左侧是数据治理的主要内容,右侧是数据治理的基本环境结合大数据中心的功能,数据治理的系统内容细分如下:

(1)数据架构管理——梳理和描述数据中心的数据供需和责任架构;(2)数据开发——数据中心针对新业务和新应用的数据分析、设计、实施、测试、部署、维护等工作;(3)数据运行管理——涵盖从数据收集、收集、比较和清理到数据删除的运行和管理职责;(4)数据安全管理——在政府应用的各个方面,确保机构和公众之间的数据保密性、公民通信、访问和管理权限控制。(5)参考数据和主数据管理-管理政府事务系统中各机构的元数据、实体数据、描述数据、代码数据和相关数据的各种版本和升级;(6)多功能应用环境下智能政务的数据仓库和双向资源展示、多维报告和分析;(7)数据质量管理——从全局出发,对不同机构和系统的数据资源的质量和责任进行定义、分类、监控和改进;(8)元数据管理——对来自不同机构、系统和应用程序的元数据/数据元素进行统一分类、标准化处理、整合、分组和控制;(9)文档和内容管理-从语义、主题内容等方面管理各种业务表单、工作文本、报告和其他结构化和非结构化数据。

文稿与数据

图1数据治理系统总体架构< br>

(3)确认数据治理范围

数据治理环境涉及以下因素,包括:(1)治理目标和原则-定义数据治理中涉及的愿景和战略目标、具体目标、实施绩效和各职能的基本原则;(2)治理活动——每个治理活动可以细分为较低级别的活动,并进一步分解为特定的任务和步骤、数据之间的依赖关系、序列和过程、用例和场景、触发事件等。(3)主要交付物——治理后的结果包括各种元数据/数据元素、复合数据项、实体数据、分类代码系统、输入和输出对象,甚至各种管理系统;(4)角色和职责——大数据中心、各职能机构、公众、企事业单位以及其他职能部门在政务活动供求中的运行、处理、控制和管理,个人角色、组织角色、业务和资源角色等。;(5)实践和方法——大数据中心和各种职能组织都涉及不同深度的资源提供、处理和处理操作的治理实践,并且有一些方法可以共享和互操作,特别是通用方法和替代方法。(6)治理技术——数据治理涉及各种治理工具,如资源标准和处理程序、比较和清理规则、质量控制和验证程序等。;(7)组织和文化——电子政务的运作不仅涉及技术,还涉及概念、系统、机制、管理、价值观和态度等。

(4)寻找数据治理的起点

图1表明,数据治理是一个“认知+资源+技术+管理”的综合系统,范围广、内涵深、要求高。对于一个刚刚建立并仍在集中资源的大型数据中心来说,根据这一框架进行全面的数据治理是不可能的。因此,本着“先易后难、先局部后全面、先单一后复杂”的原则,我们首先从以上九个要素中选择数据质量评价作为治理的起点,以了解当前汇总数据的质量,包括数据的实用性、量性、可重用性以及各机构提供资源的贡献率。寻找薄弱环节,从跨系统数据集成和业务应用建设的角度出发,突破界限,设计指标,找出现有数据,探索全球数据质量增量提升的治理方向

(5)数据质量评估实施计划

(1)统一数据质量理解

必须首先理解数据质量评估的内涵根据ISO 8402,质量是反映一个实体满足显性或隐性需求的能力的特征的总和。政府数据的质量指的是它必须满足单个政府机构的特定或潜在业务需求,以及它满足“三位一体和五位一体”的数据共享、互操作性和业务发展的事实。

(2)数据质量评价标准的构建

本次评价基于GB/T 36344-2018《信息技术数据质量评价指标》,并根据实际情况构建了相应的指标体系(如图2)

评价指标的定义和描述

(1)完整性——按照GB/T 36344-2018《信息技术数据质量评价指标》的定义与专业标准进行比较计算公式如下:

完整性=定量完整性+横向(县级市)完整性+纵向(地级市)完整性

(2)实用性——基于专业领域剔除冗余数据项后的实际项目,以及江阴大数据中心收集的各单位实体数据的共享和交换分析。计算公式如下:

实用性=数据项实用性+实体数据共享交换容量

数据项实用性=提供的数据项总数-冗余数据项

(3)-数据项冗余计算公式如下:

冗余=冗余数据项/提供的数据项总数(包括冗余)

其中, 冗余数据项=提供的总数据项(包括冗余)-删除的冗余数据项

(4)贡献度-资源贡献度计算公式如下:

贡献度=各单位提供的数据项(包括冗余)/各单位提供的总数据项(包括冗余)

(5)公共数据元素采用度-公共数据元素参考GB/ T 19488.2-2008电子政务数据元素第2部分:公共数据元素目录计算公式如下

(6)规范性-根据GB/T 36344-2018《信息技术数据质量评价指标》定义,并与专业标准进行比较

分析比较江阴大数据中心各单位收集的信息资源及其机构功能,通过定性判断计算得分,定量判断以各单位的现场调查结果为依据。

(7)及时性-根据GB/T 36344-2018《信息技术数据质量评价指标》定义,并与专业标准进行比较按日、月、年、不定期等八类更新周期,分类计算

公式:TL=D/(Tn×C)

其中TL=及时性;D=总不变天数;Tn=更新周期(变量);C=信息资源数量

(8)空项率-反映江阴单位数据采集过程中实体数据的缺乏

计算公式:空项率=(空数据项/总数据项)* 100%

质量评价结果

本次质量评价是先量后质;首先是数据结构,然后是单一数据;根据先数据项后实体数据的原则,在提供数据的标准化、完整性和实用性的基础上,采用定量和定性相结合、专项和相关分析相结合、现场观察和背景标杆相结合等方法进行质量评价和分类,综合考虑与外部资源的共享和结合。

根据以上八项指标,通过对全市61个单位、632个数据集、12102个数据项和1078万个实体数据的实地整理和评价,形成了“综合数据质量评价等级评定表”,将评价结果分为极度欠缺、不足、基本充分、充分、充分和规范五个等级其中,全额和标准单位有16个,占26%该领域的数据将被用作进一步分析其质量的试点测试。

试点选择行业代表性机构(如教育局)和部门(如市场监督管理局)进行数据治理,机构职能改革后发生较大变化。具体实施仍按标准进行:建立元数据索引库,对数据项的其他索引进行评估;实体数据采用抽样比较、清理、转换和形成试点管理数据库。

文稿与数据

图2江阴大数据中心数据质量评估框架

4,数据责任

(1)

数据质量评估的出现使大数据中心对各机构提供的数据的完整性、实用性、贡献性和标准化有了初步的了解。然后,从数据资产管理的角度来看,有必要对属于数据责任范畴的各个机构的数据责任和权力、贡献和共享进行评估

数据责任是从全局的角度分解和识别每个组织的数据管理责任,定义它们之间的资源供需边界和合作机制,从而建立稳定、规范的数据治理体系;例如,不明确的责任和界限往往导致多头管理或“三不在乎”的情况,这直接影响政府服务的效率和绩效对于大数据中心来说,如果责任没有被认识到,相关的责任将由他们自己承担,他们很快会感到“无法前进”,并且将很难向前迈进。面对来自各种渠道的资源,如“数据的含义是什么”、“数据的质量如何”、“谁能提供权威数据”以及“哪些数据可以合并”,没有明确的答案这实际上是能力和责任之间的不对称,需要重新识别和分配“收集、交流和使用”的数据管理责任

(2)数据责任内容

数据管理涵盖数据生命周期的每个环节。数据责任也存在于每一个数据管理和应用中,并且应该由各种机构的数据提供者、业务责任方、操作责任方和技术责任方共享具体职责如下:

(1)对于政府数据提供者,主要负责制定数据控制政策、维护数据供应目录和分配数据职责。(2)对业务领导方:主要负责定义数据、制定数据标准、质量规则、安全规则和监控相关数据问题,也是相应数据的责任主体;(3)操作责任方:主要负责执行数据管理规则,输入各种数据,解决相关数据问题;(4)技术责任方主要负责为数据管理提供技术支持,促进数据结构、标准和规则等的落地。

(3)如何实施数据责任

在数据质量评估的基础上,我们将首先整理出责任数据项,即哪些数据要进行责任管理政府数据收集了数以千计的数据项,这对于问责制来说是一个巨大的数量,也意味着巨大的工作量,这不可能在一夜之间完成,需要分批进行。与此同时,从电子政务的有效性出发,人们将对数据问责抱有价值期望。因此,问责数据项的排序和筛选可以采用“问题+价值”的双驱动策略,即对问题多、业务影响大的数据项优先进行问责管理,通过问责实施提高数据质量,从而控制和解决问题,支持业务发挥其价值。为此,将通过数据治理建立数据问题的收集、分析和控制机制以及具有高商业价值的核心数据项的识别方法。

将整理出责任关系矩阵,即数据责任与机构、岗位和人员之间的对应关系然后,将相关的数据职责落实到相应岗位人员的日常工作和数据操作中数据责任的落实通常可以结合数据质量整改工作来进行。在明确岗位人员数据职责的同时,也明确了职责实施的要求。例如,通过标准化输入行为和纠正输入错误,数据输入责任和数据输入规范的同步实现得到了加强。

5。关于数据治理的进一步思考

尽管在这种数据治理中已经取得了一些成就,但是图1中的治理的9个元素毕竟只是其中之一。下一步仍不能完全实施,但应该通过将数据质量管理与数据责任相结合来形成双轮驱动治理机制。除了大数据中心建立和维护统一的公共数据元素池,对各单位的公共数据元素和实体数据进行转换和映射,提高其标准化和质量水平外,还需要进行相应的问责机制建设具体思路是:(1)界定角色,分配责任;(2)建立机制,制定标准;(3)构建数据责任管理网络;(4)推动相应的组织和文化变革等。

总体而言,数据治理项目不仅是构建集团级平台,也是一个长期而复杂的项目,涉及数据管理系统、数据标准、数据治理、数据质量与责任、相关系统升级、数据清理等方面。本项目的建设是基于先见效、后急需的理念。项目整体规划,以数据模型和数据标准为基础,以数据治理管理平台为载体,开展专项数据治理工作,确保数据治理项目的成功,为有效的数据资源整合奠定坚实基础。

免责声明:“电子政务与政务公开”不仅发表原创文章,还致力于交流和分享优秀文章。本文仅代表作者的观点,版权属于原作者,不构成法律意见,不代表平台的立场文章的论述和观点,请注意读者的判断非常抱歉,在分享一些文章时,我无法与原作者取得联系。如果注释的来源有误或涉及版权问题,请联系原作者进行更正或删除,真诚欢迎您投稿。

大家都在看

相关专题