首先,公众想知道一个地方的总体情况的统计数据:例如,今天在各省、市或区县积累了多少疑似、确诊、危重、出院或死亡病例?今天增加或减少了多少?有多少疑似病例被排除在外?有多少密切接触者从观察中被释放?此外,公众想知道一些关于单个病人的数据,例如这些病人来自哪里?你去哪里了?你哪一天生病的?你看到哪家医院了?有什么问题吗?目前情况如何?
地方卫生委员会是发布疫情数据的权威部门。因此,我们选择了官方网站,即四个直辖市的卫生保健委员会,来看看这些特大城市在面对疫情时发布了哪些数据。具体包括哪些数据项(字段)?这些数据是如何发布的?以什么形式?收集官方网站数据的截止时间是2020年1月29日中午12: 00
如何在官方网站上找到各直辖市卫生委员会的疫情数据?
我们发现北京、天津、重庆都在卫生委员会官方网站首页的显著位置设立了与防疫控制相关的专栏。他们专门发布疫情发展、防控工作、新闻报道和保护知识,方便公众查找和获取(见下图)▲
(1月28日截图)
▲天津市卫生委员会官方网站主页▲重庆市卫生委员会官方网站主页然而,上海尚未在主页上开设与“防疫控制”相关的专列,疫情通知信息出现在常规“新闻发布”栏下(见下图)
▲上海市卫生委员会官方网站第一页还在天津、重庆疫情专题下设立了“疫情通报”专栏(见下图),集中发布疫情数据,方便用户查找
▲天津市卫生保健委员会官方网站疫情通报栏(1月28日网站截图)
▲重庆市卫生保健委员会官方网站疫情信息栏(1月28日截图)但是北京和上海没有开设栏目,而是将疫情数据与各种防控工作趋势、公告说明、新闻报道等信息混合发布(见下图),不方便公众查阅北京市卫生委员会官方网站防疫控制
▲栏(1月28日截图)▲▲栏上海市卫生委员会官方网站新闻稿
(1月28日截图)
疫情通知文件名也会影响查找疫情数据的便利性我们发现,目前各直辖市疫情公告的标题没有统一的标准,大致有两种类型:< br>型是日常公告“疫情”的标准化标题,如“2020年1月29日重庆市新冠状病毒感染肺炎疫情”。我们暂时称这种类型为“统一标准类型”。另一类
是实时数据,用于以标题中出现的“确诊病例”、“累计病例”、“死亡病例”和“出院病例”数据的形式实时报告疫情。例如,北京市卫生与安全委员会(Beijing Health and Safety Commission)公布,“从1月28日12: 00到1月29日12: 00,该市有11例新肺炎病例被新冠状病毒感染”。我们暂时称这种类型为“实时数据类型”。
一般来说,统一标准类名的优点是它们更规范,更容易搜索。缺点是标题本身包含的信息很少,最新数据不能直接显示在标题中,只有在公众点击内容后才能看到。实时数据类的优点是可以在标题中显示关键数据,并且灵活、动态。缺点是缺乏统一的标准,这不利于在公告数量很大时快速搜索公众。
建议可以根据这两个标题的优点来命名,例如:“2020年1月29日XX市XX疫情:该市新增病例11例”。这不仅可以统一标准,方便搜索,还可以直接在标题中显示动态数据,直观灵活。
目前,天津和重庆在疫情通报初期均采用实时数据标题。此后,重庆从1月23日起改为采用统一的标准职称,天津从1月25日起分别采用这两种职称进行申报北京和上海一直使用实时数据标题进行报告,但上海的标题不包含数据的统计时间,这不容易通过时间找到。
四个直辖市的卫生委员会在官方网站上设置了疫情防控专题,设置了疫情通报专列,并命名疫情通报的标题如下图所示:
哪个直辖市发布了最容易理解和利用的疫情数据
?256多个直辖市都在官方网站上提供了疫情的书面报告。例如,重庆已经以书面形式逐一列出并解释了疫情数据(见下图)虽然显示的疫情数据足够详细,但这些数据以包含在文本中的形式出现,不够清晰直观,普通读者无法阅读和理解,不利于专业人员的分析和利用。如果你想对这些数据进行一些分析,你需要从这些单词中提取并整理出数据来形成一个数据表。因此,这种用文字发布数字的方式还没有真正进入数据时代,缺乏数据思维。
▲重庆肺炎疫情
(1月29日截图)
目前,除文本外,只有北京和上海使用结构化表格发布疫情数据其中,北京将从1月23日起继续每天发布新诊断病例清单,上海将从1月27日起发布累计确诊病例的居住分布清单,并将从1月29日起发布新确诊病例的居住分布清单(见下图)在北京带来新病例(1月29日截屏)
在上海带来累积确诊病例
(1月29日截屏)
在上海带来新确诊病例
(1月29日截屏)< br>
除了详细的文字描述之外,数据是传统的信息披露主要以非结构化和文本的形式提供,方便公众阅读。在大数据时代,提供结构化和机器可读的数据有助于用户分析和利用数据。这是数据开放和信息开放之间的一个重要区别。政府信息公开的主要目标是保护公众的知情权,提高政府的透明度。然而,政府数据公开不仅要求社会知道,而且允许社会重新开发和利用政府数据来创造社会和经济价值。美中不足的是,目前北京和上海以表格形式发布的疫情数据仍以图片形式提供图片格式容易阅读,不容易修改,但不容易被机器读取,不利于专业人员对数据的分析和利用。如果这些表格可以以机器可读的格式提供,如电子表格或csv,它们可以直接用于分析和利用。4个直辖市卫生委员会在官方网站上发布的疫情数据的表格和表格名称如下图:哪个直辖市拥有最完整的
总体疫情数据?
根据直辖市发布的疫情数据,我们将疫情发展和预防过程大致分为以下几个环节:一些患者经历了从疑似、确诊、病情稳定到出院的过程,而另一些患者不幸转为严重、危急甚至死亡同时,一些确诊患者的密切接触者在医学观察后被确诊或解除。基本过程如下图所示:友谊提醒:
这个数字容易进入,难以退出。请确保在不久的将来减少外出,戴上口罩,远离图中的节点
。在疫情发展和防控过程中,直辖市卫生保健委员会公布了疑似病例、确诊病例、密切接触者、病情稳定病例、重症危重病例、死亡病例、出院病例等统计数据。下表显示了截至1月29日中午12时,四个城市的卫生和健康委员会发布的流行病数据的比较分析结果。▲备注:
1。截止日期:1992年1月29日12:
2。绿色背景颜色表示数据已发布了所有日期。
3。*表示已报告数据,但数据值为0,即没有死亡病例。从上图可以看出,各市公布的流行病统计数据不一致。没有一个直辖市连续发布每一个数据。一些直辖市以前已经公布了一些数据,但他们不会再公布了。一些直辖市以前没有发布任何数据,但从某个日期开始发布一些数据。一些直辖市断断续续地发布一些数据。一些市政当局从未公布任何数据这可能是因为疫情数据发布的范围和粒度没有统一的标准,直辖市仍在探索和探索。
在疑似病例数据中,自27日起,只有上海连续3天每天发布“累计调查疑似病例数据”和“累计排除疑似病例数据”。重庆仅在一天内公布了累计调查中的疑似病例数据,而其他直辖市尚未公布数据。
在确诊病例数据中,4个直辖市公布了3个新确诊病例数据(全市总数)、累计确诊病例数据(全市总数)和累计确诊病例数据(各区数)上海于27日开始在所有地区发布累计确诊病例,并于29日在所有地区发布新的确诊病例只有重庆不断公布确诊病例的每一个统计数据(见下图)
密切接触者数据,除上海外,其他三个直辖市已经公布了接受和发布医学观察的密切接触者人数,其中重庆可以长期继续发布。
关于稳定病例的数据,各直辖市都已在疫情公报上公布,上海和天津也每天都在连续公布然而,不同直辖市之间的表达标准略有不同。上海似乎将“稳定状态”与作为病例类型的危重病例区分开来。天津区分“轻度疾病”和“重度疾病”,并将“病情稳定”的轻度和重度病例描述为疾病状态(见下图)然而,在这两个地方出版的网页中没有对这些专业词汇的解释。公众大多不是医学专家。当政府公布专业数据时,标准一词并不统一或没有详细准确的注释,这将使公众无法准确理解和使用数据,甚至产生误读或误用。
已被各直辖市公布,上海、重庆可继续公布。此外,上海方面坚持公布数据,尽管当天没有严重病例(见下图),只是将数据的价值标为“无”,反映了数据公布的标准化。然而,一些直辖市没有每天连续发布数据,使得公众无法区分数据是“未报告”还是数据值为0< br>
在死亡病例或出院病例的数据中,除重庆外,其他三个地方都公布了数据,但北京公布的天数较少同样值得称赞的是,天津仍然公布了数据,尽管当天没有死亡,只有报告的数值是“无”,从而避免了数据丢失。哪个直辖市有最多和最小的
患者状况数据?
以上发布的这些统计数据是对原始数据进行处理和聚合后形成的粗粒度的结果,而不是单手和细粒度的原始数据,但后者具有更大的分析和利用潜力。例如
,上海曾发出这样的短信:“截至1月26日24时,上海已发现53例确诊病例,其中男性29例,女性24例;最大的是88岁,最小的是7岁。“这些数字都是统计数据报告中提到的7岁至88岁的年龄范围很大,在这一范围内,哪个年龄组是确诊患者的主要年龄组?更不可能告诉我们某个年龄组中是有更多的男性还是女性。
对于上述问题,只有在统计汇总前获得并分析案例的原始细粒单个数据后才能得到答案那么,四个直辖市公布了哪些个案数据?下表显示了截至1月29日12: 00,4个城市公布的确诊病例的个人数据。这些病例数据大致可分为三类:个人基本信息、行为特征和诊断治疗
▲备注:1。截止日期:1992年1月29日,12:
2。绿色背景颜色表示所有案例都发布了数据
总体而言,在不同地区发布的案例数据中,个体数量和字段数量存在差异。同样,没有一个直辖市公布所有个案的所有数据,每个直辖市公布的个案数据不完整或不连续。
相对而言,天津和北京公布的个案数据最多,分别为25和86例确诊病例,占当地确诊病例总数的100%和94.5%天津发布了所有25例病例的6个数据,包括性别、年龄、居住区、医院、疾病/状况描述和当前状况。
个人基本信息:在性别和年龄方面,天津已公布所有确诊病例的数据;北京公布了90%以上确诊病例的数据。然而,上海只公布了7起案件。重庆只公布了第一批这样的数据天津市居民区
公布了所有确诊病例的数据;北京已经公布了11起案件。重庆只发布了第一批这样的数据。上海没有公布数据
行为特征数据:在与湖北/武汉的接触史中,北京已经公布了80%以上的确诊病例的这一数据(下图);天津公布了70%以上确诊病例的数据。然而,上海只公布了5例病例,重庆只公布了第一批此类数据。
在车辆描述方面,只有天津公布了4例确诊病例的数据(如下图所示),其他3个城市没有公布数据。
诊疗数据:北京发布了90%以上确诊病例的发病时间和初始诊疗时间数据;天津公布了80%以上确诊病例的数据。上海发布的不到10%。重庆只公布了第一批这样的数据天津市
医院出具的所有住院确诊病例(以下);北京已经公布了4家治愈病例的医院。上海已经公布了3家治愈病例的医院。重庆只公布了第一例确诊病例的医院。
天津发布了所有确诊病例的疾病/状况描述(稳定/严重/危急等)数据。)和当前状态(出院/住院/死亡)。北京在1月21日和22日公布了疫情新病例和治愈出院病例的数据。然而,上海已经公布了7起病例,重庆仅公布了第一批此类数据。
总体而言,天津拥有最多的个案数据和最完整的字段
然而,应该指出的是,天津也公布了极少数病例的患者姓氏、性别、年龄、城镇和医院(见下图)这些数据,如果单独发布,风险很小,但是如果针对单个病例同时发布,它们可以很容易地组合起来进行分析,从而锁定病人自己并暴露他的隐私。
事实上,我们不需要知道每个患者的姓名、身份证和地址等个人信息,而只需要一些匿名的病例数据来获得有用的分析,并且不会侵犯患者的隐私。哪个直辖市发布疫情数据的频率最高?
直辖市卫生保健委员会将于2020年1月20日或21日在官方网站上发布疫情数据上海的释放比其他直辖市早一天开始。北京和天津的总释放量最高,平均每天释放量最高。他们每天根据疫情进展不定期释放,并且更加灵活。截止时间:1月29日12: 00在计算每天的平均释放量时,北京、天津和重庆的释放量为8.5天,上海为9.5天。但是,无论发布多少次,如果您想要在一段时间内分析数据,您不能从单个循环中获得所有数据,但是您需要搜索以前发布的循环,从中提取数据并将其集成到一个大表中。
,也就是说,政府目前发布的疫情数据分散在不同时间发布的公告中,位于不同的页面上,以不同的名称出现。如果公众想要分析这些数据,他们首先需要有一定的能力,然后花很多时间来提取和整理这些数据。哪个直辖市的疫情公报字数最多?截止日期为1月29日
: 12: 00
北京和上海的字数不包括表格中的文本,因为表格是图片格式。
从一篇文章的平均字数和发表的总字数来看,重庆的一篇文章的平均字数最多,天津的总字数最多。重庆一篇文章平均字数较高的部分原因是,除了疫情数据外,公告还附有当前防控措施和卫生委员会提示等信息。
目前,从四个直辖市的分析来看,报告的字数与公布的数据数量和质量之间没有明显的相关性。为什么
Q
政府想要公开流行病数据?
面对疫情,公众只有掌握了足够的信息,才能做出更合理的决定和行动。在互联网和社交媒体的时代,如果公众不能及时从政府那里获得权威数据,只能受到网上网外各种真假流言的轰炸,只会增加他们的恐慌感,不利于防疫和控制。因此,让公众在疫情早期获得足够的信息,将有助于他们加强自我保护,减少出行人群,防止疫情蔓延,减少社会恐慌感。
已经进入大数据时代。在疫情发展和防控过程中,公众不仅需要获取相关知识和信息,还需要获取完整、规范、第一手、及时、细粒度、结构化和机器可读的数据进行解释和利用。
,但是,通过以上比较分析,发现政府部门发布的疫情数据一般都是文本或图片的形式,零散、规范、不完整、不连续、粒度粗公众不容易找到、理解或分析这些数据。因此,尽管政府从他们的角度和习惯的方式公布了疫情数据,但普通人对此毫无感觉,他们的数据需求远未得到满足。
事实上,自疫情蔓延以来,大部分公众并没有直接从各种政府网站获得和解读疫情数据,而是通过“丁香花园”等媒体制作的数据可视化应用程序间接获得和解读政府发布的数据这种应用程序收集和整合了国家和省市政府发布的疫情数据,并通过表格和可视化方式生动地呈现出来。与政府网站上发布的文本公告相比,这种数据呈现方式更加系统、直观、清晰(见下图)目前,“丁香园”的参观人数已超过8亿,深受公众欢迎。它还在不断升级,以提高用户体验。虽然
“丁香花园”显示的数据来自“国家和省级卫生委员会”,但可以想象他们需要花费多少时间和精力来收集和整理各地方政府实时发布的零散和非标准数据。同时,由于地方政府发布的数据缺乏完整性和粒度,这些基于市场的应用程序无法提供更完整和详细的流行病数据。
假设政府部门可以公开符合标准的高质量流行病数据。像“丁香花园”这样的机构不能花很多时间收集和整理数据,而是可以集中精力更好地利用数据,给用户带来更好的体验。同时,其他获得疫情数据的组织也可以与“丁香花园”竞争,最终看谁能给用户带来最好的体验。
在这个过程中,政府开放了数据,专业组织将数据开发成各种应用程序,共同为公众带来好处。事实上,政府和市场已经实现了一种以数据为原料的合作。毕竟,对这一流行病的反应不能仅仅依靠政府,还应该充分动员社会上各种专业力量积极参与其中。然而,要真正实现这种双赢的合作,有一个重要的前提,那就是政府应该开放数据。作为一种基本的原材料,数据就像大米一样,可以用来制作各种各样的大米,但是如果没有数据,一个熟练的女人没有大米就不能做饭。政府应该如何公开疫情数据?
那么,政府开放数据应该符合哪些基本标准?目前,国际社会普遍认为,数据开放应符合以下八个基本原则:
优先、完整除非涉及国家安全、商业秘密、个人隐私或其他特殊限制,所有政府数据都应向公众开放,开放和非开放原则除外。
秒,初级打开从源收集的第一手数据,尽可能保持数据的高粒度,而不是打开修改或处理的数据。
第三,及时尽快发布数据以保持其价值。
第四,无障碍尽可能扩大用户范围和使用开放数据的目的。第五,机器可读对数据进行合理的结构化处理,以便计算机自动处理。第六,非歧视性这些数据不经登记对所有人平等开放。
第七,非专有数据以非排他性的格式存在,因此任何实体都不能是排他性的或排他性的。
第八,免执照除非有合理的隐私、安全和特殊限制,否则数据不受版权、专利、商标或商业秘密规则的约束。
要求特别强调在打开流行病数据时应严格保护患者隐私。一方面,有必要尽可能全面、及时和准确地满足公众了解和发布公众关注的数据的权利。另一方面,应严格保护患者的隐私,防止过度披露个人数据伤害患者。政府部门需要在保护公众知情权和保护患者隐私之间取得良好的平衡。
简而言之,针对大数据时代的疫情,政府应该关注公众的数据需求,从用户的角度出发,以完整、标准、第一手、及时、细粒度、结构化的方式打开疫情数据,并提供方便的方式和必要的描述,方便广大公众查找、获取和理解数据,这也有利于社会力量对数据的开发和利用, 从而消除公众恐慌,压缩谣言空间,提高社会参与度,增强政府公信力,释放数据的社会价值
课/课后/选择/选择/问题怎么样?每个地区都有自己的特点和缺点,每个人都有不同的观点和标准。你可以投票给你认为做得最好的直辖市。为什么没有选择其他城市进行分析?因为这是一个每个人都要思考的问题,你可以使用上面的分析维度或你认为更重要的标准来访问你所在的健康和健康委员会的官方网站,然后写下你在邮件中发现的重点和问题。得到最多赞扬的答案将获得实验室颁发的神秘奖品。自愿加班三天三夜,超过256天,但工资没有三倍。
不是为了发送论文
[团队成员]框架构建、写作、数据检查、图表制作:
郑雷、卢文增、晓寒、张虹
框架构建、数据抓取、数据清理、数据分析:
姚晨、邓杰、王金飞、王家豪
文本校对:侯子