全球数据指数:世界上开放数据的当前状态是什么?
全球数据指数:开放数据的当前状态是什么?
国家在多大程度上采用数据政策和系统造福公众?
我最近读了一本关于全球城市开放数据政策采纳的书。这本书名为《透明之外》(公开可用的链接),它包括了一些案例研究,展示了2010年代初开放数据政策的成功和障碍。正如标题所暗示的,提供可访问和免费的数据集是迈向更加透明的政府的一种举措,但不仅限于此。这本书讨论了这些数据如何推动创新,提高政府效率,并鼓励新的市民习惯,例如更多的市民参与。数据专业人员,包括工程师和数据科学家,还围绕这些新数据集构建了自己的解决方案,建立了更好的模型和应用程序。关于这些新的市民科技生态系统的一些例子,请查看《构建更智能的芝加哥》章节以及从Data SF或芝加哥数据门户等网站产生的分析工作!另一个我个人喜欢的章节是《数据驱动的城市》,它介绍了纽约市如何通过收集311电话来模拟紧急服务和资源分配。
自2010年代以来,数百个国家通过了自己的开放数据法律。全球数据测量杆(许可:知识共享署名4.0)在其中109个国家中测量了开放数据的状况,回答了“国家在多大程度上管理数据造福公众?”这个问题。该研究使用定量指标和定性描述的混合方法,提供了一个清晰的画面,展示了世界在开放数据方面的情况。这是一项非常全面的工作,因此我认为花一些时间用这个故事来探索其中的一部分是很有趣的。
快速说明:在这个故事中,我使用Observable笔记本(基于JavaScript)进行可视化和Jupyter进行数据整理;两者的链接在最后。
让我们开始吧!
- 机器学习如何成为位置数据行业的改变者
- 对任何关系数据库的openCypher*’ Note *openCypher is a query language for graph databases.
- 数据结构和算法中的双向链表
指标概述:国家如何排名?
综合国家指标范围从0(不存在)到100(最佳实践)。
上图显示了相当大的分布。最高得分的国家(70)是美国,最低得分的国家(10)是土库曼斯坦,而平均得分为38.51。该指数通过检查每个国家在四个方面或“支柱”上的开放数据实践来生成,这些支柱包括治理、能力、可用性、使用和影响。对于每个支柱,国家提供了关于特定要素(例如数据保护框架)的存在、要素(质量相关特征和开放数据特征)以及程度(特定框架在国家范围内的限制和适用性)的信息。该研究还追踪了每个支柱的次要指标,每个次要指标的评分为100分。因此,100分的整体指数得分代表了所有这些主要和次要指标的“规范理想”。
得分相似的国家在指标上仍存在巨大差异
让我们关注那些指标在平均水平(35到45)左右的国家。其中有20个国家,包括阿尔巴尼亚和科索沃,以及来自世界各地的国家:牙买加、哈萨克斯坦、巴拉圭、菲律宾、秘鲁、泰国和南非等。
尽管整体指数相似,但在看其在模块中的平均得分时,它们的表现并不一致。除了支柱之外,测量杆还编制了主题或模块得分,其中7个模块分别研究了以下领域的开放数据实践:健康和COVID-19、土地、公共财政、采购、气候行动、政治廉正和公司信息。下面是这20个国家在“气候行动”、“政治廉正”和“采购”模块上的情况:
许多国家存在不一致:
- 牙买加在气候行动方面表现最好,但在采购方面的得分较低。对气候指标进行深入研究发现,牙买加通过其统计研究所提供环境数据,包括“降雨量、阳光、污染事件、温室气体、受保护的森林区域、海平面”等指标,同时“没有数据缺口的证据”。然而,在采购方面,规划阶段没有公开信息,数据质量低:没有包含公司中标合同的名称/标识或有关“合同支出”的信息。
- 阿尔巴尼亚提供详细的采购信息在线可用(链接在此),但未涵盖合同执行情况,数据仅部分可机器读取。政治融资数据也可获得,但不包含政党和候选人的收入数据或历史追踪信息。
在所有这些模块上取得进展将推动政府更加透明和高效。例如,有更好的采购数据可以让公民分析项目各个阶段的资金使用情况,并推动更公平的分配。同样,透明的游说数据和财产申报可以增强政治廉正的问责性。气候信息使公众能够了解生物多样性、排放或脆弱性等方面的情况。
存在但主要是碎片化的治理框架
治理是数据集的重要支柱之一。它回答的问题涉及评估指导数据保护和管理的政策和框架的状态。治理研究追踪了一些指标,其中“开放数据政策”是其中之一,“数据保护”、“数据共享框架”、“数据管理”是其他一些指标。以下是各国在这些治理指标上的得分情况:
许多国家在数据保护、开放数据政策或数据管理等指标上表现得相对较好。约92%的调查政策对开放数据有共同定义,72%的国家建立了某种类型的数据管理框架,90%的国家提供数据保护法规(报告在此)。许多国家在数据同意、追索权和访问或更正权等问题上都提供部分或完整的法规。
尽管存在各种形式的数据治理框架,全球开放数据显示各国仍然存在严重限制。例如,只有24%的框架涉及位置信息问题,只有31%的框架涉及算法决策(报告中也有)。大多数这些国家位于欧洲和北美:这两个地区中有17个国家回答“是”对“框架明确涵盖位置相关数据的保护”,以及31个国家中有20个国家的“框架涉及算法决策”。
最后两个指标是可访问性和语言覆盖范围,评估确保数据对残障人士可访问并以各国官方语言提供的法规。对于拥有多种语言的国家,后者尤其重要,但仍然存在分散性:109个国家中有13个在此类别上达到100分(具备具有法律效力的框架)。
应对COVID-19疫情是数据治理的挑战,也是机遇
COVID-19大流行对许多数据系统进行了测试,特别是地方层面的系统。该研究不仅测量了疫苗接种数据的可用性,还包括实时医疗数据(例如ICU床位)和重要统计数据。重要统计数据包括出生和死亡信息、历史跨度以及该数据在国家内的本地可用性。以下是各国的热力图:
疫苗接种数据在数据集中的大多数国家都是可获得的,但也存在问题。只有约50%的可用数据集按年龄分解,约33%的数据按性别细分(报告统计数据)。此外,实时医疗数据仅在约50%的国家可用,甚至更少的国家公布了可用床位数量的信息。对于其中一些国家来说,这类数据仅在疫情期间首次提供,这为各国在未来改进医疗保健报告方面提供了契机。
用户探索数据有多容易?更深入的研究发现,在109个国家中,有61个国家没有提供官方的开放工具,允许公民访问重要统计数据。同样,109个国家中有63个没有提供官方且可访问的COVID-19疫苗接种数据。57个国家也没有提供机器可读的数据(如CSV),这对于简便分发和复制非常重要。
开放数据和资源的未来会怎样?
报告的一个重要发现是全球范围内开放数据环境相对不足(回顾平均总体指数:38/100)。正如我们在这个故事中看到的,拥有完善的开放数据法律是至关重要的。除了全球数据指标研究的工作,还有其他跟踪全球开放数据问题的法律的存储库。其中之一是The Gov Lab的《开放数据状况》。因此,可以查看它以了解按部门或合作类型的法律!
总体而言,全球数据指标报告揭示了采用这些法律的实际挑战,包括数据空白、无法访问或不可用的数据。我们看到的一个显著例子是发布和管理健康数据,特别是在COVID-19等紧急情况下,及时获取信息至关重要。然而,这个例子还显示了新的挑战如何促使数据促进透明度,并让公民保持知情,这非常有希望!总的来说,该报告为每个国家提供了特定领域的具体建议,为更好地收集数据提供了上下文特定的策略,同时提供了对开放数据当前挑战的整体视图。
以下是Jupyter和Observable的笔记本,
感谢阅读!