1、一 背景与趋势二 评估方法 2.1 定义、原则与标准 2.2 评估范围 2.3 指标体系 2.4 数据采集及分析三 主要发现 3.1 总体分布 3.2 开放数据集总量 3.3 数据开放度 3.4 数据覆盖面 3.5 数据持续性四 “开放数林”指数分值与排名 4.1 各项指数均值 4.2 指数分值与排序五 结论与建议03040404060708081011162427272730目录 INDEX目录Index2017 中国地方政府数据开放平台报告一、背景与趋势 3二、评估方法 42.1 定义、原则与标准 42.2 评估范围 42.3 指标体系 62.4 数据采集及分析 7三、主要发现 83.1
2、总体分布 83.2 开放数据集总量 103.3 数据开放度 113.4 数据覆盖面 163.5 数据持续性 24四、“开放数林”指数分值与排名 274.1 各项指数均值 274.2 指数分值与排序 27五、结论与建议 30| 01一 背景与趋势二 评估方法 2.1 定义、原则与标准 2.2 评估范围 2.3 指标体系 2.4 数据采集及分析三 主要发现 3.1 总体分布 3.2 开放数据集总量 3.3 数据开放度 3.4 数据覆盖面 3.5 数据持续性四 “开放数林”指数分值与排名 4.1 各项指数均值 4.2 指数分值与排序五 结论与建议030404040607080810111624272
3、72730目录 INDEX一 背景与趋势二 评估方法 2.1 定义、原则与标准 2.2 评估范围 2.3 指标体系 2.4 数据采集及分析三 主要发现 3.1 总体分布 3.2 开放数据集总量 3.3 数据开放度 3.4 数据覆盖面 3.5 数据持续性四 “开放数林”指数分值与排名 4.1 各项指数均值 4.2 指数分值与排序五 结论与建议03040404060708081011162427272730目录 INDEX一、背景与趋势数据是国家的战略性资源,一个国家有大量基础性、关键性的数据掌握在各级各地政府部门手中。大数据建立在开放数据的基础上,政府部门在履行行政职责过程中制作、获取和保存了海
4、量的数据资源,这些数据是整个社会的公共资源,应取之于民,还之于民,释放数据能量,创造社会价值。在保障国家秘密、商业秘密和个人隐私的前提下,将政府数据最大限度地开放给社会进行开发利用,将有利于加强政府透明度,激发创新活力,提高服务水平,转变经济发展方式,提升政府治理能力。近年来,开放政府数据已在全球范围内迅速推进。根据 2016 联合国电子政务调查报告 的数据,截止 2016 年,联合国193个成员国中已有 106 个 提供了开放数据目录。我国政府也高度重视开放政府数据。 2015 年 8 月,国务院印发的促进大数据发展行动纲要要求稳步推动公共数据资源开放,加快建设国家政府数据统一开放平台。20
5、17年2 月,中央全面深化改革领导小组第三十二次会议审议通过了关于推进公共信息资源开放的若干意见,要求着力推进重点领域公共信息资源开放,释放经济价值和社会效应。2017 年 5 月, 国务院办公厅又印发政务信息系统整合共享实施方案,明确要求“推动开放,加快公共数据开放网站建设”。2012 年以来,我国 已有近二十个地方政府陆续推出数据开放平台,先行先试,积极探索,积累了许多经验,也仍然面临着许多挑战。我国各级城市是公众集中生活的重要空间,城市数据具有高密度高价值的特点,开放城市政府数据有利于吸引社会各方基于城市的实际需求和应用场景对开放数据进行融合利用,创造社会经济价值,并形成正向反馈,进一步
6、推动政府数据开放,构建起一个动态循环的开放数据生态系统。在此背景下,复旦大学与“提升政府治理能力大数据应用技术国家工程实验室”联合发布国内首个地方政府数据开放报告2017 中国地方政府数据开放平台报告。报告由复旦大学数字与移动治理实验室基于多年研究积累和数据监测分析制作完成。基于开放数据的原则与标准,借鉴多家国际性评估报告实践,立足我国政府数据开放的实际情况和发展阶段,报告构建起一个系统科学、多维度、可操作的评估框架,并基于该框架对我国现有的地方政府开放数据平台进行综合评价,制作指数报告,提出优化建议。开放数据,蔚然成林。一棵棵开放 “ 数木 ” 的丛然并生、成荫如盖、直至叶茂花开,终将成长为
7、一片繁盛多样、平衡稳定、循环持续的 “ 开放数林 ”。中国地方政府数据开放平台报告将定期发布 “开放数 林 指数” ,持续追踪我国地方政府数据开放工作的推进与深入,精心测量 “数 木 ” 们的粗细、密度、材质与价值,助力中国开放数据生态系统的形成与发展。2017 中国地方政府数据开放平台报告1. 背景与趋势Background02 | 03二、评估方法2.1 定义、原则与标准2007 年 12 月,30 位 开放数据倡导者聚集在美国加利福尼亚州,首次提出了开放政府数据的8大基本原则:完整的、原始的、及时的、可公开获取的、可机器读取的、非歧视获取的、非专属的、免于授权许可的。会议还将“数据”定义
8、为 “一切以电子形式存储的记录” ,并指出公共数据是指不涉及隐私、安全和其他特定限制的数据1。 2016联合国电子政务调查报告 将开放政府数据定义为 “ 主动在网上公开政府信息,使任何人都能不受限制地获取、再利用和再分发 ”2。根据世界银行的定义,开放数据是 “ 能被任何人出于任何目的不受限制进行自由利用、再利用和分发,并最大程度保持原始出处和开放性的数据 ” 。所谓“开放性 ”, 应具备两个维度的特性:一为法律性开放,即这些数据必须被置于公共领域,或处于自由利用条款下,受到最低程度的限制;二为技术性开放,即数据必须以机器可读的、最好是非专属的、电子格式发布,从而使任何人可使用通用的、免费的软
9、件获取和利用这些数据,数据还应被放置于公共服务器上,可被公开获取,不受密码或防火墙的限制3。2015 年, 国际开放数据宪章将开放数据界定为具备必要的技术和法律特性,从而能被任何人、在任何时间和地点进行自由利用、再利用和分发的电子数据。该宪章还提出六项原则:以开放为默认原则、及时和全面、可公开获取和可利用、可比较和互操作、致力于改善治理与公众参与、1 www.opengovdata.org2 https:/publicadministration.un.org/egovkb/en-us/reports/un-e-government-survey-20163 http:/opendatatoo
10、lkit.worldbank.org/en/essentials.html致力于包容性发展和创新4。纽约大学政府实验室(Govlab)对国际上具有代表性的十一个研究机构、评估指标、政府部门和咨询公司界定的“开放数据”定义进行梳理后发现,最多被提及的开放数据标准包括免费、公开提供、非排他性、可利用结构、开放授权和可再利用等5。2017 年, 国务院办公厅印发的政务信息系统整合共享实施方案指出要向社会开放“政府部门和公共企事业单位的原始性、可机器读取、可供社会化再利用的数据集”。国家公共数据开放的有关要求也指出要保证开放数据的完整性、准确性、原始性、机器可读性、非歧视性、及时性,方便公众在线检索、
11、获取和利用。本次评估根据以上定义、原则与标准,基于目前我国政府数据开放的实际情况和发展阶段,确定了报告的评估对象、指标体系、数据采集分析方法、以及指数计算方法。2.2 评估范围报告根据公开报道,以及使用 “数据 开放 ”、“数据公开 ” 、 “政务数据资源”、“政府数据服务”、“地名政府数据”、“地名数据”等关键词进行搜索,发现了截至 2017 年 4 月我国已上线的政府数据开放平台,并将符合以下条件的开放数据平台纳入评估范围:(1)平台域名中出现 ,作为确定其为政府官方认可的数据开放平台的依据。(2)平台形式为“统一专有式”或“统一嵌入式”。“统4 http:/ http:/odimpact
12、.org/resources.html2. 评估方法Methodology一专有式”是指开放数据统一汇聚在一个专门的平台上进行开放,“统一嵌入式”是指开放数据统一汇聚为一个栏目板块,嵌入在政府门户网站或政务服务网站上。各个条线部门建设的非集中式开放数据的平台不在本报告的评估范围内。(3)平台所代表的地方政府的行政级别一般为地级市以上。需要特别说明的是,作为国内最早开放数据的区级政府,佛山市南海区在国内政府数据开放领域进行了先行探索,为持续跟踪比较, “数说南海网”作为唯一的区级平台被 纳入此次评估的范围。2017 中国地方政府数据开放平台报告(4)平台上确实开放了电子格式的、可通过下载或接口形
13、式获取的、结构化的数据集。即使名为“数据开放”平台,但实质上只提供了非结构化的文本内容,不存在可通过下载或接口形式获取的、结构化的数据集,更多属于传统“信息公开”性质的平台未纳入本次评估范围,如江西省人民政府门户网站“用数据”模块、四川省人民政府网站上的“开放数据”模块和广东清远市人民政府网“数据开放”频道等。基于以上选择标准,被纳入本次报告评估的地方政府数据开放平台共 19 个,这些地方的平台符合政府数据开放的平台名称 地点 层级 平台域名1 北京市政务数据资源网 北京市 省级 2 开放广东 数据服务网 广东省 省级 http:/3 贵州省政府数据开放平台 贵州省 省级 http:/ 上海政
14、府数据服务网 上海市 省级 http:/ 浙江政务服务网 浙江省 省级 http:/ 广州市政府数据统一开放平台 广东省广州市 副省级 http:/ 哈尔滨市 政府 数据开放 平台 黑龙江省哈尔滨市 副省级 http:/8 青岛市政府数据开放 网 山东省青岛市 副省级 http:/9 深圳市政府数据开放平台 广东省深圳市 副省级 http:/ 武汉市政府公开数据服务网 湖北省武汉市 副省级 http:/11 长沙数据开放 湖南省长沙市 地级 http:/ 数据东莞网 广东省东莞市 地级 http:/ 佛山市数据开放平台 广东省佛山市 地级 http:/ 贵阳市政府数据开放平台 贵州省贵阳市 地
15、级 http:/ 梅州市人民政府数据开放平台 广东省梅州市 地级 https:/ 无锡市政府数据服务网 江苏省无锡市 地级 http:/ 肇庆 市人民政府“用数据”模块 广东省肇庆市 地级 http:/ 湛江 市政府 数据服务网 广东省湛江市 地级 http:/ 数说南海网 广东省佛山市南海区 区级 http:/ 1 评估范围04 | 05基本特征,是我国开放政府数据的先行者。具体平台名称、所属地方政府和平台域名如表 1 所示。“数据”是开放数据的核心,包括数据数量、种类、标准、质量和价值等方面,因此本次评估主要针对各地平台上开放的数据本身。为聚焦重点,本次评估暂不包括开放政府数据的法制、组织
16、、技术、经济和社会环境;开放数据平台功能和体验;开放数据的使用情况和效果等方面。报告的主要观察对象为我国地方政府数据开放平台上可通过直接下载或 API 接口两种方式公开获取的、电子形式的原始数据集及其相关信息;不包括平台上的APP应用、数据报告、可视化呈现等数据应用产品。基于开放数据的非歧视和公开获取原则,通过内部授权、协议开放等形式开放的数据也不属于本报告的评估对象。2.3 指标体系(1) 指标框架复旦大学数字与移动治理实验室通过对十多个具有代表性的国内外政府数据开放评估项目在 “数据层面”的 评估指标进行梳理和分析后发现6,最受重视的二级指标依次是:数据标准、数据质量、数据管理、数据数量、
17、数据类别、关键数据集等,其中开放授权、机器可读、可获取、非专属、及时、元数据提供等三级指标最受关注。在充分借鉴国际性开放数据评估报告指标体系的基础上,立足于目前我国各地开放数据实践的实际情况与发展阶段,本着系统科学、多维度、可操作的原则,本报告建构了一套评估指标框架(如表3所示)。框架共包括四个一级指标:数据集总量、数据开放度、数据覆盖面与数据持续性。6 郑磊、关文雯,开放政府数据评估框架、指标和方法研究,图书情报工作,第 60 卷第 18 期 http:/ 50 多位我国数据开放领域的学者和数据开发利用专业人士组成专家评委会(详细名单见报告附件)对各项评估指标的相对重要性进行排序,以反映第三
18、方学术机构的专业视角和数据利用者们的实际需求。排序结果如表 2 所示,被排在最重要位置的指标是 “ 数据集价值 ” ,这反映了各界对高价值数据集的需求。然而,数据的价值要通过实际应用来展现和评估,由于目前我国政府数据开放工作刚刚起步,大量高价值政府数据仍未开放,数据尚未被充分应用以展现其价值,因此本次报告暂不评估该项指标。被专家评委会排在第二至第五位的指标依次是开放数据格式、元数据提供、开放授权以及数据集更新,而开放重点领域关键数据集、数据集主题覆盖面与数据集总量的重要性相对靠后,这反映了学界和业界更为重视数据标准和数据质量,而反对一味追求数据数量。表 2 评委专家对评估指标相对重要性排序的结
19、果指标名称 排序得分 重要性数据集价值 3.37 1开放数据格式(技术性开放) 3.66 2元数据提供 3.70 3开放授权 3.72 4数据集持续更新 3.83 5开放重点领域关键数据集 4.47 6数据集主题覆盖面 4.51 7数据集数量 4.51 7评估指标框架及指标权重的设置意在推进我国各地开放数据实践的持续健康发展,需兼引导性、相关性、明确性、可衡量性、可实现性和动态性,综合考量国际性评估报告的2. 评估方法Methodology15%20% 20% 10%10%5% 5% 5% 8% 6% 6%15% 20%50%5% 5% 8% 7%5% 5%API5%指标体系、专家评委会的评分
20、结果、以及目前我国各地发展现状、主要问题和亟需引导的方向,本期报告确定了各级指标对应的权重(详见表 3),对数据开放度赋予最高的权重(50%),其次是数据持续性(20%)、数据集覆盖面(15%)与数据集总量(15%)。随着各地政府数据开放实践的不断深入推进,指标框架及指标权重将进行动态调整。2.4 数据采集及分析报告采用自动抓取和人工观察方法采集数据。以2017年 4 月 18 日为数据采集始点,在之后四周内的四个时间点持续采集数据,采集时间分别为 2017 年 4 月 18 日、2017年4月24日、2017年4月30日 与 2017年5月7 日。报告主体分析部分以 4 月 18 日采集的数
21、据为基准,而在平台数据动态更新部分则使用四个时间点采集的数据进行追踪对比分析。报告对采集到的各项指标的数据进行了描述性统计分析和交叉分析。2.5 指数计算方法报告对各地平台在各项指标上按照 0-5 共 6 档分值进行评分,由低到高分别为 1-5 分 (“开放授权”指标的分值例外,4项三级指标共5分,每满足一项得1.25分),相应数据缺失或完全不符合标准则分值为 0。各地平台的最终指数总分为每个单项指标的分值乘以相应的权重,再换算成百分制。2017 中国地方政府数据开放平台报告06 | 07表 3 指标框架与权重图 1 各地平台上线时间3. 主要发现Key Findings三、主要发现3.1 总
22、体分布(1)上线时间自 20 12 年上半年上海推出我国大陆地区第一个开放数据平台起,截止到 2017 年上半年,我国陆续上线了十多个符合开放政府数据基本特征的地级以上平台(如图 1)。以2015 年 8 月底国务院印发促进大数据发展行动纲要为分水岭,在此之前,各地开放数据平台增长较为缓慢,上海和北京最早进行了探索,此后无锡、佛山南海、湛江、武汉等地先后上线;促进大数据发展行动纲要出台后各地平台增长速度明显提升, 15年下半年新上线了4 个平台, 16年下半年又增加了 6 个平台, 17 年上半年也陆续有新平台推出。各地政府数据开放平台上线时间( 2) 地区分布截止 2017 年 4 月,我国
23、各地上线的符合政府数据开放基本特征的平台的地理位置分布如图 2。标注为深色的为省级平台,浅色为地级市。由图可见,我国绝大多数地方政府尚未开放数据。目前上线的平台主要分布在东南部沿海地区,部分分布在西南与华中地区,长江以北分布较少。其中,广东省地级市开放平台分布尤为集中,形成了我国最为密集的省级 “ 开放数林”。 各地政府数据开放平台的地理分布图 2 各地平台地理分布( 3) 行政层级报告对各地平台所属的地方政府行政层级及其所占比例进行了分析(如图 3)。目前各地上线的平台中地级市数量最多,省级行政区和副省级城市数量相当,然而我国共有31个省级行政区(港澳台除外)、15个副省级城市和334图 3
24、 各地平台行政层级分布2017 中国地方政府数据开放平台报告08 | 09个地级市,与我国省级行政区、副省级城市、地级行政区的总数相比,已开放数据的地方所占比例普遍偏低。( 4) 平台类型从各地开放数据平台的类型来看,绝大多数平台以统一专有方式呈现,即开放数据统一汇聚在一个专门的平台上进行开放。只有梅州和肇庆为统一嵌入式,即开放数据统一汇聚为一个栏目板块,嵌入在政府门户网站或政务服务网站上。统一专有式平台更有利于用户通过一站集中的方式发现、获取和利用数据,也是目前国际上普遍采用的方式。3.2 开放数据集总量数据集,是一种由数据所组成的集合,通常以表格形式出现,“列”代表一个特定变量,“行”对应
25、于一个样本单位。政府数据开放平台通常以下载或 API 接口的形式开放数据集。个别平台上出现的以下三类情况,在报告中将不视作有效的开放数据集:(1)数据集名称下不存在可直接下载或通过接口获取的数据集;(2)数据集中仅有 0 行或 1 行数据(多为将一个数据集分拆出的单行数据,或未整合成一个数据集的单行数据);(3)数据集名称下提供的是网页链接,且链接跳转后出现的是无法通过下载或接口形式获取的文本内容。同时,报告将各地平台上出现的以下三类情况只视作一个有效的数据集:(1)同样名称的数据集重复出现;(2)平台上标注的数据集名称不同,但实际下载后的数据集具有相同的名称与内容;(3)同一个数据集按行政区
26、划与部门等被分拆成多个数据结构相同的数据集。各地开放数据平台开放的有效数据集总量(含直接下载和 API 接口开放)如图 4 所示。在 19 个开放数据平台中,图 4 各地平台上开放的数据集总量3. 主要发现Key Findings武汉开放的数据集最多,与上海、贵阳处于第一梯队,都开放了超过 1000 个有效数据集或接口;其次是青岛,开放了847个有效数据集。其后,无锡、深圳、北京开放了400多个的数据集;佛山、东莞、广州、南海、浙江等地开放了300 多个。4 各地平台上开放的数据集数量(包含 API 接口)3.3 数据开放度关于开放数据的格式标准,万维网发明者Tim Berners-Lee提出
27、了一个开放数据五星标准7:一星:基于开放授权在网络上开放数据,对数据格式不做要求,可能采用 PDF、JPEG 等格式;二星:以可机读、结构化格式开放数据(如采用EXCEL格式而非扫描格式);三星:在满足二星标准的基础上,以非专属开放格式开放数据(如采用CSV格式代替EXCEL格式);四星:在满足以上要求的基础上,为每一个数据集设置固定的URL链接,便于使用者7 https:/www.w3.org/DesignIssues/LinkedData.html发现和链接到数据集的具体位置;五星:在满足以上要求的基础上,数据之间实现关联 ,以展现数据的背景。本报告基于该标准和其他有关开放数据格式的标准,
28、重点对各地开放平台上的数据集的开放度进行评估。3.2.1 技术性开放(1) 可机读格式为方便用户获取和利用数据,数据集应以可机读格式开放,该格式能被计算机自动读取与处理,如 XLS、CSV、JSON、XML 等格式。图 5 展示了各地平台上可下载数据集总量与可机读数据集总量的对比。总体来看,各地平台上满足可机读格式的数据集比例较高,贵阳、上海、青岛、东莞、佛山、南海、广州、哈尔滨等平台上开放的可下载数据集基本都满足了可机读格式。但也有一些地方平台虽然开放的数图 5 各地平台可下载数据集与可机读格式数据集数量2017 中国地方政府数据开放平台报告10 | 11据集总量不小,但其中不少数据集为DO
29、C、PDF、JPG等不可机读格式。还有部分平台虽然提供了可机读格式的数据集,但内容多为加工归总后的统计数据,并不满足开放完整的、原始的、可再利用的数据集的开放数据原则。 平台可下载数(2)开放格式开放格式是指可下载数据集应以开放的、非专属的格式提供,任何实体不得在格式上排除他人使用数据的权利,以确保数据无需通过某个特定(特别是收费的)应用程序才能访问。例如 CSV 是开放格式,而 XLS 则不是。图6是各地方平台上可下载数据集总量与开放格式总量的对比,贵阳平台上开放格式的数据集数量最多,所有的数据集都可通过开放格式下载。东莞、佛山、南海、广州、哈尔滨、长沙等地方平台上提供的数据集也都满足开放格
30、式图 6 各地平台可下载数据集与开放格式数据集数量的标准。北京平台上开放的大多数数据集也达到了开放格式标准。此外,约有一半的地方平台没有提供任何开放格式的数据集,而多以 XLS 格式为主。 数据集与开放格式数量(3) API 接口除了数据直接下载以外,有些地方平台还提供了应用程序编程接口(API 接口 , Application Programming Interface)。与通过直接下载方式获取数据集相比,接口方式使用户可通过参数实时高效地获取所需数据,尤其适用于开发应用程序的需求。深圳、北京、东莞三个地方平台为每个数据集提供了接口(见图 7)。其中,深圳开通的接口数量最多。此外,佛山、上海
31、、贵阳等地也提供了一定数量的接口。然而,仍有将近一半的平台没有或很少提供 API 接口,还有个别地方平台上的 API 接口多数处于无法被调用的状态。3. 主要发现Key Findings图 7 各地平台数据集总量与 API 接口数量图 8 各地平台开放授权详情2017 中国地方政府数据开放平台报告12 | 13图 10 开放数据非歧视性比例3. 主要发现Key Findings3.3.2 开放授权开放数据应通过数据开放授权协议从法律上保障数据的开放性,数据开放授权通常包含在开放数据平台的网站声明、免责条款或服务协议中。报告发现,在 19 个政府数据开放平台中,共有12个平台配有数据开放授权。7
32、个平台缺少专门的数据开放授权,占评估总体的36.8%,这其中有 4 个平台的网站声明与政府门户网站共享,并非专门针对开放数据平台制定,也没有专门涉及数据开放授权的内容。开放授权协议的内容应明确授予用户免费获取、不受歧视、自由利用、自由传播与分享“开放数据”的权利。目前没有一个地方平台的授权协议全部明确授予了上述四项权利。上海和贵阳满足了其中三项指标;青岛、广东、广州、佛山南海、佛山、武汉、无锡和北京满足了其中两项;贵州和东莞满足了一项;其余地方在四项指标上未明确提及,或语焉不详(见图 8)。 图 5 各地方开放授权指标详情(1)免费获取免费获取是指平台在开放授权中明确授予用户免费获取和利用“开
33、放数据”的权利。政府数据作为公共资源,原则上应免费向社会开放,除非需要对数据进行额外的增值加工和针对少数人的个性化加工等。目前各地平台上的相应条款分为“免费且未设时限”、“现阶段免费”、“未明确是否免费”三类。其中,贵阳、东莞的条款中明确说明数据免费且未设时限,用户可永久无偿获取数据平台所提供的所有数据资源。其他大部分地方平台则在服务协议中提到“现阶段免费”,但设置有模糊的期限或限制,如“保留收费权利”等表述;其他少数城市未明确表述是否免费(见图 9)。 开放数据免费获取比例(2)非歧视性开放授权是指平台明确授予任何用户平等访问、获取、图 9 开放数据免费获取比例使用和分享“开放数据”的权利。
34、目前各地平台上的相应条款分为“明确保障非歧视性”、“未明确保障非歧视性”两类情况。多数地方的开放数据平台明确保障了数据开放的非歧视性,对任何用户都予以平等的数据获取和利用权限;但上海、贵阳、贵州、东莞、青岛等地未明确提及是否保障非歧视性(见图 10)。图 7 开放数据非歧视性比例(3)自由利用开放授权应明确授予用户不受限制地对“开放数据”进图 11 开放数据自由利用比例行商业和非商业性利用的权利。目前各地平台上相应条款分为“明确允许自由利用”和“未明确提及可自由利用”两类。其中上海、青岛和贵阳明确表明用户可“进行商业或非商业性的开发活动”、“享有增值利用的权利”或“拥有自由利用的权利”,其余9
35、个地方均未对用户利用数据的权利做出明确说明(见图 11)。 图 4开放数据自由利用比例(4)自由传播与分享开放授权应明确授予用户可自由传播和分享“开放数据”的权利。目前各地平台上的相应条款分为“可自由传播”、“自由传播受限”、“未提及可自由传播”三类情况。贵阳、青岛、上海授予用户享有免费传播现有开放数据的权利;为保障用户免费获取数据的权利,青岛特别说明了用户不得有偿转让获取的数据。其他大部分地方在使用条款中要求“用户不得有偿或无偿转让数据资源”,限制有偿转让数据有利于保障用户免费获取数据的权利,但限制用户无偿传播和分享已开放的数据并不符合开放数据的原则,在实际操作中也很难发现和限制。其他地方未
36、对用户自由传播与分享的权限做出明确说明(见图 12)。 图 5 开放数据自由传播与分享比例3.3.3 元数据提供政府数据开放平台为开放数据集提供元数据有助于数据利用者清楚地了解和理解数据集的内容与背景,从而更好地获取和利用数据。本报告对各地平台上的可下载数据集所提供的元数据进行了分析。(1)平台元数据条目图 13 显示了各地平台上提供的元数据条目数量。贵阳提供的元数据条目数最多,其次是哈尔滨与广州,也有少数平台只提供了较少的元数据条目。图 12 开放数据自由传播与分享比例2017 中国地方政府数据开放平台报告14 | 15(2) 基本元数据覆盖率综合梳理国际开放数据平台上提供的基本元数据条目以
37、及目前我国半数以上的平台已实际提供的元数据条目,报告确定了以下13个条目作为开放数据集基本的元数据条目,包括数据名称、摘要、关键字、数据主题、下载格式、数据提供方、发布日期、更新日期、更新频率、访问量、数据项(字段)、数据量等。其中数据量是指数据集所含的行数(或行数乘以列数),数据项是指数据集中每一列的具体名称,两者有助于利用者更好地了解数据结构与内容。图 13 各地平台元数据条目图 14 基本元数据条目在各地平台的分布数3. 主要发现Key Findings图 14 表示以上 13 个基本元数据条目在 19 个地方平台的分布情况。目前,所有 19 个地方平台都已提供了数据集名称与下载格式,大
38、多数平台已提供数据描述、数据主题、关键字(标签)与数据提供方。然而,目前能提供更新频率、访问量、数据项、数据量条目的地方平台还相对较少。图 15 各地平台基本元数据条目覆盖数图 16 各地平台基本元数据条目详情列表2017 中国地方政府数据开放平台报告16 | 17数据名称 描述 关键字 数据主题 下载格式 数据提供方 下载量 更新日期 发布日期 更新频率 访问量 数据指标 数据量东莞广州贵阳哈尔滨青岛北京佛山广东上海武汉湛江浙江梅州南海深圳长沙贵州无锡肇庆图 15 表示各地平台提供的基本元数据条目的数量,目前还没有一个平台提供了所有的基本元数据,东莞、广州、贵阳、哈尔滨与青岛覆盖了 12 个
39、基础元数据条目,仅缺少一条;其次是北京、上海、广东等地,都缺少两条。各地平台提供的基本元数据条目详情可参见图16,无圆点的空格即为该地方缺少的元数据条目。 图 14 基础元数报告进一步分析了各地方平台开放数据集的主题领域覆盖面,图18显示了各地已覆盖的主题个数。在14个主题领域中,不同地区间的主题分布情况差异显著。广州、贵阳、青岛开放的数据集主题覆盖面最高,只有一个未覆盖主题,其次为北京、南海、无锡等地。开放数据集总量较少的企业登记监管等民生保障服务相关领域的政府数据集向社会开放”。基于行动纲要的要求,结合国内外开放数据平台上实际开放的重点数据集主题,报告将开放数据主题归纳为财税金融、经贸物流
40、、交通出行、机构团体、文化休闲、医疗卫生、教育科技、社会民生、资源环境、城建住房、公共安全、农业农村、社保就业、信用服务共 14 个大类。图 17体现了各地平台在14个主题下所开放的数据集个数。其中,经贸物流的数据集开放数量最高,包含了经济建设和企业服务等内容;其次为社会民生、机构团体的数据集,数据开放相对较少的主题为财税金融、农业农村和信用服务等。据条 3.4 数据覆盖面 3.4.1 主题覆盖率开放各个主题领域的数据集有利于提高数据开放的广度和覆盖面,有利于数据利用者充分获取和融合来自多种领域的数据,进行深度的挖掘利用。2015年8月国务院印发的促进大数据发展行动纲要提出要“优先推动信用、交
41、通、医疗、卫生、就业、社保、地理、文化、教育、科技、资源、农业、环境、安监、金融、质量、统计、气象、海洋、图 17 各主题包含的数据集个数3. 主要发现Key Findings地方其主题覆盖率也相应较低。这些地方之间的差异可能与各地发展重点、开放意愿和数据储备基础等因素有关。某些地方平台上主题领域的用词与社会上的数据利用者或普通公众的用词习惯有差异,过于宏大和宽泛,更多反映了政府部门的视角,如“经济建设”和“社会发展”等,还有些地方的主题领域用词则过于模糊,如“综合信息”和“工作结果”,不利于用户发现、理解和获取其需要的数据。3.4.2 部门覆盖率 开放数据集的部门覆盖率反映了一个地方政府的各
42、个部门对于数据开放工作的参与程度,也体现了数据集的丰富程度。报告首先梳理了超过半数的地方平台开放数据集所覆盖的部门作为“主要数据提供部门”,由于不同地方具有相同职能的部门在名称上存在差异,报告对这些部门的名称做了相应的合并与调整。图 19 为各地平台上主要数据提供部门所提供的数据集数量。由图可见,各地平台上来自统计局的数据集数量最多,远高于其后的商委、交通委、卫计委、公安局、教委、经信委等部门,而提供数据集数量相对较少的是财政、气象和档案等部门。图中的不同色条的纵向宽度反映了各地平台上不同数据提供部门的数据集数量,如上海提供最多数据的部门为交通委、卫计委与公安局,统计部门数据所占相对较少。统计
43、部门提供的数据多为经过归总加工后的宏观数据,各地还应继续提升各个具体业务部门的开放数据集比例。同时,报告还分析了各地平台数据提供部门数量占该地方政府职能部门总数(数据来自各地政府门户网站)的比例,以评估该地方的开放数据部门的覆盖面。结果如图20,贵阳的部门覆盖率超过了9成,此后是上海与南海,均超过了7成,仍有部分地方平台的部门覆盖率不到一半,尚有较大提升空间。图 23 各平台关键数据提供部门提供的数据集个数分布图 18 各地平台主题覆盖数2017 中国地方政府数据开放平台报告18 | 19图 19 各地平台主要数据提供部门数据集数量分布图 20 数据提供部门占部门总数的覆盖率3. 主要发现Ke
44、y Findings图 243.4.3 关键词覆盖率报告对各地平台上数据集名称进行了文本分析,发现了一批出现频次较高的关键词,这些关键词反映了各地开放数据的内容及其分布。如图 21 所示,各地开放数据集中出现频次最高的关键词是“信息”和“情况”,远远高于其后的“企业”、“机构”、“统计”等。这类词汇仍旧体现了政府部门的用词习惯,而不是社会公众更容易理解的词汇。值得注意的是,作为政府数据开放平台,“数据”一词出现的频次却远小于其它名词,也反映了政府部门的惯性思维。 图 17 各平 33 个名词图 18 数据集名称中 52 个高频描述性限定词图 22 为各地数据集中高频出现的描述性限定词,这些限定
45、词描述了数据集的主要内容和方向。由图可见,“经营”、“生产”和“预算”出现的频次最高,其后“审批”、“许图 21 各地开放数据集名称中出现频次最高的 33 个名词2017 中国地方政府数据开放平台报告图 22 各地开放数据集名称中出现频次最高的 48 个描述性限定词20 | 21图 23 各地开放数据集名称基本关键词覆盖率3. 主要发现Key Findings可”、“机动车”、“企业名单”、“蔬菜”等词也有较高的出现频次。在以上高频描述性限定词与名词的搭配中,“审批信息”、“公开信息”、“许可机构”、“经营企业名录”、“预算公开”等数据集出现频次较高,这些数据集的来源多为政府信息公开的内容,以
46、文本为主,数字较少,更多为统计加工后的数据,具有高价值的、原始的、完整的数据集较少。报告将各地开放的数据集名称中高频次出现的 48 个描述性限定词确定为“基本关键词”,然后分析各地平台数据集名称对于这些基本关键词的覆盖率。如图 23 所示,覆盖率最高的是贵阳,达到了全部覆盖,其次是无锡、武汉、青岛和上海,基本关键词覆盖率都超过了9成,少数城市覆盖率较低,不到两成。各地开放的数据集名称对于基础关键词的覆盖详情如图24所示,数字所在单元格颜色越深,代表涉及到该关键词的数据集越多,颜色越浅则代表该项数据集越少。覆盖详情图 24 各地开放数据集名称基本关键词覆盖详情2017 中国地方政府数据开放平台报
47、告22 | 233.5 数据持续性3.5.1 持续增长运维政府数据开放平台是一项常态化工作,平台上线后还应持续新增数据集,以不断满足社会对开放数据日益增长的需求。报告根据各地平台上数据集的创建日期来判断该平台数据集是否持续增长,以半年为时段进行跟踪分析,持续增长分值取决于该平台数据集保持持续增长的时段的数量。图 25 显示的是以半年为时段的各地平台数据集持续增长情况,颜色区域表示该时段有新增数据集出现,空白区域表示该时段无新增数据集。上海平台上线时间最早,2012年上半年上线,至今数据已保持了 9 个时段的持续增长;北京平台于 2012 年下半年上线,持续增长时段为6个。在2014年下半年,佛山南海、湛江和无锡的平台上线,但湛江自上线之后便不再新增数据集。2015 年以后新上线的平台基本都能保持数据集增长。图 25 各平台上线时间与持续更新3.5.2 动态更新(1) 承诺更新频率报告对各地平台开放的数据集所承诺的更新频率进行了分析,分为不更新、不定期更新、每年更新、每半年更新、每季度更新、每月更新、每周更新、每日更新、实时更新九类。其中,报告将更新频率为不更新、不定期更新、每年或每半年的数据集视为相对静态数据,将更新频率为每季度、每月、每周、每日与实时更新的数据集视为相对动态数据。图 26
copyright@ 2008-2019 麦多课文库(www.mydoc123.com)网站版权所有
备案/许可证编号:苏ICP备17064731号-1