1、ICS 3524070;07040L 67 a雪中华人民共和国国家标准GBT 21337-2008IS0 191 13:20022008-0 1-09发布地理信息 质量原则Geographic information-Quality principles(ISO 19113:2002,IDT)2008-08-0 1实施宰瞀鹘鬻瓣訾糌瞥星发布中国国家标准化管理委员会促19GBT 21337-20081S0 19113:2002目 次前言;l言-1 范围2一致性3规范性引用文件4术语和定义5描述地理信息质量的原则-51数据质量说明的组成部分52数据质量量化元素和数据质量量化子元素53数据质量非量化
2、元素6地理信息质量的确定61量化质量信息的确定-62非量化质量信息的确定7质量信息的记录71量化质量信息的记录72非量化质量信息的记录附录A(规范性附录)抽象测试套件附录B(资料性附录) 数据质量概念及其应用-附录c(资料性附录)数据质量量化元素、数据质量量化子元素和数据质量非量化元素参考文献国家基础地理信息系统全国1: 250 000地形数据库示例16t-23I11l1445677899902刖 罱GBT 21337-2008IS0 19113:2002本标准等同(IDT)采用国际标准化组织地理信息技术委员会(ISOTC 211)制定的国际标准IsO 19113:2002 Geographi
3、c Information-Quality principles,并做了如下改动:a)标准的编写方法执行了国家标准GBT 112000标准化工作导则第1部分:标准的结构和编写规则的要求。b)将“本国际标准”和“ISO 19113”改为“本标准”。c) 删除了原国际标准的前言。d)增加了规范性引用文件:GBT 19000 2000质量管理体系基础和术语。e)将“ISO 19114:2003 Geographic Information一Quality evaluation procedures”改为“GBT 21336-2008地理信息质量评价过程”,将“Is0 i9114”改为“GBT 213
4、36 2008”;将“ISO 19115:2003 Geographic Information-Metadata”改为“GBT 19710-2005地理信息元数据”;将“IsO 19115”改为“GBT 197lo一2005”;将“IsO 19105”改为“GBT 193335-2003”;将“ISO 19108:2002 Geographic Information Temporal schema(地理信息时间模式)”改为“GBT 7408-2005数据元和交换格式 信息交换 日期和时间表示法”,将“IS0 19108”改为“GBT 7408”。f)按照全国科学技术名词审定委员会2002年
5、公布的测绘学名词(第二版)确定术语“准确度accuracy”及其定义。按照GBT 19000-2000确定术语“质量quality”的定义。g)将“data quality element”译为“数据质量量化元素”,“data quality subelement”译为“数据质量量化子元素”,“data quality overview element”译为“数据质量非量化元素”。h)删除了资料性附录c原有的示例内容,用我国国家基础地理信息系统全国1:250 000地形数据库数据质量控制暂行规定有关内容作为示例替代。i) 增加了参考文献部分及相关内容。本标准附录A为规范性附录,附录B和附录C为
6、资料性附录。本标准由全国地理信息标准化技术委员会提出并归口。本标准起草单位:国家基础地理信息中心本标准主要起草人:刘若梅、蒋景瞳、贾云鹏、周旭。GBT 21337-2008ISO 191 13:2002引 言地理数据集的共享、交换和超出生产者预期目的的应用均在不断增加。数据集中数据的值与其质量直接相关,地理数据集的质量信息对选择数据集的过程至关重要。数据用户对数据质量的要求不完全相同。一些数据用户要求数据的准确度非常高,以满足特定的需求,而另一些用户对数据准确度的要求则相对较低。由于技术进步,允许收集和使用其质量超出数据用户需求的地理数据集,地理数据质量信息正成为数据应用的决定性因素。描述地理
7、数据质量是为了便于选择最适合应用需求的地理数据集。对数据集质量的完备描述能促进相应地理数据集的共享、交换和使用。地理数据集可看作是商品或产品。地理数据质量信息使数据生产者或供应方能够证实其数据集对产品规范规定的符合程度,并帮助数据用户确定产品满足其特定应用要求的能力。本标准的目标是提供描述地理数据质量的基本元素和处理地理数据质量信息的概念。GBT 21337-2008I$0 19113:2002地理信息质量原则1 范围本标准确定了描述地理数据质量的基本元素,规定了质量信息报告的组成部分及组织数据质量信息的方法。本标准适用于数据生产者提供质量信息,正式地或隐含地描述和评估其数据集按产品规范规定对
8、论域映射的符合程度,并适用于数据用户确定特定的地理数据质量是否能满足他们的特定应用要求。获取和购买数据的有关单位应参照本标准,衡量产品是否满足规范的要求。它还可以用于定义应用模式和说明质量要求。本标准的质量基本元素适用于数字地理数据,可以扩展用于识别、采集和报告地理数据集的质量信息,其基本元素还可扩展用于识别、采集和报告数据集系列,或作为数据集子集的较小数据组的质量信息。虽然本标准适用于数字地理数据,但其基本元素可扩展用于许多其他形式的地理资料,如地图、图表以及文档。本标准不对地理数据规定可接受的最低质量要求。2一致性任何声明与本标准一致的产品,都要符合附录A提出的抽象测试套件中描述的所有要求
9、。3规范性引用文件下列文件中的条款通过本标准的引用面成为本标准的条款。凡是注目期的引用文件,其随后所有的修改单(不包括勘误的内容)或修订版均不适用于本标准,然而,鼓励根据本标准达成协议的各方研究是否可使用这些文件的最新版本。凡是不注日期的引用文件,其最新版本适用于本标准。GBT 7408-2005数据元和交换格式信息交换 日期和时间表示法(IsO 8601:2000,IDT)GBT 19000-2000质量管理体系 基础和术语(IsO 9000:2000,IDT)OBT 19710-2005地理信息元数据(IsO 19115:2003,MOD)GBT 21336-2008地理信息质量评价过程(
10、ISO 19114:2003,MOD)ISO 19109:2005地理信息应用模式规则4术语和定义本标准采用下列术语和定义。41准确度accuracy在一定观测条件下,观测值及其函数的估值与其真值的偏离程度。42一致性conformance满足规定的要求。EGBT 19333520031GBT 21337-20081S0 191 13:200243一致性质量级别conformance quality level数据质量结果的一个或一组阈值,用于确定数据集符合产品规范规定或用户要求的程度。GBT 19336-200844数据质量日期data quality date度量数据质量的日期或日期范围。
11、45数据质量量化元素data quality element说明数据集质量的量化组成部分。厂ISO 191013注:数据集数据质量量化元素的适用性既取决于数据集的内容也取决于其产品规范,因此并非所有数据质量量化元素都适用于所有数据集。46数据质量评价过程data quality evaluation procedure应用和记录质量评价方法及评价结果的操作。47数据质量度量data quality measure数据质量量化子元素的取值。示例;正确的属性值所占的百分比。48数据质量非化元素data quality overview element说明数据集质量的非量化组成部分。IS01 910
12、1注:有关数据集目的、使用情况和数据志等信息是非量化质量信息。49数据质量结果data quality result数据质量度量得到的一个值或一组值,或者将获取的一个值或一组值同规定的一致性质量级别相比较得到的评价结果。示例:数据质量量化元素及其数据质量量化子元素“完整性多余”的数据质量结果为。90”、数据质量值类型为“百分比”,是对数据质量范围指定的数据进行数据质量度量而得到的值的例子。而数据质量结果为“真”、数据质量值类型为“布尔型变量”是将值(90)同规定的、可接受的一致性质置级别(85)相比较的例子,记录的评价结果为良好、合格或不合格。410数据质量范围data quality sco
13、pe记录其质量信息的数据的覆盖范围或特征。注:一个数据集的数据质量范围可以由该数据集所属的数据集系列组成,也可由该数据集本身,或是物理上位于数据集中、具有相同特征的较小的数据组组成。相同特征可以是相同的要素类型、要素属性或要素关系;可以是相同的数据采集标准i可以是相同的数据源;或是一个指定的地理或时间覆盖范围。2411412413414GBT 21337-2008ISO 193:2002数据质量量化子元素data quality subelement数据质量量化元素的组成部分,描述该数据质量量化元素的一个特定方面。数据质量值类型data quality value type记录数据质量结果的值
14、的类型。示例:“布尔型变量”、“百分比”、“比率”。注:每个数据质量结果都要给出数据质量值类型。415416数据质量值单位data quality value unit记录数据质量结果的值的单位。示例:“米”。注:只在应用数据质量结果时,才给出数据质量值单位。数据集dataset可以识别的数据集合。GBT 19710-2005注:通过诸如空间覆盖范围或要素类型的控制,数据集在物理上可以是更大数据集较小的部分。从理论上讲,数据集可以小到更大数据集内的单个要素或要索属性。一张硬拷贝地图或图表均可以被认为是一个数据集。417418数据集系列dataset series符合相同产品规范的数据集集合。G
15、BT 19710-2005要素feature现实世界现象的抽象。ISO 19101注:要素可以作为类型或实例出现,当只能用一个含义时,应使用要素类型或要素实例要素属性feature attribute要素的特征。ISO 19101注:一个要素属性包括名称、数据类型和与之关联的值域等。一个要素实例的要素属性同样具有来自该值域的属性值。要素操作feature operation一个要素类型的每个实例都可执行的操作。iso i9110例1:对要素类型“水坝”执行的操作是提升坝面高程。该操作的结果是提高水库的蓄水位。例2:要素类型“水坝”的操作可能阻断船沿河道航行。注:要素操作提供要素类型定义的基础。
16、3GBT 21337-2008IS0 191 13:2002419元数据metadata关于数据的数据。即数据的标识、覆盖范围、质量、空间和时间模式、空间参照系和分发等信息。GBT 197102005420产品规范product specification论域的描述和将论域映射到数据集的技术要求说明。421质量quality一组固有特性满足要求的程度。EGBT 19000-2000注1:术语“质量”可使用形容词如差、好或优秀修饰。注2:“固有的”(其反义是“赋予的”)是指在某事或某物中本来就有的,尤其是永久的特性。422论域universe of discourse包含所关心的所有事物的现实或
17、假设世界的视图。ISO 1910135描述地理信息质量的原则51数据质量说明的组成部分本标准可用于:确定和记录质量信息;评价数据集质量;制定产品规范和用户需求说明;确定应用模式。GBT 19710-2005和GBT 21336 2008说明记录质量信息的模式。GBT 21336-2008提供数据集质量评价的框架。IsO 19109:2005说明采用的应用模式。质量说明可应用于数据集系列、数据集,或物理上位于具有相同特征的数据集内的较小数据组,从而可以对其质量进行评价。数据集质量应使用两个组成部分说明:数据质量量化元素;数据质量非量化元素。数据质量量化元素、数据质量量化子元素以及数据质量量化子元
18、素描述符说明数据集对产品规范规定的符合程度,并提供量化的质量信息。数据质量非量化元素提供概括的非量化描述信息。注:对不同于预期用途的特定应用,数据质量非量化元素是评价数据集质量的关键。本标准认为量化和非量化质量信息可以是相关的。质量信息的质量可包括质量信息可信度或可靠性的度量。此类信息记录在GBT 21336-2008质量评价报告中。图1给出数据质量信息的总貌。附录B讨论数据质量概念,用于建立描述地理数据质量的组成部分。确定质量信息GBT 21337-2008IS0 19113 12002记录质量信息图1数据质量信息总貌52 数据质量量化元素和数据质量量化子元素521数据质量量化元素在必要时,
19、应当用以下的数据质量量化元素描述数据集符合产品规范规定的程度:完整性:要素、要素属性和要素关系的存在和缺失;逻辑一致性:对数据结构(数据结构可以是概念的、逻辑的或物理的)、属性及关系的逻辑规则的符合程度;位置准确度:要素位置的准确度;时间准确度:要素时间属性和时间关系的准确度;专题准确度:量化属性的准确度、非量化属性的正确性、要素分类及其关系的正确性。允许扩充新的数据质量量化元素,描述本标准未列出的数据集量化质量部分。522数据质量量化子元素对于521中确定的数据质量量化元素,应使用下列适用的数据质量量化子元素描述数据集的量化质量情况:完整性 多余:数据集中含有多余的数据; 遗漏:数据集中缺少
20、应该包含的数据。5GBT 21337-2008IS0 191 13:2002逻辑一致性 概念一致性:对概念模式规则的遵循程度; 域一致性:值对值阈的符合情况; 格式一致性:数据存储符合数据集物理结构的程度; 拓扑一致性:数据集拓扑特征显式编码的正确性。位置准确度 绝对或外部准确度:数据中的坐标值与可接受值或真值的接近程度; 相对或内部准确度:数据集中要素的相对位置与各自可接受的或真实的相对位置的接近程度; 格网数据位置准确度:格网数据位置值与可接受值或真值的接近程度。时间准确度 时间度量准确度:一个检验单元时间参照的正确性(记录时间度量误差); 时间一致性:有序的事件或顺序的正确性; 时间有效
21、性:与时间有关的数据的有效性。专题准确度 分类正确性:赋给要素或其属性的类型与论域(例如地表真值或参照数据集)的比较 非量化属性正确性:非量化属性的正确性; 量化属性准确度:量化属性的准确度。以上任何一种数据质量量化元素都可以扩展数据质量量化子元素。523数据质量量化子元素描述符应记录每个适用的数据质量量化子元素的质量信息。完整记录数据质量量化子元素信息的方法是采用7个数据质量量化子元素描述符:数据质量范围;数据质量度量;数据质量评价过程;数据质量结果;数据质量值类型;数据质量值单位;数据质量日期。注:上述每个数据质量量化子元素描述符在第4章中定义。53数据质量非量化元素应使用下列适用的数据质
22、量非量化元素描述数据集的非量化质量:目的;使用情况;数据志。目的应说明建立数据集的原因和数据集预期用途。注:数据集的预期用途不一定与实际应用相同。数据质量非量化元素使用情况描述实际应用。使用情况应说明数据集已经实现的实际应用,说明数据生产者或其他各种不同的数据用户对数据集的应用。数据志应尽可能详细地描述数据集的历史,叙述数据集从采集和获取、编辑和派生,直到其当前状况的生命周期。6GBT 21337-2008ISO 19113 12002数据志可以包含两个独立的组成部分:说明数据集出处的数据源信息;处理步骤或历史信息,说明数据集建立过程中发生的事件或转换记录,包括是否持续地或周期性地对数据集进行
23、维护处理,以及起止时间。本标准未规定的数据集某一方面非量化质量,可另行扩展数据质量非量化元素予以描述。6地理信息质量的确定61 量化质量信息的确定611概述61说明确定量化质量信息的一般过程。某些条款不一定适合所有的情况。612适用的数据质量量化元素的确定应确定适用于数据集的所有数据质量量化元素。某些数据质量量化元素可能不适用于特定类型的数据集。注1:应参照数据集产品规范确定数据质量量化元素的适用性。示例:仅以邮政编码作为空间参照的数据集不包含数据质量量化元素“位置准确度”。注2:附录c为确定适用的数据质量量化元素的示例。613数据质量量化元素扩展如果本标准中列出的数据质量量化元素不能充分表达
24、质量的组成部分,可以命名和定义新的数据质量量化元素。扩展数据质量量化元素的名称和定义应作为数据集质量信息的一部分。614适用的数据质量量化子元素的确定应确定每个适用的数据质量量化元素的所有适用的数据质量量化子元素(每个适用的数据质量量化元素,至少应确定一个适用的数据质量量化子元素)。一个适用的数据质量量化元素的某些数据质量量化子元素不一定适用于特定类型的数据集。注1:应参照数据集的产品规范确定数据质量量化子元素的适用性。注2;附录c为确定适用的数据质量量化元素的示例。615数据质量量化子元素扩展如果本标准中列出的数据质量量化子元素不能充分表达质量的某一方面,可以命名和定义新的数据质量量化子元素
25、。扩展的数据质量量化子元素的名称和定义应作为数据集质量信息的一部分。616数据质量量化子元素描述符的使用6161数据质量范围每个适用的数据质量量化子元素至少应确定一个数据质量范围。数据质量范围可以是数据集所属的数据集系列,也可以是数据集,或者是物理上位于具有相同特征的数据集中的比较小的数据组。如果不能确定数据质量范围,则数据质量范围应为数据集。注:应参照数据集的产品规范和数据质量非量化元素提供的非量化质量信息确定数据质量范围。质量在数据集内可能是变化的。可以为一个适用的数据质量量化子元素确定多重数据质量范围,以便比较完整地描述量化质量信息。应充分地说明数据质量范围,下列各项可以用于描述数据质量
26、范围:层级(数据集所属数据集系列、数据集,或物理上位于具有相同特征的数据集中的比较小的数据组);项(要素类型、要素属性和要素关系表)或特定项(要素实例、属性值和要素关系实例表)的类型;7GBT 21337-2008IS0 19113:2002地理覆盖范围;时闻覆盖范围(参照的时间框架和时间框架的准确度)。6162数据质量度量每个数据质量范围都应有一个数据质量度量,用于简要说明对数据质量范围指定的数据进行检测的类型,当有名称时应给出类型的名称,并应包括范围或限制参数。注:范围或限制参数例子如可靠区问和误差率。本标准认可使用多种检测来度量数据集的质量。单一的数据质量度量可能不足以对数据质量范围确定
27、的数据进行全面的评价,也不足以为数据集所有可能的应用提供质量检测。数据质量度量的组合可以产生有用的信息。可以为数据质量范围确定的数据进行多重数据质量度量。注:GBT 21336-2008包含数据质量度量类型名称和说明的示例。6163数据质量评价过程每个数据质量度量都应有数据质量评价过程。数据质量评价过程应说明,或引用文献说明对数据质量范围确定的数据如何进行数据质量度量的方法,并应包括所使用方法的记录。注1:文献的例子如发表的文章或认可的行业标准。注2:GBT 21336-2008包括适用于数据集的数据质量评价过程框架,并进一步阐明了数据质量评价过程中记录的信息类型。6164数据质量结果每个数据
28、质量度量都应有数据质量结果,该数据质量结果应是下面两种情况之:对数据质量范围确定的数据进行数据质量度量得到的一个值或一组值,或按照指定的可以接受的一致性质量级别,对数据质量范围确定的数据进行数据质量度量得到的一个值或一组值的评价结果。本标准中规定的这一类型数据质量结果为合格或不合格。本标准中规定的这两种数据质量结果都可以采用。注:GBT 21336-2008说明如何决定一致性质量级别。6165数据质量值类型每个数据质量结果都应有数据质量值类型。注:数据质量值“合格或不合格”的类型是“布尔变量”。6166数据质量值单位必要时,每个数据质量结果应有适用的数据质量值单位。6167数据质量日期每个数据
29、质量度量都应有符合GBT 7408-2005规定的数据质量日期。62非量化质量信息的确定621 确定适用的数据质量非量化元素任何情况下数据集的目的都是适用的。数据生产者已知的数据集的所有使用情况都是适用的。数据集的数据志应当总是适用的。在极特殊的情况下,可能不知道有关数据志的信息。因此,应当记录数据志,或解释缺少数据志信息的原因。数据质量范围确定的数据集中较小数据组的数据志,可以采集并不同于该数据集其余部分的数据志。可以为数据质量范围确定的数据集中较小数据组提供不同的数据志,作为数据集非量化质量信息的一部分,以使非量化质量信息更完整。622数据质量非化元素扩展如果本标准规定的数据质量非量化元素
30、不能说明非量化质量的某一方面,可以命名和定义新的数据质量非量化元素。扩展的数据质量非量化元素的名称和定义应作为数据质量信息的一部分。8GBT 21337-20081S0 19113 120027质量信息的记录71 量化质量信息的记录应按照GBT 19710-2005的规定,作为元数据记录量化质量信息。另外,可按照GBT 21336 2008的规定,采用质量评价报告形式记录量化质量信息。72非量化质量信息的记录应按照GBT 19710 2005的规定,作为元数据记录非量化质量信息。注:在GBT 21336-2008定义的质量评价报告中,不记录非量化质量信息。9GBT 21337-2008ISO
31、19113:2002A1抽象测试套件附录A(规范性附录)抽象测试套件A11概要本附录中的所有测试用侧的测试类型都是基本测试。A12测试用例标识符:组成部分测试a)测试目的:保证质量组成部分都在质量说明中使用,以确定一致性。b)测试方法:检查质量说明并检验用于提供量化质量信息的数据质量量化元素(以及数据质量量化子元素和数据质量量化子元素描述符)。检查质量说明并检验用于提供非量化质量信息的数据质量非量化元素。c)引用:本标准,51。A13测试用例标识符:有效性测试a) 测试目的:保证数据质量的有效性,以确定一致性。b)测试方法:检查数据质量说明,并检验本标准列出的或扩展的数据质量量化元素和数据质量
32、量化子元素,并说明本标准没有明确规定的量化质量组成部分或某一方面。检查质量说明并检验为说明量化质量而使用的、本标准规定的数据质量量化子元素描述符。检查质量说明并检验本标准列出的数据质量非量化元素,或扩展和说明的、本标准未明确规定的非量化质量的范围。c)引用:本标准,52和53。A14测试用例标识符:量化质量适用性测试a)测试目的:保证量化质量说明的适用性,以确定一致性。b)测试方法:标识产品规范中与量化质量有关的陈述,并用它们确定适用的数据质量量化元素及其适用的数据质量量化子元素。将适用的数据质量量化子元素与质量说明中使用的数据质量量化子元素进行比较,确保适用于数据集的所有数据质量量化子元素已
33、经在质量说明中确定和使用。注:如果额外使用了非适用的数据质量量化子元素来描述量化质量,则一致性是有效的。然而,非适用的数据质量量化子元素不能进行进一步的一致性测试。c)引用:本标准,61。A15测试用例标识符:非量化质量适用性测试a)测试目的:保证非量化质量说明的适用性,以确定一致性。b)测试方法:检查用于描述非量化质量的适用的数据质量非量化元素。c)引用:本标准,62。A16测试用例标识符:唯一性测试a)测试目的:保证质量说明中扩展条目的唯一性,且提供有关扩展条目的足够信息,以确定一致性。b)测试方法:检查所有扩展的数据质量量化元素,确保每一个元素说明的量化质量的组成部分,在本标准中没有明确
34、列出或描述。检查所有扩展的数据质量量化子元素,确保每一个子元素说明的量化质量的某一方面,在本标准没有明确列出或描述。】0c)A17a)b)c)A18a)b)c)A19a)b)c)GBT 21337-2008ISO 19113:2002检查所有扩展的数据质量非量化元素,确保每一个元素说明的非量化质量的某一方面,在本标准中没有明确列出或描述。引用:本标准,613,615和622。测试用例标识符:数据质量量化子元素描述符的正确使用测试目的:检验质量说明中数据质量量化子元素描述符使用的正确性,以确定一致性。测试方法:将本标准和每个适用的数据质量量化子元素(包括扩展的数据质量量化子元素)的质量信息进行比
35、较,确保遵从了使用数据质量量化子元素描述符的出现规则。引用:本标准,616。测试用例标识符;用元数据记录质量信息测试目的:检验用元数据记录的质量说明,以确定一致性。测试方法:按照GBT 19710-2005检查元数据中记录的量化质量信息。按照GBT 19710-2005检查作为元数据记录的非量化质量信息。引用:本标准,第7章。测试用例标识符:用质量评价报告记录量化质量信息测试目的:检验用质量评价报告记录的质量说明的量化质量信息,以确定一致性。测试方法:按照GBT 21336-2008的要求,检查质量评价报告中的量化质量信息。引用:本标准,71。GBT 21337-20081SO 19113:2
36、002B1背景附录B(资料性附录)数据质量概念及其应用数据集定义为可识别的数据集合。这些数据表示现实世界的实体,它们具有空间、专题和时间方面的特征。从现实世界到论域的抽象过程包括将现实世界实体潜在的许多特征模型化为用位置、专题和时间定义的理想形式,以使这些实体可以理解和表示。产品规范说明论域,依据它检测数据集内容(或部分内容)的质量。B2数据质概念的意义由于数据集一般不是为某一专门应用生产,而是为多种应用生产的,因此只能通过了解数据质量量化元素和数据质量非量化元素对数据集质量进行评价。数据质量量化元素评价生产的数据集与论域(即完全符合产品规范的数据集)之间的差异。数据质量非量化元素提供一般的、
37、非量化的信息。其中:目的是提供生产数据集动机和预期的数据集应用信息,使用情况提供数据集已经实际使用的各种应用信息,数据志说明数据集的历史。数据质量概念为数据生产者和数据用户提供重要的框架。数据生产者可以用其说明生产数据集所用的方法反映其论域的好坏程度。数据生产者能够用其证实数据集满足产品规范规定的程度。数据用户可以用其评价从论域导出的数据集与用户应用需求的一致性。数据用户可以评价质量,确定数据集是否能满足其应用需求(见图B1)。圈B1 数据质量概念提供的框架GBT 21337-2008150 191 13:2002B3数据集结构和质量说明组成部分数据集可以隶属于数据集系列。一个数据集系列所属的
38、所有数据集的质量通常是相同的。数据质量概念认可数据集系列,并顾及用数据集系列的质量替代和记录数据集的质量。数据集可以看作由大量,但数量有限的较小数据组构成。可以认为共享相同特征,如属于同一要素类型、要素属性或要素关系,或采用相同的数据采集规定或相同覆盖范围的较小数据组具有相同的质量。较小数据组可以小到一个要素实例、属性值或一种要素关系,在理论上数据质量概念允许数据集的每个要素实例、属性值和要素关系具有其自身的质量。不可以假定较小数据组的质量与数据集所属其他数据具有相同的质量。数据质量概念考虑了记录数据集质量,同时通过将这些数据组确定为数据质量范围指定的数据,补充记录较小数据组质量的不同。记录的
39、多重数据质量范围的质量信息提供更加完整的质量描述。注:对数据生产者而言,产品规范描述论域并包含建立数据集的参数。对数据用户而言,用户需求描述论域它可能与数据集的论域一致或不一致。数据集的真实质量说明它表示论域的好坏程度。为描述数据集的质量,采用两种唯一的数据质量信息组成部分:量化质量组成部分和非量化质量组成部分。数据质量量化元素是质量信息的量化组成部分;数据质量非量化元素是数据质量的非量化组成部分。数据质量量化元素能够衡量数据集符合其产品规范规定的好坏程度。数据质量量化元素含有不同的数据质量量化子元素。数据质量量化子元素可以用多种方法度量或检测。数据质量概念认为并非所有数据质量量化元素,或所有
40、数据质量量化子元素及其相应的度量和检测方法都适用于某一特定类型的数据集。因而,一些数据质量量化子元素适用于一个数据集和对它们进行度量或检测,而其他数据质量量化子元素则适用于数据质量范围说明的数据集中较小的数据组和对它们进行度量或检测。本标准规定的数据质量量化元素,主要作为检测和记录不同种类质量信息的方法。然而,本标准还认定数据质量量化子元素常常是相关的。例如,坐标的错误至少有两种:位置错误和拓扑关系错误。按照产品和数据质量量化子元素处理方法,数据质量量化子元素的含义是质量评价的范围。数据质量量化元素能够衡量数据集满足其产品规范规定的程度,而数据质量非量化元素则提供目的、用途和数据志信息,便于为
41、特定应用对数据集进行评价。B4记录质量信息B41记录质量信息的时间随着数据集的不断建立、更新和融合,数据集的质量或质量的组成部分可能随之发生变化。数据集的质量信息可能受到3种情况影响:a)数据集中删除、修改或增加了任何数量的数据b)数据集产品规范进行了修改;c)现实世界发生了变化。第一种情况,数据集可能非常频繁地修改。许多数据集不是静态的。信息的交换、多重目的的数据集应用、为满足多重目的而进行的数据集更新和优化等都在不断进行。如果记录的数据集质量会随数据集的修改而改变,该数据集质量应当重新进行评价,并按要求进行更新。在建立数据集时,应当可以获得所有适用的数据质量量化元素和除应用外所有数据质量非
42、量化元素的完整信息。起初只能记录数据生产者的应用情况(假定数据生产者事实上使用了数据集)。依据数据用户提供不同于数据集预期目的的实际应用,能够对该特定的数据质量非量化元素连续进行更新,反映已经发生的、未预料的应用。第二种情况,在数据集最初建立之前和发布质量信息之前,最有可能修改数据集的产品规范。可以想像由于数据集执行更新过的产品规范,因此对数据集的进一步修改能更好地满足实际需要。由于产1 3GBT 21337-2008IS0 19113:2002品规范的改变,当前数据集的质量也随之改变。数据集质量信息应当总是反映按当前产品规范生产的当前数据集的质量。第三种情况,现实世界变化不断地出现。这种变化
43、可能由于自然现象如地壳运动或侵蚀而产生,但最常见的是人类活动的结果。变化常常是快速的和动态的。由于这一原因,当评价数据集质量时,数据采集日期是重要的。在某些情况下,如果知道变化的比率也是有意义的。质量信息的数量和存储要求可以超越数据集的要求。重要的是用简洁、易于理解和易于获取的形式表示质量信息。元数据文件或元数据库一般包含数据集系列、数据集或数据组的质量信息。其中,数据组是按数据质量范围说明,大于要素实例、属性值或出现的要素关系的数据质量范围。B42用元数据记录质量信息B421 用元数据记录量化质量信息可以记录数据集多重数据质量范围的量化质量信息。数据质量范围说明的数据可能包含数据集所属的数据
44、集系列、数据集本身、物理上位于数据集内的较小数据组。数据质量概念允许用数据集所属数据集系列的量化质量信息替代,因为数据集系列的所有数据集的质量是相同的,且在数据集系列层次上度量是最好的。质量信息可以作为数据集系列的元数据存储,在这种情况下,数据集的元数据必须提供指向它的指针,或在数据集元数据中重复该质量信息,并将其作为数据集元数据的一部分。如果已知数据集的质量信息是独特的,与数据集系列中其他数据集的质量信息不同,则应提供该数据集独特的和不同的质量信息,而不进行替代。量化质量信息可以按数据集和数据质量范围说明的许多较小数据组进行采集,它们的量化质量信息可以不同。记录的量化质量信息的数量部分地取决
45、于确定的数据质量范围的数目。仅当与“较高”等级记录的质量信息不同时,才特别地记录数据质量范围说明数据的量化质量信息。在记录质量信息时,典型的是从最高等级的数据集开始,通过数据集向下记录。表B1示出这一情况。表B1 分等级的量化质量信息记录位置准确度绝对或外部准确度数据 记录的位置准确度绝对或外部准确数据质量范围说明的数据质量结果 度数据质量结果数据集 135 135道路 110 110水系 135 不记录铁路 120 1_20管线 180 180注:上例中所有数据质量结果的数据质量值类型为“距离”,所有数据质量结果的数据质量值单位为。米”。为了使创建、存储和解释该示例元数据的工作减到最小,建议
46、仅对数据集和数据质量范围说明的“道路”、“铁路”和“管线”包含的数据作为元数据记录质量信息。数据质量范围说明的“水系”包含的数据的质量信息则予以省略。GBT 19710 2005未明确提供量化质量信息记录,作为要素实例、属性值或出现的要素关系的元数据(这可以通过确定数据质量范围说明的数据为要素实例、属性值或出现的要素关系予以解决)。当出现的要素关系与其父类型的量化质量信息不同时,可以将该质量信息处理为在数据集中出现的属性。记录的层次原理也可以在数据类型和出现的要素关系之间应用。建议仅当要素实例的量化质量信息与其父要素类型不同时才记录,仅当属性值的质量信息与其父要素属性不同时才记录,且仅当出现的要素关系的质量信息与其父要素关系不同时才记录。由于属性在数据集中出现的方式是依赖于数据集的,因此不对要素实例、属性值或出现的要素关系的质量信息的实际归属提供指导。1 4GBT 21337-2008IS0 19113 12002图B2表示
copyright@ 2008-2019 麦多课文库(www.mydoc123.com)网站版权所有
备案/许可证编号:苏ICP备17064731号-1