1、ICS 35.240 CCS L70 DB15 内 蒙 古 自 治 区 地 方 标 准 DB15/T 2021.1 2020 草原大数据 第 1 部分 :基础数据 Grassland big data-Part 1:Basic data 2020-10-20 发布 2020-11-20 实施 内蒙古自治区市场监督管理局 发布 DB15/T 2021.1 2020 I 目 次 前言 . II 1 范围 . 1 2 规范性引用文件 . 1 3 术语和定义 . 1 4 总则 . 6 5 草原大数据标准体系基本框架 . 7 6 草原大数据元数据属性的描述方法 . 9 7 草原大数据标识类属性 . 9
2、8 草原大数据技术 . 14 9 数据质量评估流程与评价方法 . 18 10 草原大数据安全 . 19 11 平台及工具类标准 . 19 参考文献 . 22 DB15/T 2021.1 2020 II 前 言 本部分按照 GB/T 1.1-2020标准化工作导则 第 1部分:标准化文件的结构和起草规则的规定 起草。 DB15/T 2021草原大数据的结构分为 4个部分: 第 1部分:基础数据; 第 2部分:数据分类与编码; 第 3部分:数据元; 第 4部分:代码集。 本部分为 DB15/T 2021的第 1部分。 本 部分 由内蒙古 自治区农牧厅提出并归口。 本 部分 起草单位:内蒙古自治区农
3、牧业信息中心、内蒙古云利科技有限公司、内蒙古草原工作 站、内蒙古草原监督管理局、内蒙古草原勘察规划院、内蒙古饲料草种监督检验站、内蒙古农业大 学、鄂托克前旗数字林草信息中心。 本 部分 主要起草人:刘永志、马超、付学良、王晓峰、张巧燕、朝格敖其尔、王伊拉图、赵于 东、李雪东、朱玉成、李慧旻、李宏慧、董改芳、王云利、刘爱军、高文渊、常炳文、巩韶飞。 DB15/T 2021.1 2020 1 草原大数据 第 1 部分 :基础数据 1 范围 本 部分 规定了草原大数据的数据采集、处理技术、平台及工具和信息安全等技术及管理 要求。 本 部分 适用于内蒙古草原信息的共享、交换、评价与服务。 2 规范性引
4、用文件 下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用 文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单) 适用于本文件。 GB/T 19710-2005 地理信息 元数据 GB/T 20157 信息技术 软件维护 GB/T 20531-2006 移动数据库应用编程接口规范 GB/T 22080 信息技术 安全技术 信息安全管理体系 要求 GB/T 24450 社会经济目标分类与代码 GB/Z 28828 信息安全技术 公共及商用服务信息系统个人信息保护指南 GB/T 29262 信息技术 面向服务的体系结构( SOA)
5、术语 GB/T 29263 信息技术 面向服务的体系结构( SOA)应用的总体技术要求 GB/T 31495.1-2015 信息安全技术 信息安全保障指标体系及评价方法 第 1部分 概念和模型 GB/T 31495.2-2015 信息安全技术 信息安全保障指标体系及评价方法 第 2部分 指标体系范 围 GB/T 31495.3-2015 信息 安全技术 信息安全保障指标体系及评价方法 第 3部分 实施指南 GB/T 32908 非结构化数据访问接口规范 GB/T 34949 实时数据库 C语言接口规范 GB/T 34960.5 信息技术服务 治理 第 5部分:数据治理规范 GB/T 36073
6、 数据管理能力成熟度评估模型 GB/T 34978 信息安全技术 移动智能终端个人信息保护技术要求 GB/T 37721 信息技术 大数据分析系统功能要求 GB/T 37722 信息技术 大数据存储与处理系统功能要求标准 LY/T 2930-2017 林业数据采集规范 LY/T 2181 湿地信息分类与代码 LY/T 2182 荒漠化信息分类与编码 LY/T 1814 自然保护区生物多样性调查规范 LY/T 2179 野生动植物保护信息分类与编码 QX/T 102 气象资料分类与编码 DL/T 1456 电力系统数据库通用访问接口规范 DB15/T 2021.1 2020 2 3 术语和定义
7、GB/T 19710界定的以及下列术语和定义适用于本文件。为了便于使用,以下重复列出 GB/T 19710 中的一些术语和定义 。 3.1 大数据 big data 具有体量巨大、来源多样、生成极快、且多 变等特征并且难以用传统数据体系结构有效处理的 包含大量数据集的数据。 注: 国际上,大数据的 4个特征普遍不加修饰地直接用 volume、 variety、 velocity和 variability予以表述,并 分别赋予了它们在大数据语境下的定义。体量( volume)指构成大数据的数据集的规模; 多样性( variety) 指数据可能来自多个数据仓库、数据领域或多种数据类型;速度( ve
8、locity)指单位时间的数据流量; 多 变性( variability)指大数据其他特征,即体量、速度和多样性等特征都处于多变状态。 3.2 草原大 数据 grassland big data 通过大数据技术将草原相关的数据整合起来应用在草原管理相关的业务领域,赋能政府机构, 提升政务实施效能的数据。这些数据包含了政府开展工作产生、采集以及因服务需求而采集的外部 大数据,以及为政府自有和面向政府的大数据。 注: 从数据属性来看,草原大数据分为自然信息类、建设类、管理统计监察类和服务与民生消费类。自然信息 类包含地理、资源、气象、环境、水利等;建设类包含交通设施、旅游景点、住宅建设等 ; 管理
9、统计监察 类包含工商、税收、人口、机构、企业、商品等 ; 服务与民生消费类包含水、 电、燃气、通信、医疗、出 行等。 3.3 元数据 metadata 关于数据的数据。 来源: GB/T 19710-2005,定义 4.5 3.4 元数据元素 metadata element 元数据的基本单元。 来源: GB/T 19710-2005,定义 4.6 3.5 元数据实体 metadata entity 一组说明数据相同特性的元数据元素。 DB15/T 2021.1 2020 3 注: 可以包括一个或一个以上的元数据实体。 来源: GB/T 19710-2005, 定义 4.7 3.6 核心元数据
10、 core metadata 描述草原大数据最基本信息的元数据最小集 合。 3.7 数据源 data source 数据的来源是提供某种所需要数据的器件或原始媒体。在数据源中存储了所有建立数据库连接 的信息。 草原大数据的数据源必需可靠且具备更新能力,常用的数据源有: a) 观测数据:现场获取的实测数据,它们包括野外实地勘测量算数据、台站的观测记录数据、 遥测数据等; b) 分析测定数据:利用物理和化学方法分析测定的数据; c) 图形数据:各种地形图和专题地图等; d) 统计调查数据:各 种类型 的统计报表、社会调查数据等; e) 遥感数据:由地面、航空或航天遥感获得的数据。 3.8 结构化数
11、据 structured data 可以组织成行列结构,可识别的数据。这类数据通常是一条记录,或者一个文件,或者是被正 确标记过的数据中的某一个字段,并且可以被精确地定位。 3.9 半结构化数据 semi-structured data 半结构化数据不具有结构化数据严格的存储结构,但它可以使用标签或其他形式的标记方式以 保证数据的层次结构 。 3.10 非结构化数据 un-structured data 非结构化数据一般被认为是大量纯文本数据,其中还可能包含日期,数字和实例。 3.11 复杂结构的数据 complex structured data 由两个 或多个相互关联部分组成的数据,这类数
12、据不能简单地由结构化查询语言 (SQL)或工具解 析。 DB15/T 2021.1 2020 4 3.12 云计算 cloud computing 构建在网络上的分布式计算系统,数据是存储于机房外的(即云端)。 3.13 聚类分析 clustering analysis 将相似的对象聚合在一起,每类相似的对象组合成一个聚类 (或簇 )的过程。这种分析方法的目 的在于分析数据间的差异和相似性。 3.14 数据聚合工具 data aggregation tools 将分散于众多数据源的数据转化成一个全新数据源的过程。 3.15 数据虚拟化 data virtualization 数据整合的过程,以
13、此获得更多的数据信息,这个过程通常会引入其他技术,例如数据库、应 用程序、文件系统、网页技术、大数据技术等等。 3.16 去身份识别 de-identification 也称为匿名化 (anonymization),确保个人信息不会通过数据被识别。 3.17 文件存贮数据库 document store databases 也称为文档数据库 (document-oriented database), 为存储、管理、恢复文档数据而专门设计 的数据库,这类文档数据也称为半结构化数据。 3.18 数据 抽取、转换及装载 Extract, Transform and Load, ETL 是一种用于数据
14、库或者数据仓库的处理过程。即从各种不同的数据源提取 (E)数据,并转换 (T) 成能满足业务需要的数据,最后将其加载 (L)到数据库。 3.19 Hadoop 数据库 (HBase) 一个开源的、非关系型、分布式数据库,与 Hadoop框架共同使用。 DB15/T 2021.1 2020 5 3.20 Hadoop 分布式文件系统 Hadoop distributed file system 是一个被设计成适合运行在通用硬件 (commodity hardware)上的分布式文件系 统。 3.21 内存数据库 in-memory database 一种数据库管理系统,与普通数据库管理系统不同之
15、处在于,它用主存来存储数据,而非硬盘。 其特点在于能高速地进行数据的处理和存取。 3.22 物联网 Internet of Things 在普通的设备中装上传感器,使这些设备能够在任何时间任何地点与网络相连。 3.23 法律上的数据一致性 juridical data compliance 存储在云上的数据要符合当地的法律。例如,当用云存储数据涉及到的有关数据开放共享原则、 个人隐私信息等在不同国家有不同的法律定义, 该数据应该符合当地数据存放的法律。 3.24 M2M 数据 machine to machine data 两台或多台机器间交流与传输的内容。 3.25 机器数据 machine
16、 data 由传感器或算法在机器上产生的数据。 3.26 机器学习 machine learning 机器学习是人工智能的一部分,指的是机器能够从它们所完成的任务中进行自我学习,通过长 期的累积实现自我改进。 3.27 多维数据库 multi-dimensional database 用于优化数据联机分析处理 (OLAP)程序,优化数据仓库的一种数据库。 3.28 多值数据 库 multiValue database 一种特殊的多维数据库:能处理 3个维度的数据。主要针对非常长的字符串,能够完美地处理 HTML DB15/T 2021.1 2020 6 和 XML中的字串。 3.29 NoSQ
17、L 数据库 NoSQL database 不使用 SQL的数据库。这类数据库泛指传统关系型数据库以外的其他类型的数据库。这类数据库 有更强的一致性,能处理超大规模和高并发的数据。 3.30 再识别 re-identification 将多个数据集合并在一起,从匿名化的数据中识别出个人信息 。 3.31 无线射频识别 radio Frequency Identification 自动识别技术的一种,通过无线射频方式进行非接触双向数据通信,利用无线射频方式对记录 媒体(电子标签或射频卡)进行读写,从而达到识别目标和数据交换的目的。 这种识别技术使用一 种无线非接触式射频电磁场传感器来传输数据。 射
18、频识别技术依据其标签的供电方式可分为三类, 即无源 RFID,有源 RFID,与半有源 RFID。 3.32 实时数据 real-time data 在几毫秒内被创建、处理、存储、分析并显示的数据。 3.33 主数据 master data 满足跨部门业务协同需要的、反映业务实体状态属性的主体对象核心信息。 3.34 主数据管理 master data management 一整套用于生成和维护主数据的规范、技术和方案,以保证主数据的完整性、一致性和准确性。 3.35 交换 switching 部门间通过信息资源交换体系技术支撑环境实现草原大数据信息资源在线传送的过程。 3.36 交换节点 S
19、witching node 在跨政务部门业务系统中,实现信息资源传送和处理的系统单元。 示例: 前置机。 DB15/T 2021.1 2020 7 4 总则 4.1 数据类型格式 4.1.1 本标准中数据元值的类型长度的表示格式 : a) a =字母字符; b) n =数字字符; c) an=字母数字字符; d) m( m为自然数) =定长 m个字符(字符集默认为 GB /T 2312); e) .ul =长度不确定的文本; .p,q( p,q均为自然数) =最长 p个数字字符,小数点后 q位; f) YYYYMMDDhhmmss =“ YYYY”表示年份,“ MM”表示月份,“ DD”表示日
20、期,“ hh”表示小 时,“ mm” 表示分钟,“ ss”表示秒,可以根据具体情况组合使用。 4.1.2 本标准中的其它数据类型 : a) n.7(aaannnn) 表示最长 7 个字符,前 3 个字符为字母字符,后 4 个字符为数字字 符; b) .15,3 表示最长 15个 数字字符,小数点后 3位; c) n2.6 表示最大长度为 6,最小长度为 2的不定长的字母数字字符。 4.2 内部标识符编码规则 草原大数据内部标识符编码规则采用四段式编码规则,编码结构见图 1 所示: a) 第一段: 1 2 位,数据元英文名称 Data Element 的缩写,用大写字母“ DE”表示; b) 第
21、二段: 3 4 位,数据元的大类编码,用两位阿拉伯数字表示,数据元大类及编码“大类”、 “大类编码”; c) 第三段: 5 6 位,数据元的小类编码,用两位阿拉伯数字表示,数据元大类及编码“小类”、 “小类编码”;第二段 与第三段间用“ .”分隔; d) 第四段: 7 9 位,数据元的顺序码,用三位阿拉伯数字表示,第三段与第四段间用“ .”分 隔。 D E X X . X X . X X X 第 四 段 : 7 - 9 位 , 数 据 元 顺 序 码 第 三 段 : 5 - 6 位 , 数 据 元 小 类 编 码 第 二 段 : 3 - 4 位 , 数 据 元 大 类 编 码 第 一 段 :
22、1 - 2 位 , 数 据 元 英 文 名 称 图 1 内部标示符编码结构图 5 草原大数据标准体系基本框架 DB15/T 2021.1 2020 8 5.1 体系基本框架 包含草原大数据基础、草原大数据技术、草原大数据安全、草原大数据平台及工具以及草原大 数据管理等 5个模块,见图 2 所示。 图 2 草原大数据标准体系基本框架 5.2 草原大数据基础数据 基础标准为整个标准体系提供包括总则、参考架构、草原大数据元数据等通用的基础性标准 。 5.3 草原大数据技术 包括:数据质量标准、数据处理与 分析关键技术标准、数据质量评估与监测技术标准等。其中 数据质量标准分类参考 ISO8000系列标
23、准,并根据当前内蒙古自治区大数据产业发展需求,等同或修 改后采用国际标准;数据处理与分析关键技术标准主要是针对数据从收集到使用过程中的关键技术 进行规范;数据质量评估与监测技术主要是针对草原大数据质量进行评估和监测。 5.4 草原大数据安全 安全类标准主要是针对通用的安全和行业安全,其中通用要求基于信息安全技术的系列标准; 行业安全重点针对人工智能、电子政务、工业互联网等各行业与信息主体利益密切相关的隐私数据。 5.5 草原大数据平台及工 具 包括系统类工具和应用类工具;系统类工具标准细分为平台基础设施、存储类工具、数据库、 平台管理类工具等。 DB15/T 2021.1 2020 9 5.6
24、 草原大数据管理 包括草原大数据运维和数据治理,其中数据运维包括数据库维护、运行维护、运行安全及大数 据系统及相关工具等方面的运维及服务标准;数据治理包括数据资产管理、大数据解决方案设计、 数据管理能力成熟度评价等。 6 草原大数据元数据属性的描述方法 6.1 名称 赋予元数据属性的标记。名称是唯一的,以字符串形式表示。 6.2 定义 属性的描述,可使一种属性与其他属性清晰地区别开来。定义以字符串形式表示。 6.3 约束 显示一个 属性是始终还是有时出现的描述符。该描述符可以有两个取值:必选或可选,前者表 示该属性必须出现,后者表示该属性可以出现,也可以不出现。 6.4 出现次数 显示一个属性
25、出现多少次的描述符。该描述符有以下四种情况: 0:1(表示不出现或出现 1次), 0:n(表示不出现或出现 n次), 1:1(表示出现且仅出现 1次), 1:n(表示出现 1次或多次)。 6.5 类型 描述属性的所有取值的类型。属性值的数据类型示例有:“字符”、“字符串”、“数字”、“日期”。 6.6 备注 与属性应用有关的注释。 7 草原大数据标识类属性 7.1 中文名称 7.1.1 定义 赋予元数据的单个或 多个中文字词的称谓。 7.1.2 约束 必选。 7.1.3 出现次数 1:1。 7.1.4 类型 字符串。 DB15/T 2021.1 2020 10 7.1.5 说明 命名应明确的表
26、达数据元的含义,尽量减少冗余,增加精确度;在同一环境下的所有名称应该 是唯一的。 7.2 同义名称 7.2.1 定义 一个元数据在应用环境下的不同称谓。如国家安全生产监督管理总局的同义名为国家安全监管 总局。 7.2.2 约束 可选。 7.2.3 出现次数 1:1。 7.2.4 类型 字符串。 7.2.5 说明 一个元数据可以有多个同义词,第一个同义词应该是统一的约定名称。 7.3 表示符号 7.3.1 定义 元数据的含义的描述,表达一个元数据的本质特性并使其区别于所有其他元数据的陈述(特别 明确的可省略)。 7.3.2 约束 可选。 7.3.3 出现次数 1:1。 7.3.4 类型 字符串。
27、 7.4 数据类型 7.4.1 定义 表示数据元值的不同值的集合。 7.4.2 约束 必选。 DB15/T 2021.1 2020 11 7.4.3 出现次数 1:1。 7.4.4 类型 字符串。 7.4.5 说明 可能的实例为“字符”、“序数”、“实数”、“比例数”、“二进制数”、“有理数”。 7.5 表示格式 7.5.1 定义 从应用的角度规定的数据元值的格式需求,包括所允许的最大或最小字符长度,数据元值的类 型和表示格式等。 7.5.2 约束 必选。 7.5.3 出现次数 1:1。 7.5.4 类型: 字符串。 7.5.5 说明 数据格式的表示见表 1。 表 1 数据格式的表示 基本格式
28、 举 例 说 明 c c 中文字符,可以包含汉字 (中、国 等 )、字母字符( a-z,A-Z)和数字字符等 c12 12 位字符(即 6 个汉字)固定长度的中文字符 c.12 最多为 12 位字符(即 6 个汉字)长度的中文字符(默认 GB /T 2312 信息交换用汉字编码字符集、基本集) a a 特指字母字符( A、 B、 C) a3 3 位字母字符,定长 a.3 最多为 3 位字母字符 n n 数值型字符( 0、 1、 2、 3) n3 3 位数字字符,定长 DB15/T 2021.1 2020 12 表 1 数据格式的表示 (续) 基本格式 举 例 说 明 n n.3 最多为 3 位
29、数字字符 n.9, 2 数值型 , 总长度最多为 9 位数字字符,小数点后保留 2 位数字 an an 字母和数字字符 an3 3 位字母数字字符,定长 an.3 最多为 3 位字母数字字符 d d 日期型 d8 日期型 ,按年、月、日顺序,格式为 8 位定长、全数字表示( YYYYMMDD)。年用 4 位数字表示,月、日各用 2 位数字 表示,彼此之间没有分隔符 d10 日期型 ,按年、月、日、时顺序,格式为 10 位定长、全数字表示( YYYYMMDDhh)。年用 4 位数字 表示,月、日、时各用 2 位数字表示,彼此之间没有分隔符。如 2003 年 1 月 5 日 9 时,应表示 为 2
30、003010509 d14 日期型 ,按年、月、日、时、分、秒顺序,格式为 14 位定长、全数字表示( YYYYMMDDhhmmss)。 年用 4 位数字表示,月、日、时、分、秒各用 2 位数字表示,彼此之间没有分隔符。如 2003 年 1 月 5 日 9 时 48 分 43 秒,应表示为 20030105094843 b b 布尔值 0:否, 1:是 u1 u1 长度不确定的文本 7.6 值域范围 7.6.1 定义 根据相应属性中所规定的表示形式、格式、数据类型和最大与最小长度而决定的数据元的允许 实例表示的集合。该集合可以根据名称、引用来源、实例表达的枚举,或者根据实例生成规则来规 定。
31、7.6.2 约束 可选。 7.6.3 出现次数 1:1。 7.6.4 类型 字符串。 7.6.5 说明 当值域范围是编码表示的枚举形式时,每一个数据元值及其实例都应当成对表示。 DB15/T 2021.1 2020 13 7.7 交换约束 7.7.1 定义 根据对象的来源特性,在数据采集时,从应用角度规定该数据元是否为必选或可选。 7.7.2 约束 必选。 7.7.3 出现 次数 1:1。 7.7.4 类型 字符串。 7.8 字段名称 7.8.1 定义 在提供的共享数据中对应的字段名称。 7.8.2 约束 可选。 7.8.3 出现次数 0:1。 7.8.4 类型 字符串。 7.9 标识符 7.
32、9.1 定义 由注册机构分配的、与语言无关的元数据的唯一标识符。 7.9.2 约束 必选。 7.9.3 出现次数 1:1。 7.9.4 类型 数字。 7.10 蒙文名称 DB15/T 2021.1 2020 14 7.10.1 定义 中文名称对应的蒙文。 7.10.2 约束 可选。 7.10.3 出现次数 0:1。 7.10.4 类型 字符串。 注: 关于本章约定的定义的说明: a) 每个定义应区别于目录中的任何其他定义,以保证专一性。定义中所表述的一个或多个特 性必须使被定义的概念与其他概念相区别; b) 用描述性的短语或句子阐述,阐述 必须简练、准确而不含糊,避免跟其他元数据定义互相 依存
33、; c) 定义中仅可使用人们普遍理解的缩略语; d) 所有简称在第一次出现时,应予以说明。 8 草原大数据技术 8.1 草原大数据质量 8.1.1 草原大数据生命周期 草原大数据一般要经历四个不同的阶段:数据生成、数据采集、数据存储、数据分析。其中, 数据生成阶段,是数据被创建的阶段,包括创建的结构化数据和非结构化数据;数据采集阶段,由 数据收集、数据传输和数据预处理组成;数据存储阶段,结合分布式、云计算技术,达到低成本、 低能耗及高可靠性的目标;数据分析阶段,结合降雨、气温、土壤状况与历年草原动 植物产量等相 关数据,运用大数据挖掘技术,预测草原未来的生态环境发展状况。 8.1.2 草原大数
34、据的质量框架 8.1.2.1 草原大数据指标 草原大数据指标(简称“指标”)指用于衡量草原资源和环境情况的单位或方法。通过几个关键 指标来衡量草原资源和环境情况的好坏。包括植被、土壤、气象、总人口数以及草原经济指标等。 指标需要经过加和、平均等汇总计算方式得到,并且是需要在一定的前提条件进行汇总计算, 如时间、地点、范围,也就是我们常说的统计口径与范围。 指标可以分为绝对数指标和相对数指标,绝对数指标反映的是规模大小的指标,如人 口数、植 被、收入、用户数、土壤,而相对数指标主要用来反映质量好坏的指标。 DB15/T 2021.1 2020 15 8.1.2.2 草原大数据质量元素 描述草原大
35、数据质量的信息项,包括位置精度、属性精度、逻辑一致性、完整性、趋势性和数 据说明。 在数据分析和数据仓库领域,草原大数据质量由草原大数据质量元素来描述。草原大数据质量 元素分为两类,即定量元素和非定量元素。定量元素,用于描述数据集满足预先设定的质量标准及 指标的程度,并提供定量的质量信息。非定量元素提供综述性的、非定量的质量信息。 8.1.2.3 草原大数据的质量维度 草原大数据的质 量维度包含 5个维度,分别是可得性、可用性、可靠性、相关性、外观质量等。 每一个维度有包含 1 3个要素 : a) 可得性。可得性包含可访问性和实效性两个要素,其中数据的可访问性应明确数据提供访 问的标准接口、数
36、据使用权限等;数据的实效性应明确数据准确接收的时间、数据更新时 间以及数据收集和过程解释的时间间隔等; b) 可用性。数据的可用性包含可靠性良好的数据源、数据规范化、数据产生的时间等三个要 素; c) 可靠性。可靠性包含数据的准确性、数据一致性以及数据完整性等三个要素,其中数据准 确性应明确得到的数据与真实数据之间的误差,包括数据数 据源的准确性、数据源的真实 状态以及数据表示的标准化等;数据的一致性应明确数据经过处理之后,它们的概念、值 域或格式与处理前的数据匹程度、在一定时间内数据保持一致并且可以验证以及数据和其 他数据源的数据可验证性;数据的完整性应确保数据在内容上,应包括数据使用者所需
37、的 全部项目,做到没有残缺和疏漏,包括数据格式是清晰的并且满足标准、数据与结构完整 性以及数据与内容完整性是一致的; d) 相关性。相关性表示数据在多大程度上适合当前工作,包括收集的数据阐述的内容、大多 数检索的数据集是在检索主题用户需要以及信息主题提供与用户检索主 题的匹配等; e) 外观质量。外观质量表示根据已知或定义良好的术语、属性、单位、代码、缩写或其他信 息,来正确解释数据内容的能力,应包括明确数据的内容、格式等是清晰的并且是可理解 的、可以很容易地判断提供的数据满足要求以及数据描述、分类和编码内容满足规范并且 很容易理解。 8.2 数据处理与分析关键技术 8.2.1 采集的内容 草
38、原大数据依据性质及使用目的不同,主要包括公共基础数据、草原基础数据、专题数据、综 合数据和元数据等 : a) 公共基础数据,包括基础地理信息数据、遥感影像数据、社会经济和气象数据等,用于辅 助草原大数据处理分析; b) 草原基础数 据,包括草原资源数据、湿地资源数据、三化资源数据、生物多样性资源数据 等,提供草原业务基础数据; c) 专题数据,包括草原资源管理数据、草原保护及生态工程建设数据、灾害监控与应急数据、 草原产业数据、草原科技等数据; d) 综合数据,包括草原社会经济数据、草原文献资料数据、草原政策法规数据、草原教育培 训数据等数据,辅助草原清查及统计分析; DB15/T 2021.
39、1 2020 16 e) 元数据,包括草原数据标识信息、数据时间序列信息、数据质量信息、数据共享信息、空 间参照信息等; f) 其他数据,不分属于以上类别的草原数据资料。 8.2.2 采集的流程 8.2.2.1 采集前期准备 草原 数据采集前期准备工作,包括组织准备、技术准备和其他准备: a) 组织准备:组织草原数据采集队伍,明确队伍责任分工等; b) 技术准备:制定数据采集工作方案、技术方案和操作细则等; c) 其他准备:明确数据采集目标,确定数据采集对象,整理历史数据,收集调查工具等 。 8.2.2.2 数据采集 见本标准的 8.2.1。 8.2.2.3 数据后期处理 对采集数据按照 LY
40、/T 2930-2017 中的 4.2.3条进行处理,包括数据分析、数据处理、数据质检、 数据入库等操作。 8.2.3 采集的途径 草原数据采集途径包含实地调查数据采集、遥感影像 数据采集、传感网络数据采集、问卷调查 及访谈法数据采集、互联网数据采集以及元数据采集等 6种途径 : a) 实地调查数据采集。手段包括手工记录方式和基于移动设备的自动数据采集方式: 1) 手工记录方式:通过随身携带或预先布设在外的仪器设备获取草原相关信息,以手工 记录的方式进行收集; 2) 基于移动设备的自动数据采集方式:通过移动终端设备及专业数据采集软件,实时收 集、上报草原信息数据。 b) 草原遥感影像数据采集。
41、依据影像数据采集方式不同,分为卫星遥感影像数据采集、航空 遥感影像数据采集: 1) 卫星遥感影像数据采集,通过国内外卫星遥感技 术获取草原影像数据,包括全色影像 多光谱影像及高光谱影像; 2) 航空遥感影像数据采集,通过飞机、飞艇等航拍设备获取草原数据,如利用无人机搭 载多光谱成像仪、数码相机、红外扫描仪等设备,实现草原数据的采集。 c) 传感器网络数据采集 通过光照传感器、温度传感器、湿度传感器、气体感应器、红外感应器、摄像头等信息传 感设备,可将数据实时传回指挥或管理中心,实现对草原资源的智能化识别、监测和管理 等,主要用于草原防火烟火智能识别、生物多样性动态监测、草原有害生物监测预警、生
42、 态监测等; d) 问卷调查与访谈法数据采集: 1) 问卷调查:通过既定的 问题来收集草原专项数据; 2) 访谈法:结合实地考察等,以谈话、会议等形式收集草原数据资源材料。 DB15/T 2021.1 2020 17 e) 互联网数据采集 在手持移动终端、便携式计算机、台式计算机等互联网应用设备中抓取草原相关网络舆情 信息数据,以及草原业务系统应用中的痕迹数据; f) 元数据采集 元数据贯穿草原数据资源建设的全过程,主要包括草原业务元数据、技术元数据和管理元 数据等。 8.3 草原大数据采集规定 8.3.1 公共基础数据规定 公共基础数据采集规定,主要包括对基础地理信息数据、基础测绘成果数据、
43、遥感影像数据和 社会经济气象数据等相关业务部门数据的规定: a) 基础地理信息数据 ,包括各种比例尺数字化地形图、 DEM 数据、省、市、县多级比例尺的 行政区划图、交通道路、水系、城镇居民点、独立建筑物等数据、多级比例尺的土壤数据 等。按照 GB/T13923 中的规定采集; b) 基础测绘成果数据,按照基础测绘成果提供使用管理暂行办法(国测法字( 2006) 13 号),向国家和地方测绘地理信息局申请使用基础测绘成果数据; c) 遥感影像数据,包括多源、多时相、多分辨率海量遥感数据;根据林草局部门不同业务要 求采集数据; d) 社会经济和气象数据等相关业务部门数据,社会经济数据包括人口、经
44、济产值等数据,其 中社会经济数据 按照 GB/T 24450 中的规定采集;气象数据包括气温、降水量、极端最高、 最低温度、年积温等数据,气象数据按照 QX/T 102 中的规定采集。 8.3.2 草原基础数据规定 草原基础数据采集规定,主要包括对草原资源数据、湿地数据、三化草原数据和生物多样性等 数据的规定: a) 资源数据,包括草原资源清查数据、资源规划设计调查数据、作业设计调查数据、年度核 查数据、草原确权数据、资源利用数据、草原自然保护区数据以及涉及以上草原其他标准、 文档、技术规程数据等; b) 湿地数据,包括湿地调查和监测、湿地标准、湿地履约数据等,信息采集目标是查清 湿地 资源现
45、状和动态变化。采取方法包括全国范围采取宏观遥感调查、典型野外样地调查、踏 查和数据收集。专项野外调查,按照 LY/T 2181 中的规定采集; c) 三化草原数据,包括全国三化草原气候类型数据、全国沙尘暴监测数据以及其他标准、文 档、技术规程数据等,按照 LY/T 2182中的规定采集; d) 生物多样性数据,包括保护区数据、重点工程、专项调查、野生动植物、全国自然保护区 分布以及其他标准、文档、技术规程数据等,按照 LY/T 1814中的规定采集; e) 野生动植物数据,按照 LY/T 2179中的规定采集。 8.3.3 草原专题数据规定 分为草原资源管理、草原培育及生态工程建设、灾害监控与应急、草原产业数据、草原科技等 数据 : a) 草原资源管理数据,包括草场作业设计数据、草原执法检查数据、草原生态管护数据等 ; DB15/T 2021.1 2020 18 b) 草原培育及生态工程建设数据,包括工程作业设计数据、草场实绩综合核查数据、天然草 原资源保护工程数据、退耕还草数据、牧草种质资源数据等 ; c) 灾害监控与应急数据,包括草原防
copyright@ 2008-2019 麦多课文库(www.mydoc123.com)网站版权所有
备案/许可证编号:苏ICP备17064731号-1