1、 ICS 01.040.03 CCS A 12 DB52 贵州省地方标准 DB52/T 1539.32021 政务云 第 3 部分:云计算平台运维管理规范 E-government cloudPart 3:Clou d computing platform operation and maintenance management specification 2021 - 05 - 17 发布 2021 - 09 - 01 实施 贵州省市场监督管理局 发布 DB52/T 1539.32021 I 目 次 前言 . . II 1 范围 . . 1 2 规范性引 用文件 . . 1 3 术语和定义
2、. . 1 4 管理框架 . . 2 5 运维事项 . . 2 6 运维服务 . . 4 7 运行保障 . . 4 8 安全管理 . . 6 9 应急管理 . . 7 DB52/T 1539.32021 II 前 言 本文件按照GB/T 1.1-2020标准化工作导则 第1部分:标准化文件的结构和起草规则的规定起 草。 本文件是DB52/T 1539政务云的第3部分。 DB52/T 1539已经发布了以下部分: 第 1 部分:云计算平台基础设施建设指南; 第 2 部分:云资源管理通用要求; 第 3 部分:云计算平台运维管理规范; 第 4 部分:政务信息系统云化部署和迁移规范; 第 5 部分:政
3、务信息系统建设管理规范。 请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任。 本文件由贵州省大数据发展管理局提出并归口。 本文件起草单位:贵州省机械电子产品质量检验检测院、云上贵州大数据产业发展有限公司、贵州 中软云上数据技术服务有限公司、贵州省量子信息和大数据应用技术研究院。 本文件主要起草人:陈超、刘彦嘉、宿睿智、杨旎薇、李若瑶、秦晓东、杨建国、刘荣飞、唐昶、 姚茂峰、陆莹、韦超、王文雷、侯显军、魏伟、王仕品、周亮宏、邵建平、潘伟杰、刘相君、陈玉梅、 张洋、陈驰、雷伟、孙瑾。 DB52/T 1539.32021 1 政务云 第 3 部分:云计算平台运维管理规范
4、1 范围 本文件规定了政务云云计算平台(简称平台)的运维内容、运维流程和运维管理要求。 本文件适用于政务云云计算平台的运维管理。 2 规范性引用文件 下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件, 仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本 文件。 GB/T 21061 国家电子政务网络技术和运行管理规范 GB/T 22239-2019 信息安全技术 网络安全等级保护基本要求 GB/T 28827.4 信息技术服务 运行维护 第4部分:数据中心服务要求 GB/T 35293 信息技术 云计算 虚拟机管理通
5、用要求 GB/T 37736 信息技术 云计算 云资源监控通用要求 3 术语和定义 下列术语和定义适用于本文件。 3.1 故障 accident 平台运行过程中发生的不能正常执行规定功能的状态,导致整个系统功能、性能恶化的事件。 3.2 问题 problem 影响平台运行的各种需要解决的疑难、缺陷等。 3.3 突发事件 emergency 突然发生的、未曾预防的、需要立即处理的紧急事件、灾害事故等。 3.4 快照 snapshot 某一时间点磁盘数据状态的备份文件,用于数据备份、恢复。 DB52/T 1539.32021 2 4 管理框架 运维服务管理框架图见图1,框架包括以下内容: a) 运
6、维事项:包括事件管理、问题管理、变更管理、发布管理和配置管理; b) 运维服务:包括云资源运维管理、机构与账号管理、技术支持服务、机房运维管理和网络运维 管理; c) 运行保障:包括人员管理、制度管理、资产管理、文档管理和值班管理; d) 安全管理:包括网络安全管理、云资源安全管理、数据安全管理和运维安全管理; e) 应急管理:包括应急准备、应急处置。 图1 运维服务管理框架图 5 运维事项 5.1 事件管理 应为恢复平台提供服务,减少对业务不利影响,尽可能确保最佳的服务质量和可用性级别,并包括 以下要求: a) 建立事件管理流程,包括事件记录、分级、上报、分派、处理和结束; b) 记录运维过
7、程中发生的事件,根据事件的影响程度和影响范围进行评估,上报并根据优先级及 时处理; c) 对事件响应、处理、结束等过程进行跟踪、督促及检查; d) 定期回顾、分析事件处理记录,并完成事件分析报告; e) 将运维过程中重复发生的事件、重大事件纳入问题管理。 DB52/T 1539.32021 3 5.2 问题管理 应分析被列出问题的事件根本原因,找出解决方案,将事件影响最小化,预防问题和事故的再次发 生,将未能解决的事件的影响降低到最小,并包括以下要求: a) 建立问题管理制度,规范问题的记录、分析和解决的过程; b) 对问题的处理过程进行跟踪和管理,包括问题的识别、提交、分析、处理、升级、解决
8、、结束; c) 将监控、分析、自查、检查、测评、评估和事件处理中发现的问题进行汇总,并纳入问题库。 5.3 变更管理 应确保平台的有关变更得到评估、审核、实施,保证平台服务在干扰最小情况下实现有益变更,并 包括以下要求: a) 建立系统变更流程,包括变更申请、审批、执行、测试等; b) 对变更进行分类和记录,评估变更请求风险、影响; c) 明确系统变更中的角色,至少包括申请人、审批人、实施人、复核人; d) 变更申请人编写变更方案,提交变更申请,方案内容包括目标、对象、时间、人员、紧急程度、 操作步骤、测试验证、风险防控措施、应急预案、回退措施等; e) 变更审批人根据业务和技术风险进行变更审
9、批,确定变更实施时间,并保存审批记录; f) 变更实施人按照变更方案实施变更,并及时更新配置库;组织变更前后的测试,并提交测试记 录或报告; g) 变更复核人对变更记录和变更结果进行评估,评估内容包括变更目标的完成情况、对生产环境 的影响等。 5.4 发布管理 应管理发布到平台实际环境的新增或修改后的配置项的流程,保障平台所有组件的安全性及可用 性、运行环境的完整性,并包括以下要求: a) 由变更管理触发生成发布请求,根据发布请求制定发布方案,方案需明确发布的内容、角色职 责分配、发布日期等; b) 根据变更实施情况组织人员进行测试,确保发布成功。当测试通过后,更新相关配置信息; c) 制定相
10、应的发布回退方案,确保发布失败时可回退到发布前状态。 5.5 配置管理 应识别和定义平台基础设施、云操作系统和平台中的相关部件,在配置管理文档或管理库中保持准 确的配置信息,确保平台相关的配置项、状态等信息的正确性和完整性,并包括以下内容: a) 制定配置管理流程,明确配置管理人员,负责配置管理的规划、识别、控制、验证及审计、状 态跟踪等活动; b) 建立配置库,对平台的服务器、存储、网络、安全设备,操作系统、云产品等进行管理; c) 配置项属性包括编号、名称、类型、维护责任人、运行状态、关联关系,确定所需的工具、资 源、配置项定义、配置项标识等; d) 配置项的添加、修改、替换、删除应有记录
11、、可追溯; e) 定期检查配置库或相关文档,对发现的不一致情况及时纠正,并保存记录。 DB52/T 1539.32021 4 6 运维服务 6.1 机房运维管理 机房运维管理应符合GB/T 28827.4规定,还应遵循以下要求: a) 建立巡检制度,运维人员定期进入机房进行巡检,并做好记录; b) 对机房相关设备进行实时监控,并提供事件或故障发生时的相应支持; c) 提供优化改善服务,对 IDC 机房的安全性可靠性升级改善。 6.2 网络运维管理 网络运维管理应符合GB/T 21061的规定,还应遵循以下要求: a) 监控网络设备状态、网络连通性等运行状态; b) 检查并保存网络设备运行日志;
12、 c) 备份网络、防火墙、入侵检测等设备的配置参数; d) 及时处理网络中断、网络设备故障; e) 规划网络 IP 地址,提高互联网与政务外网 IP 地址利用率; f) 配置政务外网与互联网网闸,实现安全跨网访问。 6.3 云资源运维管理 云资源运维管理应符合 GB/T 35293 和 G B/T 37736 的规定,还应遵循以下要求: a) 对云资源开通、配置变更、释放等过程的全生命周期进行管理; b) 监控云资源的使用情况,在发生告警时及时通知用户,并提供技术支持。 6.4 机构与账号管理 6.4.1 机构管理 对平台上的政务部门与用户进行管理,根据政务部门的上下级所属关系,制定相对应的审
13、批流程。 新建机构的申请,应由人工书面审核后进行创建。 6.4.2 账号管理 6.4.2.1 对新申请账号进行人工核实,包括姓名,电话,邮箱和所属机构,核实后开通,并做好记录。 6.4.2.2 对不使用的账号定期进行清理,对运维人员的账号权限进行分配。 6.5 技术支持服务 应提供7天x24小时在线支持服务,采用电话、工单、邮件等方式,处理用户提出的产品咨询、产品 使用、产品故障、网络故障等。 7 运行保障 7.1 人员管理 7.1.1 人员要求 7.1.1.1 应取得相应的技术能力等级认证,满足平台运维服务的要求。 7.1.1.2 应参加运维技术、业务、安全等培训,考核合格持证上岗。 DB5
14、2/T 1539.32021 5 7.1.1.3 应定期参与平台运维技术培训,确保技术能力与平台技术迭代同步。 7.1.1.4 应与客户保持良好的沟通机制,快速响应客户的需求,及时解决使用和故障问题。 7.1.1.5 应熟悉平台产品的使用方法、问题的解决办法、平台的网络架构及使用规则。 7.1.2 管理要求 7.1.2.1 应按运维服务内容,建立运维服务团队,设置相应的服务岗位,配置具备相应技术能力的运 维人员。 7.1.2.2 应建立运维人员培训、岗位考核机制。 7.2 制度管理 7.2.1 应建立运维管理的工作机制,制定以下运维管理制度: a) 机房管理管理制度,包括外部施工人员进入机房的
15、审批流程、驻场人员管理等; b) 日常运维管理制度,包括运维操作规程、人员日常操作管理等; c) 运维过程管理制度,包括运维各个环节管理、操作流程等。 7.2.2 应建立运维管理制度制定、发布、维护和更新的机制,定期修订和完善运维管理制度。 7.3 资产管理 7.3.1 应建立硬件设备管理制度,包括设备的验证性测试、出入库、安装、盘点、维修(升级)、报 废等管理,明确硬件设备管理责任人。 7.3.2 设备投入使用前,应督促供应商进行必要的验证性测试,并保留测试记录。 7.3.3 编制平台设备清单,内容至少包括设备名称、设备编号、入库时间、购置时间、设备主要参数、 设备序列号、设备状态、设备保修
16、期、设备位置、设备用途等,并保留设备启用、转移、维修、报废等 过程的记录。 7.3.4 应对设备进行标识,并置于设备明显位置。 7.3.5 应按设备使用年限,定期进行盘点,并对设备状态进行评估和更新。 7.3.6 应对拟下线和报废设备的存储介质中的全部信息进行清除或销毁。 7.3.7 应对正式下线设备交指定部门统一管理、保存或处置,并保留相应记录,设备报废应符合有关 规定。 7.4 文档管理 7.4.1 应对运维服务过程中的记录性文档建立管理制度,并定期更新整理归档保存。 7.4.2 在运维服务过程中,应对历史故障的现象、原因、处理方法等经验进行收集和分析,记录并形 成知识库。 7.4.3 应
17、建立文档管理制度,管理内容包括但不限于: a) 应对文档的分类、命名规则、编写人、审批人、版本、敏感性标识、发布时间、存放方式、修 订记录、废止等进行管理,明确文档管理的责任人; b) 应对运维过程中涉及的各类文档进行分类管理,可按照制度文档、技术文档、合同文档、资产 文档、审批记录、日志记录等进行分类,并统一存放; c) 应对文档发布、文档版本进行管理控制。文档应标识敏感性、使用范围、使用权限、审批权限 等。文档应能读取、使用最新版本,防止作废文件的逾期使用。 DB52/T 1539.32021 6 7.5 值班管理 应建立7天x24小时值班制度,明确值班的开始时间、结束时间、交接班时间,设
18、立值班紧急联络人 并保持联系电话24小时畅通。 7.6 供应商管理 7.6.1 应建立运维服务供应商管理制度,统一管理供应商的运维服务。 7.6.2 应对运维服务供应商开展资质和能力评估,建立合格供应商名录。 7.6.3 应签订的服务合同,明确运维服务供应商应承担的责任、义务,并约定服务要求和范围等内容。 7.6.4 应签署保密协议和承诺书,规定运维服务供应商不得泄露保密信息,承诺服务产品无恶意代码 或未授权的功能,不提供违反法律法规的功能模块,并符合电子政务有关技术规范和技术指引。 7.6.5 在涉及数据交换、数据调用、政务软件产品开发过程中,运维服务供应商应接受政务云管理部 门的信息安全检
19、查。 7.6.6 应定期收集、更新运维服务供应商信息,组织运维服务供应商的服务质量、合同履行、人员工 作等内容进行评价,形成评价报告,并跟踪和记录运维服务供应商改进情况。 8 安全管理 8.1 网络安全管理 网络安全管理应符合GB/T 22239-2019 中8.1.10.6的规定,还应符合以下要求: a) 平台不承载高于其安全保护等级的业务系统; b) 不同用户虚拟网络之间进行隔离; c) 建立安全防护机制,对网络进行 24 小时监控,能检测到对客户发起的网络攻击行为,及时封 禁攻击来源和记录攻击的类型、时间、流量并进行告警。 8.2 云资源安全管理 云资源安全管理应符合以下要求: a) 对
20、于云资源的访问策略需要实行最小化原则,敏感端口需要指定访问源 IP; b) 定期对云资源进行漏洞扫描,对于存在安全漏洞的云资源应及时告知用户,并协助用户处理。 8.3 数据安全管理 数据安全管理应符合以下要求: a) 提供快照服务、快照保护,防止快照中的数据被非法访问; b) 云资源应具备多副本备份机制,并且各副本间的数据保持一致; c) 提供数据迁移技术支持,保证用户数据迁移的安全、可靠。 8.4 运维安全管理 运维安全管理应符合以下要求: a) 建立安全运维制度,运维人员应在指定场所进行工作; b) 运维人员账号应实行权限管理,定期修改账号密码; c) 对运维专线使用进行管理,非运维人员不
21、得使用运维网络。 DB52/T 1539.32021 7 9 应急管理 9.1 应急准备 应急准备应符合以下要求: a) 建立应急处置机构,明确管理、业务、技术等职责; b) 制建立预防预警机制,制定应急事件报告和通报制度,编制应急响应计划文档等; c) 定期针对应急响应计划进行测试、培训和演练。 9.2 应急处置 应急处置应符合以下要求: a) 发生突发事件时,立即启动应急响应计划,采取相关措施抑制事件影响,尽快恢复平台正常运 行; b) 在事件处置结束前,对应急处置人力、物质、技术进行保障,保证事件能够快速有效的按应急 响应计划执行; c) 按应急事件报告和通报制度及时向组织内外有关方面通报事件处置进展情况; d) 在处置工作结束后,分析总结事件发生原因、现象、损害程度、导致损失等,并形成处置记录。 _ DB52/T 1539.3-2021