1、系统运维方案 一、 企业面临的问题 1、 缺乏集中的监控管理平台,运维管理人员无法主动掌握 IT 平台的运行情况,对主机系统、网络系统、数据库、应用系统等没有合适的手段进行监控,无法做到快速的主动预警、快速的故障定位和故障排除。 2、 被动的运维管理模式导致运维人员对故障后知后觉,重复劳动多,工作强度大,最终 IT 部门、 各 业务部门都不满意。 3、 建立在手工基础上的巡检工作,难免有主观性强、随意性强的缺点,数据不能真实反映系统的运行状态,并且一旦岗位流动,不能保证系统维护的延续性。 4、 IT 管理部门无法掌握现有 IT 资源是否充分发挥了作用,系统如何配置更能满足业务发展的需要,一切都
2、确乏科学的数据做为投资决策的依据,难免造成盲目投资、重复建设的巨大浪费。给企业带来不可弥补的经济损失。 二 、 运维管理系统的作用 1、 打破传统的“分散监控、分散管理”模式,通过建立一个集中的监控管理平台,实现对整个 IT 系统的“集中管理、统一运维”。 2、 打破传统的“只有在 出现问题时,才能被动应对”的后知后觉的服务模式,系统通过 7*24 小时不间断的监控,主动发现故障隐患,及时预警,以利于及时消除隐患,防患于未然,并能迅速定位故障,及时通知,有利于快速排除故障。 3、 通过建立一个集中的监控管理平台,以“全面监控、准确预警、及时通知、快速解决”的方式,记录所有监控数据,并根据需要提
3、供分析报告,有案可查,便于进行系统的、科学的分析和总结。 4、 打破传统的 IT 部门对 IT 资源心中无底的状况,通过统一的集中监控管理平台,管理人员能够清晰地知道现有资源的合理性,实现资源的有机整合与充分 利用,以科学数据作为投资决策的依据,避免了盲目投资、重复建设造成的巨大浪费。给企业降低了成本,提高了工作效率,提升了管理质量和企业的核心竞争力。 5、 打破传统的 IT 维护只关注 IT 元素问题。在系统中可以为您集中展现银行业务系统的各种信息,为领导及时了解业务状况及时决策提供便利。 三 、 运维管理系统的功能特点 1、 7*24 小时自动监控功能:将以往固定的阶段性系统巡检工作,变为
4、系统自动的 7x24 小时不间断检测,可代替人工进行值守。直接提升了系统的 IT 管理自动化程度,工作效率 显著提高! 2、 快速定位故障功能:将 复杂的 IT 环境按照银行业务关联方式进行整合, 能 直观地看到整个 IT 系统的运行状态,及时准确的 上报 :是 IT 系统出现了 什么 问题,导致业务出现问题;可以迅速定位故障点,直接提高了维护部门响应及处理问题的速度。 3、 系统自动预警功能:通过系统 7x24 小时不间断检测,并根据数据进行分析,一旦情况异常,系统自动产生预警信息及时通知各位领导及管理员,为防患于未然提供强有力的帮手。 4、 管理及决策功能:直观的报告式系统性能统计表,使
5、IT 管理者及时了解 IT 系统各部分的运行状况,提供的历史性能和故障数据,为 IT 管理决策提供了科学的依据;并获得最直观的与业务有关的各种信息,为维护人员提供方便快捷的运维管理工具。 5、 确保业务系统稳定性功能:保障业务的整体稳定性,提前发现网络中存在的各种潜在问题,提前处理,使故障率大大降低,网络故障时间大大减少,用户的投诉率明显减少,提升了业务服务质量,也降低了维护成本。 内网安全 管理 1、所有域用户不能随便更改桌面背景,保证公司使用带有 LOGO 的统一背景。 2、所有域用户不能运行管理员已经限制的程序。 3、所有域用户禁止使用管理员权限。 4、 配置域用户所有 IE 的默认设定
6、为本企业网站,保证员工打开 IE 可以直接访问到公司网站,且用户不能自行更改主页。 5、禁止域用户使用运行,防止打开注册表等修改系统配置(管理员除外)。 6、隐藏所有用户的 C 盘,防止用户误删除系统文件,造成系统崩溃。 7、禁用控制面板中“添加 /删除程序”,防止用户随意添加 windows 组件及删除软件,造成系统问题。 8、取消光盘或 U 盘自动播放,以防止存储介质带入病毒或木马程序。 9、 所有域用户 禁止 对 IP 地址进行修改。 通过组策略对 AD 域控制器进行设置,以实现以上内容 监控管理 实施方案 :采用卓豪公司基于 ITIL(Information Technology In
7、frastructure Library 信息技术基础架构库 )架构的软件产品: ManageEngine IT 360 ManageEngine IT 360 主要功能: 利用 ManageEngine IT360,可以轻松管理关键的业务应用。它采用无代理监控方法,监控应用服务器、服务器和数据库,从而降低成本,提高投资回报率。通过网络监控和带宽利用情况,管理员能够迅速排除网络性能相关的问题。利用基于 ITIL 的服务台,系统可以自动指派问题,提高 IT 服务水平。 1、 业务服务管理 在 IT 资源中加入业务元素 定义依赖关系,提高故障管理和 SLA 管理 降低应用支持和维护费用 轻松排除故
8、障 2、 网络监控 端到端的网络设施平台,高级故障和性能管理功能,管理 WAN、 VoIP 电话、网络设备 自动发现网络设备 一系列包含设备配置的设备和接口模板 3、 服务器监控 采用无代理方式监控服务器 监控服务器负载、磁盘利用率、进程、内存利用率、磁盘 I/O、服务器 CPU 利用率等 使 IT 管理员确定问题的根源在于操作系统、应用还是服务器 支持 Linux, Windows、 Solaris、 AIX、 HP UX 等 4、 应用监控 监控 CRM 应用、财务应用等业务关键应用 通过监控 Microsoft .NET、 Oracl、 JBoss、 Tomcat、 WebLogic、
9、WebSphere 和 SAP,保证应用服务器健康状况和可用性 监测和诊断应用服务器及其服务出现的问题,保证正常运行 5、 数据库监控 监控包括 Oracle、 MS SQL、 Sybase、 IBM DB2 和 MySQL 的异构数据库服务器环境 数据库管理员可以规划资源需求,及时排除故障 数据库大小、缓存大小、数据库连接时间标签,方便查看 6、 带宽监控 从支持 NetFlow 的设备直接导出 NetFlow,详细了解网络中带宽使用情况 查看带宽使用图样,生成报表,无需部署硬件探针,节约成本 深入了解网络流量及其模式 实时掌握网络状况,以及流量如何影响网络总体健康状况 7、 IT 资产管理
10、 硬件和软件资产的完整清单 通过无代理方式的扫描,跟踪资产的所有关系和历史 计划性的资产审计 快速确定资产与业务服务或其它资产的依赖关系 跟踪企业中软件的使用情况 监视软件许可 8、 基于 ITIL 的服务台 集成服务台,从一个位置管理所有交流 基于 ITIL 的服务台包括事件管理、问题管理、变更管理和配置管理 包括解决方案 (知识库 )模块,便于解决常见问题 能够将系统告警在服务台自动转化成工单 自动将工单指派给相关技术员或技术组 9、 性能报表 界面简洁直观 能够对每个监控的属性生成报表 计划自动邮寄报表 报表可导出为 PDF、 CSV 或 XLS 格式文件 可查看过去一周或一个月的历史数
11、据 ManageEngine IT 360 产品属于软件套件, 内含不同的软件以实现不同的功能。下面将以其中之一软件opmanager 为例,说明其职能。 灾难 管理 需求分析 : 公司现有信息平台承载着各种服务独立应用,包括 :DHCP、 DNS、 AD、 OA、 SAP 等,这些应用需要独立系统来控制保障 安全 可靠。未来随着企业的发展,将会增加 WEB、 SQL、 MAIL 等平台服务。 传统解决方案及分析 : 传统独立的系统平台方式为了保障 安全 ,基本上是一个应用系统对应一台服务器,如果两种应用配置在一台服务器上可能会造成业务冲突,或者一种应用由于宕机或者病毒等故障造成所有应用的停止
12、。为了采用应用系统连续性的双机热备系统,则需要一台服务器闲置作为 standby 服务器。 传统服务器解决方案的有诸多弊端: ( 1)运营和维护成本高 服务器大大增加了对数据中心空间、机柜、网线、耗电量、冷气空调和人力等成本需求。 ( 2)服务器利用率低 像 DHCP、 DNS、 AD、 OA、 SAP 应用对服务器的 CPU、 内存 的使用率都极低,特别是对于目前多核高性能 CPU的服务器时代,有的甚至长年不会达到 3-5%,绝大多数系统资源利用率通常不足 15%。 ( 3) IT 服务水平差,不能快速响应业务需求 服务器的硬件维护需要宕机,某些重要应用被排除在了灾难恢复的范围之外, 或者有
13、些灾难恢复时间过长,服务器与老的 操作系统 或者业务之间存在兼容性,诸如此类等问题都会影响 IT 服务水平,从而使得公司办公效率降低。 ( 4)系统扩展性差 当有新的应用系统时候,不能及时部署,需要申请购买新的服务器。 这些问题直接导致 IT 总拥有成本( TCO)升高, IT 投资回报率下降,系统可管理性降低,运营效率与响应速度降低。而服务器虚拟化技 术正是解决这些问题的一个好方法,运用虚拟化技术,不仅可以大大降低 TCO、提高运营效率、提高服务水平,而且虚拟化软件本身还为您提供高可用性和 负载均衡 特性,保证客户应用的连续性。 虚拟化概念简介 : 服务器 虚拟化是在 服务器 上安装一个虚拟
14、机监控器( Virtual MachineMonitor, VMM) 软件 ,将服务器物理的 CPU、 内存 、 网卡 和 硬盘 等资源抽象出来,映射成若干个虚拟的 CPU、内存、网卡和硬盘,构成虚拟机,每个虚拟机上可运行一个独立的 操作系统 和若干应用软件。虚拟机的产生打破了操作系统和硬件的互相依赖性,屏蔽了硬件平台的动态性、分布性和异构性,实现了硬件资源的共享和复用,提供多个独立的、隔离的应用环境。虚拟化有如下四大特性: ( 1) 分区:在单一物理服务器上,可以同时运行多个虚拟机; ( 2)隔离:在同一台虚拟机服务器上运行的多个虚拟机实例彼此完全隔离,互不影响,任何虚拟机的故障,包括病毒感
15、染、黑客攻击等,都不会影响其他的虚拟机。 ( 3)封装:虚拟机将硬件配置、操作系统、以及应用等整个系统封装在文件里。封装特性为虚拟机应用带来了极大的方便性 ( 4)硬件独立:一个虚拟机可以在其他虚拟机服务器上不加任何修饰的运行,降低了软件对硬件的依赖性。 建设目标 : (1) 先进性 选择当今先进的存储技术和存储设备,保证在今后数年的技术先进性,整个系统的生命周期应有比较长的时间,在系统建成以后比较长的一段时间内能满足需求增长的需要。 (2) 通用性 实用有效是重要的设计目标 ,设计结果必须满足需求并且有效、不虚设。系统设计要考虑到 3-5 年内的技术发展,应切实保证系统所选择的设备和系统结构
16、都具有很好的性价比;选择设备要通用性高,具备前向和后向兼容性,支持今后对系统的扩充。支持多种操作系统和多媒体网络应用软件。 (3) 安全性 稳定性能,容错能力强,操作、管理、维护简单并具有良好的安全性。能够在多个层次上实现安全机制。提供多种有效可行安全措施,保护数据安全。制定严密的数据备份方案和技术保障措施,当系统出现故障时,系统数据能得到及时恢复。系统应保障关键应用的连续性。保证当意外情况发生时,系统能够平稳、正常的运行和工作。 (4) 灵活性 系统配置灵活,备用和可选方案多,能够随着内部和外部应用环境的改变随之做出相应的调整,使整个系统具有很强的升级性和可扩展性,能够适应应用和技术发展的需
17、要。 (5) 高管理性 整个系统可以通过完善地控制界 面来管理和监控,对系统进行实时的监控和维护,降低了运行的成本。 虚拟化方案 : 虚拟化软件: Citrix Xenserver5.6 服务器: IBM system x3650 SAN 存储: IBM storage DS3500 Xenserver 企业级功能: 动态迁移: XenMotion 高可用性: High Availability 物理机到虚拟机转换: XenConvert 快速置备: Provisioning Streaming 服务器管理: XenCenter 动态迁移: XenMotion XenMotion 允许迁移正在
18、运行的虚拟机而无需中断服务 安计划实施维护时无需停机 在不同的服务器间负载平衡虚拟机 高可用性: High Availability 服务器故障时自动重启虚拟机 剩余服务器上智能负载均衡 可配置的保护级别和告警 转换工具: XenConvert 和 p2v-legacy XenConvert 支持 Linux 平台从物理机到虚拟机的转换 p2v-legacy 支持 Windows 平台从物理机到虚拟机的转换 转换格式和类型: 直接转换 XenServer 到并启动 VHD(微软虚拟机格式) XVA(可导入 XenServer) XenCenter:多服务器管理 管理多台服务器 创建并部署虚拟机
19、 性能监视 调整资源分配 与虚拟机交互 方案说明 : ( 1) 两台 服务器 用作虚拟机 服务器 ,在裸机上安装 xenserver, 然后在其上安装若干个虚拟机,每个虚拟机根据应用需求安装不同的操作系统及应用。 ( 2) 根据待整合服务器的具体网络访问需求划分 VLAN,从而将虚拟机之间的流量与物理服务器的流量相隔离,降低网络负载,提高安全性和简化重新配置过程。 ( 3) 服务器用于安装 xenserver 和保存资源池的数据,存储采用 IBM Storage DS3500,保存所有虚拟机的虚拟镜像文件( Virtual Disk Image)以支持 XenMotion 和 HA。服务器通过
20、 iSCSI 方式连接 SAN 存储。 ( 4) 资源池中的服务器均配置 4 块 SAS 硬盘,设置成 RAID-5,只用于安装 Xenserver 和保存资源池的元数据,目的是防止本地硬盘出现单点故障,提高 Xenserver 本身的安全性。 ( 5) 为了虚拟机安装配置方便,将配置 ISO 镜像库,可以将 ISO 格式安装源文件通过 windows CIFS 方式挂接在 xencenter 上,这样创建新虚拟机时不再需要使用物理光驱和光盘,简化使用和提高安装速度。 ( 6) 在 PC 机上安装 xencenter,通过网络连接到服务器,可以对所有的虚拟机和虚拟机物理服务器进行集中管理,还可
21、以实现访问控制、动态资源管理、模板制作等功能,会给管理员的 IT 管理带 来有效的帮助。 ( 7) 利用 XenMotion 能够将正在运行的虚拟机从一台 XenServer 主机上迁移到另外一台,而不带有任何停机的危险。在整个迁移过程中,被移动的虚拟机在任意时刻都处于正常的工作状态。 XenMotion 的主要目的是在某台服务器需要进行计划维修的情况 下,终端用户无法觉察到应用程序出现过极短暂的中断,令整个服务过程正常顺畅。 ( 8) 启用 HA 后, XenServer 将持续监视主机的运行状况。如果当前 VM 主机发生故障, HA 机制会自动将受保护的 VM 移动到一台运行状况良好的主机
22、上。此外,如果发生故障的主机是主节点, HA 会自动选择另一台主机来接管主节点的角色,以便您能够继续管理 XenServer。 xencenter 管理和虚拟机管理需要的网络端口: 应 用 端 口 备 注 SSH-xenCenter to xenserver tcp22 HTTPS-xenCenter to xenserver tcp443 RDP-xenserver to VM tcp3389 windows 远程管理 VNC-xenserver to VM tcp5900 linux 远程管理 方案优势 : ( 1) 降低 TCO 通过 服务器 整合,控制和减少物理 服务器 的数量,提高物
23、理服务器系统资源的利用率,降低硬件成本;降低运营和维护成本,包括数据中心空间、机柜、网线,耗电量,冷气空调和人力成本等;提高 IT 投资回报率。 ( 2) 提高运营效率 利用虚拟机的封装特性,大大加快了新服务器和应用的部署,大大降低服务器重建和应用加载时间;主动地提前规划资源增长,减少硬件维护时间,从以前的需要数天 /小时的时间变为现在的零宕机的硬件维护和升级。 ( 3) 保证业务连续性 双机 HA 最大限度的保证了应用业务的连续性,保证业务在硬件、 操作系统 、应用系统等任何地方发生故障都不会影响业务的连续性。 负载均衡 功能不会让一台主机因负载过大而宕机; ( 4) 扩展性 当需要新服务器
24、应用时,可在虚拟机服务器上建立虚拟机来满足新的应用。 附 录 参考资料: 使用 CrystalMark基准测试软件,在服务器上安装 Xenserver5后同时运行不超过 6台虚拟机进行基准测试。 测试环境: 服务器: HP ProLiant ML110 G5,采用 8GB( 2GB*4)内存, 500GB SATA 硬盘以及 Core 2 Quad Q6600 CPU 每台虚拟机上安装 Windows server 2008,均采用单 CPU 和 1G 内存配置。 测试结果: 虚拟机台数: 1 台 WS08-01 WS08-02 WS08-03 WS08-04 WS08-05 WS08-06
25、ALU 10761 FPU 11336 MEM 19871 HDD 9917 虚拟机台数: 2 台 WS08-01 WS08-02 WS08-03 WS08-04 WS08-05 WS08-06 ALU 10827 10795 FPU 11366 11344 MEM 9515 9192 HDD 3555 3884 虚拟机台数: 4 台 WS08-01 WS08-02 WS08-03 WS08-04 WS08-05 WS08-06 ALU 10776 10726 10760 10746 FPU 11411 11318 11335 11274 MEM 9763 7570 6193 8134 HDD
26、 972 1092 1539 1177 虚拟机台数: 5 台 WS08-01 WS08-02 WS08-03 WS08-04 WS08-05 WS08-06 ALU 10708 10698 10680 10312 10690 FPU 11300 11234 11244 11292 11191 MEM 8805 7527 7126 7979 8757 HDD 635 663 618 937 1513 虚拟机台数: 6 台 WS08-01 WS08-02 WS08-03 WS08-04 WS08-05 WS08-06 ALU 10661 10642 10602 10593 10615 10603 FPU 11268 11131 11181 11177 11105 11114 MEM 9041 8753 7695 7871 7763 8032 HDD 431 443 551 815 1068 687 测试结果表明:当虚拟机台数增加时, CPU 的 ALU(逻辑演算)和 FPU(浮点运算)变化不大;但内存和硬盘的访问性会随着虚拟机台数的增加而降低。