统一监控系统

一、 项目概述

根据XXXXXX公司运维管理平台的建设需求,针对运维管理平台所维护的网络、主机和应用服务、机房环境、虚拟化、存储进行监测、预警与管理,对各种网络设备和各种物理资源与逻辑资源进行管理。

提供完善的网络及业务统计分析、趋势分析功能,为运维管理平台的系统扩容、业务发展提供可靠依据。运维管理平台具备合理、完善、可靠、综合、智能的配置、性能、故障、安全管理功能。

平台应能够很好的满足XXXXXX公司信息综合IT系统管理的实际需求,具备良好的实用性,能够提供强大的故障监测和故障信息处理平台。平台建设必须满足安全性与可靠性原则,对现有的各类应用业务的稳定运行不应产生影响,保证信息网络系统安全稳定运行。

集中监控平台应该是一个平台级的系统,应在统一平台上综合提供网络设备/安全设备管理、各类主机/数据库/中间件等服务管理、IP地址资源管理、环境温湿度管理、UPS电源管理。

管理方法上应提供各类拓扑结构管理、设备/服务的性能管理、故障管理、日志管理等

平台化特征要求是指上述两层含义:

  • 上述功能并非由不同的独立系统构成,而是共享数据采集、共享数据记录、共享故障处理的统一平台
  • 应允许第三方软件通过标准接口插入本系统,同样享有共享数据采集、共享数据记录、共享故障处理的系统功能

另外,集中监控平台应能够采集来自信息网上所有网络设备、主机、通用软件及应用的配置、运行、性能及事件等数据,通过对采集的数据的分析处理,为企业提供网络、系统及标准应用系统的状态监控管理。

集中监控平台在监控信息系统方面的功能要求包括:网络管理、系统及标准应用管理等,此外还提供统一事件管理功能,并且实现统一的监控平台功能。

二、 功能介绍

集中监控平台应该是一个平台级的系统,应在统一平台上综合提供网络设备/安全设备管理、各类主机/数据库/中间件等服务管理、IP地址资源管理、环境温湿度管理、UPS电源管理。

管理方法上应提供各类拓扑结构管理、设备/服务的性能管理、故障管理、日志管理等

平台化特征要求是指上述两层含义:

  • 上述功能并非由不同的独立系统构成,而是共享数据采集、共享数据记录、共享故障处理的统一平台
  • 应允许第三方软件通过标准接口插入本系统,同样享有共享数据采集、共享数据记录、共享故障处理的系统功能

另外,集中监控平台应能够采集来自信息网上所有网络设备、主机、通用软件及应用的配置、运行、性能及事件等数据,通过对采集的数据的分析处理,为企业提供网络、系统及标准应用系统的状态监控管理。

集中监控平台在监控信息系统方面的功能要求包括:网络管理、系统及标准应用管理等,此外还提供统一事件管理功能,并且实现统一的监控平台功能。

三、 系统简述

本系统为基于DOTNET和JAVA混合平台运行的应用系统,采用了业界最新的DOTNET2.0框架及开发平台;系统采用B/S架构开发的应用系统,采用了业界最先进的WEB2.0技术,通过Ajax技术和WebService技术,实现了在浏览器上页面的局部更新,提供更好的部署和使用体验;客户端采用运行于IE6.0的jscript开发语言,大大提高IE客户端操作的响应速度;本系统通过O/R Mapping技术和缓存技术,能够自动适用不同数据库之间差异性,优化数据访问速度。本系统是一套全中文网络资源管理系统,是一套“基于网络平台、面向客户应用”的网络设备资源与应用服务资源、全中文、通用的管理软件,具有先进性、实用性、易用性和安全性的特点。

为了确保上海出入境检验检疫局各业务系统安全、高效、稳定地运行,提高管理水平,满足客户日益增长的服务需要,提供最安全最周到的服务保障,树立自己的行业形象,结合现今行业发展水平,利用先进技术,采用安全可靠的设计方案,将监控系统集成化,流程化。

3.1适应范围

信息网络综合管理平台,定位为信息网络综合运维管理系统,实现对网络系统、应用系统、运行环境的状态进行集中监控,实现声、光、电、短消息发送、e-mail等告警手段;对各系统的运行性能进行监控、统计和分析;并提供被监测设备的故障日志,事件统计分析等功能,以满足上海出入境检验检疫局信息网络运行维护的需要。

适应于上海出入境检验检疫局信息网络的综合运维管理模式。

系统的使用对象定位于:运行值班技术人员,网络系统管理人员、应用系统管理技术专职、相关管理人员。

3.2架构和功能

本系统主要功能架构包括对象层、对象采集层、数据处理层、数据展现层、外部接口等。

系统框架图如下:

本系统的管理对象包括:网络设备、安全设备、机房环境、主机系统、数据库系统、应用系统、其他等,系统数据采集的方式多种多样,支持分布式主动轮询或被动接受的方式采集数据,支持标准的SNMP、RMON、Syslog、WMI、Telnet等协议的数据采集,支持数据库接口采集,支持应用API接口采集等多种方式,支持集成第三方管理平台组件进行数据采集,还可以根据用户的要求定制相应的接口,将相应系统的信息纳入网络管理系统中,形成统一管理。

本系统采用开放的数据存储平台来进行网管系统的数据存储,能够持续保存的历史故障数据和性能数据以便生成相应的趋势分析报告。系统能够针对告警事件提供灵活的过滤,提供对告警级别、告警类别、告警消息等配置的能力,告警划分成几种颜色,提供多种工具和方法定位问题的根源。

本系统的性能数据采集能够支持秒级单位的采样周期。系统能够提供原始采样频率的数据。系统经过一段时间的记录,能够通过对性能数据的对比,生成相应的阀值告警事件。

系统通过Web访问的方式为用户展示物理拓扑结构,并通过物理拓扑结构为用户提供全网的性能和状态信息,并通过颜色表现表示出来,帮助用户及时发现网络潜在的故障隐患点,从而为用户提供管理数据的分析、诊断机制和运维管理流程。
本系统标准的Syslog、Telnet、API等接口,可以将安全管理系统、相关环境的管理数据,纳入系统中实现集中管理。

四、 优势特色

4.1全面支持B/S结构

本系统是基于DOTNET平台运行的应用系统,采用了业界最新的DOTNET2.0框架及开发平台;系统采用B/S架构开发的应用系统,通过Ajax技术和WebService技术,实现了在浏览器上页面的局部更新,提供更好的部署和使用体验;客户端采用运行于IE6.0的jscript开发语言,大大提高IE客户端操作的响应速度;系统通过O/R Mapping技术和缓存技术,能够自动适用不同数据库之间差异性,优化数据访问速度。本系统是一套全中文主机系统资源管理系统,是一套“基于主机系统、面向客户应用”的主机设备资源与应用服务资源管理软件,具有先进性、实用性、易用性和安全性的特点。

4.2分布式数据获取

本系统在结构设计上允许分布式数据采集与计算,允许数据的采集端分布在网络的不同位置,最后通过统一的平台进行配置和管理,方便用户配置操作。

分布式数据获取有如下优点:

  1. 考虑到数据采集量,贴近管理对象的分布式管理数据采集对管理的效率与功能的提升有极大意义
  2. 分布式数据采集有效支持了多种不同的数据采集方式,将数据采集与数据处理有效分离,方便了对不同Agent的支持
  3. 支持安全管理模式,考虑到数据安全,某些管理数据是不允许远程跨网段传输的

4.3智能告警

本系统能够很方便的根据多种监控指标进行事件的组合告警和事件的关联,如:监控对象、事件类型、紧急程度、发生时间、事件的发生源地址、事件的目标地址、通信协议类型、告警事件持续的时间间隔,所有这些指标都支持用户自定义组合。

4.4综合监控

通过本系统,客户可以将多种相关的系统整合一个呈现平台之上,从而促进用户合理规划现有的可用资源,提高资源的使用率。

本系统能够提供对各类IP设备、机房环境、主机系统、操作系统、中间件、应用系统、桌面系统等等各领域,实施跨厂家、跨平台的统一管理,提供集中、综合化的监控和管理。实现了声、光、电、短消息发送、e-mail等告警手段;并对各系统的运行性能进行监控、统计和分析;并提供被监测设备的故障日志,事件统计分析等功能,能够满足客户信息网络运行维护的需要。

系统的联合监控思路:

本系统的联合监控以“服务联合体”为监控中心,提供各角度、递进的关联分析与处理,并非平面化的管理。

以监视Web服务举例:

考虑一,传统的管理产品是单独监视某领域某参数,对“监视Web服务”可以简化为HTTP 80端口是否有效,本系统联合监控考虑点不同,可以从环境(周边温度、湿度)、提供Web服务的主机负载、分离的数据库服务器负载、网际流量、进程状况等等不同角度实施联合监控,中心目标很明确:全面监视Web服务是否运行正常。

考虑二, 本系统联合监控允许从分布的不同数据采集点,分布的不同数据采集方式,甚至不同的系统采集数据进行集中处理

考虑三,本系统联合监控可以预制大量的检测点,分为不同层次,在不同阶段介入检测,这样,首先减低了日常检测对系统的压力,在故障症兆发现之初(第一批日常检测点异常)自动、智能启动相关的检测点层层深入,给出正确的或非常接近正确的诊断结果通知用户、启动流程处理,切实减轻管理人员压力。

考虑四, 本系统联合监控可以直接连动故障处理流程,自动预处理部分故障、隔离故障,防止故障扩散,赢得处理时间。

本系统支持事件处理的优先级判断(紧急度、影响度),支持事件合并,在配置管理、问题管理、变更管理方面提供直观有效的管理接口与管理实现,提供事前管理。

本系统能够很好的满足客户网络主机系统管理平台的实际需求,提供了强大的故障监测和故障处理平台,具备良好的实用性,并提供多种方式实现与客户现有各管理系统的联合监控,满足了客户综合化监控的需求。