勿庸置疑,随着信息化在各个行业的应用和深入,企业的网络确实需要管理,以适应企业信息化建设的步伐。下面以SiteView网管软件为例,介绍企业网络管理的核心理念。
SiteView系统管理软件,其本质是运维支持系统,也可以称为行为支持系统,即通过此工具来支持行为,提高行为工作效率。行为支持系统,一个很典型的例子如CRM客户关系管理系统,它是专门为销售人员设计的行为支持工具,帮助销售人员记录客户沟通内容、统计客户资料等,从而提高销售人员的工作效率;与此类似,SiteView是专门为运维人员设计的行为支持工具,帮助运维人员进行自动化的网络监测和管理,从而减少故障,提高IT工作效率。
( SiteView工作原理)
SiteView运维支持系统,可以帮助运维人员提高工作效率,保障网络7X24持续、稳定运行。SiteView作为运维支持系统,可以从以下三个方面来理解:
1、网络监管自动化
2、复杂工作简单化
3、工作流程标准化
对于企业来说,提高IT效率的重要性不言而喻,所以引进一套支持运维人员工作效率的软件非常重要,正如需要用CRM提高销售人员的工作效率、用ERP提高整个制造过程的工作效率一样。
(1)网络监管自动化
网络监管自动化源于对软件的理解,它贯穿于整个SiteView管理系统。软件本身是提高工作效率的一种手段,是支持工作人员行为的一个工具。只有最大限度地实现自动化,软件才是一个有效的提高工作效率的手段。比如,人类最初用纸笔、算盘进行计算,之后升级为使用计算器,最后可使用高度智能的计算机,真正实现自动化计算,提高了计算的效率。
SiteView模拟运维工程师的操作,帮助运维工程师的工作实现自动化。SiteView的自动化主要在于监测、预警和报告的自动化,对网络设备和服务器及其应用系统提供自动化的集中监测管理。SiteView为用户提供了70多个监测器,可以从服务器、网络设备、企业应用、Web应用等各个方面对网络进行全面的自动化监测,从而帮助运维人员提高他们的工作效率。例如,最简单的“Ping”操作,虽然每个运维工程师都可以通过手工 “ping”来检查网络的连通性,但运维工程师如果每天将大量的时间花在简单而重复的“ping”操作上显然是不现实、不合理的,企业的QoS也无法得到保障。
而所有这些工作完全可以使用自动化的工具来替代。系统管理人员只要设置好SiteView 的“Ping”监测器,就可以放心地去做其它事情。一旦有线路出现故障,SiteView 将及时通过短信息、E-mail等各种方式提醒相关运维人员,从而帮助运维工程师在用户发现问题前及时发现、解决问题。
( SiteView应用拓扑图)
“Ping”监测是SiteView最基本的监测器。此外,SiteView还有许多复杂的监测器,如数据库监测、业务流程的监测等等。组合使用它们,就可以实现对整个系统的自动化监测管理。下面以海南航空的业务流程监测为例说明如何使用SiteView实现自动化的系统管理。
海南航空有一套基于网站的OA系统,负责网上公文提交、流转、审批等工作。在海南航空没上SiteView 系统前,工程师检查系统是否正常工作时,只能登陆OA,一步一步操作下去,检查是否可以成功地提交、流转、审批文件等,以保证整个流程的畅通。因为工程师每天不可能7X24不停的进行以上操作,因此此系统经常被人投诉。使用SiteView 后,这些工作都由系统自动完成,大大减轻了运维人员的工作。运维工程师往往能在用户发现问题前解决问题,从而大幅度提高了海南航空OA系统的可用性,相关人员的工作也得到了公司的肯定。
再如,SiteView可模拟运维人员登陆服务器,查看CPU、内存、服务、进程、目录、日志文件等是否有异常发生。如果企业的数据库服务器磁盘空间不足,将严重影响数据库的正常运行。使用SiteView后,系统就可以定期自动检查数据库服务器磁盘空间的使用情况,当磁盘空间不足时,SiteView将自动通知相关的系统管理人员进行处理。SiteView还可根据事先的设置,自动删除些一些不必要的零时文件,保证数据库服务器的正常工作。SiteView 7X24不知疲倦地监测系统繁忙而易出错的地方,这样就可以有效地弥补人工运维的不足,降低IT系统的故障及可能造成的损失,帮助运维工程师提高IT效率。
SiteView自动化案例—杭州网通
杭州网通的网络环境比较复杂,他们的工程师要经常登陆网站,进行一些常规的操作,以保证系统的正常、稳定运行。其中,有一套系统主要是进行计费管理,必须不定时地登陆操作。因为这套若是出现问题,对杭州网通业务的影响将会很大。但由于网络架构中各系统具有一定的不稳定性,杭州网通的网络经常出现故障,给运维人员的工作带来了很大的压力。
今年年初,杭州网通试用了SiteView网络管理软件,感觉功能非常强大,随即购买了一套SiteView的2000个参数点,对网络进行自动化监测。到今年5月份,杭州网通已经离不开SiteView了,是什么原因使其离不开了呢?
答案就是SiteView高度的自动化。杭州网通使用SiteView后,设置每3分钟查询一次计费系统是否可用,一旦出现故障,运维人员就会及时发现。杭州网通的运维人员再也不用频繁登陆系统,查询网络的运行状况了,所有的监测操作都交给SiteView自动化实现。
(2)复杂工作简单化
SiteView在高度自动化的同时,也使复杂的工作实现了简单化。如,了解数据库可用性的操作就比较复杂,但通过自动化的工具就会变得非常简单,不一定需要一个很资深的工程师来执行这个操作。因为,即使是一个不懂技术的管理人员,他只需通过查看监测组或网络应用拓扑图上颜色的变化(绿色代表正常,黄色代表警告,红色代表危险),就可以知道数据库是否在正常工作了。
比如,开车的人只需要看仪表盘就可以了解汽车的运行状况,而需要对汽车的运行原理很了解。他不需要去把车厢盖打开查看油箱在哪里、或水箱在哪里,然后再查看油箱、水箱的状况。因为想要知道邮箱有没有油或水,通过仪表盘就可以看到。同样,SiteView网管软件把复杂的工作简单化,不需要网络运维人员逐个操作或查看网络运行状态。
又如,某银行磁盘坏了,很久都没人注意到。直到银行业务数据丢失,经反复查找才发现是磁盘的问题。原来是负责这个工作的刚毕业的大学生对系统操作不熟悉,但让他及时发现某个磁盘坏了确实有一定的难度。刚毕业的学生不会那么快就对银行所有的操作系统都熟悉,它需要一个过程,即使是一个资深的工程师,面对不同的操作系统执行不同的指令时也要费点功夫。
而使用SiteView就不会存在这些问题,它可以7X24自动监测各种操作系统服务器的运行状况,系统管理人员也可以从某个监测参数颜色的变化中了解可能出现了问题。它还可以将资深系统工程师对各种故障的判断和处理知识写进系统中,形成SiteView系统管理知识库中,帮助把复杂的系统管理工作简单化、标准化。
(SiteView服务器拓扑图)
SiteView简单化案例—天津建设银行
天津建设银行的一位处长用了SiteView后的一个体会,就是一切都变得非常简单。在使用SiteView前,他无法从整体上了解天津建行网络的实际运行状况。虽然处长是技术出身,但是如果想查看某台服务器状态的话,需要记住每台服务器的IP地址、用户名和密码等信息,然后通过敲一串的指令来了解。当然他可以找一个网络管理人员来问,这对他来说都是一个比较麻烦的事情。
使用游龙的产品后,处长只需要远程登录SiteView系统,就像查邮件一样,可以非常直观地查看整个系统的运行状况,也可以非常方便地了解各个部门的工作到底做得怎么样。网络监测的工作完全可以安排给一些非技术人员去做,这样一些资深的网络工程师,就可以去做一些更有价值和意义的创造性工作,而不是重复地做那些简单、乏味的监测工作。“SiteView是我们用过的最实用、最好用的网络管理软件”,天津建行的这位处长这样评价。天津建行前年就一直在使用SiteView,去年又扩容一次,使复杂的网管工作变得非常简单了。这里需要提到的是,这些简单化的工作对天津建行来说,是非常重要的,它为银行业务的正常运行提供了充分的保障。
(3)工作流程标准化
在我们的日常工作中,很多信息都存储在各岗位工作人员的脑子里,在一定程度上形成了信息孤岛。工作流程标准化,主要指通过SiteView实现信息的共享。以银行系统为例,某个应用监测的操作方式,最初只有开发人员知道,之后他们会传授给银行的运维人员,银行的运维人员监测操作实现后就结束了这一信息的传播。这种现场指导的方式,没有形成任何可以留存的文档,这样就形成了信息孤岛。系统该怎么监测、哪些应用需要监测等信息,仅有负责这些工作的运维工程师知道。使用SiteView网管软件后,就可以把这些监测流程固化进来,一方面实现信息共享,另一方面实现故障监测、故障处理流程的标准化。
比如,系统工程师可以将整个故障发现和故障定位的流程固化进来,通过制作并发布诊断流程,SiteView就可以对服务器、网络设备和系统应用进行自动化的故障连锁诊断了。
系统工程师也可以将各种故障处理的步骤和方法写入SiteView 网络管理系统中,形成知识库。当其它管理人员遇到该故障时,就可按知识库的建议尝试处理故障。这样在实现信息共享的同时,也提高了整个运维团队的管理水平。
系统工程师还可以设置不同的报警策略和故障处理策略。比如,对于在工作时间段发生的故障,可以设置为主机声音报警、E-mail报警、远程服务器声音报警等方式;对于非工作时间段发生的系统故障,可以设置为手机短信息报警、E-mail报警、脚本报警等。对于一些常见的系统故障,系统工程师可以设置故障主机自动重启、脚本自动恢复等故障处理功能。
根据不同的故障和响应情况,系统工程师还可以为系统设置不同的升级报警策略。如,当系统发送10次主机声音报警而无人处理时,可以升级为发送远程服务器声音报警;当系统发送声音报警或E-mail报警10次而无人处理时,可以升级为发送手机短信息报警;当系统发送报警至系统工程师15次而无人处理时,可以升级为发送短信息至上一级系统管理人员。
SiteView标准化案例—21CN
随着业务规模的不断扩大,21CN收费邮件经常出现问题。由于系统比较庞杂,缺少智能化的故障发现、报警、定位、处理系统,21CN的系统运维人员需要花费很长时间去发现、排查和诊断故障,而实际上这些诊断流程都是不断重复操作的,给系统工程师造成了很大的工作压力。比如出现网络问题时,运维人员需要逐个检查线路是否通畅、各服务器、网络设备是否正常、相关应用系统是否稳定等。
为保障网络持续、正常、稳定运行,21CN决定引进游龙科技的SiteView网管系统。SiteView网管系统专注对局域网、广域网和互联网上的应用系统、服务器和网络设备的故障监测和性能管理,是集中式、跨平台的综合系统管理软件,可以对网络设备、服务器、中间件、数据库、电子邮件、WEB系统、DNS电子商务等进行全面深入的监测管理。通过开放式的API接口和分布式实施方案,SiteView可完全满足21CN网络管理的需求。
自从使用游龙科技的SiteView网管系统之后,21CN的运维人员再也不用像救火队员一样四处查找、诊断、处理问题了。SiteView会自动监测系统基础架构及其应用繁忙而易出错的各个部分,一旦发现任何异常,系统将主动通过声音和手机短信息等方式通知相关的系统管理人员,对于常见故障,更可以通过脚本或Post数据的方式自动进行处理,从而帮助21CN实现了对收费邮件系统故障监测的标准化、流程化作业。SiteView的故障连锁诊断模块更可以帮助系统管理人员零时定位各类故障,实现了故障定位的标准化。SiteView还可将系统管理人员对各种故障的处理知识和建议写入系统形成故障处理知识库,帮助值班人员和初级系统管理人员对故障进行标准化的处理。SiteView帮助21CN的运维人员减轻工作压力、提高工作效率的同时,使他们整个系统运维过程成为了一个标准化的流程,方便了21CN对运维人员工作业绩进行考核与评估,帮助他们全面提升了整个运维的管理水平。