怎么增强运维监控
如何运行一个庞杂的机房,进行无数的主动和被动的操作,同时避免错误导致的数据中心故障?
1。
以终为始以终为始是一种以结果为导向的思维方式,提示人们在做事情前要先明确做事情的最终目的,也就是“不忘初心,方得始终”。
数据中心的终极目标是支持业务系统的不间断运行。
在接手一个数据中心的运维任务之前,我们首先需要明确业务连续性目标,然后才能制定相应的运维策略。
2。
以人为本70%的数据中心故障是由人为造成的。
与此同时,即使有最先进的监控系统,数据中心内无论主动保养操作,还是应急反应,都还需要依赖于人员的最终决策和操作。
所以,配备足够的人员、有责任心、经验丰富的人员、对于数据中心的安全运行至关重要。
3。
培训与学习学习是一种修炼。
有一种说法“最好的运维团队只不过是犯了足够的错误就修炼出来的”。
数据中心基础设施牵涉到电力、暖通、弱电、消防、建筑等诸多专业,对于数据中心运维团队来说,需要学习的专业知识非常多。
同时,每一个数据中心的配置和特定的操作流程都不完全相同。
因此,培训与学习应该成为运维团队管理的一个重要组成部门。
4。
建立管理体系数据中心基础设施的运维管理工作的管理对象包括整个庞大的基础设施、运维团队、服务对象(IT部门或者IDC客户),是一项系统性很强的工作,需要建立起一个管理体系。
在整个管理体系中最重要的三个方面是设备保养体系、与所有相关部门的沟通机制、以及支持整个数据中心生命周期管理的财务预算体系。
5。
规范操作流程任何规范化的企业管理,都不可避免地需要引入流程,数据中心运维管理也不例外。
完全基于
数据中心就是要强化流程管理。
任何重要的操作,必须严格按照流程执行。
建立流程文化是数据中心规范化管理的一个重要环节。
数据中心最重要的三类流程是标准操作流程(SOP),维护保养操作流程(MOP),和应急相应流程(EOP)。
6。
动态管控除了之前提到的管理体系和操作流程这些相对静态的工作以外,数据中心还需要进行动态的管控。
近几年,IT负载的动态性表现得越来越明显。
一方面,IT设备的增加速度比较快。
新的业务系统上线可能导致IT负载在短期内有较大的增加。
另一方面,企业大量采用虚拟化技术以后,可能会出现机房内各机柜的IT负载在一天范围内有较大变化的情况。
基础设施运维团队需要针对这种IT负载的动态性作出相应的对策。
7。
持续改善大型数据中心的出现只是近几年的事情。
当数据中心超过一定规模的时候,管理变得复杂,已经超越原来简单的依赖于少数运维人员的责任心的时代,需要的是完整的管理思想和方法论。
国内数据中心基础设施运维体系的成熟度大致处于三个等级的状态:基础级、成长级、文化级。
8、用运维管理工具实践已经证明,用一个优秀的运维管理系统可以大幅度的提升运维管理效率。
可以理顺运维流程,并对每一个运维事件进行时间限制。
督促运维工程师解决故障。
另外,运维经理可以从PC或者移动端随时
运维管理工具的知识库、配置管理、拓扑
参考:
优秀的运维监控“帮手”Hightopo 的 HT for Web 自主开发的基于 HTML5 的 2D、3D 渲染引擎,为可视化提供丰富的展示效果。
通过三维可视化,使整体结构、设备分布立体化,同时提供空中、漫游、自动巡逻等多种演示方式,满足多种展示要求,真实地展现环境形象。
通过扩大管理规模、管理工具多样化、信息管理和数据管理的量化展示,支持多维数据的深度挖掘和智能分析。
将实际生产业务无缝集成到平台上,使日常管理任务标准化、自动化和企业智能、专业管理。
参考:
监控,分为“监”和“控”两大阶段,“监”是能做到对风险信息及时、有效地收集,其粒度和时间密度要能满足控制风险的需要,“控”是对“监”得到的风险信息进行判别处理,其关键在于阀值的设定是否合理和对应的解决方案是否全面有效。
云帮手支持系统CPU、内存、磁盘、网络等各资源使用情况全面监控,并可自主创建告警规则,帮助用户及时捕捉处理风险。