“智能运维”闯关秘籍

3434 字丨阅读本文需 7 分钟



这是一款考验闯关者硬实力的新“游戏”

——“智能运维进阶战”!

但其设计并非天马行空,

而是“游戏设计者”

——云智慧,

在其首创的

“智能运维分级成熟度模型”

上的演绎和模拟。


作为闯关者,

企业将经历六关,

通过学习、积累、实践,

最终将达成智能运维的目标!



游戏准备!


在数字化、智能化时代,IT运维正从手工操作走向完全自动化,从传统运维流程化管理走向智能化。“运维+智能”将是一场革命。然而,由于智能运维在实际落地过程中尚缺乏统一认知和框架指导,致使各行各业的智能运维发展程度千差万别,水平参差不齐。


在智能运维发展的初期阶段,如何将新技术与管理方法论相结合,对数据进行有效治理,从而提升生产与运营的效率,充分发挥智能运维的效能,成了各行业数字化转型亟待解决的问题。


国内首个“智能运维分级成熟度模型”,作为一项事实上的标准,不仅可以为企业IT迈向真正意义上的智能运维提供最佳实践参考,还可以帮助企业中的IT人员更好地了解和评估企业在运维方面所处的阶段,以及面临的挑战和问题,从中找到解决问题的根源,从而持续提升运维和IT管理效率。


通过了解“智能运维分级成熟度模型”,将加深企业对智能运维的理解和认知,更好地掌握与智能运维相关的技能和工具,从而实现运维的智能化。


现在,就开始闯关吧!



第一关

Level 0:人力运维


闯关任务:

当前的数据中心、动环系统、硬件设备、操作系统、中间件、数据库、日志、网络服务、应用性能等缺乏监控工具和手段,需要专业的工具实时监控并发现异常或故障,并能及时报警;服务长时间中断,且响应慢,恢复时间不确定;将以天为单位的应用平均故障恢复时间(MTTR)缩短至小时级。


闯关过程:

1. 实施动环监控:通过各类传感器和设备本身的监控接口及协议转换,实现电力、温度、湿度、漏水等实时监控,通过流程和3D可视化管控机柜空间、监控使用情况。


2. 监控网络质量:通过网络流量和深入分析,实现网络服务层及应用会话性能监控,改善网络和应用的可用性。


3. 监控日志:基于大数据技术与智能算法,实现PB级多源、离散日志的统一采集、处理、存储与查询分析。


4. 监控基础设施:全局掌控基础设施、操作系统、数据库、组件的运行状态,实时保证资源正常运行。


5. 监控应用性能:追踪性能问题,快速定位应用缓慢、错误和异常,确保业务质量。


经验参考:

某国有企业,故障投诉多,设备管理混乱,设备故障没有管控工具,排查故障以人工方式为主,依赖个人经验,效率非常低。


采用基础网管工具、应用性能监控工具和日志分析工具后,实现了IT硬件的集中管理、故障发现和告警等,实现了应用系统的代码级故障定位和详情获取,大大提高了故障排查效率。


闯关结果:

从动环、基础设施、网络服务、应用性能、涵盖从业务到基础设施的各个监控层面,帮助企业构建从技术到业务的完整的监控体系;从依赖人工、手动、经验,逐步向工具、脚本和标准转变;完成监控工具建设,补全工具短板。



第二关

Level 1:辅助运维


闯关任务:

当前,企业正从外向型业务创新向以技术驱动为特征的管理创新转变,同时管理方式也需要从粗犷式经营向精细化管理转变。在此背景下,企业需要继续提升IT的效能,以保证业务的长久稳定发展;应用平均故障恢复时间(MTTR)从小时级进一步缩减至一小时以内。


闯关过程:

1.“四划”——进行有效的组织架构规划、制度建设规划、流程建设规划、考核指标规划。


2. 从缺乏规划、分割管理的离散阶段,逐步过渡到建立数据集中处理应用中心,实现整体规划、专业运维,引入运维流程框架,通过流程实现跨部门的运维任务,贯穿各个专业部门并实现协同。


3. 满足多活和混合云环境要求,实现应用与基础设施的松耦合,以及资源服务化。


经验参考:

某大型制造企业在运维方面,存在故障处理效率低、追溯难、管理复杂和操作失误多等弊端。通过ITIL流程规划和ITSM系统工具实施,以及建立统一的IT运维服务台并采用自动化运维工具,实现了平台多入口和统一线上管理,提高解决问题效率的同时,推动了常规运维操作的标准化,降低了运维人员的学习成本。


闯关结果:

通过对组织架构、岗位角色、管理制度、流程、考核指标、运维工具的整合规划,实现了人与工具的有效结合,保证了服务交付的准确性、高效性;构建和优化IT运维管理体系。



第三关

Level 2:一体化运维


闯关任务:

数据量和种类虽多,但离散,缺乏全局数据观;业务数据与IT数据管理缺乏关联,价值挖掘成本居高不下;监控手段比较丰富,但出现问题时仍难以快速定位;迫切需要实现运维数据治理,从数据噪音中快速定位问题的根源;应用平均故障恢复时间(MTTR)从一小时以内进一步缩减至分钟级。


闯关过程:

1.数据治理:归集数据、处理数据、建模数据、存储数据、数据接口服务化、数据应用场景化。


2.建立指标体系:梳理业务及IT指标集、IT应用层指标集、IT服务层指标集和IT组件层指标集等。


3.智能场景应用:监控IT资源健康状态,感知业务健康态势,监控业务健康度,跟踪展示业务流程,感知用户体验态势。


经验参考:

某大型地产企业数据繁杂,数据间缺乏关联性分析,且工具分散,用户体验差。


通过建设大数据运维中台,实现数据的统一归集、清洗、分析,实现数据接口标准化、数据场景服务化、业务运维自动化,从而进一步提升智能化能力,实现运营数据化,运维活动可见、可管、可控,保证业务系统安全、稳定、高效运行。


闯关结果:

   建立数据逻辑,明确指标意义,实现态势感知,初步实现智能运维。



第四关

Level 3:初步智能化运维


闯关任务:

虽然完成了数据中台建设,具备了一定的数据分析能力,但仍然缺乏对数据的有效利用,诊断能力、恢复能力、预测能力等均有待提升,需要使用人工智能和机器学习算法,对运维场景进行智能处理;应用平均故障恢复时间(MTTR)从分钟级缩短至秒级。


闯关过程:

1. 智能诊断:通过机器学习和智能算法,自动识别出不符合期望的数据并产生告警;基于异常检测,实现基于逻辑推理的诊断定位。


2. 智能恢复:通过实时海量数据处理、NLP非结构化数据识别、数据关系建立等方式,建立对故障场景特征的精准识别,精确调用相应的预设应急动作,完成业务的快速恢复。


3.智能预测:基于预测算法对时序数据进行学习训练,通过数据与业务的映射、关联、推理等方式,建立数据与业务的映射,从系统维度展现容量水位并进行趋势预测。


经验参考:

某国有银行卡中心虽然拥有近百人的IT运维和业务运维团队,但仍然存在告警消息多、告警准确度低、缺乏告警关联分析等问题,故障处理主要是以人工确认方式为主,效率低。


通过建设以算法和规划同时作用的监控体系,借助大数据、机器学习、智能算法等手段,对告警数据进行实时分析、预测,形成了业务拓扑和算法模型相结合的根因分析,提高了故障的发现、分析、诊断、恢复能力,并可通过自动化手段对故障实现初步的自愈服务,以及进行容量预测,以满足业务未来发展的需要。


闯关结果:

引入算法模型,实现决策智能;实现智能辅助根因定位、故障自动恢复等。



第五关

Level 4:高度智能化运维


闯关任务:

持续保持业务流程的高效,以及算法的准确性,提升对问题流程和算法的识别速度;进一步简化自动化场景编排和算法调参,提升效率,降低成本;通过AI算法对业务场景故障进行预测;通过自动化实现自愈。


闯关过程:

1.自学习AI:强化学习、深度强化学习、自监督学习等前沿人工智能技术的应用,改进现有算法在各类运维场景中的应用。


2. 过程挖掘:过程挖掘技术有助于用户解决诸如过程发现、一致性检查和瓶颈分析等问题。通过以上问题的智能化处理,极大地帮助用户及时发现现有系统的问题流程,并根据建议进行针对性优化,甚至由系统自主优化/创建新的流程。


3.计算机视觉:结合计算机视觉、RPA等技术,使AI更加智能地模拟终端用户的桌面系统环境操作,覆盖更加广阔的运维场景。


4.机器人自动化:PRA技术能够模拟人与数字化系统的交互,通过RPA技术,在现有脚本和代码的基础上,实现更加简单、灵活、高效的自动化作业,覆盖更加广泛的业务场景。


经验参考:

某省政务服务数据管理局从业务办理场景入手,实现一网通办,同时理清了业务办理记录,实现了流程模型分析,可以更快地找到事项失败的情况,有效缩短事项办理时长,提高效率。


闯关结果:

自动化与智能化不断深入到各个运维/运营环节及业务场景中,充分利用流程挖掘、超自动化技术、人工智能化,提升效率的同时,降低维护成本。



第六关

Level 5:完全智能化运维


达到理想的自治状态,即无人值守、故障愈合、自主优化,可做到远程接管;应用平均故障恢复时间(MTTR)缩短至毫秒级。



如果一家企业能够连闯六关,

那么就将达到运维的最高境界

——完全智能化运维。

当然,

这还只是一种“理想”。


有闯关经验的企业一定深有体会,

从第三关到第四关的跨越难度较大,

即从一体化运维到初步智能化运维,

这是一次质的飞跃。


从手工操作到自动化,

从传统运维到智能运维,

乃至无人值守,

这一进阶的过程是必然。

认定目标,拿出闯关的勇气,

你一定行!



“游戏”的背后


像是玩一款闯关游戏,企业将经历一次完整的智能运维的发展历程。因为“智能运维分级成熟度模型”的存在,企业的闯关历程明确而清晰:每一个阶段需要做什么?要达到什么样的目标?从技术到流程再到管理和人,都历历在目。


“智能运维分级成熟度模型”,是云智慧凭借多年服务中国Top 3000企业客户的数字化运维行业经验,在智能运维国家标准编制组指导下,同时参考了ITSS运维服务能力成熟度模型与Gartner关于AIOps市场指南的基础上提炼而成。


该模型从业务用户体验、运维组织管理、流程管理、工具应用、数据管理和应用平均故障恢复时间等几个维度,描述了每个阶段的运维管理特征,同时为每个阶段的演进提供了相应的关键提升手段。


每个企业都需要这样一种指引,有规划、分步骤、由低到高,积小成为大成,最终实现智能运维的目标。


免责声明:凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处本网。非本网作品均来自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容,请依照下方联系方式进行沟通,我们将第一时间进行处理。

0赞 好资讯,需要你的鼓励
来自:云报
0

参与评论

登录后参与讨论 0/1000

为你推荐

加载中...