登录
注册
node.js 学习社区
想要告警的智能化管理?看这一篇就够了

睿象云

2020-09-27 15:25

企业的IT系统建设是一个聚沙成塔的过程,伴随业务规模的不断扩大,IT系统越来越多、IT架构的复杂度呈指数级增长,运维部门承受着巨大的管理压力。在如此庞杂的环境下,数据之间紧密相连,一个指标的变化,可能引发一系列的告警连锁反应。这就需要对离散的IT监测系统和海量的告警数据进行统一的采集、处理和呈现。

充满挑战的运维告警管理

相信每一个运维小伙伴都被这些问题困扰着:如何抑制告警风暴?如何保障重要告警不漏不丢?如何快速地甄别根因告警?如何沉淀告警处置经验?如何快速恢复业务运行?那么,到底是什么原因给告警管理带来如此之高的复杂度呢?

1. 千丝万缕的应用系统关系

每有一个用户访问应用系统,应用都需要调用链路上多个IT单元,而这其中,有一个环节出现问题,都有可能导致业务故障。而系统中任何一个监控对象的告警都可能引发其他多个相关策略的告警,这些告警的相关度高达90%以上。

2. 告警策略设置难以找到平衡点

过高的告警阈值,容易漏掉系统运行故障;而过低的告警阈值,又会带来大量的无效告警,影响运维团队的工作效率。同样,告警检查周期的长短设置也存在类似的问题。往往运维团队为了不遗漏告警,而提升告警的灵敏度,导致告警重复率高达60%。

3. 告警响应不及时

一个告警问题往往不是1个运维人员可以解决的,大部分的团队都是多个人参与同一类告警的处理,而同一个告警就会被推送到团队中的多个运维人员的手中。但是,通常在一些特殊时段只有一个值班人员负责处理告警,这就给其他团队成员生活带来了巨大的干扰。因为缺少高效的分派和排班管理机制,加上大量重复的无效信息,这将会在一定程度上造成告警处理的延时和遗漏,从而引发告警风暴。


告警管理的关键因素

如果没有一个高效的管理告警的办法,那只会大大降低运维人员的工作效率,导致问题处理不及时,最终影响到业务。那么,如何做到告警的智能高效管理呢?这就不得不提到告警管理有以下 6 点主要因素。

1. 时间:发生告警要及时通知,运维人员的响应速度和处理效率都与告警通知的时间息息相关;

2. 人员:所有需要处理问题,需要指定相应的运维人员参与;

3. 信息:发送的告警信息需要重点突出问题内容,以方便运维人员快速了系统问题;

4. 过程:从告警的发生到告警修复完成的全过程,至少要流转2次;

5. 知识:每一次处理问题需的经验和解决方案都是宝贵的知识储备;

6. 问题:在告警处理过程中极易产生告警风暴,当然告警风暴的产生除了与业务系统不稳定、多个监控工具等客观因素同时是与处理告警效率有直接的关系。


睿象云智能告警平台 Cloud Alert 的告警闭环管理来帮您

告警的主要处理流程首先将用户的多个监控平台接入到智能告警平台 Cloud Alert(以下简称: CA)中, CA 的数据处理引擎会对接入的数据进行标准化处理,自动去重处理,然后进行存储,并在后面增加压缩规则的处理并随时可查。最终通过自定义的分派策略通知到用户、系统或者第三方协作平台中。最终实现【开放式一体化管理】【自动化事件分派响应机制】【自研机器学习算法直达事件根因】【多渠道通知必答移动端快速处理】的告警管理模式。

睿象云智能告警平台亮点功能详解

1. 告警的跨平台统一管理

CA平台可通过多种方式,接入现今主流的 100+ 监控工具,可轻松对接来自第三方监控工具的各种告警事件。一旦告警发生时,只需要在CA平台内处理告警即可,告别在各个监控工具之间来回切换的工作模式。

2. 自定义通知分派策略

· 不同级别的告警可通过的不同方式进行通知提醒,例如:严重告警电话通知,其他级别告警通过短信或者微信进行通知;

· 分派策略灵活多样:根据告警级别和内容自定义分派条件,并将告警与人员、团队和排班计划相结合,实现告警的动态路由,确保告警在第一时间得到解决。超时的未认领告警会自动触发升级策略,通过更高效的通知手段,如语音电话,直达上级责任人,全方位减少告警的遗漏。

· 多平台协作支持:通过告警对接到钉钉、企业微信、倍洽、简聊等工具,通过团队协作的方式快速处理问题,极大地提升故障的处理效率。

· 多维度告警分析:CA支持告警回溯与多维分析,可以查看历史告警趋势、成员工作效率、告警内容top分析、告警智能分类分析等。整合企业全部告警信息,通过告警量趋势、告警分类、告警级别、MTTA、MTTR等多维度指标为系统连续性保障提供更多洞察。

欢迎大家进入睿象云官网,试用了解~

回复 · 0

发表回复

你可以在回复中 @ 其他人