登录
注册
node.js 学习社区
睿象云案例|智能一体化告警管理持续赋能旷视科技云端业务发展

睿象云

2020-11-06 10:21

北京旷视科技有限公司(以下简称:“旷视科技”)是一家行业领先的人工智能公司,在深度学习方面拥有核心竞争力。旷视科技向客户提供包括先进算法、平台软件、应用软件及内嵌人工智能功能的物联网设备的全栈式解决方案,并在金融科技公司、银行、智能手机公司、第三方系统集成商、物业管理者、学校、物流等多个行业占据行业领先地位。


近年来旷视科技各项业务快速发展,从个人物联网、城市物联网到供应链物联网的三大场景均有布局,并拥有云服务和开发者、消费电子、城市管理、园区、物流及零售行业的核心领域业务。作为国内计算机视觉领域的“独角兽”,已经连结及赋能百亿物联网设备的人工智能基础设施。而作为旷视科技的主流业务“基于云端的人脸识别解决方案”更是积累了大量数据,而越来越多的实时在线图像比对给整体的 IT 系统的稳定运行带来了巨大挑战,构建安全、稳定、有序、高效的IT运维管理模式,成为推动业务系统稳定运行,增强自身竞争能力的关键一环。


打造数据新基建,实现一体化、体系化、可视化

为保障业务的稳定运行,旷视科技采用了 Zabbix、 Prometheus、grafana与众多基础资源监控系统来监控系统运行。系统之间彼此相连,任何一部分效率降低或者故障,都将降低IT服务的可用性,轻则造成信息访问延迟,重则带来各种不可预估的业务中断。 而“一体化集中监控”是实现系统高可用行的基础。


为此,旷视科技选择部署睿象云的智能告警平台 Cloud Alert (以下简称:CA),对系统中的所有监控工具进行统一的集成管理的同时,可直接对各类告警信息进行统一的管理并通过CA平台的智能算法实现告警降噪。同时通过分派、排班、通知等功能,快速实现跨平台告警的一体化流程化管理,提升告警管理能力。

旷视科技通过睿象云基于IT 运维行业的海量告警数据,自研的开箱即用的算法,实现更加精准的文本聚合能力。在告警生成的过程中实时抑制告警风暴,极大的降低告警通知的数量;在告警的事后回溯中,根据告警内容自动进行分类、聚类,帮助运维人员大幅降低告警分析的数据量,从而缩短故障恢复时间。


管理方通过 CA 平台提供的多维度报表,随时掌握系统运行状态、告警状况分析和成员工作效率,概览系统运行状况。数据报表的可视化展现,也方便了日常数据汇报、跨部门沟通等工作。


多渠道通知必达,做到“业务有数,心中有路”

告警是IT运维中不可或缺的环节,徒有强大的监控机制而告警通知机制跟不上,不能在紧急情况下把告警信息及时传递给运维人员,那么IT监控形同虚设。所以睿象云 CA 平台的自动化告警通知机制,真正的帮助旷视科技的运维小伙伴们实现通知必达,提高了系统运行保障能力。


通过CA 平台可以按照不同类别的告警进行自定义的分派策略,保证了业务问题能够实时地发送给相关的团队和负责人。并可通过排班功能规则可以满足团队成员在全时段处理告警的分工需求,即使由于值班人员的疏忽没有接到告警通知,也可以自动升级给团队中的其他人员。真正做到了每一条告警都不遗漏,并完美地体现了旷视科技更人性化的工作氛围。


为了更好地满足团队成员个性化需求、规范告警处理流程,旷视科技将不同的告警级别设置成了不同的通知方式。例如,重要级别的告警或者在非工作时间的告警通知都采用电话的通知方式。一般级别的告警通过钉钉来通知,而需要团队协调处理的告警也可以通过钉钉直接@相关的负责人,极大的降低了团队成员间的沟通成本。


智能的自动化告警管理体系让旷视科技的运维团队做到了“业务有数,心中有路”,每一位同事都在心里有了指北针,轻松应对每一条系统告警,实现工作效率和系统稳定的双重提升。


未来可期,需求与工具同步迭代

“我们仍有许多业务需求期待与睿象云进行深度的合作,将我们的业务系统维护的更加完善,稍后我们将与睿象云团队一起探讨业务质量分析等运维问题,以便提升更加流畅、更加全面、更便捷的金融级人脸身份核验业务的在线化高效施行。”旷视科技运维负责人表示。


随着企业需求的不断更迭,睿象云开足马力深度服务客户的业务需求,帮助业务运维团队更加快速的掌握业务健康状况,甄别运维问题,判定故障根因,预测业务变化趋势,最终全面提升企业的IT运维能力,降低经营成本和风险,创造更加优质的用户体验。

回复 · 0

发表回复

你可以在回复中 @ 其他人