优维科技吧 关注:6贴子:241
  • 4回复贴,共1

一个故障对应很多告警,那如何快速识别出业务,影响呢?

只看楼主收藏回复

我们公司对于故障的定义基本上就是从“异常”去给他定义出来,当异常发生的时候,告警系统基本上就已经泛滥掉了,所以这就是一个反向的过程。那么出现异常之后怎么反过来看?就是我去定位出来哪一个点,去做一些告警压缩,告警关联相关的能力。我们在数据这一块遇到过问题就是常规的模式,通过固定的图判断,可能解决不了真正的问题。


1楼2022-09-29 18:15回复
    其实我们当时尝试了一些训练, 我们有大量的历史的故障和数据,这些故障产生的时候,背后都会有当时的关联告警的数据,我们把那些故障和告警让AI运维的同学去做了模式的训练,找出来一些特征。


    2楼2022-09-29 18:15
    回复
      大部分的异常产生的时候,背后的一些告警其实大部分都相同,但还是有些不同异常,所以我们通过大量的数据。来反过来训练成模式。那大量的数据呢?又不能真的等线上的系统发生了,再拿线上的数据来做。所以我们对应去搞了一个故障演练。就是我今天要把一个模块当掉,以此去演练系统的行为,观察背后的模式和特征。通过对不同模块故障演练,反过来生成了很多的故障跟告警相关的数据,再拿这些数据去训练,最后能得到一些比较准确的排查故障的思路。


      3楼2022-09-29 18:15
      回复
        要想实现智能化的目标,就得有一套工程的实践,比如故障演练,得产生大量的对应的数据去解决它。所以如果你们团队今天能走到这一步,可能在工程的实践上,配套故障演练背后的风险、告警、故障、异常对应关联起来要有大量的数据可以获取到。


        4楼2022-09-29 18:16
        回复


          5楼2022-09-29 18:16
          回复