# 告警策略

    告警策略是运维告警中至关重要的一部分,有助于您及时了解资源使用情况并处理突发事件。若您需针对某个资源对象的某个状态发送告警,可通过创建告警策略实现。

    # 监控告警事项

    目前平台支持以下事项的监控:

    # 微服务

    • API 网关实例 CPU 使用率异常
    • API 网关实例内存使用率异常
    • 注册中心实例 CPU 使用率异常
    • 注册中心实例内存使用率异常

    # 机器

    • 机器时钟一致性异常
    • 机器 CPU
    • 机器磁盘
    • 磁盘 Inode 异常
    • 机器磁盘 IO
    • 机器 Load 5
    • 网盘
    • 网盘容量使用量异常
    • 机器宕机

    # 扩展中间件

    • MySQL SLAVE DELAY ALERT
    • MySQL SLAVE SYNC ALERT

    # 平台中间件

    • 平台中间件 Cassandra GC 次数异常
    • 平台中间件 Cassandra GC 耗时异常
    • 平台中间件实例 CPU 状态
    • 平台中间件异常退出
    • 平台中间件实例内存状态
    • 平台中间件实例 Ready 状态异常
    • 平台中间件 Elasticsearch GC 次数异常
    • 平台中间件 Elasticsearch GC 耗时异常
    • 平台中间件 Kafka GC 次数异常
    • 平台中间件 Kafka GC 耗时异常
    • 平台中间件 Kafka 消费堆积

    # 平台组件

    • 平台组件实例 CPU 状态
    • 平台组件异常退出
    • 平台组件实例内存状态
    • 平台组件实例 Ready 状态异常
    • 平台组件 Flink 任务 checkpoint 延迟异常
    • 平台组件 Flink 吞吐量异常
    • 平台组件网盘不可用
    • 平台组件日志存储保护器状态变化

    # Kubernetes

    • Kubernetes 组件实例 CPU 状态
    • Kubernetes 组件异常退出
    • Kubernetes 组件实例内存状态
    • Kubernetes 组件实例 Ready 状态异常
    • Kubernetes 节点异常

    # 项目中间件

    • Elasticsearch 实例 CPU 使用率异常
    • Elasticsearch 实例内存使用率异常
    • MySQL 实例 CPU 使用率异常
    • MySQL 实例内存使用率异常
    • MySQL 实例主从同步异常
    • Redis 实例内存使用率异常

    # 创建告警策略

    进入 多云管理平台 > 运维告警 > 告警策略 > 新建策略,指定告警规则、沉默周期、选择群组等。

    # 告警名称

    创建告警策略时,需填写策略名称以作区分,策略名称不可重复。

    # 告警规则

    选择告警规则时,可为监控项配置多条告警规则,满足其中任一条件即可触发告警。您可通过以下两种方式选择:

    • 选择 类型模板

      点击后将添加所选模版中的所有告警规则。例如,选择机器模版,告警规则将添加所有机器告警规则如下:

    • 选择 添加规则

      通过下拉列表自定义选择,列表中包含所有类型模版的告警规则。

    # 沉默周期

    为避免告警发送过于频繁,您可以选择设置沉默周期,即设置相同规则所触发的告警相隔时间。目前支持的沉默周期为 5 分钟、10 分钟、15 分钟、30 分钟、60 分钟和 3 小时。

    # 沉默周期策略

    沉默周期策略需与沉默周期配合使用,目前平台支持以下两种沉默周期策略:

    • 固定:若您设置了 5 分钟的沉默周期,且沉默周期策略为固定,则相同规则所触发的告警间隔时间将保持为 5 分钟。
    • 翻倍:若您设置了 5 分钟的沉默周期,且沉默周期策略为翻倍,则相同规则所触发的告警间隔时间将翻倍,例如 5 分钟、10 分钟、20 分钟,以此递增。

    # 选择群组

    选择群组作为告警发送对象,并选择对应级别及通知方式。