# 配置常用的机器告警
集群投入生产后,您需要时刻关注集群的整体状况,也可通过告警设置,在集群发生异常时接收通知。
进入 多云管理平台 > 运维告警 > 告警策略 > 新建策略,平台已内置多种告警策略,您可以通过 类型模板 选择使用。
您也可以根据实际情况,自定义配置告警规则,选择合适的阀值及相关聚合函数。
# 节点
对于机器节点,您需要着重关注其资源的使用情况、节点状态等。
# 状态
若机器出现意外宕机,结果极有可能影响服务。因此建议您优先设置机器宕机告警。
# CPU
CPU 使用率将衡量一段时间内 CPU 在用户进程、内核进程以及中断处理中的占比。高 CPU 不等同于故障,但若 CPU 使用率长时间保持高位,则需多加关注了。
一般情况下,5 分钟内 CPU 使用率不应高于 95%。
# 内存
在机器层面,您只需关注内存使用率,它表示机器整体的内存资源使用情况。
一般情况下,内存使用率不应高于 80%。
# 磁盘
磁盘作为物理资源,同样会影响用户进程。例如,磁盘满后数据库应用将不可写入,Inode 满后将无法创建新文件等。
一般情况下,磁盘使用率不应高于 86%,磁盘 Inode 使用率不应高于 85%。
# 平均负载
平均负载指单位时间内,系统处于可运行状态和不可中断状态的平均进程数,即平均活跃进程数,和 CPU 使用率无直接关联。
您也可以将其理解为系统的整体繁忙程度,负载越大则系统越繁忙,各类资源相对紧缺。默认情况下阀值设置为 20,您可以根据实际节点的 CPU 个数进行调整。
一般情况下,单个 CPU 的平均负载不应高于 70%。
# 集群组件
除关注机器节点的情况外,您还需要关注系统组件的状况。多数情况下,Erda 运行在 Kubernetes 集群上,因此,下文将以 Kuberntes 集群为例进行说明。
# 状态
Kubernetes 系统组件的状态尤为重要。平台将采集组件退出的事件、实例是否满足逾期个数等信息,因此建议您开启 Kubernetes 的相关告警策略。
# 资源使用
组件实例的资源使用情况将影响组件稳定性,例如内存不足导致 OOM,CPU 不足导致处理缓慢、卡死等。平台提供的默认配置相对保守,您也可以根据实际情况调整阈值。