误入集群的节点引发的shard unassigned线上故障背景是对线上的 es7 集群(这里简称为集群 A)进行动态扩容,A 集群配置 3个 node 节点,在进行节点重启时误重启了其他集群(这里简称为集群B)废弃的节点,导致 AB 两个集群不可用,red 状态。
Prometheus-AlertManager-Supervisor-钉钉告警Prometheus 是由 SoundCloud 开源的监控告警解决方案。基于Prometheus,我们可以按时间间隔定义采集任务,用拉取的方式去采集各个服务应用上的性能指标,再配合Grafana对采集到的指标进行可视化展示和查询分析