AI写作智能体 自主规划任务,支持联网查询和网页读取,多模态高效创作各类分析报告、商业计划、营销方案、教学内容等。 广告
# 本次部署prometheus监控外部k8s集群 prometheus部署在k8s集群外部 # 采集数据 **node-exporter**:收集Node级别的监控数据,如主机CPU,内存,网络吞吐和带宽占用,磁盘I/O和磁盘使用等指标。(要求偶尔一次数据超标不告警,趋势告警,磁盘I/O这个应该监控)节点重启能不能监控到??? **kube-state-metrics**:收集pod,deploy,ds,node等的状态,如重启,启动失败,等等。 ``` 存在执行失败的Job: kube_job_status_failed{job="kubernetes-service-endpoints",k8s_app="kube-state-metrics"}==1 集群节点状态错误: kube_node_status_condition{condition="Ready",status!="true"}==1 集群中存在启动失败的Pod:kube_pod_status_phase{phase=~"Failed|Unknown"}==1 最近30分钟内有Pod容器重启: changes(kube_pod_container_status_restarts[30m])>0 ``` **kubelet内置cadvisor**:收集容器关键指标如:集群中容器的CPU详细状况,内存详细状况,Network,FileSystem和Subcontainer等 **k8s服务组件指标**:查看apiserver 、scheduler、etcd、coredns请求延迟等 **自定义监控指标**:开发在java中启用接口暴露监控数据,或者自定义一些业务指标 可以直接看到采集了哪些metrics http://prometheus.51sw.cc:30937/metrics