💎一站式轻松地调用各大LLM模型接口,支持GPT4、智谱、豆包、星火、月之暗面及文生图、文生视频 广告
# 本次部署prometheus监控外部k8s集群 prometheus部署在k8s集群外部 # 采集数据 **node-exporter**:收集Node级别的监控数据,如主机CPU,内存,网络吞吐和带宽占用,磁盘I/O和磁盘使用等指标。(要求偶尔一次数据超标不告警,趋势告警,磁盘I/O这个应该监控)节点重启能不能监控到??? **kube-state-metrics**:收集pod,deploy,ds,node等的状态,如重启,启动失败,等等。 ``` 存在执行失败的Job: kube_job_status_failed{job="kubernetes-service-endpoints",k8s_app="kube-state-metrics"}==1 集群节点状态错误: kube_node_status_condition{condition="Ready",status!="true"}==1 集群中存在启动失败的Pod:kube_pod_status_phase{phase=~"Failed|Unknown"}==1 最近30分钟内有Pod容器重启: changes(kube_pod_container_status_restarts[30m])>0 ``` **kubelet内置cadvisor**:收集容器关键指标如:集群中容器的CPU详细状况,内存详细状况,Network,FileSystem和Subcontainer等 **k8s服务组件指标**:查看apiserver 、scheduler、etcd、coredns请求延迟等 **自定义监控指标**:开发在java中启用接口暴露监控数据,或者自定义一些业务指标 可以直接看到采集了哪些metrics http://prometheus.51sw.cc:30937/metrics