# 使用kubernetes_sd_configs,不管service、service endpoint、pod、node最终目的是要获取到metrics
# 在待监控的集群部署node-exporter和kube-state-metrics
```
43 wget https://get.helm.sh/helm-v3.8.0-linux-amd64.tar.gz
45 tar zxf helm-v3.8.0-linux-amd64.tar.gz
cd linux-amd64
49 cp helm /usr/bin/
helm repo add prometheus-community https://prometheus-community.github.io/helm-charts
helm repo update
helm install kube-state-metrics prometheus-community/kube-state-metrics --namespace monitoring
helm install prometheus-node-exporter prometheus-community/prometheus-node-exporter --namespace monitoring
```
# 在prometheus中配置监控目标kube-state-metrics
在安装kube-state-metrics的时候自动创建了用户
```
root@cn-office-tonytest-k8s-1:/home/ubuntu# kubectl get sa -n monitoring
NAME SECRETS AGE
kube-state-metrics 1 3d15h
root@cn-office-tonytest-k8s-1:/home/ubuntu# kubectl get ClusterRole/kube-state-metrics
NAME CREATED AT
kube-state-metrics 2022-03-10T09:39:41Z
```
在这个用户的权限上增加1个权限用于kube-apiserver以及后面发现还需要添加一个操作对象和操作动作
```
kubectl edit ClusterRole/kube-state-metrics
- nonResourceURLs:
- /metrics
verbs:
- get
# 允许在非资源端点"/metrics"发起 GET请求(必须在 ClusterRole 绑定 ClusterRoleBinding 才生效)
```
# apiserver授权
要访问K8S apiserver需要先进行授权,集群内部Prometheus可以使用集群内默认配置进行访问。而集群外访问需要使用token+客户端cert进行认证,因此需要先进行RBAC授权。
**取待监控的k8s集群的CA证书**(/etc/kubernetes/pki/ca.crt)为prometheus配置文件中该job的CA,**取待监控的k8s用户**kube-state-metrics的secret中的token 为prometheus配置文件中该job的token
```
root@cn-office-tonytest-k8s-1:/home/ubuntu# kubectl get sa -n monitoring kube-state-metrics -o yaml
secrets:
- name: kube-state-metrics-token-cp96g
root@cn-office-tonytest-k8s-1:/home/ubuntu# kubectl describe secret -n monitoring kube-state-metrics-token-cp96g
Data
====
ca.crt: 1099 bytes
namespace: 10 bytes
token: eyJhbGciOiJSUzI1NiIsImtpZCI6Im4tR0N0WS1nLUk3U0VYbjhWT1B6bjBjNmpUVF9IYUtNWlFWSGNhZFljaUUifQ.eyJpc3MiOiJrdWJlcm5ldGVzL3NlcnZpY2VhY2NvdW50Iiwia3ViZXJuZXRlcy5pby9zZXJ2aWNlYWNjb3VudC9uYW1lc3BhY2UiOiJtb25pdG9yaW5nIiwia3ViZXJuZXRlcy5pby9zZXJ2aWNlYWNjb3VudC9zZWNyZXQubmFtZSI6Imt1YmUtc3RhdGUtbWV0cmljcy10b2tlbi1jcDk2ZyIsImt1YmVybmV0ZXMuaW8vc2VydmljZWFjY291bnQvc2VydmljZS1hY2NvdW50Lm5hbWUiOiJrdWJlLXN0YXRlLW1ldHJpY3MiLCJrdWJlcm5ldGVzLmlvL3NlcnZpY2VhY2NvdW50L3NlcnZpY2UtYWNjb3VudC51aWQiOiJjYTZjZWUyMi1iMTZlLTQ5NWEtODEzNy1jMzgzMWM4OWQ2MjUiLCJzdWIiOiJzeXN0ZW06c2VydmljZWFjY291bnQ6bW9uaXRvcmluZzprdWJlLXN0YXRlLW1ldHJpY3MifQ.uOrDxlOTnhES3e8fFUXd57XklVArqON9u108yI9kHCt6fCZZJUTncFo4tyH6iuMW2nx7ASfUHWj_WhZs_F3nl8bGh7jtSGIJmVOPVt9mOJ3iMXS2YkfvYQK_hpxujHduEw6L7bF77fHXh9qmpLUdAgpvtIgfbAkJSk62JL2Jpikwo94BWE5pTkhBxdRTH-9HN14jD4CsxzuxhaLumdBmcUpJCeTclg2KDmJZgymCgC-8OEq08nGnMr0JtUHF_J8PDBaIh7BpordI4z9rNwSOAFLMFp0sSOFKzW3OJHSB4uCD-UOBSX_KVA0nEnddEHRvQN4vLJcWbh3_WBqBkRjiyw
```
# 待监控机器的token和ca复制到prometheus所在集群中
创建对应名字文件ca.crt token
kubectl create configmap test --from-file=ca.crt --from-file=token -n monitoring
kubectl get cm -n monitoring test -o yaml
将2条数据复制到正在使用的monitoring-certs中
kubectl edit cm -n monitoring monitoring-certs中,因为手动修改这个cm容易出错
### **另外 kubectl get secret出来的是base64加密后的,kubectl describe secret 获取的是不加密的。**
# 集群外部署Prometheus和集群内部署Prometheus是不一样的
**集群外Prometheus使用默认自动拼接的监控url是无法访问的**,**此时需要自行构造apiserver proxy URLs**,通过proxy url,集群外Prometheus就可以访问监控url来拉取监控指标了。
# 先来看看没有自行构造前是什么样子的
就是未启用relabel_configs
```
kubectl edit cm -n monitoring prometheus-server
- job_name: k8s1-kube-state-metrics
scrape_interval: 45s
scrape_timeout: 20s
metrics_path: /metrics
kubernetes_sd_configs:
- api_server: https://192.168.60.204:6443
role: service
tls_config:
ca_file: /etc/prometheus/certs/ca.crt
insecure_skip_verify: true
bearer_token_file: /etc/prometheus/certs/token
tls_config:
ca_file: /etc/prometheus/certs/ca.crt
insecure_skip_verify: true
bearer_token_file: /etc/prometheus/certs/token
```
# **未启用relabel_configs状态见附录**
http://prometheus.51sw.cc:30937/ 点击status-->选择targets-->k8s1-kube-state-metrics可以看到是默认的监控URL,状态为DOWN。
URL为 `http://kube-state-metrics.monitoring.svc:8080/metrics`
现在是要将`http://kube-state-metrics.monitoring.svc:8080/metrics`改造成为`https://192.168.60.204:6443/api/v1/namespaces/monitoring/services/http:kube-state-metrics:8080/proxy/metrics`
为什么改造成这样,prometheus的默认有监控pod,node,service的配置,监控页面的target能看见
```
kubectl edit cm -n monitoring prometheus-server
- job_name: k8s1-kube-state-metrics
scrape_interval: 45s
scrape_timeout: 20s
metrics_path: /metrics
kubernetes_sd_configs:
- api_server: https://192.168.60.204:6443
role: service
tls_config:
ca_file: /etc/prometheus/certs/ca.crt
insecure_skip_verify: true
bearer_token_file: /etc/prometheus/certs/token
relabel_configs:
- source_labels: [__meta_kubernetes_service_name]
action: keep
regex: '^(kube-state-metrics)$'
# 只保留指定匹配正则的标签,不匹配则删除
- target_label: __address__
replacement: 192.168.60.204:6443
# 使用replacement值替换__address__默认值
- target_label: __metrics_path__
replacement: /api/v1/namespaces/monitoring/services/http:${1}:8080/proxy/metrics
# 使用replacement值替换__metrics_path__默认值
source_labels:
- __meta_kubernetes_service_name
regex: (.+)
# 从哪里取${1}这个值
scheme: https
# scheme改为https
tls_config:
ca_file: /etc/prometheus/certs/ca.crt
insecure_skip_verify: true
bearer_token_file: /etc/prometheus/certs/token
```
# 测试
```
root@k8s2-01:/home/ubuntu/k8syaml/monitoring# curl -s https://192.168.60.204:6443/api/v1/namespaces/monitoring/services/http:kube-state-metrics:8080/proxy/metrics --header "Authorization: Bearer $token" --cacert certs/ca.crt
#token就是上面的token,ca就是上面的ca
{
"kind": "Status",
"apiVersion": "v1",
"metadata": {},
"status": "Failure",
"message": "services \"http:kube-state-metrics:8080\" is forbidden: User \"system:serviceaccount:monitoring:kube-state-metrics\" cannot get resource \"services/proxy\" in API group \"\" in the namespace \"monitoring\"",
"reason": "Forbidden",
"details": {
"name": "http:kube-state-metrics:8080",
"kind": "services"
},
"code": 403
}
```
根据提示增加一个可操作资源services/proxy,动作为get
```
kubectl edit ClusterRole/kube-state-metrics
- apiGroups:
- ""
resources:
- services/proxy
- nodes/proxy
- pods/proxy
verbs:
- get
- list
- watch
```
这下成功了。
# 测试下能不能获取到node,pod的状态
在graph录入下面的代码
kube_pod_status_phase
kube_node_status_condition
# 附录
```
__address__="kube-state-metrics.monitoring.svc:8080"
__meta_kubernetes_namespace="monitoring"
__meta_kubernetes_service_annotation_meta_helm_sh_release_name="kube-state-metrics"
__meta_kubernetes_service_annotation_meta_helm_sh_release_namespace="monitoring"
__meta_kubernetes_service_annotation_prometheus_io_scrape="true"
__meta_kubernetes_service_annotationpresent_meta_helm_sh_release_name="true"
__meta_kubernetes_service_annotationpresent_meta_helm_sh_release_namespace="true"
__meta_kubernetes_service_annotationpresent_prometheus_io_scrape="true"
__meta_kubernetes_service_cluster_ip="10.96.98.2"
__meta_kubernetes_service_label_app_kubernetes_io_component="metrics"
__meta_kubernetes_service_label_app_kubernetes_io_instance="kube-state-metrics"
__meta_kubernetes_service_label_app_kubernetes_io_managed_by="Helm"
__meta_kubernetes_service_label_app_kubernetes_io_name="kube-state-metrics"
__meta_kubernetes_service_label_app_kubernetes_io_part_of="kube-state-metrics"
__meta_kubernetes_service_label_app_kubernetes_io_version="2.4.1"
__meta_kubernetes_service_label_helm_sh_chart="kube-state-metrics-4.7.0"
__meta_kubernetes_service_labelpresent_app_kubernetes_io_component="true"
__meta_kubernetes_service_labelpresent_app_kubernetes_io_instance="true"
__meta_kubernetes_service_labelpresent_app_kubernetes_io_managed_by="true"
__meta_kubernetes_service_labelpresent_app_kubernetes_io_name="true"
__meta_kubernetes_service_labelpresent_app_kubernetes_io_part_of="true"
__meta_kubernetes_service_labelpresent_app_kubernetes_io_version="true"
__meta_kubernetes_service_labelpresent_helm_sh_chart="true"
__meta_kubernetes_service_name="kube-state-metrics"
__meta_kubernetes_service_port_name="http"
__meta_kubernetes_service_port_protocol="TCP"
__meta_kubernetes_service_type="ClusterIP"
__metrics_path__="/metrics"
__scheme__="https"
__scrape_interval__="45s"
__scrape_timeout__="20s"
job="k8s1-kube-state-metrics"
```
- 笔记
- shell
- 如何才能学好Shell编程之“老鸟”经验谈
- scripts
- 迁移脚本
- centos_install.sh
- https.support.lwork.com.conf
- newbroker.default.lwork.com.conf
- bwnginx.conf
- twnginx.conf
- pre.default.lwork.com.conf
- zabbix_agentInstall
- getcc.sh
- shell脚本调试
- shell学习
- 第一章shell脚本入门
- shell脚本开发的基本规范及习惯
- 脚本规范示例
- 第三章变量的核心知识与实践
- 第四章变量知识进阶和实践
- 4.3 shell变量子串知识及实践
- 4.4 shell特殊扩展变量的知识与实践
- 第五章 变量的数值计算实践
- 第六章 shell脚本的条件测试
- 第七章 if条件的知识与实践
- 第8章 shell函数的基础实践
- 第13章 Shell数组的应用实践
- 经验
- for和while读行的区别
- 一个文件取2个参数
- 重定向正确及错误输出
- linux常用命令
- awk
- 详解
- 例子
- 内置变量
- 实例2
- 实例3
- find/grep
- iostat
- java启动脚本
- ln -s
- nmap
- passwd
- sed
- 详解
- 例子
- ssh-copy-id
- vim
- linux systemd详解
- 常用命令实列
- ss
- rz,sz小文件上传下载
- 文件的合并,排序和分割
- sort,uniq
- sort
- uniq
- cut
- paste
- tr
- curl
- cpu
- scp
- 批量添加注释
- nc
- yarn
- lsof
- tar
- cat
- openssl自签名证书
- pwgen
- logrotate
- 中间件
- mongo
- mongo配置文件详解
- mongo安装
- mongo常用命令
- mongo导入导出
- 导出数据的mongojs
- mongo shell
- mongo异常关闭
- mongo的缺点
- mysql
- 安装
- Gitd
- 主从同步
- 常用命令
- 日志清理
- 连接数,最大并发数,超时
- 错误
- 错误1872
- 错误1236
- 错误1-gitd主从报错
- 一些优化
- 服务器硬件优化
- 编译安装
- mysql配置文件优化
- 根据status优化
- 优化思路
- index
- 查询数据库大小
- ubuntu18.04mysql启动脚本
- pure-ftpd
- rabbitmq
- consul
- redis
- 安装
- 配置
- redis-sentinel
- 常用命令
- supervisor启动redis
- freeipa
- ftp
- 错误530根本原因和解决方法
- vsftp
- sftp
- JDK
- java参数
- zabbix
- 安装
- nginx
- 基础
- 1.基础web配置
- 2.nginx的日志格式
- 3.Nginx的请求限制
- 4.Nginx访问控制
- 进阶
- 1.静态资源web服务
- 2.Nginx作为代理服务
- 3.负载均衡
- 4.rewrite模块
- 5.Geoip
- location与proxy_pass
- proxy_set_header参数
- add_header
- 安装
- 4XX5XX重定向
- Nginx resolver explained
- 关于防止自己网页内容被别人iframe的问题
- nginx全局变量
- nginx错误代码
- 平滑升级nginx
- nginx相关资料网站
- nginx配置下载目录
- 反向代理并发数
- php
- 安装centos6,7
- xtrabackup
- apache
- 常用工具
- SSL证书在线工具SSL
- wordpress
- kafka
- nssm
- GoCD
- gocd简介
- gocd一些概念
- gocd客户端环境变量
- 建立一个piplines
- gocd添加nodejs
- supervisor
- mongo,mysql,hadoop比较
- screen
- python
- minio-私有存储桶
- kubernetes
- YAML格式简单说明
- k8s集群常用命令
- 概念
- k8s组件
- 对象
- workloads
- pods
- overview
- pod lifecycle
- init containers
- env向容器暴露pod信息
- controllers
- rs
- deployments
- daemonset
- StatefulSet
- service
- ingress
- volumes及configmap
- pv和pvc
- serviceaccount及认证
- dashboard及分级授权
- flannel&calico
- 调度器,预选策略及优先函数
- 资源指标API及自定义指标API
- helm
- k8s最佳实践
- 配置kubelet
- 简单命令定位问题
- k8s中日志收集-1
- k8s中日志收集-2
- lxcfs
- v1.24以后镜像问题
- 单控制节点集群v1.24以后适用
- 单控制节点集群v1.24前适用
- K8s.1.11.x阿里云安装HA版
- 国内k8s安装指定版本
- 发布及回滚
- 检查yaml文件格式
- pod分配到指定节点
- k8s跨集群访问
- 在docker中查看对应k8s容器日志
- cert-manager
- 问题定位技巧:容器内抓包
- 为容器设置启动时要执行的命令及其入参
- deploy.yaml文件实例
- kube/config
- 系统守护进程预留资源
- k8s集群证书pki过期处理
- pod跑java时内存的运用
- 从外部访问k8s中的pod
- HPA实战
- Docker
- Docker常用命令
- 基本概念
- 镜像
- 容器
- 仓库
- 安装 Docker
- Ubuntu
- Centos
- 镜像加速器
- 使用镜像
- 获取镜像
- 使用 Dockerfile 定制镜像
- Dockerfile 指令详解
- COPY 复制文件
- CMD 容器启动命令
- ENTRYPOINT 入口点
- ENV
- 其他命令
- 参考文档
- Alpine制作JDK8镜像
- Dockerfile示例
- 访问仓库
- nexus
- 最佳实践
- 镜像删除
- 清理docker磁盘空间
- docker容器日志管理
- 镜像基础上构建镜像
- git
- 公钥私钥免登
- 常用命令
- git pull
- git升级
- jenkins
- jenkins使用git
- 设置构建作业
- General
- Source Code Management
- Build Traggers
- Build Environment
- Build
- Post-build Actions
- 高级构建
- 参数化构建作业
- prometheus
- 监控原则
- 第一章 采集数据
- HPA
- meterics-server
- custom metrics
- kube-state-metrics
- node-exporter
- 第二章 prometheus
- prometheus概述
- prometheus基本架构
- prometheus安装
- prometheus的配置和服务发现
- scrape_configs
- kubernetes_sd_config
- relabel_config
- relabel_config例子
- 服务发现配置
- alertmanager_config
- alerting
- configuration
- route
- receivers
- inhibits_rules
- 第三章 展示与告警
- 第四章 PromQL
- rate,irate和delta的区别
- prometheus-operator
- maven
- maven命令
- maven仓库配置
- openstack
- 网络基础
- 计算机网络原理
- 一个URL请求的过程
- 2.记录
- 3.数据链路层
- 4.网络层
- 网络常用命令
- 命令
- iptables
- nc
- ipset
- mtr
- ss
- lsof
- ip
- 抓包
- tcpdump
- 网络排错与观察
- netstat
- traceroute
- dig与nslookup
- 计算机网络协议
- 负载均衡总结性说明
- NAT
- Tinc
- ubuntu
- ubuntu-var-log-下各个日志文件
- apt和dpkg
- systemctl详解
- 关闭系统更新,有些更新可能影响运行的程序
- ubuntu常用命令
- 基础工具journalctl命令
- za
- 恢复阿里云物理备份
- 域名证书申请和更换
- 正则表达式常用
- 服务器上排查问题得头5分钟
- windows
- winserver关闭事件跟踪程序
- windows常用命令
- win10企业LTSC版激活
- windows通过网卡只开80端口
- debug-tools
- win10-1903及以上版本Realtek高清晰音频管理器
- 彻底解决WPS Office Expansion tool弹出问题
- services延迟启动时间修改
- windows服务器定时重启
- windows sc命令
- 防火墙概述
- iptables
- 简单说明
- 例子
- 项目一
- DevOps简介
- 项目介绍
- 高并发内核优化
- gitlab
- gitlab社区和企业版本区别
- gitlab社区版安装
- gitlab指定版本安装
- gitlab安全设置
- gitlab的备份和恢复
- gitlab容器化安装
- jenkins
- jenkins安装
- ubuntu 16.04 install jenkins
- ubuntu 20.04 install jenkins
- jenkins使用git
- jenkins配置第一个项目
- jenkins发布及制作jar镜像
- jenkins安全策略
- gocd
- gocd安装
- k8s中gocd的server和agent模板
- gocd配置第一个项目
- 脚本
- gocd+ldap
- nexus
- 安装和配置
- freeipa
- 介绍
- 安装
- freeipa集成ocserv
- VPN
- 原理
- vpn部署ocserv
- k8s
- k8s高可用集群
- DNSmasq
- SNIproxy
- Tinc
- prometheus
- 简介
- helm安装prometheus
- 采集数据概览
- 采集数据node-exporter
- 采集数据kube-state-metrics
- 采集数据cadvisor和apiservers
- 指标汇总展示
- 监控
- nginx+lua+waf
- 项目二
- 简介
- nacos
- 简介
- nacos配置管理功能
- tengine
- java
- java参数说明及优化
- github快速访问
- amd和arm区别
- AWS
- 负载均衡ALB
