1、查看主机的GPU类型
$ lspci
...
3d:00.0 3D controller: NVIDIA Corporation GV100GL [Tesla V100 PCIe 32GB] (rev a1)
3e:00.0 3D controller: NVIDIA Corporation GV100GL [Tesla V100 PCIe 32GB] (rev a1)
...
nvidia的GPU常用命令:
```
nvidia-smi -L # 查看所有的GPU
nvidia-smi -i 0 # 查看0号GPU的信息
```
2、安装与确定GPU驱动
这个地方说安装驱动前必须要安装对应的kernel-header和kernel-devel
https://docs.nvidia.com/cuda/cuda-installation-guide-linux/index.html#verify-kernel-packages
https://blog.csdn.net/HaixWang/article/details/90408538
https://bbs.huaweicloud.com/blogs/156488
```
$ sudo sh NVIDIA-Linux-x86_64-440.64.00.run
$ nvidia-smi
```
根据GPU的类型选择合适的驱动
https://www.nvidia.com/Download/Find.aspx
3、安装CUDA
CUDA版本对驱动版本的要求:https://docs.nvidia.com/deploy/cuda-compatibility/index.html
tesla v100安装9.2的cuda:https://www.ibm.com/support/knowledgecenter/en/SSC5ZE/com.ibm.vi.doc/config/t_inst_nvidia_gpu_pkg_v100_power.html
目前发现:10.2的cuda绑定了440.33的驱动,安装10.2的cuda会报错,除非先卸载驱动
cuda-9.2:https://developer.nvidia.com/cuda-92-download-archive
5、安装nvidia-docker-2.0
* 安装docker-ce
* 安装nvidia-docker-2.0
https://github.com/NVIDIA/nvidia-docker -》https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/install-guide.html#docker
* 设置docker-ce的默认runtime为nvidia-runtime
https://github.com/NVIDIA/k8s-device-plugin#preparing-your-gpu-nodes
5、安装k8s集群
6、安装nvidia的设备驱动
https://kubernetes.io/zh/docs/tasks/manage-gpus/scheduling-gpus/#deploying-nvidia-gpu-device-plugin
7、运行一个GPU用例
run tensor-flow in kuberntes:https://www.cnblogs.com/breezey/p/11801122.html
run a adder program in tensor-flow: https://blog.csdn.net/chenKFKevin/article/details/88222017
cuda-vector-add:https://kubernetes.io/zh/docs/tasks/manage-gpus/scheduling-gpus/
8、GPU调度的原型设计与评审
### 在147主机上使用内核4.19进行安装
0、安装kernel-4.19.12 kernel-devel-4.19.12 kernel-headers-4.19.12
1、安装nvidia驱动
安装驱动时依赖于epel源中的dkms,所以需要先配置好epel源
1.2 安装gcc:sudo yum -y install gcc
1.3 安装驱动:sudo sh NVIDIA-Linux-x86_64-440.64.00.run
目前问题:nvidia驱动安装不成功
怀疑:驱动程序要求GCC的版本要和编译内核4.19所使用的GCC版本一致
2、安装docker
3、安装nvidia-docker-2
4、安装k8s集群
5、安装nvidia的设备驱动
6、运行GPU用例
- 常用命令
- 安装
- 安装Kubeadm
- 安装单Master集群
- 安装高可用集群(手动分发证书)
- 安装高可用集群(自动分发证书)
- 启动参数解析
- certificate-key
- ETCD相关参数
- Kubernetes端口汇总
- 安装IPv4-IPv6双栈集群
- 下载二进制文件
- 使用Kata容器
- 快速安装shell脚本
- 存储
- 实践
- Ceph-RBD实践
- CephFS实践
- 对象存储
- 阿里云CSI
- CSI
- 安全
- 认证与授权
- 认证
- 认证-实践
- 授权
- ServiceAccount
- NodeAuthorizor
- TLS bootstrapping
- Kubelet的认证
- 准入控制
- 准入控制示例
- Pod安全上下文
- Selinux-Seccomp-Capabilities
- 给容器配置安全上下文
- PodSecurityPolicy
- K8S-1.8手动开启认证与授权
- Helm
- Helm命令
- Chart
- 快速入门
- 内置对象
- 模板函数与管道
- 模板函数列表
- 流程控制
- Chart依赖
- Repository
- 开源的Chart包
- CRD
- CRD入门
- 工作负载
- Pod
- Pod的重启策略
- Container
- 探针
- 工作负载的状态
- 有状态服务
- 网络插件
- Multus
- Calico+Flannel
- 容器网络限速
- 自研网络插件
- 设计文档
- Cilium
- 安装Cilium
- Calico
- Calico-FAQ
- IPAM
- Whereabouts
- 控制平面与Pod网络分开
- 重新编译
- 编译kubeadm
- 编译kubeadm-1.23
- 资源预留
- 资源预留简介
- imagefs与nodefs
- 资源预留 vs 驱逐 vs OOM
- 负载均衡
- 灰度与蓝绿
- Ingress的TLS
- 多个NginxIngressController实例
- Service的会话亲和
- CNI实践
- CNI规范
- 使用cnitool模拟调用
- CNI快速入门
- 性能测试
- 性能测试简介
- 制作kubemark镜像
- 使用clusterloader2进行性能测试
- 编译clusterloader2二进制文件
- 搭建性能测试环境
- 运行density测试
- 运行load测试
- 参数调优
- Measurement
- TestMetrics
- EtcdMetrics
- SLOMeasurement
- PrometheusMeasurement
- APIResponsivenessPrometheus
- PodStartupLatency
- FAQ
- 调度
- 亲和性与反亲和性
- GPU
- HPA
- 命名规范
- 可信云认证
- 磁盘限速
- Virtual-kubelet
- VK思路整理
- Kubebuilder
- FAQ
- 阿里云日志服务SLS