多应用+插件架构,代码干净,二开方便,首家独创一键云编译技术,文档视频完善,免费商用码云13.8K 广告
1、查看主机的GPU类型 $ lspci ... 3d:00.0 3D controller: NVIDIA Corporation GV100GL [Tesla V100 PCIe 32GB] (rev a1) 3e:00.0 3D controller: NVIDIA Corporation GV100GL [Tesla V100 PCIe 32GB] (rev a1) ... nvidia的GPU常用命令: ``` nvidia-smi -L # 查看所有的GPU nvidia-smi -i 0 # 查看0号GPU的信息 ``` 2、安装与确定GPU驱动 这个地方说安装驱动前必须要安装对应的kernel-header和kernel-devel https://docs.nvidia.com/cuda/cuda-installation-guide-linux/index.html#verify-kernel-packages https://blog.csdn.net/HaixWang/article/details/90408538 https://bbs.huaweicloud.com/blogs/156488 ``` $ sudo sh NVIDIA-Linux-x86_64-440.64.00.run $ nvidia-smi ``` 根据GPU的类型选择合适的驱动 https://www.nvidia.com/Download/Find.aspx 3、安装CUDA CUDA版本对驱动版本的要求:https://docs.nvidia.com/deploy/cuda-compatibility/index.html tesla v100安装9.2的cuda:https://www.ibm.com/support/knowledgecenter/en/SSC5ZE/com.ibm.vi.doc/config/t_inst_nvidia_gpu_pkg_v100_power.html 目前发现:10.2的cuda绑定了440.33的驱动,安装10.2的cuda会报错,除非先卸载驱动 cuda-9.2:https://developer.nvidia.com/cuda-92-download-archive 5、安装nvidia-docker-2.0 * 安装docker-ce * 安装nvidia-docker-2.0 https://github.com/NVIDIA/nvidia-docker -》https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/install-guide.html#docker * 设置docker-ce的默认runtime为nvidia-runtime https://github.com/NVIDIA/k8s-device-plugin#preparing-your-gpu-nodes 5、安装k8s集群 6、安装nvidia的设备驱动 https://kubernetes.io/zh/docs/tasks/manage-gpus/scheduling-gpus/#deploying-nvidia-gpu-device-plugin 7、运行一个GPU用例 run tensor-flow in kuberntes:https://www.cnblogs.com/breezey/p/11801122.html run a adder program in tensor-flow: https://blog.csdn.net/chenKFKevin/article/details/88222017 cuda-vector-add:https://kubernetes.io/zh/docs/tasks/manage-gpus/scheduling-gpus/ 8、GPU调度的原型设计与评审 ### 在147主机上使用内核4.19进行安装 0、安装kernel-4.19.12 kernel-devel-4.19.12 kernel-headers-4.19.12 1、安装nvidia驱动 安装驱动时依赖于epel源中的dkms,所以需要先配置好epel源 1.2 安装gcc:sudo yum -y install gcc 1.3 安装驱动:sudo sh NVIDIA-Linux-x86_64-440.64.00.run 目前问题:nvidia驱动安装不成功 怀疑:驱动程序要求GCC的版本要和编译内核4.19所使用的GCC版本一致 2、安装docker 3、安装nvidia-docker-2 4、安装k8s集群 5、安装nvidia的设备驱动 6、运行GPU用例