CentOS 7.9安装和卸载NVIDIA GPU驱动、CUDA Toolkit ,用gpu-burn进行压力测试

准备工作

安装CentOS Linux 7.9系统时,无论选择“最小化安装”或者“带GUI的服务器”,建议勾选开发工具,这样后面可省去安装gcc、kernel-devel、kernel-headers等依赖包的步骤。

本文以NVIDIA RTX A4000为例,其他型号GPU安装过程差不多。

 

查看内核版本和CentOS系统 版本:

uname -a
cat /etc/centos-release

查看服务器上是否有NVIDIA GPU:

lspci | grep NVIDIA
/sbin/lshw -c display

如果系统安装时没有选择安装开发工具,则安装一下gcc、kernel-devel等以及相关依赖包。如果服务器没有连接互联网,则可以设置本地yum源进行安装,参考https://www.hncldz.com/?p=651 设置本地源:

sudo yum install gcc kernel-devel-$(uname -r) kernel-headers-$(uname -r)

安装以下包及其依赖包(可选):

 sudo yum install libXmu-devel libXi-devel mesa-libGL-devel

以run文件形式安装Nvidia驱动和CUDA Toolkit

下载CUDA Toolkit

CUDA Toolkit安装包内包含了驱动程序,因此不用先安装驱动程序,打开CUDA Toolkit下载页面,https://developer.nvidia.com/cuda-downloads,选择系统版本和硬件平台,安装包类型这里以runfile为例:

下载页的安装说明

用wget命令下载:

wget https://developer.download.nvidia.com/compute/cuda/12.3.1/local_installers/cuda_12.3.1_545.23.08_linux.run

或者先在电脑上下载,用winscp、xftp等工具传送到服务器上。

禁用nouveau驱动

nouveau是一个第三方开源的Nvidia驱动,一般Linux安装的时候默认会安装这个驱动。 这个驱动会与Nvidia官方的驱动冲突,在安装Nvidia驱动和和CUDA之前应先禁用nouveau。

查看系统是否正在使用nouveau:

 lsmod | grep nouveau

如果有显示内容,如图:

则进行以下的步骤禁用nouveau:

新建一个配置文件:

sudo vim /etc/modprobe.d/blacklist-nouveau.conf

写入以下内容:

blacklist nouveau
options nouveau modeset=0

保存并退出
:wq
备份当前的内核镜像:

sudo mv /boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r).img.bak

建立新的内核镜像:

sudo dracut /boot/initramfs-$(uname -r).img $(uname -r)

重启服务器:

sudo reboot

重启后输入上面的命令验证:

lsmod | grep nouveau

停止X server

如果Centos 7正在运行桌面,则先使用以下命令停止X server的运行:

 sudo systemctl stop gdm

安装CUDA Toolkit

执行安装程序:

 sudo sh cuda_12.3.1_545.23.08_linux.run

接受许可协议:

选择Install开始安装:

如果检测到已经存在CUDA Toolkit,按提示选择升级或者取消安装:

安装成功的提示:

可以看到卸载的命令是nvidia-uninstall和/usr/local/cuda-12.3/bin/cuda-uninstall。

如果安装出错,查看安装日志/var/log/cuda-installer.log和/var/log/nvidia-installer.log,检查错误原因。

验证驱动

nvidia-smi

验证CUDA Toolkit

查看nvcc

cd /usr/local/cuda/bin/
./nvcc --version

安装CUDA Toolkit时默认安装了CUDA Demo Suite,包含了deviceQuery、bandwidthTest等工具,打开这个链接查看说明https://docs.nvidia.com/cuda/demo-suite/index.html#demos

下面使用deviceQuery查询设备

cd /usr/local/cuda-12.3/extras/demo_suite
./deviceQuery

 

带宽测试bandwidthTest:

./bandwidthTest --memory=pinned --mode=range --start=1024 --end=102400 --increment=1024 --dtoh

设置环境变量(可选)

vim ~/.bashrc

添加以下内容

export CUDA_HOME=/usr/local/cuda
export PATH=/usr/local/cuda/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH
export CUDA_ROOT=/usr/local/cuda

使修改生效:

 source ~/.bashrc

这样就可以使用nvcc 命令了

 

使用gpu-burn进行压力测试

下载安装gpu-burn

下载地址:https://github.com/wilicc/gpu-burn

 

上传到系统后开始安装:

unzip gpu-burn-master.zip
cd gpu-burn-master/
make

如果需要执行清理,重新编译,执行:

 make clean

 

执行压力测试

 ./gpu_burn

长时间压力测试:

./gpu_burn 43200

43200为时间,单位是秒,根据需要调整。

gpu_burn命令使用帮助:

./gpu_burn -h

卸载NVIDIA驱动、CUDA Toolkit

卸载驱动:

 sudo nvidia-uninstall

卸载CUDA:

sudo /usr/local/cuda/cuda-uninstaller

 

暂无评论

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇
下一篇