自建gpu服务器(组装gpu服务器)

昨天实验室需要配置重新配置一下GPU服务器,想起自从本科之后就没有配过GPU。

感谢我的同门,带我跨过了这个坑!

本科的时候和师兄同门们一起配过一张1080Ti,当时我记得是在Ubuntu 16.04的操作系统下的。但由于种种原因,估计本科的GPU现在已经在实验室机房吃灰。而且我记得当时是需要N卡驱动+CUDA+cudnn的,过程极其繁琐!需要自己去找版本对应关系!

但这次配GPU让我仿佛打开了新世界!正文开始:

一、显卡驱动

首先,你需要先查看一下系统的版本信息,Ubuntu的命令是

uname -a

接下来,检查是否有显卡驱动,方法是输入下面命令,看看是否出现GPU状态界面:

nvidia-smi

如果装好了,就不需要管他,如果驱动不正确或者已经损坏,可以通过下面的命令进行卸载:

#卸载nvidia sudo apt-get autoremove --purge nvidia-* sudo reboot #如果没成功 sudo apt-get --purge remove nvidia* sudo apt-get --purge remove "*nvidia*" sudo apt-get --purge remove "*cublas*" "cuda*" sudo apt autoremove sudo reboot

然后,刷新我认知的东西来了——自动化安装显卡驱动,我愿称之为Automatic Adptive Installation!!

#自动化安装显卡驱动 ubuntu-drivers devices sudo ubuntu-drivers autoinstall sudo reboot

重启之后,如无意外,就能看到GPU状态界面,如有意外,额,那就百度一下,你就知道!

二、CUDA Tookit

如果cuda版本不对可以通过下面命令卸载:

#卸载cuda sudo apt-get remove cuda sudo apt autoremove sudo apt-get remove cuda* #然后将终端运行目录切换到/usr/local/(这个是cuda的默认安装路径)下 cd /usr/local/ dir#应该会看到一个"cuda"或者“cuda-xxx”文件夹,再或者两者都有 sudo rm -r cuda-10.0

然后接下来安装CUDA Tookit(准确来说),登陆到如下网站,选择合适的系统架构,选择network安装,只要按顺序执行下面的命令即可完成!

https://developer.nvidia.com/cuda-downloads

Trick:最后一条命令如果无法执行成功,安装aptitude进行运行

sudo apt install aptitude sudo aptitude install cuda-* 或者sudo aptitude install cuda

大坑:如果nvcc无法使用,不要用命令行提示的apt install的方式安装nvcc,nvcc其实是在cuda/bin目录里面的!如果使用apt-install的方式安装nvcc,那么它不仅会下载nvcc,而且会重新下载对应的Cuda Tookit,就会覆盖之前的安装导致包的不对应!!!!!!!

三、环境变量

接下来就是把cuda的路径加入到环境变量里面了,一般都在/usr/local/cuda/,这个就是我的cuda目录,如果是不同的系统和路径,可以对着进行更换!

#全局模式 vim /etc/profile export PATH=/usr/local/cuda/bin:$PATH export LD_LIBRARY_PATH=/usr/local/cuda/lib64$LD_LIBRARY_PATH export CUDA_HOME=/usr/local/cuda source /etc/profile #个人模式:如果个别人需要使用其他cuda版本 vim ~/.bashrc ver=11.3#这个版本号需要自己更改 export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-$ver/lib export PATH=$PATH:/usr/local/cuda-$ver/bin export CUDA_HOME=$CUDA_HOME:/usr/local/cuda-$ver source ~/.bashrc

这时候已经可以正常使用nvcc命令了!

夹带知识点,如有需要可以通过soft link方式将/usr/local/cuda指向需要的CUDA Tookit版本:

sudo gedit ~/.zshrc # add cuda export CUDA_HOME=/usr/local/cuda export PATH=$PATH:/usr/local/cuda/bin export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH # 修改完,保存激活 source ~/.zshrc # 查看当前 cuda 版本 nvcc --version # 删除之前创建的软链接 rm -rf /usr/local/cuda # 建立新的软链接, 将 cuda10.1 连接到 默认cuda上 sudo ln -s /usr/local/cuda-10.1 /usr/local/cuda

四、安装深度学习框架

后面如果还遇到坑再补充吧!

五、参考文献

[1]CUDA配置 | nvcc-V 程序“nvcc”尚未安装。 您可以使用以下命令安装: sudo apt install nvidia-cuda-toolkit

[2]CUDA多版本切换(软链接)linux_索隆啊的博客-CSDN博客_cuda软连接

[3]ubuntu16.04 卸载nvidia驱动与cuda并升级驱动与cuda

[4]Linux(Ubuntu20.4)系统安装nvidia450驱动+pytorch1.8.1+cuda10.2+cudnn7.6.5教程详解_BingY_998的博客-CSDN博客_nvidia-driver-450