Linux下无root权限编译安装nccl2(30系列显卡)
2022-2-13
| 2023-11-11
0  |  阅读时长 0 分钟
type
status
date
slug
summary
tags
category
icon
password

遇到问题

使用PaddleOCR进行多卡训练的时候, 显示错误
推测错误是系统缺少nccl2导致的.

解决方法

  1. 下载与CUDA版本和linux系统版本符合的NCCL, URL(需要登录NVIDIA账号)
      • 查看cuda版本: nvidia-smi
      • 查看系统版本: lsb_release -a
      使用cuda 11.4, Ubuntu 18.04.6 LTS对应的 Local installer for Ubuntu 18.04
  1. 下载nccl的git项目
    1. 安装设置
      • j12表示使用12个核心,使用nproc查看总核心数,根据具体情况进行调整;
      • BUILDDIR表示编译后,一些文件的存储路径;默认是nccl/build;当然如果是root用户可以指定到/usr/local/ncc/
      • CUDA_HOME表示CUDA的目录,默认就是/usr/local/cuda,但是我这边不加这个,会报错,很奇怪;
      最后呢,编译完成的文件都在指定的BUILDDIR字段路径下,需要将其添加到环境变量;
      在打开的文件中,添加:
      保存后,执行:
      之后就能开始跑多卡训练了.
       
  • CUDA
  • GPU
  • 无法远程连接Linux服务器故障排查记录Notion + Next.js 搭建个人博客
    • Giscus
    目录