Uso de GPUS

Descripción de GPUS disponibles

Documentación oficial rocm (AMD GPU): https://rocm.docs.amd.com/en/latest/

Documentación oficial cuda (NVIDIA GPU): https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/index.html

nodo
Particion
Modelo GPU Física
cantidad e identificador en slurm

compute-gpu-1-1

compute-gpu

1 x AMD MI210

1 x mi210

compute-gpu-2-8

compute-gpu

2 x NVIDIA A30

8 x a30mig

compute-gpu-2-9

compute-gpu

4 x NVIDIA A100

4 x a100

compute-gpu-3-1

compute-gpu-h100

8 x NVIDIA H100

8 x h100

Reserva de GPU en slurm

Asegúrese de indicar en su script sbatch o en srun el identificador y cantidad de gpus que usará además de indicar la partición a la que pertenece

#SBATCH --gres=gpu:identificador:cantidad
#SBATCH --partition=compute-gpu

Uso de Cuda en GPU NVIDIA

module purge
module load gnu12 cuda/12.6

Uso de rocm en GPU AMD

module purge
module load rocm/6.3.3 gnu14 cmake

Singularity con GPUS

  • Realice la solicitud de reserva de gpu en slurm siempre

  • Se debe usar --nv (NVIDIA) o --rocm (AMD) para indicar que se usará una gpu con el contenedor

  • Los contenedores traen disponible todas las librerías necesarias para ejecutar cuda o rocm, por lo que no se debe usar modules

Uso de NVIDIA GPU

singularity run --nv  tensorflow_latest.sif myscript.py

Uso de AMD GPU

singularity run --rocm tensorflow_latest.sif myscript.py

Last updated