Uso de GPUS

Descripción de GPUS disponibles

Documentación oficial rocm (AMD GPU): https://rocm.docs.amd.com/en/latest/

Documentación oficial cuda (NVIDIA GPU): https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/index.html

nodo
Particion
Modelo GPU Física
cantidad e identificador en slurm

compute-gpu-1-1

compute-gpu

1 x AMD MI210

1 x mi210

compute-gpu-2-8

compute-gpu

2 x NVIDIA A30

8 x a30mig

compute-gpu-2-9

compute-gpu

4 x NVIDIA A100

4 x a100

compute-gpu-3-1

compute-gpu-h100

8 x NVIDIA H100

8 x h100

Reserva de GPU en slurm

Asegúrese de indicar en su script sbatch o en srun el identificador y cantidad de gpus que usará además de indicar la partición a la que pertenece compute-gpu o compute-gpu-h100 de la siguiente forma:

#SBATCH --gres=gpu:identificador:cantidad #SBATCH --partition=compute-[gpu o gpu-h100]

myjobgpu.slurm
#!/bin/bash
## save this file as myjobgpu.slurm
## nodes request and configuration	
#SBATCH --job-name=mydemojob	        # job Name
#SBATCH --ntasks=1                      # Total number of tasks requested
#SBATCH --mem=5G                       # total of memory requested 
#SBATCH --time=01:30:00                 # Run time (hh:mm:ss) - 1.5 hours
#SBATCH --partition=compute-gpu        # Name of partition
#SBATCH --gres=gpu:a30mig:1     # GPU model an quantity, this case a30mig and 1 gpu

## output
#SBATCH --output=%u_%x_%j.out           # output  userName_jobName_jobId.out

# Put your software in this line
nvidia-smi

Uso de Cuda en GPU NVIDIA

module purge
module load gnu12 cuda/12.6

Uso de rocm en GPU AMD

module purge
module load rocm/6.3.3 gnu14 cmake

Singularity con GPUS

  • Realice la solicitud de reserva de gpu en slurm siempre

  • Se debe usar --nv (NVIDIA) o --rocm (AMD) para indicar que se usará una gpu con el contenedor

  • Los contenedores traen disponible todas las librerías necesarias para ejecutar cuda o rocm, por lo que no se debe usar modules

Uso de NVIDIA GPU

singularity run --nv  tensorflow_latest.sif myscript.py

Uso de AMD GPU

singularity run --rocm tensorflow_latest.sif myscript.py

Last updated