Nodo compute-gpu-3-1
Información del nodo
Memoria
768 GB
CPU
2 x AMD EPYC 9374F (64 cores totales)
GPU
8 x NVIDIA H100 NVL ( 94 GB memoria) con 12 NVLINK
Almacenamiento interno SSD
35 TB
Uso de GPU
Para usar el nodo se recomienda usar sbatch
#!/bin/bash
# save this file as gpu.slurm
# nodes request and configuration
#SBATCH --job-name=test_gpu # job Name
#SBATCH --gres=gpu:h100:1 # gpu type and quantity
#SBATCH --ntasks=1 # CPU quantity
#SBATCH --mem=10G # total of memory requested
#SBATCH --output=%u_%x_%j.out # output userName_jobName_jobId.out
#SBATCH --partition=compute-gpu-h100
#load cuda module # replace for all modules needed
module purge
module load gnu12 cuda/12.6
# Put your software in this line
nvcc hello.cu -o hello
./hello
sbatch gpu.slurm
Modo interactivo
# request 2 cpus, 1 gpu h100, 10 gb Ram for 2 hours
srun --partition=compute-gpu-h100 --nodes=1 --ntasks=2 --gres=gpu:h100:1 --mem=10g --time=2:00:00 --pty bash -i

Almacenamiento
El nodo cuenta con una capacidad de 35 TB de almacenamiento interno SSD
Cada usuario habilitado posee una carpeta en la ruta "/scratch/NombreUsuario" (sólo accesible dentro del nodo compute-gpu-3-1 y recomendado para ejecutar jobs)
Para manipular los archivos desde el nodo frontal (mansci2) el usuario puede acceder a la carpeta /nfs_ssd/nombreUsuario
Los usuarios no tienen limite en el uso de almacenamiento (Esto puede cambiar en cualquier momento)
El espacio sólo estará disponible mientras el usuario posea acceso al nodo. Posteriormente se eliminarán los datos asociados a este almacenamiento interno (Al momento de la aceptación de la solicitud se informa la fecha de caducidad del acceso)
Se recomienda limpiar su carpeta para mantener la mayor capacidad disponible de almacenamiento para todos los usuarios (borre lo que no utilizará)
No existen métodos de respaldo de la información almacenada, realice copias de seguridad de archivos importantes en lugares externos
Usuarios externos (Externos a la FIC)
Los usuarios externos (Su home se encuentra en /nfs_ssd/nombreUsuario) usan el almacenamiento ssd del servidor compute-gpu-3-1 durante el tiempo de vigencia de su cuenta posteriormente los datos serán eliminados.
Last updated