Quelques commandes pour bien débuter :

Commande À quoi ça sert Exemple minimal Erreur fréquente
ssh
login.cluster
Se connecter au cluster ssh
user@io-login.meso.umontpellier.fr
Lancer des calculs directement sur sur “login node”
module avail Voir logiciels disponibles module avail Oublier de charger des modules
module load python Charger logiciel module load gcc/4.9.3 Mauvaise version chargée
module list Voir modules actifs module list Conflits de modules
module purge Détruit les configurations préalablement chargées module purge Oublier de recharger des modules essentiels
sbatch job.sh Soumettre job batch sbatch run.sh Mauvais chemins de fichiers
squeue -u $USER Voir ses jobs squeue -u $USER Regarder un mauvais user
scancel JOBID Annuler job scancel 12345 Mauvais JOBID
sinfo Voir partitions sinfo Mauvaise partition choisie
sacct -j JOBID Stats job terminé sacct -j 12345 Attendre avant fin job
seff JOBID Efficacité job seff 12345
top Monitoring CPU/RAM top Sur login node uniquement
htop Monitoring interactif htop
df -h Espace disque df -h Remplir l’espace home
du -sh Taille fichiers du -sh Lancer dans de gros dossiers
rsync -av Copier fichiers rsync -av chemin_dossier_source chemin_scratch/ Copier avec cp lent
find . -name “*.out” Trouver fichiers find . -name “*.log” Recherche depuis /
tail -f slurm.out Suivre sortie job tail -f slurm-123.out Mauvais fichier de sortie
time ./prog Temps exécution d’une commande time python script.py Confondre les temps CPU/real