Article
Cluster IO : bien débuter
Quelques commandes pour bien débuter :
| Commande | À quoi ça sert | Exemple minimal | Erreur fréquente |
| ssh login.cluster |
Se connecter au cluster | ssh user@io-login.meso.umontpellier.fr |
Lancer des calculs directement sur sur “login node” |
| module avail | Voir logiciels disponibles | module avail | Oublier de charger des modules |
| module load python | Charger logiciel | module load gcc/4.9.3 | Mauvaise version chargée |
| module list | Voir modules actifs | module list | Conflits de modules |
| module purge | Détruit les configurations préalablement chargées | module purge | Oublier de recharger des modules essentiels |
| sbatch job.sh | Soumettre job batch | sbatch run.sh | Mauvais chemins de fichiers |
| squeue -u $USER | Voir ses jobs | squeue -u $USER | Regarder un mauvais user |
| scancel JOBID | Annuler job | scancel 12345 | Mauvais JOBID |
| sinfo | Voir partitions | sinfo | Mauvaise partition choisie |
| sacct -j JOBID | Stats job terminé | sacct -j 12345 | Attendre avant fin job |
| seff JOBID | Efficacité job | seff 12345 | |
| top | Monitoring CPU/RAM | top | Sur login node uniquement |
| htop | Monitoring interactif | htop | |
| df -h | Espace disque | df -h | Remplir l’espace home |
| du -sh | Taille fichiers | du -sh | Lancer dans de gros dossiers |
| rsync -av | Copier fichiers | rsync -av chemin_dossier_source chemin_scratch/ | Copier avec cp lent |
| find . -name “*.out” | Trouver fichiers | find . -name “*.log” | Recherche depuis / |
| tail -f slurm.out | Suivre sortie job | tail -f slurm-123.out | Mauvais fichier de sortie |
| time ./prog | Temps exécution d’une commande | time python script.py | Confondre les temps CPU/real |