Utilisation de script Python avec GPU

3. Utilisation de script Python avec GPU#

Lorsque la durée de la phase d’apprentissage devient importante, il ne faut plus la faire à l’intérieur d’un notebook. Il faut l’exécuter hors du notebook à l’aide d’un script Python dans un terminal ou avec un système de batch (qui permet d’exécuter en tache de fond des programmes longs). On pourra consulter [Maurice, 2000] pour une introduction à Unix et aux commandes Unix.

Terminal: ligne de commande

Toutes les commandes suivantes doivent etre exécutées en ligne de commande dans un terminal Unix, que l’on ouvre dans l’interface JupyterLab. On se déplace ensuite dans le répertoire où se trouve le modèle d’IA à exécuter.

Pour l’exécution de script python, on peut (au choix):

l’exécuter dans une cellule du notebook en utilisant la commande %run:

%run mon_script.py

Le script (ici mon_script.py) est alors exécuté par le même interpréteur python que le notebook. On peut aussi passer des arguments au script, correspondant à la valeur de variables Python du notebook, en les préfixant avec un $.

l’exécuter avec un interpréteur python en interactif en ouvrant un terminal dans l’interface jupyterlab. Il faut cependant sélectionner le bon environnement (tensorflow ou torch) avec la commande source pour avoir le bon interpréteur python:

pour Tensorflow

source /var/lib/jupyterhub/venvs/tf/bin/activate

pour Torch

source /var/lib/jupyterhub/venvs/torch/bin/activate

utiliser un système de batch, si le programme dure longtemps (>10 minutes). Sur les serveurs de cours Jupyter/Nbgrader, un système de batch simplifié submit a été mise en place. Il utilise la commande submit qui permet de planifier l’exécution de taches sur le serveur. Cette commande est basée sur la commande Unix at [1]

Warning

De la même façon que pour les notebooks, il faut absolument au début du script utiliser la bibliothèque de configuration validation.libIA_GPU avec une des 2 fonctions:

Init_tensorflowGPU(memGPU, numGPU) pour TensorFlow
Init_torchGPU(numthread,numGPU) pour PyTorch

pour configuter l’utilisation du GPU comme dans l’exemple Script TensorFlow

3.1. Commande submit#

Cette commande permet d’exécuter un script python en tache de fond sur les serveurs Jupyter/nbgrader. La commande suivante:

   submit -h

affiche l’aide avec les options de la commande submit:

  syntaxe de submit pour la gestion de script bash en tache de fond (bg)
  submit script [time]: soumet un script bash pour l'executer à une heure précise
     avec time = hh:mm, now + 2 minutes/hours/days, .. (defaut now)
  submit list [all]   : affiche les scripts soumis (de tous les users si all)
  submit list run     : affiche les scripts qui s'executent
  submit purge        : purge tous les scripts soumis de l'utilisateur
  submit kill script  : arrete le script en cours d'execution
  submit [-h] ou help : aide

3.2. Fichier script bash#

Pour utiliser cette commande, il faut écrire un script bash qui permet de lancer un script python dans le bon environnement avec les bonnes librairies.

script shell

Sous Unix, un script shell (shell=interpéteur de commande) permet d’automatiser une série d’opérations. Il se présente sous la forme d’un fichier contenant une ou plusieurs commandes qui seront exécutées de manière séquentielle. Le shell le plus courant sous Linux est bash. Un script bash est donc un fichier (avec un extension .sh) qui contient une serie de commandes

3.2.1. script bash pour TensorFlow#

Pour exécuter le programme Python TensorFlowLSTM.py avec la bibliothèque TensorFlow, on écrit dans un fichier bash, par exemple batchtf.sh les commandes suivantes:

#! /usr/bin/env bash
source /var/lib/jupyterhub/venvs/tf/bin/activate
python3 TensorFlowLSTM.py >> batchtf.log 2>&1

La première ligne indique que le fichier est un script bash. La seconde ligne configure un environnement python avec la bibliothèque tensorflow. La troisième ligne exécute le script python en stockant les sorties dans le fichier batchtf.log.

Le fichier python TensorFlowLSTM.py utilisé est donné sur le lien suivant:

TensorFlowLSTM.py

3.2.2. script bash pour pyTorch#

Pour exécuter le programme Python PyTorchLSTM.py avec la bibliothèque pytorch, on écrit dans un fichier bash, par exemple batchtorch.sh les commandes suivantes:

#! /usr/bin/env bash
source /var/lib/jupyterhub/venvs/torch/bin/activate
python3 PyTorchLSTM.py >> batchtorch.log 2>&1

La première ligne indique que le fichier est un script bash. La seconde ligne configure un environnement python avec la bibliothèque pytorch. La troisième ligne exécute le script python en stockant les sorties dans le fichier batchtorch.log

3.2.3. conversion notebook en script python#

On peut facilement convertir un notebook en script python.

On peut utiliser 2 méthodes:

méthode 1: on ouvre le notebook dans l’interface jupyterlab, puis on séléctionne Fichier -> Save and Export Notebook as puis Script exécutable. Le fichier python est ensuite téléchargé sur l’ordinateur. Il faut ensuite le retransférer sur le serveur de cours.
méthode 2: on ouvre un terminal, et on exécute la commande suivante:

    jupyter nbconvert --to script  notebook.ipynb

3.3. Soumission d’un job#

Pour lancer le programme; il suffit d’exécuter la commande submit avec le nom du script et l’heure d’exécution. La commande suivante:

submit batchtf.sh now

soumet le script batchtf.sh qui s’exécute immédiatement (heure = now). Pour exécuter le script ultérieurement, on peut spécifier une heure de démarrage. La commande

submit batchtf now + 1 hour

exécutera le script dans 1 heure (on peut aussi spécifier une heure exacte HH:MM ).

Pour vérifier l’état d’un job, on écrit:

submit list

Warning

ATTENTION: un utilisateur ne peut soumettre qu’un seul job à la fois ! Pour soumettre un nouveau job, il faut attendre la fin du job précédent, où l’arréter (submit purge ou kill).

Pour partager équitablement les ressources, il faut privilégier une exécution décalée. On peut avoir la liste de tous les jobs soumis sur le serveur avec leur date de démarrage en tapant:

submit list all

On choisit alors une heure de démarrage avec le moins de jobs.