Base du traitement de données

5.1. Base du traitement de données#

Marc BUFFAT, dpt mécanique, Université Lyon 1

%matplotlib inline
import numpy as np
import matplotlib.pyplot as plt
from validation.valide_markdown import test_markdown
# utilisation de taille de caractère plus grande
plt.rc('font', family='serif', size='16')
# generation des données
_N = 25
_X = np.linspace(0,2,_N)
_Y = 2*_X +  0.5*(1-2*np.random.rand(_N)) - 1.0
np.savetxt("data/data.txt",np.array([_X,_Y]).transpose())

5.1.1. Objectifs#

Apprendre à lire des données dans un fichier, les analyser et les traiter pour en déduire des prédictions.

La démarche consiste en

lecture des données
analyse des données
détermination d’une loi simple
prédiction à partir de cette loi
analyse des résultats

Application en TP

— Problème du réchauffement climatique.

5.1.2. Lecture des données#

notion de fichier

fichier = espace sur disque (ou sur un serveur) permettant de stocker de l’information
nom du fichier fichier
dossier ou se trouve le fichier
type de fichier (texte, binaire, ..)
format des données (formats ouverts (csv) ou propriétaire (excel))

lecture des données stockées dans un fichier

il faut connaître comment sont stockées les données (format standard)

si stockage simple par colonne, utilisation de la fonction numpy loadtxt

affichage des données brutes

5.1.2.1. Application#

On veut traiter et analyser des données donnant la position x(t) mesurée (en m.) en fonction du temps t (en s.)

les données sont stockées dans un fichier data.txt dans le répertoire data

# affichage des données
!head "data/data.txt"

000000000000000000e+00 -9.979070527835929294e-01
333333333333332871e-02 -6.381175447746137985e-01
666666666666666574e-01 -7.792354212584258200e-01
500000000000000000e-01 -1.140828203144030883e-01
333333333333333148e-01 -1.866717643038229291e-01
166666666666666297e-01 -2.999884192296937702e-01
000000000000000000e-01 -3.207686628175628885e-01
833333333333332593e-01 6.179214317432526471e-01
666666666666666297e-01 8.280234167432860559e-01
500000000000000000e-01 3.559944147669646952e-01

# lecture des données et tracer basique
### BEGIN SOLUTION
A = np.loadtxt("data/data.txt")
plt.plot(A[:,0],A[:,1])
### END SOLUTION

[<matplotlib.lines.Line2D at 0x7f8ebecc8a90>]

../../../../_images/93bb798f461582865da8629decb06d3f7443842b051e6d14595b8fc55d23d48d.png

# lecture et tracer des données améliorées
### BEGIN SOLUTION
T,X = np.loadtxt("data/data.txt",unpack=True)
plt.figure(figsize=(10,6))
plt.plot(T,X,'o')
plt.xlabel("t [en s.]")
plt.ylabel(" x [en m]")
plt.title("Position en fonction du temps");
### END SOLUTION

../../../../_images/584aa52b7525ef4746caa9e00a2a4a5345f45efdd33fdea2b7904d094527f37e.png

5.1.3. Analyse des données#

Pour analyser les données, on veut calculer

la valeur moyenne, le min et le max

Soit X un tableau de n valeurs, on note

\[ Xm = \frac{1}{n} \sum_{i=1}^n X_i \;,\; Xmin = \min(X_i) \;,\; Xmax = \max(X_i)\]

On va écrire une fonction Analyse(Tab) qui calcule la moyenne, le min et le max d’un tableau numpy Tab passé en argument.

5.1.3.1. Algorithme#

définition algorithme d’analyse

 Algorithme Analyse(Tab)
   """ renvoie la moyenne, le min et le max de Tab"""
   n = taille(X)
   Tmin  =  Tab[0]
   Tmax  =  Tab[0]
   Tmean = 0.
   pour chaque valeur val du tableau Tab
     Tmean = Tmean + val
     si Tmax>val alors Tmax=val
     si Tmin<val alors Tmin=val
   fin pour
   Tmean = Tmean / n
   retour Tmean, Tmin, Tmax  

5.1.3.2. Programmation de fonction#

C’est une bonne pratique de programmation d” éviter de répéter les instructions et d’écrire du code qui soit réutilisable, non seulement parce qu’il conduit à moins de temps de développement, mais aussi parce qu’il réduit les erreurs. Si vous devez faire le même calcul plusieurs fois, il vaut mieux l’encapsuler dans une fonction.

Rappelez-vous un des concepts clé de la programmation d’une fonction:

Une fonction est une collection compacte de code qui exécute une action sur ses arguments ou données et qui renvoie le résultat.
Le calcul à l’intérieur de la fonction est un calcul dans une boite autonome et qui ne doit pas dépendre des instructions ou des variables définies à l’extérieur de la fonction
Dans une fonction, il est conseillé d’utiliser des noms de variables différents des variables définies à l’extérieur

Une fois défini, vous pouvez appeler une fonction autant de fois que vous le souhaitez. Lorsque nous appelons une fonction, nous exécutons tout le code à l’intérieur de la fonction. Le résultat de l’exécution dépend de la définition de la fonction et des valeurs qui y sont passées en arguments. Les fonctions renvoient en général les valeurs calculées à la fin de la fonction.

La syntaxe pour définir ses propres fonctions est la suivante:

def nom_fonction (arg_1, arg_2, ...):
    '''
    docstring: description de la fonction
    '''
    <corps de la fonction>
    return valeur

Le docstring d’une fonction est un message du programmeur documentant ce qu’il a construit. Les docstrings doivent être descriptifs et concis. Ils sont importants car ils expliquent (ou rappellent) l’utilisation prévue de la fonction aux utilisateurs. Vous pouvez accéder ultérieurement à la docstring d’une fonction en utilisant la fonction help () et en passant le nom de la fonction. Si vous êtes dans un notebook, vous pouvez également ajouter un point d’interrogation ? avant le nom de la fonction et exécuter la cellule pour afficher les informations d’une fonction.

5.1.3.3. Programmation de l’algorithme d’Analyse#

écriture d’une fonction Python qui implémente l’algorithme précédent et renvoie la moyenne, le min et le max du tableau Tab passé en argument
```
def Analyse(Tab):
```
validation:

on choisit la fonction linaire x entre a et b $\leadsto$ min=a max=b mean =(a+b)/2
```
Y = np.linspace(debut,fin,11)
Analyse(Y)  -> (debut+fin)/2, debut, fin
```

### BEGIN SOLUTION
def Analyse(Tab):
    n = Tab.size
    Tmin =  Tab[0]
    Tmax =  Tab[0]
    Tmean = 0.
    for val in Tab:
        Tmean += val
        if Tmin>val : Tmin=val
        if Tmax<val : Tmax=val
    return Tmean/n, Tmin, Tmax
# verification
print("resultat 2,1,3: ",Analyse(np.linspace(1.,3.,11)))
### END SOLUTION

resultat 2,1,3:  (2.0, 1.0, 3.0)

# application pour l'analyse des données
### BEGIN SOLUTION
tmean, tmin, tmax = Analyse(T)
print("données en  temps: moyenne={}s \t min={}s \t max={}s ".format(tmean, tmin, tmax))
xmean, xmin, xmax = Analyse(X)
print("données en espace: moyenne={:.2f}m \t min={:.2f}m \t max={:.2f}m ".format(xmean, xmin, xmax))
### END SOLUTION

données en  temps: moyenne=1.0s 	 min=0.0s 	 max=2.0s 
données en espace: moyenne=0.98m 	 min=-1.00m 	 max=2.66m 

5.1.4. Détermination d’une loi simple: lissage des données#

Afin d’avoir une idée du comportement général des données, nous allons chercher une courbe lisse $y=f(x)$ qui correspond (approximativement) aux points de mesure. Nous recherchons une courbe simple (par exemple, un polynôme de degré 1) qui permet de lisser le bruit toujours présent dans les données expérimentales.

5.1.4.1. Régression par moindres carrés#

Soit $f (x)$ la fonction que nous voulons ajuster aux $n+1$ points expérimentaux: $ (x_i, y_i) $, $ i = 0, 1, ..., n $:

Nous devons choisir la forme de $ f (x) $ à priori, en inspectant les données expérimentales et en utilisant notre connaissance du phénomène étudié. La forme de $ f (x) $ la plus simple est un polynôme de degré 1: $$ f(x) = a_0 + a_1 x $$ qui dépend de 2 paramètres $a_0$ et $a_1$. On va ensuite calculer ces paramètres $a_0$ et $a_1$ pour obtenir la « meilleure approximation » par rapport aux données.

5.1.4.2. un peu de thèorie#

Lorsque les coordonnées $y$ des points de données sont bruitées, il est courant d’utiliser un lissage par moindres carrés, qui consiste à calculer l’erreur quadratique $Err$ entre la fonction de lissage $f$ et les points de mesure:

(5.1)#\[\begin{equation} Err(a_0,a_1) = \sum_{i = 0}^ {n} [y_i - f (x_i)] ^ 2 \end{equation}\]

On détermine ensuite les paramétres de la fonction de lissage de façon à minimiser cette erreur. La valeur des paramètres est obtenue en écrivant la condition de minimisation par rapport aux paramètres:

(5.2)#\[\begin{equation} \frac{\partial{Err}}{\partial{a_0}} = 0 \mbox{ et } \frac{\partial{Err}}{\partial{a_1}} = 0 \end{equation}\]

qui traduisent la condition de minimisation d’annulation du gradient $\vec{\nabla} Err = \vec{0}$

Les termes $ r_i = y_i - f (x_i) $ sont appelés résidus: ils donnent l’écart en $ x_i $ entre les données et la fonction de lissage. L’expression à minimiser est donc la somme des carrés des résidus.

5.1.4.3. Régression linéaire#

La fonction de lissage la plus simple est la régression linéaire, qui ajuste une ligne droite aux données. Dans ce cas,

(5.3)#\[\begin{equation} f (x) = a_0 + a_1x \end{equation}\]

La fonction à minimiser (somme des distances au carré) s’écrit:

(5.4)#\[\begin{equation} Err(a_0, a_1) = \sum_{i = 0}^{n} [y_i - f (x_i)]^2 =\sum_{i = 0}^ {n} (y_i - a_0 - a_1x_i)^2 \end{equation}\]

least squares

Les équations de minimisation de $Err$ deviennent:

(5.5)#\[\begin{equation} \frac{\partial{Err}}{\partial{a_0}} = \sum_{i = 0}^ {n} -2 (y_i - a_0 - a_1x_i) = 2 \left[a_0 (n + 1) + a_1 \sum_{i = 0}^{n} x_i -\sum_ {i = 0}^{n} y_i \right] = 0 \label{eq2} \end{equation}\]

et

(5.6)#\[\begin{equation} \frac{\partial{Err}}{\partial{a_1}} = \sum_{i = 0}^{n} -2 (y_i - a_0 - a_1x_i) x_i = 2 \left[a_0 \sum_{i = 0 }^{n} x_i + a_1 \sum_{i = 0}^{n} x_ {i}^ 2 - \sum_{i = 0}^{n} x_iy_i \right] = 0 \label{eq3} \end{equation}\]

Divisons les deux équations par $ 2 (n + 1) $ et réorganisons les termes.

Réorganisation de ces équations:

(5.7)#\[\begin{eqnarray} 2 \left[a_0 (n + 1) + a_1 \sum_{i = 0}^{n} x_i - \sum_{i = 0}^{n} y_i \right] & = 0 \nonumber \\ a_0 \frac{(n + 1)} {n + 1} + a_1 \frac {\sum_{i = 0}^{n} x_i} {n + 1} - \frac{\sum_{i = 0}^{n} y_i} {n + 1} & = 0 \\ \end{eqnarray}\]

soit $$ a_0 = \bar {y} - a_1 \bar {x} \label{eq4} $$

où $\bar{x} = \frac{\sum_{i = 0}^{n} x_i}{n + 1}$ et $\bar{y} = \frac{\sum_{i = 0}^{ n} y_i} {n + 1}$ sont respectivement la moyenne des $\left( x_i \right)$ et des $\left( y_i \right)$

Réorganisation de ces équations:

(5.8)#\[\begin{eqnarray} 2 \left[a_0 \sum_{i = 0}^{n} x_i + a_1 \sum_{i = 0}^{n} x_ {i}^ 2 - \sum_{i = 0}^{n} x_iy_i \right] & = 0 \\ a_0 \sum_{i = 0}^{n} x_i + a_1 \sum_{i = 0}^ {n} x_ {i}^ 2 - \sum_{i = 0}^{n} x_iy_i & = 0 \label{eq5}\\ \end{eqnarray}\]

Maintenant, si nous remplaçons $a_0$ de la première équation dans la seconde et réorganisons les termes:

\[\begin{eqnarray*} (\bar{y} - a_1 \bar{x}) \sum_{i = 0}^{n} x_i + a_1 \sum_{i = 0}^ {n} x_{i}^2 - \sum_{i = 0}^{n} x_iy_i & = 0 \\ \end{eqnarray*}\]

En remplaçant les définitions des valeurs moyennes dans l’équation,

\[\begin{eqnarray*} \left[\frac{1}{n + 1} \sum_{i = 0}^{n} y_i - \frac{a_1}{n + 1}\sum_{i = 0}^{n} x_i \right] \sum_{i = 0}^{n} x_i + a_1\sum_{i = 0}^{n}x_ {i}^ 2 - \sum_{i = 0}^{n} x_iy_i & = 0 \\ \frac{1}{n + 1} \sum_{i = 0}^{n} y_i \sum_{i = 0}^{n} x_i -\frac{a_1} {n + 1} \sum_{i = 0}^{n} x_i \sum_{i = 0}^{n} x_i + a_1 \sum_{i = 0}^{n} x_{i} ^ 2 - \sum_{i = 0}^{n} x_iy_i & = 0 \\ \end{eqnarray*}\]

En remplaçant $\frac{\sum_{i = 0}^{n} x_i}{n + 1} = \bar{x}$,

\[\begin{eqnarray*} \sum_{i = 0}^{n} y_i \bar{x} - a_1 \sum_{i = 0}^{n} x_i \bar{x} + a_1 \sum_{i = 0}^{n} x_{i}^2 - \sum_{i = 0}^{n} x_iy_i = 0 \end{eqnarray*}\]

en mettant les termes en $ a_1 $ à gauche:

\[\begin{eqnarray*} a_1 \left[\sum_{i = 0}^{n} x_ {i}^ 2 -\sum_{i = 0}^{n} x_i \bar{x} \right] & = \sum_{i = 0 }^{n} x_iy_i -\sum_{i = 0}^{n} y_i \bar{x} \\ a_1 \sum_{i = 0}^{n} (x_ {i}^ 2 - x_i \bar{x}) & = \sum_{i = 0}^ {n} (x_iy_i - y_i \bar{x}) \\ a_1 \sum_{i = 0}^{n} x_ {i} (x_ {i} - \bar{x}) & = \sum_{i = 0}^ {n} y_i (x_i - \bar{x} ) \end{eqnarray*}\]

on obtiens la valeur de $a_1$:

(5.9)#\[\begin{eqnarray} a_1 = \frac{\sum_{i = 0}^{n} y_{i} (x_i - \bar{x})} {\sum_{i = 0}^{n} x_i (x_i - \bar{x })} \end{eqnarray}\]

D’où l’expression des coefficients $a_1$ et $a_0$ sont:

(5.10)#\[\begin{eqnarray} a_1 = \frac{\sum_{i = 0}^{n} y_ {i} (x_i - \bar{x})} {\sum_{i = 0}^{n} x_i (x_i - \bar{x })} \quad, \quad a_0 = \bar {y} - a_1 \bar {x} \end{eqnarray}\]

que l’on peut écrire sous la forme de moyenne uniquement

\[ a_1 = \frac{\overline{y\,x} - \overline{y}\;\overline{x}} {\overline{x\,x} - \overline{x}^2} \quad, \quad a_0 = \overline{y} - a_1 \overline{x} \]

5.1.4.4. application au cas traité#

étapes:

programmation en réutilisant le code (utilisation de fonctions)
vérification en traçant et comparant le lissage avec les points de mesure
prédiction de la position à l’instant t=2.5 s

# application
### BEGIN SOLUTION
xtmean = Analyse(X*T)[0]
ttmean = Analyse(T*T)[0]
a1 = (xtmean -xmean*tmean)/(ttmean - tmean**2)
a0 = xmean - a1*tmean
print("loi x = {:.2f} + {:.2f} t".format(a0,a1))
t1 = 2.5
print("position a t={:.2f} x={:.2f}".format(t1,a0+a1*t1))
plt.figure(figsize=(10,6))
plt.plot(T,X,'o',label="données")
plt.plot(T,a0+a1*T,lw=2,label="lissage")
plt.plot([tmean],[xmean],'v',label="moyenne",markersize=12)
plt.plot([t1],[a0+a1*t1],'s',label="prediction",markersize=12)
plt.xlabel("t [en s.]")
plt.ylabel("x [en m]")
plt.legend()
plt.title("lissage par moindres carrées");
plt.savefig("fig1.png");
### END SOLUTION

loi x = -0.86 + 1.84 t
position a t=2.50 x=3.75

../../../../_images/3f751b2d020d210912fc427f5468971c065ed2311d9cc9239072dfce7d5638e7.png

Analyse du résultat

Sur la figure, on a tracé le résultat de l’analyse avec les données de position (en m.) en fonction du temps (en s.) , le lissage par moindres carrés donnant la loi de position en fonction du temps:

\[ x = 2.1 t -1.06 \]

et la prédiction de la position à $t=2.5 s$ qui vaut $x=4.18 m$.

Validation de l’analyse On constate sur la figure que

ce n’est pas de l’interpolation (la courbe ne passe pas par tous les points)
mais la droite passe au voisinage de tous les points
la moyenne est sur la droite des moindres carrés
la prédiction est cohérente par rapport aux données

5.1.5. Compte rendu#

Ecrire un compte rendu en markdown

éditer le fichier CompteRendu.md, puis génerer la sortie html avec la commande ci-dessous
- CompteRendu.html
visualiser le fichier CompteRendu.html

# génération de la version html et pdf du CR
!genereTPhtml CompteRendu

5.1.6. Application en TP: évolution de la température de la Terre#

Analyse des données d’évolution de la température de la Terre au cours du temps.

Les questions adressées, qui sont brûlante dans le monde d’aujourd’hui, sont:

La température de la terre augmente-t-elle?
Et de combien?

Les données sur l’évolution de la température terrestre sont disponibles à partir de plusieurs sources: la NASA, le National Climatic Data Center (NCDC) et l’Université d’East Anglia au Royaume-Uni. Consultez le site de University Corporation for Atmospheric Research (UCAR) pour une discussion approfondie.

Le NASA Goddard Space Flight Center est l’une des sources de données climatiques mondiales. Ils ont produit la vidéo ci-dessous montrant une carte en couleur de l’évolution de la surface globale anomalies de température de 1880 à 2015.

Le terme anomalie de température globale désigne la différence de température par rapport à une valeur de référence ou à une moyenne à long terme. C’est une manière très utile de regarder le problème et à bien des égards meilleur que la température absolue. Par exemple, un mois d’hiver peut être plus froid que la moyenne à Paris, ainsi qu’à Nice, mais les températures absolues seront différentes aux deux endroits.

# video sur l'evolution de la température
from IPython.display import YouTubeVideo
YouTubeVideo('gGOzHVUQCw0')

5.1.6.1. Méthode d’analyse#

La première étape dans l’analyse de données consiste à générer des graphiques simples en utilisant Matplotlib. Nous allons regarder l’historique des anomalies de température, contenu dans un fichier, et faire notre premier tracé pour explorer ces données.

Ensuite nous allons lisser les données, puis nous les ajusterons avec une droite pour déterminer une tendance en utilisant une loi simple.

A partir de cette loi simple, on va pouvoir en déduire une prédiction, qui est l’objectif final de l’étude.

5.1.6.2. définition des données#

Les données sont issues de la page Web NOAA (National Oceanic and Atmospheric Administration). Nous avons utilisé des données entre 1880 et aujourd’hui, mais vous pouvez utiliser des données actualisées à partir de ce même site.

Dans le répertoire data, nous avons un fichier nommé anomalie_temperature.csv. Ce fichier contient l’année sur la première colonne, et les moyennes des anomalies de température du sol répertoriées séquentiellement sur la deuxième colonne, à partir de 1880 jusqu’à nos jours. Nous allons charger le fichier, puis faire un premier tracé pour voir à quoi il ressemble.

En utilisant la commande unix/linux head mon_fichier, on affiche les 10 premières lignes du fichier mon_fichier

Attention vous n’avez pas tous les mêmes données, donc ne vous contentez pas de comparer les résultats bruts, mais essayer de comprendre la méthode.

5.1.6.3. lecture du fichier#

Pour charger les données à partir du fichier, nous utiliserons la fonction numpy.loadtxt(), qui nous permet de sauvegarder directement les données lues dans des tableaux NumPy.

Les données sont séparées par des , et on veut enregistrer directement les données dans les deux tableaux annee et anomalie_temp. On va donc fournir des arguments à la fonction np.loadtxt pour l’utiliser (voir la documentation de loadtxt)

    annee, anomalie_temp = np.loadtxt(fichier, delimiter=',', unpack=True)

Dans la cellule de code, on écrit le code python pour lire les données dans les deux tableaux annee et anomalie_temp, en important d’abord la bibliothèque numpy, puis en utilisant np.loadtxt

5.1.6.4. lissage des données#

Nous allons lisser les données d’anomalie de température par une droite, pour en déduire l’évolution de la température terrestre. Nous utiliserons la régression linéaire par moindres carrés pour calculer la pente $a_1$ et la constante $a_0$

\[ y = a_1 x + a_0 \]

avec pour expression des coefficients $a_1$ et $a_0$: