# Traitement de données

**Marc BUFFAT , Université Claude Bernard Lyon 1**
<img src="images/python_file.png" style="width:300px; float:center;" />

## Traitement de données

Les différentes phases

 - importation des données (lecture)
 - pré-traitement
 - analyse des données
 - exportation des données (tracé, écriture)

### Format des données

- organisation des données dans les fichiers
- format standard : csv, xml, json
    - Comma-Separated Values est un format texte ouvert représentant des données tabulaires sous forme de valeurs séparées par des virgules.
    - EXtensible Markup Language est un métalangage informatique de balisage générique pour décrire un document structuré
    - JavaScript Object Notation (JSON) est un format de données textuelles dérivé de la notation des objets du langage JavaScript
    - utilisation de librairies 
- format spécifique:
    - création d'une librarie

## Fichier informatique

**définition (Wikipédia)**
un fichier informatique est  une collection d'informations numériques (séquences d'octets) réunies sous un même nom, enregistrées sur un support de stockage tel qu'un disque dur, un CD-ROM, une clé USB ...

En vue de faciliter leur organisation, les fichiers sont disposés dans des systèmes de fichiers qui permettent de placer les fichiers dans des emplacements appelés répertoires ou dossiers eux-mêmes organisés selon le même principe de manière à former une hiérarchie arborescente

Sur le système de l'ordinateur, un fichier est repéré par son nom avec éventuellement une extension et le répertoire dans lequel il se trouve.

En calcul scientifique, on considère 2 types principaux de fichiers:

- des fichiers de **programmes** qui contiennent un code informatique exécutable par l'ordinateur, sous 2 formes principales:

   - fichiers **exécutables** qui contiennent un code binaire directement exécutable par le processeur (extension **.exe** sous windows). Ces programmes ne sont pas modifiables et sont propre à l'ordinateur utilisé (programmes commerciaux ou propriétaires)
   - fichiers **sources** qui contiennent le code source du programme dans un langage de programmation (extension **.py** pour les programmes Python). Ces programmes peuvent être modifiés et être exécuter sur n'importe quel ordinateur.
  

- des fichiers de **données** qui contiennent des données (data) crées et manipulées par les programmes, sous 2 formes principales:

   - des fichiers **binaires** qui contiennent l'information brute, utilisant le codage de l'ordinateur (le plus efficace pour le stockage)
   - des fichiers **textes** qui contiennent les données écrites sous forme de lignes de texte (format le plus simple à manipuler)
 
 Dans la suite on ne considérera que les fichiers programmes Python (extension .py) et des fichiers de données textes (extension .dat).
 
 Pour éviter des problèmes de compatibilités entre systèmes informatiques, on choisira des noms de fichiers sans caractères accentués, sans espace ni caractéres spéciaux (autre que **.** ou **_** ou **-** ) 

## Fichier de programme (ou script) sous Python

un fichier contenant un programme Python a par convention une extension **.py**. Un simple éditeur de texte (notepad sous Windows) suffit pour créer et modifier un programme Python

- **gedit** ["voir le site gedit"](http://wiki.gnome.org/Apps/Gedit) un éditeur simple et efficace
- **vim** et variante ["soir le site vim"](http://wiki.python.org/moin/Vim) un éditeur de référence pour les programmeurs

### Exemple: trace de courbes de Lissajous
Une courbe de Lissajous (d'après le physicien français ["Jules Antoine Lissajous"](http://fr.wikipedia.org/wiki/Jules_Lissajous])) est une courbe paramétrique du plan dont les composantes sont des fonctions périodiques du paramètre (en générale le temps en physique, et que l'on peut observer avec un oscilloscope).

Le programme Python suivant **lissajous.py** trace les courbes de Lissajous suivantes
\begin{eqnarray} 
x(t) &=&  \sin{(\frac{2\pi}{p} t)}\\
y(t) &=&  \sin{(\frac{2\pi}{q} t + \phi)}
\end{eqnarray}
Le rapport $n=\frac{p}{q}$ est le paramètre de la courbe et $\phi$ le déphassage. Le temps $T$ de parcours de la courbe est le plus petit commun multiple de $p$ et $q$:
$$T=pcm(p,q)=\frac{pq}{pgcd(p,q)}$$

#### programme python

In [None]:
%%bash --err /dev/null
ls -al lissajous.py
cat lissajous.py

#### execution

In [None]:
%matplotlib inline
from __future__ import print_function
# bibliotheques de base
import matplotlib
import numpy as np
import matplotlib.pyplot as plt
#from jupyterthemes import jtplot
#jtplot.style()
#jtplot.style(context='talk',fscale=1.4,spines=True,ticks=True,grid=False,figsize=(12,6))
print("Initialisation OK")

In [None]:
%%bash 
echo "execution avec interpreteur python"
python3 lissajous.py
ls -al lissajous.png

### Notebook ipython
- format json (code + texte + sortie ..)

- [Lissajous.ipynb](Lissajous.ipynb)


In [None]:
%%bash
head -20 Lissajous.ipynb

## module (ou librairie)

**module**  fichier contenant des fonctions et des définitions en python (bibliothèque)

**nom du module** nom du fichier sans l'extension .py

**utilisation** du module mon_module.py

    import mon_module
    import mon_module as mn
    from mom_module import ma_fonction
    from mon_module import *

In [None]:
from lissajous import pgcd,LissajousFigure
print(pgcd(21,9))
LissajousFigure(5,3,np.pi/2)

## Fichiers de données sous Python

Comme dans la pluspart des langages informatiques, lire ou écrire dans un fichier, on va associer à un fichier (à son nom) une variable informatique de type **file**, qui posséde des fonctions (ou méthodes) permettant de lire ou écrire des données dans le fichier.
### fonction de lecture/écriture

- ouverture d'un fichier *mon_fichier.dat* en lecture:
        f=open("nom_fichier.dat",'r')
- ou en écriture:
        f=open("nom_fichier.dat",'w')
- lecture / ecriture (caractères)
        f.read(n) ou f.readline() 
        f.write(chaine)
- lecture / écriture de tableaux (numpy)
        A=loadtxt(file (ou nom de fichier))
        savetxt(file (ou nom de fichier), A)   
- fermeture du fichier
        f.close()

## Exemple traitement de fichiers
Une courbe de Lissajous (d'après le physicien français "Jules Antoine Lissajous") est une courbe paramétrique du plan dont les composantes sont des fonctions périodiques du paramètre (en générale le temps en physique, et que l'on peut observer avec un oscilloscope).

L'expression d'une courbe de Lissajous est la suivante
\begin{eqnarray} 
x(t) &=&  \sin{(\frac{2\pi}{p} t)}\\
y(t) &=&  \sin{(\frac{2\pi}{q} t + \phi)}
\end{eqnarray}
Le rapport $n=\frac{p}{q}$ est le paramètre de la courbe et $\phi$ le déphassage. Le temps $T$ de parcours de la courbe est le plus petit commun multiple de $p$ et $q$:
$$T=pcm(p,q)=\frac{pq}{pgcd(p,q)}$$

In [None]:
from lissajous import Lissajous
# calcul des points
p=1; q=2; 
N=50
t,x,y=Lissajous(p,q,np.pi/2,N)
plt.subplot(1,2,1)
plt.plot(t,x,label='x(t)',lw=2)
plt.plot(t,y,label='y(t)',lw=2)
plt.xlabel('t')
plt.legend()
plt.subplot(1,2,2)
plt.plot(x,y,lw=3)
plt.axis('equal')
plt.xlabel('x')
plt.ylabel('y')

### format d'écriture
écriture sur fichiers de $n$  points d'une courbe de Lissajous avec le format suivant 

    # ligne de commentaire
    t0 x0 y0
    .......
    ti xi yi
    .......
    tn-1 xn-1 yn-1

## Génération des données

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from lissajous import Lissajous
# calcul des points
p=1; q=2; 
N=50
t,x,y=Lissajous(p,q,np.pi/2,N)

### Écriture ligne / ligne (la plus générale)

In [None]:
print("tableau:",t.shape,type(t))
F=open("lissajous.dat","w")
F.write("# courbe de lissajous avec p={} q={}\n".format(p,q))
for i in range(N):
    F.write("{:.8g} {:.8g} {:.8g}\n".format(t[i],x[i],y[i]))
F.close()

In [None]:
%%bash --err /dev/null
ls -al lissajous.dat
head lissajous.dat

### Écriture sous forme d'un tableau

In [None]:
F=open("lissajous.dat","w")
entete=" courbe de lissajous avec p={} q={}".format(p,q)
np.savetxt(F,np.transpose([t,x,y]),header=entete)
F.close()

In [None]:
%%bash --err /dev/null
ls -al lissajous.dat
head lissajous.dat

### Lecture des données


#### lecture ligne / ligne

In [None]:
print("Lecture du fichier ligne/ligne")
F=open("lissajous.dat","r")
line=F.readline()
print(line)
lines=F.readlines()
F.close()
N = len(lines)
print("nbre de valeurs ",N)
t = np.zeros(N); x = np.zeros(N); y = np.zeros(N)
i = 0
for line in lines:
    mots = line.split()
    t[i] = float(mots[0])
    x[i] = float(mots[1])
    y[i] = float(mots[2])
    i = i+1
plt.plot(x,y,'-o')
plt.axis('equal')

#### lecture sous forme de tableau

In [None]:
print("lecture du fichier avec loadtxt (tableau)")
A=np.loadtxt("lissajous.dat")
print("lecture des données taille=",A.shape)
t=A[:,0]
x=A[:,1]
y=A[:,2]
# tracer
plt.plot(x,y,'-o',lw=2)
plt.axis('equal')

## Pré-traitement des données

### trie des données: 
**algorithme trie bulle (bubble sort)**
L'algorithme parcourt le tableau et compare les éléments consécutifs. Lorsque deux éléments consécutifs ne sont pas dans l'ordre, ils sont échangés.

Après un premier parcours complet du tableau, le plus grand élément est forcément en fin de tableau, à sa position définitive. On applique donc l'algorithme recursivement au reste du tableau.

**pseudo-code**

    algorithme tri_bulles(Tableau T)
       pour i allant de taille de T - 1 à 1
           pour j allant de 0 à i - 1
               si T[j+1] < T[j]
                   échanger(T[j+1],T[j])
       # l'algorithme modifie le tableau T
       retour


In [None]:
# algorithme de trie bulles
def tri_bulles(T):
    for i in range(T.size-1,0,-1):
        for j in range(i):
            if T[j+1]<T[j]:
                val=T[j+1]
                T[j+1] = T[j]
                T[j] = val
    return

In [None]:
X=np.random.rand(5)
print("X original:",X)
tri_bulles(X)
print("X trie    :",X)

### analyse par FFT d'un signal périodique

 Soit un signal ${a_k}$ de $n$ valeurs échantillonné à des temps $t_k$
 
 la FFT de $\{a_k\}_{k=0,n-1}$ est un tableau de $n$ complexes  $\{A_k\}_{k=0,n-1}$ t.q:
 $$ A_k = \sum_{m=0}^{N-1} a_m e^{- 2\pi \imath \frac{mk}{n}} $$ 
 $A[1:n/2]$ correspond aux termes de fréquence positive et $A[n/2:n]$ aux termes de fréquence négative. Si $a$ est un tableau réel, alors ces termes sont complexes conjugués.
 Par convention les amplitudes ne sont pas normalisées et sont donc multipliées par $n$.
 
 **ATTENTION** au dernier point !!!
 pour une période $T$, un signal est echantilloné sur $n$ points aux temps $t=0,t=dt, t=(n-a)dt$  avec $dt=T/n$
 
 #### exemple: signal harmonique
 

In [None]:
phi = np.pi/4
n = 8
t = np.linspace(0,4.,n,endpoint=False)
x = 3*np.cos(np.pi*t+phi)
print("Signal :",x)
# FFT
xf = np.fft.fft(x)
print("FFT xf:",xf)
# norme
xs = np.abs(xf)/n
print(xs)

In [None]:
t1 = np.linspace(0,4.,100)
x1 = 3*np.cos(np.pi*t1+phi)
plt.figure(figsize=(12,6))
plt.subplot(1,2,1)
plt.plot(t1,x1)
plt.plot(t,x,'o')
plt.ylim([-4.,4])
plt.title('signal')
plt.subplot(1,2,2)
plt.plot(xs,'-o')
plt.title('norme FFT')

- Pour un signal périodique sur $T$, la FFT sur n points décompose le signal en $n/2 - 1$ harmoniques de période $[T, T/2, ... ]$ et un mode continu. 

- Les $n/2$ fréquences associées sont donc $[0, 1/T,2/T,..]$ avec $T=n dt$ (où $dt$ est le pas d'échantillonage)

- Normalisation de l'amplitude ($* 2/n$)

In [None]:
# normalisation
xs = (2./n) * np.abs(xf[0:n//2])
# frequence
dt = t[1]-t[0]
fs = np.linspace(0,n//2,n//2,endpoint=False)/(n*dt)
print(xs,fs)
print("frequence fs",fs)
plt.semilogy(fs,xs,'o')
plt.title("spectre de puissance")

In [None]:
print("Amplitude :",xs[2])
print("Fréquence :",fs[2])
print("phase     :",np.angle(xf[2]))

## TP traitement de données
On veut traiter des données stockées dans un fichier contenant la valeur de 2 quantités X et Y  périodique en fonction du temps t sur une période T. 

Ces valeurs sont stockées par colonne suivant la structure ci dessous:

        # titre
        t0 x0 y0
        t1 x1 y1
        .......
        
La valeur de t dans ce fichier n'est pas forcement triée et les données X,Y sont bruitées.

L'objectif de cette étude est d'analyser ces données $X_i,Y_i$  en fonction du temps t et d'en déduire leurs pulsations, puis les paramêtres de Lissajous p et q.

In [None]:
# generation des données
from lissajous import Lissajous
uid=1234
np.random.seed(uid)
p = np.random.randint(1,10)
q = np.random.randint(1,10)
print("parametres ",p,q)
N = 512
# calcul sur 1 pt de plus
T,X,Y = Lissajous(p,q,np.pi/2,N+1)
# on enleve le dernier point (periodicite)
per = T[-1]
print("periode : ",per," N =",N)

In [None]:
# données bruitées
T = T[:-1]
X = 2*X[:-1]
Y = 3*Y[:-1]
X1 = X + 0.2*(2*np.random.rand(X.size)-1)
Y1 = Y + 0.3*(2*np.random.rand(Y.size)-1)
plt.figure(figsize=(12,6))
plt.subplot(1,2,1)
plt.plot(T,X1,T,Y1)
plt.subplot(1,2,2)
plt.plot(X1,Y1,'-o')

### analyse des données par FFT

 - calcul de la FFT du signal discret
 
 - détermination des pics 
 
 calcul du spectre de puissance, i.e. l'amplitude en fonction de la frequence
 
 - calcul de l'amplitude et de la phase 

In [None]:
# analayse de Fourier
from scipy.fftpack import fft
N = X.size
dt = T[1]-T[0]
XF = fft(X1)
YF = fft(Y1)
# amplitude et frequence
PFX = (2./N)*np.abs(XF[0:N//2])
PFY = (2./N)*np.abs(YF[0:N//2])
# attention calcul frequence
FF = np.linspace(0.,1./(2*dt),N//2,endpoint=False)
# spectre
plt.semilogy(FF,PFX,FF,PFY)
plt.ylim([1.e-4,10.])
plt.xlim([0.,2.])
plt.xlabel('freq (hz)')
plt.title('spectre de puissance ')

In [None]:
# determination du pic de frequence
print("Determination de la frequence fondamentale (pic du spectre)")
imX = np.argmax(PFX)
ax1 = PFX[imX]
wx1 = 2*np.pi*FF[imX]
phix1 = np.angle(XF[imX])
px1 = round(1./FF[imX])
print("X pulsation {:.5g} amplitude {:.5g} phase:{:.5g} p={} ({:.5g})".format(wx1,ax1,phix1,px1,1./FF[imX]))
imY = np.argmax(PFY)
ay1 = PFY[imY]
wy1 = 2*np.pi*FF[imY]
phiy1 = np.angle(YF[imY])
py1 = round(1./FF[imY])
print("Y pulsation {:.5g} amplitude {:.5g} phase:{:.5g} p={} ({:.5g})".format(wy1,ay1,phiy1,py1,1./FF[imY]))

In [None]:
plt.figure(figsize=(14,8))
plt.subplot(1,2,1)
plt.plot(T,X1,label='X')
plt.plot(T,ax1*np.cos(wx1*T+phix1),lw=2,label='X filtré')
plt.legend()
plt.subplot(1,2,2)
plt.plot(T,Y1,label='Y')
plt.plot(T,ay1*np.cos(wy1*T+phiy1),lw=2,label='Y filtré')
plt.legend()

In [None]:
plt.figure(figsize=(12,8))
plt.plot(X1,Y1,'o')
plt.plot(ax1*np.cos(wx1*T+phix1),ay1*np.cos(wy1*T+phiy1))
plt.xlabel('X')
plt.ylabel('Y')
plt.title('courbe de Lissajous')

In [None]:
errx = np.abs(ax1*np.cos(wx1*T+phix1)-X)
erry = np.abs(ay1*np.cos(wy1*T+phiy1)-Y)
plt.plot(T,errx,T,erry)
plt.title('Erreur');

## FIN