# Traitement de données  avec PANDAS
**Marc BUFFAT, Université Claude Bernard Lyon 1**

<img src="images/python_pandas.jpg" style="width:400px;"/>

In [None]:
%matplotlib inline
from IPython.display import HTML,display
# bibliotheques de base
import matplotlib
import numpy as np
import matplotlib.pyplot as plt
from matplotlib import rcParams
rcParams['font.family'] = 'serif'
rcParams['font.size'] = 14

## BIG DATA

<img src='images/b_1_q_0_p_0.jpg' style="width:500px;float:left"/>

## croissance du stocage digital

<img src='images/Hilbert_InfoGrowth.png' style="width:700px;float:left"/>




## Les bons outils suivant la taille des données

- petits fichiers ( ~ qques ko) : tableur: excel locacl
- 1 Mo < x < 100 Mo : très lourd avec excel => script: Python (Pandas), R
- 100 Mo < xx < 100 Go  : impossible avec excel ==> script: Python (Pandas), R, SQL
- 100 Go < xxx < 1 To  ===> SQL base de données
- 1 Tb et +  ====> Hadoop

## Traitement des données

### the (old) excel way

- utilisation d'un tableur (excel , localc)
- simple pour des données simples
- mais tricky pour des traitements complexes (VBA)

### the (new) Pandas way

- basé sur un vrai language de programmation (Python)
- traitement complexe des données (cleaning,..)
- automatisation
- performance
- adapté au big data

## Pandas: "Python Library for Data Analysis and Statistics"
<img src="images/python_pandas.jpg" style="width:400px;"/>

### Pandas: <a href="http://pandas.pydata.org/">http://pandas.pydata.org</a>
Pandas (from **Panel Data analysis**) is a Python package providing fast, flexible, and expressive data structures designed to work with relational or labeled data both. It is a fundamental high-level building block for doing practical, real world data analysis in Python.

pandas is well suited for:

   - Tabular data with heterogeneously-typed columns, as in an SQL table or Excel spreadsheet
   - Ordered and unordered (not necessarily fixed-frequency) time series data.
   - Arbitrary matrix data (homogeneously typed or heterogeneous) with row and column labels
   - Any other form of observational / statistical data sets. The data actually need not be labeled at all to be placed into a pandas data structure

**Exemples**

- [data analysis with pandas](https://github.com/jupyter/jupyter/wiki/A-gallery-of-interesting-Jupyter-Notebooks#pandas-for-data-analysis)

- [Statistical Data Analysis with pandas](https://ipython-books.github.io/chapter-7-statistical-data-analysis/)



### Key features:

   - Easy handling of missing data
   - Size mutability: columns can be inserted and deleted from DataFrame and higher dimensional objects
   - Automatic and explicit data alignment: objects can be explicitly aligned to a set of labels, or the data can be aligned automatically
   - Powerful, flexible group by functionality to perform split-apply-combine operations on data sets
   - Intelligent label-based slicing, fancy indexing, and subsetting of large data sets
   - Intuitive merging and joining data sets
   - Flexible reshaping and pivoting of data sets
   - Hierarchical labeling of axes
   - Robust IO tools for loading data from flat files, Excel files, databases, and HDF5
   - Time series functionality: date range generation and frequency conversion, moving window statistics, moving window linear regressions, date shifting and lagging, etc.

## Data structure in Pandas

- Type de données de base: **dataframe** (tableau de type excel)

Une DataFrame PANDAS est une structure de données tabulaire bidimensionnelle de taille variable, potentiellement hétérogène, avec des axes libellés (lignes et colonnes). est une structure de données bidimensionnelle, c'est-à-dire que les données sont alignées de manière tabulaire en rangées et en colonnes.

<img src="images/dataframe.png" style="width:500px;"/>

In [None]:
import pandas as pd

## DataFrame
- structure 2D équivalente à un tableur
- structure hétérogéne avec index (ligne) et column (colonnes)

### création à partir de tableaux numpy

In [None]:
n=5
d = np.ones((n,2))
pd.DataFrame(d)

### création à partir de dictionnaire et de tableaux

#### nom de colonnes

In [None]:
n = 5
d = { 'One' : np.linspace(1,n,n), 'Two': np.linspace(1,n,n)**2}
pd.DataFrame(d)

#### nom de ligne (index)

In [None]:
data=pd.DataFrame(d,index=['a','b','c','d','e'])
data

#### selection colonne

In [None]:
data['Two'] 

In [None]:
data['Two']['b']

In [None]:
data['Two'][1]

#### selection ligne

In [None]:
data.loc['a']

In [None]:
data.loc['a']['Two']

In [None]:
data.loc['a'][0]

In [None]:
# position ligne/colonne
data.iloc[2,1]

In [None]:
data.iloc[0,0]

## DataFrame   à partir de fichier csv

- **fichier csv**: Comma-separated values, connu sous le sigle CSV, est un format informatique ouvert représentant des données tabulaires sous forme de valeurs séparées par des virgules dans un fichier texte. C'est un format d'échange courant pour les tableurs.

**variante française**: chiffre avec virgule, séparateur ;


### lecture de données issue de Hubble
le nom des colonnes est dans le fichier csv et l'index des lignes est numérique (de 0 a n-1)

In [None]:
data = pd.read_csv("hubble_data.csv")
data.head()

#### change le nom des colonnes

In [None]:
data.columns = ['dist','rec_vel']
data.tail()

#### lecture fichier csv sans entete de noms de colonnes

In [None]:
data = pd.read_csv("hubble_data_no_headers.csv",
                   names=['dist','rec_vel'])
data.tail()

### accés aux données

In [None]:
data.info()

#### selection colonne

In [None]:
data['dist'].tail()

#### sélection de ligne dans la colonne

In [None]:
data['dist'][0:5]

#### sélection de plusieurs colonnes

In [None]:
data[['dist','rec_vel']].head()

### calcul sur les données

#### calcul de l'énergie: $E = K*dist + 0.5 *v^2$

In [None]:
K = 1000.
data['E'] = K*data['dist'] + 0.5*data['rec_vel']**2
data['dist2'] = data['dist']**2
data.head()

#### suppression d'une colonne

In [None]:
del data['dist2']
data.head()

#### suppression d'un ligne (attention paramêtre inplace)

In [None]:
data.drop(1)

In [None]:
data.head()

In [None]:
data.iloc[1,0]

In [None]:
data.drop(1,inplace=True)
data.head()

In [None]:
data.iloc[1,0]

### indexation des données:
Au lieu d'utiliser l'indexation numérique de 0 à n-1, on va indexer les données par rapport à une colonne, par ex. la colonne 'dist' pour annalyser

-  vel = F(dist)
-  E = G(dist)

In [None]:
data.set_index("dist",inplace=True)
data.head()

#### tracer des données rec_vel = F(dist)

In [None]:
data['rec_vel'].plot(figsize=(12,6),lw=2,grid=True,style='-o')
plt.title("")

In [None]:
data['E'].plot(figsize=(12,6),lw=2,grid=True,style='-o')

#### traitement statistique:
 moyenne , medianne ...
 - **analyse par colonne**

In [None]:
energy = data['E']
type(energy)

In [None]:
energy.mean(), energy.median()

 - **analyse globale**

In [None]:
data.describe()

### analyse statistique
- variance, covariance, moyenne .....

matrice de covariance entre 3 tableaux x,y,z 

$$ cov_{x,y,z} = \left[ \begin{array}{ccc}  cov_{x,x} & cov_{x,y} & cov_{x,z} \\ cov_{y,x} & cov_{y,y} & cov_{y,z} \\ cov_{z,x} & cov_{z,y} & cov_{z,z} \end{array} \right]  = \left[ \begin{array}{ccc}  \sigma^2_{x} & \sigma_{xy} & \sigma_{xz} \\ \sigma_{yx} & \sigma^2_{y} & \sigma_{yz} \\ \sigma_{zx} & \sigma_{zy} & \sigma^2_{z}  \end{array} \right] $$

avec  ($E$ est l'opérateur moyenne $E(X) = \bar{X}$)
$$ cov_{x,y} = E[(X – E[X])(Y – E[Y])] = \overline{(X-\bar{X})(Y-\bar{Y})} = \frac{\sum(X_i – \bar{X})(Y_i – \bar{Y})}{N} $$

In [None]:
data1 = data.reset_index()
data1.head()

In [None]:
CV = data1.cov()
display(CV)

In [None]:
# CV est un datafrme : accès
CV['rec_vel']['dist'] , CV.iloc[0,1]

**vérification:** lissage par droite moindre carré V=F(dist)
    
     $$ V = a*dist + b $$
     
  avec $ a = \frac{\sigma_{V,V}}{\sigma_{V,dist}} $ et $ b = \bar{V} - a * \overline{dist} $
    

In [None]:
# verification lissage par droite moindre carré V=F(dist)
a = CV.iloc[1,1]/CV.iloc[1,0]
b = data1['rec_vel'].mean() - a * data1['dist'].mean()
print(a,b)

In [None]:
rcParams['font.family'] = 'serif'
rcParams['font.size'] = 14
X = np.linspace(0.,2.,21)
plt.figure(figsize=(10,8))
plt.plot(data1['dist'],data1['rec_vel'],'-o',label="mesure")
plt.plot(X,a*X+b,'--',lw=2,label="lissage")
plt.legend()
plt.xlabel('distance [m]')
plt.ylabel('vitesse [m/s]')
plt.title("vitesse en fonction de la distance")

### modification des données (loc, iloc)

**attention à l'aliasing !!!**
de nombreuses fonctions renvoient une copy du tableau (paramêtre *inplace*)


In [None]:
data['E']

In [None]:
data['E'][2.]=1620
print(data.tail())

#### utilisation de .at   (attention ligne, colonne)

In [None]:
data.at[2.,'E']=1800
print(data.tail())

In [None]:
data.loc[2,'E']

### autres structures de données
- Serie   1D
- xarray: multi-dimensionnal

voir http://pandas.pydata.org

## DataFrame a partir de fichier csv (exemple 2)

In [None]:
data = pd.read_csv("wages_hours.csv")
data.head()

### selection du bon séparateur

In [None]:
data = pd.read_csv("wages_hours.csv", sep = "\t")
data.head()

In [None]:
#pd.read_csv?

### Extraction de colonnes a traiter

In [None]:
data2 = data[["AGE", "RATE"]]
data2.head()

### tri des données

In [None]:
data_sorted = data2.sort_values("AGE")
data_sorted.head()

#### indexation en fonction de la colonne AGE

In [None]:
data_sorted.set_index("AGE", inplace=True)
data_sorted.head()

#### tracer du salaire en fonction de l'age

In [None]:
data_sorted.plot()
plt.show()

## données fonction du temps
### gestion date (conversion)

In [None]:
date=pd.to_datetime('2016-09-29T23:00:00+02:00')
date

### localisation: timezone

- heure universelle
- timezone: `Europe/Paris`


In [None]:
date.tz_convert(tz='Europe/Paris')

### serie temporelle (regroupement)

- création de la série temporelle puis du dataframe

In [None]:
date=pd.date_range('2015-01', '2015-12-31',
                   freq='D')
date

In [None]:
ts = pd.Series(np.random.randn(len(date)), 
               index=date)
data= ts.to_frame(name='val')
data.head()

### aggregation / mois

In [None]:
data['Mois']=data.index.month
data.head()

In [None]:
datam=data.groupby('Mois').aggregate(np.mean)
datam.head()

In [None]:
datam.plot(kind='bar')

### boucle sur les valeurs d'une colonne

In [None]:
somme=0.0
for val in data['val']:
    somme += val
print("somme de la colonne :",somme)

### avec un index

In [None]:
data['val2']=0.0
for index,row in data.iterrows():
    val = row['val']
    data.loc[index,'val2'] = val**2
data.head()

## Bibliothèque spécialisée 

**Visualisation de données (statistique)**

 - Boîte à moustaches: représentation visuelle permettant mesurer la distribution des données.
 
   - Le minimum est affiché à l’extrême gauche du graphique, à la fin de la « moustache » de gauche
   - Le premier quartile, Q1, est l’extrême gauche de la boîte (moustache gauche)
   - La médiane est représentée par une ligne au centre de la boîte
   - Troisième quartile, Q3, affiché à l’extrême droite de la boîte (moustache droite)
   - Le maximum est à l’extrême droite de la case
   
<img src="images/moustache.png" style="width:400px;"/>

 - On appelle Écart interquartile ou InterQuartile Range:  IQR = Q3-Q1 qui mesure la dispersion des données (estimateur statistique robuste)
 - Minimum = Q1 - 1.5 IQR 
 - Maximum = Q3 + 1.5 IQR
 - les points en dehors d'une répartition standard (outliers), i.e en dehors du [minimum:maximum], sont marquées comme des points
 
**violin plot (variante)**
 
 - Un violin plot est utilisé pour visualiser la distribution des données et sa densité de probabilité.


**seaborn:** statistical data visualization

 - https://seaborn.pydata.org/

In [None]:
import seaborn as sns

In [None]:
# donnees brutes
plt.figure(figsize=(12,6))
data['val'].plot(label='val')
data['val2'].plot(label='val2')
plt.legend()

In [None]:
plt.figure(figsize=(10,6))
plt.subplot(1,2,1)
sns.boxplot(data=data[['val','val2']])
plt.title("moustache plot");
plt.subplot(1,2,2)
sns.violinplot(data=data[['val','val2']])
plt.title("violin plot");

## Bibliographie

apprendre à lire et à chercher dans la documentation (très (trop) riche !!)
- [http://pandas.pydata.org]
- [http://pandas.pydata.org/pandas-docs/stable/10min.html]

## FIN