projet:2019:aut:start [Cours de Fabien Rico]

Ceci est une ancienne révision du document !

Domaines	Data science, Data Mining , IA, data visualization…
Librairies (proposées)	scikit-learn, seaborn, bokeh, etc.
Langages (proposé)	Python, javascript, html/css, etc.
Responsable du sujet	Rémy Cazabet
Informations à voir	http://cazabetremy.fr/Teaching/LIFPROJET.html

Le principe de ce projet est de 1) Choisir une source de données accessible (open data, data crawling, etc), de collecter ces données, les analyser, et construire un “explorable” permettant à n'importe qui d'explorer ces données de manière interactive. Vous êtes libre de choisir les données qui vous intéresse (sport, politique, réseaux sociaux, économie, environnement, sécurité, culture, etc.), et nous discuterons des analyses que nous pouvons en faire (restitution sous forme de cartes, de réseaux/graphes, de graphiques interactifs, sous forme de site-web ou non, etc.). Si vous ne savez pas quelles données existent ou non, partez du principe que tout existe, et nous chercherons ensemble ce qui est effectivement accessible. Vous pouvez consulter quelques projets précédents sur ma page http://cazabetremy.fr/Teaching/StudentsProduction.html .

Domaines	IA, Machine Learning, Data Science, Réseaux de neurones, data visualization…
Librairies (proposées)	scikit-learn, tensor-flow, keras, pyTorch, etc.
Langages (proposé)	Python
Responsable du sujet	Rémy Cazabet
Informations à voir	http://cazabetremy.fr/Teaching/LIFPROJET.html

Le principe de ce projet est de 1) Choisir une source de données accessible (open data, data crawling, etc), puis utiliser un framework d'apprentissage auomatique (Machine Learning/IA) de manière à résoudre l'une des tâches classiques du domaine: 1)Prédire de futurs résultats (regression, supervisé), 2)Reconnaître une “classe” d'objet (classification, supervisé), 3)Découvrir automatiquement comment les données sont organisées (non supervisé, clustering). Vous serez libre de choisir les données qui vous intéresse (sport, politique, réseaux sociaux, économie, environnement, sécurité, culture, etc.), et nous discuterons de ce qu'il est possible d'en faire. Si vous ne savez pas quelles données existent ou non, partez du principe que tout existe, et nous chercherons ensemble ce qui est effectivement accessible. Tous types de données peuvent être analysés: textes, valeurs numériques, images, etc. Vous pouvez consulter quelques projets précédents sur ma page http://cazabetremy.fr/Teaching/StudentsProduction.html.

Domaines	Machine Learning (“Intelligence Artificielle”)
Librairies (proposées)	scikit-learn, keras, tensor-flow…
Langages (proposé)	Python, autre
Responsable du sujet	Rémy Cazabet
Informations à voir	Challenges Kaggle en cours

Kaggle est le site web le plus connu de challenges en machine learning. En 2 mots: des entreprises proposent des challenges auxquels n'importe qui peut tenter de proposer une solution. La meilleure solution gagne. Mais là où Kaggle est particulièrement intéressant, c'est qu'il propose des tutoriels pour résoudre certains problèmes classiques, en utilisant différentes méthodes. Votre objectif: 1) Suivre un/des tutoriels pour résoudre un problème tout fait, 2)Choisir un challenge en cours et appliquer ce que vous avez appris

Domaines	Machine Learning (IA), génie logiciel, logiciel libre
Librairies	- la votre :)
Langages (proposé)	python, interfacage avec du c
Responsable du sujet	Rémy Cazabet
Informations à voir	http://cazabetremy.fr/Teaching/LIFPROJET.html,https://cdlib.readthedocs.io

CDlib (Community Detection library) https://cdlib.readthedocs.io est une librairie de machine learning, développé en python pour le problème du clustering de graphe, aussi appelé detection de communautés. Elle est pour l’instant développé par 3 chercheurs (dont votre serviteur) au sein du projet européen SoBigData (http://sobigdata.eu/index). Dans le cadre de ce projet, vous pouvez contribuer de différentes manières, notamment en ajoutant un module (visualisation, nouvel algorithme, etc.). Selon votre intérêt et vos compétences, il pourra s’agir d’intégrer des méthodes récentes basées sur les réseaux de neurones, de ré-implémenter des méthodes existantes dont le code ne serait pas disponible ou non-compatible, etc. Une autre manière de contribuer serait d'utiliser la librairie pour effectuer une expérience scientifique (en suivant un protocole standard), ce qui constituerait également une initiation au travail de chercheur.

Une attention particulière sera portée à produire un code propre et standard, (tests unitaires, commentaires adaptés à une génération automatique de documentation, etc.) pour qu’il soit intégré à une libraire de recherche publique. Il s’agit également d’une bonne introduction au machine learning/ intelligence artificielle.

RC1. Data Mining

RC2. Machine Learning

RC3. Kaggle Challenge

RC5. Librairie de clustering de graphe

Cours de Fabien Rico