Schématiquement, la Science des Données est définie autour d'une agrégation de compétences en Informatique (langage comme R et Python , gestion des données, calcul parallèle...), Statistique (exploration, estimation test, modélisation, prévision) Apprentissage Machine (prévision), Mathématiques (probabilités, optimisation, analyse fonctionnelle, graphes...).
Son apprentissage est acquis par l'intermédiaire de scénarios d'analyse de données réelles, ou tutoriel, présentés sous forme de calepins (jupyter notebooks) en R ou Python. Voir à ce sujet le livre de référence du cours Fondations of Data Science de l'UC Berkley.
Cette pratique est indispensable mais masque les aspects théoriques (mathématiques, statistiques): une formule est remplacée par un commande ou fonction en Python ou R, une démonstration par l'exécution d'exemples dans un calepin.
Pour offrir de la profondeur, plus de compréhension, à cette (auto)-formation, les calepins renvoient (liens hypertextes) systématiquement à des vignettes "théoriques" du site wikistat.fr exposant (cours) les méthodes et algorithmes concernés.
Il ne s'agit pas simplement de pouvoir exécuter une méthode, un algorithme, il est important d'en comprendre les propriétés, conditions d'utilisation et limites.
Cette saison est consacrée à l'apprentissage des méthodes exploratoires multidimensionnelles: analyse en composantes principales, factorielle discriminante, des correspondances, postionnement multidimensionnel, factorisaiton non négative, classification non-supervisée (clustering) par k-means, CAH, DBSCAN, mélanges gaussiens.
Avoir acquis les compétences afférentes ou revenir sur des épisodes précédents:
Cette saison est découpée en une séquence de six épisodes constitués de cours et travaux dirigés ou pratiques avec un ordinateur.
Les cours présentent les différentes méthodes développées dans les vignettes de wikistat.fr
Les séances de travaux dirigés mettent en application les différentes méthodes d'exploration et de classification supervisée sur des données de plus en plus réalistes donc volumineuses et complexes.
Les séances de travaux pratiques sont consacrées à l'apprentissage des langages: R et Python. Pour de nombreuses raisons, le logiciel SAS a été laissé de côté mais de nombreux tutoriels en permettent l'auto-apprentissage.
Utiliser au mieux le temps de chaque séance:
- Réaliser au fur et à mesure les différentes étapes du projet sur l'analyse des données d'un recensement aux USA et qui constitue un fil rouge tout au long de cette saison 2,
- consultant les autres cas d'usage (sujets d'examen) disponibles.
N.B. Le cas d'usage de gestion de la relation client: GRC Visa Premier
permet d'illustrer presque toutes les méthodes (ACP, AFCM, classification) sur des données réelles. Il existe des tutoriels en SAS, R et Pyhton, réalisant les traitements équivalents. S'inspérer de celui en python pour la réalisation du projet.
Evaluation: contrôle sur table analogue aux cas d'usage ci-dessous et rendu du projet sous la forme d'un calepin introduite par une synthèse détaillée.
- Apprentissage automatique / Statistique
- Technologies des grosses data (Spark, XGBoost, Keras...)
Les épisodes alternent apprentissage des méthodes et initiations aux langages (R, Pyhton). L'introduction à SAS est accessible en auto-apprentissage.
- Introduction à l'exploration multidimensionnelle et aux logiciels, langages statistiques
- Description unidimensionnelle
- Description bidimensionnelle
- TP Log1
- Consulter le document (
README
) pour installer le noyauIRkernel
afin de pouvoir utiliser R dans Jupyter. - Pratique de R: 4 calepins
- Consulter le document (
- TP Log2
- Analyse en Composantes Principales
- TD Explo1
- ACP en R : SVD, jouet, températures
- Données GRC de banque: data muning
- TP Log3
- Python pandas: caractères, OCDE
- data muning suite.
- TP Explo2
- ACP en Python
- Données GRC de banques: ACP
- TP Log4
- Python graphes
- Données GRC de banques: ACP suite.
- Analyse Factorielle Disciminante
- TP Explo 3
- AFD en R: iris, départements
- AFD en Python: human activity recognition
- TP Log 5
- Analyse Factorielle simple des Correspondances
- Analyse Factorielle multiple des Correspondances
- TP Explo 4
- AFC en R: SVD, vacances
- TP Explo 5:
- AFCM en R: chiens, cancer
- AFCM en python titanic
- Données GRC de banques: AFCM
- Classification non supervisée (k-means, CAH, DBSCAN)
- Positionnement Multidimensionnel (MDS)
- TP Explo 6
- Classification avec R: villes, OCDE, chiens
- Données GRC de banques: Classification
- TP Explo 7
- Factorisation non négative de matrice
- TP Explo 8 NMF
- NMF avec R apéro
- TP Explo 9 & 10
- Projet à rendre avant Jeudi xx/05/2019 18h. Reproduire en Python le calepin R d'analyse des données d'enquête. S'inspirer du cas d'usage
GRC Visa Premier
dont un calepin est réalisé en python. Rendre le calepin en Python avec une synthèse subtantielle de la démarche et des principaux résultats obtenus.
- Projet à rendre avant Jeudi xx/05/2019 18h. Reproduire en Python le calepin R d'analyse des données d'enquête. S'inspirer du cas d'usage
Chaque dossier concerne un jeu de données et contient un calepin (notebooks) au format .ipynb à télécharger et ouvrir dans Jupyter. Ceux-ci suivent le déroulement (questions) d'un examen passé.
GRC-carte_Visa
. Exemple de Gestion de la Relation Client (GRC). Exploration multidimensionnelle: ACP, AFCM, segmentation de clientèle: classification non supervisée par CAH et réallocation dynamique; représentation, interprétation des classes.Patrim-Insee
. Analyse des données d'une enquête INSEE sur le patrimoine des français. Exploration multidimensionnelle: AFCM, segmentation: classification non supervisée par CAH; représentation, interprétation des classes.DiagCoro
Exploration en R. ACP, AFCM, CAH, k plus proches voisins. Interprétration et représentation des classes de 270 patients ayant consulté pour douleur thoracique et présentant ou pas une insuffisance coronarienne.AdultCensus
Exploration en R. ACP, AFCM, CAH, k plus proches voisins. Interprétration et représentation des classes de 32561 citoyens américains.Encours-Boursiers
Exploration en R (ACP, CAH, k plus proches voisins) d'un ensemble de 252 encours boursiers observés à Paris de 2000 à 2009.Cachets-Hittites
Exploration avec R d'un corpus de 118 cachets hittites décrits par 12 variables plus la présence de hiéroglyphes. Peut-on prévoir la datation?Pourriels
exploration et caractérisation d'un corpus de courriels afin d'identifier les pourriels.- [
Mars
]((https://github.com/wikistat/Exploration/blob/master/Mars/) Segmentation d'un image de mars par classifications non supervisées. Représentation de la carte géologique de la surface de Mars.