Skip to content

Science des Données Saison 2: Exploration statistique multidimensionnelle, ACP, AFC, AFD, Classification non supervisée

License

Notifications You must be signed in to change notification settings

lucievnhyz/Exploration

 
 

Repository files navigation

Science des Données & Statistique

Schématiquement, la Science des Données est définie autour d'une agrégation de compétences en Informatique (langage comme R et Python , gestion des données, calcul parallèle...), Statistique (exploration, estimation test, modélisation, prévision) Apprentissage Machine (prévision), Mathématiques (probabilités, optimisation, analyse fonctionnelle, graphes...).

Son apprentissage est acquis par l'intermédiaire de scénarios d'analyse de données réelles, ou tutoriel, présentés sous forme de calepins (jupyter notebooks) en R ou Python. Voir à ce sujet le livre de référence du cours Fondations of Data Science de l'UC Berkley.

Cette pratique est indispensable mais masque les aspects théoriques (mathématiques, statistiques): une formule est remplacée par un commande ou fonction en Python ou R, une démonstration par l'exécution d'exemples dans un calepin.

Pour offrir de la profondeur, plus de compréhension, à cette (auto)-formation, les calepins renvoient (liens hypertextes) systématiquement à des vignettes "théoriques" du site wikistat.fr exposant (cours) les méthodes et algorithmes concernés.

Il ne s'agit pas simplement de pouvoir exécuter une méthode, un algorithme, il est important d'en comprendre les propriétés, conditions d'utilisation et limites.

Saison 2 Exploration Statistique

Objectifs

Cette saison est consacrée à l'apprentissage des méthodes exploratoires multidimensionnelles: analyse en composantes principales, factorielle discriminante, des correspondances, postionnement multidimensionnel, factorisaiton non négative, classification non-supervisée (clustering) par k-means, CAH, DBSCAN, mélanges gaussiens.

Prérequis

Avoir acquis les compétences afférentes ou revenir sur des épisodes précédents:

Déroulement de l'UF: Logiciels et Méthodes d'Exploration Statistique

Cette saison est découpée en une séquence de six épisodes constitués de cours et travaux dirigés ou pratiques avec un ordinateur.

Les cours présentent les différentes méthodes développées dans les vignettes de wikistat.fr

Les séances de travaux dirigés mettent en application les différentes méthodes d'exploration et de classification supervisée sur des données de plus en plus réalistes donc volumineuses et complexes.

Les séances de travaux pratiques sont consacrées à l'apprentissage des langages: R et Python. Pour de nombreuses raisons, le logiciel SAS a été laissé de côté mais de nombreux tutoriels en permettent l'auto-apprentissage.

Utiliser au mieux le temps de chaque séance:

  • Réaliser au fur et à mesure les différentes étapes du projet sur l'analyse des données d'un recensement aux USA et qui constitue un fil rouge tout au long de cette saison 2,
  • consultant les autres cas d'usage (sujets d'examen) disponibles.

N.B. Le cas d'usage de gestion de la relation client: GRC Visa Premier permet d'illustrer presque toutes les méthodes (ACP, AFCM, classification) sur des données réelles. Il existe des tutoriels en SAS, R et Pyhton, réalisant les traitements équivalents. S'inspérer de celui en python pour la réalisation du projet.

Evaluation: contrôle sur table analogue aux cas d'usage ci-dessous et rendu du projet sous la forme d'un calepin introduite par une synthèse détaillée.

Pour aller plus loin

Épisodes

Les épisodes alternent apprentissage des méthodes et initiations aux langages (R, Pyhton). L'introduction à SAS est accessible en auto-apprentissage.

Épisode 1 Introduction

Épisode 2 Analyse en Composantes Principales

Épisode 3 Analyse Factorielle Discriminante

Épisode 4 Analyse des Correspondances simple et Multiple

Épisode 5 Classification non supervisée et Positionnement Multidimensionnel

Épisode 6 Factorisation de Matrice et Projet

Cas d'usage (sujets d'examen)

Chaque dossier concerne un jeu de données et contient un calepin (notebooks) au format .ipynb à télécharger et ouvrir dans Jupyter. Ceux-ci suivent le déroulement (questions) d'un examen passé.

  • GRC-carte_Visa. Exemple de Gestion de la Relation Client (GRC). Exploration multidimensionnelle: ACP, AFCM, segmentation de clientèle: classification non supervisée par CAH et réallocation dynamique; représentation, interprétation des classes.
  • Patrim-Insee. Analyse des données d'une enquête INSEE sur le patrimoine des français. Exploration multidimensionnelle: AFCM, segmentation: classification non supervisée par CAH; représentation, interprétation des classes.
  • DiagCoro Exploration en R. ACP, AFCM, CAH, k plus proches voisins. Interprétration et représentation des classes de 270 patients ayant consulté pour douleur thoracique et présentant ou pas une insuffisance coronarienne.
  • AdultCensus Exploration en R. ACP, AFCM, CAH, k plus proches voisins. Interprétration et représentation des classes de 32561 citoyens américains.
  • Encours-Boursiers Exploration en R (ACP, CAH, k plus proches voisins) d'un ensemble de 252 encours boursiers observés à Paris de 2000 à 2009.
  • Cachets-Hittites Exploration avec R d'un corpus de 118 cachets hittites décrits par 12 variables plus la présence de hiéroglyphes. Peut-on prévoir la datation?
  • Pourriels exploration et caractérisation d'un corpus de courriels afin d'identifier les pourriels.
  • [Mars]((https://github.com/wikistat/Exploration/blob/master/Mars/) Segmentation d'un image de mars par classifications non supervisées. Représentation de la carte géologique de la surface de Mars.

About

Science des Données Saison 2: Exploration statistique multidimensionnelle, ACP, AFC, AFD, Classification non supervisée

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Jupyter Notebook 99.6%
  • R 0.4%