Skip to content

olisand/module-3-Stat-R

 
 

Repository files navigation

DUBii - module 3 - Analyse statistique avec R

Accès aux séances

Séance Contenu Lien
1 Premiers pas avec R seance_1
2 Analyse statistique avec R seance_2
3 Analyse de données métagénomiques seance_3
4 Clustering seance_4
5 Analyse différentielle de données RNA-seq seance_5
6 Classification supervisée (classement)

Table des matières

Description

Supports du cours "Statistiques avec R" du Diplôme Universitaire en Bioinformatique Intégrative (DUBii).

Prérequis

Nous demandons aux participants de suivre le premier module d'initiation à R sur DataCamp

En principe ceci devrait vous prendre une demi-heure. Vous pourrez prendre connaissance des éléments suivants

  • syntaxe de R
  • calculs de base
  • affectation de variables
  • classes de variables (numériques, caractères, logiques)

Ces exercices vous permettront de vous sentir plus à l'aise lors des premières séances du cours.

Validation des prérequis

Après avoir suivi le module d'intro à R dans DataCamp, nous vous demandons de valider l'aquisition des prérequis sur le site moodle du diplôme.

{:width="300px"}

Compétences attendues à la fin du module 3 - Analyse statistique avec R

A la fin du module, les participants auront acquis les compétences suivantes.

  • Maîtrise du langage R

    • charger des fichiers de données (généralement en format tabulaire),
    • comprendre et maîtriser les structures de données courantes (vecteurs, matrices, data frames, ...),
    • exporter les résultats sous différents formats,
    • générer différents types de représentations graphiques
      • histogramme
      • box plot (boîte à moustaches)
      • violin plot
      • MA plot
      • volcano plot
      • courbes de Lorenz
      • PC plot
      • heatmap
  • Analyse statistique

    • concevoir un plan d'analyse pour différents types de données biologiques à haut débit,
    • mettre en oeuvre ces analyses statistiques au moyen de scripts R,
    • interpréter les résultats en les mettant en rapport avec les questions biologiques
  • (Optionnel) Générer un rapport scientifique en format R markdown

    • intégration de blocs de code dans un texte formaté
    • assure la cohérence entre les résultats et figures (générés au vol), et le texte qui en fournit l'interprétation
    • assure la reproductibilité des analyses

Planning DU-Bii 2019

https://tinyurl.com/dubii19-planning

Ressources

Synopsis

Intervenants: Hugo Varet et Frédéric Guyon

Concepts:

  • Premiers pas avec R
  • Statistiques descriptives
    • estimateurs de tendance centrale (moyenne, médiane)
    • estimateurs de dispersion (écart-type, IQR)
  • Distributions théoriques de probabilité (discrètes et continues, grands principes, sachant que certaines seront approfondies dans d'autres séances)
  • Quelques représentations graphiques (nuage de points, polynome des fréquences, histogramme)

Travaux pratiques:

  • Manipulation de fonctions R
  • Manipulation de distributions théoriques avec R (une discrète et une continue)
    • Poisson et Normale
    • rnorm(), dnorm(), qnorm(), pnorm(),
    • Affichage d'histogrammes
      • superposer des distributions empiriques (rnorm) et théorique (dnorm)
      • pourquoi ne faut-il jamais utiliser density()
        • on perd les informations cruciales sur les irrégularités des classes
        • il ne s'agit pas d'un affichage de la distrib mais d'une fonction polynomiale ajustée sur les données -> dans certains cas on extrapole au-delà du domaine de définition des données
        • au mieux, une technique commerciale, au pire un outil de fraude scientifique

Compétences visées

  • Familiarisation avec la syntaxe R
  • Lecture, manipulation et écriture de tables
  • Utilisation de quelques fonctions graphiques
    • plot
    • lines
    • hist
    • boîte à moustache
    • Exporter un plot dans un fichier pdf ou png
    • attirer l'attention sur la différence: vectoriel versus bitmap (zoomer à fond sur les figures produites)

Intervenants: Leslie Regad et Magali Berland

Concepts:

  • Echantillonnage et estimation
  • Tests d'hypothèse
  • Représentations graphiques

Applications:

  • Présentation d'un panorama des tests statistiques existants, exercices d'applications

  • Réduction de dimensionalité, visualisation / positionnement (multidimensional scaling)

    • ACP avec factoMineR et factoextra pour les représentations graphiques
    • Choix et calcul d'une distance, représentation avec une PCoA

Intervenants: Magali Berland (& ...)

  • Concepts
    • appliquer des milliers de tests d'hypothèse en parallèle
    • problèmatique des tests multiples et corrections - le problème de la p-valeur "nominale" (proba de FP pour un test donné) - FPR = proportion de FP sur l'ensemble des tests $\hat{FPR} = pval$ - E-valeur (mesure du problème: $E = p \cdot T$) : nb de FP attendus sur l'ensemble de la batterie de tests - FDR = proportionde FP attendus sur l'ensemble des cas déclarés positifs

Intervenants: Frédéric Guyon & Anne Badel & Jacques van Helden

Clustering

  • Concepts

    • Approches de clustering: hiérarchique, K-means
    • Hiérarchique: critères d'agglomération (single, average, complete)
    • Métrique de (dis)similarité: Euclidienne, corrélation, dot product
    • Complexité des algorithmes
    • Evaluation du clustering
      • Comment choisir le nombre de groupes  (concepts, pas de pratique) ?
    • Comparaison de résultats de clustering: table de contingence entre
      • résultats obtenus par différentes méthodes
      • clustering avec tous les gènes vs les X gènes différentiellement exprimés
      • résultats de clustering et classes de référence (données TCGA)
    • Mesures de performance (avant-goût de la séance sur la classification supervisée)
      • Pour le clustering: Adjusted Rand Index (ARI)
      • Pour comparer à des classes de référence
        • Mesures à 2 classes: FP, FN, TP, TN, Sens (coverage, recall) + PPV ("précison"), Accuracy
        • Mesures multi-groupes: hit rate, MER, f-measure
        • Courbes de ROC, AUC
        • Courves Precision-recall
    • Visualisation (heat maps, arbres, PCs)
    • Impact de la dimensionalité:
  • A évaluer

    • tSNE ? (à évaluer, au cas où on aborderait le single-cell RNA-seq): pas le temps d'approfondir, mais peut-être mentionner en montrant les graphes
  • Applications

    • Clustering et heat-maps de densités de reads autour des pics ChIP-seq (marques épigénétiques, facteurs transcriptionnels) avec K-means

    • Clustering hiérarchique de données d'expression pour identifier les groupes de gènes co-exprimés

      • TCGA visualisation des profils temporels (on choisir un type de cancer et on fait des heatmaps en fonction des stades)
  • A évaluer

    • Clustering sur les graphes (brève présentation des problématiques et approches, pas forcément de TP) ? A discuter avec Costas et Anaïs
  • Messages

    • Différentes méthodes sont appropriées pour différents types de données
    • Au-delà de la méthode, influence des paramètres

Intervenants: Jacques van Helden + Claire Vandiedonck (à confirmer)

Détection de gènes différentiellement exprimés

  • Concepts

    • visualisation des résultats globaux (MA plots, volcano plots, histogrammes de p-vlaeurs)
    • évaluation de l'impact des choix de logiciels et paramètres
    • comparer les projections ACP avec tous les gènes et avec la sélection de gènes différentiellement exprimés
      • coloration des classes pour évaluer la pertinence de la sélection de variables
  • Application

    • Normalisation des données RNA-seq
      • standardisation des tailles de librairies (scaling)
      • transformation log
      • visualisation des résultats par box plots + violin plots
  • Cas d'étude

    • TCGA:

      • détection de gènes différentiellement exprimés entre deux groupes (types de cancer, stades)
      • analyse différentielle entre plusieurs groupes (types de cancer, stades)
    • Escherichia coli FNR study case: détection de gènes différentiellement exprimés entre deux conditions (aérobie / anaérobie; sauvage versus mutant FNR)

    • Saccharomyces cerevisiae

Intervenants: Jacques van Helden et Leslie Regad

  • Cas d'étude: transcriptome de cancer (données TCGA)

  • Méthodes: k-nearest neighbours, Random Forest, SVM

  • Concepts:

    • Approches de classification supervisées
    • Entraînement / test
    • Evaluation des résultats (évaluation croisée, mesures de performance)
  • Messages

    • SVM: importance du choix du noyau, et des paramètres
    • RF: interprétabilité des résultats, score d'importance des variables.
    • réseaux neuronaux:

Contributeurs

Responsables

  1. Anne Badel, Université Paris Diderot
  2. Jacques van Helden, Institut Français de Bioinformatique, Aix-Marseille Université

Autres intervenants

  1. Magali Berland, MetaGenoPolis, INRA
  2. Frédéric Guyon, Université Paris Diderot
  3. Leslie Regad, Université Paris Diderot
  4. Claire Vandiedonck, Université Paris Diderot
  5. Hugo Varet, Institut Pasteur

Calendrier 2019

Calendrier du DUBii : https://goo.gl/MVEA4q

Accès aux supports de cours

Un peu de bibliographie

{:width="100px"} "Analyse de données avec R", Husson, F., S. Lê et Pagès J. (2009) Analyse de données avec R. Presses Universitaires.

{:width="100px"} "Statistiques avec R", 3ème édition augmentée en couleurs, Cornillon P.A., Guyader A., Husson F., Jégou N., Josse J., Kloareg M., Matzner-Løber E., Rouvière L. (2012) Presses Universitaires de Rennes.

{:width="100px"} "R for Data Science", Hadley Wickham & Garrett Grolemund, O’Reilly lien

{:width="100px"} "Advanced R", Hadley Wickham, Chapman & Hall/CRC The R Series lien

{:width="100px"} "Applied Predictive Modeling", Max Kuhn & Kjell Johnson, Springer

Installation locale

Ces supports de cours peuvent être installés sur votre propre ordinateur en faisant un clone du dépôt git.

Contributeurs (membres de l'équipe)

git clone [email protected]:DU-Bii/module-3-Stat-R.git

Non-membres de l'équipe

git clone https://github.com/DU-Bii/module-3-Stat-R.git

Licence

Ce contenu est mis à disposition selon les termes de la licence Creative Commons Attribution - Partage dans les Mêmes Conditions 4.0 International (CC BY-SA 4.0). Consultez le fichier LICENSE pour plus de détails.

This content is released under the Creative Commons Attribution-ShareAlike 4.0 (CC BY-SA 4.0) license. See the bundled LICENSE file for details.

Releases

No releases published

Packages

No packages published

Languages

  • HTML 99.5%
  • Other 0.5%