-
Session 3. Statistiques pour les données à haut-débit / RStudio et rapport Rmarkdown
-
Session 4. Analyse en composantes principales / Exploration des données multidimensionelles
-
Session 6. Classification non-supervisée / Analyse d'enrichissement
The aim of this module is to provide you with the bases of R programming and to present you some statistical concepts for high-throuput data.
To follow this course, prior knowledge is expected on:
- R environment,
- getting help in R,
- types of variables (particularly on vectors).
- Claire Vandiedonck (https://orcid.org/0000-0002-6669-6923)
- Jacques van Helden (https://orcid.org/0000-0002-8799-8584)
- Anne Badel (https://orcid.org/0000-0002-2777-5979)
- Magali Berland (https://orcid.org/0000-0002-6762-5350)
- Antoine Bridier-Nahmias (https://orcid.org/0000-0002-0376-6840)
- Olivier Sand (https://orcid.org/0000-0003-1465-1640)
- Bruno Toupance (https://orcid.org/0000-0002-8244-1824)
- Clémence Réda(https://clreda.github.io/)
- Yves Clément (https://orcid.org/0000-0002-5932-9412)
- Olivier Taboureau (https://orcid.org/0000-0001-7081-2491)
Doc | Description | URL |
---|---|---|
Git pages | Web site of the course (to see the supports) | https://du-bii.github.io/module-3-Stat-R/stat-R_2021/ |
Git repo | Repository enabling to download or clone the teaching material on your computer | https://github.com/DU-Bii/module-3-Stat-R |
Serveur Jupyter Hub IFB | Python but also R! | https://jupyterhub.cluster.france-bioinformatique.fr/ |
RStudio at IFB cluster | link to RStudio on th IFB cluster | https://rstudio.cluster.france-bioinformatique.fr/ |
Slack | forum pour échanges et discussions | https://dubii.slack.com |
- Date: 03/03/2021 de 9h30 à 12h30
- Instructeurs : Claire Vandiedonck & Anne Badel
- Helpers : Antoine Bridier-Nahmias, Clémence Réda, Bruno Toupance, Jacques van Helden
- Vérification et consolidation des prerequis: session R, vecteurs, matrices.
- Dataframes: création, extraction de données, manipulation.
-
Slides: Slides for the whole session
-
Questions: lien wooclap et proposition de solution
-
Tutorial:
- on dataframes (notebook ipynb et sa version exécutée en html)
- on factors (notebook ipynb et sa version exécutée en html)
-
Practical:
-
Data:
- Temperatures.txt,rawData,
- metadata
- Accès local (pour usagers du cluster IFB-core):
shared/projects/dubii2021/trainers/module3/data/pavkovic/1.datainit
- Date: 04/03/2021 de 13h30 à 16h30
- Instructeurs : Claire Vandiedonck & Magali Berland
- Helpers : Antoine Bridier-Nahmias, Yves Clément, Bruno Toupance, Jacques van Helden
-
Contrôles de flux: boucles versus vectorisation, excutions conditionnelles
-
Fonctions: implémentation
-
Paquets/librairies: installation et troubleshooting, chargement, utilisation
-
Figures à façon avec R base
-
Introduction au Tidyverse: ggplot2, dplyr, tidyr
-
Slides:
-
Tutorial:
- on functions (notebook ipynb)
- on packages (notebook ipynb)
-
Practical:
- optional on loops, conditions and functions (notebook ipynb et son corrigé)
- on figures (notebook ipynb et son corrigé)
- TD introduction au tidyverse (format html, format ipynb) et ses corrigés: partie 1 sur ggplot au format ipynb et partie 2 & 3 pour dplyr et tidyr au format ipynb
- Date: 09/03/2021 de 14h30 à 17h30
- Instructeurs : Claire Vandiedonck & Antoine Bridier-Nahmias
- Helpers : Anne Badel, Clémence Réda, Jacques van Helden, Olivier Sand
- Statistiques pour les omiques:
- Rappels de statistiques de base: flutuation d'échantillonage, théorie des tests
- Problème de la dimensionalité: Estimation des paramètres et tests multiples
- RStudio & Rapport Rmarkdown
- Slides: Slides for part 1
- Practical:
- links: shiny app to simulate distributions - dabestr
- live on statistics notebook ipynb et son corrigé en html ou en ipynb
- optional on statistics [mean-comparison-test_random-numbers.html] ou mean-comparison-test_random-numbers.pdf] ou [mean-comparison-test_random-numbers.Rmd]
- live on Rmd R markdown demo au format .Rmd et le rapport généré au format html
-
Date: 11/03/2021 de 9h00 à 12h00
-
Instructeurs : Magali Berland & Jacques van Helden
-
Helpers : Anne Badel, Clémence Réda, Claire Vandiedonck, Olivier Taboureau
-
Analyse en composantes principales (ACP)
-
Comprendre le principe de base de l'analyse en composantes principales, ainsi que les objectifs de cette méthode.
-
Réaliser une ACP avec R, obtenir des visualisations graphiques pour aider à l'interprétation (cercle des corrélations, biplot, contribution des variables et des individus).
-
-
Exploration de données multi-omiques multidimensionelles
- Maîtriser les téléchargements et chargements de fichiers de données et métadonnées
- Charger des fichiers de données
- Rappel des concepts de base de corrélation entre deux variables
- Extension à la corrélation entre
$n$ variables - Applications à des jeux de données de multi-omiques
-
Slides: Cours sur l'ACP visualisable ici
-
Practicals:
-
TD sur l'ACP visualisable ici a réaliser sur ces données : metadata et microbiota.abundance.log
-
Correction du TD sur l'ACP, visualisable ici
-
Tutoriel: exploration des données multi-omiques [html] [Rmd]
-
-
Exercice : application de l'ACP aux données multi-omiques de Pavkovicz (2019)
- Téléchargez le Rmd source du tutoriel "exploration des données multi-omiques"
- Téléversez-le dans un dossier de votre espace sur le cluster
- Dans l'en-tête de votre version du Rmd, changez la valeur du
self_contained
en indiquantyes
- Lancez knitr pour générer le rapport en formats HTML et pdf pour vous assurez que l'original compile bien.
- Réalisez l'exercice "PCA of Pavkovicz data"
- Déposez les résultats (Rmd et fichier html self-contained) dans le sous-dossier TP4 du dossier de dépôt convenu sur slack
- Date: 29/03/2021 de 10h00 à 13h00 et de 14h30 à 17h30
- Instructeurs : Anne Badel, Jacques van Helden, Olivier Sand
- Helpers : Claire Vandiedonck, Yves Clément, Bruno Toupance, Olivier Taboureau
Topics | Support | Formats |
---|---|---|
The TCGA BIC study case | Intro | [pdf] |
Data loading and exploration | Tutorial (optional) | [html] [Rmd] |
Principes du clustering | Cours | [html] [Rmd] |
Tutorial + practical | [html] [Rmd] | |
Analyse d'enrichissement fonctionnel | Cours | [html] |
Tutorial | [html] [Rmd] | |
Practical | [html] [Rmd] | |
Correction | [html] [Rmd] | |
Supervised classification | Slides | |
Tutorial + practical | [html] [Rmd] |
-
Après la Session 1
- finir le tutorial des dataframes pour demain jeudi après-midi -> poser des questions sur slack si des points sont obscurs
- faire le practical dans vos séances de travail personnel du vendredi des 2 1ères semaines -> les données serviront de Fil Rouge tout au long du module
- faire le tutorial sur les factors pendant le temps de travail personnel
-
Après la Session 2
- finir le practical sur tidyverse pour jeudi 11/03/2021
- fnir le practical sur les figures avec R base (correction disponible)
- faire le practical sur les paquets (correction disponible)
- facultatif: faire le practical sur les contrôles de flux et fonctions (correction disponible)
-
Après la Session 3
- revoir à tête reposée le practical sur les statistiques
- revoir à tête reposée l'exemple de notebook Rmd sur Rstudio: Antoine l'a un peu complété
- facultatif: pour les plus avancés, voir l'exemple du notebook .rmd optionnel sur les statistiques
-
Après la session 4
- terminer le TP de Magali Berlan sur l'ACP
- réaliser le travail personnel de Jacques van Helden : application de l'ACP aux données multi-omiques de Pavkovicz
-
Mini-projet
-
Le but de ce travail est de mettre en oeuvre les méthodes vues dans le module 3 "R et statistiques" pour explorer le jeu de données de Pavkovic, et de rendre un rapport d'analyse au format
.Rmd
. Nous vous fournissons le fichierPrenom-NOM_m3-stat-R_mini-projet.Rmd
à ce lien avec une trame des principales sections attendues. Certaines contiennent déjà du code. Vous devrez en compléter d'autres. Sentez-vous libres d'adapter cette trame ou d'y ajouter des analyses complémentaires si elles vous aident à interpréter vos résultats. La date limite pour rendre se travail est fixée au 26/05/21 minuit dans votre repertoire:/shared/projects/dubii2021/[login]/m3-stat-R/mini-projet
L'activité atelier est annulée due à la charge de travail déjà importante.
Doc | Description | URL |
---|---|---|
Cheet sheats | RStudio Cheet sheats | https://rstudio.com/resources/cheatsheets/ |
Tutorial | Tutorial for Beginners by E. Paradis - English version | https://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf |
Tutorial | Tutorial for Beginners by E. Paradis - French version | https://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf |
R style guide | Google’s R Style Guide | https://google.github.io/styleguide/Rguide.html |
Another reference for R style guide | tidyversesStyle Guide | https://style.tidyverse.org/ |
Category | Title | Description | Link |
---|---|---|---|
Coding | The tidyverse R style guide | Style recommendations for R code | https://style.tidyverse.org/ |
Coding | Tidyverse cheat sheet | One-poage summary of basic tidyverse syntax | https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Tidyverse+Cheat+Sheet.pdf |
Versioning | Happy Git and GitHub for the useR | How to manage versioning of R code on a github repository | https://happygitwithr.com/ |
Functions | R Documentation | List of R packages and functions | https://www.rdocumentation.org/ |
Functions | QuickR | List R functions for stats and plotting | https://www.rdocumentation.org/ |
Statistics and DataViz | STDHA | Statistical tools for high-throughput data analysis | http://www.sthda.com/english/ |
Basic stats explained to biologists | Points of Significance | Nature Methods collection | https://www.nature.com/collections/qghhqm/pointsofsignificance |
DataViz | R Graph gallery | How to display your data | http://www.r-graph-gallery.com/all-graphs/ |
DataViz | DEFAKATOR | Détecter des graphiques trompeurs | https://www.youtube.com/watch?v=crTt-QIyS-o |
DataViz | Using color sin R | Explains available packages for colors in R | https://www.stat.ubc.ca/~jenny/STAT545A/block14_colors.html#using-colors-in-r |
DataViz | Using colors in R | How to do a high resolution figure with R base | https://danieljhocking.wordpress.com/2013/03/12/high-resolution-figures-in-r/ |
DataViz | DataViz | link tto the book | https://clauswilke.com/dataviz/ |
Ce contenu est mis à disposition selon les termes de la licence Creative Commons Attribution - Partage dans les Mêmes Conditions 4.0 International (CC BY-SA 4.0). Consultez le fichier LICENSE pour plus de détails.