Probabilités et statistiques pour la biologie (STAT1)

Cours 2018

Pour les cours de 2018, les interventions de Jacques van Helden seront limitées à l’analyse combinatoire, distributions discrètes et tests multiples.

Les autres chapitres sont traités par Pascal Rihet, dont les supports sont disponibles sur Ametice.

Jour Horaire Type Contenu Supports
19/11 8h - 10h CM Eléments d’analyse combinatoire [html] [pdf] [Rmd]
TD Eléments d’analyse combinatoire [html] [pdf] [Rmd]
CM Concepts de probabilités [html] [pdf] [Rmd]
TD Concepts de probabilités [html] [pdf] [Rmd]
19/11 10h - 12h CM Distributions discrètes [html] [pdf] [Rmd]
TD Distributions discrètes [html] [pdf] [Rmd]
19/11 14h - 18h TP Premiers pas avec R [html] [pdf] [Rmd]
22/11 8h - 10h CM Apprivoiser la P-valeur – Tests multiples [html] [pdf] [Rmd]
22/11 14h - 18h TP Tests multiples [html] [pdf] [Rmd]

Cours et exercices

La dernière colonne indique les parties données par Jacques van Helden en 2018.

Séance Contenu Liens Cours AMU 2018
CM1 Introduction au cours [html] [pdf] [Rmd] non
CM2 Eléments d’analyse combinatoire [html] [pdf] [Rmd] oui
TD2 Exercices: éléments d’analyse combinatoire [html] [pdf] [Rmd] oui
Solutions des exercices de combinatoire [html] [pdf][Rmd] oui
CM3 Concepts de probabilités [html] [pdf] [Rmd] oui
TD3 Exercices: concepts de probabilités [html] [pdf] [Rmd] oui
CM4 Distributions discrètes [html] [pdf] [Rmd] oui
CM5 Echantillonnage et estimation [html] [pdf] [Rmd] [R demo] non
CM6 Test de comparaison de moyenne [html] [pdf] [Rmd] non
Exercices Enoncés
Solutions
[html] [pdf] [Rmd]
[html] [pdf] [Rmd]
à trier

Supports pour les TD et l’examen

Annales d’examens

Consolidation 2018

  • Analyse combinatoire: html Rmd

  • Echantillonnage et estimation html Rmd

Travaux pratiques avec R

Séance Contenu Liens
TP1 Premiers pas avec R Diapos: html pdf Rmd
TP2 Table d’annotations génomiques Diapos: html pdf Rmd
TP3 Tests de comparaison de moyennes Diapos: html pdf Rmd

Objectif(s)

Acquérir les notions de base en probabilités et statistiques nécessaires à l’analyse de données biologiques.


Description

Ce module s’adresse aux étudiants du M1 BBSG.

L’ensemble du cours (théorie, TD et TP) sera motivé par l’analyse de données concrètes extraites des différents domaines d’application des deux mentions de master concernées (génomique, protéomique).

Les CM viseront à présenter les bases du raisonnement statistique, en faisant le lien entre données biologiques et modèles statistiques. Ils incluront un rappel des concepts de probabilité, des lois de distributions, et la présentation de quelques tests fréquemment utilisés.

Les travaux dirigés amèneront les étudiants à développer eux-mêmes le raisonnement statistique, en identifiant les traitements appropriés en fonction des types de données biologiques et des questions posées : choix des méthodes, évaluation des conditions d’applicabilité, choix des paramètres. Les travaux pratiques consisteront à mettre en œuvre les méthodes enseignées pour analyser des données au moyen de logiciels classiques de bureautique (tableurs), et à apprendre à interpréter les résultats des tests. L’organisation reposera sur une alternance de séances de CM, TD et TP, afin d’assurer une intégration progressive des concepts et de la pratique.


Prérequis

Ce cours s’adresse à des étudiants issus d’une formation en sciences de la vie, et inscrits aux Masters BBSG. Les étudiants concernés auront pour la plupart déjà suivi un ou plusieurs cours de probabilités et statistiques durant leur parcours de licence. Cependant le cours peut également être suivi sans formation préalable, moyennant un effort de mise à niveau encadré par les enseignants.


Exemples d’applications

Les exemples suivants sont uniquement illustratifs. Les méthodes et applications seront adaptées pour prendre en compte l’évolution des domaines d’application.

  • Analyse combinatoire (permutations, combinaisons, arrangements)

    • Tirages d’échantillons dans une population finie.
    • Probabilités d’occurrences de motifs de régulation dans les séquences nucléiques
  • Tests d’égalité de moyenne (tests de Student, de Welch, de rangs)

    • Bref rappel des notions indispensables:

      • Estimation des paramètres de la population sur base d’un échantillon.
      • Types de risques. Interprétation de la p-valeur.
    • Applications

      • Détection de gènes différentiellement exprimés (y compris les corrections de tests multiples)
      • Mesures de la réponse immunitaire (taux d’anticorps, de cytokines, nombre de cellules, …)
  • Tests d’association

    • Théorie

      • loi hypergéométrique, tests de Fisher, chi2 et apparentés
    • Applications

      • Enrichissement fonctionnel de groupes de gènes co-exprimés
      • Association génotype / phénotype (notamment dans les études d’association à échelle génomique)
      • Association entre niveaux (classes) d’exposition à une maladie infectieuse et niveaux (classes) d’infection
  • Tests de corrélation (coefficients de corrélation de Pearson, Spearman) - corrélations entre profils transcriptomiques (par gène, par échantillon)


Accès au contenu