Eléments d’analyse combinatoire

Probabilités et statistique pour la biologie (STAT1)

Jacques van Helden, revised by Lucie Khamvongsa-Charbonnier and Yvon Mbouamboua

2019-09-20

Dénombrements d’oligonucléotides et oligopeptides

Problème: dénombrement d’oligomères

L’ADN est composé de 4 nucléotides distincts dénotés par les lettres A, C, G, T, et les protéines de 20 acides aminés.

  1. Pour chacun de ces deux types de polymères, combien d’oligomères distincts peut-on former en polymérisant 20 résidus (“20-mères”) ?

    Approche suggérée: simplifiez le problème au maximum, en commençant par des polymères beaucoup plus courts (1 résidu, 2 résidus).

  2. Généralisez la formule pour les oligomères d’une longueur arbitraire \(k\) (“k-mères”), en symbolisant par \(n\) le nombre de résidus.
  3. Quel est le nom de la fonction donnant le résultat ?
  4. Dans ce processus, quel est le mode de sélection des résidus: avec ou sans remise ?

Solution: dénombrement d’oligomères

La suite géométrique

Une suite géométrique est une succession de nombres dont chaque terme est obtenu en multipliant le terme précédent par un facteur constant.

\[x_i = x_{i-1} \cdot n\]

Pour \(k\) suffisamment grand on peut développer la formule.

\[\begin{aligned} x_k &= x_{k-1} \cdot n \\ &= (x_{k-2} \cdot n) \cdot n = x_{k-2} \cdot n^2 \\ &= x_{k-3} \cdot n^3 = \ldots = x_0 \cdot n^k \end{aligned}\]

Dans notre cas, la valeur initiale \(x_0=1\); \(k\) est la taille de l’oligomère; et \(n\) est le nombre de résidus (\(n=4\) pour les acides nucléiques, \(n=20\) pour les séquences peptidiques).

Nonmbre d’oligomères

Nombre d'oligonucléotides (dessus) ou d'oligopeptides (dessous), en utilisant une échelle soit linéaire (gauche) soit logarithmique (droite) pour l'ordonnée.

Nombre d’oligonucléotides (dessus) ou d’oligopeptides (dessous), en utilisant une échelle soit linéaire (gauche) soit logarithmique (droite) pour l’ordonnée.

Exercice 02.1: oligomères sans résidus répétés

Combien d’oligomères peut-on former (ADN ou peptides) en utilisant chaque résidu une et une seule fois ?

Approche suggérée: agrégez progressivement les résidus, en vous demandant à chaque étape combien d’entre eux n’ont pas encore été incorporés.

Questions subsidiaires:

Solution: oligomères sans résidus répétés

\[n! = n \cdot (n-1) \cdot \ldots \cdot 2 \cdot 1\]

La factorielle

\[N = n! = \left\{ \begin{array}{ll} 1 & \text{if } n=0 \\ n \cdot (n-1)! &\text{otherwise} \end{array} \right.\]

Note: \(0! = 1\), par définition, ce qui permet de calculer \(1!\) et les factorielles des nombres subséquents avec la formule récursive.

Pour \(n\) suffisamment grand cela donne en clair.

\[N = n \cdot (n-1) \cdot (n-2) \ldots 2 \cdot 1\]

Factorielle

Exercice 02.2 : listes (ordonnées) de gènes

On a mené une expérience de transcriptome pour mesurer le niveau d’expression de tous les gènes de la levure. Sachant que le génome comporte 6000 gènes, combien de possibilité existe-t-il pour sélectionner les 15 gènes les plus fortement exprimés (en tenant compte de l’ordre relatif de ces 15 gènes) ?

Approche suggérée: comme précédemment, simplifiez le problème en partant de la sélection minimale, et augmentez progressivement le nombre de gènes sélectionnés (1 gène, 2 gènes, …).

Questions subsidiaires:

Solution 02.2 : listes (ordonnées) de gènes

Il s’agit d’une sélection sans remise (chaque gène apparaît à une et une seule position dans la liste de tous les gènes), et ordonnée (les mêmes gènes pris dans un ordre différent sont considérés comme un résultat différent).

Exercice 02.3 : ensembles (non-ordonnés) de gènes

Ona a réalisé une expérience de transcriptome indiquant le niveau d’expression de tous les gènes de la levure. Sachant que le génome comporte 6000 gènes, combien de possibilité existe-t-il pour sélectionner les 15 gènes les plus fortement exprimés (sans tenir compte de l’ordre relatif de ces 15 gènes) ?

Approche suggérée: comme précédemment, simplifiez le problème en partant de sélections minimales (1 gène, 2 gènes, …) et généralisez la formule.

Questions subsidiaires:

Solution 02.3 : ensembles (non-ordonnés) de gènes

Eléments de combinatoire

Nous résumons ici les formules les plus utilisées en analyse combinatoire.

Arrangements

On appelle arrangements les tirages ordonnés effectués sans remise au sein d’un ensemble.

Nombre d’arrangements de \(x\) éléments tirés parmi \(n\).

\[\begin{array}{ccl} A^x_n & = & \frac{n!}{(n - x)!} \\ & = & \frac{n(n-1) \ldots (n-x +1) (n - x) (n-x-1) \ldots 2 \cdot 1}{(n - x) (n-x-1) \ldots 2 \cdot 1} \\ & = & n \cdot (n-1) \cdot \ldots \cdot (n-x+1) \end{array} \]

Arrangements: typical application

Combinaisons

On appelle combinaisons le nombre de sous-ensembles de \(x\) qu’on peut tirer sans remise dans un ensemble de taille \(n\), si l’on ne tient pas de l’ordre des éléments tirés.

Ce nombre est fourni par le coefficient binomial.

\[\binom{n}{x} = C^x_n = \frac{n!}{x! (n-x)!}\]

Attention: les paramètres sont placés différemment dans la première (\(binom{n}{x}\), “x parmi n”) et la seconde notation (\(C^x_n\), “choose”).

Combinaisons – Applications typiques

Résumé des concepts et formules

Tirages avec / sans remise

Il existe deux types classiques de tirage d’éléments au sein d’un ensemble: avec ou sans remise.

  1. Tirage sans remise: chaque élément peut être tiré au plus une fois. Exemples:

    • Jeu de loto (ou lotto).
    • Sélection aléatoire d’un ensemble de gènes dans un génome.
  2. Tirage avec remise: chaque élément peut être tiré zéro, une ou plusieurs fois. Exemples:

    • Jeu de dés. A chaque lancer on dispose des mêmes possibilités (6 faces).
    • Génération d’une séquence aléatoire, par sélection itérative d’un élément dans l’ensemble des résidus (4 nucléotides pour l’ADN, 20 acides aminés pour les protéines).

Choix de la formule

Formules

Remise Ordre Formule Description
Oui Oui \(n^x\) Suite géométrique: tirages ordonnés (séquences), avec remise, de \(x\) éléments dans un ensemble de taille \(n\).
Non Oui \(n!\) Factorielle: permutations d’un ensemble de taille \(n\)
Non Oui \(A^x_n = \frac{n!}{(n-x)!}\) Arrangements : tirages ordonnés, sans remise, de \(x\) éléments dans un ensemble de taille \(n\)
Non Non \(C^x_n = \binom{n}{x} = \frac{n!}{x! (n - x) !}\) Combinaisons : tirages non ordonnés, sans remise, de \(x\) éléments dans un ensemble de taille \(n\)

Exercices supplémentaires

Exercice 02.5: oligopeptides \(3 \times 20\)

Combien d’oligopeptides de taille 60 peut-on former en utilisant exactement 3 fois chaque acide aminé ?

Solution 02.5 : oligopeptides \(3 \times 20\)

Combien d’oligopeptides de taille 60 peut-on former en utilisant exactement 3 fois chaque acide aminé ?

Commençons par générer une séquence particulière qui remplit ces conditions, en concaténant 3 copies de chaque acide aminé, dans l’ordre alphabétique.

AAACCCDDDEEEFFFGGGHHHIIIKKKLLLMMMNNNPPPQQQRRRSSSTTTVVVWWWYYY

Toutes les permutations de ces 60 lettres sont des solutions valides. En voici trois exemples.

LTCRNWRYIGPTTASMNKYMICDLHWMFIPYQKEWEHVRCDFLKPQFVGVQEGNDASSHA
LVLPDWMEHFFRESCENAIGMFRTCIPCAKSGQTNSGYWVPILWYKNDQMTHDHKAQVRY
RGCKQTESHDVDCMMEATLLIRVSEAQCGPRWNMFYPKQFLKWSIHVWFNYIAHPYDTGN

Cependant, il faut prendre en compte le fait que certaines permutations sont identiques (toutes celles où l’on permute deux acides aminés identiques). La difficulté de l’exercice sera donc de dénombrer le nombre de permutations distinctes.