Jacques van Helden
2019-02-06
On recherche dans un génome les occurrences du motif GATAAG en admettant un certain nombre de substitutions. En supposant que les nucléotides sont indépendants et équiprobables, quelle est la probabilité de trouver à une position du génome:
Au terme d'un séquençage de type Next Generation Sequencing (NGS), on dispose d'une librairie de \(N=10^6\) lectures courtes. On l'aligne sur un génome de référence, dont la somme des chromosomes fait \(G=10^9\) paires de bases, en utilisant un algorithme d'alignement sans gap et sans admettre aucune substitition.
On voudrait calculer de probabilité d'un alignement parfait (sans erreur) entre une séquence de lecture particulière à une position particulière du génome, en fonction de la longueur de lecture (\(k\)).
Note: durant les travaux pratiques, nous dessinerons cette distribution avec le logiciel R.
Dans un génome bactérien de 4 Mb avec une composition de 50% de G+C, on observe 130 occurrences de l'hexanucléotide GGCGCC. On suppose un schéma de Bernoulli et une composition équiprobable de nucléotides.
La roulette comporte 37 nombres allant du 0 au 36. Un joueur a décidé de miser systématiquement 1 euro sur le nombre 17 jusqu’à ce que ce nombre sorte, et de s’arrêter ensuite.
Sachant que quand on mise sur un seul nombre, le gain vaut 36 fois la mise, quelle est la probabilité pour que le joueur sorte du casino en ayant gagné de l’argent ?
Il n’est pas nécessaire de fournir une réponse numérique, vous pouvez vous contenter de fournir la formule, en indiquant les nombres correspondant aux différents symboles mathématiques. Justifiez votre réponse en expliquant votre raisonnement.
On détecte les cadres ouverts de lecture (open reading frames, ORF) d'un génome en identifiant toutes les séquences de taille multiple de 3 comprises entre un start (ATG) et un stop (TAA, TAG ou TGA).
sequence | frequency | occurrences |
---|---|---|
AAA | 0.0394 | 478708 |
ATG | 0.0183 | 221902 |
TAA | 0.0224 | 272041 |
TAG | 0.0129 | 156668 |
TGA | 0.0201 | 244627 |
On soumet une librairie de molécules d'ADN de 1 kilobase à un traitement mutagène qui provoque un nombre moyen de 5 mutations ponctuelles (substitutions) par molécule.
Formulation attendue pour la réponse.