Jacques van Helden
2018-11-17
On détecte les cadres ouverts de lecture (open reading frames, ORF) d’un génome en identifiant toutes les séquences de taille multiple de 3 comprises entre un start (ATG) et un stop (TAA, TAG ou TGA).
sequence | frequency | occurrences |
---|---|---|
AAA | 0.0394 | 478708 |
ATG | 0.0183 | 221902 |
TAA | 0.0224 | 272041 |
TAG | 0.0129 | 156668 |
TGA | 0.0201 | 244627 |
On recherche dans un génome les occurrences du motif GATAAG en admettant un certain nombre de substitutions. En supposant que les nucléotides sont indépendants et équiprobables, quelle est la probabilité de trouver à une position du génome:
Au terme d’un séquençage de type “Next Generation Sequencing” (NGS), on dispose d’une librairie de \(N=10^6\) lectures courtes. On aligne la librairie sur le génome de référence, dont la somme des chromosomes fait \(G=10^9\) paires de bases, en utilisant un algorithme d’alignement sans gap.
Calculez la distribution de probabilité du nombre de correspondances en fonction de la longueur des lectures (\(k\)).
Un biologiste a fait séquencer un échantillon et a obtenu un fichier comportant 50 millions de lectures (« short reads ») de 35 paires de base, qu’il aligne sur le génome humain (3 gigabases répartis sur 23 chromosomes). Durant l’alignement, il choisit d’accepter au maximum 3 substitutions par lecture.
En supposant un modèle de fond basé sur des nucléotides équiprobables et distribués de façon indépendante, comment calculeriez-vous la probabilité pour qu’un read s’aligne complètement à une position arbitraire du génome, avec au plus 3 substitutions (sans indel). Indiquez la formule et justifiez votre choix.
Sous ces mêmes conditions, quel serait le nombre de faux-positifs attendus si l’on aligne l’ensemble de la librairie de séquences sur l’ensemble du génome ?
Dans un génome bactérien de 4 Mb avec une composition de 50% de G+C, on observe 130 occurrences de l’hexanucléotide GGCGCC. On suppose un schéma de Bernoulli et une composition équiprobable de nucléotides.
Un chercheur a analysé, à l’aide de biopuces, le niveau d’expression de l’ensemble des gènes à partir d’échantillons sanguins prélevés chez 50 patients (np=50) et chez 50 sujets témoins (nt=50). Il s’intéresse particulièrement à un gène qui semble montrer une différence entre les 2 groupes. Ainsi, il ré-analyse l’expression du même gène dans les mêmes échantillons en utilisant une autre technique, la qPCR. Il obtient
Afin de tester si la différence observée entre les moyennes est significative, le chercheur décide d’effectuer un test de Student.
Le choix du test de Student vous semble-t-il approprié ? Justifiez le choix du chercheur. Quelles auraient été les alternatives envisageables ?
Sachant qu’a priori on ne sait pas dans quel sens la maladie pourrait affecter le niveau d’expression du gène, préconisez-vous un test uni- ou bilatéral ?
Formulez l’hypothèse nulle et expliquez-la en une phrase.
Sur base de la formule ci-dessous, calculez la statistique \(t\) de Student.
Indiquez, en vous basant sur les tables fournies, la p-valeur correspondante.
Interprétez la p-valeur, et aidez le chercheur à tirer les conclusions de son étude.
Un groupe de chercheurs a détecté l’association, avec la résistance à la bilharziose, de taux élevés d’IgE spécifiques, une classe particulière d’anticorps. D’autres chercheurs ont cherché à répliquer ce résultat dans une population indépendante exposée à la bilharziose. Les résultats obtenus sont indiqués ci-dessous.
Quelle méthode préconisez-vous pour tester l’égalité des moyennes (justifiez) ? Quelles sont les hypothèses de travail de ce test ?
En partant du principe que ces conditions sont remplies dans le cas présent, formulez l’hypothèse nulle et calculez le score t de Student (formule ci-dessous). Enfin, estimez P valeur à partir de la table fournie.
A l’issue du test, quelle décision prenez-vous ? Justifiez votre réponse.
Dans le génome de la levure, 40 gènes ont été assignés à la classe fonctionnelle “Biological Process: Methionin Biosynthesis”. Une expérience de transcriptome rapporte 80 gènes différentiellement exprimés, dont 10 appartiennent à cette classe fonctionnelle. Sachant que le génome comporte 6000 gènes, peut-on consiérer ce résultat comme significatif ?
La roulette comporte 37 nombres allant du 0 au 36. Un joueur a décidé de miser systématiquement 1 euro sur le nombre 17 jusqu’à ce que ce nombre sorte, et de s’arrêter ensuite. Sachant que quand on mise sur un seul nombre, le gain vaut 36 fois la mise, quelle est la probabilité pour que le joueur sorte du casino en ayant gagné de l’argent ? Il n’est pas nécessaire de fournir une réponse numérique, vous pouvez vous contenter d’indiquer la formule, en indiquant les nombres correspondant aux différents symboles mathématiques. Justifiez votre réponse en expliquant votre raisonnement.
En quoi consiste le modèle de Bernoulli ? Ce modèle est-il généralement adapté à l’analyse des séquences biologiques ? Justifiez en quelques phrases.