Cours d'introduciton à la bioinformatique, 2ème licence en Sciences de la vie, Aix-Marseille Université (L2 SV AMU)
View the Project on GitHub jvanheld/intro-bioinfo-L2-SV-AMU-SSV3U15_public
Utiliser des ressources bioinformatiques pour explorer les génomes d’organismes modèles, afin de comprendre la structuration et la composition de ces génomes.
Le gène PAX6 humain (également appelé aniridia) code pour un facteur transcriptionnel qui s’exprime dans certains tissus pendant l’embryogenèse, et contrôle la formation de l’œil. Des mutations de PAX6 suscitent des malformations de l’oeil. On trouve des homologues du gène PAX6 dans les génomes des métazoaires (animaux pluricellulaires).
Ressource | Lien | Description |
---|---|---|
UCSC genome browser | genome.ucsc.edu | Navigateur génomique présentant un vaste choix de types d’annotations |
NCBI ORFfinder | www.ncbi.nlm.nih.gov/orffinder | Détection de cadre ouverts de lecture (ORFs) dans des séquences nucléiques |
RegulonDB | regulondb.ccg.unam.mx/ | base de connaissance sur la régulation transcriptionnelle chez la bactérie Escherichia coli: facteurs transcriptionnels, sites de liaison, régulons, opérons |
Nous allons utiliser le navigateur de génomes UCSC genome browser pour consulter différents types d’annotations génomiques dans la région du gène humain PAX6.
La page de résultat affiche une série d’annotations de PAX6 dans différentes bases de données de référence pour le génome humain. Comment choisir ? En première instance, le mieux est de se fier aux annotations du consortium international HUGO, responsable de la nomenclature des gènes humains.
PAX6 - chr11:31789026-31817960
.Le navigateur de génomes UCSC Genome Browser affiche un vaste choix de pistes d’annotation. La carte génomique en affiche un sous-ensemble, qui s’adaptent en fonction de vos consultations précédentes. Nous allons restreindre la visualisation aux pistes d’annotations utilisées pour ce TP.
Descendez sous la carte génomique pour afficher les choix de pistes d’annotations.
Entre la carte et les options, cliquez Hide all pour masquer les pistes génomiques par défaut.
Dans la catégorie Mapping and Sequencing, sélectionnez le mode d’affichage dense pour la piste d’annotation Base position.
Dans la catégorie Genes and Gene Prediction, sélectionnez le mode pack pour les pistes HGNC et GENCODE_V46. HGNC indique les limites des gènes, tandis que GENCODE_V46 fournit des informations plus détaillées sur la structure des gènes (introns, exons, transcrits alternatifs, …).
Cliquez Refresh à droite d’une des catégories.
Cliquez Resize sous la carte pour ajuster la largeur à celle de votre écran.
Vous pouvez à tout moment reconfigurer le mode d’affichage d’une piste d’annotation, en cliquant droit (contrôle-clic) sur la figure. Ceci vous affichera un menu avec des modes d’affichages de plus en plus détaillés : hide, dense, squish, pack, full.
Testez les différents niveaux de détail avec la piste GENCODE_V46, puis sélectionnez le mode pack, qui vous permet généralement de visualiser les transcrits alternatifs en occupant une place raisonnable.
Dans la catégorie Repeats, activez l’affichage de Repeatmasker en format dense et cliquez Refresh.
Dézoomez (Zoom out) d’un facteur x1.5 pour voir les environs du gène
Déplacez la piste HGCN au-dessus de la piste GENCODE_V46 (en positionnant la souris vers le coin supérieur gauche d’une piste, une flèche apparaît qui permet de la déplacer)
Observez la disposition du gène PAX6. Notez qu’il chevauche ses voisins de gauche (ELP4) et de droite (PAX6-AS1, où AS indique qu’il s’agit d’un gène antisens).
Sur Ametice, ouvrez le questionnaire du TP3 et répondez aux questions de l’Exercice 1 “Annotations génomiques dans la région du gène humain PAX6”.
Dans la catégorie Comparative genomics, activez l’affichage pack de la piste Conservation.
A priori, cette piste s’affiche entre les annotations GENCODE_V46 et les régions répétitives. Faites remonter la piste RepeatMasker pour la placer entre les pistes GENCODE_V46 et Conservation.
Cliquez droit (contrôle-clic) sur l’image de conservation à la hauteur où s’affichent les espèces et sélectionnez Configure MultiZ Align.
Dans la fenêtre d’options qui apparaît, cochez quelques espèces de votre choix.
Veillez à panacher (essayez d’avoir une ou deux espèces de chaque groupe plutôt qu’un tas d’espèces du même groupe).
Pour une raison technique, le génome du chien présente des lacunes à cet endroit du génome. Désactivez l’affichage du chien (dog) et activez celui d’un ou deux autres mammifères du même groupe.
Dans la catéogrie Mammal, cochez toutes les espèces. Notez que les catégories précédentes contiennent également des mammifères (Primates, Euarchontoglires, Laurasiatheria). La catégorie Mammal présente des espèces plus éloignées (marsupiaux, monotrèmes), qui sont utiles pour visualiser les régions les plus conservées entre mammifères.
Cliquez Apply.
Dézoomez d’un facteur 1.5 pour observer le contexte aux alentours du gène.
Dans la figure qui apparaît, la carte de conservation génomique comporte deux parties.
La partie supérieure affiche un profil de conservation calculé à partir de l’alignement de 100 génomes de vertébrés. La hauteur du profil indique le pourcentage de positions identiques (PPI) à chaque position du génome. Notez que l’échelle verticale va de 50% à 100%, pour mieux faire ressortir les régions conservées.
La partie inférieure indique, sous forme d’une échelle de gris, le pourcentage de conservation par position chez chacune des espèces que vous avez sélectionnées.
Sur Ametice, ouvrez le questionnaire du TP3 et répondez aux questions de l’Exercice 2 “Conservation de la région génomique PAX6 chez les vertébrés”.
Nous allons maintenant ajouter à notre carte génomique une piste d’annotation de la base de données GTEx (Genotype-Tissue Expression). GTEx contient des données de transcriptome (mesure quantitative de tous les transcrits produits par un génome) dans des échantillons de 54 tissus prélevés chez 948 personnes adultes.
Dans la catégorie Expression, activez l’affichage pack de GTEX_Gene_V8.
Cliquez sur l’icône du gène PAX6 sur la piste GTEX_Gene_V8, et examinez le profil d’expression tissulaire.
Interprétation du graphique
Les profils sont affichés sous forme de “boîte à moustaches” (box plot en anglais) pour chaque tissu.
Sur Ametice, ouvrez le questionnaire du TP3 et répondez aux questions de l’Exercice 3 “Profil d’expression tissulaire de PAX6”.
Nous disposons d’un fragment chromosomique bactérien, qu’on peut récupérer en cliquant ici.
Ouvrez ce fichier dans un onglet séparé. Pour l’étape suivante, vous pourrez soit le copier à partir de cet onglet, soit le sauvegarder sur votre ordinateur et l’ouvrir avec un éditeur de texte de votre choix.
Nous allons utiliser quelques outils bioinformatiques pour annoter ce fragment d’ADN chromosomique. La première étape consiste à localiser les gènes sur ce fragment d’ADN. Il faudra ensuite essayer de trouver la fonction assurée par ces gènes.
Afin de localiser les gènes sur ce fragment d’ADN chromosomique, nous allons effectuer une recherche de cadres ouverts de lecture (open reading frames, ORFs), en utilisant l’outil ORFinder du NCBI.
Dans la section, “Choose Search Parameters” :
Qu’observez-vous dans la fenêtre qui s’affiche ? En particulier
à quoi correspondent les lettres rouges?
à quoi correspondent les astérisques ?
pourquoi y a-t-il 3 lignes de lettres décalées au dessus de la séquence d’ADN, et 3 en-dessous ?
à quoi correspondent les lettres bleues (descendez dans la fenêtre pour les voir)
Fermez la fenêtre “Six frame translation”, puis relancez la traduction sur 6 phases avec une option alternative, en cliquant sur Six-frame translation puis sur Add six-frame translation track. Qu’observez-vous dans la fenêtre qui s’affiche ?
Astuce : pour répondre aux questions 2 et 3, zoomez sur la carte jusqu’à faire apparaître l’enchaînement des résidus (acides aminés et nucléotides).
Vous allez maintenant déterminer la taille des régions intergéniques (RI) entre ces ORFs.
*Astuce: sous la carte des ORF, ORFfinder affiche un tableau indiquant les coordonnées génomiques et la taille des ORFs détectés. Vous pouvez récupérer les valeurs de ce tableau pour calculer la taille des régions intergéniques. *
Quelles conclusions peut-on tirer à partir des tailles de ces RI ?
Quelle structure serait présente sur ce fragment d’ADN chromosomique ?
Une seule réponse: UTR, intron, exon, opéron, site d’épissage
Quels ORFs seraient inclus dans cette structure ?
Une ou plusieurs réponses: ORF1, ORF6, ORF4, ORF5, ORF8, ORF10
Quels éléments vous permettent de conclure sur le nombre d’ORFs inclus dans cette structure ? (une ou plusieurs réponses)
Vous allez maintenant vous intéresser à l’annotation fonctionnelle de ces ORFs détectés dans le fragment d’ADN chromosomique étudié. Pour cela, le plus simple est de faire une recherche par similarité dans une base de données (outil BLAST), afin de comparer les ORFs identifiés aux séquences déjà connues et répertoriées dans les bases de données.
Vous allez ainsi vérifier à quel gène pourraient correspondre les ORF1 et 10.
En quoi consiste une recherche par BLASTP ?
Quelle est la base de données interrogée lors de cette requête ? (une seule réponse) UniprotKB TREMBL, UniprotKB complet, Swiss-prot
Combien de résultats obtenez-vous ? (Réponse numérique)
Pour la séquence cible la plus similaire à la requête soumise, quel est le pourcentage d’identité obtenu ? (Réponse numérique)
Quel est son pourcentage de couverture par rapport à la séquence requête ? (Réponse numérique)
Quelle est la E-value obtenue ? (réponse numérique)
Que signifie une e-value de 0.0 ? (plusieurs choix possibles)
Est-ce que ces deux séquences alignées sont vraisemblablement homologues ? (Oui / Non)
Quelle est la fonction que l’on peut ainsi associer à l’ORF1 ?
Vous allez maintenant rechercher le nom du gène correspondant à l’ORF1.
Question (Hors questionnaire)
Quel est le nom du gène correspondant à l’ORF1 ? (une seule réponse)
L’ORF10 chevauche étonnamment l’ORF8 de manière importante, sur une grande partie de sa longueur. Afin de tenter de déterminer à quel gène pourrait correspondre cet ORF10, vous allez donc faire, pour l’ORF10, la même manipulation que celle faite pour l’ORF1.
Questions (Hors questionnaire)
Quelle fonction pouvez-vous assigner à l’ORF10 sur base du résultat ? (une ou plusieurs réponses possibles)
Comparez votre prédiction d’ORFs avec ORFinder à la carte de l’opéron sur RegulonDB.
Quel est le gène manquant dans votre résultat d’ORFinder ? (une seule réponse)
Cliquez sur ce gène, puis trouvez sa taille. (Réponse numérique)
Pourquoi ce gène n’est-il pas détecté lors de la recherche avec ORFinder ? (une ou plusieurs réponses)
D’après la carte de l’opéron, à quel gène correspondrait l’ORF 9 détecté avec ORFinder ? (une seule réponse)
Comment s’appelle le gène directement en amont de l’opéron ? (une seule réponse)
Pourquoi ce gène n’est-il pas détecté lors de la recherche avec ORFinder ?
Au cours de ce TP, vous avez utilisé des outils de navigation génomique et d’analyse de séquences pour explorer les régions génomiques humaines (autour du gène humain PAX6) et bactériennes (opéron his chez Escherichia coli).
Ceci vous a amenés à mettre en pratique une série de concepts biologiques en manipulant des séquences et annotations génomiques avec deux des navigateurs génomiques les plus utilisés en biologie : UCSC Genome Browser et NCBI (que vous aviez commencé à utiliser au TP2).
L’exploration des annotations génomiques de PAX6 vous a permis d’acquérir les compétences suivantes
L’analyse de la séquence génomique vous a placés dans la situation des biologistes qui disposent de nouvelles séquences génomiques bactériennes. Vous avez appris à manipuler une série d’outils en ligne qui permettent de réaliser facilement les premières étapes de cette démarche d’annotation :