Cours d'introduciton à la bioinformatique, 2ème licence en Sciences de la vie, Aix-Marseille Université (L2 SV AMU)
View the Project on GitHub jvanheld/intro-bioinfo-L2-SV-AMU-SSV3U15_public
Durant cette séance de TP, nous analyserons le lien entre séquence, structure tridimensionnelle et fonction des protéines.
Ce TP mobilisera les notions suivantes abordées au cours
Ressource | Description | URL |
---|---|---|
Uniprot | principale base de données mondiale de séquences protéiques et d’informations fonctionnelles | https://www.uniprot.org/ |
PDB | Protein Databank, base de données de sructures protéiques | https://www.rcsb.org/ |
icn3D | Outil de visualisation et d’analyse des structures protéiques (NCBI) | https://www.ncbi.nlm.nih.gov/Structure/icn3d/ |
Ce tutoriel vise à se familiariser avec l’interface de la base de données et de connaissances Uniprot.
Durant le TP, vous apprendrez à :
Dans un premier temps nous allons faire une requête “naïve” en entrant “Human” dans la boîte de recherche.
Ouvrez une connexion à Uniprot (uniprot.org)
Cliquez Search en veillant à laisser la boîte de recherche vide. Ceci sélectionnera l’ensemble des entrées la base de données.
Connectez-vous à Ametice et répondez à la première section questionnaire du TPa1: Questionnaire TP1a - Requêtes sur UniprotKB.
Dans la boîte de recherche, tapez “Human” et cliquez “Search”
Dans la boîte de recherche, tapez “Human” et cliquez “Search”. Connectez-vous à Ametice et répondez à la deuxième section questionnaire du TPa1: Questionnaire TP1a - Requêtes sur UniprotKB.
Dans la section “Popular organisms”, cliquez “Human”. Connectez-vous à Ametice et répondez à la troisième section questionnaire du TPa1: Questionnaire TP1a - Requêtes sur UniprotKB.
Nous avons vu ci-dessus qu’une requête naïve peut s’avérer trompeuse, car elle retourne toutes les entrées d’Uniprot qui contiennent les termes de la boîte de recherche, sans tenir compte de l’endroit où ces termes apparaissent dans les annotations. On peut donc se retrouver avec des tas de protéines non-humaines, qui sont sélectionnées parce que le mot “Human” apparaît dans l’un ou l’autre champ (par exemple “similar to Human …”).
Nous recommandons donc fortement d’éviter cela, et de recourir systématiquement aux requêtes avancées.
Requête avancée | Nombre de résultats |
---|---|
Info: 9606 est l’identifiant taxonomique de l’espèce Homo sapiens dans la base de données taxonomique de référence, qui est gérée par le NCBI. Vous pouvez consulter les informations associées en cherchant “Homo sapiens” sur www.ncbi.nlm.nih.gov/Taxonomy/
Voici le lien direct:
On notera que ce taxon inclut deux variétés fossiles
Nous avons maintenant sélectionné le protéome de référence de l’espèce Homo sapiens dans Uniprot.
Le panneau de gauche permet d’explorer de façon interactive différentes propriétés de ce protéome.
Nous effectuerons cette exploration en nous limitant au sous-ensemble des protéines révisées. Pour cela, cliquez sur “Reviewed (Swiss-Prot)” dans le panneau de gauche. Ceci restreindra les analyses suivantes aux 20.420 protéines les mieux documentées pour l’humain.
Dans la section “Group by” du panneau de gauche, cliquez “Gene Ontology”. Ceci vous affiche le nombre de protéines (parmi les 20.420) pour lesquelles on dispose d’annotation dans chacune des trois catégories de la Gene Ontology:
Les triangles à gauche de chaque nombre permettent de déployer le niveau suivant de la classification hiérarchique des termes de l’ontologie. Cliquez sur le triangle à gauche de “biological process” pour afficher ses sous-catégories.
Notez que la somme des nombres des sous-catégories dépasse de loin la taille de la catégorie parente (biological process. Ceci est logique, car une même protéine peut appartenir à plusieurs classes simultanément. Par exemple, une protéine pourrait être impliquée dans la régulation biologique (12.123 protéines) positive (6.193 protéines) d’un processus de développement (5.698 protéines). Cette protéine sera donc comptée 3 fois à ce niveau de la classification.
Nous allons maintenant combiner les informations de Swiss-prot et de la Protein Data Bank (PDB) pour étudier quelques cas illustratifs de relations entre la séquence, la structure et fonction des protéines.
Nous commençons ce TP par explorer sommairement l’interface usager de Protein Data Bank, la base de données de référence pour les structures tridimensionnelles des protéines.
En haut à gauche de la fenêtre, la page web affiche le nombre toal de structures expérimentales, et le nombre total de modèles prédits (computed).
En cliquant sur le nombre de structures (expérimentales) affiché en haut de la page d’accueil (Structures from the PDB), vous pourrez observer la répartition de ces structures. Observez le nombre de structures expérimentales caractérisées par organisme, groupe taxonomique, méthode expérimentale, …
Pour les exercices suivants, nous allons nous concentrer sur un cas d’étude : le transporteur de glucose de l’humain. Nous commencerons par analyser les annotations fonctionnelles de cette protéine sur Uniprot, et nous utiliserons ensuite les outils de PDB (Protein Data Bank) pour analyser le lien entre les différents domaines topologiques de sa séquence et sa structure tridimensionnelle.
Dans Uniprot, ouvrez la fiche de la protéine dénommée “Solute carrier family 2, facilitated glucose transporter member 1” (identifiant GTR1_HUMAN)
Consultez la section “Subcellular location”. Répondez aux questions suivantes sur Ametice (Questionnaire TP1c)
Consultez la section “Diseases and variants”
Dans un onglet séparé, connectez-vous au portail GTEx (gtexportal.org/) et consultez le profil transcriptomique du gène qui code pour cette protéine (vous trouverez son nom dans la section “Names and taxonomy” de la fiche Uniprot)
Revenez à la page de cette protéine (P11166) dans Uniprot et consultez la section “Structure”.
Cliquez sur le lien “RCSC-PDB” de la structure avec la meilleure résolution (6THA). Ceci ouvre un nouvel onglet vers le serveur RCSC-PDB.
Dans la seection suivante, nous utiliserons ce serveur pour visualiser la structure du transporteur du glucose et analyser la relation entre séquence et structure. Conservez toutefois l’onglet Uniprot ouvert, nous serons amenés à faire des aller-retours entre PDB et Uniprot.
Consultez rapidement les annotations de la structure intitulée “Crystal structure of human sugar transporter GLUT1 (SLC2A1) in the inward conformation” (identifiant PDB 6THA) sur le serveur RCSB-PDB. Evaluez les types d’informations disponibles. Notez que la page propose une série d’onglets avec différents types d’information (Structure, Annotations, Experiment, Sequence, Genome, Ligands, Versions). Dans ce tutoriel, nous combinerons les informations de séquence et de structure.
Dans la section “Explore 3D” sous l’image de la structure, cliquez “Sequence annotations”. Ceci ouvre une page avec deux deux panneaux :
Nous allons commencer par personnaliser l’affichage de la protéine, et nous explorerons ensuite les relations entre les caractéristiques de la séquence (panneau de gauche) et de la structure (panneau de droite).
En haut à droite de la fenêtre, une série d’icones vous proposent différents outils pour manipuler et analyser la structure. Un premier click sur une icône affiche l’outil, un second click le masque. Cliquez sur l’icône de clé à molette. Ceci affichera deux nouveaux panneaux :
Vous pouvez déplacer la limite verticale entre le panneau d’annotation et celui de structure pour qu’ils occupent chacun la moitié de l’écran (sans compter le panneau d’outils).
Dans la section “Components” de la boîte à outils, masquez les molécules d’eau et les ions en cliquant sur l’oeil. Testez également l’effet de l’affichage / masquage des autres composantes de la structure, puis veillez à réactiver leur affichage.
Nous allons maintennat colorer la protéine pour mettre en évidence ses éléments de structure. A côte de la composante “A”, cliquez l’icône ...
pour afficher les options de représentation de la protéine. L’affichage par défaut se fait au niveau de la chaîne polypeptidique, ce qui peut être intéressant pour des complexes protéiques ou protéine-ADN, mais n’est pas très illustratif quand on visualise une protéine composée d’une seule chaîne polypeptidique, ce qui est notre cas. Testez des modes alternatifs de représentation au niveau des propriétés des résidus et interprétez ce que vous voyez. Retenez ensuite la propriété “Sequence ID”, qui assigne une couleur différente à chaque élément structurel, selon un gadient du bleu au rouge.
Après avoir personnalisé l’affichage des éléments de structure, nous allons sélectionner différents segments annotés de la protéine (panneau de gauche), et les localiser sur la structure tridimensionnelle (panneau de droite). Cliquez successivement sur les segments de la piste d’annotation “Membrane topology” et identifiez les éléments structurels (hélices alpha, feuillets beta) correspondants. Explorez en particulier les éléments structurels (rectangles roses sur la piste “Secondary structure”) et les annotations de topologie de membrane (rectangles verts ou violets sur les pistes “Membrane Topology”).
Quand vous cliquez sur un élément, l’affichage de la structure est recadrée sur cet élément, dans le panneau de droite, et le segment de séquence correspondant est marqué dans la partie supérieure du panneau de droite. Pour voir l’élément dans le contexte global de la protéine, utilisez les options Reset Zoom. Faites tourner la structure pour afficher au mieux les segments que vous sélectionnez successivement. Vous pouvez à tout moment revenir à la position initiale avec la fonction Reset Axes.
Les exercices suivants peuvent être réalisés soit en fin de séance de TP (si vous avez été très rapide), soit ultérieurement, à votre rythme.
Cette section est facultative. Elle permettra à ceux qui le désirent de découvrir un autre outil Web pour l’analyse des structures de protéines.
Dans un onglet séparé, connectez-vous au serveur icn3D, et entrez l’identifiant de la structure PDB (6THA) dans la boîte de requête, et pressez la touche “Entrée”. Vérifiez que vous avez bien chargé la bonne structure : “PDB ID 6THA: Crystal structure of human sugar transporter GLUT1 (SLC2A1) in the inward conformation”.
Choisissez une coloration en arc-en-ciel pour repérer la position des différents éléments de structure par rapport aux extrémités de la chaîne polypeptidique (Color -> Rainbow -> For Chains).
Testez les différents modes d’affichage de la protéine en explorant les options du menu Styles -> Proteins et tentez d’identifier l’intérêt des différents modes de représentation. En particulier, assurez-vous de comprendre les options d’affichage suivantes :
(la réponse à cette question peut faire l’objet d’un debriefing en séance)
Revenz à la représentation Ribbon, que nous utiliserons principalement pour la suite.
Faites tourner la structure et localisez les molécules qui ne font pas partie de la protéine. Sélectionnez ces molécules (Select -> Defined sets, puis cliquez chemicals dans la boîte qui apparaît à droite de la fenêtre). Affichez-les en style “Balls and stick” (Style -> Chemicals -> Balls and sticks), et colorez-les en fonction des atomes (Color -> Atom). Désélectionnez ensuite ces molécules (Select -> Clear Selection).
Sélectionnez la protéine (Select -> Defined sets puis protein) et colorez-la en fonction de la charge des résidus (Color -> Charge). Défaites la sélection pour mieux voir le résultat.
Analysez la localisation de ces résidus chargés, et interprétez le résultat dans le contexte des annotations d’Uniprot.
Le protéome d’un organisme consiste en l’ensemble de ses protéines. Dans Uniprot, les séquences protéiques proviennent de la traduction automatique de séquences génomiques. Avec la multiplication des projets de séquençages individuels d’humains, le nombre de séquences différentes a augmenté, avec une certaine redondance.
Pour faciliter le travail, l’équipe d’Uniprot a défini le concept de “Protéome de référence”.
Après avoir effectué une requête avancée en cherchant Homo sapiens dans le nom d’organisme, le titre de la page de résultat inclut un lien vers le protéome de référence de l’humain.
UniProtKB 204,411 results or expand search to “9606” to include lower taxonomic ranks or restrict to reference proteome UP000005640
En cliquant sur le lien UP000005640, on obtient un protéome totalisant 82.861 protéines dont 20.420 révisée par des annotateurs (Swiss-prot) et 62.441 non-révisées (TrEMBL).
Notez que la boîte de requête affiche maintenant le texte structuré suivant:
(organism_id:9606) AND (proteome:UP000005640)
Vous pouvez construire des requêtes plus complexes avec l’outil “Advanced”, qui vous permettra de combiner plusieurs critères de sélection avec différents opérateurs logiques (AND, OR).
Pour consulter la liste des protéomes de référence, en revenant à la page d’accueil d’Uniprot, et en sélectionnant, à gauche de la boîte de recherche, la section “Proteomes”
Ceci remplace la boîte “Find your protein” par “Find your proteome”
Vous pouvez ensuite effectuer une requête avancée pour sélectionner le protéome de référence (Proteome type) de l’organisme modèle de votre choix (par exemple “Escherichia coli (strain K12) (E.coli) [83333]”)
Formulez une requête avancée sur l’ensemble des protéines du protéome de référence humain en sélectionnant les enzymes annotées dans Swiss-Prot, qui ont une localisation cytoplasmique et sont impliquées dans la voie canonique de la glycolyse. Combien de protéines obtenez-vous ?
canonical glycolysis (GO:0061621) [0061621]
cytoplasm (GO:0005737) [0005737]
Sélectionnez le protéome de référence de l’un des organismes modèles suivants, et analysez la répartition de ses gènes aux deux premiers niveaux des processus biologiques de la gene ontology.
Pour l’organisme de votre choix, quels sont les valeurs suivantes ?
Dans Uniprot, ouvrez la fiche de la sous-unité alpha de l’hémoglobine humaine (Hemoglobin subunit alpha)
…
Dans le protéome de la levure du boulanger (Saccharomyces cerevisiae (strain ATCC 204508 / S288c) (Baker’s yeast/Baker’s yeast/Brewer’s yeast/S. cerevisiae) [559292]), comptez le nombre de protéines appartenant aux classes suivantes :
Dans le protéome de référence de l’humain, combien y a-t-il de récepteurs olfactifs?
Si vous le désirez, vous pouvez participer au challenge de générer la plus belle image de structure tridimensionnelle de structure protéique. Cette activité ne vous donnera aucun bonus, mais elle vous permet de vous familiariser avec des outils de structure, et elle peut vous apporter la gloire intergalactique si vous faites partie des gagnants.
Défi : en utilisant l’outil bioinformatique de votre choix, générez une image tridimensionnelle d’une structure protéique, en tentant d’utiliser au mieux les options d’affichage pour mettre en évidence les particularités structurelles et fonctionnelles de cette protéine.
**Dépôt des fichiers: ** sur Ametice