Cours Nature et Culture de la licence Sciences et Humanités, Aix-Marseille Université
View the Project on GitHub jvanheld/shnc-origines-sars-cov-2
Chaque TP est constitué d’une série d’exercices.
Ouvrez deux fenêtres : une pour ce tutoriel et l’autre pour le QCM (questionnaire) associé au tutoriel (vous trouverez le lien sur AMETICE).
Suivez ce tutoriel et faites les exercices. Les questions, mais pas les explications, se trouvent également dans le QCM.
Répondez aux questions au fur et à mesure dans le QCM.
Attention! Si vous ne suivez pas le tutoriel, les questions de QCM peuvent être ambiguës. Ne faites pas l’impasse sur le tutoriel, c’est le cœur de l’apprentissage dans cet enseignement.
Attention aux réponses libres du questionnaire :
- Ecrivez les nombres sans espace et sans virgule. Par exemple :
9365589
plutôt que9 365 589
ou9,365,589
.- Utilisez le point comme séparateur de décimales. Par exemple
3.14
plutôt que3,14
.- Si on demande un pourcentage écrivez uniquement le nombre sans le signe %. Par exemple
30
et non30%
ou0.3
.- Si on demande une proportion ne donnez pas la réponse en pourcentage. Par exemple écrivez
0.3
et non30%
.
Le matériel de support est disponible ici : diapos CM1
Lors du premier cours, nous avons présenté une introduction aux concepts biologiques liés à l’origine de coronavirus SARS-CoV-2, et commencé à fournir les premiers éléments pour l’analyse bioinformatique des séquences.
Le but de cette série de TP sera d’utiliser des méthodes et outils bioinformatiques afin de retracer l’origine de SARS-CoV-2.
Objectifs spécifiques
Les tutoriels sont entrecoupés des questions auxquelles vous pouvez répondre en un ou quelques mots. Nous vous indiquerons, au fil de ce TP, les moments où il vous faudra encoder les réponses dans les questionnaires du site Ametice.
Dans cet exercice, vous allez apprendre à faire des requêtes naïves et structurées pour trouver les protéines qui vous intéressent et découvrir le type d’information disponibles dans Uniprot.
Questions 1.1 - Uniprot - Page d'accueil
1.1.1. Quelle est le nom de la base de données contenant uniquement des séquences annotées par un humain (reviewed) ?
1.1.2 Combien de séquences contient-elle ?
1.1.3 Quelle est le nom de la base de données contenant uniquement des séquences annotées automatiquement et qui n'ont fait l'objet d'aucune vérification par un être humain ?
1.1.4 Combien de séquences contient-elle ?
Vous pouvez sélectionner des champs à afficher dans le tableau de résultats. Cliquez sur le bouton Columns. Vous trouverez tous les champs possibles à afficher regroupés par catégories. Affichez l’identifiant de la séquence (Entry name), le nom de la protéine, le nom de l’espèce (Organism), et la longueur de la séquence. Enregistrez ce réglage (Save).
La table de résultats est mise à jour, avec l’ajout de colonnes indiquant les informations que vous avez sélectionnées. Toutes les protéines proviennent des SARS-CoV-2 ? Sont-ils tous des protéines Spike ? (Vous pouvez trier le tableau en fonction d’une colonne à l’aide des triangles à côté du nom de la colonne.)
Cliquez sur l’identifiant Q9BYF1 dans le tableau de résultats pour examiner les annotations de cette protéine. (Vous pouvez afficher plus de séquences par page à l’aide de menu déroulant Show et faire une recherche de texte dans la page avec Ctrl-F)
Questions 1.2 - Uniprot - Requête naïve
1.2.1 De quelle espèce provient cette séquence ?
1.2.2 Quelles sont ses fonctions ?
1.2.3 Dans quels champs apparait le mot 'Spike' ? (Vous pouvez faire une recherche de texte dans la page avec Ctrl-F)
1.2.4 Dans quels champs apparait le mot 'SARS-CoV-2' ? (Vous pouvez faire une recherche de texte dans la page avec Ctrl-F).
Répondez par VRAI ou FAUX
1.2.5 Pourquoi la recherche naïve 'spike sars-cov-2' n'est pas précise dans notre cas ?
Requête structurée :
Sauvegarde de la table des résultats et des séquences :
sp|P0DTC2|SPIKE_SARS2
). La ligne de description peut éventuellement contenir des commentaires libres (dans l’exemple ci-dessus: Spike glycoprotein OS=Severe acute respiratory syndrome coronavirus 2 OX=2697049 GN=S PE=1 SV=1).>sp|P0DTC2|SPIKE_SARS2 Spike glycoprotein OS=Severe acute respiratory syndrome coronavirus 2 OX=2697049 GN=S PE=1 SV=1
MFVFLVLLPLVSSQCVNLTTRTQLPPAYTNSFTRGVYYPDKVFRSSVLHSTQDLFLPFFS
NVTWFHAIHVSGTNGTKRFDNPVLPFNDGVYFASTEKSNIIRGWIFGTTLDSKTQSLLIV
NNATNVVIKVCEFQFCNDPFLGVYYHKNNKSWMESEFRVYSSANNCTFEYVSQPFLMDLE
GKQGNFKNLREFVFKNIDGYFKIYSKHTPINLVRDLPQGFSALEPLVDLPIGINITRFQT
...
Faites une recherche structurée pour trouver les protéines ENV et GAG du virus Human immunodeficiency virus type 1 group M subtype A (isolate MAL) (HIV-1) présentes dans SwissProt.
Attention! En utilisant les connecteurs logiques AND et OR dans la même requête, il est recommandé d’ajouter des parenthèses manuellement dans la phrase de recherche.
Questions 1.3 - Uniprot - Requête structurée
1.3.1 Combien de protéines avez-vous trouvées ?
1.3.2 Quel est l'identifiant de la protéine 'Envelope glycoprotein' parmi vos résultats ?
Pour pouvoir comparer deux séquences il est nécessaire de les aligner. Ceci va permettre de calculer le pourcentage d’identité entre les séquences et détecter des mutations (substructions, indels) entre elles. Dans cet exercice vous allez utiliser un logiciel d’alignement deux à deux (ou alignement par paires) qui aligne la totalité des deux séquences (tous les résidus). needle est l’abréviation du nom de l’algorithme de Needleman et Wunsch. Ce type d’alignement s’appelle alignement global par opposition à l’alignement local qui n’aligne que les portions des séquences significativement similaires.
Nous avons extrait des séquences du gène S (codant pour la protéine Spike) à partir de 3 génomes complets et nous avons identifié les séquences protéiques correspondantes.
Utilisez les liens dans le tableau ci-dessous pour accéder aux séquences protéiques en format fasta. l’extraction des séquences de gène S à partir de génome complet est un peu plus longue. Nous avons fait le travail pour vous. Vous trouverez les séquences ARN de gène S dans le fichier suivant : S-gene_3.fasta
Virus | Hôte | Génome | Protéine spike |
---|---|---|---|
SARS-CoV-2_WH01_2019 | Homo sapiens | MT019529.1 | QHU36824.1 |
RaTG13_2013_Yunnan | Rhinolophus affinis | MN996532.1 | QHR63300.2 |
MERS_172-06_2015 | Homo sapiens | KT868877.1 | ALK80311.1 |
Un logiciel d’alignement par paires needle est disponible sur le site de centre de ressources EBI. Utilisez ce logiciel pour aligner le gène S de SARS-CoV-2 avec les deux autres virus (Faites deux alignements dans deux onglets séparés)
Questions 2.1 - Alignement par paires - Gene S
2.1.1 Quel est le pourcentage d'identité entre les gènes S de SARS-CoV-2 et RaTG13_2013_Yunnan ?
2.1.2 Quel est le pourcentage d'identité entre les gènes S de SARS-CoV-2 et MERS_172-06_2015 ?
2.1.3 Quel est le pourcentage des gaps dans l'alignment entre les gènes S de SARS-CoV-2 et MERS_172-06_2015 ?
Questions 2.2 - Alignement par paires - Protéine Spike
2.2.1 Quel est le pourcentage d'identité entre les protéines Spike de SARS-CoV-2 et RaTG13_2013_Yunnan ?
2.2.2 Quel est le pourcentage d'identité entre les protéines Spike de SARS-CoV-2 et MERS_172-06_2015 ?
2.2.3 Quel est le pourcentage de gaps dans l'alignment entre les gènes S de SARS-CoV-2 et MERS_172-06_2015 ?
Répondez par VRAI ou FAUX
2.2.4 Bien que le pourcentage d'identité entre les protéines de SARS-CoV-2 et MERS_172-06_2015 soit plus faible qu'entre les gènes, l'alignement des protéines comporte moins de gaps et la similarité entre des séquences semble plus convainquante.
Dans l’exercice précédent, vous avez aligné un gène ou protéine à deux autres séquences pour pouvoir les comparer. Si vous voulez comparer la même séquence à toute les séquences d’une base de données pour pouvoir repérer les séquences similaires, cette approche n’est pas tenable. L’outil BLAST remplit cette tâche avec une vitesse tout à fait raisonnable malgré la taille énorme des bases de données (1000 milliards de nucleotides en GenBank en oct 2021). Il repère les séquences similaires à une séquence requête et aligne les régions significativement similaires entre la séquence requête et les séquences de la BDD. BLAST fait donc des alignement locaux. Dans cet exercice, vous allez comparer la protéine Spike SARS-CoV-2 à la BDD protéique de NCBI (Genpept) pour identifier les homologues venant des autres virus.
Point de nomenclature Pour respecter la nomenclature de BLAST sans utiliser de périphrases en français, nous utiliserons ci-dessous les noms de hit ou HSP (High Scoring Pair) pour désigner une séquence de la base de données rapportée par BLAST comme similaire à la séquence requête.
Récupérez la séquence de la protéine Spike de SARS-CoV-2 sur NCBI: QHU36824.1
Faites un BLAST en utilisant la protéine QHU36824.1 comme séquence requête contre la BDD NCBI protéine.
Observez la page de résultat de BLAST qui apparait après quelques secondes/minutes. Il est est composé de 4 onglets essentiels :
Parmi les hits examinez l’alignement de la séquence requête avec la séquence ALK80311.1. (Vous pouvez utilisez la recherche Ctrl-F pour retrouver l’identifiant dans la page de Descriptions) C’est la séquence de MERS_172-06_2015 que vous avez alignée dans l’exercice précédent avec la protéine spicule de SARS-Cov-2. Analysez l’alignement en tentant de faire le rapport entre les caractéristiques de l’alignement et les scores qui le caractérisent: score brut, identités, résidus “positifs” (identités et substitutions conservatives: substitution entre acides aminés de propriétés similaires), gaps, E-valeur.
Questions 3.1 - BLAST - Alignmement de la Protéine Spike de SARS-Cov-2 avec la séquence ALK80311.1
3.1.1 Nom de l'organisme de la séquence ALK80311.1
3.1.2 Nom scientifique de son hôte
Notez les valeurs des indices suivants
3.1.3 Longueur de l'alignement
3.1.4 Pourcentage d'identité
3.1.5 Pourcentage de positifs
3.1.6 Pourcentage de gaps
3.1.7 E-valeur (expect)
3.1.8 Que signifie la ligne entre les deux séquences comparées ?
Répondez par VRAI ou FAUX
3.1.9 La ressemblance entre ces deux protéines est presque parfaite, et l'alignement couvre la longueur totale des deux protéines.
3.1.10 La e-valeur indique qu'il est probable qu'un tel niveau de similarité résulte du hasard.
3.1.11 L'hypothèse la plus vraisemblable est que ces deux protéines se ressemblent parce qu'elles dérivent d'un ancêtre commun, autrement dit, on peut conclure qu'elles sont homologues.
Questions 3.2 - BLAST - Alignement de la Protéine Spike de SARS-Cov-2 et la séquence AHC74083.1
Notez les valeurs des indices suivants du premier alignement
3.2.1 Longueur de l'alignement
3.2.2 Pourcentage d'identité
3.2.3 Pourcentage de positifs
3.2.4 Pourcentage de gaps
3.2.5 E-valeur (expect)
Répondez par VRAI ou FAUX
3.2.6 La ressemblance entre ces deux protéines est presque parfaite, et l'alignement couvre la longueur totale des deux protéines.
3.2.7 La e-valeur indique qu'il est probable qu'un tel niveau de similarité résulte du hasard.
3.2.8 L’alignement ne couvre qu’à peu près 10% de la séquence requête (QHU36824). Ceci est dû au fait que la séquence sujet (AHC74083.1) est partielle.
3.2.9 L'hypothèse la plus vraisemblable est que ces deux protéines se ressemblent parce qu'elles dérivent d'un ancêtre commun, autrement dit, on peut conclure qu'elles sont homologues.
Dans cet exercice nous allons utiliser BLAST pour repérer les régions similaires entre le génome de SARS-CoV-2 (MT019529.1) et la séquence référence du génome de virus de SIDA (HIV-1 taxid:11676).
Connectez-vous au site Web BLAST du NCBI et sélectionnez l’outil Nucleotide blast (BLASTn), qui compare des séquences nucléotidiques avec les banques de données nucléotidiques.
Séquence requête : MT019529.1
Database : RefSeq Genome Database (refseq_genomes) pour se concentrer uniquement sur les génomes de référence
Organism HIV-1 (taxid:11676) pour limiter la recherche aux séquences de HIV-1
Program Selection : Somewhat similar sequences (blastn) pour augmenter la sensibilité de la recherche.
Cochez la case Show results in a new window pour que les résultats apparaissent dans une nouvelle fenêtre.
Algorithm parameters : Expect threshold à 10 pour afficher les hits avec une E-valeur jusqu’à 10. Valeur par défaut pour les autres paramètres.
Lancez BLAST.
Gardez la page de résultats ouverte pour pouvoir répondre aux questions un peu plus tard.
Le génome de SARS-CoV-2 a 29899 nucléotides. Nous allons générer une séquence aléatoire (suite des nucléotides aléatoire) de même longueur et comparer cette séquence avec le génome de HIV-1 à l’aide de BLAST.
Faites un BLAST avec cette séquence aléatoire comme séquence requête contre le génome de HIV-1
Questions 4.1 - Y a-t-il des insertions de séquences de HIV dans le génome de SARS-CoV-2 ?
**Répondez aux questions suivantes sur base de la comparaison entre les génomes de SARS-CoV-2 et de HIV-1.**
4.1.1 Nombre de fragments alignés entre les génomes de SARS-CoV-2 et de HIV-1.
4.1.2 Meilleure E-valeur parmi ces alignements.
4.1.3 Pire E-valeur parmi ces alignements.
4.1.4 Longueur de l'alignement le plus long.
4.1.5 Pourcentage d'identité le plus élevé parmi ces alignements.
4.1.6 Pourcentage d'identité le plus bas parmi ces alignements.
**Répondez aux questions suivantes sur base de comparaison entre le génome de HIV-1 et la séquence aléatoire**
4.1.7 Nombre de fragments alignés entre les génome de HIV-1 et la séquence aléatoire.
4.1.8 Meilleure E-valeur parmi ces alignements.
4.1.9 La pire E-valeur parmi ces alignements.
4.1.10 Longueur de l'alignement le plus long.
4.1.11 Pourcentage d'identité le plus élevé parmi ces alignements.
4.1.12 Pourcentage d'identité le plus bas parmi ces alignements.
Répondez par VRAI ou FAUX sur base de la comparaison entre les génomes de SARS-CoV-2 et de HIV-1.
4.1.13 Le très haut pourcentage d'identité des alignements est suffisant pour conclure sur l'homologie entre des fragments alignés des deux génomes.
4.1.14 Les longueurs des alignements sont suffisamment élevées pour inférer l'homologie entre les fragments alignés.
4.1.15 Les E-valeurs indiquent qu'il est probable qu'un tel niveau de similarité résulte du hasard
4.1.16 Le fait d'avoir plusieurs fragments alignés entre les deux génomes indique une similarité significative entre les génomes
Concepts
E-valeur, Expect, E-value
La e-valeur (en anglais: e-value ou expect pour expected value) représente le nombre de résultats qu’on s’attendrait à obtenir par hasard, en fonction des paramètres utilisés pour un programme.
Par exemple, le logiciel BLAST caractérise chaque alignement par une e-valeur, qui est calculée en fonction du le score brut, de la longueur des protéines alignées, et de la taille de la base de données (quand la taille d’une base de données augmente, on a plus de chances d’observer un hit fortuit). La e-valeur est le paramètre le plus informatif, d’une part parce qu’elle tient compte de l’ensemble des autres paramètres, d’autre part parce que son interprétation est directe: elle nous informe quant au risque que nous prenons si nous considérons la similarité comme significative. La e-valeur est liée au concept de risque de faux positifs: le risque de considérer comme significatif un résultat qui ne l’est pas.
Une e-valeur faible indique qu’un résultat est statistiquement significatif.
Par exemple, si un alignement obtenu par BLAST est associé à une e-valeur de 1e-3, cela signifie qu’on s’attendrait à 0.001 faux-positifs dans des conditions similaires. Autrement dit, si l’on faisait l’analyse avec des séquences aléatoires, un alignement d’aussi bonne qualité sortirait en moyenne une fois sur 1000.
Au contraire, des résultats associés à une e-valeur supérieure à 1 devraient toujours être considérés avec prudence (je dirais même méfiance). En effet, une e-valeur de 10 signifie que si l’on avait effectué une analyse avec des données aléatoires, on s’attendrait à obtenir une dizaine de résultats. Ces résultats pourraient être qualifiés de faux-positifs, c’est-à-dire des éléments déclarés significatifs alors qu’ils ne le sont pas. Il est donc généralement recommandé d’imposer un seuil stringent sur l’e-valeur.
Il n’est pas rare que des alignements de BLAST retournent une e-valeur très basse, par exemple 1e-150. Ce score très significatif indique qu’il est extrêmement improbable que ce la similarité entre la protéine requête et le hit provienne du hasard. L’hypothèse alternative est que cette similarité de séquence reflète le fait que les deux séquences dérivent d’un ancêtre commun. Dans un tel cas, on peut conclure que les deux séquences sont très vraisemblablement homologues.
Dans certains cas, les programmes affichent une e-valeur de 0. Ceci ne signifie pas qu’il est formellement impossible d’obtenir un tel alignement par hasard, mais que la e-valeur est inférieure à la limite de précision de BLAST (~1e-172).
La e-valeur ne s’applique pas uniquement aux résultats de BLAST. La plupart des logiciels bioinformatiques indiquent la significativité des résultats, sous forme de e-valeur ou d’autres statistiques apparentées. Il est essentiel de pouvoir interpréter ces nombres pour éviter de se faire flouer par un résultat apparemment prometteur.
Ressource | Description | URL |
---|---|---|
Supports de ce cours | Diapos, tuto, données | jvanheld.github.io/shnc-origines-sars-cov-2/ |
Uniprot | Base de donnée de séquences protéiques | www.uniprot.org/ |
NCBI Entrez | Bases de données biologiques | www.ncbi.nlm.nih.gov/ |
EMBOSS needle | Alignement de paires de séquences | www.ebi.ac.uk/Tools/psa/emboss_needle/ |
NCBI BLAST | Recherche de séquences par similarité | blast.ncbi.nlm.nih.gov/Blast.cgi |
AMU | page AMETICE de N&C3 | ametice.univ-amu.fr/course/view.php?id=62928 |