Cours d’Introduction à la bioinformatique (SSV3U15)
Retour à la page d’accueil du cours
BLAST: une famille d’outils pour la recherche de séquences par similarités
Un alignement par paire indique les régions similaires entre deux séquences biologiques (nucléiques ou peptidiques).
Afin d’aligner au mieux les résidus identiques ou similaires (scores positifs dans les matrices de substitutions), les programmes d’alignement peuvent insérer des espacements (gaps) au sein des séquences alignées. Les gaps sont représentés par des traits d’union "-".
R L A S V E T D M P - - - - - L T L R Q H
T L T S L Q T T L K N L K E M A H L G T H
Les gaps peuvent être interprétés selon deux scénarios évolutifs alternatifs:
L’alignement d’une paire de séquences ne permet pas de départager ces deux possibilités. On définit le terme indel (in extenso: insertion ou délétion) pour indiquer cet événement évolutif de nature indéterminé qui est à l’origine du gap.
Au-delà du score brut, on peut dériver une série de scores qui fournissent des informations complémentaires concernant la qualité de l’alignement.
Longueur de l’alignement | Nombre de colonnes de l’alignement. Attention, la longueur de l’alignement diffère généralement de celle des séquences alignées, pour différente raisons:
|
Nombre d’identités | Nombre de positions où sont alignés deux résidus identiques |
Pourcentage d’identités | Nombre d’identités divisé par la longueur totale de l’alignement. |
Nombre de positifs | Nombre de positions de l’alignement caractérisées par un score positif dans la matrice de substitution (identités et substitutions "conservatives"). |
Pourcentage de positifs | Nombre de positifs divisé par la longueur totale de l’alignement, fois \(100\) |
Retour à la table des matières
Un alignement global recouvre les séquences alignées sur l’ensemble de leur longueur, tandis qu’un alignement local peut se limiter à un fragment de chaque séquence.
L’intérêt de l’alignement global est de révéler les événements évolutifs (délétions, insertions, substitutions) sur l’ensemble de la longueur des séquences d’intérêt. On recourt par exemple aux alignements globaux quand on veut étudier l’évolution d’une famille de protéines dans son ensemble.
Les alignements locaux révèlent les segments conservés entre deux ou plusieurs séquences. On les utilise par exemple pour extraire un domaine conservé à partir d’une famille de séquences homologues.
Retour à la table des matières
BLAST est une méthode de recherche de séquences par similarité qui effectue des alignements locaux entre une séquence requête (query sequence) et chacune des séquences d’une base de données (par exemple UniprotKB, qui recouvre 40 millions de séquences protéiques).
Pour pouvoir effectuer cette tâche énorme dans un temps raisonnable, BLAST se base sur une approche heuristique: les séquences de la base de données sont préalablement indexées dans un "dictionnaire de mots", qui dresse la liste des séquences de la base de données contenant chaque oligomère (oligopeptide pour les bases de données de protéines, oligonucléotides pour les séquences nucléiques) d’une taille donnée.
Quand on lance une recherche, BLAST commence par analyser la séquence requête en dressant la liste des oligomères présents. Il consulte ensuite le dictionnaire pour extraire la liste des séquences de la base de données qui contiennent ces mots, et lance un alignement par paire avec ce sous-ensemble des séquences.
Cette heuristique est plus rapide que les méthodes d’alignement par paire par programmation dynamique (Needleman-Wunsch en alignement global, Smith-Waterman en alignement local), mais elle présente un certain risque de louper des similarités.
BLAST permet non seulement de comparer des séquences de même type (protéine versus protéine, acide nucléique versus acide nucléique), mais également d’effectuer des recherches avec une séquence requête d’un type (peptidiques ou nucléiques) dans une base de donnée de l’autre type. Pour ces recherches croisées, les séquences nucléiques sont traduites dans les 6 cadres de lectures (3 cadres de lecture par brin), et le résultat est analysé avec l’algorithme blastp.
Requête | Base de données | Outil | Exemples d’applications |
---|---|---|---|
séquence peptidique | séquence peptidique | blastp | En partant d’une protéine de fonction connue, collecter les protéines similaires dans la base de données Uniprot afin de constituer la famille de protéine supposées homologues. |
séquence nucléique | séquence nucléique | blastn | Comparer les séquences d’ARNm aux séquences génomiques. |
Aligner un ARN d’interférence (ARNi) sur un génome pour détecter ses cibles potentielles. | |||
séquence nucléique (traduite dans les 6 cadres) | séquence peptidique | blastx | Après avoir séquencé un morceau d’ADN, chercher des fragments potentiellement codants (susceptibles de produire un polypeptide similaire à des protéines connues) dans cette séquence même si on ne connaît pas la position des gènes. |
séquence peptidique | séquence nucléique (traduite dans les 6 cadres) | tblastn | Identifier une région génomique susceptible de coder pour un homologue d’une protéine d’intérêt. |
Identifier dans un génome les pseudo-gènes (gènes défectifs, qui peuvent contenir un ou plusieurs codons stop) correspondant à une protéine d’intérêt. | |||
séquence nucléique (traduite dans les 6 cadres) | séquence nucléique (traduite dans les 6 cadres) | tblastx | A partir d’une séquence d’ADN, identifier des segments de régions codantes ayant une contrepartie dans un génome ou une base de données de référence |
Retour à la table des matières
Ressemblance de caractères phénotypiques ou génétiques qui s’explique par le fait que ces caractères résultent d’une origine ancestrale commune. Les différences entre les deux caractères homologues résultent de l’accumulation de mutations à partir de l’ancêtre commun. Il s’agit donc d’une évolution par divergence évolutive.
Relation entre deux séquences dont le dernier ancêtre commun précède immédiatement un événement de spéciation.
Relation entre deux séquences dont le dernier ancêtre commun précède immédiatement un événement de duplication.
Relation entre deux caractères dont l’histoire, depuis leur dernier ancêtre commun, inclut un transfert entre espèces (horizontal) du matériel génétique pour au moins l’un de ces caractères.
Ressemblance entre deux traits (organes, séquence) qui ne résulte pas d’une origine ancestrale commune. Les traits similaires sont apparus de façon indépendante. Leur ressemblance peut éventuellement manifester l’effet d’une pression évolutive qui a sélectionné les mêmes propriétés. Dans ce cas, on parle de convergence évolutive.
Un arbre phylogénétique qui reflète exactement les relations de parenté entre groupes d’êtres vivants est qualifié d’arbre vrai. En réalité, l’arbre vrai n’est jamais connu. L’idée de l’inférence phylogénétique est de construire des arbres à partir des données à disposition (arbre inféré) qui s’approchent le plus possible de l’arbre vrai.
Arbre qui indique les relations de parenté entre des espèces d’êtres vivants – ou par extension d’autres niveaux taxonomiques.
Arbre phylogénétique inféré à partir des séquences biologiques, et qui reflète l’évolution vraisemblable des séquences.
Unité taxonomique d’un arbre phylogénétique pour laquelle on dispose de données. Les OTU correspondent aux noeuds externes (feuilles) de l’arbre phylogénétique. Note : les OTU peuvent correspondre à des organismes existants ou éteints (dont les données proviennent d’études paléontologiques ou paléogénomiques).
Unité taxonomique inférée, pour laquelle on ne dispose pas de données. Les HTU constitue les noeuds internes des arbres phylogénétiques.
Processus évolutif qui résulte en la formation d’espèces distinctes à partir d’une espèce unique. Suite à une spéciation, chaque molécule ancestrale se retrouve dans chacune des espèces dérivées.
Mutation qui génère un dédoublement d’une partie de l’ADN génomique. La duplication peut recouvrir l’ensemble du génome (formation d’organismes polyploïdes), un chromosome entier, ou un fragment de chromosome de taille plus ou moins grande.
Les duplications peuvent éventuellement entraîner l’apparition de copies multiples d’un ou plusieurs gènes, provoquant ainsi une certaine redondance de l’information génétique. Dans certains cas, l’une des copies dupliquées du gène acquiert, par accumulation de mutations, de nouvelles caractéristiques qui lui permettent d’assumer une nouvelle fonction. Ce mécanisme, appelé duplication-divergence, est en grande partie à l’origine de la diversification des fonctions biologiques.
Arbre phylogénétique dont la longueur des branches représente les distances évolutives. Les branches ont donc des longueurs variables, et les feuilles ne sont pas forcément alignées)
Arbre phylogénétique dont la longueur des branches représente le temps de divergence entre unités taxonomiques mère et fille. Les branches ont donc des longueurs variables. Les feuilles sont alignées si les OTU sont des organismes actuels, mais elles peuvent éventuellement être décalées si les OTU incluent des espèces éteintes (données paléontologiques ou paléogénomiques).
Arbre phylogénétique dont les branchements représentent les événements de divergence (spéciations, duplications) sans tenir compte de la distance évolutive (nombre de caractères morphologiques ou moléculaires distincts) ni du temps de divergence.
Groupe comportant un organisme ancestral et tous les organismes en descendant, et uniquement eux. Exemple : les Hominidae incluent gibon, orang-outang, gorille, chimpanzé, bonobo (absent du dessins) et humain.
Groupe qui inclut un organisme ancestral et ses descendant, mais en excluant certains d’entre eux. Exemples : les singes incluent les primates sauf l’humain: les poissons incluent les gnathostomes sauf les tétrapodes
Assemblage d’organismes n’incluant pas leur ancêtre commun le plus récent. Exemples : mammifères marins, animaux cavernicoles.
Dernier ancêtre commun entre deux ou plusieurs groupes taxonomiques ; espèce la plus récente que ces taxons ont pour ancêtre commun.
Groupe taxonomique qui se détache des autres à proximité de la racine d’un arbre phylogénétique. Le concept de groupe basal est questionnable car il dépend du choix des échantillons ayant servi à établir l’arbre phylogénétique.
Groupes taxonomiques qui descendent immédiatement d’un ancêtre commun sur un arbre phylogénétique (les branches sont directement rattachées au même nœud).
Estimation de la mesure dont chaque nœud d’un arbre inféré est soutenu par le jeu de données. La méthode la plus connue est le bootstrap.
Méthode d’estimation de la robustesse de chaque nœud d’un arbre. Cette méthode consiste à échantillonner les positions de l’alignement pour relancer la construction phylogénétique de façon itérative puis de comparer les arbres obtenus après de nombreuses répétitions. La valeur de bootstrap d’un nœud représente la proportion des arbres dans lequel le nœud a été retrouvé.
Reconstruction phylogénétique sur base de génomes ou de protéomes complets ou, à défaut, d’un grand nombre de séquences de gènes ou de protéines.
Comment calculer le score brut d’un alignement ?
Pour calculer le score brut (raw score) d’un alignement, on associe à chaque paire de résidus alignés le score correspondant dans la matrice de substitutions.
Dans l’exemple ci-dessous, nous avons calculé le score de l’alignement suivant avec la matrice BLOSUM62.
On applique un traitement particulier pour assigner un score aux gaps: on définit (de façon quelque peu arbitraire) deux pénalités.
On peut dès lors calculer le score brut (raw score) en additionnant, tout au long de l’alignement, des scores d’identité, de substitution, d’ouverture et d’extension de gap.
Enfin, pour faciliter la lecture de l’alignement, on insère entre les deux séquences alignées un ligne de symboles.