AccueilđŸ‡«đŸ‡·Chercher

Alignement de séquences

En bio-informatique, l'alignement de sĂ©quences (ou alignement sĂ©quentiel) est une maniĂšre de reprĂ©senter deux ou plusieurs sĂ©quences de macromolĂ©cules biologiques (ADN, ARN ou protĂ©ines) les unes sous les autres, de maniĂšre Ă  en faire ressortir les rĂ©gions homologues ou similaires. L'objectif de l'alignement est de disposer les composants (nuclĂ©otides ou acides aminĂ©s) pour identifier les zones de concordance. Ces alignements sont rĂ©alisĂ©s par des programmes informatiques dont l'objectif est de maximiser le nombre de coĂŻncidences entre nuclĂ©otides ou acides aminĂ©s dans les diffĂ©rentes sĂ©quences. Ceci nĂ©cessite en gĂ©nĂ©ral l'introduction de « trous Â» Ă  certaines positions dans les sĂ©quences, de maniĂšre Ă  aligner les caractĂšres communs sur des colonnes successives. Ces trous correspondent Ă  des insertions ou des dĂ©lĂ©tions (appelĂ©s indel) de nuclĂ©otides ou d'acides aminĂ©s dans les sĂ©quences biologiques. Le rĂ©sultat final est traditionnellement reprĂ©sentĂ© comme des lignes d'une matrice.

Alignement de sĂ©quences de rĂ©cepteurs nuclĂ©aires. Les acides aminĂ©s conservĂ©s sont surlignĂ©s en bleu et en vert. Par endroits, on a insĂ©rĂ© des trous, symbolisĂ©s par des tirets « - Â», pour permettre un alignement optimal

L'interprĂ©tation des alignements des sĂ©quences biologiques repose sur la thĂ©orie darwinienne de l'Ă©volution. En gĂ©nĂ©ral les sĂ©quences alignĂ©es correspondant Ă  des molĂ©cules remplissant des fonctions similaires, il peut s'agir par exemple de la mĂȘme enzyme chez diffĂ©rentes espĂšces, dont on suppose qu'elles dĂ©rivent d'un mĂȘme ancĂȘtre commun. Les divergences entre les sĂ©quences sont interprĂ©tĂ©es comme rĂ©sultant de mutations. Les rĂ©gions contenant des nuclĂ©otides ou des acides aminĂ©s conservĂ©s sont supposĂ©es correspondre Ă  des zones oĂč s'exerce une pression de sĂ©lection pour maintenir la fonction de la macromolĂ©cule.

L'alignement a plusieurs utilisations importantes en bioinformatique car il permet un certain nombre de prĂ©dictions. Il permet notamment d'identifier des sites fonctionnels (site catalytique, zone d'interaction...) qui correspondent en gĂ©nĂ©ral aux rĂ©gions les plus conservĂ©es, car ce sont elles sur lesquelles la pression de sĂ©lection est la plus grande. On peut aussi utiliser l'alignement de sĂ©quence pour prĂ©dire la ou les fonctions d'une protĂ©ine, si on dĂ©tecte une homologie avec une protĂ©ine de fonction connue. Si la structure secondaire ou tertiaire de cette protĂ©ine de fonction homologue est connue, l'alignement peut ĂȘtre utilisĂ© pour prĂ©dire la structure d'une protĂ©ine. Enfin, en cas d'alignements multiples au sein d'une famille de protĂ©ines, ceux-ci peuvent permettre d'Ă©tablir une phylogĂ©nie entre elles.

Utilisation

Dans la comprĂ©hension du fonctionnement de la vie, les protĂ©ines jouent un rĂŽle essentiel. On part donc de l'hypothĂšse que des protĂ©ines comportant des sĂ©quences similaires risquent fort de possĂ©der des propriĂ©tĂ©s physico-chimiques identiques. À partir de l'identification de similaritĂ©s entre la sĂ©quence d'une premiĂšre protĂ©ine dont on connaĂźt le mĂ©canisme d'action et celle d'une deuxiĂšme protĂ©ine dont on ne connaĂźt pas le mĂ©canisme de fonctionnement, on peut infĂ©rer des similaritĂ©s structurelles ou fonctionnelles sur la sĂ©quence non connue et proposer de vĂ©rifier de maniĂšre expĂ©rimentale le comportement d'action supposĂ©.

Représentations

Les alignements sont habituellement représentés soit graphiquement soit en format texte. Dans la plupart des représentations des alignements séquentiels, les séquences sont écrites en lignes, disposées pour que les composantes communes apparaissent dans des colonnes successives. En format texte, les colonnes alignés contiennent des caractÚres identiques ou similaires, indiqués par un systÚme cohérent de symboles. Un astérisque est utilisé pour montrer l'identité entre colonnes. Beaucoup de programmes utilisent de la couleur pour différencier l'information. Pour les ADN ou ARN, l'utilisation de couleur permet de différencier les nucléotides. Pour les alignements de protéines, elle permet d'indiquer les propriétés des acides aminés, ce qui aide à conclure sur la conservation du rÎle d'un acide aminé substitué.

Lorsque plusieurs séquences sont mises en jeu, une derniÚre ligne est ajoutée pour conclure à un consensus.

On distingue deux types d'alignements qui diffÚrent suivant leur complexité :

  • l'alignement par paires qui consiste Ă  aligner deux sĂ©quences peut ĂȘtre rĂ©alisĂ© grĂące Ă  un algorithme de complexitĂ© polynomiale. Il est possible de rĂ©aliser un alignement :
  • l'alignement multiple, qui est un alignement global, consiste Ă  aligner plus de deux sĂ©quences et nĂ©cessite un temps de calcul et un espace de stockage exponentiels en fonction de la taille des donnĂ©es.
Un alignement de séquence réalisé par ClustalW entre deux protéines humaines.

Les alignements sĂ©quentiels peuvent ĂȘtre fournis dans une large variĂ©tĂ© de formats de fichiers, dĂ©pendant par exemple du programme spĂ©cifique utilisĂ© : FASTA, GenBank... Toutefois, dans les laboratoires de recherche, l'utilisation spĂ©cifique d'outils techniques peut rĂ©duire le choix de format.

Score et matrices de similarité

La plupart des méthodes d'alignement de séquences biologiques, et en particulier les méthodes d'alignement de séquence de protéines cherchent à optimiser un score d'alignement. Ce score est relié au taux de similarité entre les deux séquences comparées. Il tient compte d'une part du nombre d'acide aminés identiques entre les deux séquences et d'autre part du nombre d'acides aminés similaires sur le plan physico-chimique. Lorsque dans les deux séquences, on trouve ainsi alignés deux acides aminés trÚs proches, comme Lysine (K) et Arginine (R), on parle de remplacement conservatif (les chaßnes latérales de ces deux acides aminés portent toutes les deux une charge positive).

Ceci a nécessité la définition formelle d'un score d'identité ou de similarité entre deux acides aminés donnés. Ceci a donné naissance à des matrices de similarité, qui recensent l'ensemble des scores obtenus lorsque l'on substitue l'acide aminé à un autre. Il existe plusieurs de ces matrices avec des modes de construction différents. Ces matrices sont en général complétées par des fonctions de score pour quantifier l'introduction des indels dans les alignements.

Alignements locaux et globaux

l'alignement global tente d'aligner les séquences sur toute leur longueur, tandis que l'alignement local se focalise sur les zones de forte homologie.

Les méthodes d'alignement peuvent soit essayer d'aligner les séquences sur la totalité de leur longueur, on parle alors d'alignement global, soit se restreindre à des régions limitées dans lesquelles la similarité est forte, à l'exclusion du reste des séquences, on parle alors d'alignement local.

Les alignements globaux sont plus souvent utilisés quand les séquences mises en jeu sont similaires et de tailles comparables. Une technique générale, appelée algorithme de Needleman-Wunsch et basée sur la programmation dynamique, permet de réaliser des alignements globaux de maniÚre optimale.

Exemple d'homologie locale entre protéines. Le domaine rouge brique est conservé entre ces deux protéines, mais le reste de la structure est différent

Lorsqu'il s'agit de séquences protéiques, il arrive cependant fréquemment que la région homologue soit limitée à une partie des séquences. C'est le cas lorsque deux protéines partagent un domaine homologue, associé à une fonction commune, mais que le reste de leurs séquences sont dissemblables (voir l'exemple sur la figure à droite). On utilise alors une méthode d'alignement local, comme l'algorithme de Smith-Waterman basé aussi sur la programmation dynamique, ou le programme BLAST, une méthode heuristique rapide permettant d'effectuer des recherches dans les bases de données. Les méthodes locales utilisent une méthode de calcul du score adaptée qui évite de pénaliser les régions non-homologues et ne calculent le score que sur la région conservée

Avec des séquences trÚs voisines, les résultats obtenus par les méthodes d'alignement local ou global sont trÚs proches. Pour cette raison, les méthodes d'alignement local, plus flexibles, sont plus souvent utilisées aujourd'hui. Elles permettent à la fois d'aligner des séquences localement ou globalement similaires.

Des méthodes hybrides, des méthodes semi-locales, s'avÚrent utiles quand il s'agit de favoriser la mise en évidence de structures ou de zones fonctionnelles, habituellement masquées par la recherche du meilleur alignement (en termes de score).

Exemple :

         Score favorisé :      AGCTGCTATGATACCGACGAT
                               A--T-C-AT-A----------
         Alignement semi-local : AGCTGCTATGATACCGACGAT
                                 -------ATCATA--------

MalgrĂ© le « mismatch Â» pĂ©nalisant le score entre G et C, cet alignement montre une rĂ©gion conservĂ©e pouvant traduire une similaritĂ© de structure ou de fonction (malgrĂ© une petite mutation Ă©volutive).

Alignement par paire

Les mĂ©thodes d'alignement par paires sont utilisĂ©es pour comparer des sĂ©quences deux Ă  deux. Elles sont utilisĂ©es pour rechercher une homologie entre une sĂ©quence test et une sĂ©quence de rĂ©fĂ©rence, souvent extraite d'une base de donnĂ©es. Elles sont les plus simples Ă  mettre en Ɠuvre, et ce sont les seules pour lesquelles il existe des solutions algorithmiques optimales, basĂ©es sur la programmation dynamique. Il existe Ă©galement des mĂ©thodes heuristiques rapides, qui permettent d'effectuer des recherches systĂ©matiques dans les banques de sĂ©quence. Dans ce cas, on compare une sĂ©quence inconnue Ă  toutes les sĂ©quences de la base, en les testant successivement une par une.

Les méthodes les plus connues sont :

MĂ©thode par matrices de pixels

Dot-plot de la sĂ©quence d'un facteur de transcription humain contenant des doigts de zinc (GenBank ID NM_002383). La diagonale principale montre l'alignement de la sĂ©quence avec elle-mĂȘme ; les diagonales secondaires montrent des rĂ©pĂ©titions internes du motif des doigts de zincs.

Les méthodes par matrices de pixels ou dot-plot, sont des méthodes graphiques de représentation des homologies entre deux séquences, mais ne sont pas à proprement parler des méthodes d'alignement. Les ressemblances ou homologies entre deux séquences données de longueur l et m sont représentées sous forme d'une matrice de pixels l x m. Chaque pixel de coordonnées (i, j) de la matrice est allumé ou éteint (noir ou blanc), en fonction d'une identité ou d'une homologie entre la position i de la premiÚre séquence et de la position j de la seconde séquence. Des techniques de filtrage ou de seuil sont souvent appliquées pour limiter le bruit de fond.

Dans cette représentation, les zones d'homologie de séquence apparaissent comme des segments diagonaux sur la matrice de pixels.

Alignement multiple

L'alignement multiple consiste Ă  aligner collectivement un ensemble de sĂ©quences homologues, comme des sĂ©quences de protĂ©ines assurant des fonctions similaires dans diffĂ©rentes espĂšces vivantes. L'alignement multiple permet entre autres d'identifier les rĂ©gions trĂšs conservĂ©es qui sont en gĂ©nĂ©ral associĂ©es Ă  des fonctions biologiques importantes, conservĂ©es dans l'Évolution.

Fonction de score

Pour réaliser un alignement multiple, il faut généraliser la notion de fonction de score définie plus haut pour deux séquences. En effet, on ne compare plus simplement les acides aminés ou les nucléotides deux à deux, mais à l'intérieur d'une colonne de l'alignement multiple. La généralisation de la fonction de score habituellement utilisée consiste donc à utiliser ce qu'on appelle le score de la somme des paires[3] au sein d'une colonne de l'alignement :

OĂč M correspond Ă  la matrice de similaritĂ© et Xi et Xj correspondent aux acides aminĂ©s (ou nuclĂ©otides) se trouvant dans la colonne, au niveau des lignes i et j de l'alignement. Ce score inclut toutes les combinaisons deux Ă  deux d'acides aminĂ©s (ou de nuclĂ©otides) dans la colonne, d'oĂč la dĂ©nomination de "score de la somme des paires".

MĂ©thodes progressives

Les mĂ©thodes progressives, hiĂ©rarchiques ou par arborescence gĂ©nĂšrent un alignement final en plusieurs Ă©tapes. A chaque Ă©tape, une partie seulement des sĂ©quences est alignĂ©e, et ce n’est qu’à la fin que toutes les sĂ©quences se trouvent regroupĂ©es. La mĂ©thode utilisĂ©e classiquement pour dĂ©terminer l’ordre dans lequel doivent ĂȘtre alignĂ©es les sĂ©quences est basĂ©e sur le principe du Neighbour joining (NJ) . Pour cela, il faut rĂ©aliser les alignements par paire de tous les couples de sĂ©quences, afin de connaĂźtre leur degrĂ© de similaritĂ©. Il est ainsi possible de rĂ©aliser une matrice de “distances” entre toutes les sĂ©quences. Le Neighbor-Joining permet de crĂ©er un arbre, appelĂ© Guide tree, qui dĂ©termine l’ordre dans lequel s’effectue l’alignement. Le chemin remontant des branches vers la racine indique quels sont les groupes de sĂ©quences Ă  aligner, ainsi que l’ordre dans lequel doivent se faire les alignements.


Le plus connu des algorithmes progressifs est Clustal W . Son principe est basĂ© sur l’algorithme de programmation dynamique appliquĂ© Ă  l’alignement de deux sĂ©quences. Chaque alignement une fois obtenu est converti en une unique sĂ©quence consensus, appelĂ©e profil. La crĂ©ation d’un profil se fait en fonction du contenu de chacune des colonnes de l’alignement. Un profil ainsi obtenu est considĂ©rĂ© comme une sĂ©quence Ă  part entiĂšre, et peut dĂ©s lors ĂȘtre rĂ©utilisĂ© pour un nouvel alignement avec le mĂȘme algorithme. Il peut ĂȘtre alignĂ© avec une des sĂ©quences initiales, mais Ă©galement avec un autre profil. Tous les nƓuds internes constituant le guide tree reprĂ©sentent des profils


Les rĂ©sultats de l'alignement progressif dĂ©pendent du choix des sĂ©quences "les plus apparentĂ©es" et peuvent donc ĂȘtre sensibles aux inexactitudes des alignements initiaux par paires. La plupart des mĂ©thodes d'alignement progressif de sĂ©quences multiples pondĂšrent en outre les sĂ©quences de l'ensemble de la requĂȘte en fonction de leur parentĂ©, ce qui rĂ©duit la probabilitĂ© de faire un mauvais choix de sĂ©quences initiales et amĂ©liore donc la prĂ©cision de l'alignement.


Un certain nombre de variations de l'implĂ©mentation progressive de Clustal sont utilisĂ©es pour les alignements de sĂ©quences multiples, la construction d'arbres phylogĂ©nĂ©tiques, et comme entrĂ©e pour la prĂ©diction de la structure des protĂ©ines. Une variante plus lente mais plus prĂ©cise de la mĂ©thode progressive est connue sous le nom de "T-Coffee" (Fonction objective de cohĂ©rence basĂ©e sur les arbres pour l'Ă©valuation de l'alignement), qui dans un premier temps commence par gĂ©nĂ©rer une bibliothĂ©que d’alignements. A partir de cette bibliothĂšque, chaque couple de rĂ©sidus se voit attribuer une valeur en fonction du nombre de fois oĂč ils ont Ă©tĂ© alignĂ©s. Cette mĂ©thode permet d’ Ă©viter l’utilisation des matrices de coĂ»ts, dont les valeurs prĂ©vues pour le cas gĂ©nĂ©ral, ne sont pas toujours adaptĂ©es.

Méthodes itératives

Alors que l'approche progressive (vue plus haut) consiste Ă  aligner les sĂ©quences graduellement, la mĂ©thode dite itĂ©rative, elle, consiste Ă  aligner toutes les sĂ©quences simultanĂ©ment. Les mĂ©thodes itĂ©ratives tentent d'amĂ©liorer la forte dĂ©pendance Ă  l'Ă©gard de la prĂ©cision des alignements initiaux par paires, qui est le point faible des mĂ©thodes progressives. Les mĂ©thodes itĂ©ratives optimisent une Fonction objectif basĂ©e sur une mĂ©thode de score d'alignement sĂ©lectionnĂ©e en attribuant un alignement global initial, gĂ©nĂ©ralement de basse qualitĂ©. L'alignement est ensuite amĂ©liorĂ© par une suite d'itĂ©rations jusqu'Ă  ce que l'alignement ne puisse plus ĂȘtre amĂ©liorĂ©.

Recherche de motif

La recherche de motifs, Ă©galement connue sous le nom d'analyse de profil, construit des alignements de sĂ©quences multiples globaux qui tentent d'aligner de courts motifs de SĂ©quences conservĂ©es parmi les sĂ©quences de l'ensemble de requĂȘtes. Pour ce faire, on commence par construire un alignement global gĂ©nĂ©ral de sĂ©quences multiples, aprĂšs quoi les rĂ©gions hautement conservĂ©es sont isolĂ©es et utilisĂ©es pour construire un ensemble de matrices de profil. La matrice de profil de chaque rĂ©gion conservĂ©e est organisĂ©e comme une matrice de notation, mais ses comptes de frĂ©quence pour chaque acide aminĂ© ou nuclĂ©otide Ă  chaque position sont dĂ©rivĂ©s de la distribution des caractĂšres de la rĂ©gion conservĂ©e plutĂŽt que d'une distribution empirique plus gĂ©nĂ©rale. Les matrices de profil sont ensuite utilisĂ©es pour rechercher dans d'autres sĂ©quences les occurrences du motif qu'elles caractĂ©risent.

Techniques issues de l'informatique

La Transformée de Burrows-Wheeler a été appliquée avec succÚs à l'alignement rapide de lectures courtes dans des outils populaires tels que Bowtie et BWA.

Alignement structurel

Notes et références

  1. S. B. Needleman et C. D. Wunsch, « A general method applicable to the search for similarities in the amino acid sequence of two proteins », Journal of Molecular Biology, vol. 48, no 3,‎ , p. 443–453 (ISSN 0022-2836, PMID 5420325, lire en ligne, consultĂ© le )
  2. T. F. Smith, M. S. Waterman et W. M. Fitch, « Comparative biosequence metrics », Journal of Molecular Evolution, vol. 18, no 1,‎ , p. 38–46 (ISSN 0022-2844, PMID 7334527, lire en ligne, consultĂ© le )
  3. FrĂ©dĂ©ric Dardel et François KĂ©pĂšs, Bioinformatique. GĂ©nomique et post-gĂ©nomique, Palaiseau, Éditions de l’École Polytechnique, , 246 p. (ISBN 2-7302-0927-1, lire en ligne).

Voir aussi

  • Phylo, jeu vidĂ©o conçu pour faire calculer des alignements multiples par crowdsourcing.
Cet article est issu de wikipedia. Text licence: CC BY-SA 4.0, Des conditions supplĂ©mentaires peuvent s’appliquer aux fichiers multimĂ©dias.