Accueil🇫🇷Chercher

Matrice de similarité

Les matrices de similarité ou matrices de substitution sont des matrices utilisées en bioinformatique pour réaliser des alignements de séquences biologiques reliées évolutivement. Elles permettent de donner un score de similarité ou de ressemblance entre deux acides aminés.

Ces matrices, M, sont des matrices 20 x 20 (pour les 20 acides aminĂ©s protĂ©inogènes standards) qui recensent l'ensemble des scores M(a,b) obtenus lorsqu'on substitue l'acide aminĂ© a Ă  l'acide b dans un alignement. Plus le score M(a,b) est Ă©levĂ©, plus la similaritĂ© entre les deux acides aminĂ©s a et b est importante. Il existe plusieurs de ces matrices, basĂ©es sur des principes de construction diffĂ©rents. On peut citer les plus frĂ©quemment utilisĂ©es :

  • Les matrices de Dayhoff, appelĂ©es PAM (probability of acceptable mutations), basĂ©es sur des distances Ă©volutives entre espèces
  • Les matrices de Henikoff, appelĂ©es BLOSUM[1], basĂ©es sur le contenu en information des substitutions

Dans chaque famille, il existe plusieurs séries de matrices, de stringence variable, et donc plus ou moins tolérantes aux substitutions d'acides aminés.

Exemple

La matrice BLOSUM62 ci-dessous est calculée à partir des fréquences de substitution d'acides aminés dans des blocs de séquence conservés, sans insertion, présentant au moins 62 % de conservation de séquence. Les acides aminés sont indiqués par leur code à une lettre (nomenclature IUPAC-IUBMB). Les coefficients de la matrice sont exprimés en demi-bits d'information :

  • une valeur nulle indique une substitution neutre ;
  • un score positif correspond Ă  une substitution sur-reprĂ©sentĂ©e et donc probablement favorable
  • un score nĂ©gatif correspond Ă  une substitution sous-reprĂ©sentĂ©e et donc probablement dĂ©favorable.
BLOSUM62
ARNDCQEGHILKMFPSTWYV
A 4-1-2-20-1-10-2-1-1-1-1-2-110-3-20
R 50-2-310-20-3-22-1-3-2-1-1-3-2-3
N 61-30001-3-30-2-3-210-4-2-3
D 6-302-1-1-3-4-1-3-3-10-1-4-3-3
C 9-3-4-3-3-1-1-3-1-2-3-1-1-2-2-1
Q 52-20-3-210-3-10-1-2-1-2
E 5-20-3-31-2-3-10-1-3-2-2
G 6-2-4-4-2-3-3-20-2-2-3-3
H 8-3-3-1-2-1-2-1-2-22-3
I 42-310-3-2-1-3-13
L 4-220-3-2-1-2-11
K 5-1-3-10-1-3-2-2
M 50-2-1-1-1-11
F 6-4-2-213-1
P 7-1-1-4-3-2
S 41-3-2-2
T 5-2-20
W 112-3
Y 7-1
V 4

Notes et références

  1. (en) S Henikoff et J Henikoff, « Amino acid substitution matrices from protein blocks », Proceedings of the National Academy of Sciences of the United States of America, vol. 89, no 22,‎ , p. 10915–9 (PMID 1438297, PMCID 50453, DOI 10.1073/pnas.89.22.10915, lire en ligne)

Voir aussi

Cet article est issu de wikipedia. Text licence: CC BY-SA 4.0, Des conditions supplémentaires peuvent s’appliquer aux fichiers multimédias.