AccueilđŸ‡«đŸ‡·Chercher

Unweighted pair group method with arithmetic mean

UPGMA (Unweighted pair group method with arithmetic mean) est le nom d'un algorithme destiné à la construction d'un arbre phylogénétique. Cette méthode permet la transformation d'une matrice de distances (entre différents organismes, populations, ou séquences de nucléotides) en un arbre enraciné.

Description

La matrice fournit l'ensemble des distances entre toutes les paires d'éléments. L'algorithme fonctionne par itérations successives, qui réduisent progressivement la taille de la matrice. Chaque itération voit le regroupement des deux éléments restants séparés par la plus faible distance: ces éléments sont associés dans l'arbre, et sont remplacés par un élément « consensus ». Les nouvelles distances entre cet élément consensus et les éléments restants dans la matrice sont recalculées par la moyenne arithmétique des deux éléments regroupés, soit :

Critique et historique

Cette méthode simple et rapide présente toutefois de nombreux biais. En particulier, elle suppose que la vitesse d'évolution est constante dans toutes les branches. Par conséquent, si une branche « interne » évolue beaucoup plus vite que toutes les autres, elle ne sera rattachée au reste de l'arbre qu'à la derniÚre étape et sera à l'extérieur de l'arbre (le phénomÚne est similaire à l'attraction des longues branches).

Les dĂ©fauts de l'UPGMA sont tels que l'algorithme n'a plus qu'un intĂ©rĂȘt historique dans le cadre de l'infĂ©rence d'un arbre phylogĂ©nĂ©tique. Il a en effet Ă©tĂ© remplacĂ© depuis lors par des mĂ©thodes plus avancĂ©es (comme le Neighbour Joining ou la parcimonie dans un premier temps, puis les techniques de maximum de vraisemblance ou algorithmes bayesiens utilisĂ©s aujourd'hui en phylogĂ©nie). Cet algorithme reste cependant utilisĂ© dans le cadre de l'alignement de sĂ©quences, oĂč il permet de dĂ©terminer l'ordre dans lequel les sĂ©quences vont ĂȘtre alignĂ©es. En effet l'objectif de cet arbre guide est de regrouper les sĂ©quences les plus similaires, indĂ©pendamment de leur vitesse d'Ă©volution ou de leurs parentĂ©s phylogĂ©nĂ©tique et c'est prĂ©cisĂ©ment ce que fait UPGMA[1].

La méthode est généralement attribuée à Sokal et Michener[2]. Fionn Murtagh propose lui un algorithme[3] s'exécutant en .

Notes et références

  1. Wheeler, T.J. and J.D. Kececioglu, Multiple alignment by aligning alignments. Bioinformatics, 2007. 23(13): p. i559-68
  2. (en) Sokal R and Michener C, « A statistical method for evaluating systematic relationships », University of Kansas Science Bulletin, vol. 38,‎ , p. 1409–1438
  3. (en) Murtagh F, « Complexities of Hierarchic Clustering Algorithms: the state of the art », Computational Statistics Quarterly, vol. 1,‎ , p. 101–113
Cet article est issu de wikipedia. Text licence: CC BY-SA 4.0, Des conditions supplĂ©mentaires peuvent s’appliquer aux fichiers multimĂ©dias.