Génétique des populations
La génétique des populations (GDP) est l'étude de la distribution et des changements de la fréquence des versions d'un gène (allèles) dans les populations d'êtres vivants, sous l'influence des « pressions évolutives » (sélection naturelle, dérive génétique, recombinaison, mutation, et migration). Les changements de fréquence des allèles sont un aspect majeur de l'évolution, la fixation de certains allèles conduit à une modification génétique de la population, et l'accumulation de tels changements dans différentes populations peut conduire au processus de spéciation.
Discipline initiée dans les années 1920 à 1940 par Ronald Fisher, J. B. S. Haldane et Sewall Wright, la génétique des populations est une application des principes fondamentaux de la génétique mendélienne à l'échelle des populations. Cette application a permis de faire la synthèse entre la génétique mendélienne et la théorie de l'évolution, donnant ainsi naissance au néo-darwinisme (théorie synthétique de l'évolution) et à la génétique quantitative.
La génétique des populations a des applications en épidémiologie où elle permet de comprendre la transmission des maladies génétiques, mais aussi en agronomie, où des programmes de sélection modifient le patrimoine génétique de certains organismes pour créer des races ou variétés plus performantes, ou plus résistantes à des maladies. Elle permet également de comprendre les mécanismes de conservation et de disparition des populations et des espèces (Génétique de la conservation). C'est une discipline des sciences de la vie faisant un fort usage d'outils mathématiques.
Introduction simplifiée à la génétique des populations humaines
Les êtres humains, comme tous les êtres vivants, possèdent de l'ADN. L'étude de l'ADN dans une population et sa comparaison avec l'ADN dans d'autres populations sont la base de la génétique des populations.
Nous possédons d'une part 22 paires de chromosomes dits homologues (ou autosomes) et deux chromosomes dits sexuels (ou gonosomes), et d'autre part de l'ADN dit « mitochondrial » (ADN-mt ou mt-DNA en anglais) qui n'est pas à proprement parler un chromosome. Cet ADN-mt se transmet intégralement de la mère aux enfants. En revanche, seuls les hommes possèdent le chromosome sexuel appelé Y (ADN-Y ou Y-DNA en anglais) qui se transmet donc intégralement du père aux fils.
Notre ADN peut parfois muter, c'est-à-dire qu'un des éléments de base (58 millions de paires de bases pour l'ADN-Y et 16 569 paires de bases pour l'ADN-mt) qui le constituent se transforme lors de la recopie de cet ADN. Le résultat de cette mutation s'appelle polymorphisme nucléotidique simple (SNP en anglais). Selon certains auteurs, cette mutation arrive très approximativement une fois toutes les 25 à 500 générations pour l'ADN-Y pour l'ADN-mt (il n'y a pas de consensus à ce sujet).
Comme décrit ci-dessous, les mutations de l'ADN-Y et de l'ADN-mt sont utilisées pour caractériser des groupes de populations. Par ailleurs, ces deux ADN sont réputés peu sujets à la sélection naturelle et donc adaptés au suivi de l'évolution des populations.
Ancêtres de l'humanité
Tous les êtres humains vivants appartiennent à une même lignée patriarcale et à une même lignée matriarcale[1]. Le plus récent ancêtre mâle commun, appelé Adam Y-chromosomique ou Y-MRCA (Y-chromosome Most Recent Common Ancestor), aurait vécu en Afrique il y a 237 000 à 581 000 ans, et la plus récente ancêtre femelle commune, appelée Ève mitochondriale ou mt-MRCA (mitochondrial-chromosome MRCA), aurait vécu en Afrique il y a 200 000 ans. En conservant le concept de l'Adam Y-chromosomal, le plus récent ancêtre patrilinéaire commun à la très grande majorité des hommes (environ 98 %), sauf ceux appartenant aux haplogroupes africains A et B, l'Adam Eurasien, porteur de la mutation M168, aurait vécu il y a environ 70 000 ans en Afrique.
Il est important de noter que ces affirmations concernent exclusivement le chromosome Y et le chromosome mitochondrial, et que chaque locus du génome humain a une histoire généalogique propre pouvant coalescer (remonter) bien au-delà des dates sus-citées (les chromosomes Y et mitochondriaux sont chacun un locus unique du point de vue de la génétique car ils ne recombinent pas).
L'Adam Y-chromosomique et l'Eve mitochondriale vivaient au sein des populations humaines de leurs époques respectives (ils ne sont pas les premiers représentants de l'espèce Homo sapiens). Distants de 90 000 ans, ils ne se sont logiquement jamais rencontrés.
Dans la suite du paragraphe, il n'est fait référence qu'aux lignées paternelles, mais les explications sont les mêmes pour les lignées maternelles.
Le chromosome Y de cet Adam s'est transmis à ses descendants mâles. Certains des chromosomes Y de ses descendants ont subi une mutation. Cette mutation définit une nouvelle branche à laquelle on peut associer un nouvel ancêtre commun. Si le chromosome Y d'un des descendants de cette branche subit une nouvelle mutation, cela crée une nouvelle sous-branche et ainsi de suite. On peut ainsi définir un « arbre de la filiation paternelle » de l'humanité.
Marqueurs génétiques
Pour caractériser un chromosome, on utilise des marqueurs génétiques. Il existe différents types de marqueurs, les plus utilisés sont
- les marqueurs SNP (qui définissent la mutation d'une seule base), ils sont utilisés entre autres pour définir les arbres des filiations de l'humanité. Pour le chromosome Y, ils prennent le nom de XN où X est un indice définissant le laboratoire ou l'entreprise ayant découvert le marqueur et N le énième marqueur découvert dans ce laboratoire[2]. Par exemple M35 est le 35e marqueur SNP découvert par l'Université de Stanford.
- et les marqueurs STR (Short Tandem Notice ou encore microsatellites). Un chromosome contient des séquences répétées de nucléotides (de paires de bases). Le nombre de répétitions varie d'une personne à l'autre. Un STR du chromosome Y est désigné par un nombre DYS (DNA Y-chromosome Segment number). Lorsqu'on « test » une personne, on associe au marqueur DYS le nombre de répétitions de la séquence STR du chromosome de la personne concernée. Ils sont utilisés pour définir les haplotypes (voir ci-dessous), la résolution de l'haplotype croît avec le nombre de marqueurs STR.
Pour mettre en évidence ces marqueurs génétiques, on extrait l'ADN et on lui fait subir différents processus physico-chimiques.
Les haplogroupes et leur classification
En génétique des populations, chaque branche majeure s'appelle haplogroupe et chaque sous-branche majeure sous-haplogroupe. Le terme haplogroupe ou sous-haplogroupe n'est pas absolu, il est relatif à l'endroit étudié de l'arbre. La définition de cet arbre est loin d'être achevée si bien que la dénomination des haplogroupes change régulièrement. Une branche prend parfois le terme biologique de clade.
La plupart des études utilisent maintenant cet arbre généalogique de l'ADN-Y avec sa nomenclature associée. Cette nomenclature a été définie une première fois en 2002 par le Y Chromosome Consortium (YCC). Cet arbre comprend 15 haplogoupes majeurs (A, B, C, D, E, G, H, I, J, L, M, N, O, Q et R). Chaque sous-haplogroupe associé à son haplogroupe est nommé par le nom de son haplogroupe plus un numéro de sous-branche (exemple R1). Puis les sous-haplogroupes des sous-haplogroupes sont nommés avec la dénomination de son haplogroupe parent plus une lettre minuscule (exemple R1b) et ainsi de suite en alternant lettres et chiffres.
Une cartographie des haplogroupes des ADN-Y de l'ensemble des populations est en train d'être réalisée. Elle permet de mieux comprendre les migrations et les affinités des patrimoines génétiques paternels des populations humaines. Nous donnons ci-dessous la version française de l'arbre sur Wikipédia mais nous recommandons au lecteur intéressé de consulter la version anglaise qui est mise à jour régulièrement.
Haplogroupes du chromosome Y (Y-ADN) | ||||||||||||||||||||||||
Plus récent ancêtre patrilinéaire commun | ||||||||||||||||||||||||
A | ||||||||||||||||||||||||
BT | ||||||||||||||||||||||||
B | CT | |||||||||||||||||||||||
DE | CF | |||||||||||||||||||||||
D | E | C | F | |||||||||||||||||||||
G | H | IJK | ||||||||||||||||||||||
IJ | K | |||||||||||||||||||||||
I | J | LT | K2 | |||||||||||||||||||||
I1 | L | T | MS | P | NO | |||||||||||||||||||
M | S | Q | R | N | O | |||||||||||||||||||
R1 | R2 | |||||||||||||||||||||||
R1a | R1b | |||||||||||||||||||||||
Puisque les marqueurs SNP définissent la mutation d'une base, ils sont particulièrement bien adaptés pour définir les haplogroupes. Afin d'illustrer ceci revenons à l'exemple du marqueur SNP M35 correspond à l'haplogroupe E1b1b1b (pour le savoir il faut consulter l'arbre des filiations paternels de l'humanité). Cet haplogroupe est particulièrement fréquent dans les populations berbères. Il possède des sous-haplogroupes définis par d'autres marqueurs SNP.
Cette nomenclature évoluant encore, on associe presque systématiquement le marqueur SNP caractérisant l'haplogroupe à l'haplogroupe correspondant.
Les lignées paternelles d'une population sont caractérisées par la distribution d'haplogroupes de l'ADN-Y, c'est-à-dire par l'ensemble et la proportion des haplogroupes que l'on trouve en son sein, et par les haplotypes les plus fréquents de cette population.
Les haplotypes
La signature complète de l'ADN-Y d'un homme s'appelle en théorie haplotype. Cependant, ce terme est souvent employé abusivement et ne se réfère généralement qu'à la signature partielle de l'ADN-Y.
Il existe plusieurs façons de caractériser un haplotype mais la façon la plus largement répandue est l'utilisation des marqueurs STR.
On définit parfois des haplotypes modèles. Un des plus fameux est le CMH (Cohen Modal Haplotype). Celui-ci est obsolète mais nous l'utilisons pour illustrer le concept. Il est défini par 6 marqueurs DYS. Si l'on teste l'ADN-Y d'un homme avec ces 6 marqueurs et que le nombre de répétitions de séquences pour chacun des marqueurs est la suivante alors on dit que cet homme réagit positivement au CMH.
Il était censé définir l'haplotype de tous les Cohen et uniquement des Cohen. Mais on s'est aperçu que sa résolution n'était pas assez grande et, de ce fait, un très grand nombre d'êtres humains répondaient positivement au test. Un CMH étendu a été redéfini, il correspond bien uniquement à des Cohen mais à une partie seulement des Cohen.
Il existe d'autres haplotypes modèles comme l'Atlantic Modal Haplotype (AMH) ou haplotype 15 qui est porté par une très grande majorité d'hommes habitant l'ouest de l'Europe. Il y a parfois un accord entre un haplotype et un haplogroupe. C'est le cas du AMH qui n'est porté que par l'haplogroupe R1b et particulièrement par le sous-haplogroupe R1b1b2.
Autres systèmes de classification
Il existe encore des auteurs utilisant d'autres techniques pour classifier l'ADN-Y des populations. On peut citer le système p49a,f qui est un RFLP (Restriction Fragment Lengh Polymorphism) utilisant l'enzyme TaqI pour couper ("restreindre") l'ADN. Il est encore pratiqué par le Professeur Lucotte à Paris. Cette sonde permet de définir un certain nombre d'haplotypes mais il est souvent difficile de faire le lien entre ce système et le système du YCC.
Signature génétique des chromosomes homologues
Enfin, en plus des études sur l'ADN-mt et l'ADN-Y, il existe de nombreuses études sur les chromosomes homologues. Dans ce cas, on ne regarde que la signature génétique des populations. Il ne peut y avoir d'arbre généalogique des chromosomes homologues puisque ces chromosomes se mélangent lors de la méiose. Par ailleurs, les chromosomes homologues sont sujets à la sélection naturelle ce qui pose des problèmes lorsqu'on compare des populations vivant dans des milieux différents.
Définition de la population
La population étudiée par la génétique des populations est un ensemble d'individus qui montrent une unité de reproduction : les individus d'une population peuvent se croiser entre eux, ils se reproduisent moins avec les individus des populations voisines, desquelles ils sont géographiquement isolés. Une population n'est donc pas une espèce, mais est déterminée par des critères d'ordres spatiaux, temporels et par un patrimoine génétique, qui est un génome collectif, somme de génotypes individuels (pools de gènes). L'évolution du patrimoine génétique au cours des générations est étudiée par la génétique des populations.
Cette population idéale reste un modèle d'étude, et correspond très rarement à la réalité. Dans la mesure où des critères spatio-temporels entrent en ligne de compte, les limites d'une population sont la plupart du temps très incertaines. Ces limites dépendent ainsi de la répartition spatiale et temporelle des individus, de leur mobilité, de leur mode de reproduction, de leur durée de vie, de leur sociabilité, etc.
Mutation, dérive, sélection et migration
Des mutations, l'effet fondateur, la dérive génétique et les pressions de sélection variables sont à la source de l'évolution. Elles conduisent à des différences génétiques entre populations de plus en plus importantes, différences desquelles peut résulter la spéciation.
Mutations
La variabilité génétique est le résultat des mutations qui font apparaître de nouveaux allèles. Une même mutation peut avoir des effets phénotypiques différents.
- Les mutations créent de nouveaux allèles, elles peuvent être de différents types :
- mutations ponctuelles ;
- remaniement chromosomique : il s'agit de modifications de la structure chromosomique. Ces modifications ne sont guère favorables. Il en existe plusieurs types (translocation, délétion, duplication, inversion) ;
- changement du nombre de chromosomes :
- aneuploïdie : perte ou ajout de chromosomes (voir, par exemple, trisomie 21)
- polyploïdie
- mutation neutre : on appelle neutres les mutations qui n'ont pas d'effet sur l'organisme où elles se produisent ;
- mutation létale : on appelle létales les mutations qui diminuent l'espérance de vie.
Dérive et sélection
- La dérive génétique et la sélection provoquent des variations de fréquence des allèles à l'intérieur d'une population. La dérive génétique est l'effet du hasard : si les gamètes de quelques individus seulement forment la génération suivante, alors les allèles de ces individus ne sont pas forcément représentatifs de la génération parentale. On peut prendre pour analogie un lancer de dés : si on lance un dé 6 fois, la probabilité pour obtenir un seul 1 est faible, alors que si on lance le dé 1000 fois, la proportion de 1 obtenus est beaucoup plus proche de 1/6. Ainsi la dérive génétique est d'autant plus marquée que la population est de petite taille. La sélection naturelle favorise quant à elle les individus qui portent des allèles leur procurant un avantage sélectif, c'est-à-dire qui augmente leur chance de reproduction.
Migrations
- L'effet fondateur : la fréquence allélique d'un groupe migrant peut ne pas être représentative de la population dont il est issu. Par exemple, un allèle peu fréquent peut être surreprésenté.
- Les migrations sont l'occasion de transmission d'allèles d'une population à l'autre. Elles modifient bien évidemment la fréquence des allèles dans les populations concernées.
Régimes de reproduction
L'efficacité de la sélection dépend du régime de reproduction. Les modèles de génétique des populations prennent donc en compte ce paramètre.
Au sein d'une population, tous les individus peuvent se reproduire entre eux avec la même probabilité (on dit alors que la population est panmictique). Dans le cas contraire, ils peuvent se reproduire davantage avec eux-mêmes (possible chez les espèces hermaphrodites) ou avec des apparentés - plus proches géographiquement - qu'avec les autres individus de la population. On parle alors de régime fermé, ou consanguin. Enfin, ils peuvent se reproduire moins souvent avec eux-mêmes ou leurs proches qu'avec le reste de la population (par exemple s'il existe des systèmes d'auto-incompatibilité ou des règles sociales d'évitement), et on parle alors de régime ouvert.
Lorsqu'un individu se reproduit avec lui-même, on parle d'autofécondation. Lorsqu'il se reproduit avec d'autres individus (apparentés ou non), on parle d'allofécondation.
Méthodes d'étude de la variabilité
Notion de polymorphisme
La génétique des populations permet d'étudier les variabilités d'origine génétique des populations. Cette variabilité est appelée « polymorphisme ». Une population est dite polymorphe si dans cette population une portion d'ADN a une variation de séquence correspondant à plusieurs formes alléliques dont la plus fréquente ne dépasse pas plus d'une certaine fraction de la population totale, entre 95 ou 99 pour cent.
Dans une population, on dit qu'un gène est polymorphe, s'il possède au moins deux allèles ayant une fréquence supérieure ou égale à 1 %. S'il ne possède pas deux allèles avec une fréquence supérieure ou égale à 1 %, mais que le gène existe quand même en plusieurs exemplaires, il est polyallélique (un gène polymorphe est donc obligatoirement polyallélique).
- monomorphisme : les gènes monomorphes n'ont pas de variabilité.
- cryptopolymorphisme : moins de 1 %, les maladies génétiques humaines sont en général dans ce cas.
Mesure de la diversité génétique
On peut calculer la fréquence des phénotypes observés quand une population est polymorphe pour un caractère donné. Dans une population de N individus dont Nx ont tel caractère x et Ny tel autre caractère y :
- fréquence du phénotype x : f[x] = Nx/N
- fréquence du phénotype y : f[y] = Ny/N
Dans le cas d'un gène à deux allèles A et a, a étant récessif, seule la fréquence phénotypique de aa peut être calculée, puisque l'on ne peut distinguer Aa et AA au niveau du phénotype.
En revanche, s'il y a trois caractères (x, y, z) gouvernés par deux allèles codominants (A1, A2), les phénotypes permettent de distinguer les trois génotypes possibles, et il sera cette fois possible de calculer la fréquence génotypique :
- f(A1,A1) = Nx/N
- f(A1,A2) = Ny/N
- f(A2,A2) = Nz/N
La fréquence génotypique permet ensuite de calculer la fréquence allélique (la mesure de l'abondance d'un allèle dans une population).
Une autre forme de diversité génétique est la différence génétique. On la mesure en choisissant aléatoirement une séquence de paires de base d'un individu et en choisissant la séquence la plus similaire d'un autre individu. Puis, on calcule la proportion de paires de bases différentes dans les deux séquences. On peut calculer la différence génétique entre deux individus d'une même espèce ou la différence génétique moyenne entre des individus d'espèces différentes. Par exemple, la différence génétique entre un humain et un chimpanzé serait de (1,24 ± 0,07) %, celle entre un humain et un gorille de (1,62 ± 0,08) % et celle entre un humain et un orang-outan de (3,08 ± 0,11) %. La différence génétique augmente graduellement avec le temps, donc sa mesure permet de calculer l'âge de la séparation des espèces. Celle entre les humains et les chimpanzés aurait (5,4 ± 0,8) millions d'années et celle entre l'ancêtre commun des humains et des chimpanzés et les gorilles aurait (7,3 ± 1,1) millions d'années[4].
Notion de population théorique idéale et loi de Hardy-Weinberg
La prévision de la variabilité génétique d'une population est très difficile à réaliser du fait des mutations, de la transmission simultanée de plusieurs gènes qui peut entraîner des interactions, etc. Pour éviter ces problèmes, on peut tenter de formuler des hypothèses par la définition d'un modèle où les croisements seraient réellement aléatoires (croisements panmictiques), sans migration ni mutation, en faisant abstraction de la sélection (tous les individus ont les mêmes chances de se reproduire). L'étude doit se faire au sein d'une population suffisamment grande pour être considérée comme infinie, afin de pouvoir identifier la probabilité d'obtention de chaque génotype à sa fréquence effective d'apparition.
Dans ce modèle, les fréquences des allèles et des génotypes suivent une loi, la loi de Hardy-Weinberg, qui est le modèle de référence de la génétique des populations. Cette loi énonce que les fréquences alléliques et les fréquences génotypiques restent stables de génération en génération.
Cette loi n'est jamais parfaitement observée dans la nature, et, en réalité ce sont les écarts au modèle qui sont les plus informatifs. Sur un grand nombre de générations, un écart à la panmixie calculée selon Hardy-Weinberg peut en effet suggérer l'existence d'un processus évolutif sous-jacent, une pression de sélection, un phénomène d'autofécondation, ou un choix du conjoint (génotypes modulant le potentiel reproductif).
Voir aussi : principe de Hardy-Weinberg
Applications
Rubriques à améliorer
- Étude du polymorphisme phénotypique (morphologique).
- Étude du polymorphisme des protéines :
- polymorphisme enzymatique par électrophorèse
- polymorphisme immunologique
- polymorphisme de l'ADN
- Étude de l'ADN fossile.
- Le génome mitochondrial humain, dont la transmission est uniparentale (par la mère) possède une importance privilégiée pour étudier l'évolution, car son taux de mutation est élevé, il n'a pas de recombinaison méiotique et ses variations ne sont donc dues qu'à des mutations cumulées (pas de métissage). Sa variation est donc lente et se prête par ailleurs très bien au calcul de distance génétique sur des périodes relativement brèves. Néanmoins, il ne donne pas d'informations sur l'ADN nucléaire qui évolue indépendamment. L'étude de l'ADN mitochondrial a ainsi montré que tous les ADNmt actuels dérivaient d’ancêtres théoriques communes appelées ève vivant en Afrique, il y a environ 150 000 ans[5].
- Un autre marqueur génétique uniparental qui permet le même genre d'études est le chromosome Y. Ainsi, le plus récent ancêtre patrilinéaire commun est l'humain mâle de qui tous les chromosomes Y des hommes vivants descendraient. En analysant l'ADN de gens dans plusieurs régions du monde, le généticien Spencer Wells a conclu que tous les humains vivant aujourd'hui seraient les descendants d'ancêtres mâles qui auraient vécu en Afrique il y a environ 60 000 ans[6].
- déterminisme monogénique
- déterminisme polygénique
- Population fantôme
Notes et références
- Spencer Wells, The Journey of Man: A Genetic Odyssey, p. 55. Random House, (ISBN 0-8129-7146-9)
-
- IMS-JST : Institute of Medical Science-Japan Science and Technology Agency, Japan
- L : The Family Tree DNA Genomic Research Center, Houston, Texas, United States of America
- M : Stanford University, California, United States of America
- P : University of Arizona, Arizona, United States of America
- PK : Biomedical and Genetic Engineering Laboratories, Islamabad, Pakistan
- U : University of Central Florida, Florida, United States of America
- V : La Sapienza, Rome, Italy
- Hallast, P., Agdzhoyan, A., Balanovsky, O. et al. "A Southeast Asian origin for present-day non-African human Y chromosomes", Human Genetics (2020), lire en ligne.
- ww.sciencedirect.com/science/article/pii/S0002929707640968.
- The genographic project du National geographic est mené en partenariat avec IBM depuis 2007.
- (en) Documentary Redraws Humans' Family Tree
Bibliographie
- Bertrand Jordan, L'humanité au pluriel : la génétique et la question des races, Paris, Seuil, coll. « Science ouverte », , 227 p. (ISBN 978-2-02-096658-0)
- Luca Cavalli-Sforza et Francesco Cavalli-Sforza, La Génétique des populations : Histoire d'une découverte [« The genetics of human population »] (trad. de l'italien), Paris, Éditions Odile Jacob, , 377 p. (ISBN 978-2-7381-2081-6, lire en ligne)
Voir aussi
Génétique au sens large
Génétique des populations humaine
Un tableau synthétique, donnant le pourcentage de chaque haplogroupe du chromosome Y en fonction des différentes populations, est fourni sur la page du Wikipedia en anglais Y-DNA haplogroups by ethnic groups.
Différentes études ont été menées sur divers groupes humains pour mieux comprendre leurs origines. Certaines sont abordées dans Wikipédia :
- Origine multirégionale de l'homme moderne
- Origine africaine de l'homme moderne
- Histoire génétique des populations européennes
- Projet génographique
- Études génétiques sur les Juifs
- Les Amérindiens
- Les Azéris
- Les Basques
- Les Étrusques
- Les Finnois
- Les Iraniens
- Les Maghrébins et Marocains
- Les Peuls
- Les Roms
- Les Sardes
Liens externes
- Trois projets privés tentent de cartographier le génome de l'ensemble des populations du globe et de tracer leurs migrations. Il s'agit de Genebase, du projet Genographic de national Geographic et du DNA Ancestry project. Seul le premier site donne accès à une base complète des haplogroupes par populations.