Accueil🇫🇷Chercher

Projet 1000 Genomes

Le projet 1 000 Genomes, dĂ©marrĂ© en , est une recherche internationale pour Ă©tablir le catalogue des variations gĂ©nĂ©tiques humaines le plus dĂ©taillĂ©. Les scientifiques projettent de sĂ©quencer les gĂ©nomes d'au moins un millier de participants anonymes dans de nombreux groupes ethniques diffĂ©rents dans les trois annĂ©es, en utilisant les nouvelles technologies qui sont plus rapides et moins coĂ»teuses. En 2010, le projet a terminĂ© sa phase pilote, dĂ©crite en dĂ©tail dans un article de Nature[1]. Depuis fin 2010, le projet est en phase production avec un objectif croissant de sĂ©quencer 2 000 individus.

Ce projet réunit des équipes multidisciplinaires d'unités de recherche dans des instituts à travers le monde, incluant le Royaume-Uni, la Chine et les États-Unis. Chacune contribue au travail d'établir l'ensemble des séquences et à améliorer la carte du génome humain, qui sera librement accessible dans des bases publiques de données à la communauté scientifique comme au public.

En fournissant un panorama de toute la diversité génétique humaine, et non seulement de ce qui relève de la biologie médicale, le consortium générera un outil très utile pour tous les champs des sciences biologiques, spécialement dans les disciplines de la génétique, la médecine, la pharmacologie, la biochimie et la bioinformatique[2].

Historique

Dans les trente dernières années, les avancées dans la génétique des populations humaines et la génomique comparative ont rendu possible d'augmenter la compréhension de ce qu'est la diversité génétique. Cependant, nous commençons seulement à comprendre des processus comme le choix aléatoire des gamètes, les mutations (insertions/délétions ou indel), les variations du nombre de copies d'un segment dans le génome (sigle anglais CNV), les rétrotransposons, les polymorphismes nucléotidiques simples (sigle anglais SNP) et la sélection naturelle ont façonné les niveaux et modèles des variations à l'intérieur des espèces et aussi entre espèces[3] - [4] - [5] - [6], sur la comparaison des séquences des régions MHC classe I chez les humains et les chimpanzés qui dévoilent des insertions/délétions comme le moyen principal de la divergence génétique.

Variations génétiques humaines

L'appariement aléatoire des gamètes durant la reproduction conduit à la dérive génétique — une fluctuation aléatoire dans la fréquence d'un caractère dans la population — dans les générations suivantes et il en résulte la perte de toute variation en l'absence de pression externe. On postule que le taux de la dérive génétique est inversement proportionnel à la taille de la population, et qu'elle peut être accélérée dans des situations spécifiques comme les bouchons (en anglais « bottleneck »), où la taille des populations est réduite pendant une certaine période de temps, et par l'effet fondateur (Les individus d'une population descendent d'un petit nombre d'individus fondateurs)[3].

Anzai et al. ont démontré que les indel, comptent pour 90,4 % de toutes les variations observées dans la séquence des locus majeurs d'histocompatibilité (sigle anglais MHC) entre humains et chimpanzés. Après avoir pris de multiples indels en considération, le haut degré de similarité génétique entre les deux espèces (98,6 % d'identité dans la séquence nucléotidique totale) tombe à seulement 86,7 %. Par exemple, une large suppression ("délétion") de 95 kilobases (kb) entre les locus humains pour les gènes MICA et MICB, donne un seul gène hybride du chimpanzé MIC, liant cette région au développement de plusieurs infections rétrovirales spécifiques à l'espèce et la susceptibilité résultante à diverses maladies auto-immunes. Les auteurs concluent qu'au lieu des SNP plus subtils, les indels sont le mécanisme essentiel dans la spéciation des primates[4].

Ă€ cĂ´tĂ© des mutations, SNP et autres modifications structurelles comme le nombre de copies d'un gène (CNV), contribuent Ă  la diversitĂ© gĂ©nĂ©tique dans les populations humaines. En utilisant les puces Ă  ADN, près de 1 500 rĂ©gions Ă  nombre de copies variables, couvrant environ 12 % du gĂ©nome et contenant des centaines de gènes, de locus de maladies, d'Ă©lĂ©ments fonctionnels et de duplications de segments, ont Ă©tĂ© identifiĂ©es dans la collection de sĂ©quences HapMap. Cependant la fonction spĂ©cifique des CNVs reste peu apparente, le fait que les CNVs utilisent plus de contenu nuclĂ©otidique dans le gĂ©nome que les SNP montrent l'importance des CNVs dans la diversitĂ© gĂ©nĂ©tique et l'Ă©volution[5].

L'investigation sur les variations génomiques humaines possèdent un grand potentiel pour identifier les gènes qui pourraient sous-tendre des différences dans la résistance aux maladies (exemple région CMH) ou Métabolisme des médicaments[7].

SĂ©lection naturelle

La sélection naturelle dans l'évolution d'un trait peut être divisée en trois classes. La sélection positive ou directionnelle se réfère à la situation où un certain allèle a une plus grande affinité avec d'autres allèles, et en conséquence augmente sa fréquence dans la population (exemple Résistance aux antibiotiques des bactéries). En contraste, la sélection négative ou stabilisatrice (aussi connue sous le nom de sélection purificatrice) abaisse la fréquence ou même supprime des allèles dans une population à cause des désavantages qui lui sont associés en présence d'autres allèles. Finalement, nombre des formes de sélection balancée existent; celles-ci augmentent la diversité à l'intérieur d'une espèce en rendant les individus (hétérozygotes mieux adaptés que les individus homozygotes, exemple G6PD, le gène impliqué dans la drépanocytose et la résistance à la malaria) où la diversité peut varier géographiquement pour une espèce qui habite différentes niches écologiques, favorisant ainsi différents allèles[8]. Quelques différences dans le génome ne peuvent pas affecter sa bonne viabilité. Ce sont les variations neutres, qu'on pensait auparavant être de l'ADN superfétatoire le « junk DNA » et qui ne sont pas affectées par la sélection naturelle donnant une variabilité génétique plus élevée dans de tels sites quand on compare aux sites où les variations influencent la bonne viabilité[9].

Il n'est pas pleinement compris comment la sélection naturelle crée des différences dans la population. Cependant, les régions génétiques candidates à la sélection sont identifiées depuis récemment[6]. Des modèles de polymorphismes ADN peuvent être utilisés avec confiance pour détecter des signatures de sélection et aider à identifier les gènes qui pourraient sous-tendre les variations dans la résistance aux maladies et dans le métabolisme des médicaments[8] - [9]. Barreiro et al. ont prouvé que la sélection négative a réduit la différenciation des populations en modifiant au niveau des acides aminés (particulièrement pour les gènes relatifs aux maladies), tandis que la sélection positive assure l'adaptation régionale des populations humaines en augmentant la différenciation régionale dans des segments des gènes (principalement les mutations non-sens ou non synonymes et les variants de l'extrémité du gène non codante 5')[6].

On pense que la plupart des désordres génétiques et des maladies mendéliennes (sauf les maladies d'apparition tardive où on présume que les individus trop âgés ne contribuent plus à de nouvelles naissances) auront un effet sur la survie et/ou la reproduction, ainsi, les facteurs génétiques sous-tendant ces maladies devraient être influencées par la sélection naturelle. La maladie de Gaucher (mutations dans le gène GBA), la maladie de Crohn (mutation de NOD2) et la cardiomyopathie hypertrophique familial (mutations dans CMH1, CMH2, CMH3 et CMH4) sont tous des exemples de sélection négative. Ces mutations cause de maladies sont d'abord récessives et se raréfient comme attendu à une fréquence faible, supportant l'hypothèse de la sélection négative. Peu de cas ont été rapportés où des mutations cause de maladies apparaissent avec une fréquence élevée supportée par la sélection balancée. L'exemple le plus notable est pour les mutations du locus G6PD où, si déficience par homozygotie de l'enzyme G6PD et en conséquence le résultat est la drépanocytose, mais les hétérozygotes sont partiellement protégés contre la malaria. D'autres explications possibles pour la raréfaction des allèles entraînant des maladies à des fréquences modérées ou élevées incluent la dérive génétique et des altérations récentes entraînant une sélection positive causée par des changements environnementaux telles que des diètes ou un « auto-stop génétique » quand le gène responsable accompagne des gènes voisins et favorables dans la reproduction[7].

Les analyses comparatives de larges parties du génome de différentes populations humaines, aussi bien que celles entre des espèces (exemple homme comparé au chimpanzé) nous aident à comprendre les relations entre les maladies, les sélections et fournissent des preuves de mutations dans des gènes sensibles parce qu'ils sont disproportionnellement associés avec des maladies héréditaires (phénotypes). Les gènes impliqués dans des désordres complexes tendent à être sous une sélection moins négative que les gènes de maladies à transmission mendélienne[7].

Description du projet

Buts

Il y a deux sortes de variants gĂ©nĂ©tiques relatifs Ă  des maladies. La première sorte sont de rares variants qui entraĂ®nent de sĂ©vères et prĂ©dominants effets sur de simples traits (exemple la mucoviscidose, la maladie de Huntington).Dans la seconde, plus commune, les variants ont un effet attĂ©nuĂ© et on les pense ĂŞtre impliquĂ©s dans des traits complexes (exemple diabètes, maladies cardiaques). Entre ces deux types de variants il y a un significatif Ă©cart dans les connaissances, que le projet 1 000 Genomes est destinĂ© Ă  rĂ©duire[2].

Le but premier de ce projet est de créer un catalogue complet et détaillé de la diversité génétique humaine, qui a son tour peut être utilise pour les études transdisciplinaires reliant variation génétique et maladie. En travaillant ainsi le consortium projette de découvrir plus de 95 % des variants (par exemple SNP, CNV, indels) avec de faibles fréquences allèliques aussi basses que 1 % à travers le génome et de 0,1 à 0,5 % dans les gènes, aussi bien que d'estimer leurs fréquences dans la population, leurs liens avec les haplotypes et la structuration des déséquilibres de liaison pour les allèles variants[10].

Les buts seconds incluront l'utilisation de meilleurs SNP, la sélection de sondes pour des plateformes de génotypage des futures études et l'amélioration de la séquence humaine de référence. En plus, la base de données terminée sera un instrument utile pour étudier les régions ADN sous pression de sélection, les variations dans de nombreuses populations et comprendre les processus sous-tendus de mutation et les recombinaisons génétiques[10].

Aperçus

Le gĂ©nome humain consiste approximativement de 3 milliards de paires de bases ADN et est estimĂ© porter 20 000 Ă  25 000 protĂ©ines codantes, les gènes. En dessinant ce projet, le consortium souhaitait pouvoir rĂ©pondre Ă  de sĂ©vères critiques concernant des indicateurs de projet tels que les dĂ©fis technologiques, les standards de qualitĂ© des donnĂ©es et la couverture du sĂ©quençage[10].

Au cours des trois annĂ©es suivantes, les scientifiques au Centre Sanger, Ă  l'Institut du GĂ©nome de Beijing BGI Ă  Shenzhen et au rĂ©seau de sĂ©quençage Ă  grande Ă©chelle du National Human Genome Research Institute, planifient le sĂ©quençage d'un minimum de 1 000 gĂ©nomes humains. Ă€ cause du très grand nombre de donnĂ©es de sĂ©quence qui demande Ă  ĂŞtre gĂ©nĂ©rĂ©es et analysĂ©es, il est possible que d'autres participants soient recrutĂ©s durant cette pĂ©riode[2].

Presque 10 milliards de bases seront sĂ©quencĂ©es chaque jour sur la pĂ©riode de deux ans de la phase de production. Ceci fait plus de deux gĂ©nomes humains tous les 24 heures ; une capacitĂ© rĂ©volutionnaire. Un dĂ©fi aux meilleurs experts de la bioinformatique et des statistiques gĂ©nĂ©tiques, la base des sĂ©quences comprendra 6 000 milliards de bases ADN, 60 fois plus de donnĂ©es sĂ©quence que ce qui a Ă©tĂ© publiĂ© dans les bases de donnĂ©es ADN dans les 25 dernières annĂ©es[2].

Pour pouvoir dĂ©terminer le plan final de tout le projet, trois Ă©tudes furent conçues et mises Ă  exĂ©cution dans la première annĂ©e du projet. L'intention du premier pilote Ă©tait de gĂ©notyper 180 personnes de 3 groupes gĂ©ographiques majeurs avec une couverture basse (2 passages). Pour l'Ă©tude du deuxième pilote, les gĂ©nomes de deux familles nuclĂ©aires (les deux parents et un enfant adulte) allaient ĂŞtre sĂ©quencĂ©es avec une couverture profonde (20 passages par gĂ©nome). L'Ă©tude du troisième pilote impliquait le sĂ©quençage des rĂ©gions codantes (exons) de 1 000 gènes chez 1 000 personnes avec une couverture profonde (20 passages)[2] - [10].

Le projet est estimé devoir probablement coûter plus de 500 millions de dollars si les technologies standards de séquençage ADN sont employées. Cependant, plusieurs nouvelles technologies (exemple Solexa, 454, SOLiD) seront appliquées, abaissant les coûts attendus dans une fourchette de 30 millions à 50 millions de dollars. Le support majeur sera fourni par le Wellcome Trust Sanger Institute, Hinxton, Angleterre; l'Institut Génomique de Beijing, Shenzhen (BGI Shenzhen), Chine; et le NHGRI, une branche du National Institutes of Heath (NIS)[2].

Les données compilées de séquence du génome sont libres d'accès.

Échantillons de génomes humains

Basés sur les buts globaux du projet, les échantillons seront choisis pour fournir une connaissance puissante des populations avec laquelle les études s'y rapportant sur les maladies communes pourront être faites. En outre, les échantillons ne demanderont pas d'y ajouter l'information médicale ou sur le phénotype puisque le catalogue proposé sera une ressource de base sur la diversité humaine[10].

Pour les études pilotes, les échantillons de génomes humains provenant de la collection du HapMap seront séquencés. Il sera utile de se concentrer sur des échantillons qui ont déjà des données additionnelles disponibles (comme les séquences du projet universitaire américain ENCODE, les génotypes connus sur de grandes parties du génome, les séquences fin des fosmides qui sont des cosmides basés sur les plasmides-F, les testeurs de variations structurels, et les agents d'expression des gènes) pour être capable de comparer les résultats avec ceux d'autres projets[10].

En se conformant aux procédures d'éthique les plus complètes, le Projet 1000 utilisera des échantillons venant de donneurs volontaires. Les populations suivantes seront incluses dans l'étude : Yorubas d'Ibadan, Nigeria ; Japonais de Tokyo ; Chinois de Beijing ; résidents de l'Utah avec des ancêtres du nord et l'ouest de l'Europe ; Luhyas de Webuye, Kenya ; Maasai de Kinyawa, Kenya ; Toscans d'Italie ; Péruviens du Pérou ; Indiens Gujarâtî de Houston ; Chinois de Denver ; ancêtres mexicains à Los Angeles et ancêtres africains dans le sud-ouest des États-Unis[2].

RĂ©sultats

Résultats en génétique des populations

En 2011, des milliers de marqueurs dans le chromosome Y furent trouvés par des amateurs sur les données brutes de la base du projet 1000 Genomes après leur analyse par des programmes informatiques. Ces découvertes permettent de considérablement développer les arbres des haplogroupes Y, très utiles pour l'histoire des migrations humaines et pour la généalogie génétique. Des nouveaux marqueurs ainsi trouvés sont déjà dans les catalogues des compagnies de tests ADN.

Les publications principales du Projet, portant sur la fin de phase 3, ont été publiées dans Nature (https://www.internationalgenome.org/1000-genomes-project-publications) en :

- “A global reference for human genetic variation” Nature 526 68-74 2015; - “An integrated map of structural variation in 2,504 human genomes” Nature 526 75-81 2015.

Notes et références

  1. The 1000 Genomes Project Consortium, A map of human genome variation from population-scale sequencing, Nature (2010) 467, 1061–1073 (http://www.nature.com/nature/journal/v467/n7319/full/nature09534.html)
  2. G Spencer, International Consortium Announces the 1000 Genomes Project, EMBARGOED (2008) http://www.1000genomes.org/files/1000Genomes-NewsRelease.pdf
  3. JC Long, Human Genetic Variation: The mechanisms and results of microevolution, American Anthropological Association (2004)
  4. T Anzai et al., comparative sequencing of human and chimpanzee MHC class I regions unveils insertions/ deletions as the major path to genomic divergence, PNAS (2003) vol. 100 no. 13: 7708–7713
  5. R Redon et al., Global variation in copy number in the human genome, Nature, Volume 444 (2006)
  6. LB Barreiro et al., Natural selection has driven population differentiation in modern humans, Nature Genetics (2008) published online
  7. R Nielsen et al., Recent and ongoing selection in the human genome, Nature Reviews, Volume 8 (2007)
  8. EE Harris et al., The molecular signature of selection underlying human adaptations, Yearbook of Physical Anthropology 49: 89-130 (2006)
  9. M Bamshad, Signatures of natural selection in the human genome, Nature Reviews, Volume 4 (2003)
  10. Meeting Report: A Workshop to Plan a Deep Catalog of Human Genetic Variation, (2007) http://www.1000genomes.org/files/1000Genomes-MeetingReport.pdf

Voir aussi

Liens externes

Cet article est issu de wikipedia. Text licence: CC BY-SA 4.0, Des conditions supplémentaires peuvent s’appliquer aux fichiers multimédias.