Accueil🇫🇷Chercher

GĂ©nome

Le génome (/ʒenom/), ou plus rarement génôme, est l'ensemble du matériel génétique d'une espèce codé dans son acide désoxyribonucléique (ADN), à l'exception de certains virus dont le génome est constitué d'acide ribonucléique (ARN). Il contient en particulier tous les gènes codant des protéines ou correspondant à des ARN structurés. Il se décompose donc en séquences codantes (transcrites en ARN messagers et traduites en protéines) et non codantes (non transcrites, ou transcrites en ARN, mais non traduites).

 De l'ADN Ă  la vie, chez l'humain
De l'ADN Ă  la vie, chez l'humain

Le génome est constitué de un ou plusieurs chromosomes dont le nombre total dépend de l'espèce considérée, chaque chromosome étant constitué d'une unique molécule d'ADN, linéaire chez les eucaryotes et le plus souvent circulaire chez les procaryotes. Chaque chromosome peut être présent en un ou plusieurs exemplaires, le plus souvent deux chez les espèces sexuées, l'un d'origine maternelle et l'autre d'origine paternelle (organisme diploïde).

La science qui étudie le génome est la génomique.

Il ne faut pas confondre le génome et le caryotype, qui est l'analyse ou la description macroscopique de l'arrangement des chromosomes.

GĂ©nomes dans le monde vivant

Les 46 chromosomes qui forment le caryotype du génome humain

Chez les virus, le génome est contenu soit dans une ou plusieurs molécules d'ADN (virus à ADN) ou d'ARN (virus à ARN ou ribovirus), à simple ou double brin, protégé au sein d’une particule ou capside de nature protéique. Certaines personnes ne considèrent pas les virus comme des organismes mais comme des parasites moléculaires. En effet, ils se reproduisent en infectant des cellules vivantes dans lesquelles ils injectent leurs génome. Certains virus, comme les rétrovirus auxquels se rattache par exemple le VIH, ont un génome constitué d’ARN, qui se présente soit sous la forme d’un seul brin ou d’un double brin. Quel que soit l’acide nucléique, il est pour certains virus, sous une forme circulaire et pour d’autres, sous forme linéaire. Dans tous les cas, le génome viral existe au moins dans une des phases de son cycle cellulaire sous la forme d’un ADN double brin.

Chez les procaryotes (bactéries et archées), le génome est généralement contenu dans une molécule d'ADN circulaire. Peut aussi exister un génome extrachromosomique, contenu dans des plasmides et des épisomes. Certaines bactéries, comme les actinomycètes, ont cependant des génomes linéaires.

Chez les eucaryotes, on distingue :

  • le gĂ©nome nuclĂ©aire, contenu dans le noyau qui caractĂ©rise les eucaryotes. C'est de ce gĂ©nome dont on parle en gĂ©nĂ©ral quand on parle du gĂ©nome d'un eucaryote (animal, plante, champignon, etc.) ;
  • les gĂ©nomes non nuclĂ©aires, contenus dans des organites :

Chez quelques eucaryotes (par exemple la levure) sont aussi présents des plasmides (de taille réduite).

Chez l'homme en particulier (organisme eucaryote), le génome nucléaire est réparti sur 46 chromosomes, soit 22 paires d'autosomes et deux gonosomes (XX chez la femme, XY chez l'homme).

Taille du génome

La taille du gĂ©nome se mesure en nombre de nuclĂ©otides, ou bases. La plupart du temps, on parle de pb (pour paire de bases, puisque la majoritĂ© des gĂ©nomes est constituĂ©e de doubles brins d'ADN ou bien d'ARN). On emploie souvent les multiples kb (pour kilobase) ou Mb (mĂ©gabase), qui valent respectivement 1 000 et 1 000 000 bases. La taille du gĂ©nome peut aussi ĂŞtre exprimĂ©e en pg (picogrammes), ce qui correspond Ă  la masse d'ADN (haploĂŻde) par cellule. pg reprĂ©sente environ 1 000 Mb.

La taille du gĂ©nome peut varier de quelques kilobases chez les virus Ă  plusieurs centaines de milliers de Mb chez certains eucaryotes. La quantitĂ© d'ADN, contrairement Ă  ce qui a Ă©tĂ© longtemps supposĂ©, n'est pas proportionnelle Ă  la complexitĂ© apparente d'un organisme. Les urodèles, les dipneustes, certaines fougères ou encore certains conifères comme les pins[1] ont des gĂ©nomes plus de 10 fois plus grands que le gĂ©nome humain. Ce constat est frĂ©quemment appelĂ© paradoxe de la valeur C.

Grands génomes

Ă€ ce jour, l'organisme vivant ayant le plus grand gĂ©nome connu est la plante herbacĂ©e Paris japonica ; celui-ci est long d'environ 150 milliards de paires de bases, soit près de 50 fois la taille du gĂ©nome humain[2].

Certaines amibes, comme Amoeba dubia pourraient avoir un gĂ©nome encore plus grand, jusqu'Ă  200 fois plus grand que celui d'Homo sapiens. Cette dĂ©termination est toutefois contestĂ©e et pourrait ĂŞtre faussĂ©e par le fait que ces organismes unicellulaires phagocytent un grand nombre d'autres microorganismes dont elles ingèrent les chromosomes, ce qui vient contaminer la dĂ©termination de leur contenu exact en ADN[2].

Petits génomes

Le génome de Mycoplasma mycoides (en) ne comprend que 1,08 Mb dont 573 gènes. En 2010, une équipe de l'Institut J. Craig Venter synthétise ce génome et l'introduit dans une cellule de M. capricolum (en) privée de son matériel génétique, créant ainsi une nouvelle souche de M. mycoides dénommée JCVI-syn1.0[3]. En 2016, cette équipe réussit, en supprimant des gènes non essentiels, à réduire le génome de M. mycoides à 0,53 Mb et 473 gènes, créant ainsi une souche minimale dénommée JCVI-syn3.0, en fait une nouvelle espèce dénommée M. laboratorium. Ce génome est le plus petit de toutes les cellules connues capables de se reproduire. Sur les 473 gènes conservés, 149 ont une fonction inconnue[4].

Contenu des génomes

Les génomes sont constitués de régions codantes, qui correspondent aux gènes, et des régions non codantes. Les régions non codantes sont constituées des segments intergéniques et des introns à l'intérieur des gènes. Le séquençage de l'ADN permet d'établir l'enchaînement des nucléotides des brins d'ADN, afin de cartographier le génome.

Gènes

Le nombre des gènes dans le gĂ©nome des organismes vivants varie beaucoup moins que la taille du gĂ©nome. Chez la plupart des organismes vivants il est compris entre 1 000 et 40 000. Il n'est pas non plus corrĂ©lĂ© Ă  la complexitĂ© apparente des organismes. La paramĂ©cie, organisme ciliĂ© unicellulaire, possède ainsi un gĂ©nome contenant plus de gènes que celui de l'homme[5]. Le tableau suivant donne la taille totale du gĂ©nome (y compris les rĂ©gions hĂ©tĂ©rochromatiques qui ne sont en gĂ©nĂ©ral pas sĂ©quencĂ©es) et le nombre de gènes prĂ©sents chez un certain nombre d'organismes dont le gĂ©nome a Ă©tĂ© entièrement sĂ©quencĂ©.

OrganismeNombre de gènesTaille du génome
Haemophilus influenzae (bactĂ©rie)1 800[6]1,8 Mpb
Escherichia coli (bactĂ©rie)4 300[7]4,6 Mpb
levure de bière6 000[8]12,1 Mpb
Drosophile (insecte)~14 500[9]150,0 Mpb
NĂ©matode~21 000110,0 Mpb
Arabette (plante Ă  fleur)~25 500110,0 Mpb
Souris~22 0002700,0 Mpb
Homme~22 000[10]3400,0 Mpb
ParamĂ©cie~40 000[5]72,0 Mpb

RĂ©gions non codantes

Comme le nombre de gènes varie dans des proportions beaucoup plus limitées que la taille du génome, lorsque la taille du génome augmente (voir section précédente), la proportion du génome qui correspond aux régions codantes diminue. On observe une augmentation de la longueur des introns ainsi que des régions intergéniques. Les différents types de régions non codantes sont listés ci-dessous avec, à titre d'exemple, leur proportion dans le génome humain[11] qui est représentatif de la situation chez les mammifères :

  • les introns dans les gènes. Dans le gĂ©nome humain, les rĂ©gions codantes (exons) reprĂ©sentent 1,5 % de la longueur totale du gĂ©nome et les introns près de 26 % ;
  • les pseudogènes qui reprĂ©sentent 1,5 % du gĂ©nome humain ;
  • les rĂ©pĂ©titions en tandem qui reprĂ©sentent 5 % du gĂ©nome humain ;
  • les rĂ©pĂ©titions dispersĂ©es qui reprĂ©sentent 45 % du gĂ©nome humain ;
  • l'hĂ©tĂ©rochromatine. Environ 10 % dans le gĂ©nome humain ;
  • les autres rĂ©gions non codantes. Environ 11 % du gĂ©nome humain.

En plus des gènes, les gĂ©nomes contiennent en effet souvent des pseudogènes. Ce sont des sĂ©quences qui ont de nombreuses caractĂ©ristiques des gènes (sĂ©quences codantes, sĂ©quence promoteur, signaux d'Ă©pissage…), mais qui ne sont pas fonctionnelles et ne conduisent donc pas Ă  la production d'une protĂ©ine. Ceci peut ĂŞtre la consĂ©quence de mutations gĂ©nĂ©tiques qui ont altĂ©rĂ© sa sĂ©quence. Le gĂ©nome humain contient ainsi environ 20 000 pseudogènes, soit pratiquement autant que de gènes fonctionnels. Souvent les pseudogènes sont des duplications d'un gène actif qui conserve la fonctionnalitĂ© pour la cellule. On dĂ©nombre ainsi plusieurs pseudogènes pour le cytochrome c dans notre gĂ©nome, en plus du gène fonctionnel. Dans d'autres cas, la transformation d'un gène en pseudogène conduit Ă  une perte de fonction, lorsque c'est la seule copie active qui est atteinte par des mutations. Dans notre gĂ©nome, c'est le cas du gène codant la L-guluno-Îł-lactone oxydase, une enzyme permettant la synthèse de l'acide ascorbique qui est devenu un pseudogène, ce qui fait que nous devons absorber de la vitamine C chaque jour dans notre alimentation, faute de pouvoir la synthĂ©tiser.

Dans les grands génomes, la plus grande partie des régions non codantes est constituée de séquences répétées et plus particulièrement de répétitions dispersées. Leur proportion augmente aussi avec la taille du génome. Dans le génome humain, ce taux est d'environ 45 %[10]. Il dépasse 80 % dans le génome du blé, qui est cinq fois plus grand que celui de l'homme.

Structure tridimensionnelle du génome

La configuration tridimensionnelle du génome a une importance fonctionnelle : l'enroulement (ou « condensation ») de l'ADN sur lui-même grâce aux histones permet de « ranger » une grande quantité d'information génétique dans le minuscule noyau d'une cellule, et il permet aussi à des parties éloignées de chromosomes de se toucher quand se forment des boucles d'ADN (ces boucles permettent à deux gènes éloignés d'agir de concert). Le chromosome peut être comparé à un collier de perles où chaque perle est un gène ou l'un des autres « morceaux » d'ADN, mais dont le fonctionnement ne serait pas « linéaire ». Dans ce cas, pour allumer ou éteindre un gène (une perle), ce gène doit être connecté avec l'ADN qui contrôle ou régule son activité ou qui doit agir de concert (une autre perle, d'une forme complémentaire). Cet autre gène peut être situé assez loin sur ce collier (ou même sur un collier voisin, c'est-à-dire un autre chromosome)[12].

Depuis des décennies, les biologistes moléculaires soupçonnaient fortement que la manière dont l'ADN se déroule et se condense tridimensionnellement dans le noyau joue un rôle-clé en permettant ces connexions, là où il faut et quand il faut, tout en décuplant les capacités d'interactions entre des gènes éloignés[12].

Depuis le début des années 2000 on comprend un peu mieux le lien entre les « astuces » biochimiques et topologiques et utilisées par le génome lors de ses changements de configuration, lors des différentes phases de la mitose et/ou de la méiose et dans son état condensé[12].

Des techniques biomoléculaires nouvelles sont en développement pour modéliser ou observer la position relative d'un seul morceau d'ADN (un gène par exemple) au regard d'autres gènes ou morceaux de l'ADN afin de définir un « interactome transcriptionnel » (qui serait une sorte de cartographie des relations fonctionnelles entre tous les gènes interagissant, de tous les chromosomes d'un même organismes) [12] ; et il faut encore ajouter à cette complexité celle de l'épigénétique ou des relations de transfert horizontaux de gènes d'une espèces à l'autre (chez les bactéries par exemple).

En 2009, Erez Lieberman Aiden[13], et ses collègues ont produit une méthode (modèle probabiliste) dite Hi-C[14] cherchant à représenter toutes les connexions simultanées ou possibles d'un génome. Ils se sont heurtés à un problème de résolution, faisant qu'ils ne pouvaient d'abord distinguer que deux compartiments, l'un renfermant de l'ADN actif et l'autre où les gènes tendaient à être éteints ; cette technique ne pouvait alors être utilisée que sur l'ADN déplié et retiré du noyau, ce qui conduisait à des résultats flous[12]. Ils ont donc cherché à cartographier les contacts entre gènes ou autres éléments du génome dans des noyaux intacts, via des méthodes apportant des informations bien plus de détaillées (passant d'une résolution de millions de bases à une résolution permettant d'observer des éléments de seulement 1000 bases (typique d'un gène). Des programmes informatiques sophistiqués ont alors pu produire des morceaux de « cartes 3D de l'ADN » (pour huit lignées de cellules humaines, dont cancéreuses ou de tissus de base, ainsi que pour une lignée de cellules cancéreuses de souris de laboratoire[15]).

Pour une lignĂ©e humaine de cellules de cancer lymphatique, par exemple, environ 4 900 000 000 contacts ont Ă©tĂ© dĂ©tectĂ©s entre diffĂ©rents morceaux d'ADN ; pour d'autres types de cellules, le nombre de contacts a variĂ© de 395 Ă  1 100 millions. Plus les contacts sont nombreux, plus les Ă©lĂ©ments en contact sont proches dans l'espace tridimensionnel[12].

En 2014, Rao, Huntley, Aiden, et leurs collègues concluent (dans la revue Cell[15]) que le gĂ©nome est disposĂ© en environ 10 000 boucles, avec dans chaque type de cellule une configuration diffĂ©rente correspondant Ă  diffĂ©rents types de contacts entre fragments d'ADN. Ces diffĂ©rences de structure induisent diffĂ©rents patterns d'activitĂ© gĂ©nique, dĂ©finissant chaque type de cellule selon Aiden[12].

Au sein de cellules issues de donneuses (de sexe féminin), on a noté la formation de « boucles gigantesques dans l'un des chromosomes X ». Cette boucle pourrait avoir pour fonction de mettre en silence le second chromosome X afin de permettre le bon fonctionnement des gènes du chromosome X encore actif[12].

Le groupe a comparé les cartes 3D du génome de cellules cancéreuses de la souris et de cellules cancéreuses humaines. Ces cartes étaient très semblables, avec souvent de mêmes boucles, ce qui laisse penser que la structure tridimensionnelle qui définit un type spécifique de cellules n'a pas beaucoup changé chez les mammifères au cours de l'évolution[15].

La réalisation de cartes 3D complètes du génome de différentes espèces permettra aux chercheurs, médecins et à l'industrie biotechnologiques de mieux comprendre ou exploiter les génomes des espèces. Le laboratoire d'Aiden a déjà en 2014 créé une application et un portail dit « Juicebox »[16] avec un moteur de recherche fonctionnant à la manière de celui de Google Earth où des chercheurs peuvent localiser dans l'espace du génome un gène les intéressant et voir les contacts qu'il a avec la boucle d'ADN qu'il « touche ». Ces cartes devraient aussi pouvoir confirmer ou infirmer la fonction pressentie de certains gènes impliqués dans les maladies génétiques ou le fonctionnement normal de l'organisme.

Elles reposent aussi la question des effets directs ou indirects des gènes introduit — souvent au hasard — dans la topologie de l'ADN (par les moyens de la transgenèse).

GĂ©nomique

C'est la discipline scientifique qui étudie le fonctionnement d'un organisme, d'un organe, d'un cancer, etc. à l'échelle du génome et non d'un seul gène, avec :

  1. La génomique structurale (séquençage du génome entier) ;
  2. La génomique fonctionnelle (recherche de la fonction et de l'expression des gènes séquencés en caractérisant le transcriptome et le protéome.

Annotation des génomes

L’annotation d’un génome consiste à analyser la séquence nucléotidique qui constitue l’information brute pour en extraire l'information biologique. Cette analyse poursuit deux objectifs successifs, le premier est de localiser les gènes et les régions codantes et le second est, une fois ces gènes localisés, d'identifier ou de prédire leur fonction biologique. Ces deux étapes reposent initialement sur l'utilisation d'outils algorithmiques sophistiqués, dont le développement constitue l'un des champs de la bio-informatique.

Pour localiser les gènes, il existe différents outils complémentaires : des méthodes statistiques qui identifient les régions codantes sur la base de l'analyse de la fréquence des codons, des méthodes de recherche de motifs et en particulier les signatures caractéristiques du démarrage et de la fin, des jonctions entre les introns et les exons, séquences promotrices, terminatrices, sites de fixation du ribosome (RBS).

Pour prédire la fonction potentielle de ces gènes (leur attacher une étiquette, portant leur nom probable, leur fonction probable, leurs interactions probables), on utilise des programmes de recherche d'homologie de séquence. Lorsque le produit d'un gène prédit à des ressemblances avec une protéine connue, on en déduit en général une homologie probable de fonction[17]. On peut également identifier dans la séquence protéique prédite des motifs d'acides aminés caractéristiques de certaines classes de protéines (kinases, protéases…) ce qui peut permettre d'attribuer une fonction probable au gène correspondant. Ce type d'annotation est appelé annotation fonctionnelle.

L'annotation peut être automatique c'est-à-dire s’appuyer uniquement sur des algorithmes recherchant des similarités (de séquence, de structure, de motifs…), permettant de prédire (en fait deviner) la fonction d’un gène. Elle aboutit au transfert « automatique » de l’information figurant dans l’étiquette d’un gène « similaire » d’un génome déjà annoté au génome en cours d’annotation

L'annotation automatique initiale est parfois complétée par une annotation manuelle par des experts qui valident ou invalident la prédiction en fonction de leurs connaissances ou de résultats expérimentaux. Celle-ci peut ainsi éviter le transfert automatique d’erreurs et donc leur propagation, ce qui peut devenir le grand problème auquel devra se confronter la génomique, compte tenu de l'afflux massif de données issues en particulier, des nouvelles techniques de séquençage (voir pyroséquençage).

Actualité du séquençage

La revue Science et Vie du mois de [18] annonce que « Toutes les espèces devraient avoir leur génome séquencé en 2028 ».
Le projet Earth BioGenome s'est donné cet objectif pour les espèces animales, végétales et d'autres espèces multicellulaires.

Contre 4000 génomes connus aujourd'hui, nous devrions en compter plus d'1,2 million en 2028 !

Notes et références

  1. (en) A.M. Morse, D.G.. Peterson, M.N. Islam-Faridi, K.E. Smith, Z. Magbuana, S.A. Garcia, T.L. Kubisiak, H.V. Anderson, J.E. Carlson, C.D. Nelson et J.M. Davis, « Evolution of genome size and complexity in Pinus », PLoS One, vol. 4,‎ , e4332 (PMID 19194510, lire en ligne)
  2. (en) J. Pellicer, M. Fay et I. J. Leitch,, « The largest eukaryotic genome of them all? », Botanical Journal of the Linnean Society, vol. 164,‎ , p. 10–15 (lire en ligne).
  3. (en) Daniel G. Gibson, John I. Glass, Carole Lartigue, Vladimir N. Noskov, Ray-Yuan Chuang et al., « Creation of a Bacterial Cell Controlled by a Chemically Synthesized Genome », Science, vol. 329, no 5987,‎ , p. 52-56 (DOI 10.1126/science.1190719, lire en ligne Accès libre, consulté le ).
  4. (en) Clyde A. Hutchison III, Ray-Yuan Chuang, Vladimir N. Noskov, Nacyra Assad-Garcia, Thomas J. Deerinck et al., « Design and synthesis of a minimal bacterial genome », Science, vol. 351, no 6280,‎ (DOI 10.1126/science.aad6253, lire en ligne Accès libre, consulté le ).
  5. (en) J.M. Aury, O. Jaillon et L. Duret et al., « Global trends of whole-genome duplications revealed by the ciliate Paramecium tetraurelia. », Nature, vol. 444,‎ , p. 171-178 (PMID 17086204)
  6. (en) R.D. Fleischmann et al., « Whole-genome random sequencing and assembly of Haemophilus influenza Rd », Science, vol. 269,‎ , p. 496-512 (PMID 7542800)
  7. (en) FR Blattner, G Plunkett, CA Bloch, NT Perna, V Burland, M Riley, J Collado-Vides, JD Glasner, CK Rode, GF Mayhew, J Gregor, NW Davis, HA Kirkpatrick, MA Goeden, DJ Rose, B Mau et Y Shao, « The complete genome sequence of Escherichia coli K-12. », Science, vol. 277,‎ , p. 1453-1462 (PMID 9278503)
  8. (en) A. Goffeau, B.G. Barrell, H. Bussey, R.W. Davis, B. Dujon, H. Feldmann, F. Galibert, J.D. Hoheisel, C. Jacq, M. Johnston, E.J. Louis, H.W. Mewes, Y. Murakami, P. Philippsen, H. Tettelin et S.G. Oliver, « Life with 6000 genes », Science, vol. 274,‎ , p. 563-567 (PMID 8849441)
  9. (en) M.D. Adams et S.E. Celniker et al., « The genome sequence of Drosophila melanogaster », Science, vol. 287,‎ , p. 2185-2195 (PMID 10731132)
  10. (en) International Human Genome Sequencing Consortium, « Initial sequencing and analysis of the human genome », Nature, vol. 409,‎ , p. 820-921 (PMID 11237011)
  11. (en) T.R. Gregory, « Synergy between sequence and size in large-scale genomics », Nat. Rev. Genet., vol. 6, no 9,‎ , p. 699-708 (PMID 16151375, lire en ligne)
  12. Elizabeth Pennisi (2014) News intitulée 3D map of DNA reveals hidden loops that allow genes to work together ; Revue Science, mise en ligne 11 décembre 2014
  13. Erez Lieberman Aiden] (sa page personnelle) est un biologiste travaillant maintenant au Baylor College of Medicine (BCM) de Houston (Texas)
  14. Yaffe, E., & Tanay, A. (2011). Probabilistic modeling of Hi-C contact maps eliminates systematic biases to characterize global chromosomal architecture. Nature genetics, 43(11), 1059-1065.
  15. Suhas S.P. Rao, Miriam H. Huntley, Neva C. Durand, Elena K. Stamenova, Ivan D. Bochkov, James T. Robinson, Adrian L. Sanborn, Ido Machol, Arina D. Omer, Eric S. Lander, Erez Lieberman Aiden, (2014) A 3D Map of the Human Genome at Kilobase Resolution Reveals Principles of Chromatin Looping ; DOI:https://dx.doi.org/10.1016/j.cell.2014.11.021 (résumé)
  16. Portail 'Juicebox' (Visualization software for Hi-C data) ; AIden Lab / Center for Genome Architecture (Baylor College of Medicine & Rice University)
  17. F. Dardel et F. Képès, Bioinformatique : génomique et post-génomique, Editions de l'École Polytechnique, , 153-180 p. (ISBN 978-2-7302-0927-4, lire en ligne)
  18. Science-et-vie.com, « Science & Vie : premier magazine européen de l’actualité scientifique - Science & Vie », sur www.science-et-vie.com, (consulté le )

Annexes

Bibliographie

  • Terence A. Brown, GĂ©nomes, Flammarion mĂ©decine-sciences, 2004.
  • GĂ©nĂ©tique, gènes et gĂ©nomes : Cours et questions de rĂ©vision, ouvrage collectif par Jean-Luc Rossignol, Roland Berger, Jean Deutsch, Marc Fellous, Dunod, 2004.
  • Stuart J. Edelstein, Des gènes aux gĂ©nomes, Odile Jacob, 2002.
  •  Jean-Michel Petit, Sebastien Arico, Raymond Julien, « Le mini manuel de gĂ©nĂ©tique », DUNOD, 4e Ă©dition, (ISBN 978-2-10-072753-7)

Articles connexes

Lien externe

Film/vidéographie

Cet article est issu de wikipedia. Text licence: CC BY-SA 4.0, Des conditions supplémentaires peuvent s’appliquer aux fichiers multimédias.