Séquence codante
La séquence codante d'un gène, également appelée région codante ou CDS (pour l'anglais coding DNA sequence), est la partie de l'ADN ou de l'ARN du gène, composée des exons, qui est traduite en protéine. Elle ne représente donc qu'une partie du gène duquel elle provient, de même que de l'acide ribonucléique messager (ARNm) dans laquelle elle est inscrite.
Dans l'ADN, une séquence codante commence par le codon d'initiation de la traduction (codon-start) ATG et finit par un codon de terminaison (codon-stop) TAA, TAG ou TGA. Dans l'ARN l'uracile U remplace la thymine T : codon-start AUG et codon-stop UAA, UAG ou UGA. La séquence codante dans l'ARN messager (ARNm) commence avec les régions non traduites, qui font partie des exons. La CDS est la partie d'ARNm transcrit qui est traduite en protéine par un ribosome.
Les exons peuvent être utilisés de différentes façons de manière à influencer les produits de gènes qui en résultent. Ils peuvent, par exemple, être inclus de manière variable dans les ARNm matures afin de produire ultimement des protéines différentes, processus que l’on nomme l’épissage alternatif. Des exons provenant de différents gènes peuvent également être assemblés de manière différentielle afin de former un nouvel exon recombinant par le processus de brassage d’exons. Puis, les exons peuvent également être dupliqués afin que les domaines correspondants soient présents en plus grand nombre dans la protéine résultante. Enfin, la séquence codante peut aussi subir un processus nommé l’édition de l’ARN, par lequel un ARNm subit des modifications (addition, retrait ou remplacement) au niveau de certains nucléotides afin de compléter sa maturation et se préparer pour la traduction. Ces processus constituent une liste non exhaustive de moyens pour un organisme de limiter son fardeau génétique.
En raison de leur nature codante, ces séquences codantes jouent un rôle particulièrement important dans biologie évolutive du développement, discipline dans laquelle ces séquences, leur évolution et les conséquences de leurs mutations sont étudiées en profondeur.
Duplication des exons
La duplication d’exons en tandem survient lorsqu’un exon subit une duplication dont le produit s’insère de manière adjacente à l’exon d’origine dans le gène. Ce genre de duplication s’avère utile dans un contexte où un exon code un domaine spécifique qui confère un avantage fonctionnel lorsqu’il est présent en plusieurs copies dans la protéine[1]. Un tel exemple d’utilisation de la duplication d’exons en tandem est retrouvé notamment chez le collagène.
L'exemple du collagène
Le collagène est une protéine de la matrice extracellulaire formé d’une triple hélice d’acides aminés. Les variétés fibrillaires du collagène possèdent une séquence d’environ 1000 acides aminés et se divise en 42 exons, dont la plupart sont composés de 54 paires de bases ou bien d’un multiple de 54. Ainsi, le modèle de Yamada et al. (1980)[2] suggère que l’exon original du collagène était constitué de 54 paires de base et que cet exon a subi plusieurs duplications afin de former une forme ancestrale du collagène. Les produits de ces différentes duplications ont par la suite divergé afin de produire les différentes structures présentes dans le collagène actuel[3]. Il est à noter que certaines duplications au sein du collagène peuvent également avoir des effets délétères. Par exemple, une duplication d’une portion de 45 paires de bases dans l’exon 48 induit l’ajout de 15 acides aminés dans la protéine finale. Cette mutation induit une forme de dysplasie spondylo-épiphysaire congénitale[4], une condition qui affecte la croissance des os.
Modèles d'acquisition de nouvelles fonctions protéiques par duplication d'exon
Il est possible qu’un exon s’étant dupliqué puisse permettre la création de nouvelles variantes de protéines. Différents modèles tentent d’expliquer comment ces duplications d’exons peuvent agir sur la capacité des protéines à acquérir de nouvelles fonctions. Ces modèles sont inspirés directement de ceux qui expliquent comment les nouvelles fonctions sont acquises à partir d’évènements de duplication de gènes. Parmi ces modèles, celui d’Ohno (1970)[5] suggère qu’une des copies du gène dupliqué devient fonctionnellement redondant et donc à l’abri des contraintes de sélectivité, susceptible aux mutations et donc à l’élimination, sauf si une mutation aurait un effet bénéfique, auquel cas la mutation pourrait conférer une nouvelle fonction au gène. Un autre modèle, celui de Lynch (2000)[6], suggère que les deux copies originales seraient indispensables, puisque les fonctions du gène original deviendraient partagées par les deux copies à la suite de mutations affectant les fonctions dans l’une ou l’autre des copies. Enfin, celui de Hughes (1994)[7] stipule qu’une paire de gènes dupliqués peut se spécialiser et améliorer différentes fonctions du gène ancestral par sélection positive[8].
Ce dernier modèle s’applique particulièrement bien à la duplication d’exons puisque, étant donné la petite taille des exons alternatifs, leur divergence peut engendrer des changements progressifs au niveau de la fonction de la protéine. De plus, il est à noter que les modèles respectifs d’Ohno et de Lynch s’appliquent bien aux duplications de gènes puisqu’un gène dupliqué, au lendemain de sa duplication, est ainsi exprimé de manière plus importante (c’est-à -dire qu’il est transcrit et traduit 2 fois plus), ce qui a comme effet de relaxer les pressions de sélection qui limiteraient les mutations néfastes. Cependant, dans un contexte de duplication d’exons, la protéine affectée ne sera pas exprimée en plus grande quantité : elle aura simplement une plus grande taille, grâce à l’ajout de domaines correspondant aux exons dupliqués. Ainsi, la diminution des pressions de sélection sur les parties dupliquées ne s’applique pas aux exons comme elle s’appliquerait aux gènes : on assistera plutôt à une sélection stabilisatrice des deux exons. Les modèles respectifs d’Ohno et de Lynch ne s’appliquent donc pas dans un contexte de duplication d’exons[8].
Duplications et épissage alternatif
La conséquence directe de la contribution de nouvelles fonctions protéiques par duplication d’exons est de permettre un plus grand nombre de possibilités combinatoires lors de l’épissage alternatif. En effet, ce phénomène a comme effet d’élargir la banque d’exons servant de modules lors de l’épissage alternatif. Il est donc raisonnable de supposer que la duplication des exons ait joué un rôle important dans l’évolution de l’épissage alternatif. Il a d’ailleurs été démontré que, chez l'humain, 9 % des cas d’épissage alternatif prennent leur origine dans une duplication d’exons. De plus, cette estimation est conservatrice dans la mesure où les exons alternatifs, habituellement de petite taille, pourraient avoir divergé si fortement qu’on ne peut plus démontrer leur apparentement, bien qu’ils pourraient très bien provenir du même exon de départ[8].
Édition de l'ARN
L’édition de l’ARN constitue une autre propriété malléable des séquences codantes dans le génome. Le phénomène d’édition fait référence aux mécanismes de modification de la séquence nucléotidique du transcrit d’ARN. Différents exemples d’édition, de même que leurs effets, ont été bien documentés dans une grande variété d’organismes, tel que présenté dans le travail de synthèse de Simpson et Emeson (1996)[9].
Kinétoplastes
L’exemple prototypique d’édition de l’ARN dans les séquences codantes est le processus d’insertion et de délétion d’uridines dans le génome mitochondrial (le kinétoplaste) des kinétoplastidés. L’édition se déroule sur la séquence des transcrits des maxi-cercles du génome mitochondrial. Elle implique habituellement l’addition d’uridines, mais également leur délétion occasionnellement. Elle peut se faire à l’échelle d’un gène entier, ou bien de quelques sites dans une partie restreinte d’un gène. Ses rôles sont multiples : corriger les décallages dans les cadres de lecture, produire des codons d’initiation de la traduction et ainsi produire des transcrits matures et traductibles à partir d’un maxi-cercle tout à fait méconnaissable. L’information génétique induisant le processus d’édition est contenu dans de courtes séquences d’ADN complémentaires aux séquences de ces maxi-cercles, que l’on nomme les ARN guide ou ARNg. Ces ARNg, qui prennent leur origine soit dans les maxi-cercles ou dans les mini-cercles, contiennent des uridines à répétition à leur extrémité 3’, et peuvent s’ancrer sur la séquence à éditer. Grâce à la polarité 3’ vers 5’ du mécanisme d’édition, une version éditée plus en aval servira de site d’ancrage à un ARNg plus en amont. La correction du brin se fait au moyen de l’appariement des bases[10].
Génome mitochondrial de Physarum
Les génomes mitochondriaux présentent un second exemple d’édition de l‘ARN dans leur région codante, cette fois chez l’organisme eucaryote unicellulaire du genre Physarum. Chez Physarum polycephalum, des cytidines individuelles sont insérées au travers de l’ARN afin de décaler d’une position le cadre de lecture ouvert à chaque insertion, ce qui fait apparaître les codons d’arrêt de la traduction nécessaires à sa traduction adéquate. Au travers des transcrits mitochondriaux de 60kb, ces insertions surviennent 54 fois : le transcrit résultant de ces 54 insertions se trouve dans le cadre de lecture appoprié pour la traduction. L’édition observée dans le génome mitochondrial de Physarum polycephalum diffère du phénomène observé chez les kinétoplastidés de différentes façons. Notamment, chez Physarum ce sont des cytidines qui sont insérées plutôt que des uridines. De plus, l’addition de nucléotides se fait un nucléotide à la fois, et à un intervalle plus régulier que chez les kinétoplastidés : il en résulte des insertions qui sont distribuées plus également au travers de la séquence à éditer[11].
Apolipoprotéine B chez les mammifères
Le phénomène d’édition de la région codante des transcrits se retrouve également chez les Mammifères. Chez l’humain, l’édition joue un rôle particulièrement important puisqu’il permet la production de deux variables indispensables de la même protéine, l’Apolipoprotéine B. Les deux variables de la protéine, Apo B-100 et Apo B-48, sont toutes les deux des produits du même gène. La seule différence entre les deux séquences est au niveau d’un seul nucléotide. Au niveau de la glutamine-2153, on retrouve habituellement le codon CAA qui code effectivement la glutamine. Cependant, par un processus d’édition qui substitue la cytosine par une uracile, le codon devient plutôt UAA et il en résulte un arrêt de la traduction. Ainsi, la protéine dont le transcrit n’a pas subi l’édition (Apo B-100) a une masse moléculaire de 550kDa, alors que celle ayant subi l’édition (Apo B-48) a une masse moléculaire de 260kDa. L’édition se fait de manière organe-spécifique afin d’assurer que l’une ou l’autre des protéines soit produite au bon endroit dans l’organisme. Les deux variantes de l’apolipoprotéine B ont un rôle physiologique très différent dans le métabolisme des lipides : Apo B-100 agit comme composante majeure de différentes lipoprotéines (IDL, LDL, VLDL et lipoprotéine(a)), alors que Apo B-48 est plutôt la composante majeure des chylomicrons et de leurs vestiges[12].
Génome mitochondrial des plantes
L’édition de C vers U survient également dans les mitochondries de plantes. La séquence du gène de la sous-unité II de la cytochrome oxidase contient des codons CGG. À l’époque de la découverte de l’édition chez ces organismes, le codon CGG de leur mitochondrie était assigné au tryptophane. Certains de ces codons dans le transcrit sont en fait édités en substituant la cytosine pour une uracile, ce qui donne des codons UGG qui codent l’arginine. Ainsi, le CGG de la séquence originale encode ultimement une arginine après l’édition, ce qui correspond au code génétique universel[13].
Impact des mutations dans les régions codantes sur le phénotype et conséquences sur l’évolution
OPRM1 chez l'humain
Chez les humains, même un changement très simple dans la séquence codante, par exemple une mutation d’un seul acide aminé, peut avoir des conséquences très importantes sur l’organisme. Un exemple classique d’un tel changement se trouve au niveau des récepteurs opiacés de type mu (OPRM1). À la position 118 de sa région codante, le type de nucléotide inséré aura un impact important sur l’abondance de l’ARNm produit, et un impact encore plus important sur l’abondance de la protéine après la traduction. L’adénosine en position 118 est parfois remplacée par une guanosine. Ce phénomène est à l’origine d’un polymorphisme nucléotidique à la position 40, où l’asparagine encodée est remplacée par une acide aspartique. La variante 118G demeure fonctionnelle, mais en raison de ses effets délétères sur la production de l’ARNm et de la protéine correspondante, les évidences cliniques suggèrent qu’elle pourrait jouer un rôle dans la susceptibilité de l’individu affecté à l’abus de substances[14].
FOXP2 chez l'humain
Un autre exemple de situation où le polymorphisme d’une seule position d’acide aminé peut avoir des conséquences importantes sur l’organisme est le gène FOXP2. Lorsque l’arginine en position 553 est remplacé par une histidine, l’hélice alpha qui contient la mutation adopte des caractéristiques différentes de manière à modifier l’action du domaine concerné en diminuant la capacité de la protéine à lier l’ADN et aussi à agir comme trans-activateur d’autres gènes. Ainsi, cette mutation peut induire un développement anormal de certaines structures neurales jouant un rôle dans la physiologie de la parole et du langage. Cette même arginine est extrêmement bien conservée dans d’autres protéines ayant des domaines de ce type, dont plusieurs ont un rôle de reconnaissance des homéoboîtes : les mutations de ce type peuvent ainsi jouer un rôle important dans des processus développementaux[15].
Drépanocytose chez l'humain
Un exemple bien connu de mutation d'un seul acide aminé ayant des conséquences très importantes est le cas de la drépanocytose chez l'humain. Cette maladie se caractérise par des érythrocytes ayant une forme de faucille et pouvant se manifester par des épisodes vaso-occlusifs et une anémie hémolytique chronique. Le changement de forme de la cellule est attribuable au remplacement, en position 6, de l'acide glutamique habituelle par une valine. Cette mutation a comme effet de changer la structure et donc la fonction du globule rouge[16].
Pléiotropie et importance des mutations vis-à -vis celles dans les séquences régulatrices
Les trois exemples précédents permettent d’illustrer la notion qu’il existe bien souvent des contraintes évolutives importantes imposées aux séquences codantes. Ceci s’applique particulièrement aux protéines pléiotropes, c’est-à -dire les protéines dotées de la capacité à jouer différents rôles. Chez ces protéines, les mutations dans la séquence codante qui auraient un effet sur leur fonction ou leur activité ont tendance à avoir un effet très néfaste sur le développement et le potentiel reproductif de l’organisme affecté. Ainsi, la tolérance pour les mutations dans les régions codantes d’une protéine versus celle pour les mutations dans les régions régulatrices peuvent différer. Un modèle a été établi afin de déterminer si c’est l’évolution des séquences régulatrices qui est à l’origine des changements génétiques et morphologiques, ou bien si c’est plutôt l’évolution des séquences codantes. La contribution la plus importante à ces changements proviendra de l’évolution des séquences régulatrices si, d’une part, la protéine dont la séquence porte la mutation joue différents rôles dans le développement et que les mutations dans sa séquence codante ont des effets pléiotropes connus et si, d’autre part, le locus contient plusieurs éléments régulateurs de type cis[17].
Concernant l’effet de la pléiotropie sur le niveau de sélection que l’on retrouve chez les séquences codantes, des travaux sur le cerveau d’abeille ont contribué à certaines idées. Il semblerait que dans le réseau de régulation de la transcription de ces organes, les protéines démontrant le plus de pléiotropie sont celles qui sont le plus susceptibles de subir une sélection négative au niveau de leur séquence codante. Autrement dit, les facteurs de transcription qui régulent des centaines de gènes cible subissent, en moyenne, une plus forte sélection négative au niveau de leur séquence codante que les facteurs de transcription qui régulent quelques gènes cible seulement[18].
Régions codantes non-homéoboîte des gènes Hox des mammifères
Les mammifères ont dans leur génome des gènes dits homéotiques, qui codent des facteurs de transcription nécessaires au contrôle de l’identité segmentaire dans la forme embryonnaire. Les protéines encodées par ces gènes ont un domaine nommé l’homéodomaine, qui est encodé par une partie de la séquence que l’on nomme le motif homéoboîte. Puisque les séquences en acides aminés de ces motifs, mais pas les séquences nucléotidiques, ont été conservées à travers l’évolution des insectes aux mammifères, ces motifs ne sont pas considérés comme « ultra-conservés ». Habituellement, les régions codantes des gènes Hox (sous-groupe des gènes homéotiques) qui ne se retrouvent pas dans l’homéoboîte sont généralement très peu conservées. Cependant, chez les mammifères, il a été découvert que plusieurs de ces régions codantes non-homéoboîtes dans les gènes Hox sont en fait ultra-conservés parmi les gènes Hox orthologues de différents mammifères. Ce caractère suggère que ces régions pourraient affecter de manière importante les fonctions des gènes Hox et ainsi influer sur le développement embryonnaire de ces organismes[19].
Plus spécifiquement, une proportion importante des gènes Hox qui contiennent ces régions codantes ultraconservées sont exprimées dans le placenta, puis les mammifères non placentaires (e.g. les marsupiaux) n’ont qu’une quantité infime de ces séquences dans leurs gènes Hox vis-à -vis des mammifères placentaires : ces régions ultra-conservées auraient donc évolué après la divergence de ces deux groupes. Il est à noter également que les ornithorynques, eux-aussi des mammifères non placentaires, n'ont aucune de ces séquences dans leurs gènes Hox. Il a donc été suggéré qu’un lien existe entre la présence de ces régions dans les gènes Hox et les longues périodes de gestation des animaux placentaires[19].
Notes et références
- (en) Tom Strachan, Genetics and Genomics in Medicine (1st edition), New York, Garland Science, , 500 p. (ISBN 978-0-8153-4480-3), p. 47-50
- (en) Yamada, Y., « The collagen gene: evidence for its evolutinary assembly by amplification of a DNA segment containing an exon of 54 bp », Cell,‎ , p. 887-92 (ISSN 0092-8674, lire en ligne)
- (en) Cohn, Daniel H., « Homology-mediated recombination between type I collagen gene exons results in an internal tandem duplication and lethal osteogenesis imperfecta », Human Mutation,‎ , p. 21–27 (lire en ligne)
- (en) Tiller, G.E., « Tandem duplication within a type II collagen gene (COL2A1) exon in an individual with spondyloepiphyseal dysplasia », Proceedings of the National Academy of Sciences,‎ , p. 3889-93 (ISSN 0027-8424, lire en ligne)
- (en) Ohno, Susumu, Evolution by Gene Duplication, Berlin, Heidelberg, New York., Springer-Verlag,
- (en) Lynch, M., « The probability of duplicate gene preservation by subfunctionalization. », Genetics,‎ , p. 459-473 (ISSN 0016-6731, lire en ligne)
- (en) Hughes, A. L., « The evolution of functionally novel proteins after gene duplication », Proc. Biol. Sci.,‎ , p. 119-24 (ISSN 0962-8452, lire en ligne)
- (en) Kondrashov, Fyodor A., « Origin of alternative splicing by tandem exon duplication », Human Molecular Genetics,‎ , p. 2661-2669 (ISSN 0964-6906, lire en ligne)
- (en) Simpson, Larry, « RNA Editing », Annual Review of Neuroscience,‎ , p. 27-52 (ISSN 0147-006X, lire en ligne)
- (en) Alfonzo, Juan D., « The Mechanism of U Insertion/Deletion RNA Editing in Kinetoplastid Mitochondria », Nucleic Acids Research,‎ , p. 3571-3759 (lire en ligne)
- (en) Mahendran, R., « RNA editing by cytidine insertion in mitochondria of Physarum polycephalum », Nature,‎ , p. 434-438 (lire en ligne)
- (en) Chan, L., « Apolipoprotein B messenger RNA editing: An update », Biochimie,‎ , p. 75-78 (lire en ligne)
- (en) Araya, Alexandre, « RNA editing in plant mitochondria, cytoplasmic male sterility and plant breeding », Electronic Journal of Biotechnology,‎ (ISSN 0717-3458, lire en ligne)
- (en) Zhang, Ying, « Allelic Expression Imbalance of Human mu Opioid Receptor (OPRM1) Caused by Variant A118G », The Journal of Biological Chemistry,‎ , p. 32618-32624 (lire en ligne)
- (en) Lai, Cecilia S. L., « A forkhead-domain geneismutated in a severe speech and language disorder », Nature,‎ , p. 519-523 (ISSN 0028-0836, lire en ligne)
- (en) M.A. Bender, Sickle Cell Disease, Seattle, University of Washington, Seattle, (lire en ligne)
- (en) Carroll, Sean B., « Evo-Devo and an Expanding Evolutionary Synthesis: A Genetic Theory of Morphological Evolution », Cell,‎ , p. 25-36 (ISSN 1097-4172, lire en ligne)
- (en) Molodtsova, Daria, « Pleiotropy constrains the evolution of protein but not regulatory sequences in a transcription regulatory network influencing complex social behaviors », Frontiers in Genetics,‎ (ISSN 1664-8021, lire en ligne)
- (en) Lin, Zhenguo, « Ultraconserved coding regions outside the homeobox of mammalian Hox genes », BMC Evolutionary Biology,‎ (ISSN 1471-2148, lire en ligne)
Voir aussi
Articles connexes
Liens externes
- Site web du laboratoire de biologie évolutionnaire du Dr. Sean B. Carroll
- De l'ADN à l'ARNm: vidéo détaillant la transcription et la maturation des ARNm
- De l'ARNm à la protéine: vidéo détaillant le code génétique et la traduction
- Site web de la revue Journal of Molecular Biology, pour les plus récentes publications concernant les séquences codantes et autres