Couverture (génétique)
La couverture (ou la profondeur), en séquençage de l'ADN ou de l'ARN, est le nombre de lectures uniques qui incluent un nucléotide donné dans la séquence reconstruite. Elle est exprimée en X, représentant le nombre de lectures uniques pour une base nucléique. Le séquençage profond fait référence au concept général consistant à viser un nombre élevé de lectures uniques de chaque région d'une séquence.
Raisonnement
Malgré les améliorations de précision des nouvelles techniques de séquençage à haut débit et que le pourcentage de fiabilité d'une séquence est de plus en plus élevé, il est toujours possible que des erreurs techniques de séquençage se produisent. Le très grand nombre de nucléotides dans le génome (3,4 milliards de paires de bases pour Homo sapiens) signifie que si un génome individuel n'est séquencé qu'une seule fois, il y aura tout de même un nombre important d'erreurs de séquençage. De plus, de nombreuses positions dans un génome contiennent de rares polymorphismes mononucléotidiques (SNP). Par conséquent, pour faire la distinction entre les erreurs de séquençage et les vrais SNP, il est nécessaire d'augmenter encore plus la précision du séquençage en séquençant des génomes individuels un grand nombre de fois de manière que chaque base soit lue le nombre de fois nécessaire pour que son identité soit fiable.
Ce nombre de lecture s'appelle donc la couverture (ou la profondeur) et représente le nombre de lectures uniques concernant un nucléotide donné dans la séquence reconstruite[1] - [2]. Si une base est couverte par 30 séquences, elle aura donc une couverture (ou profondeur) de 30X.
Le séquençage profond (Deep Sequencing en anglais) fait référence au concept consistant à viser une couverture élevée pour obtenir une réponse fiable sur l'exactitude d'une séquence, d'une mutation ou d'un polymorphisme par exemple[3].
Séquençage ultra-profond
Le terme « ultra-profond » peut parfois également désigner une couverture plus élevée (> 100 fois), ce qui permet la détection de variants de séquence dans des populations mixtes[4] - [5] - [6] ou d'identifier des variants somatiques et les distinguer des variants germinaux[7]. À l'extrême, les approches de séquençage à erreur corrigée telles que le séquençage à profondeur maximale peuvent faire en sorte que la couverture d'une région donnée se rapproche du débit d'une machine de séquençage, permettant des couvertures de >10^8[8].
Séquençage du transcriptome
Le séquençage en profondeur des transcriptomes, également connu sous le nom de RNA-Seq, fournit à la fois la séquence et la fréquence des molécules d'ARN présentes à un moment donné dans un type de cellule, un tissu ou un organe spécifique[9]. Le comptage du nombre d'ARNm codés par des gènes individuels fournit une indication sur le niveau d'expression du gène donné. Ce niveau d'expression des transcrits est un indicateur du potentiel de codage des protéines, un contributeur majeur au phénotype[10]. L'amélioration des méthodes de séquençage de l'ARN est un domaine de recherche actif à la fois en termes de méthodes expérimentales et informatiques[11].
Calcul
La couverture moyenne (C) pour un génome entier peut être calculée à partir de l'équation de Lander/Waterman. Cette équation prend en compte la longueur du génome d'origine (G), le nombre de lectures (N) et la longueur moyenne des lectures (L) comme [1].
Par exemple, un génome hypothétique (G) avec 2000 paires de bases reconstruit à partir de 8 lectures (N) avec une longueur moyenne de 500 nucléotides (L) par lecture aura une redondance de 2x car et donc . Ce qui signifie dans ce cas que chaque base des 2000 composant le génome étudié sera couverture en moyenne par 2 séquences.
Ce calcul permet donc d'évaluer la fiabilité d'une séquence reconstruite. Ce paramètre permet également d'estimer d'autres quantités, telles que le pourcentage du génome couvert par les lectures (parfois aussi appelé largeur de couverture). Une couverture élevée dans le séquençage de type Shotgun est souhaitée car elle peut surmonter les erreurs d'appel de base et d'assemblage. Le sujet de la théorie du séquençage de l'ADN aborde les relations entre ces quantités[2].
Couverture physique
Parfois, une distinction est faite entre la couverture de séquence et la couverture physique .On peut distinguer la couverture de séquence qui est le nombre moyen de fois qu'une base est lue c'est-à-dire la profondeur, de la couverture physique qui est le nombre moyen de fois qu'une base est lue ou couverte par des lectures (séquences) appariées et peut souvent plus concerner un loci ou une séquence donnée[2] - [12] - [13].
Références
- (en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Coverage (genetics) » (voir la liste des auteurs).
- (en) « Sequencing Coverage », education, sur illumina.com, Illumina education, (consulté le )
- (en) Sims, Sudbery, Ilott et Heger, « Sequencing depth and coverage: key considerations in genomic analyses », Nature Reviews Genetics, vol. 15, no 2, , p. 121–132 (PMID 24434847, DOI 10.1038/nrg3642)
- (en) Mardis, « Next-Generation DNA Sequencing Methods », Annual Review of Genomics and Human Genetics, vol. 9, no 1, , p. 387–402 (ISSN 1527-8204, PMID 18576944, DOI 10.1146/annurev.genom.9.081307.164359)
- « Accurate and comprehensive sequencing of personal genomes », Genome Res., vol. 21, no 9, , p. 1498–505 (PMID 21771779, PMCID 3166834, DOI 10.1101/gr.123638.111)
- Mirebrahim, Close et Lonardi, « De novo meta-assembly of ultra-deep sequencing data », Bioinformatics, vol. 31, no 12, , i9–i16 (ISSN 1367-4803, PMID 26072514, PMCID 4765875, DOI 10.1093/bioinformatics/btv226)
- Beerenwinkel et Zagordi, « Ultra-deep sequencing for the analysis of viral populations », Current Opinion in Virology, vol. 1, no 5, , p. 413–418 (PMID 22440844, DOI 10.1016/j.coviro.2011.07.008)
- (en) James X. Sun, Yuting He, Eric Sanford, Meagan Montesion, Garrett M. Frampton, Stéphane Vignot, Jean-Charles Soria, Jeffrey S. Ross, Vincent A. Miller, Phil J. Stephens, Doron Lipson et Roman Yelensky, « A computational approach to distinguish somatic vs. germline origin of genomic alterations from deep sequencing of cancer specimens without a matched normal », PLoS Computational Biology, vol. 14, no 2, , p. 1-13 (DOI 10.1371/journal.pcbi.1005965, lire en ligne)
- (en) Jee, Rasouly, Shamovsky et Akivis, « Rates and mechanisms of bacterial mutagenesis from maximum-depth sequencing », Nature, vol. 534, no 7609, , p. 693–696 (PMID 27338792, PMCID 4940094, DOI 10.1038/nature18313, Bibcode 2016Natur.534..693J)
- (en) Malone et Oliver, « Microarrays, deep sequencing and the true measure of the transcriptome », BMC Biology, vol. 9, , p. 34 (ISSN 1741-7007, PMID 21627854, PMCID 3104486, DOI 10.1186/1741-7007-9-34)
- (en) Marshall Hampton, Richard G. Melvin, Anne H. Kendall, Brian R. Kirkpatrick, Nichole Peterson et Matthew T. Andrews, « Deep sequencing the transcriptome reveals seasonal adaptive mechanisms in a hibernating mammal », PLOS ONE, vol. 6, no 10, , e27021 (PMID 22046435, PMCID 3203946, DOI 10.1371/journal.pone.0027021, Bibcode 2011PLoSO...627021H)
- (en) Erin E Heyer, Hakan Ozadam, Emiliano P Ricci, Can Cenik et Melissa J Moore, « An optimized kit-free method for making strand-specific deep sequencing libraries from RNA fragments. », Nucleic Acids Res., vol. 43, no 1, , e2 (PMID 25505164, PMCID 4288154, DOI 10.1093/nar/gku1235, lire en ligne)
- Meyerson, Gabriel et Getz, « Advances in understanding cancer genomes through second-generation sequencing », Nature Reviews Genetics, vol. 11, no 10, , p. 685–696 (PMID 20847746, DOI 10.1038/nrg2841)
- Ekblom et Wolf, « A field guide to whole‐genome sequencing, assembly and annotation », Evolutionary Applications, vol. 7, no 9, , p. 1026–42 (PMID 25553065, PMCID 4231593, DOI 10.1111/eva.12178)