Théorie du séquençage de l'ADN
La théorie du séquençage de l'ADN désigne l'ensemble des travaux qui tentent de jeter les bases analytiques pour déterminer l'ordre des nucléotides spécifiques dans une séquence d'ADN donnée, autrement connu sous le nom de séquençage de l'ADN. Les aspects pratiques de cette théorie tournent autour de la conception et de l'optimisation de projets de séquençage (connus sous le nom de "génomique stratégique"), de la prévision des performances du projet, de la résolution des problèmes rencontrés dans les résultats expérimentaux, de la caractérisation de facteurs tels que le biais séquentiel et les effets des algorithmes des logiciels de traitement, et la comparaison de diverses méthodes de séquençage entre elles. En ce sens, elle pourrait être considérée comme une branche des domaines de l'ingénierie des systèmes ou de la recherche opérationnelle. Les archives permanentes de ces travaux sont principalement mathématiques, bien que des calculs numériques soient également souvent effectués pour traiter des problèmes particuliers. La théorie du séquençage de l'ADN traite des processus physiques liés au séquençage de l'ADN et ne doit pas être confondue avec les théories de l'analyse des séquences d'ADN résultantes, comme par exemple l'alignement des séquences. Les publications scientifiques[1] ne font parfois pas de distinction minutieuse entre les deux, mais la deuxième catégorie est principalement concernée par les problèmes algorithmiques. La théorie du séquençage est basée sur des éléments issus des mathématiques, de la biologie et de l'ingénierie des systèmes, ce qui en fait donc un domaine hautement interdisciplinaire. Le sujet peut être étudié dans le cadre de la biologie numérique .
Théorie et stratégies de séquençage
Le séquençage comme problème de couverture
Toutes les méthodes traditionnelles de séquençage d'ADN reposent sur la lecture de petits fragments d'ADN puis la reconstruction ultérieure de ces données pour déduire la cible d'ADN d'origine, soit par assemblage, soit par alignement sur une séquence de référence. L'abstraction commune à ces méthodes est celle d'un problème de couverture mathématique[2]. Par exemple, on peut imaginer un segment de ligne représentant la cible et un processus ultérieur où des segments plus petits sont "déposés" sur des emplacements aléatoires de la cible. La cible est considérée comme "séquencée" lorsqu'une couverture (covering en anglais) adéquate y est appliquée (par exemple, lorsqu'il n'y a plus de lacunes ou gaps en anglais).
Les propriétés abstraites de cette couverture sont étudiées par les mathématiciens depuis plus d'un siècle[3]. Cependant, l'application directe de ces résultats n'est généralement pas possible. Les solutions mathématiques de forme fermée, en particulier pour les distributions de probabilité, ne peuvent souvent pas être facilement évaluées, c'est-à-dire qu'elles impliquent des quantités excessivement longues de temps de processing informatique pour les paramètres caractéristiques du séquençage d'ADN. La configuration de Stevens en est un exemple[4]. Les résultats obtenus du point de vue des mathématiques pures ne tiennent pas compte non plus des facteurs qui sont réellement importants dans le séquençage, comme par exemple le chevauchement détectable dans les fragments de séquençage, le double brin, les effets de bord et la multiplicité des cibles. Par conséquent, le développement de la théorie du séquençage a progressé davantage sous l'angle de la philosophie des mathématiques appliquées. En particulier, il a été axé sur les problèmes rencontrés et fait un usage judicieux des approximations, des simulations, etc.
Premières utilisations dérivées de la théorie des probabilités élémentaires
Le premier résultat peut être trouvé directement à partir de la théorie des probabilités élémentaires. Supposons que nous modélisons le processus ci-dessus en prenant et comme longueur de fragment et longueur cible, respectivement. La probabilité de "recouvrir" un emplacement donné sur la cible avec un fragment particulier est alors . (Cela suppose , qui est souvent valable, mais pas pour tous les cas issus du monde réel.) La probabilité qu'un seul fragment ne couvre pas un emplacement donné sur la cible est donc , et pour fragments. La probabilité de couvrir un emplacement donné sur la cible avec au moins un fragment est donc
Cette équation a d'abord été utilisée pour caractériser les banques de plasmides[5] mais elle peut apparaître sous une forme modifiée. Dans la plupart des projets de séquençage on a , de sorte que, à un bon degré d'approximation, on obtient
où est appelé la redondance. À noter l'importance de la redondance comme représentant le nombre moyen de fois qu'une position est couverte par des fragments. À noter également qu'en considérant le processus de couverture sur toutes les positions dans la cible, cette probabilité est identique à la valeur attendue de la variable aléatoire , qui est la fraction de la couverture cible. Le résultat final,
reste largement utilisé comme estimateur de "l'arrière de l'enveloppe" et prédit que la couverture pour tous les projets évoluera le long d'une courbe universelle qui n'est fonction que de la redondance.
Théorie de Lander-Waterman
En 1988, Eric Lander et Michael Waterman ont publié un article important[6] examinant le problème de couverture du point de vue des lacunes (gaps). Bien qu'ils se soient concentrés sur le dénommé problème de cartographie génétique, l'abstraction du séquençage est à peu près la même. Ils ont fourni un certain nombre de résultats utiles qui ont été adoptés comme théorie standard dès les premiers pas du séquençage du génome à "grande échelle"[7]. Leur modèle a également été utilisé dans la conception du projet du génome humain et continue de jouer un rôle important dans le séquençage de l'ADN.
En fin de compte, l'objectif principal d'un projet de séquençage est de combler toutes les lacunes, de sorte que la "perspective des lacunes" représentait une base logique pour développer un modèle de séquençage. Un des résultats les plus fréquemment utilisés de ce modèle est le nombre attendu de contigs, étant donné le nombre de fragments séquencés. Si l'on néglige la quantité de séquences qui est essentiellement "gaspillée" au cours de la détection des chevauchements, leur théorie donne
En 1995, Roach[8] publié des améliorations à cette théorie, lui permettant d'être appliquée à des projets de séquençage dont le but était de séquencer complètement un génome cible. Michael Wendl et Bob Waterston[9] confirmé, sur la base de la méthode de Stevens[4], que les deux modèles produisaient des résultats similaires lorsque le nombre de contigs était important, comme dans les projets de cartographie à faible couverture ou de séquençage. À mesure que les projets de séquençage montaient en puissance dans les années 1990 et que les projets étaient en passe d'être achevés, les approximations de faible couverture devenaient inadéquates et l'utilisation du modèle exact de Roach était devenue nécessaire. Cependant, comme le coût du séquençage a chuté, les paramètres des projets de séquençage sont devenus plus faciles à tester directement de manière empirique, et l'intérêt de même que le financement pour la génomique stratégique ont diminué.
Les idées de base de la théorie de Lander-Waterman ont conduit à l'obtention d'un certain nombre de résultats supplémentaires concernant des variations particulières des techniques de cartographie[10] - [11] - [12]. Cependant, les progrès technologiques ont rendu les théories de la cartographie largement obsolètes, sauf dans les organismes autres que les organismes modèles très étudiés (par exemple, les levures, les mouches, les souris et les humains).
Stratégie de stationnement
La stratégie de stationnement dans le cadre du séquençage ressemble au processus de stationnement des voitures le long d'un trottoir. Chaque voiture correspond à un clone séquencé et le trottoir correspond à la cible génomique[13]. Chaque clone séquencé est criblé pour garantir que les clones séquencés ultérieurement ne chevauchent aucun clone précédemment séquencé. Aucun effort de séquençage n'est redondant dans cette stratégie. Cependant, tout comme les espaces entre les voitures garées, des gaps non séquencés inférieurs à la longueur d'un clone s'accumulent entre les clones séquencés, et il peut s'avérer très coûteux de les combler.
Séquençage d'extrémités par paires
En 1995, Roach et al.[14] ont proposé et démontré, à travers des simulations, une généralisation d'un ensemble de stratégies explorées précédemment par Edwards et Caskey[15]. Cette méthode de séquençage du génome entier est devenue extrêmement populaire car elle a été défendue par Celera et utilisée pour séquencer plusieurs organismes modèles avant que Celera ne l'applique au génome humain. Aujourd'hui, la plupart des projets de séquençage utilisent cette stratégie, souvent appelée séquençage d'extrémité par paires.
Avancées depuis le projet sur le génome humain
Les processus physiques et les protocoles de séquençage de l'ADN ont continué d'évoluer, en grande partie grâce aux progrès des méthodes biochimiques, de l'instrumentation et des techniques d'automatisation. Le séquençage de l'ADN a permis de résoudre un grand nombre de problèmes, y compris la métagénomique et le séquençage médical (cancer). Il y a des facteurs importants dans ces scénarios que la théorie classique ne prend pas en compte. Des travaux récents ont commencé à se concentrer sur la résolution des effets causés par certains de ces problèmes. Le niveau des mathématiques devient proportionnellement plus sophistiqué.
Divers artefacts de séquençage à grand insert
Les biologistes ont mis au point des méthodes pour filtrer des régions de génomes hautement répétitives et essentiellement non séquençables. Ces procédures sont importantes lorsqu'on travaille sur des organismes dont le génome se compose principalement d'un tel ADN, par exemple le maïs. Ils produisent une multitude de petits "îlots" de produits d'ADN séquençables. Wendl et Barbazuk[16] ont proposé une extension de la théorie de Lander-Waterman pour tenir compte des gaps dans la cible dues au filtrage et à ce que l'on appelle "l'effet de bord" (edge-effect en anglais). Ce dernier est un biais d'échantillonnage spécifique à une position ; par exemple, la position de la base terminale (dernière base d'un fragment séquencé) n'a que chance d'être couverte, alors que pour les positions plus intérieures à la séquence, la chance qu'elles soient couvertes est de . Pour , la théorie classique de Lander-Waterman donne toujours de bonnes prévisions, mais la dynamique change pour des redondances plus élevées.
Les méthodes de séquençage modernes séquencent généralement les deux extrémités d'un plus grand fragment, ce qui fournit des informations de liaison pour l'assemblage de novo et de meilleures probabilités d'alignement sur la séquence de référence. Les chercheurs pensent généralement que des longueurs de données (longueurs de lecture) plus longues améliorent les performances lorsqu'on séquence de très grandes cibles d'ADN, une idée cohérente avec les prévisions des modèles de distribution[17]. Cependant, Wendl[18] a montré que des fragments plus petits offrent une meilleure couverture sur de petites cibles linéaires car ils réduisent l'effet de bord dans les molécules linéaires. Ces résultats ont des implications pour le séquençage des produits des procédures de filtrage de l'ADN. La lecture par paires (ou non) et la taille des fragments ont évidemment une influence négligeable lorsqu'on séquence des grandes cibles comme celles de la classe du génome entier.
Séquençage individuel et de population
Le séquençage est en train de devenir un outil important en médecine, par exemple dans la recherche contre le cancer. Ici, la capacité de détecter des mutations hétérozygotes est importante et cela ne peut être fait que si la séquence du génome diploïde est obtenue. Dans les efforts novateurs de séquençage des individus, Levy et al.[19] et Wheeler et al.[20], qui ont séquencé respectivement Craig Venter et Jim Watson, ont mis au point des modèles pour couvrir les deux allèles dans un génome. Wendl et Wilson[21] ont suivi en proposant une théorie plus générale qui permettait un nombre arbitraire de couvertures de chaque allèle et une ploïdie arbitraire. Ces résultats conduisent à la conclusion générale que la quantité de données nécessaires pour de tels projets est significativement plus élevée que pour les projets de séquençage d'organismes haploïdes traditionnels. De façon générale, la redondance standard est désormais d'au moins 30 fois est désormais, c'est-à-dire que chaque nucléotide est couvert sur une moyenne de 30 lectures de séquence[22]. Cependant, les exigences peuvent être encore plus grandes, selon les types d'événements génomiques à trouver. Par exemple, dans la dénommée "méthode des paires de lecture discordantes", les insertions d'ADN peuvent être déduites si la distance entre les paires de lecture est plus grande que prévu. Les calculs montrent qu'une redondance d'environ 50 fois est nécessaire pour éviter les faux positifs au seuil de 1%[23].
L'avènement du séquençage de nouvelle génération (next generation sequencing methods comme la métagénomique) a également rendu possible le séquençage de populations à grande échelle, par exemple le Projet 1000 Génomes visant à caractériser la variation génétique au sein des groupes de populations humaines. Bien que les variations communes soient facilement identifiées, des variations plus rares posent un problème de conception : trop peu d'échantillons avec une redondance de séquence significative risquent de ne pas avoir de variante dans le groupe d'échantillons, mais de grands échantillons avec une redondance légère risquent de ne pas capturer une variante dans l'ensemble de lecture qui se trouve réellement dans l'échantillon. Wendl et Wilson[24] proposent un ensemble simple de règles d'optimisation qui maximisent la probabilité de découverte pour un ensemble donné de paramètres. Par exemple, pour observer un allèle rare au moins deux fois (pour éliminer la possibilité qu'il soit unique à un individu), il faut une redondance d'un peu moins de 4 fois, quelle que soit la taille de l'échantillon.
Séquençage métagénomique
Les instruments de séquençage de nouvelle génération permettent désormais aussi de séquencer des communautés métagénomiques entières non cultivées (qu'on ne peut pas faire croître en laboratoire). Le scénario de séquençage est plus compliqué ici et il existe différentes façons de cadrer les théories de conception pour un projet donné. Par exemple, Stanhope[25] a développé un modèle probabiliste pour estimer la quantité de séquence nécessaire pour obtenir au moins un contig d'une taille donnée de chaque organisme inconnu dans une communauté, tandis que Wendl et al. ont proposé une analyse pour obtenir la taille moyenne du contig ou la probabilité de couvrir complètement la séquence d'un organisme inconnu pour un niveau de rareté donné au sein de la communauté[26]. À l'inverse, Hooper et al. proposent un modèle semi-empirique basé sur la distribution gamma[27].
Limites
Les théories de séquençage de l'ADN invoquent souvent l'hypothèse que certaines variables aléatoires d'un modèle sont indépendantes et identiquement distribuées. Par exemple, dans la théorie de Lander-Waterman, un fragment séquencé est présumé avoir la même probabilité de couvrir chaque région d'un génome et tous les fragments sont supposés indépendants les uns des autres. En réalité, les projets de séquençage sont soumis à divers types de biais, y compris les différences de clonage entre les régions, les anomalies de séquençage, les biais dans la séquence cible (qui n'est pas aléatoire) et les erreurs et biais liés au logiciel de traitement des séquences. En général, la théorie s'accordera bien avec l'observation au point que suffisamment de données ont été générées pour identifier les biais latents[21]. Les types de biais liés à la séquence cible sous-jacente sont particulièrement difficiles à modéliser, car la séquence elle-même peut ne pas être connue a priori. Cela présente un problème de type Catch-22 (logique).
Voir aussi
Notes
- (en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « DNA sequencing theory » (voir la liste des auteurs).
Références
- Michael S. Waterman, Introduction to Computational Biology : Maps, Sequences and Genomes, Boca Raton, Chapman and Hall/CRC, , 448 p. (ISBN 978-0-412-99391-6, lire en ligne).
- P. Hall, Introduction to the Theory of Coverage Processes, New York, Wiley, (ISBN 978-0-471-85702-0).
- H. Solomon, Geometric Probability, Philadelphie, Society for Industrial and Applied Mathematics, , 174 p. (ISBN 978-0-89871-025-0, lire en ligne).
- Stevens WL, « Solution to a Geometrical Problem in Probability », Annals of Eugenics, vol. 9, no 4, , p. 315–320 (DOI 10.1111/j.1469-1809.1939.tb02216.x).
- « A colony bank containing synthetic Col-El hybrid plasmids representative of the entire E. coli genome », Cell, vol. 9, no 1, , p. 91–99 (PMID 788919, DOI 10.1016/0092-8674(76)90055-6).
- Lander ES, Waterman MS, « Genomic mapping by fingerprinting random clones: a mathematical analysis », Genomics, vol. 2, no 3, , p. 231–239 (PMID 3294162, DOI 10.1016/0888-7543(88)90007-9).
- Fleischmann RD, « Whole-genome random sequencing and assembly of haemophilus influenzae Rd », Science, vol. 269, no 5223, , p. 496–512 (PMID 7542800, DOI 10.1126/science.7542800, Bibcode 1995Sci...269..496F).
- Roach JC, « Random subcloning », Genome Research, vol. 5, no 5, , p. 464–473 (PMID 8808467, DOI 10.1101/gr.5.5.464)
- Wendl MC, Waterston RH, « Generalized gap model for bacterial artificial chromosome clone fingerprint mapping and shotgun sequencing », Genome Research, vol. 12, no 12, , p. 1943–1949 (PMID 12466299, PMCID 187573, DOI 10.1101/gr.655102).
- Arratia R, « Genomic mapping by anchoring random clones: a mathematical analysis », Genomics, vol. 11, no 4, , p. 806–827 (PMID 1783390, DOI 10.1016/0888-7543(91)90004-X).
- Port E, « Genomic mapping by end-characterized random clones: a mathematical analysis », Genomics, vol. 26, no 1, , p. 84–100 (PMID 7782090, DOI 10.1016/0888-7543(95)80086-2)
- « Genome mapping by nonrandom anchoring: a discrete theoretical analysis », Proceedings of the National Academy of Sciences, vol. 90, no 2, , p. 600–604 (PMID 8421694, PMCID 45711, DOI 10.1073/pnas.90.2.600, Bibcode 1993PNAS...90..600Z).
- Roach JC, « Parking strategies for genome sequencing », Genome Research, vol. 10, no 7, , p. 1020–1030 (PMID 10899151, PMCID 310895, DOI 10.1101/gr.10.7.1020).
- Roach JC, Boysen C, Wang K, Hood L, « Pairwise end sequencing: a unified approach to genomic mapping and sequencing », Genomics, vol. 26, no 2, , p. 345–353 (PMID 7601461, DOI 10.1016/0888-7543(95)80219-C).
- Edwards, A. et Caskey, T., Closure strategies for random DNA sequencing, vol. 3, A Companion to Methods in Enzymology, , 41–47 p..
- Wendl MC, Barbazuk WB, « Extension of Lander–Waterman Theory for sequencing filtered DNA libraries », BMC Bioinformatics, vol. 6, , article 245 (PMID 16216129, PMCID 1280921, DOI 10.1186/1471-2105-6-245).
- Wendl MC, « Occupancy modeling of coverage distribution for whole genome shotgun DNA sequencing », Bulletin of Mathematical Biology, vol. 68, no 1, , p. 179–196 (PMID 16794926, DOI 10.1007/s11538-005-9021-4).
- Wendl MC, « A general coverage theory for shotgun DNA sequencing », Journal of Computational Biology, vol. 13, no 6, , p. 1177–1196 (PMID 16901236, DOI 10.1089/cmb.2006.13.1177, lire en ligne).
- Levy S, « The diploid genome sequence of an individual human », PLoS Biology, vol. 5, no 10, , article e254 (PMID 17803354, PMCID 1964779, DOI 10.1371/journal.pbio.0050254).
- Wheeler DA, « The complete genome of an individual by massively parallel DNA sequencing », Nature, vol. 452, no 7189, , p. 872–876 (PMID 18421352, DOI 10.1038/nature06884, Bibcode 2008Natur.452..872W).
- Wendl MC, Wilson RK, « Aspects of coverage in medical DNA sequencing », BMC Bioinformatics, vol. 9, , article 239 (PMID 18485222, PMCID 2430974, DOI 10.1186/1471-2105-9-239).
- Ley TJ, « DNA sequencing of a cytogenetically normal acute myeloid leukaemia genome », Nature, vol. 456, no 7218, , p. 66–72 (PMID 18987736, PMCID 2603574, DOI 10.1038/nature07485, Bibcode 2008Natur.456...66L).
- Wendl MC, Wilson RK, « Statistical aspects of discerning indel-type structural variation via DNA sequence alignment », BMC Genomics, vol. 10, , article 359 (PMID 19656394, PMCID 2748092, DOI 10.1186/1471-2164-10-359).
- Wendl MC, Wilson RK, « The theory of discovering rare variants via DNA sequencing », BMC Genomics, vol. 10, , article 485 (PMID 19843339, PMCID 2778663, DOI 10.1186/1471-2164-10-485).
- Stanhope SA, « Occupancy modeling maximum contig size probabilities and designing metagenomics experiments », PLoS ONE, vol. 5, no 7, , article e11652 (PMID 20686599, PMCID 2912229, DOI 10.1371/journal.pone.0011652, Bibcode 2010PLoSO...511652S).
- Wendl MC, « Coverage theories for metagenomic DNA sequencing based on a generalization of Stevens' theorem », Journal of Mathematical Biology, vol. 67, no 5, , p. 1141–1161 (PMID 22965653, PMCID 3795925, DOI 10.1007/s00285-012-0586-x)
- Hooper SD, « Estimating DNA coverage and abundance in metagenomes using a gamma approximation », Bioinformatics, vol. 26, no 3, , p. 295–301 (PMID 20008478, PMCID 2815663, DOI 10.1093/bioinformatics/btp687).