Assemblage (bio-informatique)
En bio-informatique, l'assemblage consiste à aligner et/ou fusionner des fragments d'ADN ou d'ARN issus d'une plus longue séquence afin de reconstruire la séquence originale. Il s'agit d'une étape d'analyse in silico qui succÚde au séquençage de l'ADN ou de l'ARN d'un organisme unique, d'une colonie de clones (bactériens par exemple), ou encore d'un mélange complexe d'organismes.
Le problĂšme de l'assemblage peut ĂȘtre comparĂ© Ă celui de la reconstruction du texte d'un livre Ă partir de plusieurs copies de celui-ci, prĂ©alablement dĂ©chiquetĂ©es en petits morceaux.
Paradigmes d'assemblage
Les stratĂ©gies d'assemblage peuvent ĂȘtre organisĂ©es en 3 principaux paradigmes[1].
Glouton
Historiquement la premiÚre stratégie d'assemblage, celle-ci consiste à faire systématiquement le meilleur choix disponible sans possibilité de revenir sur ce choix plus tard. Le principal défaut de cette stratégie est qu'elle mÚne à des optimums locaux sans prendre en compte la relation globale entre les fragments. La plupart des assembleurs gloutons utilisent des heuristiques pour éviter le mauvais assemblage de séquences répétées. La plupart des premiers assembleurs tels que Phrap[2] ou TIGR[3] reposent sur ce paradigme, ainsi que quelques outils plus récents comme VCAKE[4].
"Overlap-Layout-Consensus" (OLC)
Cette stratégie d'assemblage se déroule en 3 étapes:
- Construction d'un graphe d'intervalles de chevauchement de fragments. Chaque fragment est un nĆud du graphe, et une arĂȘte est crĂ©Ă©e entre deux fragments lorsque ceux-ci se chevauchent.
- Simplification du graphe. Des sous-graphes denses sont identifiĂ©s comme une collection de fragment qui se chevauchent entre eux et qui proviennent probablement de la mĂȘme sĂ©quence originale.
- Extraction des séquences consensus. Une séquence consensus (contig) est générée à partir de l'ensemble des fragments de chaque sous-graphe.
Une variante de cette stratégie consiste à supprimer les liens transitifs du graphe de chevauchement pour construire un string graph.
Ce paradigme a notamment été rendu populaire par les travaux de Gene Myers intégrés dans l'assembleur Celera[5]. Les assembleurs de ce type ont dominé le monde de l'assemblage jusqu'à l'émergence des nouvelles technologies de séquençage (NGS). Ces derniÚres sont caractérisés par la production d'une trÚs grande quantité de petits fragments (de quelques dizaines à plusieurs centaines de nucléotides), et les limites computationnelles de l'approche OLC ont rendu difficile l'application de cette stratégie aux données de séquençage moderne. Récemment, l'assembleur SGA[6] a introduit une nouvelle approche plus efficace basée sur des structures performantes pour l'indexation de chaines de caractÚre.
Graphe de De Bruijn
Les assembleurs basĂ©s sur un graphe de De Bruijn modĂ©lisent la relation entre des sous-chaines exactes extraites des fragments de sĂ©quençage. Dans un graphe de De Bruijn les nĆuds sont des mots de taille k (k-mers), et les arĂȘtes sont les chevauchements de taille k-1 entre les k-mers. Par exemple les 5-mers ACTAG et CTAGT partagent exactement 4 lettres. Les fragments ne sont pas directement modĂ©lisĂ©s dans ce paradigme, mais sont implicitement reprĂ©sentĂ©s par des chemins dans le graphe de De Bruijn.
Puisque les assembleurs basés sur ce paradigme reposent sur l'identification de chevauchements exacts, ceux-ci sont particuliÚrement sensibles à la présence d'erreurs de séquençage. Par conséquent, ces méthodes nécessitent l'utilisation d'étapes de correction des erreurs de séquençage avant et pendant l'assemblage afin d'obtenir des assemblages de haute qualité[1].
Cette approche a été popularisée par l'assembleur Euler, et a ensuite dominé le monde de l'assemblage des données modernes de séquençage à courts fragments, avec des outils comme Velvet[7], SOAPdenovo[8] et ALLPATHS[9].
Ăchafaudage du gĂ©nome
Un échafaudage, aussi appelé scaffold relie ensemble une série non contiguë de séquences génomiques. Il est ainsi constitué de séquences séparées par des lacunes (régions manquantes) de longueur connue. Les séquences qui sont liées sont généralement des séquences contiguës correspondant à des chevauchements de lectures.
Lors de la crĂ©ation d'une Ă©bauche de gĂ©nome, les lectures (appelĂ©es âreadsâ) individuelles d'ADN sont ensuite assemblĂ©es en contigs. Un contig est une longueur contiguĂ« de lectures (reads) dont l'ordre des bases est connu avec un niveau de confiance Ă©levĂ©. Les contigs par la nature de leur assemblage, prĂ©sentent des lacunes entre eux. Les lacunes se produisent lorsque les lectures des deux extrĂ©mitĂ©s sĂ©quencĂ©es d'au moins un fragment chevauchent d'autres lectures dans deux contigs diffĂ©rents. Puisque les longueurs des fragments sont approximativement connues, le nombre de bases entre les contigs peut ĂȘtre estimĂ©. L'Ă©tape suivante consiste Ă combler les lacunes entre ces contigs pour crĂ©er un Ă©chafaudage, ce qui peut ĂȘtre fait en utilisant la cartographie optique ou le sĂ©quençage par paires de matrices
Assemblage de-novo vs. avec référence
En termes de complexité et de temps requis, les assemblages de novo sont des ordres de grandeur plus lents et plus gourmands en mémoire que les assemblages de mappage. Cela est principalement dû au fait que l'algorithme d'assemblage doit comparer chaque lecture avec chaque autre lecture (une opération qui a une complexité temporelle naïve de O(n2)). Les assembleurs de génomes de novo actuels peuvent utiliser différents types d'algorithmes basés sur des graphes, tels que :
- L'approche Overlap/Layout/Consensus (OLC), qui était typique des assembleurs de données Sanger et repose sur un graphe de chevauchement.
- de Bruijn Graph (DBG), qui est la plus largement appliquée aux lectures courtes des plateformes Solexa et SOLiD. Il s'appuie sur des graphes K-mer, qui fonctionnent bien avec de grandes quantités de lectures courtes.
- gourmande basée sur les graphes, qui peut également utiliser l'une des approches OLC ou DBG. Avec des algorithmes gourmands basés sur des graphes, les contigs augmentent par extension gourmande, prenant toujours la lecture trouvée en suivant le chevauchement le plus élevés.
En se rĂ©fĂ©rant Ă la comparaison Ă©tablie avec les livres dĂ©chiquetĂ©s dans l'introduction : alors que pour cartographier les assemblages, on aurait un livre trĂšs similaire comme modĂšle (peut-ĂȘtre avec les noms des personnages principaux et quelques emplacements modifiĂ©s), les assemblages de novo prĂ©sentent un dĂ©fi plus intimidant dans la mesure oĂč l'on ne saurait d'avance si cela deviendrait un livre scientifique, un roman, un catalogue, voire plusieurs livres. De plus, chaque lambeau serait comparĂ© Ă tous les autres lambeaux. La gestion des rĂ©pĂ©titions dans l'assemblage de novo nĂ©cessite la construction d'un graphe reprĂ©sentant les rĂ©pĂ©titions voisines. Une telle information peut ĂȘtre dĂ©rivĂ©e de la lecture d'un long fragment couvrant entiĂšrement les rĂ©pĂ©titions ou seulement ses deux extrĂ©mitĂ©s. D'un autre cĂŽtĂ©, dans un assemblage de mappage, les piĂšces avec plusieurs correspondances ou aucune correspondance sont gĂ©nĂ©ralement laissĂ©es Ă une autre technique d'assemblage Ă examiner.
Domaines d'application
GĂ©nomique
La Génomique est un domaine interdisciplinaire de la biologie (bio-informatique) axé sur la structure, la fonction, l'évolution, la cartographie et la modification des génomes.
Transcriptomique
La Transcriptomique est une domaine de la biologie qui Ă©tudier le Transcriptome d'un Organismes, c'est-Ă -dire la somme de toutes ses transcriptions d'ARN.
Protéomique
La protéomique est l'étude à grande échelle des protéomes.
Métagénomique
Le mĂ©tagĂ©nome correspond Ă lâensemble des gĂ©nomes des micro-organismes prĂ©sent dans un Ă©chantillon donnĂ©. La mĂ©tagĂ©nomique est une mĂ©thodologie qui vise Ă Ă©tudier ce mĂ©tagĂ©nome et donc le contenu gĂ©nĂ©tique d'un Ă©chantillon issu d'un environnement complexe.
MĂ©tatranscriptomique
Le mĂ©tatranscriptome correspond Ă lâensemble des gĂšnes exprimĂ©s par les micro-organismes prĂ©sents dans un Ă©chantillon donnĂ© et Ă un instant donnĂ©. La mĂ©tatranscriptomique est la mĂ©thodologie qui vise Ă Ă©tudier ce mĂ©tatranscriptome.
Métaprotéomique
Le mĂ©taprotĂ©ome correspond Ă lâensemble des protĂ©ines exprimĂ©es par les microorganismes prĂ©sents dans un Ă©chantillon donnĂ© et Ă un instant donnĂ©. La mĂ©taprotĂ©omique est la mĂ©thodologie qui vise Ă Ă©tudier ce mĂ©taprotĂ©ome.
MĂ©tabolomique
Le mĂ©tabolome correspond Ă lâensemble des mĂ©tabolite dĂ©tectĂ©s dans un Ă©chantillon. La mĂ©tabolomique est la mĂ©thodologie qui vise Ă Ă©tudier ce mĂ©tabolome.
Assembleurs disponibles
Nom | Type | Technologies | Auteur | Publié / DerniÚre mise à jour | Licence* | Site |
---|---|---|---|---|---|---|
ABySS | (grands) génomes | Solexa, SOLiD | Simpson, J. et al. | 2008 / 2014 | NC-A | lien |
ALLPATHS-LG | (grands) génomes | Solexa, SOLiD | Gnerre, S. et al. | 2011 | OS | lien |
AMOS | génomes | Sanger, 454 | Salzberg, S. et al. | 2002? / 2011 | OS | lien |
Arapan-M | génomes moyens (ex. E.coli) | All | Sahli, M. & Shibuya, T. | 2011 / 2012 | OS | lien |
Arapan-S | (petits) génomes (virus et bactéries) | All | Sahli, M. & Shibuya, T. | 2011 / 2012 | OS | lien |
Celera WGA Assembler / CABOG | (grands) génomes | Sanger, 454, Solexa | Myers, G. et al.; Miller G. et al. | 2004 / 2015 | OS | lien |
CLC Genomics Workbench & CLC Assembly Cell | génomes | Sanger, 454, Solexa, SOLiD | CLC bio | 2008 / 2010 / 2014 | C | lien |
Cortex | génomes | Solexa, SOLiD | Iqbal, Z. et al. | 2011 | OS | lien |
DNA Baser Assembler | (petits) génomes | Sanger, 454 | Heracle BioSoft SRL | 06.2015 | C | lien |
DNA Dragon | génomes | Illumina, SOLiD, Complete Genomics, 454, Sanger | SequentiX | 2011 | C | lien |
DNAnexus | génomes | Illumina, SOLiD, Complete Genomics | DNAnexus | 2011 | C | lien |
Edena | génomes | Illumina | D. Hernandez, P. François, L. Farinelli, M. Osteras, and J. Schrenzel. | 2008/2013 | OS | lien |
Euler | génomes | Sanger, 454 (Solexa ?) | Pevzner, P. et al. | 2001 / 2006? | (C / NC-A?) | lien |
Euler-sr | génomes | 454, Solexa | Chaisson, MJ. et al. | 2008 | NC-A | lien |
Fermi | (grands) génomes | Illumina | Li, H. | 2012 | OS | lien |
Forge | (grands) génomes, EST, metagénomes | 454, Solexa, SOLID, Sanger | Platt, DM, Evers, D. | 2010 | OS | lien |
Geneious | génomes | Sanger, 454, Solexa, Ion Torrent, Complete Genomics, PacBio, Oxford Nanopore, Illumina | Biomatters Ltd | 2009 / 2013 | C | lien |
Graph Constructor | (grands) génomes | Sanger, 454, Solexa, SOLiD | Convey Computer Corporation | 2011 | C | lien |
IDBA (Iterative De Bruijn graph short read Assembler) | (grands) génomes | Sanger, 454,Solexa | Yu Peng, Henry C. M. Leung, Siu-Ming Yiu, Francis Y. L. Chin | 2010 | (C / NC-A?) | lien |
LIGR Assembler (derived from TIGR Assembler) | génomes | Sanger | - | 2009/ 2012 | OS | lien |
MaSuRCA (Maryland Super Read - Celera Assembler) | (grands) génomes | Sanger, Illumina, 454 | Aleksey Zimin, Guillaume Marçais, Daniela Puiu, Michael Roberts, Steven L. Salzberg, James A. Yorke | 2012 / 2013 | OS | lien |
MIRA (Mimicking Intelligent Read Assembly) | génomes, ESTs | Sanger, 454, Solexa | Chevreux, B. | 1998 / 2014 | OS | lien |
NextGENe | (petits génomes ?) | 454, Solexa, SOLiD | Softgenetics | 2008 | C | lien |
Newbler | génomes, ESTs | 454, Sanger | 454/Roche | 2009/2012 | C | lien |
PADENA | génomes | 454, Sanger | 454/Roche | 2010 | OS | lien |
PASHA | (grands) génomes | Illumina | Liu, Schmidt, Maskell | 2011 | OS | lien |
Phrap | génomes | Sanger, 454, Solexa | Green, P. | 1994 / 2008 | C / NC-A | lien |
TIGR Assembler | génomes | Sanger | - | 1995 / 2003 | OS | « lien »(Archive.org ⹠Wikiwix ⹠Archive.is ⹠Google ⹠Que faire ?) |
Ray[10] | génomes | Illumina, mix of Illumina and 454, paired or not | Sébastien Boisvert, François Laviolette & Jacques Corbeil. | 2010 | OS [GNU General Public License] | lien |
Sequencher | génomes | traditional and next generation sequence data | Gene Codes Corporation | 1991 / 2009 / 2011 | C | lien |
SeqMan NGen | (grands) génomes, exomes, transcriptomes, metagénomes, ESTs | Illumina, ABI SOLiD, Roche 454, Ion Torrent, Solexa, Sanger | DNASTAR | 2007 / 2014 | C | lien |
SGA | (grands) génomes | Illumina, Sanger (Roche 454?, Ion Torrent?) | Simpson, J.T. et al. | 2011 / 2012 | OS | lien |
SHARCGS | (petits) génomes | Solexa | Dohm et al. | 2007 / 2007 | OS | lien |
SOPRA | génomes | Illumina, SOLiD, Sanger, 454 | Dayarian, A. et al. | 2010 / 2011 | OS | lien |
SparseAssembler | (grands) génomes | Illumina, 454, Ion torrent | Ye, C. et al. | 2012 / 2012 | OS | lien |
SSAKE | (petits) génomes | Solexa (SOLiD? Helicos?) | Warren, R. et al. | 2007 / 2014 | OS | lien |
SOAPdenovo | génomes | Solexa | Li, R. et al. | 2009 / 2013 | OS | lien |
SPAdes | (petits) génomes, single-cell | Illumina, Solexa, Sanger, 454, Ion Torrent, PacBio, Oxford Nanopore | Bankevich, A et al. | 2012 / 2015 | OS | lien |
Staden gap4 package | BACs (, petits génomes ?) | Sanger | Staden et al. | 1991 / 2008 | OS | lien |
Taipan | (petits) génomes | Illumina | Schmidt, B. et al. | 2009 / 2009 | OS | lien |
VCAKE | (petits) génomes | Solexa (SOLiD?, Helicos?) | Jeck, W. et al. | 2007 / 2009 | OS | lien |
Phusion assembler | (grands) génomes | Sanger | Mullikin JC, et al. | 2003 / 2006 | OS | lien |
Quality Value Guided SRA (QSRA) | génomes | Sanger, Solexa | Bryant DW, et al. | 2009 / 2009 | OS | lien |
Velvet | (petits) génomes | Sanger, 454, Solexa, SOLiD | Zerbino, D. et al. | 2007 / 2011 | OS | lien |
Canu[11] | génomes | PacBio, Oxford Nanopore | Koren, S. et al. | 2017 / 2018 | OS | lien |
*Licences: OS = Open Source; C = Commercial; C / NC-A = Commercial mais gratuit pour non-commercial et académiques; ParenthÚses = probablement C / NC-A |
Notes et références
- (en) Cet article est partiellement ou en totalitĂ© issu de lâarticle de WikipĂ©dia en anglais intitulĂ© « Sequence assembly » (voir la liste des auteurs).
- (en) Niranjan Nagarajan et Mihai Pop, « Sequence assembly demystified », Nature Reviews Genetics, vol. 14,â , p. 157â167 (ISSN 1471-0056, DOI 10.1038/nrg3367, lire en ligne, consultĂ© le )
- « Phred, Phrap, and Consed », sur www.phrap.org (consulté le )
- « JCVI: Abstract », sur www.jcvi.org (consulté le )
- « VCAKE », sur SourceForge (consulté le )
- « wgs-assembler », sur wgs-assembler.sourceforge.net (consulté le )
- « jts/sga », sur GitHub (consulté le )
- « Velvet: a sequence assembler for very short reads », sur www.ebi.ac.uk (consulté le )
- BGI,Bioinformatics Center,SOAP Team,GentleYang, « SOAP :: Short Oligonucleotide Analysis Package », sur soap.genomics.org.cn (consulté le )
- « ALLPATHS-LG | High quality genome assembly from low cost data », sur www.broadinstitute.org (consulté le )
- (en) SĂ©bastien Boisvert, François Laviolette et Jacques Corbeil, « Ray: simultaneous assembly of reads from a mix of high-throughput sequencing technologies », Journal of Computational Biology, vol. 17, no 11,â , p. 1519â33 (PMID 20958248, PMCID 3119603, DOI 10.1089/cmb.2009.0238)
- (en) Sergey Koren, Brian P. Walenz, Konstantin Berlin et Jason R. Miller, « Canu: scalable and accurate long-read assembly via adaptive k-mer weighting and repeat separation », Genome Research, vol. 27, no 5,â , p. 722â736 (ISSN 1088-9051 et 1549-5469, PMID 28298431, DOI 10.1101/gr.215087.116, lire en ligne, consultĂ© le )