Techniques de comparaison des génomes
Lâalignement de sĂ©quences est une pratique fondamentale pour de nombreuses applications de biologie comme la dĂ©couverte de gĂšnes et lâanalyse phylogĂ©nĂ©tique.
Une nouvelle discipline est Ă©galement nĂ©e de la connaissance de ces sĂ©quences complĂštes de chromosomes, la gĂ©nomique comparative. Il est maintenant possible de comparer deux organismes vivants Ă lâĂ©chelle de leur gĂ©nome, de dĂ©terminer les gĂšnes quâils ont en commun ou qui leur sont propres. Dans le contexte de lâidentification sĂ©lective de gĂšnes correspondant Ă des cibles thĂ©rapeutiques, en comparant par exemple une bactĂ©rie pathogĂšne et une proche cousine non-pathogĂšne, on peut essayer de repĂ©rer les gĂšnes impliquĂ©s dans la virulence de la souche infectieuse. Ce nouveau domaine dâĂ©tude, traite les diffĂ©rents aspects de ce nouveau champ de la connaissance et sâappuie Ă la fois sur les concepts de la biologie que sur des outils issus de la chimie, de la physique et de lâinformatique.
LâaccĂ©lĂ©ration du sĂ©quençage, permise en particulier par l'automatisation des mĂ©thodes dâanalyse, nĂ©cessite un soutien de plus en plus important des technologies de lâinformatique. Dans un premier stade, celui-ci est indispensable pour permettre lâassemblage de la « base de donnĂ©es » que constituent les milliers ou millions de fragments de gĂ©nome. Lâinformatique est un outil incontournable pour extraire et analyser lâinformation contenue dans ces gigabases (1 Gbase =10^9 nuclĂ©otides) de sĂ©quence. Le volume des donnĂ©es Ă traiter est considĂ©rable. En 2002 les banques de sĂ©quences rassemblaient plus de 10^11 nuclĂ©otides et leur taille augmente exponentiellement. Les techniques d'accĂ©lĂ©ration des comparaisons de gĂ©nomes sont lâun des axes les plus importants en bio-informatique qui a pour but de remĂ©dier Ă un problĂšme scientifique posĂ© par la biologie « faire ressortir les rĂ©gions ou sĂ©quences homologues ou diffĂ©rentes » ; on parle donc des mĂ©thodes de comparaison de deux ou plusieurs sĂ©quences de macromolĂ©cules biologiques (ADN, ARN ou protĂ©ines) les unes par rapport aux autres.
Analyse comparative des séquences génomiques
Dite aussi gĂ©nomique comparative, elle consiste en l'Ă©tude comparative des structures et fonctions des diffĂ©rents gĂ©nomes de diffĂ©rentes espĂšces en comparant une/des sĂ©quences gĂ©nomiques aux sĂ©quences d'autres gĂ©nomes, il sâagit donc de quantifier la similitude entre les sĂ©quences d'ADN/ProtĂ©ines puis dĂ©terminer l'information contenue dans ces portions de gĂ©nomes[1].
Les comparaisons peuvent se faire de multiples façons produisant différents types d'information[2] :
- par alignement (que ce soit l'alignement d'une portion d'un génome ou d'un génome complet) ;
- en comparant l'ordre de certains gĂšnes ;
- en comparant la composition des séquences constituant le gÚnes ;
- etc.
DĂ©finitions
- Séquençage
Le sĂ©quençage de gĂ©nome est lâun des champs dâapplication ou une sous-discipline de la bio-informatique, qui traite de lâanalyse de donnĂ©es issues de l'information gĂ©nĂ©tique contenue dans la sĂ©quence de l'ADN ou dans celle des protĂ©ines qu'il code. Cette branche s'intĂ©resse en particulier Ă l'identification des ressemblances entre les sĂ©quences, Ă l'identification des gĂšnes ou de rĂ©gions biologiquement pertinentes dans l'ADN ou dans les protĂ©ines, en se basant sur l'enchaĂźnement ou sĂ©quence de leurs composants Ă©lĂ©mentaires (nuclĂ©otides,acides aminĂ©s)[3].
- SĂ©quence
Une Séquence génomique est l'enchaßnement de molécules qui constituent une macromolécule, d'acide nucléique ou de protéine[4]. Elle est généralement représentée sous forme d'une chaßne de caractÚres stockée dans un fichier informatique au format texte utilisant (dans le cas d'une séquence d'ADN) l'alphabet des quatre lettres A, C, G et T, initiales des bases azotées - Adénine, Cytosine, Guanine et Thymine - qui distinguent les quatre types de nucléotides.
Et c'est l'enchaßnement des vingt types d'acides aminés le long d'un polypeptide, classiquement représentée par une chaßne de caractÚres qui utilise un alphabet de vingt lettres dans le cas d'une séquence protéique[5].
Méthodes de séquençage
- méthode de Sanger (1975)[6],
- MĂ©thode de sĂ©quençage MaxamâGilbert (en)(1977)[7],
- Automatisation de Sanger (de ~1980 à 2005) au cours des derniÚres années, grùce à plusieurs avancées technologiques importantes dont l'utilisation de séquenceurs automatiques de gÚnes[8] - [6],
- Nouvelles générations de séquenceurs (depuis 2005)
- Séquençage de l'ADN#Comparaison des méthodes de séquençage nouvelle-générationNGS : Séquençage de nouvelle génération[Note 1] (désormais largement utilisés) [9];
- HTS : Séquençage haut débit[Note 2],
- NNGS : Séquençage nouvelle-nouvelle Generation[Note 3] (en cours)
Analyse de séquences génomiques
AprĂšs la sĂ©lection d'un organisme, les projets gĂ©nomiques partent sur trois procĂ©dures: le sĂ©quençage de l'ADN, l'assemblage de cette sĂ©quence pour crĂ©er une reprĂ©sentation du chromosome original, ainsi que l'annotation et l'analyse de celle-ci. L'analyse exploratoire peut ĂȘtre conduite soit sur la base de rĂ©sultats expĂ©rimentaux soit par analogie avec des organismes modĂšles[11].
Les difficultĂ©s rĂ©sident dans La disponibilitĂ© des donnĂ©es gĂ©nomiques permettant de vĂ©rifier et/ou de tester beaucoup d'hypothĂšses et dans lâorganisation de telle masses Ă©normes d'informations pour offrir un accĂšs aisĂ©, Ă l'ensemble de la communautĂ© des chercheurs, aux informations dĂ©sirĂ©es. Cela a Ă©tĂ© rendu possible grĂące Ă diffĂ©rentes bases de donnĂ©es, accessibles en lignes.
Ă l'Ă©chelle mondiale, trois grandes institutions sont chargĂ©es de l'archivage de ces donnĂ©es : le NCBI aux Ătats-Unis « Centre national 'amĂ©ricain' pour les informations biotechnologiques », l'Institut europĂ©en de bio-informatique (EBI) en Europe et le DDBJ au Japon « Banque de donnĂ©es gĂ©nĂ©tiques du Japon». Ces institutions se coordonnent pour gĂ©rer les grandes bases de donnĂ©es de sĂ©quences nuclĂ©otidiques comme GenBank ou l'EMBL database, ainsi que les bases de donnĂ©es de sĂ©quences protĂ©iques comme UniProt ou TrEMBL.
Alors il est indispensable parfois, pour les chercheurs, dâexprimer leur besoin de logiciels et/ou d'algorithmes et de nouveaux outils d'analyse de sĂ©quences pour lâĂ©tude dâun problĂšme donnĂ©, afin de pouvoir dĂ©terminer certaines propriĂ©tĂ©s, comme :
- La recherche d'une séquence dans une banque de données à partir d'une autre séquence ou d'un fragment de séquence. Les logiciels les plus fréquemment utilisés sont de la famille BLAST (blastn, blastp, blastx, tblastx et leurs dérivés),
- L'alignement de séquences pour trouver les ressemblances entre deux séquences et déterminer leurs éventuelles homologies. Les alignements sont à la base de la construction de parentés suivant des critÚres moléculaires, ou encore de la reconnaissance de motifs particuliers dans une protéine à partir de la séquence de celle-ci,
- La recherche de motifs ou structures qui permettent de caractériser les séquences,
- , etc.
Pour quâensuite, dĂ©velopper des Recherches sur les protĂ©ines Ă partir de la traduction de sĂ©quences nuclĂ©iques connues [12].
Comparaison de séquences
Dans la plupart des cas, le problĂšme auquel l'utilisateur est confrontĂ© est formalisĂ© comme suit: une nouvelle sĂ©quence est disponible et il est souhaitable de rechercher dans la base de donnĂ©es et de savoir si un ou des proches parents de cette sĂ©quence ont dĂ©jĂ Ă©tĂ© signalĂ©s. Si oui, on peut dĂ©duire par comparaison quelques-unes des donnĂ©es expĂ©rimentales recueillies de cette façon Ă la nouvelle sĂ©quence. Dans un tel cas, la solution consiste Ă comparer les sĂ©quences d'intĂ©rĂȘt Ă toutes les sĂ©quences contenues dans la base de donnĂ©es, en gardant la trace de la plus semblable[13]. Deux outils trĂšs populaires Sont utilisĂ©s pour effectuer de telles recherches de similaritĂ© de base dans une base de donnĂ©es: FASTA et BLAST[14] - [15] - [16]. C'est par exemple l'une des idĂ©es dĂ©veloppĂ©es dans la base de donnĂ©es PROSITE [16].
Alignement de séquences
Quand on parle de la comparaison de sĂ©quences on parle de lâAlignement qui est le processus par lequel deux ou plusieurs sĂ©quences sont comparĂ©es afin d'obtenir le plus de correspondances possibles entre les lettres qui les composent.
Les différents alignements sont :
- L'alignement local : consiste en lâalignement des sĂ©quences sur une partie de leur longueur,
- L'alignement global : consiste en lâalignement des sĂ©quences sur toute leur longueur,
- L'alignement optimal : consiste en lâalignement des sĂ©quences qui produit le plus haut score possible,
- L'alignement multiple : consiste en lâalignement global de trois sĂ©quences ou plus Ă la fois,
- BrĂšches ou gap : câest un espace artificiel introduit dans une sĂ©quence pour contre-balancer et matĂ©rialiser une insertion dans une autre sĂ©quence. Il permet d'optimiser l'alignement entre les sĂ©quences[17] - [18].
Annotation
L'annotation des gĂ©nomes est une analyse informatique des sĂ©quences obtenues lors du sĂ©quençage permettant d'identifier les sĂ©quences informatives des gĂ©nomes. Ces sĂ©quences sont principalement les gĂšnes, on parle alors de prĂ©diction de gĂšnes. La plupart de ceux-ci sont identifiĂ©s soit par leur similitude avec des gĂšnes dĂ©jĂ connus, soit par une prĂ©diction en fonction de la sĂ©quence c'est-Ă -dire: prĂ©sence d'un cadre de lecture ouvert caractĂ©risĂ©e par un codon d'initiation de la traduction, puis au moins 100 codons et enfin un codon stop. Mais il existe aussi des « gĂšnes morcelĂ©s » ou codons des ARN fonctionnels, ceux-ci doivent ĂȘtre prĂ©dits par des algorithmes diffĂ©rents.
Les gÚnes ne sont pas les seules cibles de l'annotation des génomes, il existe de nombreux autres types de séquences importantes dans les génomes, les séquences régulatrices, les éléments transposables, etc.[4] - [19]
Objectif du séquençage et de la comparaison des séquences génomiques
Le sĂ©quençage du gĂ©nome est une Ă©tape importante vers sa comprĂ©hension et la sĂ©quence du gĂ©nome peut ĂȘtre considĂ©rĂ©e comme un raccourci du chemin aidant les scientifiques Ă trouver des gĂšnes beaucoup plus facilement et rapidement. Une sĂ©quence gĂ©nomique peut contenir mĂȘme des indices sur l'endroit oĂč se trouvent les gĂšnes, comprendre comment le gĂ©nome dans son ensemble fonctionne et comment les gĂšnes travaillent ensemble pour diriger la croissance, le dĂ©veloppement et le maintien d'un organisme entier[4],
En mĂ©decine, elle peut ĂȘtre utilisĂ©e pour identifier, diagnostiquer et potentiellement trouver des traitements Ă des maladies gĂ©nĂ©tiques, en observant les mutations temporelles qui peuvent avoir des incidents sur les protĂ©ines et donc leurs rĂŽles (rĂŽles des protĂ©ines/fonction des protĂ©ines) et voir aussi dans quel gĂšne elles apparaissent, permet dâinduire les dysfonctionnements, identification des gĂšnes spĂ©cifique Ă une espĂšce (PathogĂ©nicitĂ©, ...), retrouver des rĂ©gions de syntĂ©nie (conservation de l'ordre de gĂšnes homologues dans le gĂ©nome dâespĂšces diffĂ©rentes)[20].
La comparaison de séquences est la tùche informatique la plus utilisée par les biologistes. Il s'agit de déterminer dans quelle mesure deux séquences, génomiques ou protéiques, se ressemblent.
La motivation premiĂšre est d'infĂ©rer des connaissances sur une sĂ©quence Ă partir des connaissances attachĂ©es Ă une autre. Ainsi, si deux sĂ©quences sont trĂšs similaires et si l'une est connue pour ĂȘtre codante, l'hypothĂšse que la seconde le soit aussi peut ĂȘtre avancĂ©e. De mĂȘme, si deux sĂ©quences protĂ©iques sont similaires, il est souvent fait l'hypothĂšse que les protĂ©ines correspondantes assument des fonctions semblables ; si la fonction de l'une est connue, la fonction de la seconde peut ainsi s'en dĂ©duire.
Un biologiste qui détient une nouvelle séquence s'intéresse en premier temps à parcourir ces bases de données, à fin de trouver les séquences similaires et de faire hériter à la nouvelle séquence les connaissances qui leur sont associées. C'est également en comparant des séquences de génomes d'espÚces actuelles qu'il est possible de reconstruire un arbre phylogénétique qui rend compte de l'histoire évolutive.
Il existe plusieurs bases de données qui contiennent l'ensemble des séquences nucléiques publiques avec leurs annotations (par exemple GenBank), ou l'ensemble des séquences protéiques expertisées (SwissProt)[5].
Profits tirés de la comparaison des génomes
- En médecine
- Aide à la création de nouveaux médicaments (prédiction de structure, d'interactions).
La greffe d'organes (ou transplantation d'organes) a pour but de remplacer un organe dĂ©faillant par un organe sain (cĆur, foi , etc.) en cas de provenance externe, c'est-Ă -dire qu'il y a un donneur en question et on parle donc de l'allogreffe non pas de l'autogreffe,
- Recherche dans un laboratoire (entreprise publique, biotechs, pharmaceutique, , etc.).
- Aide à la création de tests et de systÚmes de diagnostics destinés aux laboratoires d'analyses médicales, aux centres de transfusion sanguine et aux laboratoires de contrÎle industriel, estimation de la probabilité et la rapidité de propagation des maladies.
- En science
- Ătudier et dĂ©duire les diffĂ©rences entre les fonctionnements des cellules des diffĂ©rentes espĂšces,
- Ătudier et comprendre lâĂȘtre vivant[21].
- En informatique
- Développement de logiciels pour l'analyse et prédiction de données biologiques (génomique, transcriptomique, protéomique, etc.), par exemple la prédiction de gÚnes,
- DĂ©veloppement de logiciels pour la biologie : (LIMS, interface web, , etc..),
- Adaptation de technologies informatiques au domaine de la biologie,
- Nouvelle étude : reconstruction phylogénétique[22].
Algorithmes de comparaison des séquences génomiques
MĂ©thodes de programmation dynamique
L'Algorithme Needleman-Wunsch est utilisé pour obtenir l'alignement global de deux séquences protéiques ou d'acides nucléiques et l'algorithme de Smith et Waterman est utilisé pour obtenir l'alignement local de deux séquences protéiques ou d'acides nucléiques[23].
En informatique, l'algorithme de Hirschberg (en), baptisé d'aprÚs son inventeur, Dan Hirschberg (en), est un algorithme de programmation dynamique qui trouve l'alignement optimal de séquences entre deux chaßnes. L'optimalité est mesurée à l'aide de la distance de Levenshtein, définie comme étant la somme des coûts des insertions, des remplacements, des suppressions et des actions nulles nécessaires pour changer une chaßne par une autre. L'algorithme de Hirschberg est simplement décrit comme une version concurrente de l'algorithme Needleman-Wunsch[24]. Et il est couramment utilisé en bio-informatique pour trouver des alignements globaux maximaux de séquences d'ADN et de protéines.
MĂ©thodes heuristiques
Ce sont des mĂ©thodes qui recherchent des similitudes dans une base de sĂ©quences[Note 5]. Les programmes des familles Fasta et BLAST sont des heuristiques qui rĂ©duisent le facteur temps en se basant sur lâidĂ©e de filtrage. Les deux simplifient le problĂšme :
- en prĂ©-sĂ©lectionnant les sĂ©quences de la banque susceptibles de prĂ©senter une similaritĂ© significative avec la sĂ©quence requĂȘte,
- et en localisant les régions potentiellement similaires dans les séquences.
Ces étapes sélectives permettent :
- de n'appliquer les méthodes de comparaison, coûteuses en temps, qu'à un sous-ensemble des séquences de la banque,
- et de restreindre le calcul de l'alignement optimal à des parties des séquences[18].
Le Programme FASTA[25] - [15] - [Note 6] ne considÚre que les séquences présentant une région de forte similitude avec la séquence recherchée. Il applique ensuite localement à chacune de ces meilleures zones de ressemblance un algorithme d'alignement optimal. La codification numérique des séquences, c'est-à -dire la décomposition de la séquence en courts motifs [Note 7] transcodés en entiers, confÚre à l'algorithme l'essentiel de sa rapidité.
Les programmes BLAST[15] - [Note 6] « Recherche de RĂ©gions de SimilaritĂ© Locales » sont une mĂ©thode heuristique qui utilise la mĂ©thode de Smith & Waterman. C'est un programme qui effectue un alignement local entre deux sĂ©quences nuclĂ©iques ou protĂ©iques. La rapiditĂ© de BLAST permet la recherche des similaritĂ©s entre une sĂ©quence requĂȘte et toutes les sĂ©quences d'une base de donnĂ©es.
MĂ©thode dâapprentissage machine
L'apprentissage machine ou l'apprentissage automatique est un processus par lequel un ordinateur accroßt ses connaissances et modifie son comportement à la suite de ses expériences et de ses actes passés. Cette méthode consiste en la conception, l'analyse, le développement et l'implémentation de méthodes permettant à une machine de réaliser des tùches difficiles que les algorithmiques classiques ne peuvent réaliser. Parmi les méthodes d'apprentissage machine :
- les réseaux de neurones ;
- les SVM [Note 8] machine Ă vecteur de support ;
- les k plus proches voisins ;
- l'algorithme espérance-maximisation EM[Note 9] ;
- le modÚle de Markov caché[26].
Elles sont applicables dans plusieurs domaines tel que: la reconnaissance d'objets (visages, schĂ©mas, langages naturels, Ă©criture, formes syntaxiquesâŠ) ; moteurs de recherche ; aide aux diagnostics, mĂ©dical notamment, bio-informatique, chĂ©moinformatique, , etc.
Accélération matérielle de la comparaison des séquences génomiques
Matériels de comparaison
Le traitement des donnĂ©es pour les applications de bio-informatique se fait actuellement par des logiciels, ce qui prend souvent beaucoup de temps, mĂȘme aligner quelques centaines de sĂ©quences Ă l'aide d'outils d'alignement multiple consomme plusieurs heures CPU sur des postes de travail ultramodernes. L'analyse de sĂ©quences Ă grande Ă©chelle, qui implique souvent des dizaines de millions de sĂ©quences, est devenue un pilier, ainsi qu'un des principaux goulets d'Ă©tranglement dans la voie de la dĂ©couverte scientifique. Le domaine de bio-informatique molĂ©culaire hĂ©berge Ă©galement un ensemble d'applications Ă forte intensitĂ© de calcul dans lesquelles les problĂšmes sous-jacents sont prouvĂ©s ĂȘtre intraitables en calcul (par exemple le calcul des arbres phylogĂ©nĂ©tiques, le repliement des protĂ©ines)[27].
En outre, des techniques de sĂ©quençage d'ADN Ă haut dĂ©bit, qui ont permis de grandes avancĂ©es (sĂ©quençage complet du gĂ©nome humain, projet d'annotation du gĂ©nome des plantes) sont apparues. Dâune autre vision ces progrĂšs se sont traduits par le grand volume de donnĂ©es gĂ©nomiques (ADN, protĂ©ines) disponibles pour la communautĂ©, et qui est interprĂ©tĂ© par l'Ă©volution des banques NCBI GenBank (pour lâADN) UniProt (pour les protĂ©ines).
Les chercheurs se voient confrontĂ©s Ă un grand dĂ©fi qui est lâextraction dâinformations utiles Ă la comprĂ©hension de phĂ©nomĂšnes biologiques, de ces volumes de donnĂ©es innombrables. Les outils classiques utilisĂ©s en bio-informatique ne sont pas conçus pour fonctionner sur de telles masses de donnĂ©es, et les volumes de calculs mis en jeu dans ces outils d'analyses sont devenus trop importants au point de devenir un goulot d'Ă©tranglement mĂȘme pour les solutions offertes par lâinformatique.
De nombreux travaux se sont donc intéressés à l'utilisation de machines parallÚles pour réduire ces temps de calcul ; on parle alors de l'utilisation d'accélérateurs matériels spécialisés à base de logique programmable avec la possibilité de profiter des capacités d'accélération trÚs élevées à consommation électrique réduite et des coûts de maintenance trÚs raisonnables [28].
Pour accĂ©lĂ©rer les mĂ©thodes d'alignement des sĂ©quences, elles sont mises en Ćuvre sur diverses plates-formes matĂ©rielles disponibles[29], qui promettent un gain de performance Ă©norme[30]. Et plusieurs accĂ©lĂ©rateurs matĂ©riels ont Ă©tĂ© proposĂ©s dont : SAMBA, FPGA, les GPU, les CPU, et ASIC[29].
GPU
SpĂ©cialisĂ©s pour des traitements synchrones de grosses quantitĂ©s de donnĂ©es, les GPUs possĂšdent nativement une structure de cĆurs massivement parallĂšle et offrent des puissances brutes de calcul largement supĂ©rieures aux processeurs[31]. Dans le domaine de la bio-informatique, les GPUs sont aussi prisĂ©s pour le traitement des sĂ©quences ADN. Avec quelques milliards de nuclĂ©otides, les GPUs permettent de rĂ©duire significativement les temps de traitements algorithmiques de ces chaĂźnes, notamment pour les tris de trĂšs gros volumes de donnĂ©es (tris par base)[32].
FPGA
Les tendances récentes de la technologie informatique ont connu une progression rapide, comme les FPGA.
La mise en Ćuvre de la bio-informatique liĂ©e au FPGA et des applications de calculs en biologie est largement abordĂ©e [33].
L'augmentation de la densitĂ© et de la vitesse des circuits FPGA a ainsi favorisĂ© l'Ă©mergence d'accĂ©lĂ©rateurs matĂ©riels reconfigurables orientĂ©s vers le domaine du calcul haute performance (HPC), avec plusieurs applications comme le calcul financier[34], grĂące Ă sa fonctionnalitĂ© re-programmable, des dĂ©veloppements de diverses applications biologiques sont possibles sur la mĂȘme puce de silicium[29].
Ainsi ils se sont avĂ©rĂ©s ĂȘtre des architectures matĂ©rielles bien adaptĂ©es Ă la mise en Ćuvre de traitements de type bio-informatique[35].
La mise en Ćuvre FPGA utilise Xilinx Virtex II XC2V6000, une plate-forme pouvant accueillir 92 Ă©lĂ©ments de traitement avec une vitesse d'horloge maximale de 34 MHz[27]. Et sur les pĂ©riphĂ©riques FPGA, la complexitĂ© d'une opĂ©ration dĂ©termine directement la quantitĂ© consommĂ©e, de la surface de la puce [30].
ASIC
Un composant ASIC [Note 10] « circuit intĂ©grĂ© propre Ă une application » est une puce dĂ©diĂ©e Ă une seule fonction (ou Ă une classe restreinte de fonctions). Une fois conçu et fabriquĂ©, il ne peut pas ĂȘtre modifiĂ©.
Dans les systÚmes ASIC dédiés pour la comparaison de séquences, le calcul est généralement effectué par un réseau linéaire de processeurs ASIC identiques. La performance maximale de ces machines est impressionnante car tous les processeurs (quelques centaines) travaillent simultanément et de maniÚre synchrone. La machine BioSCAN et la machine BISP appartiennent à cette catégorie. La puissance de calcul de ces machines dépend directement de la vitesse d'horloge et du nombre de processeurs[36].
En termes de vitesse, Il est reconnu qu'un ASIC est typiquement, 3 à 10 fois, plus rapide qu'un FPGA. Ainsi, on peut conclure que généralement les FPGAs peuvent fournir plus de vitesse que les processeurs, mais ne réalisent guÚre mieux les traitements que les ASIC. Le coût initial de conception et de production d'une unité FPGA est beaucoup plus faible que pour un ASIC, puisque le coût d'ingénierie non récurrente (NRE) d'un ASIC peut atteindre des millions de dollars. NRE représente le coût ponctuel correspondant à la conception et au test d'une nouvelle puce[37].
SAMBA
Le systĂšme SAMBA appartient Ă la catĂ©gorie ASIC, car le cĆur du systĂšme est une matrice de processeurs VLSI dĂ©diĂ©e, mais le systĂšme complet contient une interface de mĂ©moire FPGA. Le rĂ©seau est connectĂ© au poste de travail hĂŽte par l'intermĂ©diaire d'une carte mĂ©moire FPGA qui agit comme un contrĂŽleur de rĂ©seau et un mĂ©canisme Ă grande vitesse pour alimenter correctement le rĂ©seau et filtrer les rĂ©sultats Ă la volĂ©e.
La matrice du prototype SAMBA est composée de 32 puces identiques personnalisées, qui abritent chacune quatre processeurs, aboutissant à une matrice de processeurs. La puce a été conçue à IRISA et fournit une puissance de calcul de 400 millions d'opérations par seconde. Par conséquent, la matrice est capable d'atteindre 12,8 milliards d'opérations par seconde[36].
Processeurs
Les processeurs sont des architectures bien connues, souples et Ă©volutives. En exploitant la rĂ©partition d'instructions SIMD extension de SSE montĂ©e sur les processeurs modernes, le temps de rĂ©alisation des analyses diminue de façon significative, ce qui rend les analyses de problĂšmes de donnĂ©es intensives, comme l'alignement des sĂ©quences, rĂ©alisables. De plus, les technologies Ă©mergentes du processeur comme le multi-cĆur combinent deux processeurs indĂ©pendants ou plus.
Le paradigme du flux de donnĂ©es de multiples instructions simples(SIMD)[Note 11] est fortement utilisĂ© dans cette classe de processeurs, ce qui le rend appropriĂ© pour les applications parallĂšles de donnĂ©es comme l'alignement des sĂ©quences. SIMD dĂ©crit des processeurs avec plusieurs Ă©lĂ©ments de traitement qui effectuent la mĂȘme opĂ©ration sur plusieurs donnĂ©es simultanĂ©ment[38].
Historique
L'essor de cette discipline a Ă©tĂ© facilitĂ© par le dĂ©veloppement des techniques de sĂ©quençage des gĂ©nomes et la bio-informatique. En 1869, le Suisse Friedrich Miescher isole une substance riche en phosphore dans le noyau des cellules, qu'il nomme nuclĂ©ine (le noyau). En 1896, l'Allemand Albrecht Kossel dĂ©couvre dans l'acide nuclĂ©ique les 4 bases azotĂ©es A, C, T, G. En 1928, Phoebus Levene et Walter Abraham Jacobs (en) (Ătats-Unis) identifient le dĂ©soxyribose, et depuis 1935, on parle d'Acide dĂ©soxyribonuclĂ©ique.
En 1944, l'américain Oswald Avery découvre que l'ADN est responsable de la transformation génétique des bactéries. Et certains scientifiques n'abandonnent pas l'idée que les protéines puissent porter l'information génétique.
Les expĂ©riences de Hershey et Chase confirment en 1952 lâhypothĂšse de lâADN comme porteur de l'information gĂ©nĂ©tique. En 1953 est publiĂ© dans Nature, par James Watson et Francis Crick une Ă©tude sur la structure de l'ADN en double hĂ©lice, grĂące Ă la technique de diffraction des rayons X sur des cristaux de l'ADN, rendue possible par le travail de Rosalind Elsie Franklin.
Entre 1961 et 1965 le code gĂ©nĂ©tique a Ă©tĂ© dĂ©chiffrĂ© « trois bases codent un acide aminĂ© » (d'aprĂšs la suggestion de George Gamow et l'expĂ©rience de Crick, Brenner et al., Philip Leder ). Il fallait travailler et chercher plusieurs annĂ©es avant de pouvoir obtenir la premiĂšre sĂ©quence de lâADN,
En 1972, le premier vĂ©ritable sĂ©quençage d'un gĂ©nome est publiĂ©, avec la lecture de la sĂ©quence ARN du gĂšne du virus BactĂ©riophage MS2[39]. Le projet de sĂ©quençage du gĂ©nome humain (HGP)[Note 12] est un projet international lancĂ© en 1990 aux Ătats-Unis et coordonnĂ© par l'Institut national de sentĂ© (NIH)[Note 13] et par le dĂ©partement de l'Ănergie [Note 14],
Craig Venter en 1998 annonce la crĂ©ation de lâentreprise Celera Genomics, en partenariat avec la multinationale PerkinElmer, spĂ©cialisĂ©e en Ă©lectronique et leader mondial de lâĂ©quipement dâanalyse de lâADN. Cette mĂȘme annĂ©e, le HGP publie le GeneMapâ98 qui contient 30 000 marqueurs.
En 1999, un premier chromosome humain est sĂ©quencĂ© par une Ă©quipe coordonnĂ©e par le centre Sanger, en Grande-Bretagne. En , Celera Genomics annonce quâelle dĂ©tient dans sa banque de donnĂ©es 97 % des gĂšnes humains, et propose les premiers rĂ©sultats du sĂ©quençage total du gĂ©nome humain. Et dans la mĂȘme annĂ©e, le HGP annonce 90 % du sĂ©quençage du gĂ©nome humain. Les Ă©quipes scientifiques l'ont mĂ©diatisĂ©e par la compĂ©tition entre eux qui les a fait publier la premiĂšre carte du gĂ©nome humain, le Ă la fin du XXe siĂšcle par Bill Clinton et Tony Blair.
En , les séquences du génome humain sont publiées par Nature (résultats du consortium public) et par Science (résultats de Celera Genomics).
Le , la fin du séquençage du génome humain est annoncée. Depuis, le séquençage évolue et le nombre de génomes complets séquencés.
En septembre 2007, une Ă©quipe menĂ©e par le biologiste et entrepreneur Craig Venter a publiĂ© le premier gĂ©nome complet d'un individu qui est de Craig Venter lui-mĂȘme.
Notes
- De l'anglais : Next Generation Sequencing.
- De l'anglais High-Throughput Sequencing.
- en: Next-Next Generation Sequencing.
- en: Single Molecule Sequencing.
- base de données génomiques ou banque de données.
- Basic Local Alignement Search Tool.
- nommés uplets.
- support vector machine.
- Algorithme Expectation Maximisation.
- Application Spécificité Integrated Circuit.
- Single Instruction Multiple Data-Stream.
- HGP = Human Genome Project.
- NIH = le National Institute of Health.
- Department of Energy.
Références
- Thomas Derrien 2007, p. 2
- Catherine Matias 2015, p. 2
- Jean-Baptiste Waldner 2007, p. 121
- J. Craig Venter 2003
- François Rechenmann 2005
- F. Sanger 1977, p. 10
- Lilian T. C. França 2002, p. 183
- L.M. Smith 1986
- meth
- Equipe Bonsai 2014, p. 16
- Jonathan Pevsner 2009
- abi.snv
- CĂ©dric Notredame 1998
- D. J. Lipman 1985
- S. F. Altschul 1990
- A. Bairoch 1997
- dsi.univ-paris5
- bioch
- EV. Koonin 2003
- Equipe Bonsai 2014, p. 74
- Equipe Bonsai 2014, p. 15
- batut 2014
- biochimej
- Kevin Wayne 2014, p. 9-20
- Pearson & Lipman 1988, p. 244
- Sonnhammer 1998, p. 320 - 322
- Souradip Sarkar 1988, p. 3790.
- Robert D. Stevens 2003, p. i302-i304.
- M.N. Isa 2011, p. 344.
- Thomas. B 2012, p. 169.
- Sidi Ahmed Mahmoudi, p. 1
- F. SĂ©bastien 2010, p. 2
- B. Schmidt 2010
- G.L. Zhang 2006, p. 215-222
- Naeem Abbas 2013, p. 36
- P.Guerdoux 1997, p. 609-610
- Naeem Abbas 2012, p. 1-3
- Laiq Hasan, p. 189
- W. Min 1972, p. 82 - 88
Bibliographie
Analyse comparative des séquences génomiques
- Equipe Bonsai, « Cours d'introduction Ă la bioinformatique et de prĂ©sentation des banques de sĂ©quences.1Ăšre partie », Bioinformatique et donnĂ©es biologiques,â , p. 16 (lire en ligne)
- Equipe Bonsai, « Cours d'introduction Ă la bioinformatique et de prĂ©sentation des banques de sĂ©quences.1Ăšre partie », Bioinformatique et donnĂ©es biologiques,â , p. 74 (lire en ligne)
- Equipe Bonsai, « Cours d'introduction Ă la bioinformatique et de prĂ©sentation des banques de sĂ©quences.1Ăšre partie », Bioinformatique et donnĂ©es biologiques,â , p. 15 (lire en ligne)
- Lilian T. C. Franca, Emanuel Carrilho et Tarso B. L. Kist, « A review of DNA sequencing techniques », Cambridge University Press,â , p. 169â200 (DOI 10.1017/S0033583502003797, lire en ligne)
- Jean-Baptiste Waldner, « Nano-informatique et Intelligence Ambiante - Inventer l'Ordinateur du XXIe SiĂšcle », Hermes Science,â , p. 121 (ISBN 2-7462-1516-0)
- Thomas Derrien, « L'analyse comparĂ©e des gĂ©nomes : applications Ă l'identification de nouveaux gĂšnes canins », Bio-informatique [q-bio.QM]. UniversitĂ© Rennes 1, 2007.,â , p. 2 (ISBN 2-7462-1516-0, HAL tel-00656330)
- J. Craig Venter, « Genome Sequencing », Genome News Network is an editorially independent online,2000 - 2004 J. Craig Venter Institute.,â (lire en ligne)
- François Rechenmann, « Alignement optimal et comparaison de sĂ©quences gĂ©nomiques et protĂ©iques », l'Ă©quipe-projet IBIS,Explorez les sciences du numĂ©rique,â (lire en ligne)
- F Sanger, G.M Air, B.G. Barrell, N.L. Brown, A.R. Coulson, C.A. Fiddes, C.A. Hutchison, P.M. Slocombe et M. Smith, « Nucleotide sequence of bacteriophage phi X174 DNA », Nature, vol. 265,â , p. 687-695 (PMID 870828)
- Jonathan Pevsner, « Bioinformatics and functional genomics », Hoboken, N.J, Wiley-Blackwell, vol. 265,â , p. 3-11 (ISBN 9780470085851, DOI 10.1002/9780470451496, lire en ligne)
- L.M. Smith, J.Z. Sanders, R.J. Kaiser, P. Hughes, C. Dodd, C.R. Conneell, C. Heiner, S.B. Kent et L.E. Hood, « Fluorenscence detection in automated DNA sĂ©quence analysis », Nature, vol. 321,â , p. 674-679 (PMID 3713851)
- CĂ©dric Notredame, « Use of genetic Algorithm for analysis of Biological Sequences », UniversitĂ© Paul Sabatier France, 2nd,â , p. 15 (lire en ligne)
- Bairoch A, Bucher P et Hofmann K, « The Prosite database », Nucleic Acids Research,â , p. 21-217
- BĂ©rĂ©nice Batut, « Ătude de lâĂ©volution rĂ©ductive des gĂ©nomes bactĂ©riens par expĂ©riences dâĂ©volution in silico et analyses bioinformatiques », Institut National des sciences appliquĂ©es de Lyon,â , p. 23-213 (lire en ligne)
- Lipman D. J. et Pearson W. R., « Rapid and sensitive protein similarity searches », Science,1985.227,â , p. 1435â1441
- Koonin EV et Galperin MY, « Sequence - Evolution - Function: Computational Approaches in Comparative Genomics-Chapter5:Genome Annotation and Analysis », NCBI-Boston: Kluwer Academic,â (lire en ligne)
- Altschul S.F., Gish W, Miller W, Myers E.W. et Lipman D.J., « Basic local alignment search tool », J. Mol.Biol.,â , p. 215, 403 - 410
- (en) PurificaciĂłn LĂłpez-GarcĂa et David Moreira, « Tracking microbial biodiversity through molecular and genomic ecology », Research in Microbiology, vol. 159, no 1,â , p. 67â73 (DOI 10.1016/j.resmic.2007.11.019)
- Catherine Matias, « II. GĂ©nomique comparative », CNRS - Laboratoire de ProbabilitĂ©s et ModĂšles AlĂ©atoires, Paris,â , p. 1 (lire en ligne)
- « Lâanalyse des gĂ©nomes complets » (consultĂ© en )
- « Algorithmes et programmes de comparaison de séquences Interprétation des résultats : E-value, P-value », 2001-2017 (consulté en )
- « Génomique : les méthodes de séquençage d'acides nucléiques et l'acquisition des données » (consulté en )
Algorithmes de comparaison des séquences génomiques
- « Génomique : les méthodes de séquençage d'acides nucléiques et l'acquisition des données », sur biochimej.univ-angers.fr, 2001-2017
- Kevin Wayne, « 6.Dynamic ProgrammingII,6.6-Hirschberg's Algorithm », 2005 Pearson-Addison Wesley,â , p. 1-50 (lire en ligne)
- Pearson W.R et Lipman D.J, « Improved tools for biological sequence comparison », Proc. Natl. Acad. Sci. USA. 85,â , p. 244
- « fam: multiple sequence alignments and HMM-profiles of protein domains », Nucleic Acids Res. 26,â , p. 320 - 322
Accélération matériel de la comparaison des séquences génomiques
- « multiple sequence alignments and HMM-profiles of protein domains" Nucleic Acids », Pfam,â , p. 320 - 322
- « Improved tools for biological sequence comparison », Proc. Natl. Acad. Sci.,â
- Souradip Sarkar,Turbo Majumder, Ananth Kalyanaraman, Partha Pratim Pande, « Hardware Accelerators for Biocomputing: A Survey », School Of Electrical Engineering and Computer Science,Washington State University, Pullman, USA,â , p. 3789-5036 (lire en ligne)
- Thomas B,PreuĂer and Oliver Knodel and Rainer G. Spallek, « Short-Read Mapping by a Systolic Custom FPGA Computation », IEEE ComputerSociety,â , p. 169 (DOI 10.1109/FCCM.2012.37)
- Isa M.N,K. Benkrid, T. Clayton, C. Ling, and A.T. Erdogan, « An FPGA-based Parameterised and Scalable, Optimal Solutions for Pairwise Biological Sequence Analysis », School of Engineering, The University of Edinburgh, Edinburgh,NASA/ESA Conference on Adaptive Hardware and Systems,â , p. 344
- Sidi Ahmed Mahmoudi,SĂ©bastien FrĂ©mal, Michel Bagein, Pierre Manneback, « Calcul intensif sur GPU:exemples en traitement dâimages, en bioinformatique et en tĂ©lĂ©communication », UniversitĂ© de Mons, FacultĂ© Polytechnique Service dâinformatique,â ***, p. 1
- SĂ©bastien F., « Conception et mise en Ćuvre dâalgorithmes de sĂ©lection de ressources dans un environnement informatique hĂ©tĂ©rogĂšne multiprocesseur », Rapport de Travail de Fin d'Etude,â , p. 2
- Schmidt B, H.Schroder, and M. Schimmler, « Massively parallel solutions for molecular sequence analysis », IPDPS,â
- Isa M.N,K. Benkrid, T. Clayton, C. Ling, and A.T. Erdogan, « An FPGA-based Parameterised and Scalable, Optimal Solutions for Pairwise Biological Sequence Analysis », School of Engineering, The University of Edinburgh, Edinburgh,NASA/ESA Conference on Adaptive Hardware and Systems,â , p. 344
- Souradip Sarkar,Turbo Majumder, Ananth Kalyanaraman, Partha Pratim Pande, « Hardware Accelerators for Biocomputing: A Survey », School Of Electrical Engineering and Computer Science,Washington State University, Pullman, USA,â , p. 3790 (lire en ligne)
- Guerdoux-Jamet P,D.Lavenier, « SAMBA: hardware accelerator for biological sequence comparison », IRISA, Campus de Beaulieu,â , p. 609-610 (DOI 10.1109/FCCM, lire en ligne)
- Naeem Abbas, « Acceleration of a bioinformatics application using high-level synthesis », Ăcole normale supĂ©rieure de Cachan - ENS Cachan,â , p. 36 (lire en ligne)
- Laiq HasanAl-Ars, « An Overview of Hardware-Based Acceleration of Biological Sequence Alignment », TU Delft The Netherlands,â ***, p. 189 (lire en ligne)
- JRobert D.Stevens, Alan J.Robinson et Carole A.Goble, « myGrid: personalised bioinformatics on the information grid », Revue Bioinformatics, vol. 19,â , i302-i304 (bioinformatics.oxfordjournals.org/content/19/suppl_1/i302.full.pdf)
- Naeem Abbas, « Acceleration of a bioinformatics application using high-level synthesis », Ăcole normale supĂ©rieure de Cachan - ENS Cachan,â , p. 1-3 (HAL tel-00847076/document)
- G.L. Zhang, P.H.W. Leong, C.H. Ho, K.H. Tsoi, C.C.C. Cheung, D.U. lee, R.C.C. Cheung et W. Luk, « Reconfigurable acceleration for Monte Carlo based financial simulation », Field-Programmable Technology, 2005. Proceedings. 2005 IEEE International Conference,â , p. 215-222 (ISBN 0-7803-9407-0, DOI 10.1109/FPT.2005.1568549id=1111, lire en ligne)
Historique
- W. Min Jou, G Haegeman, M Ysebaert et W Fiers, « Nucleotide Sequence of the Gene Coding for the Bacteriophage MS2 Coat Protein », Nature 237,Laboratory of Molecular Biology and Laboratory of Physiological Chemistry, State University of Ghent, Belgium,â , p. 82 - 88 (DOI 10.1038/237082a0, lire en ligne)
Autres Sources
- « Sequence - Evolution - Function: Computational Approaches in Comparative Genomics. » (consulté le )
- « alphabet de vingt lettres »
- Haruo Ikeda1, Jun Ishikawa, Akiharu Hanamoto, Mayumi Shinose, Hisashi Kikuchi, Tadayoshi Shiba,Yoshiyuki Sakaki, Masahira Hattori1,and Satoshi O ÂŻmura, « Complete genome sequence and comparative analysis of the industrial microorganism Streptomyces avermitilis », Researcharticle,â (DOI 10.1038/nbt820, lire en ligne)
- Valentin Wucher, « ModĂ©lisation dâun rĂ©seau de rĂ©gulation dâARN pour prĂ©dire des fonctions de gĂšnes impliques dans le mode de reproduction du puceron du pois », Submitted on 26 Mar 2015,â (HAL tel-01135870)
- « Classification et caractĂ©risation de familles enzymatiques a lâaide de mĂ©thodes formelles Gaelle Garet », Submitted on 2 Feb 2015,â (HAL tel-01096916v2)
- « Recherche de similaritĂ©s dans les sequences dâADN : modeles et algorithmes pour la conception de graines efficaces », DĂ©partement de formation doctorale en informatique Ăcole doctorale IAEM Lorraine UFR STMIA,â
- Thomas Derrien, « Lâanalyse comparĂ©e des gĂ©nomes : applications `a lâidentification de nouveaux gĂšnes canins. », Bio-informatique [q-bio.QM]. UniversitĂ© Rennes 1,â (HAL tel-00656330)
Voir aussi
- Séquence (acide nucléique)
- Séquençage de l'ADN
- Séquençage de l'ARN ou RNA-Seq
- SĂ©quenceur d'ADN
- Séquencement complet du génome (en)
- Bio-informaticien
- Biologie
- Biologie de synthĂšse
- Biotechnologie
- Informatique
- Nanotechnologie
- Nanotechnologies
- biotechnologies
- informatique et sciences cognitives
- NBIC
- Séquence (acide nucléique)
Organismes
Liens externes
- Questions à propos du séquençage du génome humain
- La bio-informatique : Annexe 2 (version archivée) (Le centre de ressources Infobiogen a cessé ses activités en )
- Société française de bioinformatique (SFBI ; société savante créée en 2005 par des chercheurs et enseignants-chercheurs en bio-informatique).
- Institut suisse de bioinformatique (ISB ; institut créé en 1998 pour regrouper les chercheurs en bio-informatique en Suisse).
- Bioinfo-fr (Bioinfo-fr.net ; Blog communautaire scientifique conçu par des bio-informaticien(ne)s francophones).
- JeBiF (JeBiF ; association des jeunes bio-informaticiens de France créée en 2008).
- Sélection de sites web sur la bio-informatique dans le répertoire encyclopédique : Les Signets de la BibliothÚque nationale de France