AccueilđŸ‡«đŸ‡·Chercher

Techniques de comparaison des génomes

L’alignement de sĂ©quences est une pratique fondamentale pour de nombreuses applications de biologie comme la dĂ©couverte de gĂšnes et l’analyse phylogĂ©nĂ©tique.

Une nouvelle discipline est Ă©galement nĂ©e de la connaissance de ces sĂ©quences complĂštes de chromosomes, la gĂ©nomique comparative. Il est maintenant possible de comparer deux organismes vivants Ă  l’échelle de leur gĂ©nome, de dĂ©terminer les gĂšnes qu’ils ont en commun ou qui leur sont propres. Dans le contexte de l’identification sĂ©lective de gĂšnes correspondant Ă  des cibles thĂ©rapeutiques, en comparant par exemple une bactĂ©rie pathogĂšne et une proche cousine non-pathogĂšne, on peut essayer de repĂ©rer les gĂšnes impliquĂ©s dans la virulence de la souche infectieuse. Ce nouveau domaine d’étude, traite les diffĂ©rents aspects de ce nouveau champ de la connaissance et s’appuie Ă  la fois sur les concepts de la biologie que sur des outils issus de la chimie, de la physique et de l’informatique.

L’accĂ©lĂ©ration du sĂ©quençage, permise en particulier par l'automatisation des mĂ©thodes d’analyse, nĂ©cessite un soutien de plus en plus important des technologies de l’informatique. Dans un premier stade, celui-ci est indispensable pour permettre l’assemblage de la « base de donnĂ©es » que constituent les milliers ou millions de fragments de gĂ©nome. L’informatique est un outil incontournable pour extraire et analyser l’information contenue dans ces gigabases (1 Gbase =10^9 nuclĂ©otides) de sĂ©quence. Le volume des donnĂ©es Ă  traiter est considĂ©rable. En 2002 les banques de sĂ©quences rassemblaient plus de 10^11 nuclĂ©otides et leur taille augmente exponentiellement. Les techniques d'accĂ©lĂ©ration des comparaisons de gĂ©nomes sont l’un des axes les plus importants en bio-informatique qui a pour but de remĂ©dier Ă  un problĂšme scientifique posĂ© par la biologie « faire ressortir les rĂ©gions ou sĂ©quences homologues ou diffĂ©rentes » ; on parle donc des mĂ©thodes de comparaison de deux ou plusieurs sĂ©quences de macromolĂ©cules biologiques (ADN, ARN ou protĂ©ines) les unes par rapport aux autres.

Analyse comparative des séquences génomiques

Dite aussi gĂ©nomique comparative, elle consiste en l'Ă©tude comparative des structures et fonctions des diffĂ©rents gĂ©nomes de diffĂ©rentes espĂšces en comparant une/des sĂ©quences gĂ©nomiques aux sĂ©quences d'autres gĂ©nomes, il s’agit donc de quantifier la similitude entre les sĂ©quences d'ADN/ProtĂ©ines puis dĂ©terminer l'information contenue dans ces portions de gĂ©nomes[1].

Les comparaisons peuvent se faire de multiples façons produisant différents types d'information[2] :

  • par alignement (que ce soit l'alignement d'une portion d'un gĂ©nome ou d'un gĂ©nome complet) ;
  • en comparant l'ordre de certains gĂšnes ;
  • en comparant la composition des sĂ©quences constituant le gĂšnes ;
  • etc.

DĂ©finitions

Séquençage

Le sĂ©quençage de gĂ©nome est l’un des champs d’application ou une sous-discipline de la bio-informatique, qui traite de l’analyse de donnĂ©es issues de l'information gĂ©nĂ©tique contenue dans la sĂ©quence de l'ADN ou dans celle des protĂ©ines qu'il code. Cette branche s'intĂ©resse en particulier Ă  l'identification des ressemblances entre les sĂ©quences, Ă  l'identification des gĂšnes ou de rĂ©gions biologiquement pertinentes dans l'ADN ou dans les protĂ©ines, en se basant sur l'enchaĂźnement ou sĂ©quence de leurs composants Ă©lĂ©mentaires (nuclĂ©otides,acides aminĂ©s)[3].

SĂ©quence

Une Séquence génomique est l'enchaßnement de molécules qui constituent une macromolécule, d'acide nucléique ou de protéine[4]. Elle est généralement représentée sous forme d'une chaßne de caractÚres stockée dans un fichier informatique au format texte utilisant (dans le cas d'une séquence d'ADN) l'alphabet des quatre lettres A, C, G et T, initiales des bases azotées - Adénine, Cytosine, Guanine et Thymine - qui distinguent les quatre types de nucléotides.

(en) SĂ©quence d'un ARN messager faisant apparaĂźtre ses codons.

Et c'est l'enchaßnement des vingt types d'acides aminés le long d'un polypeptide, classiquement représentée par une chaßne de caractÚres qui utilise un alphabet de vingt lettres dans le cas d'une séquence protéique[5].

Méthodes de séquençage

Plusieurs séquenceurs automatiques d'ADN

Analyse de séquences génomiques

AprĂšs la sĂ©lection d'un organisme, les projets gĂ©nomiques partent sur trois procĂ©dures: le sĂ©quençage de l'ADN, l'assemblage de cette sĂ©quence pour crĂ©er une reprĂ©sentation du chromosome original, ainsi que l'annotation et l'analyse de celle-ci. L'analyse exploratoire peut ĂȘtre conduite soit sur la base de rĂ©sultats expĂ©rimentaux soit par analogie avec des organismes modĂšles[11].

Les difficultĂ©s rĂ©sident dans La disponibilitĂ© des donnĂ©es gĂ©nomiques permettant de vĂ©rifier et/ou de tester beaucoup d'hypothĂšses et dans l’organisation de telle masses Ă©normes d'informations pour offrir un accĂšs aisĂ©, Ă  l'ensemble de la communautĂ© des chercheurs, aux informations dĂ©sirĂ©es. Cela a Ă©tĂ© rendu possible grĂące Ă  diffĂ©rentes bases de donnĂ©es, accessibles en lignes.

Cartographie du chromosome X humain (tirée du site internet du NCBI) ; l'assemblage du génome humain représente une des plus grandes réalisations de la bio-informatique.

À l'Ă©chelle mondiale, trois grandes institutions sont chargĂ©es de l'archivage de ces donnĂ©es : le NCBI aux États-Unis « Centre national 'amĂ©ricain' pour les informations biotechnologiques », l'Institut europĂ©en de bio-informatique (EBI) en Europe et le DDBJ au Japon « Banque de donnĂ©es gĂ©nĂ©tiques du Japon». Ces institutions se coordonnent pour gĂ©rer les grandes bases de donnĂ©es de sĂ©quences nuclĂ©otidiques comme GenBank ou l'EMBL database, ainsi que les bases de donnĂ©es de sĂ©quences protĂ©iques comme UniProt ou TrEMBL.

Alors il est indispensable parfois, pour les chercheurs, d’exprimer leur besoin de logiciels et/ou d'algorithmes et de nouveaux outils d'analyse de sĂ©quences pour l’étude d’un problĂšme donnĂ©, afin de pouvoir dĂ©terminer certaines propriĂ©tĂ©s, comme :

  • La recherche d'une sĂ©quence dans une banque de donnĂ©es Ă  partir d'une autre sĂ©quence ou d'un fragment de sĂ©quence. Les logiciels les plus frĂ©quemment utilisĂ©s sont de la famille BLAST (blastn, blastp, blastx, tblastx et leurs dĂ©rivĂ©s),
  • L'alignement de sĂ©quences pour trouver les ressemblances entre deux sĂ©quences et dĂ©terminer leurs Ă©ventuelles homologies. Les alignements sont Ă  la base de la construction de parentĂ©s suivant des critĂšres molĂ©culaires, ou encore de la reconnaissance de motifs particuliers dans une protĂ©ine Ă  partir de la sĂ©quence de celle-ci,
  • La recherche de motifs ou structures qui permettent de caractĂ©riser les sĂ©quences,
  • , etc.

Pour qu’ensuite, dĂ©velopper des Recherches sur les protĂ©ines Ă  partir de la traduction de sĂ©quences nuclĂ©iques connues [12].

Comparaison de séquences

Dans la plupart des cas, le problĂšme auquel l'utilisateur est confrontĂ© est formalisĂ© comme suit: une nouvelle sĂ©quence est disponible et il est souhaitable de rechercher dans la base de donnĂ©es et de savoir si un ou des proches parents de cette sĂ©quence ont dĂ©jĂ  Ă©tĂ© signalĂ©s. Si oui, on peut dĂ©duire par comparaison quelques-unes des donnĂ©es expĂ©rimentales recueillies de cette façon Ă  la nouvelle sĂ©quence. Dans un tel cas, la solution consiste Ă  comparer les sĂ©quences d'intĂ©rĂȘt Ă  toutes les sĂ©quences contenues dans la base de donnĂ©es, en gardant la trace de la plus semblable[13]. Deux outils trĂšs populaires Sont utilisĂ©s pour effectuer de telles recherches de similaritĂ© de base dans une base de donnĂ©es: FASTA et BLAST[14] - [15] - [16]. C'est par exemple l'une des idĂ©es dĂ©veloppĂ©es dans la base de donnĂ©es PROSITE [16].

Alignement de séquences

Quand on parle de la comparaison de sĂ©quences on parle de l’Alignement qui est le processus par lequel deux ou plusieurs sĂ©quences sont comparĂ©es afin d'obtenir le plus de correspondances possibles entre les lettres qui les composent.

Les différents alignements sont :

  • L'alignement local : consiste en l’alignement des sĂ©quences sur une partie de leur longueur,
  • L'alignement global : consiste en l’alignement des sĂ©quences sur toute leur longueur,
  • L'alignement optimal : consiste en l’alignement des sĂ©quences qui produit le plus haut score possible,
  • L'alignement multiple : consiste en l’alignement global de trois sĂ©quences ou plus Ă  la fois,
  • BrĂšches ou gap : c’est un espace artificiel introduit dans une sĂ©quence pour contre-balancer et matĂ©rialiser une insertion dans une autre sĂ©quence. Il permet d'optimiser l'alignement entre les sĂ©quences[17] - [18].

Annotation

L'annotation des gĂ©nomes est une analyse informatique des sĂ©quences obtenues lors du sĂ©quençage permettant d'identifier les sĂ©quences informatives des gĂ©nomes. Ces sĂ©quences sont principalement les gĂšnes, on parle alors de prĂ©diction de gĂšnes. La plupart de ceux-ci sont identifiĂ©s soit par leur similitude avec des gĂšnes dĂ©jĂ  connus, soit par une prĂ©diction en fonction de la sĂ©quence c'est-Ă -dire: prĂ©sence d'un cadre de lecture ouvert caractĂ©risĂ©e par un codon d'initiation de la traduction, puis au moins 100 codons et enfin un codon stop. Mais il existe aussi des « gĂšnes morcelĂ©s » ou codons des ARN fonctionnels, ceux-ci doivent ĂȘtre prĂ©dits par des algorithmes diffĂ©rents.

Les gÚnes ne sont pas les seules cibles de l'annotation des génomes, il existe de nombreux autres types de séquences importantes dans les génomes, les séquences régulatrices, les éléments transposables, etc.[4] - [19]

Objectif du séquençage et de la comparaison des séquences génomiques

Le sĂ©quençage du gĂ©nome est une Ă©tape importante vers sa comprĂ©hension et la sĂ©quence du gĂ©nome peut ĂȘtre considĂ©rĂ©e comme un raccourci du chemin aidant les scientifiques Ă  trouver des gĂšnes beaucoup plus facilement et rapidement. Une sĂ©quence gĂ©nomique peut contenir mĂȘme des indices sur l'endroit oĂč se trouvent les gĂšnes, comprendre comment le gĂ©nome dans son ensemble fonctionne et comment les gĂšnes travaillent ensemble pour diriger la croissance, le dĂ©veloppement et le maintien d'un organisme entier[4],

En mĂ©decine, elle peut ĂȘtre utilisĂ©e pour identifier, diagnostiquer et potentiellement trouver des traitements Ă  des maladies gĂ©nĂ©tiques, en observant les mutations temporelles qui peuvent avoir des incidents sur les protĂ©ines et donc leurs rĂŽles (rĂŽles des protĂ©ines/fonction des protĂ©ines) et voir aussi dans quel gĂšne elles apparaissent, permet d’induire les dysfonctionnements, identification des gĂšnes spĂ©cifique Ă  une espĂšce (PathogĂ©nicitĂ©, ...), retrouver des rĂ©gions de syntĂ©nie (conservation de l'ordre de gĂšnes homologues dans le gĂ©nome d’espĂšces diffĂ©rentes)[20].

La comparaison de séquences est la tùche informatique la plus utilisée par les biologistes. Il s'agit de déterminer dans quelle mesure deux séquences, génomiques ou protéiques, se ressemblent.

La motivation premiĂšre est d'infĂ©rer des connaissances sur une sĂ©quence Ă  partir des connaissances attachĂ©es Ă  une autre. Ainsi, si deux sĂ©quences sont trĂšs similaires et si l'une est connue pour ĂȘtre codante, l'hypothĂšse que la seconde le soit aussi peut ĂȘtre avancĂ©e. De mĂȘme, si deux sĂ©quences protĂ©iques sont similaires, il est souvent fait l'hypothĂšse que les protĂ©ines correspondantes assument des fonctions semblables ; si la fonction de l'une est connue, la fonction de la seconde peut ainsi s'en dĂ©duire.

Un biologiste qui détient une nouvelle séquence s'intéresse en premier temps à parcourir ces bases de données, à fin de trouver les séquences similaires et de faire hériter à la nouvelle séquence les connaissances qui leur sont associées. C'est également en comparant des séquences de génomes d'espÚces actuelles qu'il est possible de reconstruire un arbre phylogénétique qui rend compte de l'histoire évolutive.

Il existe plusieurs bases de données qui contiennent l'ensemble des séquences nucléiques publiques avec leurs annotations (par exemple GenBank), ou l'ensemble des séquences protéiques expertisées (SwissProt)[5].

Profits tirés de la comparaison des génomes

En médecine
  • Aide Ă  la crĂ©ation de nouveaux mĂ©dicaments (prĂ©diction de structure, d'interactions).

La greffe d'organes (ou transplantation d'organes) a pour but de remplacer un organe dĂ©faillant par un organe sain (cƓur, foi , etc.) en cas de provenance externe, c'est-Ă -dire qu'il y a un donneur en question et on parle donc de l'allogreffe non pas de l'autogreffe,

  • Recherche dans un laboratoire (entreprise publique, biotechs, pharmaceutique, , etc.).
  • Aide Ă  la crĂ©ation de tests et de systĂšmes de diagnostics destinĂ©s aux laboratoires d'analyses mĂ©dicales, aux centres de transfusion sanguine et aux laboratoires de contrĂŽle industriel, estimation de la probabilitĂ© et la rapiditĂ© de propagation des maladies.
En science
  • Étudier et dĂ©duire les diffĂ©rences entre les fonctionnements des cellules des diffĂ©rentes espĂšces,
  • Étudier et comprendre l’ĂȘtre vivant[21].
En informatique
  • DĂ©veloppement de logiciels pour l'analyse et prĂ©diction de donnĂ©es biologiques (gĂ©nomique, transcriptomique, protĂ©omique, etc.), par exemple la prĂ©diction de gĂšnes,
  • DĂ©veloppement de logiciels pour la biologie : (LIMS, interface web, , etc..),
  • Adaptation de technologies informatiques au domaine de la biologie,
  • Nouvelle Ă©tude : reconstruction phylogĂ©nĂ©tique[22].

Algorithmes de comparaison des séquences génomiques

MĂ©thodes de programmation dynamique

L'Algorithme Needleman-Wunsch est utilisé pour obtenir l'alignement global de deux séquences protéiques ou d'acides nucléiques et l'algorithme de Smith et Waterman est utilisé pour obtenir l'alignement local de deux séquences protéiques ou d'acides nucléiques[23].

En informatique, l'algorithme de Hirschberg (en), baptisé d'aprÚs son inventeur, Dan Hirschberg (en), est un algorithme de programmation dynamique qui trouve l'alignement optimal de séquences entre deux chaßnes. L'optimalité est mesurée à l'aide de la distance de Levenshtein, définie comme étant la somme des coûts des insertions, des remplacements, des suppressions et des actions nulles nécessaires pour changer une chaßne par une autre. L'algorithme de Hirschberg est simplement décrit comme une version concurrente de l'algorithme Needleman-Wunsch[24]. Et il est couramment utilisé en bio-informatique pour trouver des alignements globaux maximaux de séquences d'ADN et de protéines.

MĂ©thodes heuristiques

Ce sont des mĂ©thodes qui recherchent des similitudes dans une base de sĂ©quences[Note 5]. Les programmes des familles Fasta et BLAST sont des heuristiques qui rĂ©duisent le facteur temps en se basant sur l’idĂ©e de filtrage. Les deux simplifient le problĂšme :

  • en prĂ©-sĂ©lectionnant les sĂ©quences de la banque susceptibles de prĂ©senter une similaritĂ© significative avec la sĂ©quence requĂȘte,
  • et en localisant les rĂ©gions potentiellement similaires dans les sĂ©quences.

Ces étapes sélectives permettent :

  • de n'appliquer les mĂ©thodes de comparaison, coĂ»teuses en temps, qu'Ă  un sous-ensemble des sĂ©quences de la banque,
  • et de restreindre le calcul de l'alignement optimal Ă  des parties des sĂ©quences[18].

Le Programme FASTA[25] - [15] - [Note 6] ne considÚre que les séquences présentant une région de forte similitude avec la séquence recherchée. Il applique ensuite localement à chacune de ces meilleures zones de ressemblance un algorithme d'alignement optimal. La codification numérique des séquences, c'est-à-dire la décomposition de la séquence en courts motifs [Note 7] transcodés en entiers, confÚre à l'algorithme l'essentiel de sa rapidité.

Les programmes BLAST[15] - [Note 6] « Recherche de RĂ©gions de SimilaritĂ© Locales » sont une mĂ©thode heuristique qui utilise la mĂ©thode de Smith & Waterman. C'est un programme qui effectue un alignement local entre deux sĂ©quences nuclĂ©iques ou protĂ©iques. La rapiditĂ© de BLAST permet la recherche des similaritĂ©s entre une sĂ©quence requĂȘte et toutes les sĂ©quences d'une base de donnĂ©es.

MĂ©thode d’apprentissage machine

L'apprentissage machine ou l'apprentissage automatique est un processus par lequel un ordinateur accroßt ses connaissances et modifie son comportement à la suite de ses expériences et de ses actes passés. Cette méthode consiste en la conception, l'analyse, le développement et l'implémentation de méthodes permettant à une machine de réaliser des tùches difficiles que les algorithmiques classiques ne peuvent réaliser. Parmi les méthodes d'apprentissage machine :

Elles sont applicables dans plusieurs domaines tel que: la reconnaissance d'objets (visages, schémas, langages naturels, écriture, formes syntaxiques
) ; moteurs de recherche ; aide aux diagnostics, médical notamment, bio-informatique, chémoinformatique, , etc.

Accélération matérielle de la comparaison des séquences génomiques

Matériels de comparaison

Le traitement des donnĂ©es pour les applications de bio-informatique se fait actuellement par des logiciels, ce qui prend souvent beaucoup de temps, mĂȘme aligner quelques centaines de sĂ©quences Ă  l'aide d'outils d'alignement multiple consomme plusieurs heures CPU sur des postes de travail ultramodernes. L'analyse de sĂ©quences Ă  grande Ă©chelle, qui implique souvent des dizaines de millions de sĂ©quences, est devenue un pilier, ainsi qu'un des principaux goulets d'Ă©tranglement dans la voie de la dĂ©couverte scientifique. Le domaine de bio-informatique molĂ©culaire hĂ©berge Ă©galement un ensemble d'applications Ă  forte intensitĂ© de calcul dans lesquelles les problĂšmes sous-jacents sont prouvĂ©s ĂȘtre intraitables en calcul (par exemple le calcul des arbres phylogĂ©nĂ©tiques, le repliement des protĂ©ines)[27].

En outre, des techniques de sĂ©quençage d'ADN Ă  haut dĂ©bit, qui ont permis de grandes avancĂ©es (sĂ©quençage complet du gĂ©nome humain, projet d'annotation du gĂ©nome des plantes) sont apparues. D’une autre vision ces progrĂšs se sont traduits par le grand volume de donnĂ©es gĂ©nomiques (ADN, protĂ©ines) disponibles pour la communautĂ©, et qui est interprĂ©tĂ© par l'Ă©volution des banques NCBI GenBank (pour l’ADN) UniProt (pour les protĂ©ines).

Les chercheurs se voient confrontĂ©s Ă  un grand dĂ©fi qui est l’extraction d’informations utiles Ă  la comprĂ©hension de phĂ©nomĂšnes biologiques, de ces volumes de donnĂ©es innombrables. Les outils classiques utilisĂ©s en bio-informatique ne sont pas conçus pour fonctionner sur de telles masses de donnĂ©es, et les volumes de calculs mis en jeu dans ces outils d'analyses sont devenus trop importants au point de devenir un goulot d'Ă©tranglement mĂȘme pour les solutions offertes par l’informatique.

De nombreux travaux se sont donc intéressés à l'utilisation de machines parallÚles pour réduire ces temps de calcul ; on parle alors de l'utilisation d'accélérateurs matériels spécialisés à base de logique programmable avec la possibilité de profiter des capacités d'accélération trÚs élevées à consommation électrique réduite et des coûts de maintenance trÚs raisonnables [28].

Pour accĂ©lĂ©rer les mĂ©thodes d'alignement des sĂ©quences, elles sont mises en Ɠuvre sur diverses plates-formes matĂ©rielles disponibles[29], qui promettent un gain de performance Ă©norme[30]. Et plusieurs accĂ©lĂ©rateurs matĂ©riels ont Ă©tĂ© proposĂ©s dont : SAMBA, FPGA, les GPU, les CPU, et ASIC[29].

GPU

SpĂ©cialisĂ©s pour des traitements synchrones de grosses quantitĂ©s de donnĂ©es, les GPUs possĂšdent nativement une structure de cƓurs massivement parallĂšle et offrent des puissances brutes de calcul largement supĂ©rieures aux processeurs[31]. Dans le domaine de la bio-informatique, les GPUs sont aussi prisĂ©s pour le traitement des sĂ©quences ADN. Avec quelques milliards de nuclĂ©otides, les GPUs permettent de rĂ©duire significativement les temps de traitements algorithmiques de ces chaĂźnes, notamment pour les tris de trĂšs gros volumes de donnĂ©es (tris par base)[32].

FPGA

Les tendances récentes de la technologie informatique ont connu une progression rapide, comme les FPGA.

La mise en Ɠuvre de la bio-informatique liĂ©e au FPGA et des applications de calculs en biologie est largement abordĂ©e [33].

L'augmentation de la densitĂ© et de la vitesse des circuits FPGA a ainsi favorisĂ© l'Ă©mergence d'accĂ©lĂ©rateurs matĂ©riels reconfigurables orientĂ©s vers le domaine du calcul haute performance (HPC), avec plusieurs applications comme le calcul financier[34], grĂące Ă  sa fonctionnalitĂ© re-programmable, des dĂ©veloppements de diverses applications biologiques sont possibles sur la mĂȘme puce de silicium[29].

Ainsi ils se sont avĂ©rĂ©s ĂȘtre des architectures matĂ©rielles bien adaptĂ©es Ă  la mise en Ɠuvre de traitements de type bio-informatique[35].

La mise en Ɠuvre FPGA utilise Xilinx Virtex II XC2V6000, une plate-forme pouvant accueillir 92 Ă©lĂ©ments de traitement avec une vitesse d'horloge maximale de 34 MHz[27]. Et sur les pĂ©riphĂ©riques FPGA, la complexitĂ© d'une opĂ©ration dĂ©termine directement la quantitĂ© consommĂ©e, de la surface de la puce [30].

ASIC

Un composant ASIC [Note 10] « circuit intĂ©grĂ© propre Ă  une application » est une puce dĂ©diĂ©e Ă  une seule fonction (ou Ă  une classe restreinte de fonctions). Une fois conçu et fabriquĂ©, il ne peut pas ĂȘtre modifiĂ©.

Dans les systÚmes ASIC dédiés pour la comparaison de séquences, le calcul est généralement effectué par un réseau linéaire de processeurs ASIC identiques. La performance maximale de ces machines est impressionnante car tous les processeurs (quelques centaines) travaillent simultanément et de maniÚre synchrone. La machine BioSCAN et la machine BISP appartiennent à cette catégorie. La puissance de calcul de ces machines dépend directement de la vitesse d'horloge et du nombre de processeurs[36].

En termes de vitesse, Il est reconnu qu'un ASIC est typiquement, 3 à 10 fois, plus rapide qu'un FPGA. Ainsi, on peut conclure que généralement les FPGAs peuvent fournir plus de vitesse que les processeurs, mais ne réalisent guÚre mieux les traitements que les ASIC. Le coût initial de conception et de production d'une unité FPGA est beaucoup plus faible que pour un ASIC, puisque le coût d'ingénierie non récurrente (NRE) d'un ASIC peut atteindre des millions de dollars. NRE représente le coût ponctuel correspondant à la conception et au test d'une nouvelle puce[37].

SAMBA

Le systĂšme SAMBA appartient Ă  la catĂ©gorie ASIC, car le cƓur du systĂšme est une matrice de processeurs VLSI dĂ©diĂ©e, mais le systĂšme complet contient une interface de mĂ©moire FPGA. Le rĂ©seau est connectĂ© au poste de travail hĂŽte par l'intermĂ©diaire d'une carte mĂ©moire FPGA qui agit comme un contrĂŽleur de rĂ©seau et un mĂ©canisme Ă  grande vitesse pour alimenter correctement le rĂ©seau et filtrer les rĂ©sultats Ă  la volĂ©e.

La matrice du prototype SAMBA est composée de 32 puces identiques personnalisées, qui abritent chacune quatre processeurs, aboutissant à une matrice de processeurs. La puce a été conçue à IRISA et fournit une puissance de calcul de 400 millions d'opérations par seconde. Par conséquent, la matrice est capable d'atteindre 12,8 milliards d'opérations par seconde[36].

Processeurs

Les processeurs sont des architectures bien connues, souples et Ă©volutives. En exploitant la rĂ©partition d'instructions SIMD extension de SSE montĂ©e sur les processeurs modernes, le temps de rĂ©alisation des analyses diminue de façon significative, ce qui rend les analyses de problĂšmes de donnĂ©es intensives, comme l'alignement des sĂ©quences, rĂ©alisables. De plus, les technologies Ă©mergentes du processeur comme le multi-cƓur combinent deux processeurs indĂ©pendants ou plus.

Le paradigme du flux de donnĂ©es de multiples instructions simples(SIMD)[Note 11] est fortement utilisĂ© dans cette classe de processeurs, ce qui le rend appropriĂ© pour les applications parallĂšles de donnĂ©es comme l'alignement des sĂ©quences. SIMD dĂ©crit des processeurs avec plusieurs Ă©lĂ©ments de traitement qui effectuent la mĂȘme opĂ©ration sur plusieurs donnĂ©es simultanĂ©ment[38].

Historique

L'essor de cette discipline a Ă©tĂ© facilitĂ© par le dĂ©veloppement des techniques de sĂ©quençage des gĂ©nomes et la bio-informatique. En 1869, le Suisse Friedrich Miescher isole une substance riche en phosphore dans le noyau des cellules, qu'il nomme nuclĂ©ine (le noyau). En 1896, l'Allemand Albrecht Kossel dĂ©couvre dans l'acide nuclĂ©ique les 4 bases azotĂ©es A, C, T, G. En 1928, Phoebus Levene et Walter Abraham Jacobs (en) (États-Unis) identifient le dĂ©soxyribose, et depuis 1935, on parle d'Acide dĂ©soxyribonuclĂ©ique.

En 1944, l'américain Oswald Avery découvre que l'ADN est responsable de la transformation génétique des bactéries. Et certains scientifiques n'abandonnent pas l'idée que les protéines puissent porter l'information génétique.

Les expĂ©riences de Hershey et Chase confirment en 1952 l’hypothĂšse de l’ADN comme porteur de l'information gĂ©nĂ©tique. En 1953 est publiĂ© dans Nature, par James Watson et Francis Crick une Ă©tude sur la structure de l'ADN en double hĂ©lice, grĂące Ă  la technique de diffraction des rayons X sur des cristaux de l'ADN, rendue possible par le travail de Rosalind Elsie Franklin.

Entre 1961 et 1965 le code gĂ©nĂ©tique a Ă©tĂ© dĂ©chiffrĂ© « trois bases codent un acide aminĂ© » (d'aprĂšs la suggestion de George Gamow et l'expĂ©rience de Crick, Brenner et al., Philip Leder). Il fallait travailler et chercher plusieurs annĂ©es avant de pouvoir obtenir la premiĂšre sĂ©quence de l’ADN,

En 1972, le premier vĂ©ritable sĂ©quençage d'un gĂ©nome est publiĂ©, avec la lecture de la sĂ©quence ARN du gĂšne du virus BactĂ©riophage MS2[39]. Le projet de sĂ©quençage du gĂ©nome humain (HGP)[Note 12] est un projet international lancĂ© en 1990 aux États-Unis et coordonnĂ© par l'Institut national de sentĂ© (NIH)[Note 13] et par le dĂ©partement de l'Énergie [Note 14],

Craig Venter en 1998 annonce la crĂ©ation de l’entreprise Celera Genomics, en partenariat avec la multinationale PerkinElmer, spĂ©cialisĂ©e en Ă©lectronique et leader mondial de l’équipement d’analyse de l’ADN. Cette mĂȘme annĂ©e, le HGP publie le GeneMap’98 qui contient 30 000 marqueurs.

En 1999, un premier chromosome humain est sĂ©quencĂ© par une Ă©quipe coordonnĂ©e par le centre Sanger, en Grande-Bretagne. En , Celera Genomics annonce qu’elle dĂ©tient dans sa banque de donnĂ©es 97 % des gĂšnes humains, et propose les premiers rĂ©sultats du sĂ©quençage total du gĂ©nome humain. Et dans la mĂȘme annĂ©e, le HGP annonce 90 % du sĂ©quençage du gĂ©nome humain. Les Ă©quipes scientifiques l'ont mĂ©diatisĂ©e par la compĂ©tition entre eux qui les a fait publier la premiĂšre carte du gĂ©nome humain, le Ă  la fin du XXe siĂšcle par Bill Clinton et Tony Blair.

En , les séquences du génome humain sont publiées par Nature (résultats du consortium public) et par Science (résultats de Celera Genomics).

Le , la fin du séquençage du génome humain est annoncée. Depuis, le séquençage évolue et le nombre de génomes complets séquencés.

En septembre 2007, une Ă©quipe menĂ©e par le biologiste et entrepreneur Craig Venter a publiĂ© le premier gĂ©nome complet d'un individu qui est de Craig Venter lui-mĂȘme.

Notes

  1. De l'anglais : Next Generation Sequencing.
  2. De l'anglais High-Throughput Sequencing.
  3. en: Next-Next Generation Sequencing.
  4. en: Single Molecule Sequencing.
  5. base de données génomiques ou banque de données.
  6. Basic Local Alignement Search Tool.
  7. nommés uplets.
  8. support vector machine.
  9. Algorithme Expectation Maximisation.
  10. Application Spécificité Integrated Circuit.
  11. Single Instruction Multiple Data-Stream.
  12. HGP = Human Genome Project.
  13. NIH = le National Institute of Health.
  14. Department of Energy.

Références

Bibliographie

Analyse comparative des séquences génomiques

  • Equipe Bonsai, « Cours d'introduction Ă  la bioinformatique et de prĂ©sentation des banques de sĂ©quences.1Ăšre partie », Bioinformatique et donnĂ©es biologiques,‎ , p. 16 (lire en ligne)
  • Equipe Bonsai, « Cours d'introduction Ă  la bioinformatique et de prĂ©sentation des banques de sĂ©quences.1Ăšre partie », Bioinformatique et donnĂ©es biologiques,‎ , p. 74 (lire en ligne)
  • Equipe Bonsai, « Cours d'introduction Ă  la bioinformatique et de prĂ©sentation des banques de sĂ©quences.1Ăšre partie », Bioinformatique et donnĂ©es biologiques,‎ , p. 15 (lire en ligne)
  • Lilian T. C. Franca, Emanuel Carrilho et Tarso B. L. Kist, « A review of DNA sequencing techniques », Cambridge University Press,‎ , p. 169–200 (DOI 10.1017/S0033583502003797, lire en ligne)
  • Jean-Baptiste Waldner, « Nano-informatique et Intelligence Ambiante - Inventer l'Ordinateur du XXIe SiĂšcle », Hermes Science,‎ , p. 121 (ISBN 2-7462-1516-0)
  • Thomas Derrien, « L'analyse comparĂ©e des gĂ©nomes : applications Ă  l'identification de nouveaux gĂšnes canins », Bio-informatique [q-bio.QM]. UniversitĂ© Rennes 1, 2007.,‎ , p. 2 (ISBN 2-7462-1516-0, HAL tel-00656330)
  • J. Craig Venter, « Genome Sequencing », Genome News Network is an editorially independent online,2000 - 2004 J. Craig Venter Institute.,‎ (lire en ligne)
  • François Rechenmann, « Alignement optimal et comparaison de sĂ©quences gĂ©nomiques et protĂ©iques », l'Ă©quipe-projet IBIS,Explorez les sciences du numĂ©rique,‎ (lire en ligne)
  • F Sanger, G.M Air, B.G. Barrell, N.L. Brown, A.R. Coulson, C.A. Fiddes, C.A. Hutchison, P.M. Slocombe et M. Smith, « Nucleotide sequence of bacteriophage phi X174 DNA », Nature, vol. 265,‎ , p. 687-695 (PMID 870828)
  • Jonathan Pevsner, « Bioinformatics and functional genomics », Hoboken, N.J, Wiley-Blackwell, vol. 265,‎ , p. 3-11 (ISBN 9780470085851, DOI 10.1002/9780470451496, lire en ligne)
  • L.M. Smith, J.Z. Sanders, R.J. Kaiser, P. Hughes, C. Dodd, C.R. Conneell, C. Heiner, S.B. Kent et L.E. Hood, « Fluorenscence detection in automated DNA sĂ©quence analysis », Nature, vol. 321,‎ , p. 674-679 (PMID 3713851)
  • CĂ©dric Notredame, « Use of genetic Algorithm for analysis of Biological Sequences », UniversitĂ© Paul Sabatier France, 2nd,‎ , p. 15 (lire en ligne)
  • Bairoch A, Bucher P et Hofmann K, « The Prosite database », Nucleic Acids Research,‎ , p. 21-217
  • BĂ©rĂ©nice Batut, « Étude de l’évolution rĂ©ductive des gĂ©nomes bactĂ©riens par expĂ©riences d’évolution in silico et analyses bioinformatiques », Institut National des sciences appliquĂ©es de Lyon,‎ , p. 23-213 (lire en ligne)
  • Lipman D. J. et Pearson W. R., « Rapid and sensitive protein similarity searches », Science,1985.227,‎ , p. 1435−1441
  • Koonin EV et Galperin MY, « Sequence - Evolution - Function: Computational Approaches in Comparative Genomics-Chapter5:Genome Annotation and Analysis », NCBI-Boston: Kluwer Academic,‎ (lire en ligne)
  • Altschul S.F., Gish W, Miller W, Myers E.W. et Lipman D.J., « Basic local alignment search tool », J. Mol.Biol.,‎ , p. 215, 403 - 410
  • (en) PurificaciĂłn LĂłpez-GarcĂ­a et David Moreira, « Tracking microbial biodiversity through molecular and genomic ecology », Research in Microbiology, vol. 159, no 1,‎ , p. 67–73 (DOI 10.1016/j.resmic.2007.11.019)
  • Catherine Matias, « II. GĂ©nomique comparative », CNRS - Laboratoire de ProbabilitĂ©s et ModĂšles AlĂ©atoires, Paris,‎ , p. 1 (lire en ligne)
  • « L’analyse des gĂ©nomes complets » (consultĂ© en )
  • « Algorithmes et programmes de comparaison de sĂ©quences InterprĂ©tation des rĂ©sultats : E-value, P-value », 2001-2017 (consultĂ© en )
  • « GĂ©nomique : les mĂ©thodes de sĂ©quençage d'acides nuclĂ©iques et l'acquisition des donnĂ©es » (consultĂ© en )

Algorithmes de comparaison des séquences génomiques

Accélération matériel de la comparaison des séquences génomiques

  • « multiple sequence alignments and HMM-profiles of protein domains" Nucleic Acids », Pfam,‎ , p. 320 - 322
  • « Improved tools for biological sequence comparison », Proc. Natl. Acad. Sci.,‎
  • Souradip Sarkar,Turbo Majumder, Ananth Kalyanaraman, Partha Pratim Pande, « Hardware Accelerators for Biocomputing: A Survey », School Of Electrical Engineering and Computer Science,Washington State University, Pullman, USA,‎ , p. 3789-5036 (lire en ligne)
  • Thomas B,Preußer and Oliver Knodel and Rainer G. Spallek, « Short-Read Mapping by a Systolic Custom FPGA Computation », IEEE ComputerSociety,‎ , p. 169 (DOI 10.1109/FCCM.2012.37)
  • Isa M.N,K. Benkrid, T. Clayton, C. Ling, and A.T. Erdogan, « An FPGA-based Parameterised and Scalable, Optimal Solutions for Pairwise Biological Sequence Analysis », School of Engineering, The University of Edinburgh, Edinburgh,NASA/ESA Conference on Adaptive Hardware and Systems,‎ , p. 344
  • Sidi Ahmed Mahmoudi,SĂ©bastien FrĂ©mal, Michel Bagein, Pierre Manneback, « Calcul intensif sur GPU:exemples en traitement d’images, en bioinformatique et en tĂ©lĂ©communication », UniversitĂ© de Mons, FacultĂ© Polytechnique Service d’informatique,‎ ***, p. 1
  • SĂ©bastien F., « Conception et mise en Ɠuvre d’algorithmes de sĂ©lection de ressources dans un environnement informatique hĂ©tĂ©rogĂšne multiprocesseur », Rapport de Travail de Fin d'Etude,‎ , p. 2
  • Schmidt B, H.Schroder, and M. Schimmler, « Massively parallel solutions for molecular sequence analysis », IPDPS,‎
  • Isa M.N,K. Benkrid, T. Clayton, C. Ling, and A.T. Erdogan, « An FPGA-based Parameterised and Scalable, Optimal Solutions for Pairwise Biological Sequence Analysis », School of Engineering, The University of Edinburgh, Edinburgh,NASA/ESA Conference on Adaptive Hardware and Systems,‎ , p. 344
  • Souradip Sarkar,Turbo Majumder, Ananth Kalyanaraman, Partha Pratim Pande, « Hardware Accelerators for Biocomputing: A Survey », School Of Electrical Engineering and Computer Science,Washington State University, Pullman, USA,‎ , p. 3790 (lire en ligne)
  • Guerdoux-Jamet P,D.Lavenier, « SAMBA: hardware accelerator for biological sequence comparison », IRISA, Campus de Beaulieu,‎ , p. 609-610 (DOI 10.1109/FCCM, lire en ligne)
  • Naeem Abbas, « Acceleration of a bioinformatics application using high-level synthesis », École normale supĂ©rieure de Cachan - ENS Cachan,‎ , p. 36 (lire en ligne)
  • Laiq HasanAl-Ars, « An Overview of Hardware-Based Acceleration of Biological Sequence Alignment », TU Delft The Netherlands,‎ ***, p. 189 (lire en ligne)
  • JRobert D.Stevens, Alan J.Robinson et Carole A.Goble, « myGrid: personalised bioinformatics on the information grid », Revue Bioinformatics, vol. 19,‎ , i302-i304 (bioinformatics.oxfordjournals.org/content/19/suppl_1/i302.full.pdf)
  • Naeem Abbas, « Acceleration of a bioinformatics application using high-level synthesis », École normale supĂ©rieure de Cachan - ENS Cachan,‎ , p. 1-3 (HAL tel-00847076/document)
  • G.L. Zhang, P.H.W. Leong, C.H. Ho, K.H. Tsoi, C.C.C. Cheung, D.U. lee, R.C.C. Cheung et W. Luk, « Reconfigurable acceleration for Monte Carlo based financial simulation », Field-Programmable Technology, 2005. Proceedings. 2005 IEEE International Conference,‎ , p. 215-222 (ISBN 0-7803-9407-0, DOI 10.1109/FPT.2005.1568549id=1111, lire en ligne)

Historique

  • W. Min Jou, G Haegeman, M Ysebaert et W Fiers, « Nucleotide Sequence of the Gene Coding for the Bacteriophage MS2 Coat Protein », Nature 237,Laboratory of Molecular Biology and Laboratory of Physiological Chemistry, State University of Ghent, Belgium,‎ , p. 82 - 88 (DOI 10.1038/237082a0, lire en ligne)

Autres Sources

  • « Sequence - Evolution - Function: Computational Approaches in Comparative Genomics. » (consultĂ© le )
  • « alphabet de vingt lettres »
  • Haruo Ikeda1, Jun Ishikawa, Akiharu Hanamoto, Mayumi Shinose, Hisashi Kikuchi, Tadayoshi Shiba,Yoshiyuki Sakaki, Masahira Hattori1,and Satoshi O ÂŻmura, « Complete genome sequence and comparative analysis of the industrial microorganism Streptomyces avermitilis », Researcharticle,‎ (DOI 10.1038/nbt820, lire en ligne)
  • Valentin Wucher, « ModĂ©lisation d’un rĂ©seau de rĂ©gulation d’ARN pour prĂ©dire des fonctions de gĂšnes impliques dans le mode de reproduction du puceron du pois », Submitted on 26 Mar 2015,‎ (HAL tel-01135870)
  • « Classification et caractĂ©risation de familles enzymatiques a l’aide de mĂ©thodes formelles Gaelle Garet », Submitted on 2 Feb 2015,‎ (HAL tel-01096916v2)
  • « Recherche de similaritĂ©s dans les sequences d’ADN : modeles et algorithmes pour la conception de graines efficaces », DĂ©partement de formation doctorale en informatique École doctorale IAEM Lorraine UFR STMIA,‎
  • Thomas Derrien, « L’analyse comparĂ©e des gĂ©nomes : applications `a l’identification de nouveaux gĂšnes canins. », Bio-informatique [q-bio.QM]. UniversitĂ© Rennes 1,‎ (HAL tel-00656330)

Voir aussi

Organismes

Liens externes

Cet article est issu de wikipedia. Text licence: CC BY-SA 4.0, Des conditions supplĂ©mentaires peuvent s’appliquer aux fichiers multimĂ©dias.