AccueilđŸ‡«đŸ‡·Chercher

Score de qualité phred

Les scores de qualité phred (aussi appelé scores phred) ont été originellement développés pour le programme Phred afin d'aider à l'automatisation du séquençage d'ADN lors du Projet Génome Humain. Ces scores de qualité sont assignés à chaque base nucléique issu d'un électrophorÚgramme de séquençage automatique[1] - [2]. Ils sont devenus par la suite un standard permettant de caractériser la qualité d'une séquence d'ADN et sont utilisés pour comparer l'efficacité des différentes techniques de séquençage. Cependant, l'utilisation la plus courante de ces scores de qualité concerne la détermination de l'exactitude des séquences consensus basées sur la qualité de séquençage.

Historique

L'idée de scores de qualité a émergé lors de la description du format de ficher SCF par l'équipe de Staden en 1992[3]. En 1995, Bonfield et Staden proposent une méthode utilisant des scores de qualité pour chaque base séquencée afin d'améliorer la précision des séquences consensus dans les projets de séquençage d'ADN[4]. Cependant, des précédents essais pour développer un tel systÚme de scores[5] - [6] ont eu un succÚs relativement limité.

Le premier programme créé pour développer un systÚme précis et puissant de scores assigné à chaque base fut le programme Phred[1]. Phred est capable de calculer des scores de qualité trÚs précis qui sont liés de façon logarithmique à la probabilité d'erreur de séquençage[2]. Phred fut rapidement adopté par tous les grands centres de séquençage de génome ainsi que d'autres laboratoires. La plus grande partie des séquences d'ADN produites lors du Projet Génome Humain a été traitée avec Phred.

Ainsi les scores de qualité phred sont devenus un standard du séquençage d'ADN, plusieurs manufacturiers d'instruments de séquençage développant des méthodes d'évaluation de qualité similaires pour leur programme d'identification de bases, tels que les entreprises ABI ou Illumina.

MĂ©thodes

L'approche du programme Phred pour identifier les bases et calculer un score de qualité associé a été décrit par Ewing et al.[1]. Afin de déterminer un score de qualité, Phred calcule tout d'abord plusieurs paramÚtres relatifs à la forme et la résolution du pic d'électrophorÚse de chaque base. Ensuite, le programme utilise ces paramÚtres pour rechercher un score de qualité dans des immenses tables de correspondance. Ces tables sont issues d'électrophorÚgrammes de séquençage provenant de séquences correctement séquencées et sont inclus dans le code source de Phred. Différentes tables de correspondance sont utilisées pour différentes techniques de séquençage ainsi que différentes machines. Une évaluation de la précision des scores de qualité en fonction d'un nombre de variations pour une techniques de séquençage et une machine données montre que les scores de qualité sont d'une trÚs grande précision[7].

Phred fut à l'origine développé pour des séquenceurs sur plaque de gel tels que l'ABI373. Il avait alors un taux d'erreur d'identification de bases plus faible que les programmes fournis par les manufacturiers qui ne donnaient par ailleurs aucun score de qualité. Cependant, Phred n'a été que partiellement adapté aux séquenceurs multicapillaires qui deviendront populaire par la suite. En revanche, les manufacturiers comme ABI continuÚrent d'adapter leurs programmes d'identification de bases aux nouvelles techniques de séquençage et inclurent la possibilité d'obtenir des scores de qualité similaires à ceux donnés par Phred. Ainsi le besoin d'utiliser Phred pour l'identification de bases issus d'électrophorÚgrammes de séquençage diminua au profit de l'utilisation des programmes conçus par les manufacturiers, donnant par ailleurs des résultats souvent plus précis.

Applications

Les scores de qualité phred sont utilisés pour :

  • l'estimation de la qualitĂ© des sĂ©quences
  • la reconnaissance et l'Ă©limination des portions de sĂ©quences de basse qualitĂ©
  • la dĂ©termination de l'exactitude des sĂ©quences consensus

À l'origine, les scores de qualitĂ© phred Ă©taient en premier lieu utilisĂ©s par le programme d'assemblage Phrap. Phrap Ă©tait utilisĂ© de façon courante dans certains des plus grands projets de sĂ©quençage du Projet GĂ©nome Humain et est actuellement l'un des programmes d'assemblage les plus largement utilisĂ©s. Phrap utilise les scores de qualitĂ© phred afin de dĂ©terminer les meilleures sĂ©quences consensus ainsi qu'estimer la qualitĂ© de ces sĂ©quences. Phrap utilise Ă©galement ces scores pour estimer si les divergences entre deux sĂ©quences chevauchantes relĂšvent d'une erreur de sĂ©quençage ou proviennent de copies diffĂ©rentes ayant des sĂ©quences proches.

Lors du Projet Génome Humain, la plus importante utilisation des scores fut la détermination automatique de séquences consensus. Avant l'utilisation de Phred et Phrap, les scientifiques devaient rechercher attentivement les divergences entre deux séquences chevauchantes impliquant souvent une détermination manuelle des séquences de haute qualité et une correction manuelle de chaque erreur. L'utilisation des scores de qualité par Phrap automatisa la recherche de séquences consensus de haute qualité évitant dans la plupart des cas le besoin d'une correction manuelle. Ainsi, les taux d'erreur estimés au sein des assemblages créés automatiquement avec Phred et Phrap sont substantiellement plus faibles que ceux issus des corrections manuelles.

En 2009, la plupart des programmes couramment employés utilisent les scores de qualité phred, cependant de maniÚres différentes. Certains programmes tels que Sequencher utilisent ces scores uniquement pour l'affichage et le nettoyage des extrémités de séquences mais pas pour la détermination d'une séquence consensus alors que d'autres programmes tels que CodonCode Aligner les incluent dans leur méthode de détermination de séquences consensus basées sur les qualités de séquences.

Fiabilité

Les scores de qualitĂ© phred ont pour propriĂ©tĂ© d'ĂȘtre reliĂ©s de façon logarithmique Ă  la probabilitĂ© d'erreur d'identification d'une base [2].

Par exemple, si Phred assigne un score de qualité de 30 à une base, la probabilité que cette base ait été identifiée incorrectement est de 1 pour 1000.

Ainsi, la méthode la plus couramment utilisée pour déterminer une séquence consensus est de prendre en compte les bases avec un score de qualité égal ou supérieur à 20. La haute précision des scores de qualité phred fait d'eux un outil idéal pour déterminer la qualité d'une séquence.

Les scores de qualité phred sont reliés de façon logarithmique à la probabilité d'erreur d'identification d'une base
Score de qualité phred Probabilité d'une identification incorrecte Précision de l'identification d'une base
10 1 pour 10 90 %
20 1 pour 100 99 %
30 1 pour 1000 99.9 %
40 1 pour 10000 99.99 %
50 1 pour 100000 99.999 %

Voir aussi

Références

  1. (en) Ewing B., Hillier L., Wendl MC. & Green P., « Base-calling of automated sequencer traces using phred. I. Accuracy assessment. », Genome Research, vol. 8, no 3,‎ , p. 175-85 (ISSN 1088-9051, PMID 9521921, DOI 10.1101/gr.8.3.175)
  2. (en) Ewing B. & Green P., « Base-calling of automated sequencer traces using phred. II. Error probabilities. », Genome Research, vol. 8, no 3,‎ , p. 186-94 (ISSN 1088-9051, PMID 9521922, DOI 10.1101/gr.8.3.186, lire en ligne)
  3. (en) Dear S. & Staden R., « A standard file format for data from DNA sequencing instruments. », DNA sequence : the journal of DNA sequencing and mapping, vol. 3, no 2,‎ , p. 107-10 (ISSN 1042-5179, PMID 1457811)
  4. (en) Bonfield JK. & Staden R., « The application of numerical estimates of base calling accuracy to DNA sequencing projects. », Nucleic Acids Research, vol. 23, no 8,‎ , p. 1406-10 (ISSN 0305-1048, PMID 7753633, DOI 10.1093/nar/23.8.1406)
  5. (en) Churchill GA. & Waterman MS., « The accuracy of DNA sequences: estimating sequence quality. », Genomics, vol. 14, no 1,‎ , p. 89-98 (ISSN 0888-7543, PMID 1358801, DOI 10.1016/S0888-7543(05)80288-5)
  6. (en) Lawrence CB. & Solovyev VV., « Assignment of position-specific error probability to primary DNA sequence data. », Nucleic Acids Research, vol. 22, no 7,‎ , p. 1272-80 (ISSN 0305-1048, PMID 8165143, DOI 10.1093/nar/22.7.1272)
  7. (en) Richterich P., « Estimation of errors in "raw" DNA sequences: a validation study. », Genome Research, vol. 8, no 3,‎ , p. 251-9 (ISSN 1088-9051, PMID 9521928, DOI 10.1101/gr.8.3.251)

Liens externes

Cet article est issu de wikipedia. Text licence: CC BY-SA 4.0, Des conditions supplĂ©mentaires peuvent s’appliquer aux fichiers multimĂ©dias.