Numéro d'accession (bioinformatique)

Un numéro d'accession (le terme français est numéro d'ordre, numéro d'accession étant un anglicisme couramment utilisé) en bio-informatique est un identifiant unique donné à toute séquence d'ADN ou de protéine enregistrée dans un dépôt. Ce numéro permet un suivi des différentes versions d'une séquence enregistrée et des séquences associées. Du fait de sa relative stabilité, les numéros d'accession peuvent être utilisés comme clés étrangères pour toute référence à une séquence ou à un ensemble de séquences. Tous les dépôts contenant des informations de séquences mettent en œuvre ce concept de "numéro d'accession" mais peuvent introduire de subtiles variations.

Numéros d'accession dans des bases de données spécifiques

UniProt (SwissProt) Knowledgebase

La documentation fournie par UniProt stipule que le rôle d'un numéro d'accès est "de fournir un moyen stable d'identifier une entrée d'une version à l'autre." Une entrée peut être associée à plusieurs numéros d'accession. Ainsi, chez UniProt, il n'y a pas de relation spécifique entre un numéro d'accession et une séquence : le numéro d'accession se réfère à une entrée dans la base de connaissance (knowledgebase), cette entrée pouvant se référer à un ensemble de séquences. Dans la version en fichier simple d'une entrée, le champ AC correspond à un numéro d'accession, le premier étant le "numéro d'accession primaire" et les numéros suivants étant les "numéros d'accession secondaires". Le champ principal pour le suivi d'une entrée UniProt est le numéro d'accession primaire. Les différents numéros d'accession associés à une entrée de la base de connaissance proviennent de l'historique des fusions et fractionnements de cette entrée. Un nouveau numéro d'accession peut être généré de deux manières : l'enregistrement d'une nouvelle séquence (le plus souvent) ou le fractionnement d'une entrée de la base de connaissance (plus rarement)[1].

GenBank

Les identifiants des séquences biologiques contenues dans la base GenBank respectent un formatage particulier. GenBank regroupe en réalité des séquences de différentes bases de données (Américaines, Européennes, Japonaises). L'attribution d'un identifiant à une nouvelle séquence respecte des règles précises, de sorte que chaque base de GenBank ne peut utiliser que certains formats.

Les identifiants des séquences sont riches en information. Ils permettent de connaitre par exemple :

le type de séquence,
la base d'origine,
la manière dont les données biologiques ont été obtenues,
etc.

Les identifiants comportent de manière générale un préfixe de plusieurs lettres majuscules suivies de plusieurs chiffres. Les préfixes indiquent la base de données ou le type de données de la séquence. Par exemple, un génome entier n'a pas le même suffixe qu'un WGS (Whole Genome Shotgun).

Le format des identifiants GenBank de quelques types de séquences est le suivant :

Nucleotide : 1 lettre + 5 chiffres ou 2 lettres + 6 chiffres
Protéine : 3 lettres + 5 chiffres
WGS : 4 lettres + 2 chiffres (version de l'assemblage du WGS) 6 à 8 chiffres
MGA : 5 lettres + 7 chiffres

Description des identifiants des séquences de GenBank sur le site du NCBI

Laboratoire européen de biologie moléculaire

Les formats des numéros d'accession des séquences du Laboratoire européen de biologie moléculaire sont similaires à ceux de GenBank. Les bases de données de séquences biologiques de l'LEBM attribuent des identifiants homogènes avec les bases GenBank et DDBJ. De cette manière, les séquences de ces trois bases peuvent être indexées au sein d'un seul grand moteur de recherche : le site web du NCBI.

Numéros d'accession communément rencontrés

« Uniprot ID »^{(Archive.org • Wikiwix • Archive.is • Google • Que faire ?)} (consulté le 14 avril 2013)
Unified Uniprot Accession
Uniprot-Swissprot Accession
Uniprot-Swissprot ID
Unified Uniprot ID
Refseq DNA ID
Entrez Gene ID
CCDS ID
Vega translation ID
Vega Transcript ID
Vega Peptide ID
Vega Gene ID
« HUGO ID »^{(Archive.org • Wikiwix • Archive.is • Google • Que faire ?)} (consulté le 14 avril 2013)
MIM ID

Notes et références

(en) Amos Bairoch, Rolf Apweiler, Cathy H. Wu, « User Manual », UniProt Knowledgebase (consulté le 20 octobre 2005)

(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Accession number (bioinformatics) » (voir la liste des auteurs).

Cet article est issu de wikipedia. Text licence: CC BY-SA 4.0, Des conditions supplémentaires peuvent s’appliquer aux fichiers multimédias.