General feature format
Le format d'élément général, general feature format (gene-finding format, generic feature format, GFF) est un format de fichier utilisé pour décrire les gènes et d'autres éléments de séquences d'ADN, d'ARN et de protéines. L'extension de fichier associée à de tels fichiers est .
GFF
et le type de contenu qui leur est associé est text/gff3
.
Type |
---|
Il existe deux versions du format de fichier GFF généralement utilisées :
- General Feature Format Version 2.2 en particulier dans sa variante GTF[1]
- Format d'entité générique version 3 (projet d'ontologie de séquence)[2]
Les serveurs qui génèrent ce format:
Serveur | Exemple de fichier |
---|---|
UniProt | |
Les clients qui utilisent ce format:
Nom | Description | Liens |
---|---|---|
GBrowse | Navigateur de génome GMOD | GBrowse |
IGB | Navigateur de génome intégré | Integrated Genome Browser |
Jalview | Un éditeur et un visualiseur d'alignement de séquences multiples | Jalview |
STRAP | Met en évidence les caractéristiques des séquence des alignements multiples. | Exemple de sortie: , |
JBrowse | JBrowse est un navigateur génomique rapide et intégrable construit entièrement en JavaScript et HTML5 | JBrowse.org |
ZENBU | Un système collaboratif d’intégration de données omiques et de visualisation interactive |
Versions GFF
Le GFF Version 2[3] (ainsi que sa variante[1] la plus commune GTF[4]) présentait un certain nombre de défauts, notamment le fait que ce format ne peut représenter que des hiérarchies d’entités à deux niveaux et ne peut donc pas gérer la hiérarchie à trois niveaux gène → transcript → exon. Le GFF3 résout ce problème et d’autres. Par exemple, il prend en charge de nombreux niveaux hiérarchiques de manière arbitraire et donne des significations spécifiques à certaines balises du champ d'attributs.
Structure générale du format GFF
Tous les formats GFF (GFF2, GFF3 et GTF) sont des fichiers tabulaires avec 9 champs par ligne, séparés par tabulation. Ils partagent tous la même structure pour les 7 premiers champs, mais diffèrent par le contenu et le format du neuvième champ. La structure générale est la suivante:
Indice de position | Nom de position | Description |
---|---|---|
1 | séquence | Le nom de la séquence où se trouve l'élément. |
2 | source | Mot-clé identifiant la source de l'élément, comme un programme (par exemple Augustus ou RepeatMasker) ou une organisation (comme TAIR). |
3 | élément | Le nom du type d'élément, comme gène ou exon. Dans un fichier GFF bien structuré, tous les éléments subordonnés suivent toujours leurs parents dans un seul bloc (ainsi, tous les exons d'un transcrit sont placés après la ligne de l'élément transcrit parent et avant toute autre ligne de transcrit). Dans le GFF3, tous les éléments et leurs relations doivent être compatibles avec les normes publiées par le projet Sequence Ontology[5]. |
4 | début | Coordonnée génomique du début de l'élément, avec un décalage de 1 base. Ceci est en contraste avec d'autres formats de séquence à demi-ouverture basé sur 0, tels que les fichiers BED. |
5 | fin | Coordonnée génomique de Fin de l'élément, avec un décalage de 1 base. Il s’agit de la même coordonnée finale que dans les formats de séquence semi-ouverts à décalage 0, comme les fichiers BED. |
6 | score | Valeur numérique indiquant généralement la confiance de la source de l'élément annoté, ou son score. Une valeur de "." (un point) est utilisé pour définir une valeur nulle. |
7 | brin | Caractère unique qui indique le brin codant (biologie moléculaire) de l'élément; il peut prendre les valeurs de "+" (positif ou 5 '→ 3'), "-" (négatif ou 3 '→ 5'), ou "." (indéterminé). |
8 | phase | phase des éléments de séquence codante (CDS); il peut s'agir de 0, 1, 2 (pour les éléments CDS) ou "." (pour tout le reste). Voir la section ci-dessous pour une explication détaillée. |
9 | Les attributs. | Toutes les autres informations relatives à cet élément. Le format, la structure et le contenu de ce champ est celui qui varie le plus entre les trois formats de fichiers concurrents. |
Le 8e champ: phase des éléments CDS
En termes simples, CDS signifie séquence de codage. La signification exacte du terme est définie par Seologia Ontology (SO). Selon la spécification GFF3[6] - [7] : « Pour les éléments de type CDS, la phase indique où l'élément commence par une référence au cadre de lecture. La phase est l'un des entiers 0, 1 ou 2, indiquant le nombre de bases à supprimer du début de cet élément pour atteindre la première base du codon suivant. »
MĂ©ta Directives
Dans les fichiers GFF, des méta-informations supplémentaires peuvent être incluses et suivies après la directive ##. Cette méta-information peut détailler la version, la région de séquence ou l’espèce du GFF (la liste complète des types de métadonnées se trouve dans les spécifications de l’ontologie de séquence[2]).
Validation
Le projet modENCODE héberge un outil de validation[8] en GFF3[9] avec des limites généreuses de 286,10 Mo et 15 millions de lignes.
La collection de logiciels Genome Tools contient un outil gff3validator qui peut être utilisé hors ligne pour valider et éventuellement arranger les fichiers GFF3. Un service de validation en ligne[10] est également disponible.
Voir aussi
Références
- http://mblab.wustl.edu/GTF22.html
- https://github.com/The-Sequence-Ontology/Specifications/blob/master/gff3.md
- http://gmod.org/wiki/GFF2
- « GTF2.2: A Gene Annotation Format »
- http://www.sequenceontology.org/gff3.shtml
- « GFF3 specification »,
- « Gff3 - Gmod »
- http://modencode.oicr.on.ca/cgi-bin/validate_gff3_online
- http://modencode.oicr.on.ca/cgi-bin/validate_gff3_online ligne
- http://genometools.org/cgi-bin/gff3validator.cgi