Formats de document
En informatique, un format de document est un format de fichier utilisé pour représenter un document numérique. Il existe un grand nombre de formats de documents, pour la plupart incompatibles.
Subjectivité de la notion de document
Selon la science de l'information, le mot document désigne la réunion d’un support physique et d’une information (qui soit pertinente pour l’utilisateur). Le critère déterminant si un fichier informatique est un document reste subjectif et contextuel. Une conception courante est qu’un document doit être constitué de texte imprimable, sous une forme ou une autre. Outre les programmes informatiques, ceci exclut notamment les images, les sons et les vidéos. Si les formats produits par des logiciels de traitement de texte ou d’autres tâches bureautiques (comme le format RTF, les fichiers .doc et .docx produits par Microsoft Word, ou les formats OpenDocument employés notamment par LibreOffice) sont qualifiés d’emblée, certains excluent les fichiers de texte brut (portant par exemple l’extension .txt) de cette notion.
Le vocabulaire employé par le système d’exploitation ou le gestionnaire de fichiers peut affecter la perception par l’utilisateur de la nature ou non de document. Par exemple, l’Explorateur Windows pourrait qualifier de « document » les fichiers de la suite bureautique Microsoft Office sans appliquer la même désignation aux fichiers non reconnus provenant de suites bureautiques concurrentes. Autre exemple, bien qu’on considère généralement un document comme un fichier unique, le système d’exploitation Mac OS X applique le vocable à son concept de bundle (en) qui est, en fait, un répertoire.
Formats de document courants
Texte brut
Un document peut prendre la forme d’un simple fichier texte, visionné et édité directement par un éditeur de texte, mais les possibilités sont alors très limitées : absence de mise en forme du texte — à moins d’employer des conventions typographiques comme dans le cas d’un langage de balisage léger —, impossibilité d’insérer des tableaux ou des images, etc.
De plus, un fichier texte ne comportant pas de méta-données, on s’expose aux problèmes d’incompatibilité entre les innombrables normes de codage des caractères (par exemple Windows-1252, latin-9, UTF-8, UTF-16…) et même entre conventions pour les fins de lignes.
Langages de composition
Pour pallier ces limitations, certains systèmes de composition de documents traitent le fichier texte comme du code source. L’auteur du document écrit directement ce code au moyen d’un éditeur de texte, dans un langage qui se rapproche d’un langage de programmation et qui comporte des instructions de mise en forme. En revanche, le code n’est pas destiné à être visionné tel quel : un logiciel spécialisé en réalise le rendu. Contrairement à un simple fichier texte, ce type de systèmes permet des fonctionnalités complexes, comme l’insertion d’images ou de tableaux, car il suffit d’ajouter au langage des instructions idoines.
- roff : langage de composition né en 1961 dans le système d’exploitation CTSS, ancêtre d’Unix ; une variante de roff est toujours employée dans les années 2010 pour les pages de manuel Unix.
- TeX (.tex) : langage de composition développé par l’universitaire Donald Knuth à partir de 1977 ; il s’agit d’un langage de programmation qui doit être compilé vers un format de description de page, comme DVI ou PDF (voir ci-dessous) ; promettant une grande qualité typographique et supportant l’édition de formules mathématiques complexes, TeX et ses dérivés — comme LaTeX — sont de ce fait largement utilisés pour la production de documents scientifiques.
Bureautique
Émergeant dans les années 1980, les logiciels de bureautique permettent également d’éditer des documents bien plus riches qu’un simple fichier texte, et ce, généralement dans une interface utilisateur de type WYSIWYG. Un logiciel de traitement de texte permet d’éditer un texte mis en forme et paginé. Un tableur permet d’éditer des feuilles de calcul. Un logiciel de présentation permet quant à lui de réaliser des diapositives destinées à être projetées.
- Les formats de WordPerfect (.wpd, .wp, .wp7, .doc[note 1]) : de la fin des années 1980 au début des années 1990, WordPerfect était le plus populaire des logiciels de traitement de texte, avant d’être éclipsé par Microsoft Word.
- Rich Text Format (.rtf) : format de texte avec indications de mise en forme, développé par Microsoft depuis 1987 pour servir de format d’échange entre Microsoft Word et les autres logiciels de traitement de texte, abandonné depuis 2008 ; il s’agit d’un format textuel, propriétaire mais ouvert.
- DOC, XLS et PPT (.doc, .xls et .ppt) : formats de la suite bureautique Microsoft Office (respectivement pour son traitement de texte Word, son tableur Excel et son logiciel de présentation PowerPoint), utilisés à partir des années 1990 et supplantés par les formats OOXML en 2007 ; ce sont des formats binaires, ils sont propriétaires mais ouverts[note 2].
- OpenOffice.org XML (.sxw, .sxc, .sxi, etc.) : formats développés par Sun pour la suite bureautique StarOffice et son successeur OpenOffice.org au début des années 2000, avant d’être supplantés par OpenDocument en 2005 ; ces formats utilisent XML et la compression ZIP, ils sont ouverts.
- OpenDocument ou ODF (.odt, .ods, .odp, etc.) : formats utilisés notamment par la suite bureautique OpenOffice.org et son successeur LibreOffice depuis 2005 ; dérivés de OpenOffice.org XML, ces formats se fondent également sur XML et ZIP, ils sont ouverts et ont été normalisés par l’ISO en 2006[note 3].
- Uniform Office Format (en) ou UOF (.uot, .uos, .uop) : norme chinoise comparable à OpenDocument et développée à la même époque.
- Office Open XML ou Open XML ou OOXML (.docx, .xlsx, .pptx) : formats adoptés par la suite Microsoft Office dans sa version Microsoft Office 2007, en remplacement des formats précédents ; tout comme ODF, OOXML utilise XML et ZIP, et a fait l’objet d’une normalisation par l’ISO en 2008[note 4].
- Les formats d’iWork (.pages, .numbers, .key) : développé depuis 2005, iWork est la suite bureautique d’Apple, favorisant la simplicité au détriment des fonctionnalités ; ces formats propriétaires ne sont utilisés que par Apple et varient sans souci de compatibilité d’une version à l’autre, ce qui rend leur usage problématique pour l’archivage à moyen terme ou long terme[1].
Documents paginés
D’autres formats décrivent des documents paginés et prêts pour l’impression, dont le contenu est figé. Ces documents sont en général produits par un système d’édition — comme TeX ou Microsoft Word — qui en a assuré la mise en forme. Un objectif est alors de préserver cette mise en forme, en garantissant un rendu rigoureusement identique quel que soit l’imprimante ou le logiciel de visionnage utilisé. Face à la multiplication de logiciels et de formats bureautiques incompatibles, la disponibilité d’un format de présentation universel, lisible par tous à l’identique, est d’ailleurs devenu un enjeu.
En outre, l’impression sur papier offrant une résolution typiquement bien supérieure à celle d’un écran d’ordinateur, ces formats de description de page sont généralement vectoriels : autrement dit, ils décrivent la forme et l’agencement des constituants en termes géométriques. Cette façon de représenter un document permet de l’agrandir indéfiniment sans perte de qualité. Une exception notable est le format DjVu, qui emploie une description matricielle pour mieux représenter des documents numérisés.
- DVI (.dvi) : format de description de page développé pour le système de composition TeX en 1982 ; ce format libre est aujourd’hui largement remplacé par PDF.
- PostScript (.ps) : format de description de page développé par Adobe, supplanté par PDF en 2007.
- PDF (.pdf) : format de description de page développé par Adobe depuis le début des années 1990 et normalisé par l’ISO en 2008[note 5] ; dans les années 2010, PDF est le standard de facto pour l’archivage et l’échange de documents imprimables qui n’ont pas besoin d’être modifiés.
- XPS ou OpenXPS (.xps, .oxps) : format de description de page développé par Microsoft depuis 2006 ; OpenXPS est basé sur XML, ouvert, et a été normalisé par l’ECMA en 2009, mais il n’a pas rencontré le succès face à PDF.
- DjVu (.djvu) : format de documents mis en page, capable de représenter efficacement des documents numérisés pouvant contenir du texte reconnu ; le format est ouvert mais soumis à certains brevets ; développé depuis 1996, le format DjVu a un temps été préféré au format PDF, jusqu’à la normalisation de ce dernier.
- SVG (.svg) : format vectoriel basé sur XML ; utilisé essentiellement pour créer des illustrations, ce format libre peut en principe décrire des documents complets.
Documents redimensionnables
Par opposition aux formats paginés, qui décrivent précisément l’aspect d’un document tel qu’imprimé sur papier et de ce fait découpé en pages d’une certaine dimension, certains formats décrivent des documents textuels destinés à la consultation sur écran. L’espace de visionnage étant alors de taille inconnue et largement variable, ces documents sont redimensionnables (en) : le découpage du texte en lignes s’adapte à la largeur disponible et à la taille de la police employée. De ce fait, ces formats s’attachent davantage au contenu sémantique des documents — par exemple, quel est le titre, quel est le texte, quelles sont les chapitres, etc. — qu’à leur aspect, lequel est déféré au logiciel d’affichage. Celui-ci peut donc prendre en compte l’espace disponible, mais également les préférences du lecteur concernant la taille du texte ou la police à employer.
Cette catégorie de formats a connu des développements dans les années 1990 avec l’explosion du web, puis dans les années 2000 avec la multiplications des liseuses électroniques.
- HTML (.html, .htm) : langage de balisage proche de XML, format ouvert qui constitue l’un des principaux standards du web et fait l’objet de multiples normes par l’IETF puis le W3C et l’ISO depuis les années 1990.
- ePub (.epub) : format de livre électronique, basé sur HTML ; ce format libre, normalisé en 2007 par l’IDPF, est dans les années 2010 le format dominant pour les livres électroniques, étant reconnu par toutes les liseuses à l’exception de celles d’Amazon.
- AZW (.azw) : format de livre électronique également basé sur HTML, développé par Amazon ; ce format propriétaire n’est reconnu que par les liseuses Kindle de cette entreprise, et intègre des fonctionnalités de gestion numérique des droits.
Notes et références
Notes
- Le format .doc de WordPerfect ne doit pas ĂŞtre confondu avec le format .doc de Microsoft Word.
- Ces formats sont propriétaires car soumis à certains brevets, mais ils sont ouverts depuis que Microsoft en a publié une spécification en 2008, assortie de la promesse (en) de ne pas faire valoir ses brevets vis-à -vis des implémentations qui respecteraient cette spécification.
- L’adoption de cette norme internationale a marqué un tournant pour la bureautique car, jusque là , chaque logiciel développait son propre format. La tentative précédente de standard interopérable, l’Architecture de document ouverte, n’avait guère été suivie.
- Cette normalisation est polémique, Microsoft ayant été accusé de vouloir concurrencer la norme OpenDocument, sur laquelle la communauté internationale s’était déjà accordée, avec la sienne propre, sans avantage technique évident mais avec une complexité bien supérieure.
- L’ISO a également normalisé des sous-ensembles spécialisés du format PDF : PDF/X (pour l’échange de documents destinés à l’impression), PDF/A (pour l’archivage et la conservation à long terme), PDF/E (pour les documents d’ingénierie), PDF/UA (en) (pour l’accessibilité) et PDF/VT (pour l’impression de données variables et transactionnelles).
Références
- (en) « iWork », sur fileformats.archiveteam.org (consulté le )