Accueil🇫🇷Chercher

Formats de document

En informatique, un format de document est un format de fichier utilisé pour représenter un document numérique. Il existe un grand nombre de formats de documents, pour la plupart incompatibles.

Subjectivité de la notion de document

Selon la science de l'information, le mot document désigne la réunion d’un support physique et d’une information (qui soit pertinente pour l’utilisateur). Le critère déterminant si un fichier informatique est un document reste subjectif et contextuel. Une conception courante est qu’un document doit être constitué de texte imprimable, sous une forme ou une autre. Outre les programmes informatiques, ceci exclut notamment les images, les sons et les vidéos. Si les formats produits par des logiciels de traitement de texte ou d’autres tâches bureautiques (comme le format RTF, les fichiers .doc et .docx produits par Microsoft Word, ou les formats OpenDocument employés notamment par LibreOffice) sont qualifiés d’emblée, certains excluent les fichiers de texte brut (portant par exemple l’extension .txt) de cette notion.

Le vocabulaire employé par le système d’exploitation ou le gestionnaire de fichiers peut affecter la perception par l’utilisateur de la nature ou non de document. Par exemple, l’Explorateur Windows pourrait qualifier de « document » les fichiers de la suite bureautique Microsoft Office sans appliquer la même désignation aux fichiers non reconnus provenant de suites bureautiques concurrentes. Autre exemple, bien qu’on considère généralement un document comme un fichier unique, le système d’exploitation Mac OS X applique le vocable à son concept de bundle (en) qui est, en fait, un répertoire.

Formats de document courants

Texte brut

Un document peut prendre la forme d’un simple fichier texte, visionnĂ© et Ă©ditĂ© directement par un Ă©diteur de texte, mais les possibilitĂ©s sont alors très limitĂ©es : absence de mise en forme du texte — Ă  moins d’employer des conventions typographiques comme dans le cas d’un langage de balisage lĂ©ger —, impossibilitĂ© d’insĂ©rer des tableaux ou des images, etc.

De plus, un fichier texte ne comportant pas de méta-données, on s’expose aux problèmes d’incompatibilité entre les innombrables normes de codage des caractères (par exemple Windows-1252, latin-9, UTF-8, UTF-16…) et même entre conventions pour les fins de lignes.

Langages de composition

Pour pallier ces limitations, certains systèmes de composition de documents traitent le fichier texte comme du code source. L’auteur du document Ă©crit directement ce code au moyen d’un Ă©diteur de texte, dans un langage qui se rapproche d’un langage de programmation et qui comporte des instructions de mise en forme. En revanche, le code n’est pas destinĂ© Ă  ĂŞtre visionnĂ© tel quel : un logiciel spĂ©cialisĂ© en rĂ©alise le rendu. Contrairement Ă  un simple fichier texte, ce type de systèmes permet des fonctionnalitĂ©s complexes, comme l’insertion d’images ou de tableaux, car il suffit d’ajouter au langage des instructions idoines.

  • roff : langage de composition nĂ© en 1961 dans le système d’exploitation CTSS, ancĂŞtre d’Unix ; une variante de roff est toujours employĂ©e dans les annĂ©es 2010 pour les pages de manuel Unix.
  • TeX (.tex) : langage de composition dĂ©veloppĂ© par l’universitaire Donald Knuth Ă  partir de 1977 ; il s’agit d’un langage de programmation qui doit ĂŞtre compilĂ© vers un format de description de page, comme DVI ou PDF (voir ci-dessous) ; promettant une grande qualitĂ© typographique et supportant l’édition de formules mathĂ©matiques complexes, TeX et ses dĂ©rivĂ©s — comme LaTeX — sont de ce fait largement utilisĂ©s pour la production de documents scientifiques.

Bureautique 

Émergeant dans les années 1980, les logiciels de bureautique permettent également d’éditer des documents bien plus riches qu’un simple fichier texte, et ce, généralement dans une interface utilisateur de type WYSIWYG. Un logiciel de traitement de texte permet d’éditer un texte mis en forme et paginé. Un tableur permet d’éditer des feuilles de calcul. Un logiciel de présentation permet quant à lui de réaliser des diapositives destinées à être projetées.

  • Les formats de WordPerfect (.wpd, .wp, .wp7, .doc[note 1]) : de la fin des annĂ©es 1980 au dĂ©but des annĂ©es 1990, WordPerfect Ă©tait le plus populaire des logiciels de traitement de texte, avant d’être Ă©clipsĂ© par Microsoft Word.
  • Rich Text Format (.rtf) : format de texte avec indications de mise en forme, dĂ©veloppĂ© par Microsoft depuis 1987 pour servir de format d’échange entre Microsoft Word et les autres logiciels de traitement de texte, abandonnĂ© depuis 2008 ; il s’agit d’un format textuel, propriĂ©taire mais ouvert.
  • DOC, XLS et PPT (.doc, .xls et .ppt) : formats de la suite bureautique Microsoft Office (respectivement pour son traitement de texte Word, son tableur Excel et son logiciel de prĂ©sentation PowerPoint), utilisĂ©s Ă  partir des annĂ©es 1990 et supplantĂ©s par les formats OOXML en 2007 ; ce sont des formats binaires, ils sont propriĂ©taires mais ouverts[note 2].
  • OpenOffice.org XML (.sxw, .sxc, .sxi, etc.) : formats dĂ©veloppĂ©s par Sun pour la suite bureautique StarOffice et son successeur OpenOffice.org au dĂ©but des annĂ©es 2000, avant d’être supplantĂ©s par OpenDocument en 2005 ; ces formats utilisent XML et la compression ZIP, ils sont ouverts.
  • OpenDocument ou ODF (.odt, .ods, .odp, etc.) : formats utilisĂ©s notamment par la suite bureautique OpenOffice.org et son successeur LibreOffice depuis 2005 ; dĂ©rivĂ©s de OpenOffice.org XML, ces formats se fondent Ă©galement sur XML et ZIP, ils sont ouverts et ont Ă©tĂ© normalisĂ©s par l’ISO en 2006[note 3].
  • Uniform Office Format (en) ou UOF (.uot, .uos, .uop) : norme chinoise comparable Ă  OpenDocument et dĂ©veloppĂ©e Ă  la mĂŞme Ă©poque.
  • Office Open XML ou Open XML ou OOXML (.docx, .xlsx, .pptx) : formats adoptĂ©s par la suite Microsoft Office dans sa version Microsoft Office 2007, en remplacement des formats prĂ©cĂ©dents ; tout comme ODF, OOXML utilise XML et ZIP, et a fait l’objet d’une normalisation par l’ISO en 2008[note 4].
  • Les formats d’iWork (.pages, .numbers, .key) : dĂ©veloppĂ© depuis 2005, iWork est la suite bureautique d’Apple, favorisant la simplicitĂ© au dĂ©triment des fonctionnalitĂ©s ; ces formats propriĂ©taires ne sont utilisĂ©s que par Apple et varient sans souci de compatibilitĂ© d’une version Ă  l’autre, ce qui rend leur usage problĂ©matique pour l’archivage Ă  moyen terme ou long terme[1].

Documents paginés

D’autres formats décrivent des documents paginés et prêts pour l’impression, dont le contenu est figé. Ces documents sont en général produits par un système d’édition — comme TeX ou Microsoft Word — qui en a assuré la mise en forme. Un objectif est alors de préserver cette mise en forme, en garantissant un rendu rigoureusement identique quel que soit l’imprimante ou le logiciel de visionnage utilisé. Face à la multiplication de logiciels et de formats bureautiques incompatibles, la disponibilité d’un format de présentation universel, lisible par tous à l’identique, est d’ailleurs devenu un enjeu.

En outre, l’impression sur papier offrant une rĂ©solution typiquement bien supĂ©rieure Ă  celle d’un Ă©cran d’ordinateur, ces formats de description de page sont gĂ©nĂ©ralement vectoriels : autrement dit, ils dĂ©crivent la forme et l’agencement des constituants en termes gĂ©omĂ©triques. Cette façon de reprĂ©senter un document permet de l’agrandir indĂ©finiment sans perte de qualitĂ©. Une exception notable est le format DjVu, qui emploie une description matricielle pour mieux reprĂ©senter des documents numĂ©risĂ©s.

  • DVI (.dvi) : format de description de page dĂ©veloppĂ© pour le système de composition TeX en 1982 ; ce format libre est aujourd’hui largement remplacĂ© par PDF.
  • PostScript (.ps) : format de description de page dĂ©veloppĂ© par Adobe, supplantĂ© par PDF en 2007.
  • PDF (.pdf) : format de description de page dĂ©veloppĂ© par Adobe depuis le dĂ©but des annĂ©es 1990 et normalisĂ© par l’ISO en 2008[note 5] ; dans les annĂ©es 2010, PDF est le standard de facto pour l’archivage et l’échange de documents imprimables qui n’ont pas besoin d’être modifiĂ©s.
  • XPS ou OpenXPS (.xps, .oxps) : format de description de page dĂ©veloppĂ© par Microsoft depuis 2006 ; OpenXPS est basĂ© sur XML, ouvert, et a Ă©tĂ© normalisĂ© par l’ECMA en 2009, mais il n’a pas rencontrĂ© le succès face Ă  PDF.
  • DjVu (.djvu) : format de documents mis en page, capable de reprĂ©senter efficacement des documents numĂ©risĂ©s pouvant contenir du texte reconnu ; le format est ouvert mais soumis Ă  certains brevets ; dĂ©veloppĂ© depuis 1996, le format DjVu a un temps Ă©tĂ© prĂ©fĂ©rĂ© au format PDF, jusqu’à la normalisation de ce dernier.
  • SVG (.svg) : format vectoriel basĂ© sur XML ; utilisĂ© essentiellement pour crĂ©er des illustrations, ce format libre peut en principe dĂ©crire des documents complets.

Documents redimensionnables

Par opposition aux formats paginĂ©s, qui dĂ©crivent prĂ©cisĂ©ment l’aspect d’un document tel qu’imprimĂ© sur papier et de ce fait dĂ©coupĂ© en pages d’une certaine dimension, certains formats dĂ©crivent des documents textuels destinĂ©s Ă  la consultation sur Ă©cran. L’espace de visionnage Ă©tant alors de taille inconnue et largement variable, ces documents sont redimensionnables (en) : le dĂ©coupage du texte en lignes s’adapte Ă  la largeur disponible et Ă  la taille de la police employĂ©e. De ce fait, ces formats s’attachent davantage au contenu sĂ©mantique des documents — par exemple, quel est le titre, quel est le texte, quelles sont les chapitres, etc. — qu’à leur aspect, lequel est dĂ©fĂ©rĂ© au logiciel d’affichage. Celui-ci peut donc prendre en compte l’espace disponible, mais Ă©galement les prĂ©fĂ©rences du lecteur concernant la taille du texte ou la police Ă  employer.

Cette catégorie de formats a connu des développements dans les années 1990 avec l’explosion du web, puis dans les années 2000 avec la multiplications des liseuses électroniques.

  • HTML (.html, .htm) : langage de balisage proche de XML, format ouvert qui constitue l’un des principaux standards du web et fait l’objet de multiples normes par l’IETF puis le W3C et l’ISO depuis les annĂ©es 1990.
  • ePub (.epub) : format de livre Ă©lectronique, basĂ© sur HTML ; ce format libre, normalisĂ© en 2007 par l’IDPF, est dans les annĂ©es 2010 le format dominant pour les livres Ă©lectroniques, Ă©tant reconnu par toutes les liseuses Ă  l’exception de celles d’Amazon.
  • AZW (.azw) : format de livre Ă©lectronique Ă©galement basĂ© sur HTML, dĂ©veloppĂ© par Amazon ; ce format propriĂ©taire n’est reconnu que par les liseuses Kindle de cette entreprise, et intègre des fonctionnalitĂ©s de gestion numĂ©rique des droits.


Notes et références

Notes

  1. Le format .doc de WordPerfect ne doit pas ĂŞtre confondu avec le format .doc de Microsoft Word.
  2. Ces formats sont propriĂ©taires car soumis Ă  certains brevets, mais ils sont ouverts depuis que Microsoft en a publiĂ© une spĂ©cification en 2008, assortie de la promesse (en) de ne pas faire valoir ses brevets vis-Ă -vis des implĂ©mentations qui respecteraient cette spĂ©cification.
  3. L’adoption de cette norme internationale a marqué un tournant pour la bureautique car, jusque là, chaque logiciel développait son propre format. La tentative précédente de standard interopérable, l’Architecture de document ouverte, n’avait guère été suivie.
  4. Cette normalisation est polémique, Microsoft ayant été accusé de vouloir concurrencer la norme OpenDocument, sur laquelle la communauté internationale s’était déjà accordée, avec la sienne propre, sans avantage technique évident mais avec une complexité bien supérieure.
  5. L’ISO a Ă©galement normalisĂ© des sous-ensembles spĂ©cialisĂ©s du format PDF : PDF/X (pour l’échange de documents destinĂ©s Ă  l’impression), PDF/A (pour l’archivage et la conservation Ă  long terme), PDF/E (pour les documents d’ingĂ©nierie), PDF/UA (en) (pour l’accessibilitĂ©) et PDF/VT (pour l’impression de donnĂ©es variables et transactionnelles).

Références

  1. (en) « iWork », sur fileformats.archiveteam.org (consulté le )
Cet article est issu de wikipedia. Text licence: CC BY-SA 4.0, Des conditions supplémentaires peuvent s’appliquer aux fichiers multimédias.