Caractère précomposé
Un caractère précomposé ou caractère composite ou caractère décomposable est une entité Unicode qui peut aussi être définie comme une séquence d'un ou de plusieurs autres caractères. Un caractère précomposé peut typiquement représenter une lettre surmontée d'un accent, comme é (lettre e avec accent aigu). Techniquement, é (U+00E9) est un caractère qui peut être décomposé en son équivalent Unicode à partir de la lettre e (U+0065) et du caractère combinant (en) accent aigu (U+0301). De même les ligatures sont des précompositions des lettres ou graphèmes les constituant.
Les caractères précomposés sont un palliatif de représentation des caractères spécifiques par des systèmes et logiciels dépourvus de mécanismes de composition. En Unicode, ils servent à permettre l'utilisation de ces caractères dans les systèmes et logiciels prenant en charge les caractères décomposés équivalents de façon incomplète.
Caractères précomposés et décomposés
Les exemples suivants se basent sur le patronyme Åström — commun en suédois — qui peut s'écrire avec chacune de ces deux conventions. Ici, les caractères précomposés sont Å (U+00C5) et ö (U+00F6), et les décomposés sont A (U+0041) avec rond en chef (U+030A) et o (U+006F) avec tréma (U+0308). Pour illustrer la différence, les caractères précomposés sont ici affichés en vert et les caractères décomposés en noir. Selon le navigateur, les accents décomposés peuvent apparaître en rouge ou en noir.
- Åström (U+00C5 U+0073 U+0074 U+0072 U+00F6 U+006D)
- Åström (U+0041 U+030A U+0073 U+0074 U+0072 U+006F U+0308 U+006D)
Mis à part pour les couleurs, les deux solutions sont équivalentes et devraient s'afficher de manière identique. En pratique cependant, certaines mises en œuvre d'Unicode gèrent difficilement les caractères décomposés. Dans le pire des cas, les diacritiques ne sont pas affichés ou pas affichés convenablement.
L'exemple suivant montre la reconstruction en indo-européen commun du mot français chien :
- ḱṷṓn (U+1E31 U+1E77 U+1E53 U+006E)
- ḱṷṓn (U+006B U+0301 U+0075 U+032D U+006F U+0304 U+0301 U+006E)
Dans certaines situations, les lettres précomposées vertes k, u et o avec accent peuvent apparaître sous forme d'autres caractères, ou leur apparence typographique être très différente de la lettre finale n sans diacritique. Dans la deuxième ligne, les lettres devraient au moins être affichées correctement même si les diacritiques combinants ne sont pas gérés correctement.
Voir aussi
Sources
- (en) The Unicode Standard, Version 5.2: Conformance (cf. Section 3.7 pour la décomposition de caractères). The Unicode Consortium, .
- (en) Aaron Weiss : Composite and Precomposed Characters. Web Developer's Virtual Library. February 20, 2001.
- (en) MSDN : Defining a Character Set. April 8, 2010.
Liens externes
- (de) FreeIdgSerif, une police basée sur FreeSerif à laquelle ont été ajoutées des déclarations de caractères précomposés.