Méthode cangjie
La méthode cangjie (chinois simplifié : 仓颉输入法 ; chinois traditionnel : 倉頡輸入法 ; pinyin : ; Wade : ts'ang¹-chieh² shu¹ru⁴fa³ ; cantonais Jyutping : cong¹ kit³ syu¹jap⁶faat³) est une méthode d'entrée informatique permettant de saisir des sinogrammes, fondée sur leur composition graphique et étymologique. Les touches du clavier représentent 24 « radicaux » du chinois ; néanmoins, la décomposition n'est fondée ni sur les radicaux ou clefs traditionnelles de Kangxi, ni sur l'ordre standard des traits. Il s'agit d'une décomposition géométrique. Les 214 clés du chinois n'étant pas toutes représentées, il faut donc parfois parer une des formes utilisées, en s'appuyant sur le ou les premiers traits.
Inventée en 1976 par Chu Bong-Foo, elle tire son nom du légendaire Cang Jie (2650 av. J.-C.), ministre de l'empereur qui aurait inventé les caractères chinois (汉字, ). Ce nom a été suggéré par Chiang Wei-kuo, alors ministre de la Défense de Taïwan. Bien que la méthode soit conçue à l'origine pour les caractères traditionnels, elle a depuis été repensée pour inclure les caractères simplifiés.
Décomposition
Radicaux
Les composants de base sont appelés radicaux (字根, ) ou lettres (字母, ). Il y en a 24, mais 26 touches du clavier sont utilisées ; les 24 radicaux (les formes fondamentales 基本字形, ) sont associées à environ 76 formes auxiliaires (輔助字形, ), qui peuvent être des rotations, des parties ou des déformations des formes fondamentales. Par exemple, la forme 日 (A) représente le sinogramme 日 lui-même, mais aussi 曰, ou une rotation de lui-même de 90°.
Les touches permettant de saisir ces radicaux sont divisées en quatre groupes : le bloc des sinogrammes philosophiques (de A à G, représentant le soleil, la lune et les cinq éléments), le bloc des traits (de H à N, représentant des traits simples), le bloc des parties du corps (de O à R, représentant des parties du corps humain) et le bloc des formes (de S à Y, représentant des formes complexes présentes dans les sinogrammes).
Groupe | Touche | Nom | Formes associées | Exemples |
---|---|---|---|---|
Philosophique | A | 日 soleil | ||
B | 月 lune | |||
C | 金 or | |||
D | 木 bois | |||
E | 水 eau | |||
F | 火 feu | |||
G | 土 terre | |||
Traits | H | 竹 bambou | ||
I | 戈 arme | |||
J | 十 dix | |||
K | 大 grand | |||
L | 中 milieu | |||
M | 一 un | |||
N | 弓 arc | |||
Anatomie | O | 人 personne | ||
P | 心 cœur | |||
Q | 手 main | |||
R | 口 bouche | |||
Formes de sinogrammes | S | 尸 cadavre | ||
T | 廿 vingt | |||
U | 山 montagne | |||
V | 女 femme | |||
W | 田 champ | |||
Y | 卜 divination |
La touche X (重/難, conflit/difficile) résout les ambiguïtés lorsque deux codes issus d'une décomposition entrent en conflit et constitue aussi un code des parties difficiles à décomposer. La touche Z (caractères spéciaux) est un code auxiliaire utilisé pour entrer des caractères spéciaux, il n'a pas de sens propre. Cette touche est combinée avec d'autres pour entrer les ponctuations chinoises (telles que 。,、,「 」,『 』).
Certaines variantes utilisent Z comme touche pour traiter les conflits au lieu de X. La touche Z est alors appelée « conflit (重) » alors que la touche X est appelée « difficile (難) » ; mais l'utilisation de la touche Z comme touche de conflit n'est pas présente dans la méthode originale ni dans les implémentations actuelles. Dans d'autres variantes, la touche Z est « définie par l'utilisateur » (造).
Les formes auxiliaires de chaque radical ont légèrement varié entre les différentes versions de la méthode ; c'est la raison pour laquelle les différentes versions ne sont pas totalement compatibles.
Règles de base
Le dactylographe doit se familiariser avec plusieurs règles de décomposition (拆字規則) qui définissent comment traiter un sinogramme jusqu'à aboutir à un code cangjie.
- Direction de décomposition : de gauche à droite, de bas en haut, de l'extérieur vers l'intérieur
- Pour les formes géométriquement connectées : utiliser 4 codes, ceux qui correspondent à la première forme, à la deuxième, à la troisième et à la dernière.
- Pour les formes où l'on distingue deux sous-formes (par exemple, 你) : identifiez ces deux sous-formes en suivant la direction de décomposition (ici, 亻et 尔), puis combiner le premier et le dernier code de la première forme avec le premier, le deuxième et le dernier de la seconde forme.
- Pour les formes où l'on distingue plusieurs sous-formes (par exemple, 謝) : identifier la première forme en suivant la direction de décomposition (ici, 言), en récupérer le premier et le dernier code. Puis, découper le reste en composants (ici, 身 et 寸), récupérer le premier et le dernier code du premier composant et le dernier code du dernier composant.
Les règles sont sujettes à plusieurs principes :
- Concision (精簡) — si deux décompositions sont possibles, la décomposition la plus courte est la bonne.
- Exhaustivité (完整) — si deux décompositions de même longueur sont possibles, celle qui identifie des formes plus complexes est la bonne.
- Reflet de la forme des caractères (字型特徵) — il faut éviter si possible d'utiliser le même code deux fois ou plus, et le sinogramme ne devrait pas être découpé en deux formes au niveau d'un angle.
- Omission de codes (省略)
- Omission partielle (部分省略) — lorsque le nombre de codes de la décomposition complète dépasse le nombre autorisé de codes, les codes en trop sont ignorés.
- Omission des formes encloses (包含省略) — quand une partie du sinogramme à décomposer est incluse dans une autre, seule la forme extérieure est décomposée ; les formes encloses sont omises.
Exemples d'utilisation
- Composition simple par clés :
- 找 (zhǎo, chercher) : il faut commencer par la clé : Ici 扌, forme modifiée pour le côté de la main. Il faut donc appuyer sur la touche 手(shǒu, main), puis compléter avec la touche de la partie droite, ici : 戈 (gē, hallebarde).
- Composition par traits et formes :
- 王 (wáng, roi) : cette clé n'est pas présente sur le clavier, il faut donc la composer : le premier lorsque l'on trace le caractère 王 est 一 (yī, un), on ajoute 土 (tǔ, la terre) pour compléter.
- Mélange des deux techniques clé et traits / formes
- 颉 (jié, utilisé dans le nom de la méthode, mais aussi xié) : on commence par la partie gauche composée de 士 (shì, lettré ou soldat) en haut et de 口 (kǒu, la bouche) en bas. On commence donc par le caractère 土 (tǔ, la terre, proche graphiquement, 士 n'existant pas sur le clavier), puis la touche 口. Le second caractère 页(yè, feuille, page) n'existe pas sur le clavier, on trace juste le premier trait, dans l'ordre de composition du caractère : 一 (yī, un) et c'est fini. Si le premier trait ne suffit pas, on continue par les autres traits.
Difficultés
La méthode cangjie a été conçue pour être un système facile à utiliser pour promouvoir l'utilisation du chinois en informatique ; toutefois, de nombreux utilisateurs la jugent difficile.
- Pour saisir des sinogrammes, il faut non seulement connaître les radicaux mais aussi leurs formes auxiliaires. Certaines formes sont difficiles à retenir, bien que Chu Bong-Foo ait souhaité qu'elles aient toutes un lien avec les formes fondamentales et soient faciles à retenir[1]). Il n'est pas rare de trouver des tables avec les radicaux accompagnés de leurs formes auxiliaires scotchés sur des moniteurs par des utilisateurs.
- Il faut connaître les règles de décomposition. Un certain nombre d'utilisateurs se contente de deviner les codes, rendant impossible une utilisation efficace.
Toutefois, avec suffisamment de pratique, un utilisateur expérimenté pourrait atteindre une vitesse de frappe de 60 à 200 sinogrammes par minute.
Il y a néanmoins des problèmes intrinsèques à la méthode :
- Elle n'autorise pas les erreurs (不容錯)[2] : la décomposition dépend d'un ensemble prédéfini de formes standards (標準字形) ; or, les formes de certains sinogrammes peuvent varier suivant les pays et seule la forme standard donne la bonne décomposition. L'IME ne tolère pas les erreurs et se contente d'émettre un bip s'il y a une erreur.
- Les symboles de ponctuation ne sont pas géométriquement décomposés, il faut utiliser des codes commençant par ZX puis une série de trois lettres liées à leur classement dans le code Big5. Ce problème est résolu sur les systèmes modernes grâce à un clavier virtuel à l'écran.
- L'utilisateur ne peut pas saisir un sinogramme qu'il ne sait pas écrire. Ce problème n'est pas spécifique à la méthode cangjie mais s'applique à toutes les méthodes d'entrée non-phonétiques.
La méthode cangjie nécessite de disposer des 26 touches d'un clavier. Elle ne peut donc pas être utilisée sur des téléphones à clavier 9 touches. Dans ce cas, la méthode zhuyin, la méthode de 5 traits (ou des 9 traits de Motorola) et la méthode d'entrée Q9 sont la norme car ils ont été conçus spécifiquement pour être utilisés sur des claviers numériques de téléphone. Évidemment, les smartphones peuvent l'employer via leur clavier virtuel sur écran tactile.
Histoire
Système cangjie initial
Au départ, la méthode d'entrée cangjie n'était pas conçue pour saisir les sinogrammes à partir de tables de caractères encodés. Au lieu de cela, il s'agissait d'un système intégré comprenant les règles d'entrée et une carte contrôleur. Cette dernière contenait un firmware permettant la génération à partir des codes à l'affichage, via le mode graphique haute-résolution des ordinateurs Apple II. Dans la préface du manuel utilisateur, Chu Bong-Foo écrivait en 1982 :
« En matière de rendu : le rendu et l'entrée [forment] un ensemble intégré ; il n'y a aucune raison pour laquelle [ils devraient être] dogmatiquement séparé en deux dispositifs distincts... »
— Chu Bong-Foo, Traduit du manuel d'utilisateur de la méthode Cangjie
Dans cette version initiale, lorsque l'utilisateur entre « yk » pour obtenir 文, le sinogramme n'est pas encodé ; la chaîne de caractères « yk » est stockée. En quelque sorte, le code cangjie (une chaîne de un à cinq caractères suivi d'une espace) constitue son encodage.
Une caractéristique de ce système originel est que si l'on tente de saisir une suite aléatoire de lettres, le générateur de sinogrammes tentera d'en créer d'après les règles de décomposition, créant parfois des sinogrammes inexistants. Cette capacité insolite est décrite dans le manuel et est à l'origine de plus de 10 000 caractères parmi les 15 000 caractères que le système peut gérer[1]. Le nom cangjie, évoquant la création de nouveaux sinogrammes était alors particulièrement adéquat.
La présence de ce générateur intégré explique aussi la nécessité d'avoir une touche X pour lever les ambiguïtés de décompositions dont les versions ultérieures ont hérité : parce que les sinogrammes sont déterminés à l'affichage, chacun doit avoir une décomposition unique. Cela n'aurait aucun sens de laisser au lecteur la tâche de déterminer le bon sinogramme parmi une liste de candidats.
Versions
La méthode d'entrée cangjie a connu cinq versions. Actuellement, la version 3 (第三代倉頡) est la plus courante ; c'est la version supportée nativement par Microsoft Windows. La version 5 (第五代倉頡) supportée par l'IME Free Cangjie, iOS et SCIM, est minoritaire.
La version 1 n'a jamais été diffusée. La version 2 était supportée par la carte Zero One de l'Apple II. La méthode supportée par Mac OS était proche des versions 3 et 5. La version 5 a été créée par Chu Bong-Foo en personne. Chu Bong-Foo a espéré que la sortie de la version 5, initialement baptisée version 6, mettrait fin à la multiplication des versions (proposées par les revendeurs). La version 6 a été développée par Shen Honglian (沈紅蓮), l'assistant de Chu Bong-Foo. Elle permet d'encoder environ 100 000 caractères attestés dans la littérature chinoise. Ces tables de caractères ont été développées indépendamment d'Unicode, que Chu Bong-Foo a critiqué comme étant de conception inférieure. La version 6 n'a pas encore été publiée mais elle est déjà utilisée pour stocker numériquement des textes chinois historiques.
Un exemple de différence entre ces versions est la saisie des sinogrammes 面 et 非 :
Version 3 (三代) | Version 5 (五代) | Version 6 (六代) | |
---|---|---|---|
面 |
|
MWSL | MWS |
非 |
|
LMSY | LSY |
Fonctionnalités supplémentaires
La plupart des implémentation modernes des méthodes d'entrée cangjie proposent des fonctionnalités supplémentaires :
- Le système affiche une liste de sinogrammes commençant par le code saisi. Par exemple, si vous avez entré A, le système vous propose tous les sinogrammes dont le code cangjie commence par A ; si vous entrez un autre A, la liste est raccourcie, n'affichant que les codes qui commencent par AA. On retrouve ce genre d'implémentation dans l'IME de macOS, et SCIM.
- Le système permet l'utilisation de caractères de remplacement, comme l'astérisque ou le point d'interrogation ; l'utilisateur a le droit d'omettre certaines parties du code cangjie. On retrouve cette fonction dans les méthodes d'entrée xcin, SCIM, la méthode d'entrée des systèmes de composition Founder (Université de Pékin) et la méthode standard de Windows.
- Le système autorise la création d'abréviations ; l'utilisateur peut définir des codes personnalisés correspondant à des phrases ou des mots. Cela permet de saisir des sinogrammes fréquemment utilisés avec moins de touches. SCIM propose cette fonctionnalité.
- Le système anticipe le prochain mot saisi (联想 / 聯想, ) en proposant une liste de locutions associées. La méthode Changjie IME propose cette fonction.
- Le système s'adapte aux sinogrammes fréquemment saisi par l'utilisateur. L'IME NJStar propose cette fonction.
Beaucoup de ces fonctionnalités, notamment les caractères de remplacement, sont pratique pour les utilisateurs occasionnels mais ne conviennent pas pour les dactylographes car elles rendent la méthode imprévisible.
Il y a eu de nombreuses tentatives pour simplifier la méthode cangjie :
- la méthode cangjie simplifiée (aussi appelée Quick, 簡易, , ou 速成, ) utilise les mêmes racines, les mêmes formes auxiliaires, les mêmes règles de décomposition et la même courte liste d'exceptions, mais il ne faut saisir que le premier et le dernier code.
Applications
De nombreux chercheurs ont examiné les différentes manières de décomposer les sinogrammes en composants, et ont tenté de créer des applications fondées sur leur système de décomposition. Le concept est parfois appelé 漢字基因, littéralement « Étude des gènes des sinogrammes ». Les codes cangjie proposent une base pour une telle initiative. L'Academia Sinica à Taïwan[3] et l'université Jiao-tong de Shanghai[4] développent des projets similaires.
Une des applications directes de l'utilisation des décompositions de sinogrammes est la possibilité d'étudier les similarités[5] ; la méthode d'entrée cangjie propose un point de départ pour ce genre d'applications. En adoptant des codes cangjie détaillés de plus de cinq lettres, il est possible d'étudier les similarités graphiques. En intégrant à cela l'information sur la prononciation, cela permet l'étude assistée par ordinateur des sinogrammes[6].
Annexes
Articles connexes
- Saisie du chinois sur ordinateur
- Disposition de clavier
- Étude des gènes des sinogrammes (zh)
Notes et références
- (en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Cangjie input method » (voir la liste des auteurs).
- (zh) 倉頡中文資訊碼 : 倉頡字母、部首、注音三用檢字對照, 全華科技, , manuel de la version initiale du système Cangjie avec une carte contrôleur. Dans la section intitulée 倉頡字母中文輸入法 : « Il y a aussi des formes auxiliaires pour pallier les lacunes des radicaux. Ces formes sont des variations des formes des radicaux, [et ainsi] sont faciles à retenir. […] Le dictionnaire joint [à cet ouvrage] est basé [sic] sur les 4 800 caractères standards couramment utilisés et inventoriés par le Ministère de l'Éducation. En ajoutant à ceux-là ceux qui sont automatiquement générés, le nombre de caractères est environ de 15 000 (en utilisant le dictionnaire Kangxi comme base). »
- (zh) Array.com.tw évoque l'absence de marge d'erreur laissée par la méthode Cangjie.
- http://cdp.sinica.edu.tw/cdphanzi/ 漢字構形資料庫
- 上海交通大學漢字編碼組,上海漢語拼音文字研究組編著。漢字信息字典。北京市科學出版社,1988。
- 宋柔,林民,葛詩利。漢字字形計算及其在校對系統中的應用,小型微型計算機系統,第29卷第10期,第1964至1968頁,2008。
- Chao-Lin Liu, Min-Hua Lai, Kan-Wen Tien, Yi-Hsuan Chuang, Shih-Hung Wu et Chia-Ying Lee, « Visually and phonologically similar characters in incorrect Chinese words: Analyses, identification, and applications », ACM Transactions on Asian Language Information Processing, vol. 10, no 2, , p. 1–39 (DOI 10.1145/1967293.1967297)
- (zh) 倉頡之友。馬來西亞, site malaisien dont sont tirées les règles de décomposition ainsi que les vitesses de frappe d'utilisateurs expérimentés et qui fournit aussi la version 5 de la méthode Cangjie pour Windows.
- (zh) Cbflabs.com contient des articles de Chu Bong-Foo discutant de la méthode Cangjie mais aussi de la langue chinoise en informatique. On y trouve le générateur Mingzhu qui permet de générer des sinogrammes dans la console Windows.
Liens externes
- Clavier virtuel utilisant la méthode Cangjie (version 3).
- (en) CjExplorer, un outil pour apprendre à utiliser Cangjie.
- (en) Aperçu de la méthode Cangjie, un site pour apprendre les règles et la méthode Cangjie.
- (zh) Outil en ligne pour la saisie en Cangjie (version 3)
- (zh) The Chinese University of Hong Kong Research Centre for Humanities Computing, base de données de sinogrammes comprenant l'intégralité du jeu de caractères ainsi que les 7 jeux de caractères du système ETen, les codes Cangjie y sont inclus.