Redondance (théorie de l'information)
En thĂ©orie de lâinformation, la redondance correspond au nombre de bits nĂ©cessaires pour transmettre un message auquel on soustrait le nombre de bits correspondant aux informations rĂ©ellement contenues dans ce mĂȘme message. Officieusement, la redondance correspond Ă lâ« espace » utilisĂ© mais non occupĂ© pour transmettre certaines donnĂ©es. La compression de donnĂ©es permet de rĂ©duire ou dâĂ©liminer la redondance que lâutilisateur ne dĂ©sire pas conserver, alors que les sommes de contrĂŽle permettent dâajouter une redondance souhaitĂ©e pour les besoins du code correcteur lorsque lâutilisateur communique sur un canal bruyant Ă capacitĂ© limitĂ©e.
DĂ©finition quantitative
Dans la description de la redondance de donnĂ©es brutes, le taux dâentropie dâune source dâinformations correspond Ă son entropie moyenne par symbole. Pour les sources dites sans mĂ©moire, ce taux correspond simplement Ă lâentropie de chaque symbole, tandis que, dans la plupart des cas gĂ©nĂ©raux dâun processus stochastique, il correspond Ă
la limite, quand n tend vers lâinfini, de lâentropie conjointe des premiers symboles n divisĂ©e par n. En thĂ©orie de lâinformation, on parle gĂ©nĂ©ralement de "taux" ou de lâ"entropie" dâune langue. Cela sâapplique, par exemple, lorsque la source dâinformations est en prose anglaise. Le taux dâune source sans mĂ©moire est simplement , Ă©tant donnĂ© que, par dĂ©finition, il nâexiste aucune interdĂ©pendance entre les messages successifs dâune source sans mĂ©moire.
Le taux absolu dâune langue ou dâune source correspond tout simplement au
logarithme de la cardinalitĂ© de lâespace du message, ou de lâalphabet utilisĂ©. (Cette formule est parfois nommĂ©e Entropie de Hartley.) Il correspond au taux maximal possible dâinformations qui peuvent ĂȘtre transmises grĂące Ă cet alphabet. (Le logarithme doit ĂȘtre ramenĂ© Ă une base appropriĂ©e pour lâunitĂ© de mesure utilisĂ©e.) Le taux absolu Ă©quivaut au taux rĂ©el si la source est sans mĂ©moire et suit une loi uniforme discrĂšte.
La redondance absolue peut alors ĂȘtre dĂ©finie comme Ă©tant
la différence entre le taux et le taux absolu.
La quantitĂ© est appelĂ©e redondance relative et offre le taux de compression de donnĂ©es maximal possible, lorsquâelle est exprimĂ©e comme Ă©tant le pourcentage par lequel la taille dâun fichier peut ĂȘtre rĂ©duite. (Lorsquâelle est exprimĂ©e comme Ă©tant le ratio entre la taille du fichier original et celle du fichier compressĂ©, la quantitĂ© donne le taux maximal de compression qui peut ĂȘtre atteint.) Lâefficience est complĂ©mentaire au concept de redondance relative, et est dĂ©finie par pour que . Une source sans mĂ©moire obĂ©issant Ă une loi discrĂšte uniforme ne dispose dâaucune redondance (et donc dâune efficience de 100 %), et ne peut ĂȘtre compressĂ©e.
Autres notions de redondance
Lâinformation mutuelle, ou une variante normalisĂ©e, permet de mesurer la redondance entre deux variables. La corrĂ©lation totale donne la mesure de la redondance entre plusieurs variables.
La redondance de donnĂ©es compressĂ©es correspond Ă la diffĂ©rence entre lâespĂ©rance mathĂ©matique de la longueur des donnĂ©es compressĂ©es de messages (ou le taux de donnĂ©es espĂ©rĂ© ) et lâentropie (ou le taux dâentropie ). (Nous supposons ici que les donnĂ©es sont ergodiques et stationnaires, comme une source sans mĂ©moire.) Bien que la diffĂ©rence de taux peut ĂȘtre aussi arbitrairement faible que augmentĂ©, cela ne sâapplique pas Ă la diffĂ©rence de taux rĂ©elle bien quâelle puisse thĂ©oriquement ĂȘtre majorĂ©e de 1 dans le cas de sources sans mĂ©moire Ă entropie finie.
Références
- (en) Fazlollah M. Reza, An Introduction to Information Theory, New York, Dover, (1re Ă©d. 1961) (ISBN 0-486-68210-2)
- (en) Bruce Schneier, Applied Cryptography : Protocols, Algorithms, and Source Code in C, New York, John Wiley & Sons, Inc., , 758 p. (ISBN 0-471-12845-7)
- (en) B Auffarth, M. Lopez-Sanchez et J. Cerquides, Advances in Data Mining. Applications and Theoretical Aspects, Springer, , 248â262 p., « Comparison of Redundancy and Relevance Measures for Feature Selection in Tissue Classification of CT images »