Virgule flottante
La virgule flottante est une méthode d'écriture de nombres fréquemment utilisée dans les ordinateurs, équivalente à la notation scientifique en numération binaire. Elle consiste à représenter un nombre par :
- un signe (égal à −1 ou 1) ;
- une mantisse (aussi appelée significande) ;
- et un exposant (entier relatif, généralement borné).
Un tel triplet représente le nombre
signe × mantisse × baseexposant
La base de représentation est généralement 2 sur ordinateur, mais aussi 8 ou 16 sur certaines anciennes machines, 10 sur de nombreuses calculatrices, ou éventuellement toute autre valeur. En faisant varier l'exposant, on fait « flotter » la virgule. La mantisse est une suite de chiffres en base b, généralement de taille fixée. La valeur de l'« exposant » indique le multiplicateur, c'est-à -dire la position de la virgule virtuelle.
Comparaison avec la virgule fixe
La virgule flottante s'oppose à la représentation en virgule fixe, qui indique un nombre entier d'un sous-multiple de l'unité : « 1234,567 » est une façon commode d'écrire 1234 et 567 millièmes, soit 1234567 millièmes[1].
La représentation en virgule flottante peut, avec le même nombre de bits, gérer un intervalle numérique plus important.
Une représentation décimale en virgule fixe ayant 7 chiffres décimaux dont 2 après la virgule peut représenter les nombres :
12345,67
123,45
1,23 etc
La représentation décimale en virgule flottante (comme le format IEEE 754 decimal32) peut, avec le même nombre de chiffres décimaux, représenter en plus :
1,234567
123456,7 = 1,234567 × 105
0,00001234567 = 1,234567 × 10−5
1234567000000000 = 1,234567 × 1015 etc
La représentation en virgule flottante préserve la précision. La mantisse a toujours le même nombre de chiffres significatifs, sans zéro au début.
Une représentation décimale en virgule fixe ayant 7 chiffres décimaux dont 2 après la virgule a au plus 7 chiffres significatifs :
10000,00 ÷ 00700,00 = 00014,28.
La représentation décimale en virgule flottante (comme le format IEEE 754 decimal32) peut, avec le même nombre de chiffres dans la mantisse, conserver la précision : (1,000000 × 104) ÷ (7,000000 × 102) = 1,428561 × 101.
La virgule flottante permet de définir une limite de l'erreur d'approximation relative ou epsilon d'une machine.
Cet avantage se paie par l'occupation de plus de place, car il est nécessaire d'encoder la position de la virgule (représentée par l'exposant). Il faut aussi plus de calculs pour effectuer les opérations, qui concernent non plus un nombre entier, mais deux, ou trois si on considère le signe.
Éléments de mathématique des nombres flottants
Bien que la notation scientifique et le type de donnée informatique « nombre en virgule flottante » soient issus de la pratique du calcul, leur particularités ont fait l'objet d'études mathématiques. On doit citer les travaux de William Kahan, parfois surnommé « père de la virgule flottante[2] ».
Nombres à virgule flottante et nombres réels
Quand, comme c'est le cas le plus souvent, on utilise le nombre à virgule flottante dans un calcul, on le considère implicitement comme une approximation d'un nombre réel. La précision de cette approximation est celle de la mantisse, dont le premier chiffre ne peut être zéro que lorsque l'exposant est le plus négatif possible. Le nombre en virgule flottante représente un réel dont la valeur est comprise dans un intervalle autour de la valeur entière de la mantisse, large comme la différence entre deux valeurs consécutives de celle-ci.
D'un point de vue mathématique, la valeur d'une expression numérique en virgule flottante est un ensemble continu de nombres réels, dont les règles d'arrondi définissent précisément les limites.
Contrairement à ce qui se passe dans l'ensemble des nombres réels, l'addition n'est pas associative pour les nombres à virgule flottante[3], d'où importance de l'ordre de calcul.
Supposons que nous avons à faire la somme d'une liste de nombres à mantisse de trois décimaux :
1,12 × 102 (se lit « un virgule douze multiplié par dix puissance deux », soit 112)
2,00 × 10-1
7,50 × 101
3,00 × 10-1
3,07 × 10-1
4,00 × 10-1
2,17 × 100
Dans une addition de nombres flottants, seuls les nombres qui peuvent se représenter par une mantisse non nulle avec l'exposant le plus grand affectent le résultat.
- si on effectue l'addition dans l'ordre de la liste, on calcule successivement
1,12 × 102 + 2,00 × 10-1 ≈ 1,12 × 102
1,12 × 102 + 7,50 × 101 = 1,87 × 102
1,87 × 102 + 3,00 × 10-1 ≈ 1,87 × 102
1,87 × 102 + 3,07 × 10-1 ≈ 1,87 × 102
1,87 × 102 + 4.00 × 10-1 ≈ 1,87 × 102
1,87 × 102 + 2,17 × 100 = 1,89 × 102
- si on effectue l'addition après avoir trié la liste dans l'ordre croissant, on obtient :
2,00 × 10-1 + 3,00 × 10-1 = 5,00 × 10-1
5,00 × 10-1 + 3,07 × 10-1 = 8,07 × 10-1
8,07 × 10-1 + 2,17 × 100 ≈ 2,98 × 100
2,98 × 100 + 7,50 × 101 ≈ 7,80 × 101
7,80 × 101 + 1,12 × 102 = 1,90 × 102
De ce fait, le calcul de propagation des incertitudes ne s'applique qu'à celle sur les données. La précision du calcul doit être largement supérieure à l'incertitude.
L'expression d'un nombre dans un système à virgule flottante ne peut pas, en général, s'exprimer exactement dans un autre système à virgule flottante de base différente[4].
Le cas des décimales d'un nombre exprimé en notation scientifique, décimale, en virgule flottante binaire, qu'utilisent les ordinateurs, se pose fréquemment. Il oblige à un arrondi, comme le fait sentir l'exemple de la valeur 0,1 ; c'est-à -dire la fraction 1/10.
Les nombres en virgule flottante binaire expriment la valeur par un entier, la mantisse, multipliée ou divisée par une puissance de deux. Aucune fraction, quel que soit le dénominateur 2n, ne vaut 1/10 — tout comme 1/3 ne s'exprime par aucun nombre décimal. Il y a nécessairement un arrondi.
De ce fait, le calcul se fait, chaque fois que c'est possible, sur les nombres entiers : par exemple, sur des centièmes plutôt que sur l'unité monétaire. En changeant d'unité, on évite l'arrondi à la conversion en binaire.
Ensemble des nombres à virgule flottante
L'ensemble des nombres représentés sous la forme d'un nombre flottant, ou ensemble des flottants, est un ensemble fini, dont le dénombrement dépend de la base de représentation et des nombres de chiffres pour la mantisse et l'exposant.
Le nombre de chiffres de la mantisse et la base numérique — binaire ou décimale, par exemple — définissent la précision arithmétique. La différence entre 1 et son successeur dans l'ensemble des flottants définit de manière usuelle l'epsilon d'un système à virgule flottante.
L'ensemble des flottants n'est pas stable sous l'action des opérations arithmétiques usuelles. Il faudrait que le résultat de l'opération soit toujours un élément de l'ensemble[5] ; mais il est fréquent que le résultat d'une opération arithmétique ne puisse s'exprimer avec le même nombre de chiffres que ses opérandes. Pour obtenir la stabilité, on doit y ajouter une fonction d'arrondi.
Mises en Å“uvre
La vitesse des opérations en virgule flottante, communément appelée FLOPS dans les mesures de performances, est une caractéristique importante des machines, en particulier dans les logiciels qui effectuent des calculs mathématiques à grande échelle.
Au fil du temps, un certain nombre de représentations à virgule flottante a vu le jour, ce qui constituait un frein au portage des programmes de calcul scientifique d'une machine à l'autre, en raison des différences de représentations internes et de comportement des nombres flottants. Pour cette raison, l'IEEE a mis en place une norme en 1985, IEEE 754.
Norme IEEE 754
La norme IEEE 754 de 1985[6] (reprise par la norme internationale CEI 60559[7]) spécifie deux formats de nombres en virgule flottante (et deux formats étendus optionnels) en base 2, ainsi que quelques opérations associées : principalement l'addition, la soustraction, la multiplication, la division et la racine carrée. La quasi-totalité des architectures d'ordinateurs actuelles, y compris IA32, PowerPC, et AMD64, incluent une implémentation matérielle des calculs sur flottants IEEE, directement dans le microprocesseur, garantissant une exécution rapide.
Les deux formats fixés par la norme IEEE 754 sont:
— 32 bits (« simple précision », renommé « binary32 » dans la révision de 2008[8]) ;
— 64 bits (« double précision », renommé « binary64 » dans la révision de 2008).
La répartition des bits est la suivante, où 1 ≤ M < 2 :
Précision | Encodage | Signe | Exposant | Mantisse | Valeur d'un nombre | Précision | Chiffres significatifs |
---|---|---|---|---|---|---|---|
Simple précision | 32 bits | 1 bit | 8 bits | 23 bits | 24 bits | environ 7 | |
Double précision | 64 bits | 1 bit | 11 bits | 52 bits | 53 bits | environ 16 |
Le tableau ci-dessus indique les bits représentés. Le premier bit de la mantisse d'un nombre normalisé étant toujours 1, il n'est représenté dans aucun de ces deux formats : on parle de bit implicite. Pour ces deux formats, les précisions sont donc respectivement de 24 et de 53 bits.
Deux valeurs du champ Exposant sont réservées pour encoder les nombres spéciaux : nombres dénormalisés et zéro signé d'une part, les infinis et les NaN (Not-a-Number) d'autre part. Les autres définissent la dynamique de la représentation : 8 bits permettent de faire varier l'ordre de grandeur sur 256 binades (en) ou 76 décades.
En plus de la représentation, la norme spécifie exactement le comportement des opérations supportées : celles-ci doivent être correctement arrondies dans un des 4 modes d'arrondi choisi.
Cette norme a été révisée dans les années 2000 pour aboutir à la publication d'une nouvelle norme en 2008[8]. De nouveaux formats ont été définis (« quadruple précision » ou binary128, et des formats décimaux), la notion de format étendu a été généralisée, et de nouvelles opérations ont été ajoutées, comme le FMA ; les principales fonctions élémentaires sont recommandées.
Plusieurs compilateurs de Fortran et d'autres langages peuvent être appelés avec une option de double précision automatique qui force tous les flottants d'un programme à la double précision[9] et dispense d'une revue fastidieuse pouvant entraîner des erreurs.
Flottants étendus
Certaines implémentations ajoutent un ou plusieurs formats de précision supérieure ; ainsi, IA-32 et IA-64 ont un format étendu sur 80 bits. La norme IEEE 754-1985 prévoit des tailles minimales pour ces formats étendus :
Précision | Signe | Exposant | Mantisse |
---|---|---|---|
Simple précision étendue | 1 bit | 11 bits ou plus | 32 bits ou plus |
Double précision étendue | 1 bit | 15 bits ou plus | 64 bits ou plus |
Ces représentations « étendues » n'utilisent pas forcément le bit implicite de la mantisse.
Dans la pratique, seule la double précision étendue est encore utilisée, dans sa forme minimale (1+15+64 = 80 bits, le format étendu de l'IA32 mentionné plus haut), si on exclut les formats de précision supérieure (comme la double précision en tant que simple précision étendue, et la quadruple précision en tant que double précision étendue).
Exceptions
En arithmétique en virgule flottante IEEE, un calcul peut aboutir à des valeurs qui ne correspondent pas à des nombres :
- NaN (« not a number »), qui sera par exemple le résultat de la tentative de division flottante de zéro par zéro, ou de la racine carrée d'un nombre strictement négatif. Les NaN se propagent : la plupart des opérations faisant intervenir un NaN donnent NaN (des exceptions sont possibles, comme NaN puissance 0, qui peut donner 1).
- Un infini positif et un infini négatif, qui sont par exemple le résultat d'un débordement en arrondi au plus près.
Précision arbitraire
Lorsque la précision désirée pour le résultat dépasse celle de l'arithmétique en virgule flottante fournie par la machine, on peut devoir recourir à des calculs sur des flottants en précision supérieure. Cela s'avère aussi nécessaire pour effectuer des calculs numériquement instables.
Différentes bibliothèques logicielles, ainsi que la plupart des systèmes de calcul formel, offrent une arithmétique en virgule flottante en précision arbitraire, dans laquelle la taille de la mantisse peut être choisie par l'utilisateur. Citons notamment la bibliothèque GNU MPFR, qui implémente les opérations arithmétiques de base ainsi que de nombreuses fonctions usuelles sur les flottants en base 2 de précision arbitraire. La sémantique des opérations MPFR est inspirée de celle de la norme IEEE-754. En particulier, la bibliothèque garantit l'arrondi correct des résultats.
Précautions d'emploi
Les calculs en virgule flottante sont pratiques, mais présentent divers désagréments, notamment :
- leur précision limitée, qui se traduit par des arrondis (dus aux opérations, ainsi qu'aux changements de base implicites) qui peuvent s'accumuler de façon gênante. En particulier, la soustraction de deux nombres très proches et entachés d'erreur provoque une grande perte de précision relative : on parle de cancellation (plus précisément, cancellation catastrophique) ;
- une plage d'exposants limitée, autorisant une certaine dynamique, mais pouvant donner lieu au-delà à des débordements (overflows) lorsque le résultat d'une opération est plus grand, en valeur absolue, que la plus grande valeur représentable, et à des sous-passements (underflows), lorsqu'un résultat est plus petit, en valeur absolue, que le plus petit flottant normalisé positif, puis à des résultats n'ayant plus aucun sens.
Il est par exemple tentant de réorganiser des expressions en virgule flottante comme on le ferait d'expressions mathématiques. Cela n'est cependant pas anodin :
- les calculs en virgule flottante, contrairement aux calculs sur les réels, ne sont pas associatifs. Par exemple, avec une précision relative de 3 chiffres décimaux, on aurait : (0,999 + 0,0004) + 0,0004 = 0,999 + 0,0004 = 0,999 mais 0,999 + (0,0004 + 0,0004) = 0,999 + 0,0008 = 1,000 ; on dit qu'il y a absorption lorsqu'un opérande comme 0,999 absorbe ainsi un plus petit non nul ;
- l'évaluation des expressions est parfois faite en précision étendue, avec retour à la précision normale lors du rangement des valeurs ; dans ce cas, on peut avoir une meilleure précision en éliminant certaines variables intermédiaires peu utiles, et les rangements associés.
Dans une série d'additions, comme celle des valeurs d'un tableau, on peut évaluer l'erreur, et la reporter sur la prochaine addition par l'algorithme de sommation de Kahan (en). L'erreur finale est ainsi beaucoup plus petite.
Développement historique
Dès 1914, L. Torres y Quevedo cherchait à mettre au point une version électromécanique de la machine analytique de Charles Babbage et imagina d'exécuter les calculs en virgule flottante[10] - [11].
Vingt-cinq ans plus tard (en 1938), Konrad Zuse parachevait son premier calculateur mécanique programmable binaire, le Z1[12] ; cet appareil utilisait lui aussi une représentation en virgule flottante sur 24 bits, avec un exposant signé codé sur 7 bits, une mantisse codée sur 16 bits (dont un bit implicite), et un bit de signe. Le calculateur Z3 à relais (1941), plus fiable, introduisait la notion de quantité infinie (positive ou négative) ∞ ; cela permettait de donner des résultats infinis, comme ceux résultant d'opérations telles que , et il interrompait les calculs lorsqu'ils portaient sur des indéterminations, comme . Zuse se proposait de gérer tous les calculs arithmétiques faisant intervenir et les indéterminations (NaN), anticipant ainsi avec quarante ans d'avance des conventions qui seront intégrées à la norme américaine IEEE[13]. Simultanément, le mathématicien von Neumann s'opposait au contraire à l'introduction du calcul en virgule flottante pour la Machine IAS[13] (1951).
Le premier calculateur commercial disposant d'un organe de calcul en virgule flottante pré-câblé aura été le Z4 de Zuse, développé entre 1942 et 1945. En 1946, Bell Laboratories mit sur le marché le Mark V, qui met en œuvre une arithmétique en virgule flottante décimale[14].
Le Pilot ACE, un prototype britannique développé en 1950 au National Physical Laboratory, disposait d'emblée d'une arithmétique en virgule flottante. 33 de ces ordinateurs furent commercialisés par English Electric sous le nom de DEUCE. Quoique l’arithmétique fût simplement programmée et non pré-câblée, l'existence d'une horloge cadencée à 1 MHz rendit les premières années cette machine plus rapide que ses concurrentes.
L’IBM 704, produit en série, suivit en 1954 ; il amena la notion d'exposant à décalage. Au cours des décennies suivantes, le recours à une unité arithmétique et logique (UAL) à arithmétique en virgule flottante micro-câblée (FPU) ne fut plus qu'une spécification optionnelle : les ordinateurs qui disposaient d'un tel composant étaient dits scientifiques. Le passage des IBM 704 et 7044 aux IBM 360 introduisit de nombreux problèmes numériques, car la virgule flottante simple précision, ramenée de 36 bits binaire à 32 bits hexadécimale, devenait souvent critique.
La série 1100/2200 des ordinateurs UNIVAC, apparue sur le marché en 1962, comportait deux représentations en virgule flottante :
- Simple précision: 36 bits, comprenant un bit de signe, 8 bits d'exposant et une mantisse codée sur 27 bits.
- Double précision: 72 bits, comprenant un bit de signe, 11 bits d'exposant et une mantisse codée sur 60 bits.
Le Burroughs 6500 (en) utilisait quant à lui une virgule flottante en base 8, en 48 et 96 bits.
Le Control Data 6600 utilisait une virgule flottante binaire 60 bits à mantisse entière.
Sur mini-ordinateur, la virgule flottante resta longtemps programmée. Une unité virgule flottante apparaît chez DEC sur le PDP11-34a en 1977, et en 1979 sur les 21MXF (en) de Hewlett-Packard.
Ce n'est qu’avec le lancement par Intel du microprocesseur i486, en 1989, que les ordinateurs individuels furent enfin dotés en standard d'une UAL à virgule flottante micro-câblée (les coprocesseurs mathématiques x87 étaient préalablement optionnels).
Voir aussi
Bibliographie
- Jean-Michel Muller, Arithmétique virgule flottante, (lire en ligne)
- Vincent Lefèvre et Paul Zimmermann, Arithmétique flottante, INRIA, (lire en ligne)
- (en) David Monniaux, « The pitfalls of verifying floating-point computations », ACM Transactions on Programming Languages and Systems,‎ (lire en ligne) (avertissement sur divers comportements non intuitifs des flottants).
- (en) David Goldberg, « What every computer scientist should know about floating point », Computing surveys,‎ (lire en ligne)
Liens externes
- (en) Convertisseur binaire : Convertisseur binaire interactif à précisions simple et double selon la norme IEEE 754
Articles connexes
Notes
- Stella Baruk, « Virgule, II », dans Dictionnaire de mathématiques élémentaires [détail des éditions].
- Guillaume Legendre, Méthodes numériques. Introduction à l’analyse numérique et au calcul scientifique, (lire en ligne), p. 15.
- Michèle Pichat, Contribution à l’étude des erreurs d’arrondi en arithmétique à virgule flottante.Modélisation et simulation. Institut National Polytechnique de Grenoble - INPG; Université Joseph-Fourier, Grenoble, (lire en ligne), p. I.
- Goldberg 1991.
- définition de la stabilité selon Alain Bouvier, Michel George et François Le Lionnais, Dictionnaire des mathématiques, Presses universitaires de France, (1re éd. 1979)
- Norme IEEE 754-1985
- préface du standard ISO/IEC/IEEE 60559
- Norme IEEE 754-2008
- Exemple de la GNU Compiler Collection
- Pour traiter grands et petits nombres, vers 1840 C. Babbage tentait de manipuler des nombres virgule fixe de 50 chiffres décimaux : B. Randell (Ed.), The Origins of Digital Computers: Selected Papers, 464p., Springer-Verlag, Heidelberg, 1973.
- B. Randell, « From analytical engine to electronic digital computer: the contributions of Ludgate, Torres, and Bush », IEEE Annals of the History of Computing, 4e série, no 4),‎ , p. 327–341
- « Konrad Zuse’s Legacy: The Architecture of the Z1 and Z3 », IEEE Annals of the History of Computing, vol. 19, no 2,‎ , p. 5–15 (DOI 10.1109/85.586067, lire en ligne)
- William Kahan, « John von Neumann Lecture on 'The Baleful Effect of Computer Languages and Benchmarks upon Applied Mathematics, Physics and Chemistry' (1951) », sur Soc. Ind. & Appl. Math.,
- (en) Brian Randell (dir.), The Origins of Digital Computers : Selected Papers, Berlin; New York, Springer-Verlag, (réimpr. 3e, 1982), 580 p. (ISBN 3-540-11319-3, lire en ligne), p. 244