Racine carrée inverse rapide
La racine carrée inverse rapide (en anglais fast inverse square root, parfois abrégé Fast InvSqrt() ou par la constante 0x5f3759df en hexadécimal) est une méthode pour calculer x−½, l'inverse de la racine carrée d'un nombre à virgule flottante à simple précision sur 32 bits. L'algorithme a probablement été développé chez Silicon Graphics au début des années 1990. Il a entre autres été utilisé dans le code source de Quake III Arena, un jeu vidéo sorti en 1999[1]. À l'époque, le principal avantage de cet algorithme était d'éviter d'utiliser des coûteuses opérations à virgules flottantes en préférant des opérations sur entiers. Les racines carrées inverses sont utilisées pour calculer les angles d'incidence et la réflexion pour la lumière et l'ombre en imagerie numérique.
L'algorithme prend en entrée des flottants de 32 bits non signés et stocke la moitié de cette valeur pour l'utiliser plus tard. Ensuite, il traite le nombre à virgule flottante comme un entier et lui applique un décalage logique à droite d'un bit et le résultat est soustrait à la valeur « magique » 0x5f3759df. Il s'agit de la première approximation de la racine carrée inverse du nombre passé en entrée. En considérant de nouveau les bits comme un nombre à virgule flottante et en appliquant au nombre la méthode de Newton, on améliore cette approximation. Bien que n'assurant pas la précision la plus fine possible, le résultat final est une approximation de la racine carrée inverse d'un nombre à virgule flottante qui s'exécute quatre fois plus vite qu'une division d'un tel nombre.
Motivation
Les racines carrées inverses d'un nombre à virgule flottante sont utilisées pour calculer un vecteur normalisé[2]. En synthèse d'image 3D, ces vecteurs normalisés sont utilisés pour déterminer l'éclairage et l'ombrage. Des millions de ces calculs sont ainsi nécessaires chaque seconde. Avant l'apparition de matériel dédié au TCL, ces calculs pouvaient être lents. Ce fut particulièrement le cas lorsque cette technique a été développée au début des années 1990 où les opérations sur les nombres à virgule flottante étaient plus lentes que les calculs sur entiers[1].
Afin de normaliser un vecteur, on détermine la longueur de celui-ci en calculant sa norme euclidienne : la racine carrée de la somme du carré de ses composantes. Après avoir divisé chaque composante par cette longueur, on obtient alors un nouveau vecteur unitaire pointant dans la même direction.
- est la norme euclidienne du vecteur, de la même manière que l'on calcule une distance dans un espace euclidien.
- est le vecteur (unitaire) normalisé. Avec représentant ,
- , liant le vecteur unitaire à la racine carrée inverse des composantes.
Aperçu du code
Le code source suivant est l'implémentation de la racine carrée inverse dans Quake III Arena dont on a retiré les directives du préprocesseur C mais qui contient les commentaires originaux[3].
float Q_rsqrt( float number )
{
long i;
float x2, y;
const float threehalfs = 1.5F;
x2 = number * 0.5F;
y = number;
i = * ( long * ) &y; // evil floating point bit level hacking
i = 0x5f3759df - ( i >> 1 ); // what the fuck?
y = * ( float * ) &i;
y = y * ( threehalfs - ( x2 * y * y ) ); // 1st iteration
// y = y * ( threehalfs - ( x2 * y * y ) ); // 2nd iteration, this can be removed
return y;
}
Afin de déterminer la racine carrée inverse, un programme calculerait une approximation de puis appliquerait ensuite une méthode numérique afin de peaufiner le résultat jusqu'à atteindre une erreur d'approximation acceptable. Des méthodes de calcul du début des années 1990 ont permis d'avoir une première approximation depuis une table de correspondance[4]. Cette nouvelle fonction s'est montrée plus efficace que les tables de correspondance et environ quatre fois plus rapide qu'une division flottante classique[5]. L'algorithme a été conçu selon le standard[6] pour les nombres à virgule flottante 32-bit, mais des recherches de Chris Lomont et ensuite Charles McEniry ont montré qu'il pouvait être implémenté en utilisant d'autres spécifications de nombres à virgule flottante.
Le gain de vitesse apporté par le kludge qu'est la racine carrée inverse rapide vient du traitement du mot double[7] contenant le nombre à virgule flottante considéré comme entier qui est ensuite soustrait à une constante spécifique : 0x5f3759df. L'utilité de cette constante n'étant pas claire à première vue, on la considère alors comme un nombre magique[1] - [8] - [9] - [10]. Après cette soustraction d'entiers et ce décalage à droite, on obtient un mot double qui, lorsqu'il est considéré comme un nombre à virgule flottante, devient une approximation grossière de la racine carrée inverse du nombre entré. Ensuite, une itération de la méthode de Newton est réalisée afin de gagner en précision et le résultat est retourné. L'algorithme génère des résultats raisonnablement précis en utilisant une seule approximation par la méthode de Newton ; toutefois, il reste plus lent que d'utiliser l'instruction SSE rsqrtss sortie elle aussi en 1999 sur les processeurs x86[11].
Un exemple pratique
Considérons un nombre x = 0,156 25, pour lequel on souhaite calculer 1/√x ≈ 2,529 82. Voici les premières étapes de l'algorithme :
0011_1110_0010_0000_0000_0000_0000_0000 Trame binaire de x et i 0001_1111_0001_0000_0000_0000_0000_0000 Décalage à droite d'une position : (i >> 1) 0101_1111_0011_0111_0101_1001_1101_1111 Le nombre magique 0x5f3759df 0100_0000_0010_0111_0101_1001_1101_1111 le résultat de 0x5f3759df - (i >> 1)
En utilisant la représentation IEEE 32-bit :
0_01111100_01000000000000000000000 1.25 * 2^-3 0_00111110_00100000000000000000000 1.125 * 2^-65 0_10111110_01101110101100111011111 1.432430... * 2^+63 0_10000000_01001110101100111011111 1.307430... * 2^+1
En réinterprétant la dernière trame binaire en tant que nombre à virgule flottante on obtient l'approximation y = 2,614 86 ayant une erreur relative d'environ 3,4 %. Après une itération de la méthode de Newton, le résultat final est y = 2,525 49 avec une erreur de seulement 0,17 %.
Fonctionnement de l'algorithme
L'algorithme calcule 1/√x en effectuant les étapes suivantes :
- Transforme l'argument x en entier afin d'appliquer une approximation de log2(x) ;
- Utilise cet entier pour calculer une approximation de log2(1/√x) ;
- Transforme celui-ci afin de revenir à un nombre flottant afin d'effectuer une approximation de l'exponentielle base-2 ;
- Affine l'approximation en utilisant une itération de la méthode de Newton.
Représentation en nombre flottant
Puisque cet algorithme s'appuie fortement sur la représentation bit à bit des nombres à virgule flottante de simple précision, un aperçu rapide de ce système est fourni ici. Afin d'encoder un nombre réel non nul x en tant que flottant de simple précision, on commence par écrire x comme un nombre binaire en notation scientifique :
Où l'exposant ex est un entier, mx ∈ [0, 1), et 1,b1b2b3... est la représentation binaire de la « mantisse » (1 + mx). Notons qu'il n'est pas nécessaire d'enregistrer le bit avant la virgule dans la mantisse car il vaut toujours 1. Avec ce formalisme, on calcule trois entiers :
- Sx, le « bit de signe », valant 0 si x > 0 ou 1 si x < 0 (1 bit) ;
- Ex = ex + B est l'« exposant biaisé » où B = 127 est le « biais d'exposant » (en)[12] (8 bits) ;
- Mx = mx × L, où L = 223 [13] (23 bits).
Ces valeurs sont ensuite condensées de gauche à droite dans un conteneur 32 bits.
Par exemple, en utilisant le nombre x = 0,156 25 = 0,001 012. En normalisant x on a :
Donc, les trois valeurs entières non signées sont :
- S = 0 ;
- E = −3 + 127 = 124 = 011111002 ;
- M = 0,25 × 223 = 2097152 = 010000000000000000000002.
Ces champs sont condensés comme ceci :
Approcher un logarithme en passant à l'entier
S'il fallait calculer 1/√x sans un ordinateur ou une calculatrice, une table de logarithmes serait utilement accompagnée de l'identité logb(1/√x) = −½ logb(x) valide quelle que soit la base b. La racine carrée inverse rapide repose sur cette dernière ainsi que sur le fait que l'on puisse effectuer un logarithme approximatif d'un nombre en passant d'un float32 à un entier. Explications :
Soit x un nombre normal positif :
On a alors
Mais puisque mx ∈ [0, 1), le logarithme de la partie droite peut être arrondi par[14]
où σ est un paramètre arbitraire permettant de régler l'arrondi. Par exemple : σ = 0 fournit des résultats exacts aux bords de l'intervalle tandis que σ ≈ 0.0430357 fournit l'approximation optimale.
Alors nous avons l'approximation
D'un autre côté, en interprétant la représentation binaire de x en tant qu'entier, on obtient[15] :
On remarque alors que Ix est une approximation linéaire mise à l'échelle et décalée de log2(x), comme présenté sur le graphique ci-contre. En d'autres termes, log2(x) est approché par
Première approximation du résultat
Le calcul de y = 1/√x est fondé sur l'identité
En utilisant l'approximation du logarithme telle que précédemment définie et appliquée à x et y, l'équation devient :
Qui s'écrit en code C :
i = 0x5f3759df - ( i >> 1 );
Le premier terme étant le nombre magique
à partir duquel on déduit σ ≈ 0,045 046 6. Le second terme, ½ Ix, est déterminé en décalant à droite une fois les bits de Ix[16].
Méthode de Newton
Après avoir appliqué ces opérations, l'algorithme considère de nouveau le mot double comme nombre flottant (y = *(float*)&i;
) et effectue une multiplication en nombre flottant (y = y*(1.5f - xhalf*y*y);
). Celle-ci étant une itération de la méthode de Newton permettant de trouver des solutions à une équation donnée. Pour ce même exemple :
- est la racine carrée inverse, ou encore, en fonction de y :
- .
- Avec représentant l'expression générale de la méthode de Newton avec comme première approximation,
- est l'expression particulière où et .
- Ainsi
y = y*(1.5f - xhalf*y*y);
est semblable à
La première approximation est générée en utilisant les opérations en tant qu'entiers puis fournie aux deux dernières lignes de code de la fonction. Des itérations répétées de cet algorithme en utilisant la sortie de la fonction () comme argument pour l'itération suivante fait converger l'algorithme sur la racine avec une incertitude de plus en plus faible[17]. Une seule itération a été utilisée dans le cadre du moteur de Quake III, une seconde itération ayant été commentée et laissée.
Histoire et enquête
Le code source de Quake III a été diffusé après la QuakeCon 2005, mais des copies de la racine carrée inverse rapide sont apparues sur Usenet et d'autres forums dès 2002/2003[1]. Les spéculations à l'époque pointent John Carmack comme auteur probable de la fonction. Mais ce dernier dément la chose et suggère que la fonction a été écrite par Terje Mathisen, un programmeur assembleur talentueux qui a aidé les développeurs d'id Software pour optimiser Quake. Mathisen a effectivement écrit une fonction similaire à la fin des années 1990, mais les auteurs originaux remontent à plus loin dans l'histoire de l'infographie 3D avec l'implémentation faite par Gary Tarolli pour un SGI Indigo (en) qui serait l'une des premières utilisations connues. Rys Sommefeldt, auteur de l'enquête, finit par conclure que l'algorithme original est l'œuvre de Greg Walsh de Ardent Computer (en) en collaboration avec Cleve Moler, fondateur de MathWorks[18].
On ne sait pas comment la valeur exacte du nombre magique a été déterminée. Chris Lomont a développé une fonction pour minimiser l'erreur d'approximation en choisissant le nombre magique R dans un intervalle. Il calcule d'abord la constante optimale pour l'étape d'approximation linéaire, il obtient 0x5f37642f qui est proche de 0x5f3759df, mais avec cette nouvelle constante, il obtient une précision moindre après une itération de la méthode de Newton[19]. Il cherche alors une constante optimale même après une ou deux itérations de la méthode de Newton et obtient la valeur 0x5f375a86 qui se révèle plus précise que l'originale, même après chaque étape d'itération[19]. Il conclut alors en se demandant si la valeur originale a été choisie par dérivation ou par essai-erreur[20]. Dans la lancée, Lomont indique aussi que la valeur magique pour flottant double précision 64-bits IEEE 754 est 0x5fe6ec85e7de30da, mais il a été démontré que la valeur exacte était 0x5fe6eb50c7b537a9[21]. Charles McEniry a effectué une optimisation similaire mais plus sophistiquée sur les valeurs probables pour R. Il cherche d'abord par une méthode par force brute et obtient la valeur déterminée par Lomont[22]. Il a ensuite essayé de rechercher cette valeur par une méthode de dichotomie et obtient alors la valeur utilisée initialement dans la fonction, ce qui conduit McEniry à penser que cette constante a probablement été obtenue par cette méthode[23].
Notes et références
- (en) Origin of Quake3's Fast InvSqrt() Beyond3D.com, consulté le 16 septembre 2012.
- (en) Jim Blinn, Jim Blinn's Corner : Notation, Notation, Notation, Amsterdam/Boston, Morgan Kaufmann, (ISBN 978-1-55860-860-3, lire en ligne), p. 130
- quake3-1.32b/code/game/q_math.c id Software consulté 16 septembre 2012.
- (en) David Eberly, 3D Game Engine Design, Morgan Kaufmann, , 561 p. (ISBN 978-1-55860-593-0), p. 504.
- (en) Lomont Chris, « Fast Inverse Square Root », sur www.lomont.org, (consulté le ), p. 1.
- IEEE 754-1985 (en).
- L'utilisation du type
long
réduit la portabilité de ce code sur les systèmes récents. Afin que le code s'exécute,sizeof(long)
doit valoir 4 octets sinon la fonction risque de retourner des résultats négatifs. Sur les systèmes 64-bit récents,sizeof(long)
vaut 8 octets. - (en) Lomont Chris, « Fast Inverse Square Root », sur www.lomont.org, (consulté le ), p. 3.
- (en) Charles McEniry, « The Mathematics Behind the Fast Inverse Square Root Function Code », sur daxia.com, (consulté le ), p. 1.
- (en) David Eberly, 3D Game Engine Design, Morgan Kaufmann, , 561 p. (ISBN 978-1-55860-593-0), p. 2.
- (en) Elan Ruskin, « Timing Square Root », sur assemblyrequired.crashworks.org, (consulté le ).
- Ex doit être dans le domaine [1, 254] afin que x soit représentable comme un nombre normal (en).
- Les seuls réels pouvant être représentés exactement comme des nombres à virgule flottante sont ceux pour lesquels Mx est un entier. Les autres nombres ne peuvent être représentés que de façon approchée en les arrondissant au nombre représentable le plus proche.
- (en) Charles McEniry, « The Mathematics Behind the Fast Inverse Square Root Function Code », sur daxia.com, (consulté le ), p. 3.
- Sx = 0 puisque x > 0.
- Hennessey & Patterson 1998, p. 305.
- (en) Charles McEniry, « The Mathematics Behind the Fast Inverse Square Root Function Code », sur daxia.com, (consulté le ), p. 6.
- Origin of Quake3's Fast InvSqrt() - Part Two Beyond3D.com, consulté le 17 septembre 2012.
- Lomont 2003, p. 10.
- Lomont 2003, p. 10–11.
- (en) Matthew Robertson, « A Brief History of InvSqrt », UNBSJ, .
- McEniry 2007, p. 11-12.
- McEniry 2007, p. 16.
Articles connexes
Liens externes
- (en) A Brief History of InvSqrt par Matthew Robertson
- (en) Fast Inverse Square Root par Chris Lomont
- (en) Origin of Quake 3's Fast InvSqrt()
- (en) Code source de Quake III Arena