Pyramide (traitement d'image)
En traitement d'images, la pyramide est une représentation multi-résolution d'une image. Elle permet de modéliser l'image à différentes résolutions, depuis l'image initiale jusqu'à une image trÚs grossiÚre. La pyramide d'images est souvent utilisée car elle permet à l'algorithme de traitement d'image de travailler depuis les détails jusqu'au « grossier ». Cet outil est notamment utilisé à des fins de segmentation d'image.
Les principaux types de construction d'une pyramide d'images sont :
- Gaussienne
- Laplacienne
- IrréguliÚre
- Adaptative
Génération d'une pyramide
Il existe deux principaux types de pyramides : passe-bas, et passe-bande.
Une pyramide passe-bas est réalisée en lissant l'image avec un filtre approprié pour ensuite la sous-échantillonner avec l'image lissée. On utilise généralement un facteur 2 le long de chaque direction. La procédure est ensuite répétée sur l'image résultante. Ce cycle est répété plusieurs fois. Chaque cycle de cette procédure résulte en une image plus petite avec un lissage plus important, mais avec une diminution de la densité de l'échantillonnage spatial (c'est-à -dire une diminution de la résolution de l'image). Illustré graphiquement, la représentation des images à différentes résolutions ressemble à une pyramide, avec l'image originale comme base et les images plus petites résultant de chaque cycle.
Une pyramide passe-bande est réalisée en faisant la différence entre les images dont les niveaux sont adjacents dans la pyramide avec une interpolation entre les niveaux de résolution adjacents (mise à l'échelle), ce qui permet le calcul des différences par pixel[1].
Noyaux de génération de pyramide
De nombreux noyaux de lissage ont Ă©tĂ© proposĂ©s pour la crĂ©ation de pyramides[2] - [3] - [4] - [5] - [6] - [7]. Parmi les diffĂ©rentes suggestions donnĂ©es, les noyaux binomiaux provenant des coefficients binomiaux se dĂ©marquent en tant que particuliĂšrement pratiques et thĂ©oriquement bien fondĂ©s[3] - [8] - [9] - [10]. Ainsi, avec pour une image en deux dimensions, nous pouvons appliquer un filtre binomial (normalisĂ©) (1â4, 1â2, 1â4) typiquement, deux fois ou plus le long de chaque dimension spatiale, avant de sous-Ă©chantillonner par un facteur deux. Cette opĂ©ration peut ĂȘtre effectuĂ©e autant de fois que souhaitĂ©e, menant Ă une reprĂ©sentation compacte et multi-rĂ©solution. Si elle est motivĂ©e par des exigences spĂ©cifiques, des Ă©chelles intermĂ©diaires peuvent ĂȘtre faites dans lesquelles le sous-Ă©chantillonnage est laissĂ© de cĂŽtĂ©, menant Ă des pyramides hybrides ou sur-Ă©chantillonnĂ©es[11]. Avec l'augmentation de la puissance de calcul des processeurs actuels, dans certaines situations, il est aussi possible d'utiliser de plus grands filtres de Gauss comme noyaux de lissage dans la gĂ©nĂ©rations des Ă©tapes de la pyramide.
Pyramide de Gauss
Dans les pyramides de Gauss, les images résultats sont modifiées en utilisant une moyenne de Gauss (flou Gaussien) puis réduites. Chaque pixel contenant une moyenne locale qui correspond à un pixel voisin d'un niveau plus bas de la pyramide. Cette technique est utilisée surtout dans la synthÚse de texture.
Pyramide de Laplace
Les pyramides de Laplace sont trĂšs similaires aux pyramides de Gauss, mais sont calculĂ©es en sauvegardant la diffĂ©rence avec l'image floutĂ©e entre chaque niveau. Seul le plus petit niveau n'est pas une diffĂ©rence pour pouvoir reconstruire l'image en haute rĂ©solution utilisant les diffĂ©rences entre chaque niveau. Cette technique peut ĂȘtre utilisĂ©e en compression d'image[12].
Références
- Peter J. Burt et Edward H. Adelson, « The Laplacian Pyramid as a Compact Image Code », IEEE Transactions on Communications, vol. 31,â , p. 532â540 (DOI 10.1109/TCOM.1983.1095851, lire en ligne [PDF])
- P. J. Burt, « Fast filter transform for image processing », Computer Graphics and Image Processing, vol. 16,â , p. 20â51 (DOI 10.1016/0146-664X(81)90092-7)
- James L. Crowley, « A representation for visual information », Carnegie-Mellon University, Robotics Institute,â (lire en ligne)
- Peter Burt et Ted Adelson, « The Laplacian Pyramid as a Compact Image Code », IEEE Trans. Communications, vol. 9, no 4,â , p. 532â540 (lire en ligne)
- J. L. Crowley et A. C. Parker, « A representation for shape based on peaks and ridges in the difference of low-pass transform », IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 6, no 2,â , p. 156â170 (PMID 21869180, DOI 10.1109/TPAMI.1984.4767500)
- J. L. Crowley et A. C. Sanderson, « Multiple resolution representation and probabilistic matching of 2-D gray-scale shape », IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 9, no 1,â , p. 113â121 (DOI 10.1109/tpami.1987.4767876, lire en ligne)
- P. Meer, E. S. Baugher et A. Rosenfeld, « Frequency domain analysis and synthesis of image generating kernels », IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 9,â , p. 512â522 (DOI 10.1109/tpami.1987.4767939)
- Lindeberg, Tony, "Scale-space for discrete signals," PAMI(12), No. 3, March 1990, p. 234-254.
- Lindeberg, Tony. Scale-Space Theory in Computer Vision, Kluwer Academic Publishers, 1994, (ISBN 0-7923-9418-6) (see specifically Chapter 2 for an overview of Gaussian and Laplacian image pyramids and Chapter 3 for theory about generalized binomial kernels and discrete Gaussian kernels)
- See the article on multi-scale approaches for a very brief theoretical statement
- (en) « Real-time scale selection in hybrid multi-scale representations », sur www.nada.kth.se (consulté le )
- (en-US) P. Burt et E. Adelson, « The Laplacian Pyramid as a Compact Image Code », IEEE Transactions on Communications, vol. 31, no 4,â , p. 532â540 (ISSN 0096-2244, DOI 10.1109/tcom.1983.1095851, lire en ligne, consultĂ© le )