Détection d'objet
En vision par ordinateur on désigne par détection d'objet (ou classification d'objet) une méthode permettant de détecter la présence d'une instance (reconnaissance d'objet) ou d'une classe d'objets dans une image numérique. Une attention particulière est portée à la détection de visage et la détection de personne. Ces méthodes font souvent appel à l'apprentissage supervisé et ont des applications dans de multiples domaines, tels la recherche d'image par le contenu ou la vidéo surveillance.
Problématique
Selon la terminologie usuelle[1] on peut distinguer la détection, de la localisation et de la reconnaissance d'objets :
- détection (ou classification) : présence d'une instance de l'objet (« une voiture ») dans l'image
- reconnaissance : identification d'une instance particulière (« la voiture de Michael Schumacher », « le visage de Gilles Deleuze »...)
- localisation (ou parfois detection) : situation précise de l'instance (détectée ou reconnue) dans l'image (cadre englobant ou segmentation de la zone)
Pour des entités visuelles localisées (objet, visage, personne...), la détection et la localisation se confondent souvent. C'est différent pour des entités plus « abstraites » telles qu'intérieur/extérieur, jour/nuit, campagne/ville, etc. Qui concerne plutôt la reconnaissance de scènes visuelles. Dans ce dernier cas, la localisation n'a pas toujours de sens puisque le concept est présent dans toute l'image.
La détection d'une classe d'objets est généralement considérée comme un problème plus difficile que la reconnaissance d'une instance particulière, puisqu'il faut identifier les caractéristiques communes à la classe en faisant abstraction de la variété des différentes instances au sein de ladite classe[2]. Cette variété peut être due à de multiples facteurs, notamment les conditions d'illumination ou le point de vue sous lequel a été pris la photo. Elle accroît encore dans le cas d'objets articulés (i.e non rigides) tels que les piétons ou les animaux.
Approche générale
L'approche générale pour détecter un objet dans une image (sans connaissance a priori sur les conditions de prise de vue) consiste en trois étapes :
- Déterminer les localisations potentielles de l'objet, soit au moyen d'une fenêtre glissante sur l'image, soit directement en détectant les points d'intérêt en son sein.
- Extraire des caractéristiques dans l'image permettant d'identifier la classe d'objet visée
- Classifier automatiquement chaque sous fenêtre comme contenant l'objet recherché ou pas ou bien apparier les caractéristiques extraites avec celles d'un modèle de référence.
Méthodes spécifiques
Des méthodes spécifiques ont été développées pour certains types d'objets, par exemple pour la détection de visage ou la détection de personne. Ces méthodes peuvent prendre en compte des caractéristiques spécifiques de l'objet comme le rapport largeur/hauteur, la présence des yeux et de la bouche dans le cas des visages, etc.
Mise en correspondance
La mise en correspondance vise à recaler les images (Exemple: SIFT)
Recherche à grande échelle
Quand les bases d'images sont grandes, les techniques de mise en correspondance deviennent inopérantes car trop gourmandes en calcul. La méthode bag-of-visterms consiste alors à agréger les détecteurs locaux selon un vocabulaire prédéfini, le dictionnaire. Inspiré de la technique connue depuis longtemps dans le domaine du texte (bag-of-words), elle a été proposée en 2003 pour la vidéo[3].
Voir aussi
- Méthode de Viola et Jones : l'une des premières technologies efficaces pour effectuer la détection d'objets.
Notes et références
- voir par exemple le site de la campagne internationale PascalVOC erreur modèle {{Lien archive}} : renseignez un paramètre «
|titre=
» - K. Murphy, A. Torralba, D. Eaton, W. T. Freeman, Object detection and localization using local and global features Lecture Notes in Computer Science (unrefeered). Sicily workshop on object recognition, 2005
- Josef Sivic, Andrew Zisserman, Video Google: A Text Retrieval Approach to Object Matching in Videos, international conference on computer vision 2003