Accueil🇫🇷Chercher

Iris de Fisher

Le jeu de donnĂ©es Iris connu aussi sous le nom de Iris de Fisher ou Iris d'Anderson est un jeu de donnĂ©es multivariĂ©es prĂ©sentĂ© en 1936 par Ronald Fisher dans son papier The use of multiple measurements in taxonomic problems comme un exemple d'application de l'analyse discriminante linĂ©aire[1]. Les donnĂ©es ont Ă©tĂ© collectĂ©es par Edgar Anderson afin de quantifier les variations de morphologie des fleurs d'iris de trois espèces[2]. Deux des trois espèces ont Ă©tĂ© collectĂ©es en GaspĂ©sie. « Toutes sont du mĂŞme champ, cueillies le mĂŞme jour et mesurĂ©es le mĂŞme jour par la mĂŞme personne avec les mĂŞmes outils de mesures[3]. »

Les iris de Fisher
Typologie
Sujet principal
Producteur
Variables
longueur des sépales en cm (Sepal length) , largeur des sépales en cm (Sepal width) , longueur des pétales en cm (Petal length), largeur des pétales en cm (Petal width), Espèce (Species)
Nuage de points du jeu de données

Le jeu de donnĂ©es comprend 50 Ă©chantillons de chacune des trois espèces d'iris (Iris setosa, Iris virginica et Iris versicolor).  Quatre caractĂ©ristiques ont Ă©tĂ© mesurĂ©es Ă  partir de chaque Ă©chantillon : la longueur et la largeur des sĂ©pales et des pĂ©tales, en centimètres. Sur la base de la combinaison de ces quatre variables, Fisher a Ă©laborĂ© un modèle d'analyse discriminante linĂ©aire permettant de distinguer les espèces les unes des autres.

Utilisation du jeu de données

Les rĂ©sultats de l'utilisation de k-means sont insatisfaisants (les classes obtenues ne coĂŻncident pas avec les espèces connues). 
Un exemple de ce qu'on appelle la metro map pour le jeu de données Iris[4]. Seule une petite proportion des Iris virginica est mélangée avec les Iris versicolor. Tous les autres échantillons de différentes espèces Iris appartiennent à des nœuds différents.

Utilisé à l'origine comme exemple pour l'application de l'analyse linéaire discriminante de Fisher, ce jeu de données est devenu un cas typique pour de nombreuses techniques de classification automatique en apprentissage automatique (machine learning) tel que les machines à vecteurs de support (SVM).

L'utilisation de cet ensemble de donnĂ©es dans l'analyse est cependant rare, puisqu'il ne contient que deux clusters avec une sĂ©paration plutĂ´t Ă©vidente.  L'un des groupes contient l'Iris setosa, tandis que l'autre groupe contient Ă  la fois l'Iris virginica et l'Iris versicolor; ce dernier groupe n'Ă©tant pas sĂ©parable sans information sur l’espèce que Fisher a utilisĂ©e. Cela fait de ce jeu de donnĂ©es un bon exemple pour expliquer la diffĂ©rence entre apprentissage supervisĂ© et apprentissage non supervisĂ© en fouille de donnĂ©es (data mining) : le modèle d'analyse discriminante linĂ©aire de Fisher ne peut ĂŞtre obtenu que lorsque les espèces sont connues : les Ă©tiquettes de classe et les classes ne sont pas nĂ©cessairement les mĂŞmes[5].

NĂ©anmoins, les trois espèces d'iris sont sĂ©parables dans une projection avec une analyse en composantes principales non linĂ©aire[6]. Le jeu de donnĂ©es est approximĂ© par l'arbre le plus proche sous certaines contraintes. On a alors construit ce que l'on appelle une metro map[4]. Les donnĂ©es sont projetĂ©es sur le nĹ“ud le plus proche. Ă€ chaque nĹ“ud, la rĂ©partition des points projetĂ©s est reprĂ©sentĂ©e par un diagramme circulaire oĂą la surface du cercle est proportionnelle au nombre de points projetĂ©s. Il ressort du diagramme que la majoritĂ© absolue des Ă©chantillons des diffĂ©rentes espèces d'iris appartient Ă  des nĹ“uds diffĂ©rents. Seule une petite partie des Iris virginica est mĂ©langĂ©e avec les Iris versicolor (les nĹ“uds Ă  la fois bleus et verts sur le diagramme). Par consĂ©quent, les trois espèces d'iris (Iris setosa, Iris virginica et Iris versicolor) sont sĂ©parables grâce Ă  une analyse en composantes principales non linĂ©aire. Pour les distinguer, il suffit simplement de sĂ©lectionner les nĹ“uds correspondant sur l'arbre principal.

Le jeu de données

Iris setosa
Iris virginica
Spectramap biplot du jeu de données Iris
Fisher's Iris Data
longueur des sépales (en cm)

(Sepal length)

largeur des sépales (en cm)

(Sepal width)

longueur des pétales (en cm)

(Petal length)

largeur des pétales (en cm)

(Petal width)

Espèce

(Species)

5.1 3.5 1.4 0.2 I. setosa
4.9 3.0 1.4 0.2 I. setosa
4.7 3.2 1.3 0.2 I. setosa
4.6 3.1 1.5 0.2 I. setosa
5.0 3.6 1.4 0.2 I. setosa
5.4 3.9 1.7 0.4 I. setosa
4.6 3.4 1.4 0.3 I. setosa
5.0 3.4 1.5 0.2 I. setosa
4.4 2.9 1.4 0.2 I. setosa
4.9 3.1 1.5 0.1 I. setosa
5.4 3.7 1.5 0.2 I. setosa
4.8 3.4 1.6 0.2 I. setosa
4.8 3.0 1.4 0.1 I. setosa
4.3 3.0 1.1 0.1 I. setosa
5.8 4.0 1.2 0.2 I. setosa
5.7 4.4 1.5 0.4 I. setosa
5.4 3.9 1.3 0.4 I. setosa
5.1 3.5 1.4 0.3 I. setosa
5.7 3.8 1.7 0.3 I. setosa
5.1 3.8 1.5 0.3 I. setosa
5.4 3.4 1.7 0.2 I. setosa
5.1 3.7 1.5 0.4 I. setosa
4.6 3.6 1.0 0.2 I. setosa
5.1 3.3 1.7 0.5 I. setosa
4.8 3.4 1.9 0.2 I. setosa
5.0 3.0 1.6 0.2 I. setosa
5.0 3.4 1.6 0.4 I. setosa
5.2 3.5 1.5 0.2 I. setosa
5.2 3.4 1.4 0.2 I. setosa
4.7 3.2 1.6 0.2 I. setosa
4.8 3.1 1.6 0.2 I. setosa
5.4 3.4 1.5 0.4 I. setosa
5.2 4.1 1.5 0.1 I. setosa
5.5 4.2 1.4 0.2 I. setosa
4.9 3.1 1.5 0.2 I. setosa
5.0 3.2 1.2 0.2 I. setosa
5.5 3.5 1.3 0.2 I. setosa
4.9 3.6 1.4 0.1 I. setosa
4.4 3.0 1.3 0.2 I. setosa
5.1 3.4 1.5 0.2 I. setosa
5.0 3.5 1.3 0.3 I. setosa
4.5 2.3 1.3 0.3 I. setosa
4.4 3.2 1.3 0.2 I. setosa
5.0 3.5 1.6 0.6 I. setosa
5.1 3.8 1.9 0.4 I. setosa
4.8 3.0 1.4 0.3 I. setosa
5.1 3.8 1.6 0.2 I. setosa
4.6 3.2 1.4 0.2 I. setosa
5.3 3.7 1.5 0.2 I. setosa
5.0 3.3 1.4 0.2 I. setosa
7.0 3.2 4.7 1.4 I. versicolor
6.4 3.2 4.5 1.5 I. versicolor
6.9 3.1 4.9 1.5 I. versicolor
5.5 2.3 4.0 1.3 I. versicolor
6.5 2.8 4.6 1.5 I. versicolor
5.7 2.8 4.5 1.3 I. versicolor
6.3 3.3 4.7 1.6 I. versicolor
4.9 2.4 3.3 1.0 I. versicolor
6.6 2.9 4.6 1.3 I. versicolor
5.2 2.7 3.9 1.4 I. versicolor
5.0 2.0 3.5 1.0 I. versicolor
5.9 3.0 4.2 1.5 I. versicolor
6.0 2.2 4.0 1.0 I. versicolor
6.1 2.9 4.7 1.4 I. versicolor
5.6 2.9 3.6 1.3 I. versicolor
6.7 3.1 4.4 1.4 I. versicolor
5.6 3.0 4.5 1.5 I. versicolor
5.8 2.7 4.1 1.0 I. versicolor
6.2 2.2 4.5 1.5 I. versicolor
5.6 2.5 3.9 1.1 I. versicolor
5.9 3.2 4.8 1.8 I. versicolor
6.1 2.8 4.0 1.3 I. versicolor
6.3 2.5 4.9 1.5 I. versicolor
6.1 2.8 4.7 1.2 I. versicolor
6.4 2.9 4.3 1.3 I. versicolor
6.6 3.0 4.4 1.4 I. versicolor
6.8 2.8 4.8 1.4 I. versicolor
6.7 3.0 5.0 1.7 I. versicolor
6.0 2.9 4.5 1.5 I. versicolor
5.7 2.6 3.5 1.0 I. versicolor
5.5 2.4 3.8 1.1 I. versicolor
5.5 2.4 3.7 1.0 I. versicolor
5.8 2.7 3.9 1.2 I. versicolor
6.0 2.7 5.1 1.6 I. versicolor
5.4 3.0 4.5 1.5 I. versicolor
6.0 3.4 4.5 1.6 I. versicolor
6.7 3.1 4.7 1.5 I. versicolor
6.3 2.3 4.4 1.3 I. versicolor
5.6 3.0 4.1 1.3 I. versicolor
5.5 2.5 4.0 1.3 I. versicolor
5.5 2.6 4.4 1.2 I. versicolor
6.1 3.0 4.6 1.4 I. versicolor
5.8 2.6 4.0 1.2 I. versicolor
5.0 2.3 3.3 1.0 I. versicolor
5.6 2.7 4.2 1.3 I. versicolor
5.7 3.0 4.2 1.2 I. versicolor
5.7 2.9 4.2 1.3 I. versicolor
6.2 2.9 4.3 1.3 I. versicolor
5.1 2.5 3.0 1.1 I. versicolor
5.7 2.8 4.1 1.3 I. versicolor
6.3 3.3 6.0 2.5 I. virginica
5.8 2.7 5.1 1.9 I. virginica
7.1 3.0 5.9 2.1 I. virginica
6.3 2.9 5.6 1.8 I. virginica
6.5 3.0 5.8 2.2 I. virginica
7.6 3.0 6.6 2.1 I. virginica
4.9 2.5 4.5 1.7 I. virginica
7.3 2.9 6.3 1.8 I. virginica
6.7 2.5 5.8 1.8 I. virginica
7.2 3.6 6.1 2.5 I. virginica
6.5 3.2 5.1 2.0 I. virginica
6.4 2.7 5.3 1.9 I. virginica
6.8 3.0 5.5 2.1 I. virginica
5.7 2.5 5.0 2.0 I. virginica
5.8 2.8 5.1 2.4 I. virginica
6.4 3.2 5.3 2.3 I. virginica
6.5 3.0 5.5 1.8 I. virginica
7.7 3.8 6.7 2.2 I. virginica
7.7 2.6 6.9 2.3 I. virginica
6.0 2.2 5.0 1.5 I. virginica
6.9 3.2 5.7 2.3 I. virginica
5.6 2.8 4.9 2.0 I. virginica
7.7 2.8 6.7 2.0 I. virginica
6.3 2.7 4.9 1.8 I. virginica
6.7 3.3 5.7 2.1 I. virginica
7.2 3.2 6.0 1.8 I. virginica
6.2 2.8 4.8 1.8 I. virginica
6.1 3.0 4.9 1.8 I. virginica
6.4 2.8 5.6 2.1 I. virginica
7.2 3.0 5.8 1.6 I. virginica
7.4 2.8 6.1 1.9 I. virginica
7.9 3.8 6.4 2.0 I. virginica
6.4 2.8 5.6 2.2 I. virginica
6.3 2.8 5.1 1.5 I. virginica
6.1 2.6 5.6 1.4 I. virginica
7.7 3.0 6.1 2.3 I. virginica
6.3 3.4 5.6 2.4 I. virginica
6.4 3.1 5.5 1.8 I. virginica
6.0 3.0 4.8 1.8 I. virginica
6.9 3.1 5.4 2.1 I. virginica
6.7 3.1 5.6 2.4 I. virginica
6.9 3.1 5.1 2.3 I. virginica
5.8 2.7 5.1 1.9 I. virginica
6.8 3.2 5.9 2.3 I. virginica
6.7 3.3 5.7 2.5 I. virginica
6.7 3.0 5.2 2.3 I. virginica
6.3 2.5 5.0 1.9 I. virginica
6.5 3.0 5.2 2.0 I. virginica
6.2 3.4 5.4 2.3 I. virginica
5.9 3.0 5.1 1.8 I. virginica

Plusieurs versions du jeu de données ont été publiées[7].

Références

  1. R. A. Fisher (1936).
  2. Edgar Anderson (1936).
  3. Edgar Anderson (1935).
  4. A. N. Gorban, A. Zinovyev.
  5. Ines Färber, Stephan Günnemann, Hans-Peter Kriegel, Peer Kröger, Emmanuel Müller, Erich Schubert, Thomas Seidl, Arthur Zimek (2010).
  6. A.N. Gorban, N.R. Sumner, and A.Y. Zinovyev, Topological grammars for data approximation, Applied Mathematics Letters Volume 20, Issue 4 (2007), 382-386.
  7. Bezdek, J.C. and Keller, J.M. and Krishnapuram, R. and Kuncheva, L.I. and Pal, N.R. (1999).

Liens externes

  • "Fisher's Iris Data". (Contains two errors which are documented). UCI Machine Learning Repository: Iris Data Set.
Cet article est issu de wikipedia. Text licence: CC BY-SA 4.0, Des conditions supplémentaires peuvent s’appliquer aux fichiers multimédias.