AccueilđŸ‡«đŸ‡·Chercher

Arbre de décision (apprentissage)

L’apprentissage par arbre de dĂ©cision dĂ©signe une mĂ©thode basĂ©e sur l'utilisation d'un arbre de dĂ©cision comme modĂšle prĂ©dictif. On l'utilise notamment en fouille de donnĂ©es et en apprentissage automatique.

Dans ces structures d'arbre, les feuilles reprĂ©sentent les valeurs de la variable-cible et les embranchements correspondent Ă  des combinaisons de variables d'entrĂ©e qui mĂšnent Ă  ces valeurs. En analyse de dĂ©cision, un arbre de dĂ©cision peut ĂȘtre utilisĂ© pour reprĂ©senter de maniĂšre explicite les dĂ©cisions rĂ©alisĂ©es et les processus qui les amĂšnent. En apprentissage et en fouille de donnĂ©es, un arbre de dĂ©cision dĂ©crit les donnĂ©es mais pas les dĂ©cisions elles-mĂȘmes, l'arbre serait utilisĂ© comme point de dĂ©part au processus de dĂ©cision.

C'est une technique d'apprentissage supervisé : on utilise un ensemble de données pour lesquelles on connaßt la valeur de la variable-cible afin de construire l'arbre (données dites étiquetées), puis on extrapole les résultats à l'ensemble des données de test. Les arbres de décision font partie des algorithmes les plus populaires en apprentissage automatique[1] - [2].

Généralités

L'apprentissage par arbre de décision est une méthode classique en apprentissage automatique [3]. Son but est de créer un modÚle qui prédit la valeur d'une variable-cible depuis la valeur de plusieurs variables d'entrée.

Une des variables d'entrĂ©e est sĂ©lectionnĂ©e Ă  chaque nƓud intĂ©rieur (ou interne, nƓud qui n'est pas terminal) de l'arbre selon une mĂ©thode qui dĂ©pend de l'algorithme et qui sera discutĂ©e plus loin. Chaque arĂȘte vers un nƓud-fils correspond Ă  un ensemble de valeurs d'une variable d'entrĂ©e, de maniĂšre que l'ensemble des arĂȘtes vers les nƓuds-fils couvrent toutes les valeurs possibles de la variable d'entrĂ©e.

Chaque feuille (ou nƓud terminal de l'arbre) reprĂ©sente soit une valeur de la variable-cible, soit une distribution de probabilitĂ© des diverses valeurs possibles de la variable-cible. La combinaison des valeurs des variables d'entrĂ©e est reprĂ©sentĂ©e par le chemin de la racine jusqu'Ă  la feuille.

L'arbre est en général construit en séparant l'ensemble des données en sous-ensembles en fonction de la valeur d'une caractéristique d'entrée. Ce processus est répété sur chaque sous-ensemble obtenu de maniÚre récursive, il s'agit donc d'un partitionnement récursif.

La rĂ©cursion est achevĂ©e Ă  un nƓud soit lorsque tous les sous-ensembles ont la mĂȘme valeur de la caractĂ©ristique-cible, ou lorsque la sĂ©paration n'amĂ©liore plus la prĂ©diction. Ce processus est appelĂ© induction descendante d'arbres de dĂ©cision (top-down induction of decision trees ou TDIDT)[4], c'est un algorithme glouton puisqu'on recherche Ă  chaque nƓud de l'arbre le partage optimal, dans le but d'obtenir le meilleur partage possible sur l'ensemble de l'arbre de dĂ©cision. C'est la stratĂ©gie la plus commune pour apprendre les arbres de dĂ©cision depuis les donnĂ©es.

En fouille de données, les arbres de décision peuvent aider à la description, la catégorisation ou la généralisation d'un jeu de données fixé.

L'ensemble d'apprentissage est généralement fourni sous la forme d'enregistrements du type :

La variable désigne la variable-cible que l'on cherche à prédire, classer ou généraliser. Le vecteur est constitué des variables d'entrée etc. qui sont utilisées dans ce but.

Types

Il existe deux principaux types d'arbre de décision en fouille de données :

  • Les arbres de classification (Classification Tree) permettent de prĂ©dire Ă  quelle classe la variable-cible appartient, dans ce cas la prĂ©diction est une Ă©tiquette de classe,
  • Les arbres de rĂ©gression (Regression Tree) permettent de prĂ©dire une quantitĂ© rĂ©elle (par exemple, le prix d'une maison ou la durĂ©e de sĂ©jour d'un patient dans un hĂŽpital), dans ce cas la prĂ©diction est une valeur numĂ©rique.

Le terme d'analyse d'arbre de classification et de régression (CART, d'aprÚs l'acronyme anglais) est un terme générique se référant aux procédures décrites précédemment et introduites par Breiman et al.[5]. Les arbres utilisés dans le cas de la régression et dans le cas de la classification présentent des similarités mais aussi des différences, en particulier en ce qui concerne la procédure utilisée pour déterminer les séparations des branches.

Construction d'un arbre de décision

L'apprentissage par arbre de dĂ©cision consiste Ă  construire un arbre depuis un ensemble d'apprentissage constituĂ© de n-uplets Ă©tiquetĂ©s. Un arbre de dĂ©cision peut ĂȘtre dĂ©crit comme un diagramme de flux de donnĂ©es (ou flowchart) oĂč chaque nƓud interne dĂ©crit un test sur une variable d'apprentissage, chaque branche reprĂ©sente un rĂ©sultat du test, et chaque feuille contient la valeur de la variable cible (une Ă©tiquette de classe pour les arbres de classification, une valeur numĂ©rique pour les arbres de rĂ©gression).

CritĂšre de segmentation

Usuellement, les algorithmes pour construire les arbres de dĂ©cision sont construits en divisant l'arbre du sommet vers les feuilles en choisissant Ă  chaque Ă©tape une variable d'entrĂ©e qui rĂ©alise le meilleur partage de l'ensemble d'objets, comme dĂ©crit prĂ©cĂ©demment[6]. Pour choisir la variable de sĂ©paration sur un nƓud, les algorithmes testent les diffĂ©rentes variables d'entrĂ©e possibles et sĂ©lectionnent celle qui maximise un critĂšre donnĂ©.

Cas des arbres de classification

Dans le cas des arbres de classification, il s'agit d'un problĂšme de classification automatique. Le critĂšre d’évaluation des partitions caractĂ©rise l'homogĂ©nĂ©itĂ© (ou le gain en homogĂ©nĂ©itĂ©) des sous-ensembles obtenus par division de l'ensemble. Ces mĂ©triques sont appliquĂ©es Ă  chaque sous-ensemble candidat et les rĂ©sultats sont combinĂ©s (par exemple, moyennĂ©s) pour produire une mesure de la qualitĂ© de la sĂ©paration.

Il existe un grand nombre de critĂšres de ce type, les plus utilisĂ©s sont l’entropie de Shannon, l'indice de diversitĂ© de Gini et leurs variantes.

  • Indice de diversitĂ© de Gini : utilisĂ© par l'algorithme CART, il mesure avec quelle frĂ©quence un Ă©lĂ©ment alĂ©atoire de l'ensemble serait mal classĂ© si son Ă©tiquette Ă©tait choisie alĂ©atoirement selon la distribution des Ă©tiquettes dans le sous-ensemble. L'indice de diversitĂ© de Gini peut ĂȘtre calculĂ© en sommant la probabilitĂ© pour chaque Ă©lĂ©ment d'ĂȘtre choisi, multipliĂ©e par la probabilitĂ© qu'il soit mal classĂ©. Il atteint sa valeur minimum (zĂ©ro) lorsque tous les Ă©lĂ©ments de l'ensemble sont dans une mĂȘme classe de la variable-cible. Pratiquement, si l'on suppose que la classe prend une valeur dans l'ensemble , et si dĂ©signe la fraction des Ă©lĂ©ments de l'ensemble avec l'Ă©tiquette dans l'ensemble, on aura :

  • Gain d'information : utilisĂ© par les algorithmes ID3 et C4.5, le gain d'information est basĂ© sur le concept d'entropie de Shannon en thĂ©orie de l'information [2]. L'entropie permet de mesurer le dĂ©sordre dans un ensemble de donnĂ©es et est utilisĂ©e pour choisir la valeur permettant de maximiser le gain d'information. En utilisant les mĂȘmes notations que pour l'indice de diversitĂ© de Gini, on obtient la formule suivante :

Cas des arbres de régression

Dans le cas des arbres de rĂ©gression, le mĂȘme schĂ©ma de sĂ©paration peut ĂȘtre appliquĂ©, mais au lieu de minimiser le taux d’erreur de classification, on cherche Ă  maximiser la variance inter-classes (avoir des sous-ensembles dont les valeurs de la variable-cible soient les plus dispersĂ©es possibles). En gĂ©nĂ©ral, le critĂšre utilise le test du chi carrĂ©.

Remarques

Certains critÚres permettent de prendre en compte le fait que la variable-cible prend des valeurs ordonnées, en utilisant des mesures ou des heuristiques appropriées[7].

Chaque ensemble de valeurs de la variable de segmentation permet de produire un nƓud-fils. Les algorithmes d’apprentissage peuvent diffĂ©rer sur le nombre de nƓud-fils produits : certains (tels que CART) produisent systĂ©matiquement des arbres binaires, et cherchent donc la partition binaire qui optimise le critĂšre de segmentation. D’autres (comme CHAID) cherchent Ă  effectuer les regroupements les plus pertinents en s’appuyant sur des critĂšres statistiques. Selon la technique, nous obtiendrons des arbres plus ou moins larges. Pour que la mĂ©thode soit efficace, il faut Ă©viter de fractionner exagĂ©rĂ©ment les donnĂ©es afin de ne pas produire des groupes d’effectifs trop faibles, ne correspondant Ă  aucune rĂ©alitĂ© statistique.

Traitement des variables continues

Dans le cas de variables de segmentation continues, le critĂšre de segmentation choisi doit ĂȘtre adĂ©quat. En gĂ©nĂ©ral, on trie les donnĂ©es selon la variable Ă  traiter, puis on teste les diffĂ©rents points de coupure possibles en Ă©valuant le critĂšre pour chaque cas, le point de coupure optimal sera celui qui maximise le critĂšre de segmentation.

DĂ©finir la taille de l’arbre

Il n'est pas toujours souhaitable en pratique de construire un arbre dont les feuilles correspondent Ă  des sous-ensembles parfaitement homogĂšnes du point de vue de la variable-cible. En effet, l'apprentissage est rĂ©alisĂ© sur un Ă©chantillon que l'on espĂšre reprĂ©sentatif d’une population. L'enjeu de toute technique d'apprentissage est d'arriver Ă  saisir l'information utile sur la structure statistique de la population, en excluant les caractĂ©ristiques spĂ©cifiques au jeu de donnĂ©es Ă©tudiĂ©. Plus le modĂšle est complexe (plus l'arbre est grand, plus il a de branches, plus il a de feuilles), plus l'on court le risque de voir ce modĂšle incapable d'ĂȘtre extrapolĂ© Ă  de nouvelles donnĂ©es, c'est-Ă -dire de rendre compte de la rĂ©alitĂ© que l'on cherche Ă  apprĂ©hender.

En particulier, dans le cas extrĂȘme oĂč l'arbre a autant de feuilles qu'il y a d'individus dans la population (d'enregistrements dans le jeu de donnĂ©es), l'arbre ne commet alors aucune erreur sur cet Ă©chantillon puisqu'il en Ă©pouse toutes les caractĂ©ristiques, mais il n'est pas gĂ©nĂ©ralisable Ă  un autre Ă©chantillon. Ce problĂšme, nommĂ© surapprentissage ou surajustement (overfitting), est un sujet classique de l'apprentissage automatique et de la fouille de donnĂ©es.

On cherche donc Ă  construire un arbre qui soit le plus petit possible en assurant la meilleure performance possible. Suivant le principe de parcimonie, plus un arbre sera petit, plus il sera stable dans ses prĂ©visions futures. Il faut rĂ©aliser un arbitrage entre performance et complexitĂ© dans les modĂšles utilisĂ©s. À performance comparable, on prĂ©fĂ©rera toujours le modĂšle le plus simple, si l'on souhaite pouvoir utiliser ce modĂšle sur de nouveaux Ă©chantillons.

Le problĂšme du surajustement des modĂšles

Pour réaliser l'arbitrage performance/complexité des modÚles utilisés, on évalue la performance d'un ou de plusieurs modÚles sur les données qui ont servi à sa construction (le ou les échantillons d'apprentissage), mais également sur un ou plusieurs échantillons de validation : des données étiquetées à disposition mais que l'on décide volontairement de ne pas utiliser dans la construction des modÚles.

Ces donnĂ©es sont traitĂ©es comme les donnĂ©es de test, la stabilitĂ© de la performance des modĂšles sur ces deux types d'Ă©chantillons permettra de juger de son surajustement et donc de sa capacitĂ© Ă  ĂȘtre utilisĂ© avec un risque d'erreur maĂźtrisĂ© dans des conditions rĂ©elles oĂč les donnĂ©es ne sont pas connues Ă  l'avance.

Sur-ajustement d'un modÚle : arbitrage performance / complexité

Dans le graphique ci-contre, nous observons l’évolution de l’erreur d’ajustement d'un arbre de dĂ©cision en fonction du nombre de feuilles de l’arbre (qui mesure ici la complexitĂ©). Nous constatons que si l’erreur dĂ©croĂźt constamment sur l’échantillon d’apprentissage, Ă  partir d'un certain niveau de complexitĂ©, le modĂšle s'Ă©loigne de la rĂ©alitĂ©, rĂ©alitĂ© que l’on cherche Ă  estimer sur l'Ă©chantillon de validation (appelĂ© Ă©chantillon de test dans le graphique).

Dans le cas des arbres de décisions, plusieurs types de solutions algorithmiques ont été envisagées pour tenter d'éviter autant que possible le surapprentissage des modÚles : les techniques de pré- ou de post-élagage des arbres.

Certaines thĂ©ories statistiques cherchent Ă  trouver l'optimum entre l'erreur commise sur l'Ă©chantillon d'apprentissage et celle commise sur l'Ă©chantillon de test. La thĂ©orie de Vapnik-Chervonenkis Structured Risk Minimization (ou SRM), utilise une variable appelĂ©e dimension VC, pour dĂ©terminer l’optimum d’un modĂšle. Elle est utilisable par consĂ©quent pour gĂ©nĂ©rer des modĂšles qui assurent le meilleur compromis entre qualitĂ© et robustesse du modĂšle.

Ces solutions algorithmiques sont complémentaires des analyses de performances comparées et de stabilité effectuées sur les échantillons d'apprentissage et de validation.

Le pré-élagage

La premiĂšre stratĂ©gie utilisable pour Ă©viter un surapprentissage des arbres de dĂ©cision consiste Ă  proposer des critĂšres d’arrĂȘt lors de la phase d’expansion. C’est le principe du prĂ©-Ă©lagage. Lorsque le groupe est d’effectif trop faible, ou lorsque l'homogĂ©nĂ©itĂ© d'un sous-ensemble a atteint un niveau suffisant, on considĂšre qu’il n’est plus nĂ©cessaire de sĂ©parer l'Ă©chantillon. Un autre critĂšre souvent rencontrĂ© dans ce cadre est l’utilisation d’un test statistique pour Ă©valuer si la segmentation introduit un apport d’informations significatif pour la prĂ©diction de la variable-cible.

Le post-Ă©lagage

La seconde stratĂ©gie consiste Ă  construire l’arbre en deux temps : on produit d'abord l’arbre dont les feuilles sont le plus homogĂšnes possibles dans une phase d’expansion, en utilisant une premiĂšre fraction de l’échantillon de donnĂ©es (Ă©chantillon d’apprentissage Ă  ne pas confondre avec la totalitĂ© de l’échantillon, appelĂ© en anglais growing set pour lever l'ambiguĂŻtĂ©), puis on rĂ©duit l’arbre, en s’appuyant sur une autre fraction des donnĂ©es de maniĂšre Ă  optimiser les performances de l’arbre, c’est la phase de post-Ă©lagage. Selon les cas, cette seconde portion des donnĂ©es est dĂ©signĂ©e par le terme d’échantillon de validation ou Ă©chantillon de test, introduisant une confusion avec l’échantillon utilisĂ© pour mesurer les performances des modĂšles. Le terme d'Ă©chantillon d’élagage permet de le dĂ©signer sans ambiguĂŻtĂ©, c'est la traduction directe de l’appellation anglaise pruning set.

ProblÚme des données incomplÚtes

Les donnĂ©es Ă  disposition sont souvent incomplĂštes, dans le sens oĂč l'on ne dispose que d'une partie des variables d'entrĂ©e pour un enregistrement. Plusieurs possibilitĂ©s sont envisageables dans ce cas :

  • Les ignorer : cela n'est possible que si l'Ă©chantillon de donnĂ©es est suffisamment grand pour supprimer des individus (c'est-Ă -dire des lignes d'enregistrements) du jeu de donnĂ©es, et que si l'on est sĂ»r que lorsque l'arbre de dĂ©cision sera utilisĂ© en pratique, toutes les donnĂ©es seront toujours disponibles pour tous les individus.
  • Les remplacer par une valeur calculĂ©e jugĂ©e adĂ©quate (on parle d'imputation de valeurs manquantes) : cette technique est parfois utilisĂ©e en statistique mais au-delĂ  des problĂšmes purement mathĂ©matiques, elle est contestable du point de vue mĂ©thodologique.
  • Utiliser des variables substituts : cela consiste, pour un individu qui aurait une donnĂ©e manquante pour une variable sĂ©lectionnĂ©e par l'arbre comme Ă©tant discriminante, Ă  utiliser la variable qui parmi l'ensemble des variables disponibles dans la base de donnĂ©es produit localement les feuilles les plus similaires aux feuilles produites par la variable dont la donnĂ©e est manquante, on appelle alors cette variable un substitut. Si un individu a une valeur manquante pour la variable initiale, mais aussi pour la variable substitut, on peut utiliser une deuxiĂšme variable substitut. Et ainsi de suite, jusqu'Ă  la limite d'un critĂšre de qualitĂ© du substitut. Cette technique a l'avantage d'exploiter l'ensemble de l'information disponible (cela est donc trĂšs utile lorsque cette information est complexe Ă  rĂ©cupĂ©rer) pour chaque individu.

Affectation de la conclusion sur chaque feuille

Dans le cas des arbres de classification, il faut prĂ©ciser la rĂšgle d’affectation dans les feuilles une fois l’arbre construit. Si les feuilles sont homogĂšnes, il n'y a pas d'ambiguĂŻtĂ©. Si ce n’est pas le cas, une rĂšgle simple consiste Ă  dĂ©cider de la classe de la feuille en fonction de la classe majoritaire, celle qui est la plus reprĂ©sentĂ©e.

Cette technique trĂšs simple est optimale dans le cas oĂč les donnĂ©es sont issues d’un tirage alĂ©atoire non-biasĂ© dans la population ; la matrice des coĂ»ts de mauvaise affectation est unitaire (symĂ©trique) : affecter Ă  bon escient Ă  un coĂ»t nul, et affecter Ă  tort coĂ»te 1 quel que soit le cas de figure. En dehors de ce cadre, la rĂšgle de la majoritĂ© n’est pas nĂ©cessairement justifiĂ©e mais est facile Ă  utiliser dans la pratique.

Amélioration des performances

MĂ©thodes d'ensembles

Certaines techniques, appelées méthodes d'ensembles (ensemble methods), améliorent la qualité ou la fiabilité de la prédiction en construisant plusieurs arbres de décision depuis les données :

  • L'ensachage (bagging ou bootstrap aggregating), une des premiĂšres mĂ©thodes historiquement, selon laquelle on construit plusieurs arbres de dĂ©cision en rĂ©-Ă©chantillonnant l'ensemble d'apprentissage, puis en construisant les arbres par une procĂ©dure de consensus[8].
  • La classification par rotation de forĂȘts d'arbres de dĂ©cision, dans laquelle on applique d'abord une analyse en composantes principales (PCA) sur un ensemble alĂ©atoire des variables d'entrĂ©e[11].

Combinaisons Ă  d'autres techniques

Les arbres de décision sont parfois combinés entre eux ou à d'autres techniques d'apprentissage : analyse discriminante, régressions logistiques, régressions linéaires, réseaux de neurones (perceptron multicouche, radial basis function network) ou autres.

Des procédures d'agrégation des performances des différents modÚles utilisés (telles que les décisions par consensus), sont mises en place pour obtenir une performance maximale, tout en contrÎlant le niveau de complexité des modÚles utilisés.

Avantages et inconvénients de la méthode

Avantages

Comparativement à d'autres méthodes de fouille de données, les arbres de décision présentent plusieurs avantages :

  • La simplicitĂ© de comprĂ©hension et d'interprĂ©tation. C'est un modĂšle boĂźte blanche : si l'on observe une certaine situation sur un modĂšle, celle-ci peut-ĂȘtre facilement expliquĂ©e Ă  l'aide de la logique boolĂ©enne, au contraire de modĂšles boĂźte noire comme les rĂ©seaux neuronaux, dont l'explication des rĂ©sultats est difficile Ă  comprendre.
  • Le modĂšle peut gĂ©rer Ă  la fois des valeurs numĂ©riques et des catĂ©gories. D'autres techniques sont souvent spĂ©cialisĂ©es sur un certain type de variables (les rĂ©seaux neuronaux ne sont utilisables que sur des variables numĂ©riques).
  • Il est possible de valider un modĂšle Ă  l'aide de tests statistiques, et ainsi de rendre compte de la fiabilitĂ© du modĂšle.
  • Performant sur de grands jeux de donnĂ©es: la mĂ©thode est relativement Ă©conomique en termes de ressources de calcul.

Inconvénients

En revanche, elle présente certains inconvénients :

  • L'apprentissage de l'arbre de dĂ©cision optimal est NP-complet concernant plusieurs aspects de l'optimalitĂ©[12] - [13]. En consĂ©quence, les algorithmes d'apprentissage par arbre de dĂ©cision sont basĂ©s sur des heuristiques telles que les algorithmes gloutons cherchant Ă  optimiser le partage Ă  chaque nƓud, et de tels algorithmes ne garantissent pas d'obtenir l'optimum global. Certaines mĂ©thodes visent Ă  diminuer l'effet de la recherche gloutonne [14].
  • L'apprentissage par arbre de dĂ©cision peut amener des arbres de dĂ©cision trĂšs complexes, qui gĂ©nĂ©ralisent mal l'ensemble d'apprentissage (il s'agit du problĂšme de surapprentissage prĂ©cĂ©demment Ă©voquĂ©[15]). On utilise des procĂ©dures d'Ă©lagage pour contourner ce problĂšme, certaines approches comme l'infĂ©rence conditionnelle permettent de s'en affranchir[16] - [17].
  • Certains concepts sont difficiles Ă  exprimer Ă  l'aide d'arbres de dĂ©cision (comme XOR ou la paritĂ©). Dans ces cas, les arbres de dĂ©cision deviennent extrĂȘmement larges. Pour rĂ©soudre ce problĂšme, plusieurs moyens existent, tels que la proportionnalisation[18], ou l'utilisation d'algorithmes d'apprentissage utilisant des reprĂ©sentations plus expressives (par exemple la programmation logique inductive).
  • Lorsque les donnĂ©es incluent des attributs ayant plusieurs niveaux, le gain d'information dans l'arbre est biaisĂ© en faveur de ces attributs[19]. Cependant, le problĂšme de la sĂ©lection de prĂ©dicteurs biaisĂ©s peut ĂȘtre contournĂ© par des mĂ©thodes telles que l'infĂ©rence conditionnelle[16].

Extensions

Les graphes de décision

Dans un arbre de décision, tous les chemins depuis la racine jusqu'aux feuilles utilisent le connecteur AND. Dans un graphe de décision, on peut également utiliser le connecteur OR pour connecter plusieurs chemins à l'aide du Minimum message length (MML)[20]. En général les graphes de décision produisent des graphes avec moins de feuilles que les arbres de décision.

MĂ©thodes de recherche alternatives

Des algorithmes évolutionnistes sont utilisés pour éviter les séparations amenant à des optimum locaux[21] - [22].

On peut également échantillonner l'arbre en utilisant des méthodes MCMC dans un paradigme bayésien[23].

L'arbre peut ĂȘtre construit par une approche ascendante (du bas vers le haut)[24].

Algorithmes classiques

On dénombre plusieurs algorithmes pour construire des arbres de décision, parmi lesquels :

  • ID3 (Iterative Dichotomiser 3)
  • C4.5, C5 (successeurs d'ID3)
  • CHAID (CHi-squared Automatic Interaction Detector) [25]
  • Exhaustive CHAID
  • CART (Classification And Regression Tree)
  • SLIQ
  • QUEST
  • VFDT
  • UFFT
  • MARS
  • Conditional Inference Trees. Une mĂ©thode statistique basĂ©e sur l'utilisation de tests non-paramĂ©triques comme critĂšre de sĂ©paration[16] - [17].

ID3 et CART ont été inventées de maniÚre indépendante dans les décennies 1970-1980, mais utilisent des approches similaires pour apprendre des arbres de décision depuis l'ensemble d'apprentissage.

Tous ces algorithmes se distinguent par le ou les critÚres de segmentation utilisés, par les méthodes d'élagages implémentées, par leur maniÚre de gérer les données manquantes dans les prédicteurs.

Implémentations

Beaucoup de logiciels de fouille de données proposent des bibliothÚques permettant d'implémenter un ou plusieurs algorithmes d'apprentissage par arbre de décision. Par exemple, le logiciel Open Source R contient plusieurs implémentations de CART, telles que rpart, party et randomForest, les logiciels libres Weka et Orange (et son module orngTree) ou encore la bibliothÚque libre Python scikit-learn ; mais également Salford Systems CART, IBM SPSS Modeler, RapidMiner, SAS Enterprise Miner, KNIME, Microsoft SQL Server .

Notes

  1. (en) Xindong Wu, Vipin Kumar, J. Ross Quinlan et Joydeep Ghosh, « Top 10 algorithms in data mining », Knowledge and Information Systems, vol. 14, no 1,‎ , p. 1–37 (ISSN 0219-1377 et 0219-3116, DOI 10.1007/s10115-007-0114-2, lire en ligne, consultĂ© le ).
  2. (en) S. Madeh Piryonesi et Tamer E. El-Diraby, « Data Analytics in Asset Management: Cost-Effective Prediction of the Pavement Condition Index », Journal of Infrastructure Systems, vol. 26, no 1,‎ , p. 04019036 (ISSN 1076-0342 et 1943-555X, DOI 10.1061/(ASCE)IS.1943-555X.0000512, lire en ligne, consultĂ© le ).
  3. (en) Lior Rokach, Data mining with decision trees : theory and applications, Hackensack (NJ), World Scientific Pub Co Inc, , 244 p. (ISBN 978-981-27-7171-1, BNF 41351943).
  4. Quinlan, J. R., (1986). Induction of Decision Trees. Machine Learning 1: 81-106, Kluwer Academic Publishers.
  5. Leo Breiman, Classification and regression trees, Monterey, CA, Wadsworth & Brooks/Cole Advanced Books & Software, , 368 p. (ISBN 978-0-412-04841-8).
  6. L. Rokach et O. Maimon, « Top-down induction of decision trees classifiers-a survey », IEEE Transactions on Systems, Man, and Cybernetics, Part C, vol. 35, no 4,‎ , p. 476–487 (DOI 10.1109/TSMCC.2004.843247).
  7. Des heuristiques sont notamment utilisées lorsque l'on cherche à réduire la complexité de l'arbre en agrégeant les modalités des variables utilisées comme prédicteurs de la cible. Par exemple, pour le cas des modalités d'une variable de classes d'ùge, on ne va autoriser que des regroupements de classes d'ùge contiguës.
  8. Breiman, L. (1996). Bagging Predictors. "Machine Learning, 24": p. 123-140.
  9. Friedman, J. H. (1999). Stochastic gradient boosting. Stanford University.
  10. Hastie, T., Tibshirani, R., Friedman, J. H. (2001). The elements of statistical learning : Data mining, inference, and prediction. New York: Springer Verlag.
  11. Rodriguez, J.J. and Kuncheva, L.I. and Alonso, C.J. (2006), Rotation forest: A new classifier ensemble method, IEEE Transactions on Pattern Analysis and Machine Intelligence, 28(10):1619-1630.
  12. Laurent Hyafil et RL Rivest, « Constructing Optimal Binary Decision Trees is NP-complete », Information Processing Letters, vol. 5, no 1,‎ , p. 15–17 (DOI 10.1016/0020-0190(76)90095-8).
  13. Murthy S. (1998). Automatic construction of decision trees from data: A multidisciplinary survey. Data Mining and Knowledge Discovery
  14. Ben-Gal I. Dana A., Shkolnik N. and Singer: "Efficient Construction of Decision Trees by the Dual Information Distance Method". Quality Technology & Quantitative Management (QTQM), 11( 1), 133-147. (disponible en ligne en Anglais PDF)
  15. DOI 10.1007/978-1-84628-766-4.
  16. T. Hothorn, K. Hornik et A. Zeileis, « Unbiased Recursive Partitioning: A Conditional Inference Framework », Journal of Computational and Graphical Statistics, vol. 15, no 3,‎ , p. 651–674 (DOI 10.1198/106186006X133933, JSTOR 27594202).
  17. C. Strobl, J. Malley et G. Tutz, « An Introduction to Recursive Partitioning: Rationale, Application and Characteristics of Classification and Regression Trees, Bagging and Random Forests », Psychological Methods, vol. 14, no 4,‎ , p. 323–348 (DOI 10.1037/a0016973).
  18. DOI 10.1007/b13700.
  19. Deng,H., Runger, G.; Tuv, E. « Bias of importance measures for multi-valued attributes and solutions » ()
    —Proceedings of the 21st International Conference on Artificial Neural Networks (ICANN)
    .
  20. « citeseer.ist.psu.edu/oliver93d
 »(Archive.org ‱ Wikiwix ‱ Archive.is ‱ Google ‱ Que faire ?).
  21. Papagelis A., Kalles D.(2001). Breeding Decision Trees Using Evolutionary Techniques, Proceedings of the Eighteenth International Conference on Machine Learning, p. 393-400, June 28-July 01, 2001
  22. Barros, Rodrigo C., Basgalupp, M. P., Carvalho, A. C. P. L. F., Freitas, Alex A. (2011). A Survey of Evolutionary Algorithms for Decision-Tree Induction. IEEE Transactions on Systems, Man and Cybernetics, Part C: Applications and Reviews, vol. 42, n. 3, p. 291-312, May 2012.
  23. Chipman, Hugh A., Edward I. George, and Robert E. McCulloch. "Bayesian CART model search." Journal of the American Statistical Association 93.443 (1998): 935-948.
  24. Barros R. C., Cerri R., Jaskowiak P. A., Carvalho, A. C. P. L. F., A bottom-up oblique decision tree induction algorithm. Proceedings of the 11th International Conference on Intelligent Systems Design and Applications (ISDA 2011).
  25. G. V. Kass, « An exploratory technique for investigating large quantities of categorical data », Applied Statistics, vol. 29, no 2,‎ , p. 119–127 (DOI 10.2307/2986296, JSTOR 2986296).

Références

  • L. Breiman, J. Friedman, R. Olshen, C. Stone: CART: Classification and Regression Trees, Wadsworth International, 1984.
  • R. Quinlan: C4.5: Programs for Machine Learning, Morgan Kaufmann Publishers Inc., 1993.
  • D. Zighed, R. Rakotomalala: Graphes d'Induction -- Apprentissage et Data Mining, Hermes, 2000.
  • Daniel T. Larose (adaptation française T. Vallaud): Des donnĂ©es Ă  la connaissance : Une introduction au data-mining (1CĂ©dĂ©rom), Vuibert, 2005.

Articles connexes

Voir aussi

Liens externes

Cet article est issu de wikipedia. Text licence: CC BY-SA 4.0, Des conditions supplĂ©mentaires peuvent s’appliquer aux fichiers multimĂ©dias.