Arbre de décision (apprentissage)
Lâapprentissage par arbre de dĂ©cision dĂ©signe une mĂ©thode basĂ©e sur l'utilisation d'un arbre de dĂ©cision comme modĂšle prĂ©dictif. On l'utilise notamment en fouille de donnĂ©es et en apprentissage automatique.
Dans ces structures d'arbre, les feuilles reprĂ©sentent les valeurs de la variable-cible et les embranchements correspondent Ă des combinaisons de variables d'entrĂ©e qui mĂšnent Ă ces valeurs. En analyse de dĂ©cision, un arbre de dĂ©cision peut ĂȘtre utilisĂ© pour reprĂ©senter de maniĂšre explicite les dĂ©cisions rĂ©alisĂ©es et les processus qui les amĂšnent. En apprentissage et en fouille de donnĂ©es, un arbre de dĂ©cision dĂ©crit les donnĂ©es mais pas les dĂ©cisions elles-mĂȘmes, l'arbre serait utilisĂ© comme point de dĂ©part au processus de dĂ©cision.
C'est une technique d'apprentissage supervisé : on utilise un ensemble de données pour lesquelles on connaßt la valeur de la variable-cible afin de construire l'arbre (données dites étiquetées), puis on extrapole les résultats à l'ensemble des données de test. Les arbres de décision font partie des algorithmes les plus populaires en apprentissage automatique[1] - [2].
Généralités
L'apprentissage par arbre de décision est une méthode classique en apprentissage automatique [3]. Son but est de créer un modÚle qui prédit la valeur d'une variable-cible depuis la valeur de plusieurs variables d'entrée.
Une des variables d'entrĂ©e est sĂ©lectionnĂ©e Ă chaque nĆud intĂ©rieur (ou interne, nĆud qui n'est pas terminal) de l'arbre selon une mĂ©thode qui dĂ©pend de l'algorithme et qui sera discutĂ©e plus loin. Chaque arĂȘte vers un nĆud-fils correspond Ă un ensemble de valeurs d'une variable d'entrĂ©e, de maniĂšre que l'ensemble des arĂȘtes vers les nĆuds-fils couvrent toutes les valeurs possibles de la variable d'entrĂ©e.
Chaque feuille (ou nĆud terminal de l'arbre) reprĂ©sente soit une valeur de la variable-cible, soit une distribution de probabilitĂ© des diverses valeurs possibles de la variable-cible. La combinaison des valeurs des variables d'entrĂ©e est reprĂ©sentĂ©e par le chemin de la racine jusqu'Ă la feuille.
L'arbre est en général construit en séparant l'ensemble des données en sous-ensembles en fonction de la valeur d'une caractéristique d'entrée. Ce processus est répété sur chaque sous-ensemble obtenu de maniÚre récursive, il s'agit donc d'un partitionnement récursif.
La rĂ©cursion est achevĂ©e Ă un nĆud soit lorsque tous les sous-ensembles ont la mĂȘme valeur de la caractĂ©ristique-cible, ou lorsque la sĂ©paration n'amĂ©liore plus la prĂ©diction. Ce processus est appelĂ© induction descendante d'arbres de dĂ©cision (top-down induction of decision trees ou TDIDT)[4], c'est un algorithme glouton puisqu'on recherche Ă chaque nĆud de l'arbre le partage optimal, dans le but d'obtenir le meilleur partage possible sur l'ensemble de l'arbre de dĂ©cision. C'est la stratĂ©gie la plus commune pour apprendre les arbres de dĂ©cision depuis les donnĂ©es.
En fouille de données, les arbres de décision peuvent aider à la description, la catégorisation ou la généralisation d'un jeu de données fixé.
L'ensemble d'apprentissage est généralement fourni sous la forme d'enregistrements du type :
La variable désigne la variable-cible que l'on cherche à prédire, classer ou généraliser. Le vecteur est constitué des variables d'entrée etc. qui sont utilisées dans ce but.
Types
Il existe deux principaux types d'arbre de décision en fouille de données :
- Les arbres de classification (Classification Tree) permettent de prédire à quelle classe la variable-cible appartient, dans ce cas la prédiction est une étiquette de classe,
- Les arbres de régression (Regression Tree) permettent de prédire une quantité réelle (par exemple, le prix d'une maison ou la durée de séjour d'un patient dans un hÎpital), dans ce cas la prédiction est une valeur numérique.
Le terme d'analyse d'arbre de classification et de régression (CART, d'aprÚs l'acronyme anglais) est un terme générique se référant aux procédures décrites précédemment et introduites par Breiman et al.[5]. Les arbres utilisés dans le cas de la régression et dans le cas de la classification présentent des similarités mais aussi des différences, en particulier en ce qui concerne la procédure utilisée pour déterminer les séparations des branches.
Construction d'un arbre de décision
L'apprentissage par arbre de dĂ©cision consiste Ă construire un arbre depuis un ensemble d'apprentissage constituĂ© de n-uplets Ă©tiquetĂ©s. Un arbre de dĂ©cision peut ĂȘtre dĂ©crit comme un diagramme de flux de donnĂ©es (ou flowchart) oĂč chaque nĆud interne dĂ©crit un test sur une variable d'apprentissage, chaque branche reprĂ©sente un rĂ©sultat du test, et chaque feuille contient la valeur de la variable cible (une Ă©tiquette de classe pour les arbres de classification, une valeur numĂ©rique pour les arbres de rĂ©gression).
CritĂšre de segmentation
Usuellement, les algorithmes pour construire les arbres de dĂ©cision sont construits en divisant l'arbre du sommet vers les feuilles en choisissant Ă chaque Ă©tape une variable d'entrĂ©e qui rĂ©alise le meilleur partage de l'ensemble d'objets, comme dĂ©crit prĂ©cĂ©demment[6]. Pour choisir la variable de sĂ©paration sur un nĆud, les algorithmes testent les diffĂ©rentes variables d'entrĂ©e possibles et sĂ©lectionnent celle qui maximise un critĂšre donnĂ©.
Cas des arbres de classification
Dans le cas des arbres de classification, il s'agit d'un problĂšme de classification automatique. Le critĂšre dâĂ©valuation des partitions caractĂ©rise l'homogĂ©nĂ©itĂ© (ou le gain en homogĂ©nĂ©itĂ©) des sous-ensembles obtenus par division de l'ensemble. Ces mĂ©triques sont appliquĂ©es Ă chaque sous-ensemble candidat et les rĂ©sultats sont combinĂ©s (par exemple, moyennĂ©s) pour produire une mesure de la qualitĂ© de la sĂ©paration.
Il existe un grand nombre de critĂšres de ce type, les plus utilisĂ©s sont lâentropie de Shannon, l'indice de diversitĂ© de Gini et leurs variantes.
- Indice de diversitĂ© de Gini : utilisĂ© par l'algorithme CART, il mesure avec quelle frĂ©quence un Ă©lĂ©ment alĂ©atoire de l'ensemble serait mal classĂ© si son Ă©tiquette Ă©tait choisie alĂ©atoirement selon la distribution des Ă©tiquettes dans le sous-ensemble. L'indice de diversitĂ© de Gini peut ĂȘtre calculĂ© en sommant la probabilitĂ© pour chaque Ă©lĂ©ment d'ĂȘtre choisi, multipliĂ©e par la probabilitĂ© qu'il soit mal classĂ©. Il atteint sa valeur minimum (zĂ©ro) lorsque tous les Ă©lĂ©ments de l'ensemble sont dans une mĂȘme classe de la variable-cible. Pratiquement, si l'on suppose que la classe prend une valeur dans l'ensemble , et si dĂ©signe la fraction des Ă©lĂ©ments de l'ensemble avec l'Ă©tiquette dans l'ensemble, on aura :
- Gain d'information : utilisĂ© par les algorithmes ID3 et C4.5, le gain d'information est basĂ© sur le concept d'entropie de Shannon en thĂ©orie de l'information [2]. L'entropie permet de mesurer le dĂ©sordre dans un ensemble de donnĂ©es et est utilisĂ©e pour choisir la valeur permettant de maximiser le gain d'information. En utilisant les mĂȘmes notations que pour l'indice de diversitĂ© de Gini, on obtient la formule suivante :
Cas des arbres de régression
Dans le cas des arbres de rĂ©gression, le mĂȘme schĂ©ma de sĂ©paration peut ĂȘtre appliquĂ©, mais au lieu de minimiser le taux dâerreur de classification, on cherche Ă maximiser la variance inter-classes (avoir des sous-ensembles dont les valeurs de la variable-cible soient les plus dispersĂ©es possibles). En gĂ©nĂ©ral, le critĂšre utilise le test du chi carrĂ©.
Remarques
Certains critÚres permettent de prendre en compte le fait que la variable-cible prend des valeurs ordonnées, en utilisant des mesures ou des heuristiques appropriées[7].
Chaque ensemble de valeurs de la variable de segmentation permet de produire un nĆud-fils. Les algorithmes dâapprentissage peuvent diffĂ©rer sur le nombre de nĆud-fils produits : certains (tels que CART) produisent systĂ©matiquement des arbres binaires, et cherchent donc la partition binaire qui optimise le critĂšre de segmentation. Dâautres (comme CHAID) cherchent Ă effectuer les regroupements les plus pertinents en sâappuyant sur des critĂšres statistiques. Selon la technique, nous obtiendrons des arbres plus ou moins larges. Pour que la mĂ©thode soit efficace, il faut Ă©viter de fractionner exagĂ©rĂ©ment les donnĂ©es afin de ne pas produire des groupes dâeffectifs trop faibles, ne correspondant Ă aucune rĂ©alitĂ© statistique.
Traitement des variables continues
Dans le cas de variables de segmentation continues, le critĂšre de segmentation choisi doit ĂȘtre adĂ©quat. En gĂ©nĂ©ral, on trie les donnĂ©es selon la variable Ă traiter, puis on teste les diffĂ©rents points de coupure possibles en Ă©valuant le critĂšre pour chaque cas, le point de coupure optimal sera celui qui maximise le critĂšre de segmentation.
DĂ©finir la taille de lâarbre
Il n'est pas toujours souhaitable en pratique de construire un arbre dont les feuilles correspondent Ă des sous-ensembles parfaitement homogĂšnes du point de vue de la variable-cible. En effet, l'apprentissage est rĂ©alisĂ© sur un Ă©chantillon que l'on espĂšre reprĂ©sentatif dâune population. L'enjeu de toute technique d'apprentissage est d'arriver Ă saisir l'information utile sur la structure statistique de la population, en excluant les caractĂ©ristiques spĂ©cifiques au jeu de donnĂ©es Ă©tudiĂ©. Plus le modĂšle est complexe (plus l'arbre est grand, plus il a de branches, plus il a de feuilles), plus l'on court le risque de voir ce modĂšle incapable d'ĂȘtre extrapolĂ© Ă de nouvelles donnĂ©es, c'est-Ă -dire de rendre compte de la rĂ©alitĂ© que l'on cherche Ă apprĂ©hender.
En particulier, dans le cas extrĂȘme oĂč l'arbre a autant de feuilles qu'il y a d'individus dans la population (d'enregistrements dans le jeu de donnĂ©es), l'arbre ne commet alors aucune erreur sur cet Ă©chantillon puisqu'il en Ă©pouse toutes les caractĂ©ristiques, mais il n'est pas gĂ©nĂ©ralisable Ă un autre Ă©chantillon. Ce problĂšme, nommĂ© surapprentissage ou surajustement (overfitting), est un sujet classique de l'apprentissage automatique et de la fouille de donnĂ©es.
On cherche donc à construire un arbre qui soit le plus petit possible en assurant la meilleure performance possible. Suivant le principe de parcimonie, plus un arbre sera petit, plus il sera stable dans ses prévisions futures. Il faut réaliser un arbitrage entre performance et complexité dans les modÚles utilisés. à performance comparable, on préférera toujours le modÚle le plus simple, si l'on souhaite pouvoir utiliser ce modÚle sur de nouveaux échantillons.
Le problĂšme du surajustement des modĂšles
Pour réaliser l'arbitrage performance/complexité des modÚles utilisés, on évalue la performance d'un ou de plusieurs modÚles sur les données qui ont servi à sa construction (le ou les échantillons d'apprentissage), mais également sur un ou plusieurs échantillons de validation : des données étiquetées à disposition mais que l'on décide volontairement de ne pas utiliser dans la construction des modÚles.
Ces donnĂ©es sont traitĂ©es comme les donnĂ©es de test, la stabilitĂ© de la performance des modĂšles sur ces deux types d'Ă©chantillons permettra de juger de son surajustement et donc de sa capacitĂ© Ă ĂȘtre utilisĂ© avec un risque d'erreur maĂźtrisĂ© dans des conditions rĂ©elles oĂč les donnĂ©es ne sont pas connues Ă l'avance.
Dans le graphique ci-contre, nous observons lâĂ©volution de lâerreur dâajustement d'un arbre de dĂ©cision en fonction du nombre de feuilles de lâarbre (qui mesure ici la complexitĂ©). Nous constatons que si lâerreur dĂ©croĂźt constamment sur lâĂ©chantillon dâapprentissage, Ă partir d'un certain niveau de complexitĂ©, le modĂšle s'Ă©loigne de la rĂ©alitĂ©, rĂ©alitĂ© que lâon cherche Ă estimer sur l'Ă©chantillon de validation (appelĂ© Ă©chantillon de test dans le graphique).
Dans le cas des arbres de décisions, plusieurs types de solutions algorithmiques ont été envisagées pour tenter d'éviter autant que possible le surapprentissage des modÚles : les techniques de pré- ou de post-élagage des arbres.
Certaines thĂ©ories statistiques cherchent Ă trouver l'optimum entre l'erreur commise sur l'Ă©chantillon d'apprentissage et celle commise sur l'Ă©chantillon de test. La thĂ©orie de Vapnik-Chervonenkis Structured Risk Minimization (ou SRM), utilise une variable appelĂ©e dimension VC, pour dĂ©terminer lâoptimum dâun modĂšle. Elle est utilisable par consĂ©quent pour gĂ©nĂ©rer des modĂšles qui assurent le meilleur compromis entre qualitĂ© et robustesse du modĂšle.
Ces solutions algorithmiques sont complémentaires des analyses de performances comparées et de stabilité effectuées sur les échantillons d'apprentissage et de validation.
Le pré-élagage
La premiĂšre stratĂ©gie utilisable pour Ă©viter un surapprentissage des arbres de dĂ©cision consiste Ă proposer des critĂšres dâarrĂȘt lors de la phase dâexpansion. Câest le principe du prĂ©-Ă©lagage. Lorsque le groupe est dâeffectif trop faible, ou lorsque l'homogĂ©nĂ©itĂ© d'un sous-ensemble a atteint un niveau suffisant, on considĂšre quâil nâest plus nĂ©cessaire de sĂ©parer l'Ă©chantillon. Un autre critĂšre souvent rencontrĂ© dans ce cadre est lâutilisation dâun test statistique pour Ă©valuer si la segmentation introduit un apport dâinformations significatif pour la prĂ©diction de la variable-cible.
Le post-Ă©lagage
La seconde stratĂ©gie consiste Ă construire lâarbre en deux temps : on produit d'abord lâarbre dont les feuilles sont le plus homogĂšnes possibles dans une phase dâexpansion, en utilisant une premiĂšre fraction de lâĂ©chantillon de donnĂ©es (Ă©chantillon dâapprentissage Ă ne pas confondre avec la totalitĂ© de lâĂ©chantillon, appelĂ© en anglais growing set pour lever l'ambiguĂŻtĂ©), puis on rĂ©duit lâarbre, en sâappuyant sur une autre fraction des donnĂ©es de maniĂšre Ă optimiser les performances de lâarbre, câest la phase de post-Ă©lagage. Selon les cas, cette seconde portion des donnĂ©es est dĂ©signĂ©e par le terme dâĂ©chantillon de validation ou Ă©chantillon de test, introduisant une confusion avec lâĂ©chantillon utilisĂ© pour mesurer les performances des modĂšles. Le terme d'Ă©chantillon dâĂ©lagage permet de le dĂ©signer sans ambiguĂŻtĂ©, c'est la traduction directe de lâappellation anglaise pruning set.
ProblÚme des données incomplÚtes
Les donnĂ©es Ă disposition sont souvent incomplĂštes, dans le sens oĂč l'on ne dispose que d'une partie des variables d'entrĂ©e pour un enregistrement. Plusieurs possibilitĂ©s sont envisageables dans ce cas :
- Les ignorer : cela n'est possible que si l'échantillon de données est suffisamment grand pour supprimer des individus (c'est-à -dire des lignes d'enregistrements) du jeu de données, et que si l'on est sûr que lorsque l'arbre de décision sera utilisé en pratique, toutes les données seront toujours disponibles pour tous les individus.
- Les remplacer par une valeur calculée jugée adéquate (on parle d'imputation de valeurs manquantes) : cette technique est parfois utilisée en statistique mais au-delà des problÚmes purement mathématiques, elle est contestable du point de vue méthodologique.
- Utiliser des variables substituts : cela consiste, pour un individu qui aurait une donnée manquante pour une variable sélectionnée par l'arbre comme étant discriminante, à utiliser la variable qui parmi l'ensemble des variables disponibles dans la base de données produit localement les feuilles les plus similaires aux feuilles produites par la variable dont la donnée est manquante, on appelle alors cette variable un substitut. Si un individu a une valeur manquante pour la variable initiale, mais aussi pour la variable substitut, on peut utiliser une deuxiÚme variable substitut. Et ainsi de suite, jusqu'à la limite d'un critÚre de qualité du substitut. Cette technique a l'avantage d'exploiter l'ensemble de l'information disponible (cela est donc trÚs utile lorsque cette information est complexe à récupérer) pour chaque individu.
Affectation de la conclusion sur chaque feuille
Dans le cas des arbres de classification, il faut prĂ©ciser la rĂšgle dâaffectation dans les feuilles une fois lâarbre construit. Si les feuilles sont homogĂšnes, il n'y a pas d'ambiguĂŻtĂ©. Si ce nâest pas le cas, une rĂšgle simple consiste Ă dĂ©cider de la classe de la feuille en fonction de la classe majoritaire, celle qui est la plus reprĂ©sentĂ©e.
Cette technique trĂšs simple est optimale dans le cas oĂč les donnĂ©es sont issues dâun tirage alĂ©atoire non-biasĂ© dans la population ; la matrice des coĂ»ts de mauvaise affectation est unitaire (symĂ©trique) : affecter Ă bon escient Ă un coĂ»t nul, et affecter Ă tort coĂ»te 1 quel que soit le cas de figure. En dehors de ce cadre, la rĂšgle de la majoritĂ© nâest pas nĂ©cessairement justifiĂ©e mais est facile Ă utiliser dans la pratique.
Amélioration des performances
MĂ©thodes d'ensembles
Certaines techniques, appelées méthodes d'ensembles (ensemble methods), améliorent la qualité ou la fiabilité de la prédiction en construisant plusieurs arbres de décision depuis les données :
- L'ensachage (bagging ou bootstrap aggregating), une des premiÚres méthodes historiquement, selon laquelle on construit plusieurs arbres de décision en ré-échantillonnant l'ensemble d'apprentissage, puis en construisant les arbres par une procédure de consensus[8].
- La classification par forĂȘts d'arbres alĂ©atoires de Breiman.
- La classification par rotation de forĂȘts d'arbres de dĂ©cision, dans laquelle on applique d'abord une analyse en composantes principales (PCA) sur un ensemble alĂ©atoire des variables d'entrĂ©e[11].
Combinaisons Ă d'autres techniques
Les arbres de décision sont parfois combinés entre eux ou à d'autres techniques d'apprentissage : analyse discriminante, régressions logistiques, régressions linéaires, réseaux de neurones (perceptron multicouche, radial basis function network) ou autres.
Des procédures d'agrégation des performances des différents modÚles utilisés (telles que les décisions par consensus), sont mises en place pour obtenir une performance maximale, tout en contrÎlant le niveau de complexité des modÚles utilisés.
Avantages et inconvénients de la méthode
Avantages
Comparativement à d'autres méthodes de fouille de données, les arbres de décision présentent plusieurs avantages :
- La simplicitĂ© de comprĂ©hension et d'interprĂ©tation. C'est un modĂšle boĂźte blanche : si l'on observe une certaine situation sur un modĂšle, celle-ci peut-ĂȘtre facilement expliquĂ©e Ă l'aide de la logique boolĂ©enne, au contraire de modĂšles boĂźte noire comme les rĂ©seaux neuronaux, dont l'explication des rĂ©sultats est difficile Ă comprendre.
- Peu de préparation des données (pas de normalisation, de valeurs vides à supprimer, ou de variable muette).
- Le modÚle peut gérer à la fois des valeurs numériques et des catégories. D'autres techniques sont souvent spécialisées sur un certain type de variables (les réseaux neuronaux ne sont utilisables que sur des variables numériques).
- Il est possible de valider un modÚle à l'aide de tests statistiques, et ainsi de rendre compte de la fiabilité du modÚle.
- Performant sur de grands jeux de données: la méthode est relativement économique en termes de ressources de calcul.
Inconvénients
En revanche, elle présente certains inconvénients :
- L'apprentissage de l'arbre de dĂ©cision optimal est NP-complet concernant plusieurs aspects de l'optimalitĂ©[12] - [13]. En consĂ©quence, les algorithmes d'apprentissage par arbre de dĂ©cision sont basĂ©s sur des heuristiques telles que les algorithmes gloutons cherchant Ă optimiser le partage Ă chaque nĆud, et de tels algorithmes ne garantissent pas d'obtenir l'optimum global. Certaines mĂ©thodes visent Ă diminuer l'effet de la recherche gloutonne [14].
- L'apprentissage par arbre de décision peut amener des arbres de décision trÚs complexes, qui généralisent mal l'ensemble d'apprentissage (il s'agit du problÚme de surapprentissage précédemment évoqué[15]). On utilise des procédures d'élagage pour contourner ce problÚme, certaines approches comme l'inférence conditionnelle permettent de s'en affranchir[16] - [17].
- Certains concepts sont difficiles Ă exprimer Ă l'aide d'arbres de dĂ©cision (comme XOR ou la paritĂ©). Dans ces cas, les arbres de dĂ©cision deviennent extrĂȘmement larges. Pour rĂ©soudre ce problĂšme, plusieurs moyens existent, tels que la proportionnalisation[18], ou l'utilisation d'algorithmes d'apprentissage utilisant des reprĂ©sentations plus expressives (par exemple la programmation logique inductive).
Extensions
Les graphes de décision
Dans un arbre de décision, tous les chemins depuis la racine jusqu'aux feuilles utilisent le connecteur AND. Dans un graphe de décision, on peut également utiliser le connecteur OR pour connecter plusieurs chemins à l'aide du Minimum message length (MML)[20]. En général les graphes de décision produisent des graphes avec moins de feuilles que les arbres de décision.
MĂ©thodes de recherche alternatives
Des algorithmes évolutionnistes sont utilisés pour éviter les séparations amenant à des optimum locaux[21] - [22].
On peut également échantillonner l'arbre en utilisant des méthodes MCMC dans un paradigme bayésien[23].
L'arbre peut ĂȘtre construit par une approche ascendante (du bas vers le haut)[24].
Algorithmes classiques
On dénombre plusieurs algorithmes pour construire des arbres de décision, parmi lesquels :
- ID3 (Iterative Dichotomiser 3)
- C4.5, C5 (successeurs d'ID3)
- CHAID (CHi-squared Automatic Interaction Detector) [25]
- Exhaustive CHAID
- CART (Classification And Regression Tree)
- SLIQ
- QUEST
- VFDT
- UFFT
- MARS
- Conditional Inference Trees. Une méthode statistique basée sur l'utilisation de tests non-paramétriques comme critÚre de séparation[16] - [17].
ID3 et CART ont été inventées de maniÚre indépendante dans les décennies 1970-1980, mais utilisent des approches similaires pour apprendre des arbres de décision depuis l'ensemble d'apprentissage.
Tous ces algorithmes se distinguent par le ou les critÚres de segmentation utilisés, par les méthodes d'élagages implémentées, par leur maniÚre de gérer les données manquantes dans les prédicteurs.
Implémentations
Beaucoup de logiciels de fouille de données proposent des bibliothÚques permettant d'implémenter un ou plusieurs algorithmes d'apprentissage par arbre de décision. Par exemple, le logiciel Open Source R contient plusieurs implémentations de CART, telles que rpart, party et randomForest, les logiciels libres Weka et Orange (et son module orngTree) ou encore la bibliothÚque libre Python scikit-learn ; mais également Salford Systems CART, IBM SPSS Modeler, RapidMiner, SAS Enterprise Miner, KNIME, Microsoft SQL Server .
Notes
- (en) Cet article est partiellement ou en totalitĂ© issu de lâarticle de WikipĂ©dia en anglais intitulĂ© « Decision Tree Learning » (voir la liste des auteurs).
- (en) Xindong Wu, Vipin Kumar, J. Ross Quinlan et Joydeep Ghosh, « Top 10 algorithms in data mining », Knowledge and Information Systems, vol. 14, no 1,â , p. 1â37 (ISSN 0219-1377 et 0219-3116, DOI 10.1007/s10115-007-0114-2, lire en ligne, consultĂ© le ).
- (en) S. Madeh Piryonesi et Tamer E. El-Diraby, « Data Analytics in Asset Management: Cost-Effective Prediction of the Pavement Condition Index », Journal of Infrastructure Systems, vol. 26, no 1,â , p. 04019036 (ISSN 1076-0342 et 1943-555X, DOI 10.1061/(ASCE)IS.1943-555X.0000512, lire en ligne, consultĂ© le ).
- (en) Lior Rokach, Data mining with decision trees : theory and applications, Hackensack (NJ), World Scientific Pub Co Inc, , 244 p. (ISBN 978-981-27-7171-1, BNF 41351943).
- Quinlan, J. R., (1986). Induction of Decision Trees. Machine Learning 1: 81-106, Kluwer Academic Publishers.
- Leo Breiman, Classification and regression trees, Monterey, CA, Wadsworth & Brooks/Cole Advanced Books & Software, , 368 p. (ISBN 978-0-412-04841-8).
- L. Rokach et O. Maimon, « Top-down induction of decision trees classifiers-a survey », IEEE Transactions on Systems, Man, and Cybernetics, Part C, vol. 35, no 4,â , p. 476â487 (DOI 10.1109/TSMCC.2004.843247).
- Des heuristiques sont notamment utilisées lorsque l'on cherche à réduire la complexité de l'arbre en agrégeant les modalités des variables utilisées comme prédicteurs de la cible. Par exemple, pour le cas des modalités d'une variable de classes d'ùge, on ne va autoriser que des regroupements de classes d'ùge contiguës.
- Breiman, L. (1996). Bagging Predictors. "Machine Learning, 24": p. 123-140.
- Friedman, J. H. (1999). Stochastic gradient boosting. Stanford University.
- Hastie, T., Tibshirani, R., Friedman, J. H. (2001). The elements of statistical learning : Data mining, inference, and prediction. New York: Springer Verlag.
- Rodriguez, J.J. and Kuncheva, L.I. and Alonso, C.J. (2006), Rotation forest: A new classifier ensemble method, IEEE Transactions on Pattern Analysis and Machine Intelligence, 28(10):1619-1630.
- Laurent Hyafil et RL Rivest, « Constructing Optimal Binary Decision Trees is NP-complete », Information Processing Letters, vol. 5, no 1,â , p. 15â17 (DOI 10.1016/0020-0190(76)90095-8).
- Murthy S. (1998). Automatic construction of decision trees from data: A multidisciplinary survey. Data Mining and Knowledge Discovery
- Ben-Gal I. Dana A., Shkolnik N. and Singer: "Efficient Construction of Decision Trees by the Dual Information Distance Method". Quality Technology & Quantitative Management (QTQM), 11( 1), 133-147. (disponible en ligne en Anglais PDF)
- DOI 10.1007/978-1-84628-766-4.
- T. Hothorn, K. Hornik et A. Zeileis, « Unbiased Recursive Partitioning: A Conditional Inference Framework », Journal of Computational and Graphical Statistics, vol. 15, no 3,â , p. 651â674 (DOI 10.1198/106186006X133933, JSTOR 27594202).
- C. Strobl, J. Malley et G. Tutz, « An Introduction to Recursive Partitioning: Rationale, Application and Characteristics of Classification and Regression Trees, Bagging and Random Forests », Psychological Methods, vol. 14, no 4,â , p. 323â348 (DOI 10.1037/a0016973).
- DOI 10.1007/b13700.
- Deng,H., Runger, G.; Tuv, E. « Bias of importance measures for multi-valued attributes and solutions » ()
âProceedings of the 21st International Conference on Artificial Neural Networks (ICANN). - « citeseer.ist.psu.edu/oliver93d⊠»(Archive.org âą Wikiwix âą Archive.is âą Google âą Que faire ?).
- Papagelis A., Kalles D.(2001). Breeding Decision Trees Using Evolutionary Techniques, Proceedings of the Eighteenth International Conference on Machine Learning, p. 393-400, June 28-July 01, 2001
- Barros, Rodrigo C., Basgalupp, M. P., Carvalho, A. C. P. L. F., Freitas, Alex A. (2011). A Survey of Evolutionary Algorithms for Decision-Tree Induction. IEEE Transactions on Systems, Man and Cybernetics, Part C: Applications and Reviews, vol. 42, n. 3, p. 291-312, May 2012.
- Chipman, Hugh A., Edward I. George, and Robert E. McCulloch. "Bayesian CART model search." Journal of the American Statistical Association 93.443 (1998): 935-948.
- Barros R. C., Cerri R., Jaskowiak P. A., Carvalho, A. C. P. L. F., A bottom-up oblique decision tree induction algorithm. Proceedings of the 11th International Conference on Intelligent Systems Design and Applications (ISDA 2011).
- G. V. Kass, « An exploratory technique for investigating large quantities of categorical data », Applied Statistics, vol. 29, no 2,â , p. 119â127 (DOI 10.2307/2986296, JSTOR 2986296).
Références
- L. Breiman, J. Friedman, R. Olshen, C. Stone: CART: Classification and Regression Trees, Wadsworth International, 1984.
- R. Quinlan: C4.5: Programs for Machine Learning, Morgan Kaufmann Publishers Inc., 1993.
- D. Zighed, R. Rakotomalala: Graphes d'Induction -- Apprentissage et Data Mining, Hermes, 2000.
- Daniel T. Larose (adaptation française T. Vallaud): Des données à la connaissance : Une introduction au data-mining (1Cédérom), Vuibert, 2005.