Dilemme biais-variance
En statistique et en apprentissage automatique, le dilemme (ou compromis) biaisâvariance est le problĂšme de minimiser simultanĂ©ment deux sources d'erreurs qui empĂȘchent les algorithmes d'apprentissage supervisĂ© de gĂ©nĂ©raliser au-delĂ de leur Ă©chantillon d'apprentissage :
- Le biais est l'erreur provenant dâhypothĂšses erronĂ©es dans l'algorithme d'apprentissage. Un biais Ă©levĂ© peut ĂȘtre liĂ© Ă un algorithme qui manque de relations pertinentes entre les donnĂ©es en entrĂ©e et les sorties prĂ©vues (sous-apprentissage).
- La variance est l'erreur due Ă la sensibilitĂ© aux petites fluctuations de lâĂ©chantillon d'apprentissage. Une variance Ă©levĂ©e peut entraĂźner un surapprentissage, c'est-Ă -dire modĂ©liser le bruit alĂ©atoire des donnĂ©es d'apprentissage plutĂŽt que les sorties prĂ©vues.
Pour chaque essai, quelques points de données bruitées sont fournis comme ensemble d'apprentissage (en haut).
Pour une forte valeur du paramĂštre d'envergure (spread) (image 2), le biais est Ă©levĂ© : les RBFs ne peuvent pleinement approximer la fonction (en particulier le creux central), mais la variance entre les diffĂ©rents essais est faible. Lorsque le paramĂštre d'envergure diminue (image 3 et 4), le biais diminue : les courbes bleues se rapprochent davantage de la courbe rouge. Cependant, en fonction du bruit dans les diffĂ©rents essais, la variance entre les essais augmente. Dans l'image du bas, les approximations pour x = 0 varient Ă©normĂ©ment selon l'endroit oĂč se trouvaient les points de donnĂ©es.La dĂ©composition biais-variance est une façon d'analyser l'espĂ©rance de l'erreur de prĂ©diction d'un algorithme d'apprentissage d'un problĂšme particulier comme une somme de trois termes : le biais, la variance et une quantitĂ©, appelĂ©e erreur irrĂ©ductible, rĂ©sultant du bruit dans le problĂšme lui-mĂȘme.
Ce compromis s'applique à toutes les formes d'apprentissage supervisé : classification, régression (fonction de montage)[1] - [2], et le structured (output) learning (en). Il a également été invoqué pour expliquer l'efficacité des heuristiques dans l'apprentissage humain.
Motivation
Le compromis biais-variance est un problĂšme central en apprentissage supervisĂ©. IdĂ©alement, on veut choisir un modĂšle qui reflĂšte avec prĂ©cision les rĂ©gularitĂ©s dans les donnĂ©es d'apprentissage, mais qui se gĂ©nĂ©ralise aussi aux donnĂ©es tests (donnĂ©es n'ayant pas servi Ă apprendre le modĂšle). Malheureusement, il est gĂ©nĂ©ralement impossible de faire les deux en mĂȘme temps. Les mĂ©thodes d'apprentissage avec une variance Ă©levĂ©e peuvent assez bien reprĂ©senter lâĂ©chantillon dâapprentissage, mais il existe un risque de surapprentissage sur des donnĂ©es tests ou bruitĂ©es. En revanche, les algorithmes avec une variance faible produisent gĂ©nĂ©ralement des modĂšles plus simples qui n'ont pas tendance au sur-apprentissage, mais peuvent ĂȘtre en sous-apprentissage sur le jeu de donnĂ©es d'apprentissage.
Les modĂšles avec un faible biais sont gĂ©nĂ©ralement plus complexes (par exemple la rĂ©gression polynomiale Ă plusieurs degrĂ©s), mais permettent de reprĂ©senter les donnĂ©es dâapprentissage avec plus de prĂ©cision. Cependant, ils peuvent Ă©galement reprĂ©senter une partie du bruit alĂ©atoire du jeu d'apprentissage, leurs prĂ©dictions sont donc moins prĂ©cises malgrĂ© la complexitĂ© supplĂ©mentaire. En revanche, les modĂšles avec un biais plus Ă©levĂ© ont tendance Ă ĂȘtre relativement simples (rĂ©gression polynomiale Ă moindre degrĂ© ou mĂȘme linĂ©aire), mais peuvent produire des prĂ©dictions de variance plus faible lorsqu'ils sont appliquĂ©s au-delĂ de l'ensemble d'apprentissage.
DĂ©composition biais-variance de l'erreur quadratique
Supposons que nous avons un ensemble d'apprentissage constituĂ© d'un ensemble de points et de valeurs rĂ©elles associĂ©e Ă chaque point . Nous supposons qu'il existe une relation fonctionnelle bruitĂ©e , oĂč le bruit, , a une moyenne nulle et une variance .
Trouver une fonction qui se gĂ©nĂ©ralise Ă des points extĂ©rieurs Ă l'ensemble d'apprentissage peut ĂȘtre fait avec l'un des nombreux algorithmes utilisĂ©s pour l'apprentissage supervisĂ©. Selon la fonction que nous choisissons, son erreur attendue sur un Ă©chantillon test peut se dĂ©composer comme suit[3]:34 - [4]:223:
oĂč
et
L'espĂ©rance est calculĂ©e sur l'ensemble des diffĂ©rents choix de l'Ă©chantillon d'apprentissage , tous gĂ©nĂ©rĂ©s selon la mĂȘme distribution. Les trois termes sont :
- le biais au carrĂ© de la mĂ©thode d'apprentissage, qui peut ĂȘtre vue comme l'erreur due aux hypothĂšses simplifiĂ©es de la mĂ©thode utilisĂ©e. Par exemple, approcher une fonction non linĂ©aire Ă l'aide d'une mĂ©thode pour modĂšle linĂ©aire va produire des erreurs d'estimation du fait de cette hypothĂšse ;
- la variance de la méthode d'apprentissage, ou plus intuitivement, de combien la méthode d'apprentissage se déplace autour de sa moyenne;
- l'erreur irrĂ©ductible . Ătant donnĂ© que tous les trois termes sont positifs, cela constitue une limite infĂ©rieure sur l'erreur attendue sur des Ă©chantillons test[3].:34
Plus le modÚle de est complexe, plus le biais sera faible. Cependant, la complexité va rendre le modÚle "mobile" pour s'adapter aux données, et donc sa variance sera plus grande.
Application Ă la classification
La dĂ©composition biais-variance a Ă©tĂ© initialement formulĂ©e pour une rĂ©gression des moindres carrĂ©s. Dans le cas de la classification sous la perte 0-1 (Taux d'erreur), Il est possible de trouver une dĂ©composition similaire [7] - [8]. Sinon, si le problĂšme de la classification peut ĂȘtre formulĂ© comme classification probabiliste, alors l'erreur quadratique attendue des probabilitĂ©s prĂ©dites par rapport aux vĂ©ritables probabilitĂ©s peut ĂȘtre dĂ©composĂ©e comme prĂ©cĂ©demment[9].
Approches
La rĂ©duction de la dimension et la sĂ©lection de variables (features en anglais) peuvent diminuer la variance tout en simplifiant les modĂšles. De mĂȘme, un plus grand ensemble d'apprentissage tend Ă diminuer la variance. L'ajout de variables explicatives (features) tend Ă diminuer le biais, au dĂ©triment de l'introduction de variance supplĂ©mentaire.
Les algorithmes d'apprentissage ont généralement certains paramÚtres ajustables qui contrÎlent le biais et la variance, e.g. :
- Les modĂšles linĂ©aires gĂ©nĂ©ralisĂ©s peuvent ĂȘtre rĂ©gularisĂ©s afin d'en diminuer la variance mais au prix de l'augmentation du biais[10].
- Avec les réseaux de neurones, la variance augmente et le biais diminue avec le nombre de couches cachées[1]. Comme dans le modÚle linéaire généralisé, une régularisation est généralement appliquée.
- Avec la méthode des k plus proches voisins, une valeur élevée de k conduit à un biais élevé et une variance faible (voir ci-dessous).
- Avec la mĂ©thode d'Instance-based learning (en), la rĂ©gularisation peut ĂȘtre obtenue en variant le mĂ©lange de prototypes et modĂšles[11].
- Avec les arbres de décision, la profondeur de l'arbre détermine la variance. Les arbres de décision sont généralement élagués pour contrÎler la variance[3].:307
Une façon de résoudre le compromis consiste à utiliser des modÚles mixte et de l'apprentissage ensembliste[12] - [13]. Par exemple, le boosting combine plusieurs "mauvais" modÚles (biais élevé) dans un ensemble qui a un biais plus faible que les modÚles individuels, tandis que le bagging combine les "meilleurs" classifieurs d'une maniÚre qui réduit leur variance.
MĂ©thode des k plus proches voisins
Dans le cas de la mĂ©thode des k plus proches voisins, une formule explicite existe concernant la dĂ©composition biaisâvariance du paramĂštre [4]:
oĂč sont les plus proches voisins de dans lâĂ©chantillon d'apprentissage. Le biais (premier terme de lâĂ©quation) est une fonction monotone croissante de , alors que la variance (second terme) diminue lorsque augmente. En effet, avec des "hypothĂšses raisonnables", le biais de l'estimateur du plus proche voisin (1-NN) disparaĂźt entiĂšrement lorsque la taille de lâĂ©chantillon d'apprentissage tend vers l'infini[1].
Application Ă l'apprentissage humain
Bien que largement discuté dans le contexte de l'apprentissage automatique, le dilemme biais-variance a été examiné dans le contexte des sciences cognitives, et plus particuliÚrement par Gerd Gigerenzer et ses co-auteurs dans le contexte de l'apprentissage heuristique. Ils soutiennent que le cerveau humain résout ce dilemme dans le cas des généralement parcimonieux sur des ensembles mal caractérisés fournies par une expérience en adoptant une heuristique biais élevé/faible variance. Cela reflÚte le fait qu'une approche non biaisée se généralise mal à de nouvelles situations, et suppose aussi déraisonnablement une connaissance précise de la réalité. Les heuristiques en résultant sont relativement simples, mais produisent de meilleures inférences dans une plus grande variété de situations[14].
Geman et al. soutiennent que le dilemme biais-variance implique que les capacitĂ©s telles que la reconnaissance d'objet gĂ©nĂ©rique ne peuvent ĂȘtre apprises Ă partir de zĂ©ro, mais nĂ©cessitent un certain degrĂ© d'innĂ© qui est ensuite rĂ©glĂ©e par l'expĂ©rience. Ceci car les approches sans modĂšle d'infĂ©rence nĂ©cessitent des ensembles d'apprentissage dĂ©mesurĂ©ment grands si l'on veut Ă©viter une forte variance.
Références
- (en) Cet article est partiellement ou en totalitĂ© issu de lâarticle de WikipĂ©dia en anglais intitulĂ© « Biasâvariance tradeoff » (voir la liste des auteurs).
- Geman, Stuart; E. Bienenstock; R. Doursat (1992).
- Biasâvariance decomposition, In Encyclopedia of Machine Learning.
- Gareth James; Daniela Witten; Trevor Hastie; Robert Tibshirani (2013).
- Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2009).
- Vijayakumar, Sethu (2007).
- Shakhnarovich, Greg (2011).
- Domingos, Pedro (2000).
- Valentini, Giorgio; Dietterich, Thomas G. (2004).
- Manning, Christopher D.; Raghavan, Prabhakar; SchĂŒtze, Hinrich (2008).
- Belsley, David (1991).
- Gagliardi, F (2011).
- Jo-Anne Ting, Sethu Vijaykumar, Stefan Schaal, Locally Weighted Regression for Control.
- Scott Fortmann-Roe.
- Gigerenzer, Gerd; Brighton, Henry (2009).
Liens externes
- Scott Fortmann-Roe, « Understanding the Bias-Variance Tradeoff »,