AccueilđŸ‡«đŸ‡·Chercher

Dilemme biais-variance

En statistique et en apprentissage automatique, le dilemme (ou compromis) biais–variance est le problĂšme de minimiser simultanĂ©ment deux sources d'erreurs qui empĂȘchent les algorithmes d'apprentissage supervisĂ© de gĂ©nĂ©raliser au-delĂ  de leur Ă©chantillon d'apprentissage :

  • Le biais est l'erreur provenant d’hypothĂšses erronĂ©es dans l'algorithme d'apprentissage. Un biais Ă©levĂ© peut ĂȘtre liĂ© Ă  un algorithme qui manque de relations pertinentes entre les donnĂ©es en entrĂ©e et les sorties prĂ©vues (sous-apprentissage).
  • La variance est l'erreur due Ă  la sensibilitĂ© aux petites fluctuations de l’échantillon d'apprentissage. Une variance Ă©levĂ©e peut entraĂźner un surapprentissage, c'est-Ă -dire modĂ©liser le bruit alĂ©atoire des donnĂ©es d'apprentissage plutĂŽt que les sorties prĂ©vues.
Fonction et données bruitées.
spread=5
spread=1
spread=0.1
Une fonction (rouge) est estimée à l'aide de fonctions de base radiales (RBF) (en bleu). Plusieurs essais sont présentés dans chaque graphique.

Pour chaque essai, quelques points de données bruitées sont fournis comme ensemble d'apprentissage (en haut).

Pour une forte valeur du paramĂštre d'envergure (spread) (image 2), le biais est Ă©levĂ© : les RBFs ne peuvent pleinement approximer la fonction (en particulier le creux central), mais la variance entre les diffĂ©rents essais est faible. Lorsque le paramĂštre d'envergure diminue (image 3 et 4), le biais diminue : les courbes bleues se rapprochent davantage de la courbe rouge. Cependant, en fonction du bruit dans les diffĂ©rents essais, la variance entre les essais augmente. Dans l'image du bas, les approximations pour x = 0 varient Ă©normĂ©ment selon l'endroit oĂč se trouvaient les points de donnĂ©es.

La dĂ©composition biais-variance est une façon d'analyser l'espĂ©rance de l'erreur de prĂ©diction d'un algorithme d'apprentissage d'un problĂšme particulier comme une somme de trois termes : le biais, la variance et une quantitĂ©, appelĂ©e erreur irrĂ©ductible, rĂ©sultant du bruit dans le problĂšme lui-mĂȘme.

Ce compromis s'applique à toutes les formes d'apprentissage supervisé : classification, régression (fonction de montage)[1] - [2], et le structured (output) learning (en). Il a également été invoqué pour expliquer l'efficacité des heuristiques dans l'apprentissage humain.

Motivation

Le compromis biais-variance est un problĂšme central en apprentissage supervisĂ©. IdĂ©alement, on veut choisir un modĂšle qui reflĂšte avec prĂ©cision les rĂ©gularitĂ©s dans les donnĂ©es d'apprentissage, mais qui se gĂ©nĂ©ralise aussi aux donnĂ©es tests (donnĂ©es n'ayant pas servi Ă  apprendre le modĂšle). Malheureusement, il est gĂ©nĂ©ralement impossible de faire les deux en mĂȘme temps. Les mĂ©thodes d'apprentissage avec une variance Ă©levĂ©e peuvent assez bien reprĂ©senter l’échantillon d’apprentissage, mais il existe un risque de surapprentissage sur des donnĂ©es tests ou bruitĂ©es. En revanche, les algorithmes avec une variance faible produisent gĂ©nĂ©ralement des modĂšles plus simples qui n'ont pas tendance au sur-apprentissage, mais peuvent ĂȘtre en sous-apprentissage sur le jeu de donnĂ©es d'apprentissage.

Les modĂšles avec un faible biais sont gĂ©nĂ©ralement plus complexes (par exemple la rĂ©gression polynomiale Ă  plusieurs degrĂ©s), mais permettent de reprĂ©senter les donnĂ©es d’apprentissage avec plus de prĂ©cision. Cependant, ils peuvent Ă©galement reprĂ©senter une partie du bruit alĂ©atoire du jeu d'apprentissage, leurs prĂ©dictions sont donc moins prĂ©cises malgrĂ© la complexitĂ© supplĂ©mentaire. En revanche, les modĂšles avec un biais plus Ă©levĂ© ont tendance Ă  ĂȘtre relativement simples (rĂ©gression polynomiale Ă  moindre degrĂ© ou mĂȘme linĂ©aire), mais peuvent produire des prĂ©dictions de variance plus faible lorsqu'ils sont appliquĂ©s au-delĂ  de l'ensemble d'apprentissage.

DĂ©composition biais-variance de l'erreur quadratique

Supposons que nous avons un ensemble d'apprentissage constituĂ© d'un ensemble de points et de valeurs rĂ©elles associĂ©e Ă  chaque point . Nous supposons qu'il existe une relation fonctionnelle bruitĂ©e , oĂč le bruit, , a une moyenne nulle et une variance .

Trouver une fonction qui se gĂ©nĂ©ralise Ă  des points extĂ©rieurs Ă  l'ensemble d'apprentissage peut ĂȘtre fait avec l'un des nombreux algorithmes utilisĂ©s pour l'apprentissage supervisĂ©. Selon la fonction que nous choisissons, son erreur attendue sur un  Ă©chantillon test  peut se dĂ©composer comme suit[3]:34 - [4]:223:

oĂč

et

L'espĂ©rance est calculĂ©e sur l'ensemble des diffĂ©rents choix de l'Ă©chantillon d'apprentissage , tous gĂ©nĂ©rĂ©s selon la mĂȘme distribution. Les trois termes sont :

  • le biais au carrĂ© de la mĂ©thode d'apprentissage, qui peut ĂȘtre vue comme l'erreur due aux hypothĂšses simplifiĂ©es de la mĂ©thode utilisĂ©e. Par exemple, approcher une fonction non linĂ©aire Ă  l'aide d'une mĂ©thode pour modĂšle linĂ©aire va produire des erreurs d'estimation du fait de cette hypothĂšse ;
  • la variance de la mĂ©thode d'apprentissage, ou plus intuitivement, de combien la mĂ©thode d'apprentissage se dĂ©place autour de sa moyenne;
  • l'erreur irrĂ©ductible . Ă‰tant donnĂ© que tous les trois termes sont positifs, cela constitue une limite infĂ©rieure sur l'erreur attendue sur des Ă©chantillons test[3].:34

Plus le modĂšle de est complexe, plus le biais sera faible.  Cependant, la complexitĂ© va rendre le modĂšle "mobile" pour s'adapter aux donnĂ©es, et donc sa variance sera plus grande.

Application Ă  la classification

La dĂ©composition biais-variance a Ă©tĂ© initialement formulĂ©e pour une rĂ©gression des moindres carrĂ©s. Dans le cas de la classification sous la perte 0-1 (Taux d'erreur),  Il est possible de trouver une dĂ©composition similaire [7] - [8]. Sinon, si le problĂšme de la classification peut ĂȘtre formulĂ© comme classification probabiliste, alors l'erreur quadratique attendue des probabilitĂ©s prĂ©dites par rapport aux vĂ©ritables probabilitĂ©s peut ĂȘtre dĂ©composĂ©e comme prĂ©cĂ©demment[9].

Approches

La rĂ©duction de la dimension et la sĂ©lection de variables (features en anglais) peuvent diminuer la variance tout en simplifiant les modĂšles.  De mĂȘme, un plus grand ensemble d'apprentissage tend Ă  diminuer la variance. L'ajout de variables explicatives (features) tend Ă  diminuer le biais, au dĂ©triment de l'introduction de variance supplĂ©mentaire.

Les algorithmes d'apprentissage ont généralement certains paramÚtres ajustables qui contrÎlent le biais et la variance, e.g. :

  • Les modĂšles linĂ©aires gĂ©nĂ©ralisĂ©s peuvent ĂȘtre rĂ©gularisĂ©s afin d'en diminuer la variance mais au prix de l'augmentation du biais[10].
  • Avec les rĂ©seaux de neurones, la variance augmente et le biais diminue avec le nombre de couches cachĂ©es[1]. Comme dans le modĂšle linĂ©aire gĂ©nĂ©ralisĂ©, une rĂ©gularisation est gĂ©nĂ©ralement appliquĂ©e.
  • Avec la mĂ©thode des k plus proches voisins, une valeur Ă©levĂ©e de k conduit Ă  un biais Ă©levĂ© et une variance faible (voir ci-dessous).
  • Avec la mĂ©thode d'Instance-based learning (en), la rĂ©gularisation peut ĂȘtre obtenue en variant le mĂ©lange de prototypes et modĂšles[11].
  • Avec les  arbres de dĂ©cision, la profondeur de l'arbre dĂ©termine la variance. Les arbres de dĂ©cision sont gĂ©nĂ©ralement Ă©laguĂ©s pour contrĂŽler la variance[3].:307

Une façon de rĂ©soudre le compromis consiste Ă  utiliser des modĂšles mixte et de l'apprentissage ensembliste[12] - [13]. Par exemple, le boosting combine plusieurs "mauvais" modĂšles (biais Ă©levĂ©) dans un ensemble qui a un biais plus faible que les modĂšles individuels, tandis que le bagging combine les "meilleurs" classifieurs d'une maniĂšre qui rĂ©duit leur variance.

MĂ©thode des k plus proches voisins

Dans le cas de la mĂ©thode des k plus proches voisins, une formule explicite existe concernant la dĂ©composition biais–variance du paramĂštre [4]:

oĂč sont les plus proches voisins de dans l’échantillon d'apprentissage. Le biais (premier terme de l’équation) est une fonction monotone croissante de , alors que la variance (second terme) diminue lorsque augmente. En effet, avec des "hypothĂšses raisonnables", le biais de l'estimateur du plus proche voisin (1-NN) disparaĂźt entiĂšrement lorsque la taille de l’échantillon d'apprentissage tend vers l'infini[1].

Application Ă  l'apprentissage humain

Bien que largement discuté dans le contexte de l'apprentissage automatique, le dilemme biais-variance a été examiné dans le contexte des sciences cognitives, et plus particuliÚrement par Gerd Gigerenzer et ses co-auteurs dans le contexte de l'apprentissage heuristique. Ils soutiennent que le cerveau humain résout ce dilemme dans le cas des généralement parcimonieux sur des ensembles mal caractérisés fournies par une expérience en adoptant une heuristique biais élevé/faible variance. Cela reflÚte le fait qu'une approche non biaisée se généralise mal à de nouvelles situations, et suppose aussi déraisonnablement une connaissance précise de la réalité. Les heuristiques en résultant sont relativement simples, mais produisent de meilleures inférences dans une plus grande variété de situations[14].

Geman et al. soutiennent que le dilemme biais-variance implique que les capacitĂ©s telles que la reconnaissance d'objet gĂ©nĂ©rique ne peuvent ĂȘtre apprises Ă  partir de zĂ©ro, mais nĂ©cessitent un certain degrĂ© d'innĂ© qui est ensuite rĂ©glĂ©e par l'expĂ©rience. Ceci car les approches sans modĂšle d'infĂ©rence nĂ©cessitent des ensembles d'apprentissage dĂ©mesurĂ©ment grands si l'on veut Ă©viter une forte variance.

Références

  1. Geman, Stuart; E. Bienenstock; R. Doursat (1992).
  2. Bias–variance decomposition, In Encyclopedia of Machine Learning.
  3. Gareth James; Daniela Witten; Trevor Hastie; Robert Tibshirani (2013).
  4. Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2009).
  5. Vijayakumar, Sethu (2007).
  6. Shakhnarovich, Greg (2011).
  7. Domingos, Pedro (2000).
  8. Valentini, Giorgio; Dietterich, Thomas G. (2004).
  9. Manning, Christopher D.; Raghavan, Prabhakar; SchĂŒtze, Hinrich (2008).
  10. Belsley, David (1991).
  11. Gagliardi, F (2011).
  12. Jo-Anne Ting, Sethu Vijaykumar, Stefan Schaal, Locally Weighted Regression for Control.
  13. Scott Fortmann-Roe.
  14. Gigerenzer, Gerd; Brighton, Henry (2009).

Liens externes

Cet article est issu de wikipedia. Text licence: CC BY-SA 4.0, Des conditions supplĂ©mentaires peuvent s’appliquer aux fichiers multimĂ©dias.