AccueilđŸ‡«đŸ‡·Chercher

Variance (mathématiques)

En statistique et en théorie des probabilités, la variance est une mesure de la dispersion des valeurs d'un échantillon ou d'une variable aléatoire. Elle exprime la moyenne des carrés des écarts à la moyenne, aussi égale à la différence entre la moyenne des carrés des valeurs de la variable et le carré de la moyenne, selon le théorÚme de König-Huygens. Ainsi, plus l'écart à la moyenne est grand plus il est prépondérant dans le calcul total (voir la fonction carré) de la variance qui donnerait donc une bonne idée sur la dispersion des valeurs.

Exemple d'Ă©chantillons pour deux populations ayant la mĂȘme moyenne mais des variances diffĂ©rentes. La population en rouge a une moyenne de 100 et une variance de 100 (Ă©cart-type = SD = standard deviation = 10). La population en bleu a une moyenne de 100 et une variance de 2 500 (Ă©cart-type = SD = 50).

La variance est toujours positive, et ne s’annule que s’il n’y a essentiellement qu’une seule valeur. Sa racine carrĂ©e dĂ©finit l’écart type σ, d’oĂč la notation .

La variance est quadratique et invariante par translation. Elle peut ĂȘtre estimĂ©e Ă  l’aide d’un Ă©chantillon et de la moyenne empirique ou de l’espĂ©rance si celle-ci est connue.

La variance apparait comme un cas particulier de covariance. Elle se généralise aussi pour des vecteurs aléatoires.

Pour une série statistique

Formules

Étant donnĂ© une sĂ©rie statistique d’une variable rĂ©elle (x1, x2, ..., xn), dont on a calculĂ© la moyenne , la variance est la moyenne des carrĂ©s des Ă©carts Ă  cette moyenne :

.

Un développement du carré mÚne à la reformulation suivante[1] :

,

autrement dit la variance est la différence entre la moyenne des carrés et le carré de la moyenne.

Quand la série prend les valeurs x1, x2, ..., xn avec les fréquences f1, f2, ..., fn, sa variance est :

La variance est un indicateur de dispersion des valeurs, c’est-Ă -dire qu’elle est toujours positive, ne s’annule que pour une sĂ©rie statistique dont tous les termes ont la mĂȘme valeur, elle est d’autant plus grande que les valeurs sont Ă©talĂ©es, et invariante par ajout d’une constante. Son calcul peut sembler plus compliquĂ© que celui d’autres indicateurs de dispersion, comme l’écart interquartile ou l’écart absolu moyen, mais contrairement Ă  ces derniers, elle est cumulative : si on rassemble k sĂ©ries statistiques en une seule, la variance globale peut ĂȘtre calculĂ©e Ă  partir de l’effectif ni, la variance Vi et la moyenne de chaque sĂ©rie initiale par la formule

oĂč est l’effectif total et , est la moyenne globale. Autrement dit, la variance globale est la somme de la variance des moyennes et de la moyenne des variances, mĂȘme si cette deuxiĂšme composante est souvent nĂ©gligĂ©e.

Transformation affine

Si on applique une fonction affine aux termes d’une sĂ©rie statistique (x1, x2, ..., xn), la variance est multipliĂ©e par a2. Autrement dit, la variance est homogĂšne de degrĂ© 2 et invariante par translation.

Calcul itératif

Le calcul effectif de la variance pour une série statistique ne repose pas sur la traduction directe des formules ci-dessus, sauf pour le calcul à la main sur de petites séries. On utilise plutÎt un algorithme itératif qui améliore la précision[alpha 1] :

c = 0
s = x1
pour j de 2 Ă  n
  s = s+xj
  c = c+(j xj − s)2/(j(j−1))
renvoyer c/n

Pour une variable aléatoire réelle

Expression

Étant donnĂ© une variable alĂ©atoire rĂ©elle X admettant une espĂ©rance , la variance[alpha 2] est le moment centrĂ© d’ordre 2 : . La formule de Koenig-Huygens donne l’expression Ă©quivalente .

Ces deux formules n’ont de sens que si existe[2], autrement dit si la variable admet un moment d’ordre 2. Cela est toujours le cas pour une variable alĂ©atoire bornĂ©e, et en particulier pour une variable alĂ©atoire qui n’a qu’un nombre fini de valeurs possibles. Mais pour une variable alĂ©atoire non bornĂ©e, l’existence de l’espĂ©rance et du moment d’ordre 2 dĂ©pendent de la convergence d’une sĂ©rie ou d’une intĂ©grale. Ainsi, une loi de Pareto n’admet une espĂ©rance que si son paramĂštre k est strictement supĂ©rieur Ă  1, et n’admet une variance que si k > 2.

Pour une variable alĂ©atoire n’admettant qu’un nombre fini de valeurs notĂ©es (x1, ... , xk), et en notant (p1, ... , pk) les probabilitĂ©s associĂ©es, on retrouve l’expression de la variance

Pour une variable alĂ©atoire discrĂšte avec un nombre infini de valeurs, on reprend la mĂȘme formule en remplaçant la somme par une sĂ©rie[3].

Dans le cas d’une variable alĂ©atoire Ă  densitĂ©, la variance est dĂ©finie par :

oĂč f est la densitĂ© de probabilitĂ© et ÎŒ est l'espĂ©rance mathĂ©matique de la variable alĂ©atoire X

La variance d'une variable aléatoire continue X peut aussi se calculer de la façon suivante :

Transformation affine

Comme pour une sĂ©rie statistique, l’effet d’une transformation affine sur une variable alĂ©atoire affecte celle-ci par la formule[4] - [alpha 3] : .

Combinaison linéaire

Si deux variables alĂ©atoires X et Y admettent une variance, alors leur somme aussi et elle s’écrit[alpha 4] , oĂč est la covariance. La relation s’étend Ă  toute combinaison linĂ©aire de variables admettant une variance[alpha 5] :

Somme de variables indépendantes

Si X et Y sont deux variables indĂ©pendantes, leur covariance est nulle donc on trouve mais la rĂ©ciproque est fausse[alpha 4]. Cette relation ne doit pas ĂȘtre confondue avec la linĂ©aritĂ© satisfaite par l’espĂ©rance. En particulier et plus gĂ©nĂ©ralement .

Plus gĂ©nĂ©ralement, la variance d’une somme de variables indĂ©pendantes est Ă©gale Ă  la somme des variances. Ce rĂ©sultat implique que pour un Ă©chantillon de n variables de mĂȘme variance σ2, la variance de la moyenne empirique s’écrit[5] - [alpha 6] .

Produit de variables indépendantes

La variance d'un produit de deux variables aléatoires indépendantes X et Y de variances finies est exprimée en fonction de celles des deux variables par la formule suivante[alpha 4] - [note 1]

Estimation

Estimateur ponctuel

À partir d’un Ă©chantillon de variables alĂ©atoires rĂ©elles (X1, ... , Xn) indĂ©pendantes et relevant d’une mĂȘme loi de probabilitĂ©, la variance σ2 de cette loi peut ĂȘtre estimĂ©e Ă  l’aide de la variance empirique[alpha 7]

oĂč est la moyenne empirique.

Cet estimateur est cependant biaisé, car .

Si n > 1, on dĂ©finit alors un estimateur non biaisĂ© par linĂ©aritĂ© de l’espĂ©rance.

Pour estimer la variance d'une population entiĂšre Ă  partir de celle mesurĂ©e sur un Ă©chantillon de taille n, la variance estimĂ©e est obtenue en multipliant la variance mesurĂ©e sur l'Ă©chantillon par n/n – 1. Dans le cas (plus rare en pratique) d'un tirage sans remise dans une population de taille N, il faut utiliser l'estimateur[6] . Dans le cas oĂč l’espĂ©rance ÎŒ des variables de l’échantillon est connue, l’estimateur direct est dĂ©jĂ  sans biais.

Ces trois estimateurs sont convergents.

Intervalle de confiance

L’obtention d’un intervalle de confiance pour la variance d’une loi de probabilitĂ© Ă  partir d’un Ă©chantillon dĂ©pend du type de loi.

Pour une famille de lois dĂ©pendant d’un seul paramĂštre, comme les lois de Bernoulli, les lois gĂ©omĂ©triques, exponentielles ou les lois de Poisson, il suffit d’utiliser un intervalle de confiance sur le paramĂštre. Pour une famille de lois dĂ©pendant d’au moins deux paramĂštres, on utilise un estimateur convergent ayant un seul paramĂštre directement reliĂ© Ă  la variance de la loi initiale. Ainsi, pour un Ă©chantillon de n variables gaussiennes (X1, ... , Xn) dont l’espĂ©rance est inconnue, le quotient de la variance empirique sans biais multipliĂ© par (n-1) par la variance rĂ©elle suit une loi de khi-deux avec n – 1 degrĂ©s de libertĂ© d’aprĂšs le thĂ©orĂšme de Cochran.

ÉlĂ©ments d'histoire

Ronald Fisher employa, le premier, le mot de variance, dans un article de 1918 intitulĂ© « The Correlation between Relatives on the Supposition of Mendelian Inheritance » [@ 1] oĂč il dĂ©finit la variance comme le carrĂ© de l'Ă©cart type. Dans ce document il prĂ©fĂšre clairement la variance Ă  l'Ă©cart type en tant que mesure de la variabilitĂ© d'un phĂ©nomĂšne observĂ©. Il utilise ce terme Ă  nouveau au congrĂšs de mathĂ©matiques de Toronto en 1924[@ 2]. C'est lui qui dĂ©finit aussi l'analyse de la variance telle qu'on la pratique aujourd'hui dans son livre « Statistical methods for research workers » paru en 1925[@ 3] - [alpha 7].

Applications

Le calcul de la variance permet d’en dĂ©duire l’écart type[alpha 8] , qui est homogĂšne Ă  la variable alĂ©atoire, au sens mathĂ©matique du terme comme en analyse dimensionnelle.

La variance d’une sĂ©rie statistique apparait dans le calcul des coefficients de la rĂ©gression linĂ©aire.

L’analyse de la variance (ANOVA) rassemble des mĂ©thodes d’études de comparaisons entre Ă©chantillons sur une ou plusieurs variables quantitatives.

La variance d’une variable alĂ©atoire intervient dans le thĂ©orĂšme central limite ainsi que dans l’inĂ©galitĂ© de BienaymĂ©-Tchebychev.

Variance conditionnelle

Soient deux variables aléatoires Y et X. On appelle variance conditionnelle de Y sachant X la variable aléatoire correspondant à l'espérance conditionnelle sachant X du carré de l'écart de Y à l'espérance conditionnelle :

Comme toute variable conditionnelle, elle est fonction de X.

La variance de Y est liée à la variance et l'espérance conditionnelles par le théorÚme de la variance totale :

Variance d'un vecteur aléatoire

Si l'on dĂ©finit Xk × 1 comme un vecteur alĂ©atoire qui comporte k variables et Μ comme le vecteur des k espĂ©rances de X, on dĂ©finit alors la variance comme :

DĂ©finition —

Il s'agit alors d'une matrice carrée de taille k, appelée matrice de variance-covariance, qui comporte sur sa diagonale les variances de chaque composante du vecteur aléatoire et en dehors de la diagonale les covariances. Cette matrice est symétrique et semi-définie positive ; elle est définie positive si et seulement si la seule combinaison linéaire certaine (c'est-à-dire presque sûrement constante) des composantes du vecteur aléatoire est celle dont tous les coefficients sont nuls. Le cas contraire signifie que les réalisations du vecteur X sont presque sûrement confinées à un hyperplan.

On a les propriétés suivantes :

PropriĂ©tĂ© — Si V est une matrice carrĂ©e de taille

Notes et références

Notes

  1. Les deux autres formes sont déduites de la premiÚre par factorisation des variances, puis substitution de l'égalité du théorÚme de Koenig-Huygens .
  1. « D'autres formules de la variance » (consulté le )
  2. L’existence d’un moment d’ordre 2 implique notamment l’existence de l’espĂ©rance.
  3. Une variable alĂ©atoire discrĂšte ne peut admettre qu’un ensemble dĂ©nombrable de valeurs avec une probabilitĂ© non nulle.
  4. Pour cette démonstration, il est utile de rappeler une des propriétés de l'espérance : . On a alors
  5. Rémy Clairin, Philippe Brion, Manuel de sondages, Applications aux pays en développement, Documents et manuels du CEDEP, février 97, (ISBN 2-87762-082-4), page 17 ).

Ouvrages spécialisés

  1. Saporta 2011, §5.3.2.3 « La variance et l’écart-type »
  2. - Saporta 2006, p. 25
  3. Rioul 2008, p. 142
  4. Saporta 2006, p. 26
  5. Rioul 2008, p. 183-185
  6. Dodge 2010, p. 508
  7. Dodge 2010, p. 556
  8. Dodge 2010, p. 506

Articles publiés sur internet

    1. [PDF] (en) Ronald A. Fisher, « The Correlation between Relatives on the Supposition of Mendelian Inheritance. », Philosophical Transactions of the Royal Society of Edinburgh., vol. 52,‎ , p. 399–433 (lire en ligne).
    2. [PDF] Jean-Paul BenzĂ©cri, « Histoire et PrĂ©histoire de l'Analyse des donnĂ©es : Partie 3 », Les Cahiers de l'analyse des donnĂ©es, vol. 1, no 3,‎ , p. 221-241 (lire en ligne, consultĂ© le ).
    3. [PDF] J.-M. Faverge, « III. - L'analyse de la variance en psychologie », L'AnnĂ©e psychologique, vol. 49, no 1,‎ , p. 341-358 (lire en ligne).

    Voir aussi

    Bibliographie

    • (fr) Gilbert Saporta, ProbabilitĂ©s, Analyse des donnĂ©es et Statistiques, Paris, Éditions Technip, , 622 p. [dĂ©tail des Ă©ditions] (ISBN 978-2-7108-0814-5, prĂ©sentation en ligne).Document utilisĂ© pour la rĂ©daction de l’article
    • (fr) Olivier Rioul, ThĂ©orie des probabilitĂ©s, Paris, Editions Hermes sciences, , 364 p. (ISBN 978-2-7462-1720-1).Document utilisĂ© pour la rĂ©daction de l’article
    • Yadolah Dodge, « The Concise Encyclopaedia of Statistics », New York, Springer, , 622 p. (ISBN 978-0-387-31742-7, lire en ligne).Document utilisĂ© pour la rĂ©daction de l’article

    Articles connexes

    Liens externes

    Cet article est issu de wikipedia. Text licence: CC BY-SA 4.0, Des conditions supplĂ©mentaires peuvent s’appliquer aux fichiers multimĂ©dias.