Théorème de la variance totale

En théorie des probabilités, le théorème de la variance totale[1] ou formule de décomposition de la variance, aussi connu sous le nom de Loi d'Eve[2], stipule que si X et Y sont deux variables aléatoires sur un même espace de probabilité, et si la variance de Y est finie, alors

\operatorname {Var} [Y]=\operatorname {E} _{X}(\operatorname {Var} [Y\mid X])+\operatorname {Var} _{X}(\operatorname {E} [Y\mid X]).\,

Certains auteurs appellent cette relation formule de variance conditionnelle. Dans un langage peut-être mieux connu des statisticiens que des spécialistes en probabilité, les deux termes sont respectivement les composantes "non-expliquée" et "expliquée" de la variance (cf. fraction de variance non expliquée, variation expliquée). En science actuarielle, en particulier en théorie de la crédibilité, le premier terme est appelé la valeur attendue de la variance du processus (EVPV) et le second est appelé variance des moyenne hypothétiques (VHM)[3].

Il existe une formule générale de la décomposition de la variance pour c ≥ 2 composantes (voir ci-dessous)[4]. Par exemple, pour deux variables aléatoires conditionnantes :

{\begin{alignedat}{3}\operatorname {Var} [Y]&=&\operatorname {E} (\operatorname {Var} [Y\mid X_{1},X_{2}])+\operatorname {E} (\operatorname {Var} [\operatorname {E} [Y\mid X_{1},X_{2}]\mid X_{1}])\\&&+\operatorname {Var} (\operatorname {E} [Y\mid X_{1}]),\,\end{alignedat}}

ce qui découle du théorème de la variance totale[4] :

\operatorname {Var} [Y\mid X_{1}]=\operatorname {E} (\operatorname {Var} [Y\mid X_{1},X_{2}]\mid X_{1})+\operatorname {Var} (\operatorname {E} [Y\mid X_{1},X_{2}]\mid X_{1}).\,

Notons que l'espérance conditionnelle E(Y | X) est elle-même une variable aléatoire, dont la valeur dépend de la valeur de X. L'espérance conditionnelle de Y sachant l'événement X = x est une fonction de x (il est important d'être rigoureux dans les notations utilisées en théorie des probabilités). Si on écrit E(Y | X = x ) = g(x) alors la variable aléatoire E(Y | X) est simplement g(X). On adapte cette remarque à la variance conditionnelle.

Un cas particulier remarquable (similaire à la formule des espérances totales) est celui où $A_{1},A_{2},\ldots ,A_{n}$ est une partition de l'espace ambiant, c'est-à-dire que ces événements sont deux à deux disjoints et que leur union est égale à tout l'espace. Alors, on a

$\operatorname {Var} (X)=$	$\sum _{i=1}^{n}{\operatorname {Var} (X\mid A_{i})\operatorname {P} (A_{i})}$
	$+\sum _{i=1}^{n}{\operatorname {E} (X\mid A_{i})^{2}(1-\operatorname {P} (A_{i}))\operatorname {P} (A_{i})}$
	$-2\sum _{i=2}^{n}\sum _{j=1}^{i-1}\operatorname {E} (X\mid A_{i})\operatorname {P} (A_{i})\operatorname {E} (X\mid A_{j})\operatorname {P} (A_{j}).$

Dans cette formule, le premier terme est l'espérance de la variance conditionnelle ; les deux autres lignes correspondent à la variance de l'espérance conditionnelle.

Preuve

Le théorème de la variance totale peut être démontré en utilisant la formule des espérances totales[5]. Tout d'abord

\operatorname {Var} [Y]=\operatorname {E} [Y^{2}]-[\operatorname {E} [Y]]^{2}

par définition de la variance. On applique ensuite la formule des espérances totales à chaque terme en conditionnant par la variable aléatoire X :

=\operatorname {E} \left[\operatorname {E} [Y^{2}\mid X]\right]-[\operatorname {E} [\operatorname {E} [Y\mid X]]]^{2}

On réécrit alors le moment conditionnel d'ordre 2 de Y en termes de sa variance et de son moment d'ordre 1 :

=\operatorname {E} \left[\operatorname {Var} [Y\mid X]+[\operatorname {E} [Y\mid X]]^{2}\right]-[\operatorname {E} [\operatorname {E} [Y\mid X]]]^{2}

Puisque l'espérance est linéaire, les termes peuvent être regroupés :

=\operatorname {E} [\operatorname {Var} [Y\mid X]]+\left(\operatorname {E} [[\operatorname {E} [Y\mid X]]^{2}]-[\operatorname {E} [\operatorname {E} [Y\mid X]]]^{2}\right)

Finalement, les termes entre parenthèses peuvent être vus comme la variance de l'espérance conditionnelle E[Y|X] :

=\operatorname {E} [\operatorname {Var} [Y\mid X]]+\operatorname {Var} [\operatorname {E} [Y\mid X]]

Décomposition générale de la variance applicable aux systèmes dynamiques

La formule suivante montre comment appliquer la formule générale de la décomposition de la variance[4] (issue de la théorie de la mesure) aux systèmes dynamiques stochastiques. Soit Y(t) la valeur du système au temps t. On suppose que l'on connait les filtrations naturelles $H_{1t},H_{2t},\ldots ,H_{c-1,t}$ , chacune correspondant à "l'histoire" (trajectoire) d'un ensemble différent de variables du systèmes. Ces ensembles doivent être disjoints. La variance de Y(t) peut être décomposée pour tout temps t, en c ≥ 2 composantes comme suit :

\operatorname {Var} [Y(t)]=\operatorname {E} (\operatorname {Var} [Y(t)\mid H_{1t},H_{2t},\ldots ,H_{c-1,t}])+\sum _{j=2}^{c-1}\operatorname {E} (\operatorname {Var} [\operatorname {E} [Y(t)\mid H_{1t},H_{2t},\ldots ,H_{jt}]\mid H_{1t},H_{2t},\ldots ,H_{j-1,t}])+\operatorname {Var} (\operatorname {E} [Y(t)\mid H_{1t}]).\,

La décomposition n'est pas unique, elle dépend de l'ordre dans lequel on a conditionné la suite de décomposition.

Corrélation et variation expliquée

Dans le cas où (Y, X) sont tels que l'espérance conditionnelle est linéaire, c'est-à-dire quand

\operatorname {E} (Y\mid X)=aX+b,\,

la bilinéarité de la covariance $\operatorname {Cov} (.,.)$ conduit à :

a={\operatorname {Cov} (Y,X) \over \operatorname {Var} (X)}

b=\operatorname {E} (Y)-{\operatorname {Cov} (Y,X) \over \operatorname {Var} (X)}\operatorname {E} (X)

et la partie expliquée de la variance, divisée par la variance totale est le carré de la corrélation entre Y et X, c'est-à-dire :

{\operatorname {Var} (\operatorname {E} (Y\mid X)) \over \operatorname {Var} (Y)}=\operatorname {Corr} (X,Y)^{2}.\,

Par exemple, on est dans cette situation lorsque (X, Y) est un vecteur gaussien.

Plus généralement, quand l'espérance conditionnelle E( Y | X ) est non linéaire en X

\iota _{Y\mid X}={\operatorname {Var} (\operatorname {E} (Y\mid X)) \over \operatorname {Var} (Y)}=\operatorname {Corr} (\operatorname {E} (Y\mid X),Y)^{2},\,

[4]

ce qui peut être estimé comme le R carré d'une régression non linéaire de Y sur X, en utilisant les données tirées de la distribution jointe de (X, Y). Quand E( Y | X ) a une distribution gaussienne (et est une fonction inversible de X), ou si Y a une distribution marginale gaussienne, cette partie expliquée de la variance fixe une borne inférieure sur l'information mutuelle[4] :

\operatorname {I} (Y;X)\geq \ln([1-\iota _{Y\mid X}]^{-1/2}).\,

Moments d'ordre supérieur

Une loi similaire existe pour le moment d'ordre 3 μ₃ :

\mu _{3}(Y)=\operatorname {E} (\mu _{3}(Y\mid X))+\mu _{3}(\operatorname {E} (Y\mid X))+3\,\operatorname {cov} (\operatorname {E} (Y\mid X),\operatorname {var} (Y\mid X)).\,

Pour les cumulants d'ordre supérieur, une généralisation simple et élégante existe.

Voir aussi

Notes et références

(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Law of total variance » (voir la liste des auteurs).

Bibliographie

Neil A. Weiss, A Course in Probability, Addison–Wesley, 2005, pages 385–386.
Bruno Crépon et Nicolas Jacquemet, Économétrie : méthodes et applications, dl 2018 (ISBN 978-2-8041-7476-7 et 2-8041-7476-X, OCLC 1062401336, lire en ligne), p. 404
Proposition A.6
(en) Howard C. Mahler et Curtis Gary Dean, Foundations of Casualty Actuarial Science, Casualty Actuarial Society, 2001 (ISBN 978-0-96247-622-8), « Chapter 8: Credibility », p. 525–526
Bowsher, C.G. and P.S. Swain, Proc Natl Acad Sci USA, 2012: 109, E1320–29.
Neil A. Weiss, A Course in Probability, Addison–Wesley, 2005, pages 380–383.

(en) Joe Blitzstein, « Stat 110 Final Review (Eve's Law) », stat110.net, Harvard University, Department of Statistics (consulté le 9 juillet 2014)
(en) Patrick Billingsley, Probability and Measure, New York, NY, John Wiley & Sons, Inc., 1995, 608 p. (ISBN 0-471-00710-2) (Problem 34.10(b))

Cet article est issu de wikipedia. Text licence: CC BY-SA 4.0, Des conditions supplémentaires peuvent s’appliquer aux fichiers multimédias.