Les identités de Bartlett sont en statistique des relations concernant les moments des dérivées de la log-vraisemblance d'un modèle. Elles sont nommées en l'honneur du statisticien anglais Maurice Bartlett.
Idée générale
Considérons un modèle statistique générant des données réelles suivant une distribution de probabilité dépendant d'un paramètre sur lequel on souhaite faire de l'inférence. Notons l'espace des paramètres et la famille des densités de probabilités associée au modèle. Puisque est une densité de probabilité, son intégrale sur doit être égale à 1: .
Différencier cette égalité par rapport à permet d'obtenir de nouvelles relations. Le terme de droite étant égal à 1, ses différentielles sont toutes nulles. Le terme de gauche est une intégrale paramétrique et il est souvent possible (sous certaines hypothèses qui doivent être soigneusement vérifiées) d'intervertir intégral et dérivée, de sorte que . On obtient alors que pour tout , .
Ces relations donnent les identités de Bartlett lorsqu'on développe la dérivée -ième. Elles sont généralement exprimées en utilisant la log-vraisemblance et ses dérivées[1].
Première identité de Bartlett
Reprenons les notations précédentes et supposons qu'il est possible d'intervertir dérivée et intégrale pour différencier l'égalité . Pour raccourcir les notations, notons la log-vraisemblance du modèle.
On obtient alors que. En remarquant que , cette égalité peut se réécrire .
Comme cette dernière intégrale correspond à l'espérance de lorsque est distribuées selon , la première identité de Bartlett s'écrit
où l'espérance est prise sur une variable aléatoire dont la loi a pour densité .
La fonction , souvent appelée fonction score, joue un rôle crucial dans l'estimation et les tests statistiques. La première identité de Bartlett indique que le score est d'espérance nulle. Cela garantie entre autres que l'estimateur du maximum de vraisemblance associé est convergent au sens de Fisher.
Seconde identité de Bartlett
Reprenons la première identité de Bartlett sous sa forme intégrale : et différencions la par rapport à en supposant, encore une fois, qu'il est possible d'intervertir dérivée et intégrale. Supposons que est réel, on obtient alors
.
Séparons l'intégrale en deux et en réutilisons le fait que pour arriver à l'égalité suivante:
.
Les deux termes de cette égalités correspondent à des espérances. Le terme de gauche est l'espérance de lorsque a pour densité , et le terme de droite est l'espérance de . Cette espérance correspond à la variance du score puisque, d'après la première identité de Bartlett, ce dernier est d'espérance nulle. La deuxième identité de Bartlett peut donc s'écrire :
Où l'espérance et la variance sont prises sur une variable aléatoire ayant pour densité .
Cette identité reste vraie lorsque est un vecteur. La variance est simplement remplacée par la matrice de variance-covariance, et la dérivée partielle seconde par rapport à de par sa matrice hessienne.
La quantité (ou la matrice dans le cas multivarié), généralement notée , est l'information de Fisher du modèle et joue un rôle important en statistique. Elle permet, entre autres, de calculer la borne de Cramér-Rao ou la loi a loi a priori de Jeffreys(en) en statistiques Bayésiennes. La seconde identité de Bartlett donne un moyen alternatif de calculer cette information de Fisher en utilisant la dérivée seconde de la log-vraisemblance, ce qui est parfois plus simple que de calculer la variance du score .
Identités d'ordre supérieur
Troisième identité
En dérivant la seconde identité de Bartlett par rapport à , on obtient, après quelques simplifications, la troisième identité de Bartlett:
où est l'information de Fisher.
Quatrième identité
Une différentiation supplémentaire donne la quatrième identité de Bartlett:
.
Exemple
Considérons des données issues d'une loi normale d'espérance et d'écart-type . Notons le vecteur formé par ces deux paramètres.
La log-vraisemblance associée à une observation générée par ce modèle est donnée par :
.
Commençons par calculer le score, c'est-à-dire la dérivée de la log-vraisemblance :
.
Calculons l’espérance du score :
En utilisant que et , on obtient que . La première identité de Bartlett est bien vérifiée.
Si l'on dérive une seconde fois la log-vraisemblance, on obtient la matrice Hessienne suivante :
.
On obtient donc que
La seconde identité de Bartlett, , indique donc que
.
Il est possible de calculer directement la variance du score, mais ce calcul peut se révéler plus fastidieux et utilise des résultats non triviaux tels que ;(X-\mu )^{2}\right)=0}
ou .
Utilisation
La seconde identité de Bartlett est communément utilisée pour trouver la borne de Cramér-Rao associée à un estimateur ou pour calculer sa variance asymptotique.
Les identités de Bartlett jouent aussi un rôle dans la réduction de biais[2] d'estimateurs paramétriques. Cette réduction de biais se fonde sur un développement limité des équations d'estimation et fait intervenir les espérances des dérivées de la log-vraisemblance.