En analyse statistique, le problème de détection de ruptures (ou détection de points de changement) est un problème de régression ayant pour but d'estimer les instants où un signal présente des changements dans la distribution. Ces instants sont matérialisés sur les deux figures par des lignes verticales bleues. Classiquement, on réalise de la détection de rupture pour un signal ayant des changements dans la moyenne. De manière plus générale, on réalise de la détection de ruptures pour un signal ayant des changements dans la distribution (par exemple, dans la moyenne et la variance).

Exemple de signal ayant des changements dans la moyenne.

Exemple de signal ayant des changements dans la distribution.
La détection de ruptures peut s'appliquer à un signal sonore d'une émission dont on souhaite estimer les instants où l'on change de situations, à la détection d'attaques informatiques (variations de flux réseaux)[1], ou encore au contrôle qualité.
Cet article traite du problème de détection de ruptures rétrospective (dite offline) où l'on dispose de l'ensemble des données du signal. Ce contexte est différent d'une détection temps réel (dite online) où les données du signal arrivent à la volée, mais moins à même de détecter précisément l'instant de rupture.
Soit
un signal réel, provenant d'observations recueillies au cours des instants
, présentant des changements dans la distribution. En notant
la loi de probabilité de
, la distribution de
vérifie :

avec
étant les vrais instants de ruptures (on note
(
est le vrai nombre de segments) avec la convention
et
). On cherche à estimer ces instants de ruptures à l'aide d'un algorithme.
Dans le cas de la détection de rupture dans la moyenne, le modèle est :
![{\displaystyle {\begin{aligned}\forall t\in [\![1,T]\!],~X_{t}=s_{t}+\epsilon _{t},\end{aligned}}}](https://img.franco.wiki/i/f9d7f225e35d239141ab112fd2e21205bc34040f.svg)
avec
est la fonction de régression et
est un bruit d'espérance nulle et de variance
. La fonction de régression
est supposée constante par morceaux avec des discontinuités à chaque vrai instant de ruptures
.
Dans le cas de la détection de ruptures dans la distribution, on recode les observations initiales
par de nouvelles observations
définies par
où
est un noyau symétrique et semi-défini positif (en) (par exemple
:
est le noyau linéaire ; autre exemple
:
est le noyau Gaussien de paramètre
). Pour un noyau symétrique et semi-défini positif
, le théorème de Moore-Aronszahn assure l'existence d'un espace de Hilbert à noyau reproduisant
de noyau reproduisant
.
Le modèle est :
![{\displaystyle {\begin{aligned}\forall t\in [\![1,T]\!],~Y_{t}=\mu _{t}^{*}+\epsilon _{t},\end{aligned}}}](https://img.franco.wiki/i/2b2dba72660f768c239a5d9d7fcee70088124508.svg)
avec
est la fonction de régression et
est un bruit d'espérance nulle et de variance
. De plus,
appartiennent à
. La fonction de régression
est supposée constante par morceaux avec des discontinuités à chaque vrai instant de ruptures
.
Méthodes existantes
Le problème de détection de ruptures peut être vu comme un problème de sélection de modèle[2]: chaque segmentation candidate (i.e. liste d'instants de ruptures candidats) est reliée à un modèle qu'il faut choisir. Nous présentons deux approches : l'une utilisant le principe de la programmation dynamique et l'autre l'heuristique de segmentation binaire dans le cadre classique de la détection de ruptures dans la moyenne puis dans le cas général de la détection de ruptures dans la distribution. Pour chacune de ces deux méthodes, nous présentons les algorithmes permettant de calculer une segmentation en
segments
optimisant un critère (ici, le risque empirique).
Notations
Nous présentons les notations communes aux deux méthodes puis celles qui leur sont spécifiques :
Notation commune
l'ensemble des segmentions
en
segments
.
Notations pour le cas de la détection de ruptures dans la moyenne
et
.
:
est l'ensemble des vecteurs
constants par morceaux sur les segments de
.
- Estimateur du risque empirique :
.
Notations pour le cas de la détection de ruptures dans la distribution
et
.
pour
avec
.
:
est l'ensemble des vecteurs
constants par morceaux sur les segments de
.
- Norme dans
:
.
- Estimateur du risque empirique :
.
Les méthodes proposées ci-dessous utilisent le risque empirique comme critère à minimiser (
pour la détection de ruptures dans la moyenne ;
pour la détection de ruptures dans la distribution). Pour le noyau linéaire
,
, les méthodes utilisées dans le cadre classique se déduisent de celles du cas des noyaux par le biais de
: donc on ne présentera les algorithmes que dans le cas des noyaux.
Programmation dynamique
La méthode de la programmation dynamique utilise le principe d'optimalité de Bellman : toute solution optimale s'appuie elle-même sur des sous-problèmes résolus localement de façon optimale. On utilise cette méthode exacte pour récupérer pour
la meilleure segmentation en
segments minimisant le risque empirique i.e. :

Nous présentons dans cette section l'algorithme de programmation dynamique appliquée au problème de détection de ruptures[3] - [4]. Dans un premier temps, nous exprimons le risque empirique
en fonction du noyau
et de
à l'aide des deux résultats suivants ci-dessous.
On montre tout d'abord que, pour
, pour
,
.
Démonstration
Pour
, notons, pour
,
la valeur commune de
et, pour
,
,
Pour
,
![{\displaystyle {\begin{aligned}\|u-g\|_{{\mathcal {H}}^{T}}^{2}&=\sum _{\lambda \in m}\sum _{i\in \lambda }\|u_{\lambda }-g_{i}\|_{\mathcal {H}}^{2}\\&=\sum _{\lambda \in m}\sum _{i\in \lambda }\left[\|u_{\lambda }-{\overline {g}}_{\lambda }\|_{\mathcal {H}}^{2}+\|g_{i}-{\overline {g}}_{\lambda }\|_{\mathcal {H}}^{2}+2<u_{\lambda }-{\overline {g}}_{\lambda },{\overline {g}}_{\lambda }-g_{i}>_{\mathcal {H}}\right]\\&=\sum _{\lambda \in m}\left[\mathrm {card} (\lambda )\|u_{\lambda }-{\overline {g}}_{\lambda }\|_{\mathcal {H}}^{2}\right]+\sum _{\lambda \in m}\sum _{i\in \lambda }\|g_{i}-{\overline {g}}_{\lambda }\|_{\mathcal {H}}^{2}+2\sum _{\lambda \in m}<u_{\lambda }-{\overline {g}}_{\lambda },\sum _{i\in \lambda }({\overline {g}}_{\lambda }-g_{i})>_{\mathcal {H}}\\&=\sum _{\lambda \in m}\left[\mathrm {card} (\lambda )\|u_{\lambda }-{\overline {g}}_{\lambda }\|_{\mathcal {H}}^{2}\right]+\sum _{\lambda \in m}\sum _{i\in \lambda }\|g_{i}-{\overline {g}}_{\lambda }\|_{\mathcal {H}}^{2},\end{aligned}}}](https://img.franco.wiki/i/7cc4687144001fafc36c403cfc392725fb79266c.svg)
Ainsi,
est minimale si et seulement si
pour chaque
.
On montre que, pour
,
![{\displaystyle {\begin{aligned}\|Y-{\hat {\mu }}_{m}\|_{{\mathcal {H}}^{T}}^{2}=\sum _{d\in [\![1,D-1]\!]}C_{\tau _{d},\tau _{d+1}},\end{aligned}}}](https://img.franco.wiki/i/9d487d5efc161c2bf77fd72e126763931f82d7f6.svg)
avec, pour
,
Démonstration
![{\displaystyle {\begin{aligned}\|Y-{\hat {\mu }}_{m}\|_{{\mathcal {H}}^{T}}^{2}&=\sum _{d\in [\![1,D-1]\!]}\sum _{i\in [\![\tau _{d},\tau _{d+1}-1]\!]}\|Y_{i}-\left({\hat {\mu }}_{m}\right)_{i}\|_{\mathcal {H}}^{2}\\&=\sum _{d\in [\![1,D-1]\!]}\sum _{i\in [\![\tau _{d},\tau _{d+1}-1]\!]}\left[\|Y_{i}\|_{\mathcal {H}}^{2}+\|{\frac {1}{\tau _{d+1}-\tau _{d}}}\sum _{j=\tau _{d}}^{\tau _{d+1}-1}Y_{j}\|_{\mathcal {H}}^{2}-2<Y_{i},{\frac {1}{\tau _{d+1}-\tau _{d}}}\sum _{j=\tau _{d}}^{\tau _{d+1}-1}Y_{j}>_{\mathcal {H}}\right]\\&=\sum _{d\in [\![1,D-1]\!]}\left(\sum _{i\in [\![\tau _{d},\tau _{d+1}-1]\!]}\|Y_{i}\|_{\mathcal {H}}^{2}-{\frac {1}{\tau _{d+1}-\tau _{d}}}\sum _{i=\tau _{d}}^{\tau _{d+1}-1}\sum _{j=\tau _{d}}^{\tau _{d+1}-1}<Y_{i},Y_{j}>_{\mathcal {H}}\right)\\&=\sum _{d\in [\![1,D-1]\!]}\left(\sum _{i=\tau _{d}}^{\tau _{d+1}-1}k(X_{i},X_{i})-{\frac {1}{\tau _{d+1}-\tau _{d}}}\sum _{i=\tau _{d}}^{\tau _{d+1}-1}\sum _{j=\tau _{d}}^{\tau _{d+1}-1}k(X_{i},X_{j})\right)\\&=\sum _{d\in [\![1,D-1]\!]}C_{\tau _{d},\tau _{d+1}}.\end{aligned}}}](https://img.franco.wiki/i/a4c3ee39d603c59dec2ca4ce7c2c25a4816d13d7.svg)
KPGD est l'implémentation du principe de la programmation dynamique à noyau
appliquée au problème de détection de ruptures. Elle prend en paramètre la matrice de coût
et elle renvoie
.
algorithme KPGD (
)
for
do
for
do
end for
end for
Fin algorithme
avec
.
La sélection de modèle[4] permet de récupérer
un estimateur du nombre de segments
.
est défini par
![{\displaystyle {\begin{aligned}{\hat {D}}={\underset {D\in [\![1,D_{max}]\!]}{\operatorname {arg\,min} }}\{\|Y-{\hat {\mu }}_{{\hat {m}}_{D}}\|_{{\mathcal {H}}^{T}}^{2}+pen({\hat {m}}_{D})\},\end{aligned}}}](https://img.franco.wiki/i/3124df24e24d111d1a42caf3259b18d5f95b0e9e.svg)
avec
. La méthode utilisée pour calibrer la constante
est l'heuristique de pente[5]. On obtient ainsi un estimateur
.
Segmentation binaire
L'heuristique de segmentation binaire[6] est une méthode, fonctionnant par dichotomie, permettant de récupérer un minimiseur local
du risque empirique
. Plus précisément, la segmentation binaire cherche à la première itération l'indice
de l'instant de ruptures candidat qui minimise le risque empirique
: cet indice est l'indice de notre premier instant de ruptures estimé. Puis, elle détermine récursivement, à la deuxième itération, deux instants de ruptures candidats
sur chacun des segments délimités par les instants de ruptures estimés. Elle retient comme second instant de ruptures estimé celui (parmi ces deux instants de ruptures candidats) qui minimisent le risque empirique. Puis, on procède de la même manière pour les itérations suivantes. Nous illustrons sur un exemple le fonctionnement de l'algorithme utilisant le principe de la segmentation binaire :
- Étape 1 : A l'itération
, on cherche
qui minimise le risque empirique
avec
pour
avec :

est notre premier instant de ruptures estimé noté
.
- Étape 2 : A l'itération on
, on cherche
minimisant le risque empirique sur
et
respectivement. Par exemple,
![{\displaystyle j_{2}={\underset {j\in [\![2,{\hat {\tau }}_{1}-1]\!]}{\operatorname {arg\,min} }}\|Y_{1}^{{\hat {\tau }}_{1}}-{\hat {\mu }}_{m_{2}}\|_{{\mathcal {H}}^{{\hat {\tau }}_{1}}}^{2},}](https://img.franco.wiki/i/67c225fa326461c798ceaecf84195ce277ed7626.svg)
avec
. Puis on choisit parmi les instants de ruptures candidats
celui qui minimise le risque empirique
et on le note
. Puis, on continue récursivement.
Ainsi, au bout de
itérations, on récupère une segmentation en
segments vérifiant :

avec
l'espace des segmentations en
segments où les instants de ruptures estimés
ont été calculés aux itérations précédentes.
Une méthode alternative de segmentation binaire avec temps d'arrêt[7] permet d'estimer le nombre de segments et donc de récupérer un estimateur
de
.