Algorithme des directions alternées
L'algorithme des directions alternées (l'ADA ou l'algorithme des DA ; en anglais ADMM pour Alternating Direction Method of Multipliers (en)) est un algorithme de résolution de problÚmes d'optimisation décomposables, qui cherche à adapter l'algorithme du lagrangien augmenté à ce contexte, alors que cet algorithme détruit cette décomposabilité. Il est typiquement utilisé pour minimiser la somme de deux fonctions (souvent convexes) dépendant de variables différentes couplées par une contrainte affine :
oĂč et , , et . Lâalgorithme suppose implicitement que minimiser ou seul est facile.
C'est un algorithme trouvant rapidement une solution avec peu de précision, mais qui demande beaucoup d'itérations pour déterminer une solution avec précision.
L'algorithme est utilisé dans des domaines trÚs variés dans lesquels la précision de la solution importe peu : technique d'apprentissage statistique, machine à vecteurs de support, régularisation des problÚmes de moindres-carrés, régression logistique creuse, etc.
Le problÚme à résoudre
On se place dans le contexte donnĂ© en introduction, Ă savoir celui oĂč l'on cherche Ă minimiser la somme de deux fonctions dĂ©pendant de variables diffĂ©rentes couplĂ©es par une contrainte affine :
oĂč et , , et .
Exemple 1. On peut utiliser l'algorithme des DA pour minimiser la somme de deux fonctions convexes par duplication des variables :
Exemple 2, qui tire parti du fait que les fonctions peuvent prendre des valeurs infinies. On cherche Ă minimiser une fonction sur un ensemble . Comme ce problĂšme revient Ă minimiser , oĂč est la fonction indicatrice de , on se ramĂšne au problĂšme de l'exemple 1, traitant de la minimisation d'une somme de deux fonctions.
L'algorithme
L'algorithme se présente le mieux en le voyant comme une modification de l'algorithme du lagrangien augmenté, cherchant à préserver la décomposabilité supposée des fonctions et . Nous commençons donc par rappeler celui-ci.
L'algorithme du lagrangien augmenté
Le lagrangien augmenté, associé au problÚme ci-dessus, est la fonction
dont la valeur en s'Ă©crit
oĂč est le paramĂštre d'augmentation. Si on retrouve le lagrangien du problĂšme.
Une itération de l'algorithme du lagrangien augmenté fait passer d'une estimation d'un multiplicateur optimal à l'estimation suivante en deux étapes :
L'inconvénient de la premiÚre étape est de devoir minimiser le lagrangien augmenté simultanément en et , alors que le terme de pénalisation quadratique de la contrainte couple ces variables (il n'est pas possible de faire la minimisation séparément en et en ). C'est à cet inconvénient que remédie l'algorithme des DA.
L'algorithme des directions alternées
Algorithme des directions alternĂ©es â Une itĂ©ration passe d'un quadruplet au suivant comme suit.
- Minimisation en : .
- Minimisation en : .
- Nouvelle variable duale : .
- Test d'arrĂȘt : .
- Nouveau paramĂštre d'augmentation : .
Remarques.
- C'est la minimisation séparée en et qui permet de faire de la décomposition lorsque et sont séparables.
- Si l'on minimisait d'abord en puis en avant de mettre à jour , on obtiendrait des itérés différents.
- L'algorithme des DA est un algorithme lent, si l'on veut une solution précise (il vaut mieux alors utiliser des algorithmes tenant compte des dérivées secondes ou d'une approximation de celles-ci), mais rapide si l'on se contente d'une précision modérée.
- On attribue généralement cet algorithme à Glowinski et Marocco (1975), ainsi qu'à Gabay et Mercier (1976).
Interprétations
L'algorithme peut se voir comme une méthode de Gauss-Seidel par bloc, tronquée à une seule passe, pour minimiser le lagrangien augmenté, avant de modifier le multiplicateur[1]. Cependant aucun résultat de convergence n'utilise cette interprétation, si bien qu'elle est contestée par certains[2].
L'algorithme peut ĂȘtre vu comme rĂ©alisant une composition d'opĂ©rateurs contractants[3].
L'algorithme peut aussi ĂȘtre vu comme un cas particulier de l'algorithme de Douglas-Rachford[4], qui est lui-mĂȘme un cas particulier de l'algorithme proximal[5].
Annexes
Notes
- Cette interprétation remonte au moins à Fortin et Glowinski (1982).
- Voir par exemple Eckstein (2012), dans le 3e paragraphe de l'introduction.
- C'est ce que font Lions et Mercier (1979), Fortin et Glowinski (1982), Lawrence et Spingarn (1987), Eckstein (1989), Eckstein et Bertsekas (1992), Eckstein et Ferris (1998).
- Voir Gabay (1983).
- Voir Lawrence et Spingarn (1987) et Eckstein et Bertsekas (1992).
Références
- (en) J. Eckstein (1989). Splitting Methods for Monotone Operators with Applications to Parallel Optimization. ThĂšse de doctorat, Massachusetts Institute of Technology.
- (en) J. Eckstein (2012). Augmented Lagrangian and alternating direction methods for convex optimization: a tutorial and some illustrative computational results. RRR 32-2012, Department of Management Science and Information Systems (MSIS) and RUTCOR, Rutgers University, 640 Bartholomew Road, Piscataway, NJ 08854-8003.
- (en) J. Eckstein, D. P. Bertsekas (1992). On the Douglas-Rachford splitting method and the proximal point algorithm for maximal monotone operators. Mathematical Programming, 55, 293â318.
- (en) J. Eckstein, M. C. Ferris (1998). Operator-splitting methods for monotone affine variational inequalities, with a parallel application to optimal control. INFORMS Journal on Computing, 10, 218â235.
- M. Fortin, R. Glowinski (1982). MĂ©thodes de Lagrangien AugmentĂ© â Applications Ă la RĂ©solution NumĂ©rique de ProblĂšmes aux Limites. MĂ©thodes MathĂ©matiques de lâInformatique 9. Dunod, Paris.
- (en) D. Gabay (1983). Applications of the method of multipliers to variational inequalities. In M. Fortin, R. Glowinski, Ă©diteurs, Augmented Lagrangian Methods: Applications to the Numerical Solution of Boundary-Value Problems, pages 299â331. North-Holland, Ams- terdam.
- (en) D. Gabay, B. Mercier (1976). A dual algorithm for the solution of nonlinear variational problems via finite-element approximations. Computers and Mathematics with Applications, 2, 17â40.
- R. Glowinski, A. Marocco (1975). Sur lâapproximation, par Ă©lĂ©ments finis dâordre un, et la rĂ©solution, par pĂ©nalisation dualitĂ©, dâune classe de problĂšmes de Dirichlet non linĂ©aires. Revue Française dâAutomatique, Informatique et Recherche OpĂ©rationnelle, R-9, 41â76.
- (en) J. Lawrence, J. E. Spingarn (1987). On fixed points of nonexpansive piecewise isometric mappings. Proc. London Math. Soc., 55, 605â624.
- (en) P.-L. Lions, B. Mercier (1979). Splitting algorithms for the sum of two nonlinear operators. SIAM Journal on Numerical Analysis, 16, 964â979.