AccueilđŸ‡«đŸ‡·Chercher

Algorithme du lagrangien augmenté

Les algorithmes du lagrangien augmentĂ© sont une certaine classe d'algorithmes pour rĂ©soudre des problĂšmes d'optimisation sous contraintes. Elles prĂ©sentent des similitudes avec les mĂ©thodes de pĂ©nalitĂ© dans le sens oĂč elles remplacent un problĂšme d'optimisation sous contraintes par une sĂ©rie de problĂšmes sans contrainte et ajoutent un terme de pĂ©nalitĂ© Ă  l'objectif ; la diffĂ©rence est qu'une mĂ©thode du lagrangien augmentĂ© ajoute encore un autre terme, conçu pour agir comme un multiplicateur de Lagrange. Le Lagrangien augmentĂ© est apparentĂ©, mais non identique Ă  la mĂ©thode des multiplicateurs de Lagrange.

Vu différemment, l'objectif sans contrainte est le lagrangien du problÚme contraint, avec un terme de pénalité supplémentaire (l'augmentation).

La méthode était à l'origine connue sous le nom de méthode des multiplicateurs et a été beaucoup étudiée dans les années 1970 et 1980 comme une bonne alternative aux méthodes de pénalité. Il a été discuté pour la premiÚre fois par Magnus Hestenes[1] et par Michael J. D. Powell en 1969[2]. La méthode a été étudiée par R. Tyrrell Rockafellar en relation avec la dualité de Fenchel (en), en particulier en relation avec les méthodes des points proximaux, la régularisation Moreau-Yosida et les opérateurs monotones maximaux : ces méthodes ont été utilisées en optimisation structurelle. La méthode a également été étudiée par Dimitri Bertsekas, notamment dans son livre de 1982[3], ainsi que des extensions impliquant des fonctions de régularisation non quadratiques, telles que la régularisation entropique, qui donne naissance à la « méthode exponentielle des multiplicateurs », une méthode qui gÚre les contraintes d'inégalité avec une fonction lagrangienne augmentée deux fois dérivable.

Depuis les années 1970, la programmation quadratique séquentielle (PQS) et les méthodes de points intérieurs (MPI) ont suscité une attention croissante, en partie parce qu'elles utilisent plus facilement des sous-programmes de matrice creuse à partir de bibliothÚques de logiciels numériques, et en partie parce que les MPI ont prouvé des résultats de complexité via la théorie de fonctions auto-concordantes (en). La méthode du Lagrangien augmenté a été rajeunie par les systÚmes d'optimisation LANCELOT, ALGENCAN [4] et AMPL, qui ont permis d'utiliser des techniques de matrices creuses sur des problÚmes apparemment denses mais "partiellement séparables". La méthode est toujours utile pour certains problÚmes. Vers 2007, il y a eu une résurgence des méthodes du lagrangien augmenté dans des domaines tels que le débruitage à variation totale et la détection compressée . En particulier, une variante de la méthode lagrangienne augmentée standard qui utilise des mises à jour partielles (similaire à la méthode de Gauss-Seidel pour résoudre des équations linéaires) connue sous le nom d'algorithme des directions alternées des multiplicateurs ou MDAM a attiré l'attention.

Méthode générale

On cherche à résoudre le problÚme sous contraintes suivant :

sous conditions

oĂč dĂ©signe les indices des contraintes d'Ă©galitĂ©. Ce problĂšme peut ĂȘtre rĂ©solu comme une sĂ©rie de problĂšmes de minimisation sans contrainte. Pour rĂ©fĂ©rence, on liste d'abord la ke Ă©tape de l'approche de la mĂ©thode de pĂ©nalitĂ© :

La méthode de pénalité résout ce problÚme, puis à l'itération suivante, elle résout à nouveau le problÚme en utilisant une plus grande valeur de (et en utilisant l'ancienne solution comme estimation initiale ou "démarrage à chaud").

La méthode du lagrangien augmenté utilise l'objectif non contraint suivant :

et aprÚs chaque itération, en plus de la mise à jour des , la variable est également mise à jour selon la rÚgle

oĂč est la solution du problĂšme sans contrainte Ă  la ke Ă©tape, c'est-Ă -dire

La variable est une estimation du multiplicateur de Lagrange, et la précision de cette estimation s'améliore à chaque étape. L' avantage majeur de la méthode est que contrairement à la méthode de pénalisation, il n'est pas nécessaire de prendre afin de résoudre le problÚme sous contraintes initial. Au lieu de cela, en raison de la présence du terme de multiplicateur de Lagrange, peut rester beaucoup plus petit, évitant ainsi le mauvais conditionnement. Néanmoins, il est courant dans les implémentations pratiques de projeter les estimations des multiplicateurs dans un grand ensemble borné (sauvegardes), évitant les instabilités numériques et conduisant à une forte convergence théorique.

La mĂ©thode peut ĂȘtre Ă©tendue pour gĂ©rer les contraintes d'inĂ©galitĂ© .

Méthode des directions alternées

La méthode des directions alternées est une variante du schéma du lagrangien augmenté qui utilise des mises à jour partielles pour les variables duales. Cette méthode est souvent appliquée pour résoudre des problÚmes tels que

Ceci est Ă©quivalent au problĂšme contraint

Bien que ce changement puisse sembler anodin, le problĂšme peut maintenant ĂȘtre envisagĂ© en utilisant des mĂ©thodes d'optimisation sous contraintes (en particulier, la mĂ©thode du lagrangien augmentĂ©), et la fonction objectif est sĂ©parable en x et y. La double mise Ă  jour nĂ©cessite de rĂ©soudre une fonction de proximitĂ© en x et y en mĂȘme temps ; la technique ADA permet de rĂ©soudre approximativement ce problĂšme en rĂ©solvant d'abord pour x avec y fixe, puis en rĂ©solvant pour y avec x fixe. PlutĂŽt que d'itĂ©rer jusqu'Ă  avoir convergĂ© (comme la mĂ©thode de Jacobi), l'algorithme procĂšde directement Ă  la mise Ă  jour de la variable duale, puis Ă  la rĂ©pĂ©tition du processus. Ce n'est pas Ă©quivalent Ă  la minimisation exacte, mais on peut quand mĂȘme montrer que cette mĂ©thode converge vers la bonne rĂ©ponse sous certaines hypothĂšses. Du fait de cette approximation, l'algorithme se distingue de la mĂ©thode du lagrangien augmentĂ© pure.

L'ADA peut ĂȘtre considĂ©rĂ© comme une application de l'algorithme de Douglas-Rachford, et l'algorithme de Douglas-Rachford est Ă  son tour une application de l'algorithme du point proximal[5]. Il existe plusieurs progiciels modernes qui rĂ©solvent la poursuite de base et se variantes et utilisent l'ADA ; ces packages incluent YALL1 [6] (2009), SpaRSA [7] (2009) et SALSA [8] (2009). Il existe Ă©galement des packages qui utilisent l'ADA pour rĂ©soudre des problĂšmes plus gĂ©nĂ©raux, dont certains peuvent exploiter plusieurs cƓurs de calcul SNAPVX [9] (2015), parADMM [10] (2016).

Optimisation stochastique

L'optimisation stochastique considĂšre le problĂšme de la minimisation d'une fonction de perte avec accĂšs Ă  des Ă©chantillons bruitĂ©s (du gradient) de la fonction. Le but est d'avoir une estimation du paramĂštre optimal (minimiseur) pour chaque nouvel Ă©chantillon. L'ADA est Ă  l'origine une mĂ©thode groupĂ©e. Cependant, avec quelques modifications, elle peut Ă©galement ĂȘtre utilisĂ©e pour l'optimisation stochastique. Étant donnĂ© que dans le cadre stochastique, on n'a accĂšs qu'Ă  des Ă©chantillons bruitĂ©s de gradient, on utilise une approximation inexacte du lagrangien comme

oĂč est une taille de pas temporel variable[11].

La mĂ©thode des directions alternĂ©es est une mĂ©thode populaire pour l'optimisation en ligne et distribuĂ©e Ă  grande Ă©chelle[12], et est utilisĂ©e dans de nombreuses applications [13] - [14]. L'ADA est souvent appliquĂ© pour rĂ©soudre des problĂšmes rĂ©gularisĂ©s, oĂč l'optimisation et la rĂ©gularisation de la fonction peuvent ĂȘtre effectuĂ©es localement, puis coordonnĂ©es globalement via des contraintes. Les problĂšmes d'optimisation rĂ©gularisĂ©s sont particuliĂšrement pertinents dans le rĂ©gime de haute dimension puisque la rĂ©gularisation est un mĂ©canisme naturel pour surmonter le caractĂšre mal-posĂ© et pour encourager la parcimonie dans la solution optimale, par exemple, pour une matrice creuse et de faible rang. En raison de l'efficacitĂ© de l'ADA dans la rĂ©solution de problĂšmes rĂ©gularisĂ©s, il a un bon potentiel d'optimisation stochastique en grandes dimensions.

Approches alternatives

Voir Ă©galement

Références

  1. Hestenes, « Multiplier and gradient methods », Journal of Optimization Theory and Applications, vol. 4, no 5,‎ , p. 303–320 (DOI 10.1007/BF00927673, S2CID 121584579)
  2. M. J. D. Powell, Optimization, New York, Academic Press, , 283–298 p. (ISBN 0-12-260650-7), « A method for nonlinear constraints in minimization problems »
  3. Dimitri P. Bertsekas, Constrained optimization and Lagrange multiplier methods, Athena Scientific, (1re Ă©d. 1982)
  4. Andreani, Birgin, MartĂ­nez et Schuverdt, « On Augmented Lagrangian Methods with General Lower-Level Constraints », SIAM Journal on Optimization, vol. 18, no 4,‎ , p. 1286–1309 (DOI 10.1137/060654797, lire en ligne)
  5. Eckstein et Bertsekas, « On the Douglas—Rachford splitting method and the proximal point algorithm for maximal monotone operators », Mathematical Programming, vol. 55, nos 1–3,‎ , p. 293–318 (DOI 10.1007/BF01581204, S2CID 15551627, CiteSeerx 10.1.1.141.6246)
  6. « YALL1: Your ALgorithms for L1 », yall1.blogs.rice.edu
  7. « SpaRSA », www.lx.it.pt
  8. « (C)SALSA: A Solver for Convex Optimization Problems in Image Recovery », cascais.lx.it.pt
  9. « SnapVX », snap.stanford.edu
  10. « parADMM/engine »,
  11. Ouyang, H., He, N., Tran, L. et Gray, A. G, « Stochastic alternating direction method of multipliers », Proceedings of the 30th International Conference on Machine Learning,‎ , p. 80–88
  12. Boyd, S., Parikh, N., Chu, E. et Peleato, B., « Distributed optimization and statistical learning via the alternating direction method of multipliers », Foundations and Trends{\textregistered} in Machine Learning, vol. 3, no 1,‎ , p. 1–122 (DOI 10.1561/2200000016, CiteSeerx 10.1.1.360.1664)
  13. Esser, E., Zhang, X. et Chan, T., « A general framework for a class of first order primal-dual algorithms for convex optimization in imaging science », SIAM Journal on Imaging Sciences, vol. 3, no 4,‎ , p. 1015–1046 (DOI 10.1137/09076934X)
  14. Mota, J. FC, Xavier, J. MF, Aguiar, P. MQ et Puschel, M., « Distributed ADMM for model predictive control and congestion control », Decision and Control (CDC), 2012 IEEE 51st Annual Conference O,‎ , p. 5110–5115 (ISBN 978-1-4673-2066-5, DOI 10.1109/CDC.2012.6426141, S2CID 12128421)

Bibliographie

Cet article est issu de wikipedia. Text licence: CC BY-SA 4.0, Des conditions supplĂ©mentaires peuvent s’appliquer aux fichiers multimĂ©dias.