Conditions d'optimalité
En optimisation mathématique, les conditions d'optimalité sont un ensemble d'équations, d'inéquations (c'est-à -dire des inégalités) et d'expressions diverses (par exemple, la copositivité de matrices) vérifiées par une solution d'un problÚme d'optimisation (on parle alors de conditions nécessaires d'optimalité) ou qui permettent d'affirmer qu'un point qui les vérifie est solution du problÚme d'optimisation considéré (on parle alors de conditions suffisantes d'optimalité). Ces expressions analytiques de l'optimalité sont utiles entre autres pour :
- calculer les solutions d'un problĂšme d'optimisation,
- vérifier l'optimalité d'un point donné,
- concevoir des algorithmes de résolution.
Cet article se limite aux conditions d'optimalité des problÚmes d'optimisation différentiable et de dimension finie.
Les plus importantes sont les conditions KKT.
Préambule
Cet article se limite aux conditions d'optimalitĂ© des problĂšmes d'optimisation diffĂ©rentiable et de dimension finie. Le terme diffĂ©rentiable signale que les fonctions dĂ©finissant le problĂšme sont supposĂ©es diffĂ©rentiables au sens classique (celui de FrĂ©chet). Lorsque la diffĂ©rentiabilitĂ© a lieu dans un sens plus faible on parle d'optimisation non lisse ou d'optimisation non diffĂ©rentiable, discipline dans laquelle on Ă©tablit des conditions d'optimalitĂ© plus fines que celles prĂ©sentĂ©es dans cet article. Il ne sera donc pas non plus question ici des problĂšmes d'optimisation combinatoire dans lesquels les variables prennent des valeurs discrĂštes, si bien que la diffĂ©rentiabilitĂ© requise n'a pas de sens. Quant aux termes dimension finie, ils font rĂ©fĂ©rence au fait que l'on cherche la valeur optimale d'un nombre fini de paramĂštres (mais ceux-ci doivent pouvoir varier continĂ»ment). Le systĂšme Ă optimiser peut, quant Ă lui, ĂȘtre de dimension infinie, comme c'est le cas de l'optimisation d'une forme gĂ©omĂ©trique (de dimension infinie) dĂ©crite par des splines (reprĂ©sentĂ©s par un nombre fini de paramĂštres). Les conditions d'optimalitĂ© des problĂšmes d'optimisation de dimension infinie sont considĂ©rĂ©es ailleurs.
On parle de conditions du premier ordre si ces conditions font intervenir les dérivées premiÚres des objets définissant le problÚme (il faudra définir ce que l'on entend par la dérivée de l'ensemble admissible du problÚme), mais pas les dérivées d'ordre supérieur, et de conditions du second ordre si ces conditions font intervenir les dérivées secondes des objets définissant le problÚme, mais pas les dérivées d'ordre supérieur.
Les conditions d'optimalité d'un problÚme d'optimisation avec contraintes introduisent des variables cachées, les multiplicateurs ou variables duales, qui n'apparaissent pas dans l'énoncé du problÚme et qui sont donc difficiles à appréhender (elles appartiennent à un autre espace que celui des variables à optimiser). Elles jouent cependant un rÎle crucial dans la compréhension du problÚme, notamment parce qu'elles s'interprÚtent comme des coûts marginaux, trÚs utiles en pratique ; il est donc important de s'y familiariser.
Les conditions d'optimalitĂ© sont prĂ©sentĂ©es ci-dessous pour des problĂšmes d'optimisation de gĂ©nĂ©ralitĂ© (et de difficultĂ©) croissante. Celles Ă©noncĂ©es pour un problĂšme d'une certaine gĂ©nĂ©ralitĂ© peuvent ĂȘtre utilisĂ©es pour exprimer les conditions d'optimalitĂ© d'un problĂšme qui l'est moins, car celui-ci pourra toujours ĂȘtre vu comme un cas particulier du premier problĂšme. Le lecteur pressĂ© peut donc directement aborder le cas du problĂšme le plus abstrait, mais il lui manquera alors certaines notions coutumiĂšrement utilisĂ©es Ă des niveaux d'abstraction moindres.
Connaissances supposées : le calcul différentiel, l'algÚbre linéaire, les bases de l'analyse convexe (en particulier le lemme de Farkas).
Le problÚme générique
Le problĂšme PX
Soit un espace vectoriel sur de dimension finie, qui dĂ©signe l'ensemble auquel appartiennent les paramĂštres que l'on cherche Ă optimiser. Ătant de dimension finie, il n'y a pas de restriction Ă supposer que cet espace vectoriel est muni d'un produit scalaire, notĂ© , qui en fait un espace euclidien. La norme associĂ©e Ă ce produit scalaire est notĂ©e . Le problĂšme d'optimisation considĂ©rĂ© s'exprime mathĂ©matiquement comme celui qui consiste Ă minimiser une fonction sur une partie de . La fonction a de nombreuses appellations, ce qui permet de varier le vocabulaire : fonction-coĂ»t, coĂ»t, fonction-objectif, objectif, critĂšre, etc. L'ensemble est appelĂ© l'ensemble admissible du problĂšme et un point lui appartenant est appelĂ© point admissible. Ce problĂšme, dĂ©signĂ© ci-aprĂšs , s'Ă©crit au choix comme suit :
.
Une solution ou minimum ou minimiseur de ce problĂšme est un point de l'espace vectoriel vĂ©rifiant deux conditions : il doit ĂȘtre admissible et minimiser le critĂšre sur l'ensemble admissible. Ceci s'Ă©crit
.
On adjoint souvent le qualificatif global Ă cette notion de solution pour la distinguer d'autres notions prĂ©sentĂ©es ci-dessous. Signalons Ă©galement que l'on remplace parfois ââââ par ââââ dans l'Ă©criture du problĂšme d'optimisation lorsqu'il est certain que ce problĂšme a une solution.
Dans certaines sous-disciplines de l'optimisation, on utilise parfois la locution malheureuse solution optimale qui, avec le sens de solution donné ci-dessus, est un pléonasme (dans cette locution, le mot solution signifie en réalité point admissible, mais il semble préférable de laisser au mot solution son sens habituel de solution d'un problÚme).
On introduit aussi d'autres notions de solutions. Ainsi on dit que est une solution locale ou minimum local ou minimiseur local du problĂšme s'il existe un voisinage de tel que minimise sur . Par ailleurs, on dit que est une solution stricte [resp. une solution locale stricte] si est admissible et si (inĂ©galitĂ© stricte) pour tout diffĂ©rent de [resp. pour tout diffĂ©rent de oĂč est un voisinage de ].
Forme géométrique de l'optimalité au premier ordre
Lorsqu'une fonction atteint un minimum en un point, elle varie peu dans le voisinage de ce point. Mathématiquement, cette observation se traduit par le fait que sa dérivée y est nulle. Ceci est une condition d'optimalité du premier ordre bien connue pour un problÚme sans contrainte (ces conditions sont présentées à la section problÚmes sans contrainte ci-dessous). Si l'on veut établir une expression similaire dans le cas des problÚmes avec contrainte, il est nécessaire de dire ce qu'est l'approximation au premier ordre de l'ensemble admissible en un point, de linéariser cet ensemble en ce point, comme on peut le faire pour la fonction-coût. Ceci conduit à la notion de cÎne tangent, développée dans un autre article.
Rappelons quand mĂȘme ici qu'une partie de (un espace vectoriel suffit pour cette notion) est un cĂŽne si , ce qui signifie que doit appartenir Ă chaque fois que est un rĂ©el strictement positif (i.e., ) et . Un cĂŽne n'est pas un objet de l'algĂšbre linĂ©aire, mais de l'analyse convexe. On rencontre donc ici une premiĂšre manifestation de l'importance de cette derniĂšre thĂ©orie en optimisation.
On utilisera ici la notion de cÎne tangent au sens de Bouligand[1], qui suffit en dimension finie. Précisons que ce cÎne tangent à en , noté ci-dessous, est l'ensemble des directions tangentes à en , c'est-à -dire des directions pour lesquelles il existe des suites d'éléments de et d'éléments de telles que
La notion de cĂŽne tangent permet d'obtenir aisĂ©ment une condition nĂ©cessaire d'optimalitĂ© du premier ordre pour le problĂšme gĂ©nĂ©rique â on suppose donc ici que le critĂšre de ce problĂšme est diffĂ©rentiable. Cette condition exprime que la fonction-coĂ»t croĂźt depuis un minimum local en suivant une direction tangente, ce qui se traduit mathĂ©matiquement par
C'est ce qu'on appelle la forme géométrique de l'optimalité au premier ordre. Ce résultat avait déjà été exprimé par Peano dÚs 1887[2] - [3], puis par Kantorovitch en 1940[4], mais il est passé inaperçu ou a été oublié[5] - [6]. On peut en donner une expression plus compacte en introduisant les notions de gradient et de cÎne dual.
- La dérivée premiÚre de en étant une application linéaire de dans , par le théorÚme de Riesz-Fréchet, il existe un unique vecteur vérifiant
Ce vecteur est appelé le gradient de en . Il dépend manifestement du produit scalaire de l'espace euclidien .
- Soit une partie non vide de l'espace euclidien . Le cÎne dual (positif) de est l'ensemble défini par
pour tout
C'est un cÎne convexe fermé non vide.
Avec ces deux concepts, l'expression géométrique de l'optimalité donnée ci-dessus devient
Cette condition est générique et c'est elle qui sera particularisée ci-dessous à des problÚmes dont l'ensemble admissible a une structure plus précise. Le travail sera dans chaque cas celui de trouver une expression plus pratique, plus accessible au calcul, du cÎne dual du cÎne tangent, conduisant ainsi à la forme analytique de l'optimalité.
Résumons le résultat obtenu. On utilise l'abréviation CN1 pour désigner une condition nécessaire d'optimalité du premier ordre.
CN1 de Peano-Kantorovitch â Si est un minimum local de et si est dĂ©rivable en , on a
,
ce qui s'Ă©crit aussi
.
On dit que est un point stationnaire ou un point critique du problÚme , si ce point est admissible et s'il vérifie la condition d'optimalité du premier ordre donnée dans le résultat ci-dessus.
Lorsque l'ensemble admissible est convexe, on dispose d'une CN1 ne faisant pas intervenir le cÎne tangent. On y a noté la dérivée directionnelle de en dans la direction , c'est-à -dire la limite lorsque du quotient différentiel .
CN1 lorsque est convexe â Si l'ensemble admissible est convexe, si est un minimum local de et si admet des dĂ©rivĂ©es directionnelles en , on a
.
Enfin, lorsque à la fois l'ensemble admissible est convexe et le critÚre est convexe sur l'ensemble admissible, la condition précédente est une condition nécessaire et suffisante d'optimalité du premier ordre, une propriété que l'on résume par l'abréviation CNS1. Il n'y a alors plus de distinction entre minimum local et global.
CNS1 lorsque est convexe â Si l'ensemble admissible est convexe, si le critĂšre est convexe sur et si admet des dĂ©rivĂ©es directionnelles en , alors est un minimum de si, et seulement si,
.
Pour les problĂšmes convexes, il n'y a donc pas de distinction entre un minimum local et global : tous les minima locaux sont globaux. C'est une seconde manifestation de l'importance de l'analyse convexe en optimisation.
ProblĂšmes d'optimisation sans contrainte
Le problĂšme que l'on considĂšre dans cette section est celui de minimiser la fonction sur tout entier, problĂšme que l'on Ă©crit
DĂšs lors, l'ensemble admissible est l'espace vectoriel .
Conditions du premier ordre sans contrainte
Le cÎne tangent à en est l'espace tout entier. Comme le dual de est , la CN1 générique exprime que le gradient est nul en un minimum local de sur . Cette condition d'optimalité est parfois appelée « équation de Fermat » pour rappeler une condition similaire trouvée, dans le cas d'un polynÎme réel d'une variable réelle, par Pierre de Fermat vers 1629, c'est-à -dire environ quarante ans avant l'invention du calcul différentiel par Newton et Leibniz[7].
CN1 de Fermat â Si est un minimum local de sur et si admet des dĂ©rivĂ©es directionnelles en , on a
.
Si, de plus, est dérivable en , on a
.
Lorsque est convexe, ces conditions deviennent des conditions nécessaires et suffisantes d'optimalité globale de .
CNS1 pour une fonction convexe â Soient une fonction convexe sur et .
- Si admet des dérivées directionnelles en , alors est un minimum global de sur si, et seulement si,
.
- Si est dérivable en , alors est un minimum global de sur si, et seulement si,
.
Conditions du deuxiĂšme ordre sans contrainte
On désigne ci-dessous par la dérivée seconde de en , qui est une application bilinéaire symétrique de dans , et par la hessienne de en pour le produit scalaire de l'espace euclidien , qui est l'unique opérateur linéaire auto-adjoint sur vérifiant
Rappelons également les notions de semi-définie positivité et définie positivité d'un opérateur auto-adjoint sur , associées au produit scalaire de , qui sont utilisées dans les résultats ci-dessous :
- est semi-défini positif si pour tout vecteur ,
- est défini positif si pour tout vecteur .
Les résultats suivants résument les conditions nécessaires du second ordre (CN2) et les conditions suffisantes du second ordre (CS2) pour les problÚmes d'optimisation sans contrainte.
CN2 des problĂšmes sans contrainte â Si est dĂ©rivable dans un voisinage d'un point et deux fois dĂ©rivable en et si est un minimum local de sur , alors et est semi-dĂ©fini positif.
CS2 des problĂšmes sans contrainte â Si est dĂ©rivable dans un voisinage d'un point et deux fois dĂ©rivable en et si et est dĂ©fini positif, alors est un minimum local strict de sur .
On peut se servir de ces conditions du second ordre comme suit. La CN1 de Fermat est un systĂšme non linĂ©aire qui a quelques chances d'ĂȘtre bien posĂ©. Par exemple si est Ă©quipĂ© du produit scalaire euclidien, ce systĂšme est formĂ© de Ă©quations (les dĂ©rivĂ©es partielles du critĂšre) Ă inconnues. Si on calcule toutes les solutions de l'Ă©quation de Fermat (ceci est rarement une tĂąche aisĂ©e), on dispose, par dĂ©finition, de tous les points stationnaires du critĂšre. Ceux-ci ne sont pas nĂ©cessairement des minimiseurs de . Les conditions du deuxiĂšme ordre permettent souvent de sĂ©lectionner parmi ces points stationnaires ceux qui sont des minima locaux. En effet, d'aprĂšs ces conditions
- si est un point stationnaire tel que n'est pas semi-défini positif, alors n'est pas un minimum local (condition nécessaire),
- si est un point stationnaire tel que est défini positif, alors est un minimum local strict (condition suffisante).
On ne recouvre pas ainsi tous les cas, puisque l'on pourrait avoir un point stationnaire avec une hessienne semi-dĂ©fini positif, mais non dĂ©fini positif (il a un noyau non trivial, une valeur propre nulle). L'ambiguĂŻtĂ© de tels cas peut parfois ĂȘtre levĂ©e en examinant des conditions d'ordre plus Ă©levĂ©.
ProblÚmes d'optimisation avec contraintes d'égalité
Le problĂšme (PE)
L'ensemble admissible du problÚme d'optimisation considéré dans cette section n'est pas l'espace tout entier, comme pour les problÚmes sans contrainte de la section précédente, mais une partie de celui-ci, définie par un nombre fini de contraintes d'égalité :
Ces contraintes sont spécifiées au moyen d'une fonction
oĂč est, tout comme , un espace euclidien (de dimension finie) dont le produit scalaire est aussi notĂ© . Les dimensions des espaces sont notĂ©es
Il sera souvent approprié de supposer qu'en la solution recherchée, la jacobienne de la contrainte vérifie
est surjective.
Ceci requiert certainement d'avoir , c'est-à -dire d'avoir moins de contraintes que de variables à optimiser. Lorsque cette hypothÚse est vérifiée, l'ensemble admissible est, dans un voisinage de , une variété (concept de base de la géométrie différentielle que l'on peut voir comme une surface ayant des propriétés de représentation particuliÚres) de dimension .
Le problÚme d'optimisation considéré dans cette section s'écrit donc
oĂč en est le critĂšre.
ProblĂšme convexe â On dit que le problĂšme est convexe si la contrainte est affine et si le critĂšre est convexe sur .
L'ensemble admissible d'un problĂšme convexe est donc un sous-espace affine de , donc un convexe.
Conditions du premier ordre avec contraintes d'égalité
Comme le montre le cas générique, les conditions nécessaires d'optimalité du premier ordre peuvent s'obtenir en trouvant une représentation convenable du cÎne tangent à l'ensemble admissible et en prenant ensuite son cÎne dual.
On note le noyau et l'image d'une application linéaire entre deux espaces euclidiens et . L'adjointe de est l'application linéaire définie par la relation , pour tout et tout . On rappelle qu'en dimension finie, on a
.
Cette identité joue un rÎle-clé dans le passage de la forme géométrique (utilisant la partie gauche de l'identité) à la forme analytique (utilisant sa partie droite) des conditions d'optimalité du premier ordre.
Le cĂŽne tangent Ă XE
Le résultat suivant montre que le cÎne tangent est inclus dans un sous-espace vectoriel ; il lui sera égal dans les bons cas.
Estimation du cĂŽne tangent â Si est dĂ©rivable en , alors
Dans l'inclusion , le cĂŽne tangent ne dĂ©pend que de l'ensemble admissible , alors que dĂ©pend de la fonction utilisĂ©e pour dĂ©finir . Il peut y avoir plusieurs fonctions dĂ©finissant le mĂȘme ensemble . Du point de vue de l'optimisation, toutes ne conviennent pas. Celles qui permettent d'obtenir des conditions d'optimalitĂ© sont celles pour lesquelles l'Ă©galitĂ© a lieu. On dit alors que la contrainte (lĂ©ger abus de langage, il faudrait dire la fonction utilisĂ©e pour dĂ©finir ) est qualifiĂ©e en (sous-entendu «pour reprĂ©senter »).
Qualification d'une contrainte d'Ă©galitĂ© â On dit que la contrainte est qualifiĂ©e en (pour reprĂ©senter ) si est diffĂ©rentiable en et si
Voici le résultat principal assurant que la contrainte est qualifiée en un point. On y retrouve la condition mentionnée ci-dessus assurant que est une variété dans le voisinage .
Condition suffisante de qualification d'une contrainte d'Ă©galitĂ© â Si est dans un voisinage de et si est surjective, alors est qualifiĂ©e en
Voici une consĂ©quence pratique de la notion de qualification de contrainte. Au lieu d'utiliser la fonction pour reprĂ©senter l'ensemble admissible , on pourrait utiliser la fonction , dĂ©finie par , puisque si, et seulement si, . Ceci paraĂźt attrayant puisque l'on a ainsi remplacĂ© toutes les contraintes d'Ă©galitĂ©, en nombre potentiellement grand, par une seule contrainte. Cependant, la contrainte a encore moins de chance d'ĂȘtre qualifiĂ©e que puisque en un point et donc , qui est le plus souvent trop grand. Il n'est donc, en gĂ©nĂ©ral, pas recommandĂ© de remplacer par .
Condition de Lagrange
Lorsque la contrainte est qualifiée, le cÎne tangent est le sous-espace vectoriel , dont le dual est alors son orthogonal . Par la CN1 générique, le gradient de en un minimum local de sur appartient à ce dernier ensemble, ce qui conduit aux conditions nécessaires d'optimalité du premier ordre (CN1) de Lagrange[8].
CN1 de Lagrange â Soit un minimum local de . Supposons que et soient dĂ©rivables en et que la contrainte soit qualifiĂ©e en au sens de la dĂ©finition ci-dessus. Alors, il existe un vecteur tel que
oĂč est le gradient de en et est l'opĂ©rateur adjoint de la jacobienne pour les produits scalaires donnĂ©s sur et . Le vecteur est unique si est surjective.
Ce résultat, parfois appelé méthode du multiplicateur de Lagrange, est attribué à Lagrange qui l'énonça dans sa Méchanique analytique (1788). On en trouve toutefois déjà des traces dans des travaux d'Euler sur les problÚmes isopérimétriques (1744). Lagrange utilisa d'abord cette méthode pour résoudre un problÚme de calcul des variations sous contraintes et plus tard, dans sa Théorie des fonctions analytiques (1797), il l'applique aux problÚmes de la forme [9] - [10]
En l'absence de qualification de la contrainte, l'existence du multiplicateur n'est plus assurée, si bien que la condition nécessaire d'optimalité de Lagrange peut ne pas avoir lieu. Un exemple est donné dans la section suivante.
En pratique, il est souvent commode de retrouver la condition de Lagrange en introduisant le lagrangien du problĂšme.
Lagrangien du problĂšme â On appelle lagrangien du problĂšme , la fonction dĂ©finie en par
Le vecteur porte le nom de multiplicateur (de Lagrange) ou variable duale.
La variable est aussi appelée variable primale ; quant au couple , on lui donne parfois le nom de variable(s) primale(s)-duale(s).
Le lagrangien joue un rÎle essentiel en optimisation avec contraintes. Le multiplicateur porte ce nom car il multiplie les contraintes dans le lagrangien, par l'intermédiaire du produit scalaire de . Sous les hypothÚses du résultat ci-dessus, les conditions nécessaires d'optimalité du premier ordre peuvent maintenant s'écrire comme suit
On note ici [resp. ] le gradient par rapport Ă [resp. Ă ]. Ce systĂšme (non linĂ©aire, en toute gĂ©nĂ©ralitĂ©) permet souvent de calculer une solution du problĂšme d'optimisation . En rĂ©alitĂ©, cette solution est ce qu'on appelle un point stationnaire. Ce n'est pas nĂ©cessairement un minimum local du problĂšme (ce point peut ĂȘtre un maximum local, qui n'est a priori pas le type de solution recherchĂ©), sauf si celui-ci est convexe.
CS1 pour un problĂšme convexe â Supposons que le problĂšme soit convexe, que soit dĂ©rivable en et qu'il existe un multiplicateur tel que vĂ©rifie
Alors est un minimum global de .
Pour les problÚmes non convexes, ce sont les conditions du second ordre qui permettrons de sélectionner les minima locaux parmi les points stationnaires calculés.
Minimisation d'une fonction de n variables soumise Ă m contraintes
Il est utile de spécifier les conditions d'optimalité de Lagrange lorsque , et que l'on munit ces espaces du produit scalaire euclidien
Il y a alors variables à optimiser et les contraintes du problÚme sont données explicitement au moyen de fonctions :
Le lagrangien du problĂšme s'Ă©crit
Observons que le multiplicateur de Lagrange a autant de composantes qu'il y a de contraintes ; chacune des composantes étant associée à une contrainte ; on dit d'ailleurs que le multiplicateur est associé à la contrainte . Si on utilise pour désigner le gradient d'une fonction réelle de variables par rapport au produit scalaire euclidien, c'est-à -dire le vecteur de ses dérivées partielles, les conditions d'optimalité s'écrivent sous la forme d'un systÚme de équations à inconnues :
On voit donc qu'en la solution le gradient du critÚre est combinaison linéaire des gradients des contraintes (on se rappelle qu'en optimisation sans contrainte le gradient du critÚre est nul).
Voici un exemple de problĂšme avec 2 variables et 2 contraintes, avec solution, mais sans multiplicateur optimal et donc sans condition de Lagrange (c'est l'absence de qualification des contraintes qui produit cet effet) :
L'unique point admissible est le point , qui est donc l'unique solution du problĂšme. Cependant les contraintes ne sont pas qualifiĂ©es en ce point car le cĂŽne tangent est rĂ©duit Ă alors que le noyau de la jacobienne des contraintes est (on note par ailleurs que cette jacobienne, qui est une matrice ne saurait alors ĂȘtre surjective). Dans cet exemple, les conditions de Lagrange ne sont pas vĂ©rifiĂ©es (il n'y a pas de multiplicateur optimal), puisque le gradient de en la solution ne peut ĂȘtre combinaison linĂ©aire des gradients des contraintes (ces derniers sont linĂ©airement dĂ©pendants) :
Conditions du deuxiÚme ordre avec contraintes d'égalité
Comme en optimisation sans contrainte, les conditions d'optimalité du second ordre permettent de sélectionner les éventuelles solutions parmi les points stationnaires (i.e., les points vérifiant la condition de Lagrange). Ces conditions du second ordre des problÚmes avec contraintes d'égalité diffÚrent de celles des problÚmes sans contrainte sur deux points :
- ce n'est pas la hessienne du critĂšre qui intervient dans ces conditions, mais la hessienne du lagrangien,
- la hessienne du lagrangien n'est pas semi-définie positive sur l'espace des variables primales tout entier, mais sur le cÎne tangent.
D'oĂč proviennent ces diffĂ©rences ?
En optimisation sans contrainte, les conditions nĂ©cessaires du second ordre rĂ©sultent du fait que dans le voisinage d'une solution, le critĂšre prend une valeur supĂ©rieure Ă celle qu'il prend en la solution. Un dĂ©veloppement de Taylor du critĂšre autour d'une solution et l'utilisation du fait que son gradient est nul en la solution impliquent alors immĂ©diatement que la hessienne du critĂšre doit ĂȘtre semi-dĂ©finie positive en la solution. Dans le cas des problĂšmes avec contraintes d'Ă©galitĂ©, utiliser la mĂȘme dĂ©marche ne conduirait nulle part, car le gradient du critĂšre n'est pas nĂ©cessairement nul en une solution (selon la condition de Lagrange, il est dans l'image de l'adjointe de la jacobienne de la contrainte). En rĂ©alitĂ©, c'est le gradient du lagrangien qui s'annule en une solution. C'est donc un dĂ©veloppement de Taylor de cette fonction qui pourra apporter de l'information sur sa hessienne. Ceci explique le premier point ci-dessus. Par ailleurs, il est clair que sur l'ensemble admissible le lagrangien prend les mĂȘmes valeurs que le critĂšre, si bien qu'il prend aussi des valeurs supĂ©rieures Ă celle qu'il a en une solution. C'est la relation de monotonie recherchĂ©e qui conduira Ă la semi-dĂ©finie positivitĂ© de la hessienne du lagrangien. Cependant, ce n'est que sur la variĂ©tĂ© des contraintes que cette relation de monotonie a lieu, si bien que la semi-dĂ©finie positivitĂ© de la hessienne du lagrangien ne sera vĂ©rifiĂ©e que sur la variĂ©tĂ© linĂ©arisĂ©e qu'est le cĂŽne tangent. Ceci explique le second point ci-dessus.
On devrait à présent mieux comprendre les conditions nécessaires du second ordre (CN2) pour un problÚme avec contraintes d'égalité, que voici.
CN2 pour le problĂšme â Soit un minimum local de . Supposons que et soient dĂ©rivables dans un voisinage de et deux fois dĂ©rivables en et que la contrainte soit qualifiĂ©e en . Alors, il existe un multiplicateur tel que l'on ait et
Ce résultat donne-t-il suffisamment de conditions ou aurait-on pu en obtenir d'autres ? Ce sont les bonnes conditions car, comme en optimisation sans contrainte, si l'on remplace la semi-définie positivité par la définie positivité, on obtient des conditions suffisantes d'optimalité du second ordre (abrégées par CS2).
CS2 pour le problĂšme â Supposons que et soient dĂ©rivables dans un voisinage de et deux fois dĂ©rivables en . Supposons que et qu'il existe tel que l'on ait et
Alors est un minimum local strict de .
On notera que les CS2 ne requiĂšrent pas d'hypothĂšse de qualification de contrainte.
Vérifier la (semi-)définie positivité de la hessienne du lagrangien dans le noyau de ne pose pas de difficulté, pourvu que l'on puisse calculer une base de ce noyau. On peut en effet voir ce noyau comme l'image d'une application linéaire injective tel que avec Il suffit alors de vérifier la (semi-)définie positivité de , ce qui peut se faire en temps polynomial par des techniques d'algÚbre linéaire.
Exemple : vecteurs propres et quotient de Rayleigh
Soit un espace euclidien muni d'un produit scalaire noté ; on note la norme associée. On s'intéresse aux vecteurs propres d'une application linéaire auto-adjointe. Par exemple, on pourrait avoir , muni du produit scalaire euclidien, et une matrice symétrique.
Le problĂšme d'optimisation
Dans ce but, on considÚre le quotient de Rayleigh , défini en par
Comme est constant le long des rayons issus de zĂ©ro, il revient au mĂȘme de minimiser la fonction quadratique dĂ©finie en par
sur la sphÚre unité On considÚre donc le problÚme d'optimisation avec une unique contrainte d'égalité suivant
Ce problĂšme a toujours une solution (le critĂšre est continu et, comme est de dimension finie, est compact). Calculons les points stationnaires du problĂšme d'optimisation.
Conditions d'optimalité du premier ordre
La fonction est non différentiable en zéro, mais cela n'a pas trop d'importance, car la solution est de norme un. On préfÚre toutefois définir l'ensemble admissible au moyen de la contrainte , qui se dérive plus facilement. Cette contrainte est qualifiée en tout point admissible, car sa jacobienne est surjective si . Pour calculer la solution du problÚme d'optimisation, on introduit son lagrangien, qui prend en la valeur
Comme il y a une seule contrainte, il y a un seul multiplicateur .
Les conditions d'optimalité de Lagrange s'écrivent
DĂšs lors, est un point stationnaire de multiplicateur si, et seulement si, est un vecteur propre unitaire de , de valeur propre . Ce multiplicateur est aussi la valeur du critĂšre en , puisque . DĂšs lors, une solution du problĂšme d'optimisation est un vecteur propre unitaire de valeur propre minimale. Si au lieu de minimiser , on minimisait ou on maximisait , une solution du problĂšme d'optimisation serait un vecteur propre unitaire de valeur propre maximale.
Conditions d'optimalité du deuxiÚme ordre
La hessienne du lagrangien en une solution primale-duale du problÚme d'optimisation est l'opérateur auto-adjoint sur Comme est la valeur minimale de sur la sphÚre unité, on a pour tout vecteur unitaire On peut en déduire que pour tout vecteur ce qui signifie que la hessienne du lagrangien est semi-définie positive dans tout l'espace , pas seulement dans l'espace tangent à la contrainte comme l'assurent les CN2. C'est le caractÚre quadratique du critÚre et des contraintes qui permet d'avoir cette propriété.
Si un couple vérifie les CS2, alors est un vecteur propre de de valeur propre ; de plus , pour tout vecteur unitaire , voisin mais différent de . On en déduit aisément que pour tout unitaire différent de (on peut par exemple prendre assez petit pour que , avec , soit voisin mais différent de et développer la relation qui en résulte). On en déduit que est la valeur propre minimale et est simple (i.e., l'espace propre associé est de dimension 1). La réciproque est également vraie : si la plus petite valeur propre de est simple, les CS2 sont vérifiées.
RĂ©sultats obtenus
Vecteurs propres et quotient de Rayleigh â Soit un espace euclidien et une application linĂ©aire auto-adjointe. On considĂšre le problĂšme d'optimisation suivant :
- Un vecteur unitaire est un vecteur propre de si, et seulement si, c'est un point stationnaire de ce problÚme ; les multiplicateurs associés sont les valeurs propres correspondantes.
- Un vecteur est vecteur propre unitaire de valeur propre minimale si, et seulement si, il est solution de ce problĂšme.
- Les conditions suffisantes d'optimalité du second ordre de ce problÚme sont vérifiées en une solution si, et seulement si, la valeur propre associée à cette solution est simple
ProblÚmes d'optimisation avec contraintes d'égalité et d'inégalité
Le problĂšme (PEI)
Dans cette section, on considÚre le problÚme d'optimisation avec contraintes d'égalité et d'inégalité, que l'on écrit sous la forme suivante
Cette écriture exprime le fait que l'on cherche à minimiser un critÚre défini sur un espace euclidien dont l'argument , qui est le vecteur des variables à optimiser, l'inconnue de ce problÚme, est contraint de respecter un nombre fini de contraintes spécifiées par des fonctions . Le produit scalaire de l'espace euclidien est noté . On y trouve des contraintes d'égalité et d'inégalité en nombre fini, repérées par des ensembles finis d'indices et , dont le cardinal est noté
.
Le nombre total de contraintes est noté .
Il est commode de supposer que les ensembles d'indices et forment une partition de l'ensemble des premiers entiers :
Si , on note le vecteur de formĂ© des composantes de avec . De mĂȘme pour . On peut alors rassembler les fonctions rĂ©elles en une seule fonction , dont les composantes et sont utilisĂ©es pour dĂ©finir les contraintes d'Ă©galitĂ© et d'inĂ©galitĂ©.
L'ensemble admissible de est noté
Ici et ci-dessous, les inĂ©galitĂ©s vectorielles doivent ĂȘtre comprises composante par composante : pour un vecteur , signifie que pour tout indice . Si en un point admissible , est surjective, cet ensemble se prĂ©sente autour de comme une partie de la variĂ©tĂ© formĂ©e des points qui vĂ©rifient aussi l'inĂ©galitĂ© .
ProblĂšme convexe â On dit que le problĂšme est convexe si la contrainte d'Ă©galitĂ© est affine, si les contraintes d'inĂ©galitĂ© () sont convexes et si le critĂšre est convexe sur
L'ensemble admissible d'un problĂšme convexe est clairement convexe.
Comme la CN1 gĂ©nĂ©rique l'a montrĂ©, l'Ă©criture des conditions d'optimalitĂ© du premier ordre passe par la dĂ©termination du cĂŽne tangent Ă l'ensemble admissible. Ce cĂŽne tangent en est un concept local, dans le sens oĂč une modification de l'ensemble admissible en dehors d'un voisinage de n'aura pas d'incidence sur le cĂŽne tangent en ce point. DĂšs lors si une contrainte d'inĂ©galitĂ© prend une valeur strictement nĂ©gative en , disons , une perturbation de cette contrainte ne modifiera pas l'ensemble admissible dans le voisinage de Il est donc nĂ©cessaire de pouvoir nommer les contraintes d'inĂ©galitĂ© qui sont nulles au point considĂ©rĂ©, ce qui conduit Ă la notion suivante.
Contrainte active et inactive â On dit qu'une contrainte d'Ă©galitĂ© ou d'inĂ©galitĂ© est active en si . On note
l'ensemble des indices des contraintes d'inégalité actives en . On adopte la notation simplifiée Une contrainte d'inégalité qui n'est pas active en un point donné, y est dite inactive.
Les problĂšmes d'optimisation avec contraintes d'inĂ©galitĂ© sont considĂ©rablement plus difficiles Ă analyser et Ă rĂ©soudre numĂ©riquement (un calcul analytique, sur papier, est rarement possible et d'ailleurs souvent difficile lui aussi) que les problĂšmes rencontrĂ©s jusqu'ici. Lorsqu'il n'y a que des contraintes d'Ă©galitĂ©, la comprĂ©hension du problĂšme repose sur l'analyse mathĂ©matique classique, en particulier sur le thĂ©orĂšme des fonctions implicites, ce qui explique que les conditions de Lagrange sont en gĂ©nĂ©ral vues dans un cours de calcul diffĂ©rentiel et font ainsi partie du bagage de beaucoup de mathĂ©maticiens ou d'autres scientifiques. La situation est diffĂ©rente lorsque des contraintes d'inĂ©galitĂ© sont prĂ©sentes, car il faut alors faire appel Ă des outils spĂ©cifiques, essentiellement ceux de l'analyse convexe, moins souvent enseignĂ©s. Par ailleurs, numĂ©riquement, la difficultĂ© principale provient du fait que, d'une maniĂšre ou d'une autre, le calcul de la solution dĂ©termine forcĂ©ment les contraintes qui sont actives en cette solution. Si ces contraintes actives Ă©taient connues, on pourrait se ramener au cas des problĂšmes avec seulement des contraintes d'Ă©galitĂ© lisses. Or il y a maniĂšres de rendre les contraintes d'inĂ©galitĂ© actives. C'est Ă ce nombre exponentiel que l'on fait allusion lorsque l'on parle de la combinatoire des problĂšmes d'optimisation avec contraintes d'inĂ©galitĂ©. Celle-ci est redoutable et en rapport direct avec la conjecture P = NP, puisqu'un problĂšme d'optimisation quadratique non convexe (i.e., un problĂšme avec un critĂšre quadratique non convexe et des contraintes affines) est NP ardu. On est donc en prĂ©sence d'un problĂšme pour lequel il est vraisemblable que le principe de conservation des ennuis s'applique ; on veut dire par lĂ que la difficultĂ© du problĂšme ne peut ĂȘtre Ă©liminĂ©e en lui trouvant une autre formulation Ă©quivalente. Ainsi, on pourrait penser simplifier le problĂšme en reformulant les contraintes d'inĂ©galitĂ© par l'une des contraintes d'Ă©galitĂ© apparemment plus simples et Ă©quivalentes suivantes
Cependant la premiÚre contrainte est non lisse et la seconde, bien qu'une fois différentiable, n'est en général pas qualifiée dans le sens discuté ci-dessous.
Conditions du premier ordre pour (PEI)
Si les conditions nécessaires d'optimalité des problÚmes avec contraintes d'égalité ont été établies au XVIIIe siÚcle, celles des problÚmes avec contraintes d'inégalité sont beaucoup plus récentes, puisqu'elles datent du milieu du XXe siÚcle. Il est vraisemblable que le besoin d'une analyse fine de ces questions ait été stimulé par l'augmentation des moyens de calcul. Le développement de l'analyse convexe a aussi permis de poser la théorie sur des bases solides, notamment avec le lemme de Farkas[11] qui sera ci-dessous une des clés permettant de passer de la version géométrique à la version analytique des conditions d'optimalité du premier ordre.
Le cĂŽne tangent Ă XEI
Le résultat suivant permet d'affirmer que le cÎne tangent est inclus dans le cÎne linéarisant, noté et défini ci-dessous ; il lui sera égal dans les bons cas.
Estimation du cĂŽne tangent â Si et si est dĂ©rivable en , alors
Observons que, comme annoncé, seules les contraintes d'inégalité actives interviennent dans l'estimation du cÎne tangent qu'est le cÎne linéarisant. On retrouverait le noyau de la jacobienne des contraintes s'il n'y avait que des contraintes d'égalité.
On peut faire, sur l'inclusion prĂ©cĂ©dente, les mĂȘmes remarques que celles sur l'estimation du cĂŽne tangent Ă des contraintes d'Ă©galitĂ© par le noyau de la jacobienne de ces contraintes : ne dĂ©pend que de l'ensemble admissible , pas de la maniĂšre de le dĂ©crire par la fonction , alors que dĂ©pend manifestement de . Il peut y avoir plusieurs fonctions dĂ©finissant le mĂȘme ensemble admissible et, du point de vue de l'optimisation, toutes ne conviennent pas. Celles qui permettent d'obtenir des conditions d'optimalitĂ© sont celles pour lesquelles l'Ă©galitĂ© a lieu ; d'ailleurs le premier cĂŽne est difficile Ă calculer s'il n'est Ă©gal au second, alors que l'on dispose d'une formule explicite pour le second. On introduit donc la notion de qualification de (fonctions dĂ©finissant les) contraintes suivante.
Qualification de contraintes d'Ă©galitĂ© et d'inĂ©galitĂ© â On dit que les contraintes du problĂšme d'optimisation sont qualifiĂ©es en (pour reprĂ©senter ) si est diffĂ©rentiable en et si
En gĂ©nĂ©ral, le cĂŽne tangent et le cĂŽne linĂ©arisant diffĂšrent, car le premier n'est pas nĂ©cessairement convexe, alors que le second l'est (c'est un cĂŽne polyĂ©drique convexe). Par ailleurs, la notion de qualification des contraintes a un aspect global, dans le sens oĂč elle porte sur toutes les fonctions dĂ©finissant le problĂšme d'optimisation ; il n'est pas question d'utiliser cette notion fonction par fonction parce que le cĂŽne tangent Ă une intersection d'ensembles n'est pas Ă©gal Ă l'intersection des cĂŽnes tangents Ă ces ensembles (voir l'article sur le cĂŽne tangent).
Comme pour les problĂšmes avec contraintes d'Ă©galitĂ©, il n'est presque jamais judicieux de remplacer les contraintes de par l'unique contrainte d'Ă©galitĂ© Ă©quivalente , oĂč est dĂ©finie par
mĂȘme si le fait de n'avoir qu'une seule contrainte est a priori attrayant. Cette derniĂšre contrainte a, en effet, l'inconvĂ©nient de n'ĂȘtre pratiquement jamais qualifiĂ©e, puisque est nul en tout point admissible. DĂšs lors, pour cette contrainte, , qui est pratiquement toujours trop grand, plus grand que .
Vérifier si les contraintes sont qualifiées est une tùche difficile. Cela requiert le calcul du cÎne tangent, que l'on voudrait surtout éviter s'il n'est pas identique au cÎne linéarisant. On connaßt un certain nombre de conditions suffisantes de qualification de contraintes, qui sont plus subtiles que lorsque seules des contraintes d'égalité sont présentes. Elles sont présentées dans l'article Qualification de contraintes.
Conditions de Karush, Kuhn et Tucker (KKT)
On suppose dans cette section que les contraintes du problÚme sont qualifiés, au sens précisé dans la section précédente. Si l'on veut trouver une expression plus explicite de la condition nécessaire d'optimalité du premiÚre ordre en , à savoir , il faut calculer le cÎne dual du cÎne tangent, que l'on suppose donc égal au cÎne dual du cÎne linéarisant . Il s'agit donc de calculer le dual d'un cÎne convexe polyédrique. Le lemme de Farkas fournit une réponse à cette question. Une version légÚrement généralisée est donnée ci-dessous.
Lemme de Farkas gĂ©nĂ©ralisĂ© â Soient et deux espaces euclidiens, une application linĂ©aire et un cĂŽne convexe non vide de . Alors
On ne peut pas se passer de l'adhĂ©rence dans le membre de droite de l'identitĂ© car le cĂŽne n'est pas nĂ©cessairement fermĂ© (mĂȘme si est fermĂ©) alors que, en tant que cĂŽne dual, le cĂŽne du membre de gauche est toujours fermĂ©. Signalons que si est un cĂŽne convexe polyĂ©drique (comme l'orthant positif d'un certain ), alors est un polyĂšdre convexe, donc un fermĂ© ; dans ce cas, on peut ĂŽter l'adhĂ©rence dans le membre de droite.
Simplifions les notations en posant , et . On peut Ă©tablir une expression duale du cĂŽne
en utilisant le lemme de Farkas généralisé avec
- muni du produit scalaire euclidien,
- muni du produit scalaire euclidien,
- ,
- .
On a noté . On vérifie facilement que
Par le lemme de Farkas, on trouve alors la représentation duale du cÎne linéarisant suivante (il n'est pas nécessaire de prendre l'adhérence de l'ensemble obtenu, car il est fermé par sa polyédricité)
On en déduit les conditions nécessaires d'optimalité du premier ordre suivantes, dites de Karush, Kuhn et Tucker (KKT). Elles sont fondamentales.
CN1 de Karush, Kuhn et Tucker â Soit un minimum local de . Supposons que et soient dĂ©rivables en et que les contraintes soient qualifiĂ©es en . Alors, il existe tel que l'on ait
oĂč est le gradient de en et est l'opĂ©rateur adjoint de la jacobienne pour le produit scalaire donnĂ© sur .
Un point vérifiant les conditions (KKT) ci-dessus est dit stationnaire pour le problÚme .
Les conditions nĂ©cessaires dâoptimalitĂ© ci-dessus ont longtemps Ă©tĂ© attribuĂ©es Ă Kuhn et Tucker (1951[12]). AprĂšs bien des annĂ©es, on constata que ces conditions avaient dĂ©jĂ Ă©tĂ© donnĂ©es par Karush (1939[13]) dans une thĂšse qui ne fut jamais publiĂ©e, mais qui est dĂ©crite dans le compte rendu historique de Kuhn[14]. Une approche diffĂ©rente conduisant au mĂȘme rĂ©sultat a Ă©tĂ© suivie par John (1948[15]), Ă©galement avant les travaux de Kuhn et Tucker.
Avant de discuter le systĂšme (KKT), introduisons le lagrangien du problĂšme, qui a la mĂȘme forme que pour les problĂšmes d'optimisation avec contraintes d'Ă©galitĂ©.
Lagrangien du problĂšme â On appelle lagrangien du problĂšme , la fonction dĂ©finie en par
Le vecteur porte le nom de multiplicateur (de Karush, Kuhn et Tucker ou de Lagrange) ou variable duale.
La variable est aussi appelée variable primale ; quant au couple , on lui donne parfois le nom de variable(s) primale(s)-duale(s).
Voici quelques commentaires sur les conditions de Karush, Kuhn et Tucker.
- On reconnaßt dans (KKT)-(a) la nullité du gradient du lagrangien par rapport à la variable primale, , équation qui était déjà présente pour les problÚmes d'optimisation avec contraintes d'égalite et que l'on peut aussi écrire
oĂč les gradients sont pris par rapport au produit scalaire Ă©quipant . Si l'espace euclidien est muni du produit scalaire euclidien, ces gradients sont les vecteurs des dĂ©rivĂ©es partielles par rapport aux variables - Les conditions (KKT)-(b) et (KKT)-(c) certifient l'admissibilitĂ© de la solution.
- Les deux derniÚres conditions sont attachées aux contraintes d'inégalité. La premiÚre, (KKT)-(d), assure que les multiplicateurs optimaux associés aux contraintes d'inégalité sont positifs. Ce signe serait chaque fois changé si au lieu d'avoir un problÚme de minimisation on avait un problÚme de maximisation, ou si on avait écrit les contraintes sous la forme au lieu de , ou encore si on avait utilisé le signe au lieu du signe dans la définition du lagrangien.
- La derniĂšre condition, (KKT)-(e), est connue sous le nom de condition de complĂ©mentaritĂ©. Du fait du signe de et de , elle est Ă©quivalente Ă
si bien que soit soit , lorsque . C'est de cette alternative que provient le nom de complĂ©mentaritĂ©. Cette condition s'Ă©crit aussi Autrement dit, les multiplicateurs associĂ©s aux contraintes d'inĂ©galitĂ© inactives sont nuls. Pour certains problĂšmes, l'implication ci-dessus est remplacĂ©e par une Ă©quivalence : On dit alors que l'on a complĂ©mentaritĂ© stricte. - Les conditions (KKT)-(cde) peuvent ĂȘtre rassemblĂ©es sous l'une des formes compactes suivantes (il y en a d'autres)
qui exprime la positivité de , celle de et l'orthogonalité de ces deux vecteurs pour le produit scalaire euclidien. Les systÚmes de ce type, appelés problÚmes de complémentarité, ont fait l'objet d'études systématiques, conduisant à une discipline à part entiÚre. Celle-ci englobe donc l'optimisation et se généralise à ce que l'on appelle les problÚmes d'inéquations variationnelles.
Les conditions de KKT sont compliquées et difficiles à résoudre numériquement (elles ne le sont analytiquement que pour de rares problÚmes à la structure particuliÚre ; des exemples sont donnés ci-dessous). Il n'y a cependant ni trop ni trop peu de conditions, comme le montre la démonstration de la propriété suivante, stipulant que, si le problÚme est convexe, ces conditions sont suffisantes pour impliquer l'optimalité globale.
CS1 pour un problĂšme convexe â ConsidĂ©rons le problĂšme , que l'on suppose convexe au sens dĂ©fini ci-dessus. Soit un point vĂ©rifiant les contraintes de . Si et sont dĂ©rivables en et s'il existe tel que les conditions de Karush, Kuhn et Tucker (KKT) ci-dessus soient vĂ©rifiĂ©es, alors est un minimum global de
Ensemble des multiplicateurs optimaux
Soit un multiplicateur optimal (ou solution duale) associé à une solution du problÚme . Il sera utile d'introduire les ensembles d'indices suivants :
Ce sont donc des ensembles d'indices qui dĂ©pendent Ă la fois de et . Les contraintes d'indices sont dites fortement actives et celles d'indices sont dites faiblement actives. Ces derniĂšres, bien qu'actives (), peuvent ĂȘtre ĂŽtĂ©es du problĂšme sans modifier la stationnaritĂ© de ().
Il peut y avoir plus d'une solution duale associée à une solution primale . L'ensemble des multiplicateurs associés à est noté
La solution étant fixée, les conditions d'optimalité de KKT montrent que est un polyÚdre convexe de :
En particulier, est fermé. Il est non vide si les contraintes sont qualifiées en (théorÚme d'optimalité de KKT). Par ailleurs, est un sommet de si est surjective. En particulier, n'a pas de sommet si n'est pas surjective.
Cet ensemble est clairement réduit à un seul multiplicateur si les conditions de qualification (QC-IL) (indépendance linéaire des gradients des contraintes actives) sont vérifiées en . Mais, l'unicité du multiplicateur optimal a lieu, en fait, sous une condition plus faible que (QC-IL), mais plus forte que la qualification de Mangasarian-Fromovitz (QC-MF), celle que donne le résultat suivant[16]. Cette condition est aussi nécessaire et suffisante et est parfois appelée la condition de qualification de Mangasarian-Fromovitz stricte (QC-MFS).
UnicitĂ© du multiplicateur â Soit un point stationnaire de (donc et sont supposĂ©es diffĂ©rentiables en et ). Alors est un singleton si, et seulement si, il existe tel que
Mais en toute gĂ©nĂ©ralitĂ©, peut ne pas ĂȘtre rĂ©duit Ă un point. En ce qui concerne le caractĂšre bornĂ© de , on a le rĂ©sultat suivant[17].
Bornitude des multiplicateurs â Soient un couple vĂ©rifiant les conditions de KKT (donc et sont supposĂ©es diffĂ©rentiables en ) et l'ensemble convexe fermĂ© non vide des multiplicateurs optimaux associĂ©s Ă . Alors est bornĂ© si, et seulement si, la condition de qualification de Mangasarian-Fromovitz (QC-MF) a lieu en .
Résolution analytique des conditions d'optimalité
Les conditions d'optimalité de Karush, Kuhn et Tucker permettent d'affirmer que, sous certaines conditions, en particulier de qualification des contraintes, une solution locale de est un point stationnaire de ce problÚme, ce qui veut dire qu'elle vérifie l'ensemble des relations désignées par (KKT) ci-dessus. Pour calculer les solutions de , on pourra donc, dans un premier temps, calculer les solutions du systÚme d'optimalité (KKT). Toutefois, ce calcul est beaucoup plus difficile que lorsqu'il n'y a que des contraintes d'égalité. La difficulté vient de la présence d'inégalités et, en particulier, des conditions de complémentarité. On y retrouvera la combinatoire des problÚmes d'optimisation avec contraintes d'inégalité, confirmant ainsi le principe de conservation des ennuis déjà évoqué.
En général, il faut utiliser des algorithmes spécifiques pour résoudre ce systÚme d'optimalité (c'est ce à quoi est consacré une grande partie de l'optimisation numérique). Dans certains cas, cependant, en particulier pour des problÚmes de petite taille ayant peu de contraintes d'inégalité ou des problÚmes trÚs structurés, on peut chercher les solutions de ce systÚme (KKT) analytiquement en considérant l'une aprÚs l'autre toutes les maniÚres de satisfaire les contraintes d'inégalité. Dans chaque cas considéré, on suppose qu'un certain nombre de contraintes d'inégalité sont actives et que les autres ne le sont pas. Soit , l'ensemble des indices des contraintes d'inégalité supposées actives en la solution : et (on a noté le complémentaire de dans ). Du fait de la complémentarité, et on est donc conduit à chercher les solutions du systÚme de équations à inconnues suivant
Si une solution de ce systĂšme vĂ©rifie et , le couple est une solution de (KKT). Sinon cette solution doit ĂȘtre Ă©cartĂ©e. En examinant ainsi tous les ensembles possibles, on peut trouver tous les points stationnaires du problĂšme.
La méthode présentée ci-dessus est fastidieuse et, répétons-le, n'est utilisée que dans de rares cas. On notera en effet qu'avec contraintes d'inégalité, il y a cas à examiner, et donc systÚmes non linéaires à résoudre, ce qui peut vite devenir fastidieux. C'est ici que l'on retrouve la combinatoire des problÚmes d'optimisation. Le but des algorithmes d'optimisation pour problÚmes avec contraintes d'inégalité est précisément de trouver des solutions du systÚme d'optimalité (KKT), en gérant de maniÚre efficace cette combinatoire, c'est-à -dire en évitant d'explorer toutes les possibilités. L'algorithme du simplexe en a été un des premiers exemples.
Comme pour les problÚmes d'optimisation avec contraintes d'égalité, tous les points stationnaires (les solutions de (KKT)) ne sont pas solutions de . Pour déterminer si un point stationnaire est solution de , on pourra utiliser les conditions d'optimalité du second ordre décrites ci-dessous, de la maniÚre suivante :
- si les CN2 ne sont pas vérifiées au point stationnaire, alors celui-ci n'est pas une solution locale de ;
- si les CS2 sont vérifiées au point stationnaire, alors celui-ci est un minimum local strict de .
Ces deux cas recouvrent un grand nombre de situations, mais pas toutes, car les CN2 et les CS2 ne sont pas identiques. Le cas est indéterminé lorsqu'un point stationnaire vérifie les CN2, mais pas les CS2. Alors les résultats donnés dans cet article ne sont pas suffisants et il faut recourir à des conditions d'optimalité d'ordre supérieur pour pouvoir dire si le point stationnaire est solution de .
Conditions du deuxiĂšme ordre pour (PEI)
Les conditions d'optimalitĂ© du second ordre en prĂ©sence de contraintes d'inĂ©galitĂ© ne s'obtiennent ni ne s'Ă©crivent aussi aisĂ©ment que lorsqu'il n'y a que des contraintes d'Ă©galitĂ©. D'abord, ce n'est pas le cĂŽne tangent qui intervient comme pour les problĂšmes avec contraintes d'Ă©galitĂ©, mais un cĂŽne plus petit que l'on appelle le cĂŽne critique. Par ailleurs, le multiplicateur optimal qui intervient dans la hessienne du lagrangien doit ĂȘtre dĂ©terminĂ© en fonction de la direction choisie dans le cĂŽne critique.
Le cĂŽne critique
Il est tentant d'essayer de généraliser les conditions nécessaires du second ordre du problÚme au problÚme , en cherchant à montrer qu'en une solution primale-duale , on doit avoir positif pour toute direction tangente . Comme précédemment, on a noté la hessienne du lagrangien en . Ce résultat n'est pas correct, car le cÎne tangent n'est pas celui qui convient, comme le montre le problÚme suivant
Ce problĂšme a pour unique solution primale-duale et le cĂŽne tangent en la solution s'Ă©crit si bien que l'on peut prendre comme direction tangente, mais n'est pas positif. On pourra voir que est positif, mais pour des directions dans un cĂŽne plus petit que le cĂŽne tangent.
Ă la recherche d'un cĂŽne plus petit, on peut observer que, comme toute solution du problĂšme minimise aussi sur
les conditions du second ordre des problĂšmes avec contraintes d'Ă©galitĂ© donnent que est positif pour toute direction et toute solution duale (celles-ci sont aussi solutions duales du problĂšme minimisant sur ). Il faut voir cependant que le cĂŽne est trop petit, dans le sens oĂč il ne permet pas d'Ă©tablir des conditions suffisantes d'optimalitĂ© du second ordre. ConsidĂ©rons en effet le problĂšme
Si , , si bien que et la hessienne du lagrangien est bien définie positive sur , mais n'est pas un minimum local du problÚme.
Le bon cĂŽne s'avĂ©rera ĂȘtre le cĂŽne linĂ©arisant de l'ensemble
sur lequel est également minimisée en une solution du problÚme . Ce cÎne est plus petit que le cÎne tangent à l'ensemble admissible en , mais suffisamment grand pour permettre d'avoir des conditions suffisantes d'optimalité du second ordre. On l'appelle le cÎne critique du problÚme.
CĂŽne critique â On appelle cĂŽne critique du problĂšme en un point admissible , l'ensemble notĂ© et dĂ©fini par
Une direction est appelée direction critique en . On utilise la notation simplifiée .
Dans le premier exemple ci-dessus, est plus petit que le cĂŽne tangent . Dans le second exemple ci-dessus, est plus grand que le cĂŽne tangent . Il est remarquable que l'optimalitĂ© au second ordre puisse ĂȘtre synthĂ©tisĂ©e au moyen de l'unique cĂŽne critique, alors que les deux problĂšmes prĂ©cĂ©dents recouvrent des situations trĂšs diffĂ©rentes.
En un point stationnaire , de multiplicateur , le cĂŽne critique en s'Ă©crit aussi
oĂč les ensembles d'indices et ont Ă©tĂ© introduits ci-dessus. Ces expressions s'obtiennent en utilisant les conditions d'optimalitĂ© de KKT. Observons enfin que si les conditions de complĂ©mentaritĂ© stricte sont satisfaites, le cĂŽne critique s'Ă©crit simplement
qui est donc le cĂŽne linĂ©arisant (un sous-espace vectoriel). En l'absence de complĂ©mentaritĂ© stricte, ce dernier sous-espace vectoriel est contenu dans , lui-mĂȘme contenu dans .
Trois exemples instructifs
Une autre difficulté dans l'établissement des conditions d'optimalité du second ordre du problÚme provient du fait que l'on doit prendre le multiplicateur optimal intervenant dans la hessienne du lagrangien en fonction de la direction critique choisie. Les trois exemples suivant devraient permettre de mieux comprendre pourquoi il en est ainsi et d'apprendre à sélectionner correctement les quantificateurs qui s'appliquent à et .
Considérons d'abord le problÚme à deux variables réelles
dont la solution est . Il y a un unique multiplicateur optimal associĂ© Ă la contrainte, valant . La contrainte Ă©tant active, est aussi la solution primale-duale du problĂšme avec contrainte d'Ă©galitĂ© , si bien que la hessienne du lagrangien doit ĂȘtre semi-dĂ©finie positive dans l'espace tangent Ă la contrainte (voir ci-dessus) : pour toute direction dans . C'est le cas le plus simple qui peut se prĂ©senter. On dira plus loin que l'on a des conditions d'optimalitĂ© du deuxiĂšme ordre fortes : quel que soit le multiplicateur optimal (il n'y en a qu'un seul ici), est semi-dĂ©fini positif dans le cĂŽne critique. Ces conditions sont vĂ©rifiĂ©es s'il y a un unique multiplicateur, comme ici, ou comme lorsque la condition de qualification (QC-A) ou (QC-IL) a lieu.
ConsidĂ©rons Ă prĂ©sent une variante du problĂšme prĂ©cĂ©dent oĂč l'on ajoute une contrainte superflue
La seconde contrainte ne modifie pas la solution primale qui est toujours , mais il y a maintenant plusieurs multiplicateurs optimaux formant l'ensemble . En prenant comme multiplicateur , un sommet de , on ignore la seconde contrainte (comme il se doit) et on a le résultat précédent sur la semi-définie positivité de dans . Par contre, avec , l'autre sommet de , la hessienne du lagrangien est définie négative dans . C'est normal ; le lagrangien ne voit que la seconde contrainte, ignorant la premiÚre, et n'est qu'un point stationnaire du problÚme , pas un minimum local. On dira plus loin que l'on a des conditions d'optimalité du deuxiÚme ordre semi-fortes : il existe un multiplicateur optimal tel que est semi-défini positif dans le cÎne critique.
Considérons enfin le problÚme à trois variables
On voit que, quel que soit non nul, un des membres de droite des contraintes est strictement positif. DÚs lors, l'unique solution de ce problÚme est . D'autre part, l'ensemble des multiplicateurs optimaux est le simplexe unité . Enfin, la hessienne du lagrangien s'écrit
Quelle que soit la valeur de , n'est pas semi-définie positive sur le cÎne critique, qui est ici le sous-espace (en effet, l'élément vaut et l'élément (2,2) vaut , si bien qu'il faudrait que soit supérieur à 3/4 et inférieur à 2/3). On dira plus loin que l'on a des conditions d'optimalité du deuxiÚme ordre faibles : pour toute direction critique , il existe un multiplicateur optimal (dépendant de ) tel que .
Conditions nécessaires du second ordre
Voici des conditions nécessaires d'optimalité du second ordre lorsque la qualification Mangasarian-Fromovitz (QC-MF) a lieu en la solution du problÚme.
CN2 pour avec la qualification (QC-MF) â Soit une solution locale du problĂšme . Supposons que et soient dans un voisinage de , que soit deux fois dĂ©rivable en et que soit continue en . Supposons Ă©galement que la qualification Mangasarian-Fromovitz (QC-MF) ait lieu en . Alors
Les conditions nécessaires d'optimalité du second ordre (CN2) énoncées dans ce résultat sont dites faibles, car le multiplicateur optimal est choisi en fonction de la direction critique. Dans certains problÚmes, on a la condition plus forte (mois souvent vérifiée) suivante
On dit alors que l'on a des conditions nécessaires d'optimalité du second ordre semi-fortes. Dans certains cas, l'on a des conditions encore plus fortes, à savoir
On dit alors que l'on a des conditions nécessaires d'optimalité du second ordre fortes. Comme l'affirme le résultat suivant, ce dernier cas est vérifié lorsque la qualification (QC-A) ou (QC-IL) a lieu.
CN2 pour avec la qualification (QC-A) ou (QC-IL) â Soit une solution locale du problĂšme . Supposons que et soient deux fois dĂ©rivables en et que soit continue en . Supposons Ă©galement que la qualification (QC-A) ou (QC-IL) ait lieu en . Alors
La vérification numérique des conditions nécessaires d'optimalité du second ordre n'est pas aisée. Déjà , lorsque les conditions semi-fortes ont lieu pour un multiplicateur optimal , il s'agit de vérifier que la forme quadratique associée à la hessienne du lagrangien est semi-définie positive sur le cÎne critique , qui est polyédrique, c'est-à -dire que est -copositive. En toute généralité, une telle vérification est un problÚme NP-ardu[18] - [19]. Maintenant, s'il y a aussi complémentarité stricte, le cÎne critique devient un sous-espace vectoriel et la vérification de la semi-définie positivité de sur ce sous-espace est alors une opération simple d'algÚbre linéaire.
Conditions suffisantes du second ordre
Les conditions suffisantes du second ordre (CS2) s'obtiennent comme pour les problÚmes plus simples en requérant que soit strictement positif pour un multiplicateur dépendant d'une direction critique choisie dans le cÎne critique. Le fait que le cÎne critique intervienne aussi dans ces conditions suffisantes d'optimalité est une garantie de sa pertinence.
CS2 pour â Supposons que et soient dĂ©rivables dans un voisinage d'un point et deux fois dĂ©rivables en . Supposons Ă©galement que l'ensemble des multiplicateurs tels que vĂ©rifie les conditions d'optimalitĂ© de KKT ne soit pas vide. Supposons enfin que
ou de maniĂšre Ă©quivalente ( est une norme arbitraire)
Alors, pour tout , il existe un voisinage de tel que pour tout , différent de :
En particulier, est un minimum local strict de .
L'inégalité obtenue en conclusion du résultat précédent est connue sous le nom de propriété de croissance quadratique. Elle montre que croßt au moins quadratiquement lorsqu'on se déplace de vers l'«intérieur» de l'ensemble admissible .
Inégalités de Hölder
Les inĂ©galitĂ©s de Hölder gĂ©nĂ©ralisent l'inĂ©galitĂ© de Cauchy-Schwarz, dans le sens oĂč elles donnent une majoration du produit scalaire euclidien de deux vecteurs et par leur norme et , plutĂŽt que par leur norme euclidienne. Dans cette majoration, les scalaires et doivent ĂȘtre pris dans et vĂ©rifier
Cette relation accepte les valeurs infinies, si bien que si, et seulement si, . Pour de tels et , l'inégalité de Hölder s'écrit :
Cette inĂ©galitĂ© se gĂ©nĂ©ralise aux espaces des suites de puissance sommables et aux espaces des fonctions de puissance intĂ©grables. Dans , elles peuvent ĂȘtre dĂ©montrĂ©es Ă partir d'une solution du problĂšme de minimisation d'une fonction linĂ©aire sur la boule unitĂ© fermĂ©e associĂ©e Ă la norme , Ă savoir , problĂšme qui s'Ă©crit
Par la compacité de (en dimension finie), ce problÚme a clairement une solution ; elle est unique si . On donne ici le calcul des solutions de ce problÚme par les conditions d'optimalité de Karush, Kuhn et Tucker et d'en déduire les inégalités de Hölder.
Cas oĂč p = â
C'est le cas le plus simple, qui peut se résoudre sans utiliser les conditions d'optimalité de KKT. En effet, le problÚme , qui s'écrit
se décompose en problÚmes indépendants, à savoir
dont les solutions sont triviales :
L'inégalité de Hölder correspondante s'obtient alors en observant que, quels que soient et , on a si l'on note le signe de :
si bien que . On met ensuite à l'échelle si ce vecteur n'est pas dans la boule unité , ce qui conduit à .
Cas oĂč 1 < p < â
Si , tout est solution et l'inégalité de Hölder est triviale.
Supposons à présent que . En écrivant la contrainte de maniÚre à la rendre différentiable et éviter le facteur aprÚs différentiation, le lagrangien du problÚme s'écrit
Comme la contrainte est qualifiée (par les conditions suffisantes de Slater par exemple) et le problÚme est convexe, en est solution si, et seulement si, il existe un multiplicateur optimal tel que les conditions de KKT suivantes soient vérifiées :
Comment rĂ©soudre ce systĂšme compliquĂ© ? Comme le suggĂšre la mĂ©thode gĂ©nĂ©rale prĂ©sentĂ©e ci-dessus, il est souvent judicieux de commencer par considĂ©rer les conditions de complĂ©mentaritĂ© (la 4e), qui ont ici une combinatoire particuliĂšrement rĂ©duite. Il y a seulement deux possibilitĂ©s (parce que le problĂšme n'a qu'une seule contrainte) : soit le multiplicateur est nul, soit la contrainte est active. Lorsque , la premiĂšre condition montre clairement que le multiplicateur ne peut ĂȘtre nul ; la contrainte est donc active, ce qui rĂ©sout du mĂȘme coup la seconde condition. Gardons en mĂ©moire que le multiplicateur optimal est positif (3e condition) en exploitant la premiĂšre condition. En prenant la norme de , on obtient la valeur du multiplicateur optimal
qui est donc strictement positif. En observant que et sont de signe contraire et en se rappelant que , la premiĂšre condition donne alors
oĂč on a notĂ© le signe de . En particulier, si .
L'inégalité de Hölder correspondante se déduit de ces résultats comme dans le cas . Quels que soient et , on a :
si bien que . On met ensuite à l'échelle si ce vecteur n'est pas dans la boule unité , ce qui conduit à .
Cas oĂč p = 1
Le cas oĂč Ă©tant trivial, on considĂšre ci-dessous que .
Il n'est pas nécessaire de résoudre si l'on ne cherche qu'à obtenir l'inégalité de Hölder correspondante puisque celle-ci est identique au cas déjà considéré. On cherche ici plutÎt comment résoudre en utilisant les conditions d'optimalité de KKT.
La premiÚre difficulté à surmonter est de récrire la contrainte de maniÚre différentiable (la norme ne l'est pas). On vérifiera sans peine que si, et seulement si, il existe un vecteur tel que et , si bien que le problÚme est «équivalent» au problÚme en suivant
Ayant un domaine admissible compact et non vide, ce problĂšme a aussi une solution ; de plus est solution de si, et seulement si, est solution de . Le lagrangien du problĂšme s'Ă©crit
Comme les contraintes de sont qualifiées (par affinité locale par exemple) et comme le problÚme est convexe, en est une solution si, et seulement si, il existe des multiplicateurs optimaux tels que les conditions de KKT suivantes soient vérifiées :
oĂč est un vecteur dont toutes les composantes valent 1. Voici un systĂšme avec une combinatoire importante : maniĂšres de rĂ©aliser les conditions de complĂ©mentaritĂ© (f). La mĂ©thode gĂ©nĂ©rale prĂ©sentĂ©e ci-dessus est ici de peu d'utilitĂ©, mais une astuce de calcul permet d'Ă©viter une application fastidieuse. On remarque d'abord que, par (a) et (b), l'on peut Ă©crire et en fonction de :
Par (e), on en déduit que . Mais si , et seraient strictement positifs et on déduirait de (f) que , en contradiction avec (c). DÚs lors
comme lorsque . On distingue ensuite les cas :
- si , alors , , puis par (e), donc ,
- si , alors , , donc par (f) et (d),
- si , alors , , donc par (f) et (d).
On déduit de ces observations que les solutions de vérifient
oĂč , est son complĂ©mentaire et dĂ©signe le produit de Hadamard. Inversement, on vĂ©rifie que si satisfait les conditions encadrĂ©es, si , si , si et si , alors satisfait les conditions d'optimalitĂ© (a)-(f), si bien qu'alors est une solution de .
L'inégalité de Hölder correspondante se déduit de ces résultats comme dans le cas . Quels que soient et , on a :
si bien que . On met ensuite à l'échelle si ce vecteur n'est pas dans la boule unité , ce qui conduit à .
ProblÚmes d'optimisation avec contraintes générales
Le problĂšme (PG)
Dans cette section, on considÚre le problÚme d'optimisation avec contraintes plus générales, que l'on écrit sous la forme suivante
Cette écriture exprime le fait que l'on cherche à minimiser un critÚre défini sur un espace euclidien dont l'argument , qui est le vecteur des variables à optimiser, l'inconnue de ce problÚme, est contraint de respecter des contraintes spécifiées par l'expression . Celle-ci signifie que l'image de par la fonction doit appartenir au convexe fermé non vide de l'espace euclidien . Le produit scalaire des espaces euclidiens et sont tous deux notés .
On désigne par
l'ensemble admissible du problĂšme .
Le problÚme est bien une généralisation du problÚme , puisqu'on retrouve ce dernier en prenant
Un des intĂ©rĂȘts de cette formulation gĂ©nĂ©rale est d'avoir tout son sens en dimension infinie, ce qui n'est pas le cas de . Il est en effet malaisĂ© de spĂ©cifier ce qu'est un ensemble infini de contraintes d'inĂ©galitĂ© Ă valeurs dans un espace de dimension infinie. On peut donc voir la gĂ©nĂ©ralisation proposĂ©e comme un premier pas dans l'Ă©tude des problĂšmes d'optimisation de dimension infinie. Les rĂ©sultats obtenus sont cependant aussi utiles pour rĂ©soudre certains problĂšmes de dimension finie Ă la structure diffĂ©rente de celle de . Un autre avantage de cette gĂ©nĂ©ralisation est de mieux faire ressortir la structure des objets manipulĂ©s, ainsi que celle des raisonnements employĂ©s.
On sait que la convexité joue un rÎle crucial en optimisation. On est donc conduit à définir ce qu'est un problÚme convexe.
ProblĂšme convexe â On dit que le problĂšme est convexe si la fonction est convexe et si la multifonction est convexe.
On a la propriété attendue suivante
Dans le cas du problÚme , et la convexité de revient à dire que est affine et a toutes ses composantes convexes.
Le cĂŽne tangent Ă XG
Des conditions d'optimalité du premier ordre pour peuvent s'obtenir comme pour les problÚmes précédents, par l'intermédiaire de la condition du premier ordre générique de Peano-Kantorovitch. Cette condition requiert le calcul du cÎne tangent à l'ensemble admissible . Comme précédemment, on cherche à exprimer ce cÎne tangent en «linéarisant» les objets et qui définissent l'ensemble admissible. Cette linéarisation se fait en pour , qui est définie sur , et en pour , qui est défini sur . Cette opération conduit au cÎne , plus grand que , que l'on appelle le cÎne linéarisant de .
Estimation du cĂŽne tangent â Si est dĂ©rivable en , alors
On n'a pas nĂ©cessairement l'Ă©galitĂ© entre les deux cĂŽnes, car est convexe (c'est l'image rĂ©ciproque par l'application linĂ©aire du cĂŽne tangent , qui est convexe par la convexitĂ© de ) alors que ne l'est pas nĂ©cessairement (on n'a pas imposĂ© Ă la fonction dĂ©finissant d'ĂȘtre affine et donc l'ensemble admissible n'est pas nĂ©cessairement convexe). C'est gĂȘnant, car c'est le cĂŽne tangent qui intervient dans la condition nĂ©cessaire d'optimalitĂ© gĂ©nĂ©rique de Peano-Kantorovitch alors que le cĂŽne linĂ©arisant a l'avantage d'avoir une expression analytique que l'on aimerait pouvoir exploiter. Comme pour le problĂšme , la notion de qualification des contraintes dĂ©finissant est liĂ©e au fait de pouvoir avoir l'Ă©galitĂ© entre les deux cĂŽnes, mais pas seulement. La technique de dĂ©monstration conduisant aux conditions d'optimalitĂ© du premier ordre de Karush, Kuhn et Tucker, technique qui sera aussi utilisĂ©e pour obtenir la condition du premier ordre ci-dessous, cherche Ă montrer que le gradient appartient Ă un cĂŽne que l'on peut expliciter. Deux ingrĂ©dients interviennent dans cette approche :
- l'égalité entre le cÎne tangent et le cÎne linéarisant, qui permet ainsi d'avoir une expression exploitable du premier,
- la polyédricité du cÎne linéarisant, qui permet d'éliminer la prise de l'adhérence aprÚs application du lemme de Farkas.
Ici n'est pas polyédrique, parce que l'on ne veut pas imposer cette propriété restrictive de polyédricité à . De maniÚre à sélectionner les problÚmes non convexes pour lesquels on peut utiliser l'approche proposée pour établir les conditions d'optimalité du premier ordre, on introduit une hypothÚse, dite de qualification, qui assure précisément l'égalité entre le cÎne tangent et le cÎne linéarisant (c'est la premiÚre condition ci-dessous), mais aussi le caractÚre fermé de l'image par du dual du cÎne linéarisant (c'est la seconde condition ci-dessous).
Qualification d'une contrainte gĂ©nĂ©rale â On dit que la fonction est qualifiĂ©e en pour reprĂ©senter si est dĂ©rivable en et si les deux conditions suivantes sont vĂ©rifiĂ©es :
oĂč l'opĂ©rateur linĂ©aire adjoint de la dĂ©rivĂ©e .
Vérifier que est qualifié pour représenter est une tùche difficile. Cela requiert le calcul du cÎne tangent, que l'on voudrait surtout éviter s'il n'est pas identique au cÎne linéarisant. La condition suffisante de qualification la plus utilisée, généralisant au problÚme la condition de Mangasarian-Fromovitz du problÚme , est celle de Robinson[20]. On y note l'intérieur d'un ensemble
Cette condition de Robinson est davantage examinée dans la section Condition suffisante de qualification de Robinson.
Conditions du premier ordre pour (PG)
Précisons quelques notations qui seront utilisées dans l'énoncé des conditions du premier ordre. Comme ci-dessus, est le gradient de en et est l'opérateur adjoint de la dérivée (c'est un opérateur linéaire) pour les produits scalaires donnés sur et ; si est un ensemble, est le cÎne dual négatif de ; enfin, la notation
signifie les trois conditions suivantes :
CN1 de â Soit un minimum local de . Supposons que et soient dĂ©rivables en et que soit qualifiĂ©es en pour reprĂ©senter . Alors,
- il existe tel que l'on ait
- si, de plus, est un cÎne convexe, alors les conditions d'optimalité ci-dessus s'écrivent
Un point tel que vérifie les conditions d'optimalité du premier ordre ci-dessus pour un certain est qualifié de stationnaire.
Dans la premiÚre condition d'optimalité , on reconnaßt le gradient du lagrangien du problÚme qui est la fonction définie en par
Dans le cas oĂč est un cĂŽne convexe, on reconnait dans la seconde condition d'optimalitĂ© , des conditions de complĂ©mentaritĂ© gĂ©nĂ©ralisĂ©es, dĂ©jĂ prĂ©sentent dans les conditions de KKT.
Lorsque le problÚme est convexe dans le sens précisé précédemment, les conditions nécessaires du premier ordre deviennent suffisantes, comme pour le problÚme .
DĂ©signons par
l'ensemble des multiplicateurs optimaux associés à un point stationnaire de et par son cÎne asymptotique.
PropriĂ©tĂ© de bornitude de Gauvin â Supposons que et soient dĂ©rivables en et que soit non vide. Alors
- ,
- est borné si, et seulement si, (QC-R) a lieu en
Annexes
Notes
- Georges Bouligand, Introduction à la Géométrie Infinitésimale Directe, Paris, Gauthier- Villars, .
- (it) G. Peano (1887). Applicazioni Geometriche del Calcolo Infinitesimale. Fratelli Bocca Editori, Torino.
- (it) G. Peano (1908). Formulario Mathematico, Editio V. Fratelli Bocca Editori, Torino.
- (en) L.V. Kantorovich (1940). On an efficient method for solving some classes of extremum problems. Doklady Akad. Nauk SSSR, 28, 212â215.
- (en) B.T. Polyak (2001). History of mathematical programming in the USSR: analyzing the phenomenon. Mathematical Programming, 91, 401â416.
- (en) S. Dolecki, G.H. Greco (2007). Towards historical roots of necessary conditions of optimality â Regula of Peano. Control and Cybernetics, 36, 491â518.
- J. Mawhin, Analyse â Fondements, Techniques, Ăvolution, De Boeck, 1992.
- Joseph-Louis Lagrange, « ManiÚre plus simple et plus générale de faire usage de la formule de l'équilibre donnée dans la section deuxiÚme », dans Mécanique analytique. Tome premier. pages = 77-112 (lire en ligne)
- (en) C.B. Boyer (1968). A History of Mathematics. Princeton University Press, Princeton, New Jersey.
- V. Alexeev, V. Tikhomirov, S. Fomine (1982). Commande Optimale. Mir, Moscou.
- (de) J. Farkas, Theorie der einfachen Ungleichungen, Journal fĂŒr die reine und angewandte Mathematik, 124 (1902) p. 1-27
- (en) H.W. Kuhn, A.W. Tucker (1951). Nonlinear programming. In J.Neyman, Ă©diteur, Proceedings of the second Berkeley Symposium on Mathematical Studies and Probability, pages 481â492. University of California Press, Berkeley, California.
- (en) W.E. Karush (1939). Minima of Functions of Several Variables with Inequalities as Side Conditions. Masterâs thesis, Department of Mathematics, University of Chicago, Chicago.
- (en) H.W. Kuhn (1976). Nonlinear programming: a historical view. In R.W. Cottle, C.E. Lemke, Ă©diteurs, Nonlinear Programming, SIAM-AMS Proceedings IX, pages 1â26. American Mathematical Society, Providence, RI.
- (en) F. John (1948). Extremum problems with inequalities as subsidiary conditions. In K.O. Friedrichs, O.E. Neugebauer, J.J. Stokes, Ă©diteurs, Studies and Essays, Courant Anniversary Volume, pages 186â204. Wiley Interscience, New York.
- (en) J. Kyparisis (1985). On uniqueness of Kuhn-Tucker multipliers in nonlinear programming. Mathematical Programming, 32, 242â246.
- (en) J. Gauvin (1977). A necessary and sufficient regularity condition to have bounded multipliers in nonconvex programming. Mathematical Programming, 12, 136â138.
- (en) K.G. Murty, S.N. Kabadi (1987). Some NP-complete problems in quadratic and nonlinear programming. Mathematical Programming, 39, 117â129.
- (en) P.J.C. Dickinson, L. Gijben (2011). On the computational complexity of membership problems for the completely positive cone and its dual. Rapport de recherche.
- (en) S.M. Robinson (1976). Stability theory for systems of inequalities, part II: differentiable nonlinear systems. SIAM Journal of Numerical Analysis, 13, 487-513.
Articles connexes
- CĂŽne tangent
- Coût marginal
- Multiplicateur de Lagrange : présentation moins abstraite et donc plus abordable de l'optimalité des problÚmes avec contraintes d'égalité, certains en dimension infinie.
- Optimisation quadratique successive
- Qualification de contraintes
Liens externes
- La mĂ©thode du Lagrangien (1999), Ăcole des Hautes Ătudes Commerciales, MontrĂ©al, QuĂ©bec.
- Extrema liés - Multiplicateurs de Lagrange sur BibM@th.
- J. Ch. Gilbert, ĂlĂ©ments d'Optimisation DiffĂ©rentiable â ThĂ©orie et Algorithmes, syllabus de cours Ă l'ENSTA ParisTech, Paris.
Bibliographie
- (en) J. F. Bonnans, A. Shapiro (2000). Perturbation Analysis of Optimization Problems. Springer Verlag, New York.
- J. Gauvin (1992). Théorie de la programmation mathématique non convexe. Les Publications CRM, Montréal.
- J.-B. Hiriart-Urruty (1996). LâOptimisation. Que sais-je, 3184. Presses Universitaires de France.
- (en) J.-B. Hiriart-Urruty, C. Lemaréchal (1993). Convex Analysis and Minimization Algorithms. Grundlehren der mathematischen Wissenschaften, 305-306. Springer-Verlag.
- (en) R. T. Rockafellar (1993). Lagrange multipliers and optimality. SIAM Review, 35, 183â238.