Lemme de Zorn

En mathématiques, le lemme de Zorn (ou théorème de Zorn, ou parfois lemme de Kuratowski-Zorn) est un théorème de la théorie des ensembles qui affirme que si un ensemble ordonné est tel que toute chaîne (sous-ensemble totalement ordonné) possède un majorant, alors il possède un élément maximal. Le lemme de Zorn est équivalent à l'axiome du choix en admettant les autres axiomes de la théorie des ensembles de Zermelo-Fraenkel.

Le lemme de Zorn permet d'utiliser l'axiome du choix sans recourir à la théorie des ordinaux (ou à celle des bons ordres via le théorème de Zermelo). En effet, sous les hypothèses du lemme de Zorn, on peut obtenir un élément maximal par une définition par récurrence transfinie, la fonction itérée étant obtenue par axiome du choix. Cependant, les constructions par récurrence transfinie sont parfois plus intuitives (quoique plus longues) et plus informatives.

Le lemme de Zorn a des applications aussi bien en topologie, comme le théorème de Tychonov, qu'en analyse fonctionnelle, comme le théorème de Hahn-Banach, ou en algèbre, comme le théorème de Krull ou l'existence d'une clôture algébrique.

Il doit son nom au mathématicien Max Zorn qui, dans un article de 1935[1], en donnait le premier un grand nombre d'applications, en redémontrant des résultats connus d'algèbre. Cependant Kazimierz Kuratowski en avait déjà publié une version en 1922, et plusieurs mathématiciens, à commencer par Felix Hausdorff en 1907, avaient introduit des principes de maximalité proches du lemme de Zorn.

Ensemble inductif

Un ensemble ordonné tel que toute chaîne (sous-ensemble totalement ordonné) possède un majorant est souvent appelé ensemble inductif (un ensemble inductif est donc nécessairement non vide, par existence d'un majorant de la chaîne vide). En utilisant cette terminologie, le lemme de Zorn s’énonce ainsi :

Lemme de Zorn — Tout ensemble inductif admet au moins un élément maximal.

L'ensemble des parties d'un ensemble E muni de l'inclusion est un exemple d'ensemble inductif : E est un majorant de toute chaîne (pour l'inclusion) de parties de E, qui ne présente cependant pas d'intérêt pour le lemme de Zorn, puisque E est également un élément maximal.

Par contre on obtient des applications utiles en choisissant un sous-ensemble adéquat de l'ensemble des parties de E (toujours muni de l'inclusion), qui doit alors être inductif, la réunion des éléments de la chaîne pouvant fournir un candidat pour le majorant.

Prenons le cas de l'ensemble I(E,F) des graphes d'injections partielles de E dans F, où E et F sont deux ensembles quelconques : ce sont les sous-ensembles G de E × F vérifiant :

Si (x,y) ∈ G et (x,y’) ∈ G, alors y = y’

Si (x,y) ∈ G et (x’,y) ∈ G, alors x = x’ .

L'ensemble I(E,F) muni de l'inclusion est un ensemble inductif. En effet, toute chaîne est majorée par la réunion de ses éléments, qui est bien le graphe d'une injection partielle car deux couples de la réunion sont nécessairement dans un même élément de la chaîne (puisque celle-ci est totalement ordonnée). On déduit du lemme de Zorn l'existence d'un élément maximal, dont il n'est pas difficile de vérifier qu'il est le graphe d'une injection de E dans F, ou d'une injection de F dans E (cas non exclusifs).

On a donc montré qu'étant donné deux ensembles quelconques, il existe une injection de l'un dans l'autre ou réciproquement : c'est le théorème de comparabilité cardinale[2].

Variantes

Il existe plusieurs variantes du lemme de Zorn, les unes portent sur les conditions que doit vérifier l'ensemble ordonné pour posséder un élément maximal : on peut les voir comme des variantes sur la définition d'ensemble inductif, qui n'est d'ailleurs pas entièrement fixée dans la littérature, même si, dans ce contexte[3] celle donnée ci-dessus reste la plus courante. D'autres variantes restreignent le lemme de Zorn à un ensemble de parties d'un ensemble muni de l'inclusion, restrictions qui s'avèrent en fait facilement équivalentes à l'énoncé initial[4].

Variations sur la définition d'ensemble inductif

En un sens précisé ci-dessous, un ensemble partiellement ordonné est dit inductif si toute partie « au moins totalement ordonnée » admet un « majorant ou mieux ». Les candidats usuels pour préciser « au moins totalement ordonnée » sont :

1) totalement ordonnée

2) bien ordonné

tandis que ceux pour « majorant ou mieux » sont :

3) majorant

4) borne supérieure

d'où quatre définitions voisines mais distinctes, la moins restrictive correspondant à (2,3) et la plus restrictive à (1,4). Comme l'acception la plus courante correspond au cas du couple (1,3), c'est la définition choisie dans la suite :

Un ensemble inductif est un ensemble partiellement ordonné où toute chaîne (partie totalement ordonnée) admet un majorant.

Pour beaucoup d'applications du lemme de Zorn la définition (1,4), qui est la plus restrictive, s'utilise naturellement, même si elle donne un énoncé en apparence plus faible. C'est le cas par exemple de l'application à la comparabilité cardinale du paragraphe précédent : la réunion des éléments de la chaîne n'est pas seulement un majorant mais une borne supérieure. La notion peut aussi être utile dans d'autres contextes[5]. Un ensemble tel que toute chaîne admet une borne supérieure (choix (1,4)), est d'ailleurs parfois appelé également ensemble inductif[6], mais aussi ensemble strictement inductif[7]. Un ensemble strictement inductif possède nécessairement un plus petit élément, la borne supérieure de la chaîne vide. Une variante est de supposer que l'ensemble est non vide mais que seules les chaînes non vides ont une borne supérieure, c'est-à-dire de ne pas supposer de plus petit élément (qui n'est pas utile pour le lemme)[8].

C'est bien sûr la définition la moins restrictive qui donne le meilleur énoncé du lemme de Zorn. Même si l'énoncé habituel correspond au choix du couple (1,3) dans la définition d'ensemble inductif, le couple (2,3) donne un énoncé (apparemment) plus fort, parfois bien utile.

Principes de maximalité pour l'inclusion

Le lemme de Zorn peut se particulariser pour la relation d'inclusion sur un ensemble d'ensembles. Un candidat naturel pour le majorant d'une chaîne pour l'inclusion est la réunion des éléments de cette chaîne ; il s'agit alors forcément de la borne supérieure de la chaîne. On obtient ainsi comme conséquence du lemme de Zorn l'énoncé suivant, qui lui est en fait équivalent[9] :

Lemme de Zorn pour l'inclusion[1]. — Si un ensemble ${\mathcal {A}}$ d'ensembles, ordonné par inclusion, est tel que la réunion de toute chaîne d'éléments de ${\mathcal {A}}$ est encore un élément de ${\mathcal {A}}$ , alors ${\mathcal {A}}$ possède un élément maximal pour l'inclusion.

Pour l'application à la comparabilité cardinale (voir ci-dessus), on était déjà dans ce cas particulier ( ${\mathcal {A}}$ est l'ensemble des graphes d'injections partielles de E dans F). C'est en fait un cas particulier de la version (1,4) du lemme de Zorn. On a un énoncé analogue en termes de chaînes bien ordonnées par l'inclusion (cas particulier de la version (2,4)).

Si (E, ≤) est un ensemble ordonné, l'ensemble ${\mathcal {A}}$ des chaînes de E (pour l'ordre de E) est lui-même un ensemble ordonné par inclusion. Si ${\mathcal {C}}$ est une chaîne de ${\mathcal {A}}$ pour l'inclusion, alors il est simple de montrer que la réunion des éléments de ${\mathcal {C}}$ , qui sont des chaînes de (E, ≤), est encore une chaîne de (E, ≤). On obtient ainsi une version du principe de maximalité de Hausdorff (ou théorème de maximalité de Hausdorff).

Principe de maximalité de Hausdorff. — Tout ensemble ordonné contient une chaîne maximale pour l'inclusion.

Si de plus l'ensemble ordonné est inductif (au sens initial (1,3)), la chaîne maximale en question possède un majorant (en fait : un plus grand élément) qui, par maximalité de la chaîne, est un élément maximal de l'ensemble lui-même. On déduit donc le lemme de Zorn (version (1,3) initiale) du principe de Hausdorff[10]. On a donc démontré l'équivalence des énoncés du lemme de Zorn versions (1,3) et (1,4), du lemme de Zorn pour l'inclusion et du principe de Hausdorff.

Chaînes bien ordonnées

On peut également déduire les versions du lemme de Zorn pour les chaînes bien ordonnées (versions (2,3) et (2,4)) du principe de maximalité de Hausdorff. Cependant, pour l'ordre de l'inclusion, une chaîne de chaînes bien ordonnées n'a pas nécessairement de borne supérieure. On les compare par segment initial : Étant donné un ensemble ordonné (E, ≤), on dit, pour deux chaînes bien ordonnées de (E, ≤) C₁ et C₂, que C₁ est un segment initial de C₂ quand :

C₁ ⊂ C₂ et ∀ x ∈ C₁ ∀ y ∈ C₂ (y ≤ x ⇒ y ∈ C₁).

On vérifie facilement que la relation « être un segment initial » est une relation d'ordre sur l'ensemble ${\mathcal {A}}$ des chaînes bien ordonnées de E et que, pour cet ordre, toute chaîne a un majorant et même une borne supérieure : sa réunion. L'ensemble ${\mathcal {A}}$ , muni de l'ordre par segment initial, est donc un ensemble inductif au sens habituel (et même au sens (1,4)).

On peut donc déduire du lemme de Zorn habituel (ou même de sa version (1,4)) que ${\mathcal {A}}$ possède un élément maximal C. Si l'on suppose maintenant que (E, ≤) est un ensemble inductif au sens (2,3) (le plus restreint), c'est-à-dire que tout chaîne bien ordonnée de (E, ≤) possède un majorant, on a alors un majorant m pour C. Ce majorant m est nécessairement un élément maximal de E, car, si ce n'était pas le cas, un élément strictement supérieur à m permettrait de prolonger C en une chaîne bien ordonnée, dont C serait alors un segment initial, ce qui contredirait sa maximalité.

On a donc démontré (indépendamment des résultats du paragraphe précédent) que le lemme de Zorn pour la définition d'ensemble inductif (1,4), le plus faible en apparence, a pour conséquence le lemme de Zorn pour la définition d'ensemble inductif (2,3), le plus fort en apparence. Les quatre énoncés sont donc bien équivalents.

Équivalence avec l'axiome du choix et le théorème de Zermelo

Les divers énoncés obtenus ci-dessus, équivalents entre eux, sont également équivalents à l'axiome du choix, en admettant un certain nombre d’axiomes de la théorie des ensembles, ceux de Zermelo par exemple. Il serait donc possible de considérer le lemme de Zorn comme un axiome[11], et l'« axiome du choix » comme un théorème qui serait sa conséquence. Le théorème de Zermelo ou principe du bon ordre, est également un équivalent de l'axiome du choix, qui a été utilisé pour démontrer les premières versions du lemme de Zorn (avant Zorn), et dont les démonstrations directes sont proches de celles de ce dernier.

Cependant, selon une boutade célèbre du mathématicien Jerry Bona (en), « L'axiome du choix est évidemment vrai, le principe du bon ordre est évidemment faux, et le lemme de Zorn personne n'en sait rien »[12]. Serge Lang ne trouve pas « psychologiquement très satisfaisant » de prendre pour axiome un énoncé tel que le lemme de Zorn[13]. Il s'avère que l'axiome du choix et le théorème de Zermelo sont des conséquences directes du lemme de Zorn, alors que la démonstration du lemme de Zorn ou du théorème de Zermelo par l'axiome du choix demande une construction un peu plus délicate. On peut énoncer d'ailleurs un théorème de point fixe qui ne dépend pas de l'axiome du choix, et qui, avec ce dernier, donne directement le lemme de Zorn.

Le lemme de Zorn a pour conséquence l'axiome du choix et le théorème de Zermelo

Un énoncé possible de l'axiome du choix est l'existence, pour tout ensemble X d'ensembles non vides, d'une fonction de choix sur X, c'est-à-dire une fonction définie sur X telle que pour tout x de X, f(x) ∈ x. Soit E dont les éléments sont des graphes de fonctions de choix sur une partie de X, c'est-à-dire, parmi les ensembles de couples (x, u) tels que x ∈ X et u ∈ x, ceux qui vérifient : si (x, u) et (x, v) appartiennent à l'ensemble alors u = v. Cet ensemble, muni de l'inclusion, est strictement inductif : la réunion d'une chaîne d'éléments de E est un élément de E (il reste un graphe fonctionnel, du fait que c'est une chaîne). Un élément maximal m de E est nécessairement le graphe d'une fonction définie sur tout X : si elle n'était pas définie en y élément de X donc non vide, on aurait v ∈ y, et m ∪ {(y,v)} contredirait la maximalité de m.
Pour le théorème de Zermelo, il faut montrer l'existence d'un bon ordre sur un ensemble X quelconque. On peut ordonner l'ensemble E des graphes de relation de bon ordre sur une partie de X par segment initial. L'ensemble E ainsi ordonné est inductif. Un élément maximal est forcément un bon ordre sur tout X, car il est toujours possible de prolonger un bon ordre sur Y en ajoutant un élément « au bout ».

Finalement, l'axiome du choix étant également une conséquence immédiate du théorème de Zermelo, il suffit de déduire le lemme de Zorn de l'axiome du choix, pour obtenir toutes les équivalences annoncées.

Démonstrations du lemme de Zorn

On trouve plusieurs démonstrations du lemme de Zorn, qui reposent en gros sur le principe suivant. On construit une chaîne à partir d'un élément quelconque, soit a. Si a = a₀ n'est pas maximal il possède un majorant strict a₁, et ainsi de suite. Le tout est d'arriver à itérer suffisamment le procédé, jusqu'à atteindre un élément maximal. Comme il faudra l'itérer en général une infinité de fois, l'axiome du choix est nécessaire pour choisir un majorant strict. En général une simple définition par récurrence sur les entiers ne suffit pas : il n'y a aucune raison que a_ω, majorant strict de la chaîne des a_n pour n entier, soit maximal. Pour ce cas particulier, un axiome du choix faible, l'axiome du choix dépendant, suffirait. La façon la plus directe de construire cette suite est d'utiliser une définition par récurrence transfinie sur les ordinaux. Cependant, l'intérêt du lemme de Zorn est justement de pouvoir se passer des ordinaux, ce qui est possible également pour sa démonstration, et se fait en construisant directement la suite que l'on obtiendrait par récurrence transfinie, soit par réunion d'« approximations » de celle-ci, soit comme intersection des relations ayant la propriété adéquate.

Démonstration par récurrence ordinale

Soient (E, ≤) un ensemble ordonné inductif et f une fonction de choix sur les parties non vides de E. On suppose de plus, pour aboutir à une contradiction, que (E, ≤) ne possède pas d'élément maximal. On en déduit que toute chaîne C possède non seulement au moins un majorant, mais au moins un majorant strict. Notons g(C) l'image par f de l'ensemble des majorants stricts de C et posons, pour toute partie D de E qui n'est pas une chaîne, g(D) = a, où a est un élément arbitraire fixé de E.

On définit une fonctionnelle h par récurrence sur les ordinaux par :

h(α) = g({h(β)| β < α}).

Par une récurrence sur les ordinaux immédiate, {h(β)| β < α} est une chaîne de E pour tout ordinal α et h(α) est donc un majorant strict de cette chaîne. On a ainsi construit une fonctionnelle strictement croissante de la classe des ordinaux dans l'ensemble ordonné (E, ≤), c'est-à-dire que l'on met en correspondance bijective la classe propre des ordinaux et un sous-ensemble de E : ceci contredit le schéma d'axiomes de remplacement[14].

Dans la démonstration précédente, la fonctionnelle h est construite comme une classe fonctionnelle. Il est possible de développer la même démonstration purement en termes d'ensemble. Il suffit de définir h, qui devient une fonction au sens usuel, par récurrence sur l'ordinal de Hartogs de E, qui est un ordinal qui ne s'injecte pas dans E. Ceci donne justement la contradiction. De plus, cette démonstration peut même alors se développer dans la théorie de Zermelo (sans remplacement). En effet, dans cette théorie, la construction de Hartogs produit un ensemble bien ordonné qui ne s'injecte pas dans X[15], et auquel on peut appliquer le théorème de définition par récurrence sur un bon ordre.

On remarque que les chaînes construites par récurrence transfinie sont bien ordonnées : cette démonstration fonctionne donc en supposant l'existence d'un majorant seulement pour les chaînes bien ordonnées (variante (2,3)). Comme par ailleurs la démonstration de l'axiome du choix n'utilise en fait que le lemme de Zorn pour l'inclusion (cas particulier de la variante (1,4)), on a ainsi une autre démonstration de l'équivalence des variantes du lemme de Zorn.

Les éléments de la suite ordinale h forment une chaîne bien ordonnée maximale de (E, ≤). On l'a construite dans le cadre d'un raisonnement par l'absurde ; sinon, la suite s'interrompt à un certain ordinal équipotent à E, ce qui fournit au passage une preuve directe (à partir de l'axiome du choix) du théorème de Zermelo[16] - [17] qui, à son tour, implique le lemme de Zorn[18].

On donne dans le paragraphe suivant une démonstration qui construit directement cette chaîne bien ordonnée et évite la définition par récurrence.

Démonstration par réunion de chaînes bien ordonnées

On se propose de démontrer la version du théorème de Zorn pour les chaînes bien ordonnées (version (2,3)). Cette courte démonstration est une adaptation de celle donnée en 1904 par Ernst Zermelo pour son théorème du bon ordre[19]. Soit (E, ≤) un ensemble ordonné. Soit g une fonction partielle définie sur les chaînes bien ordonnées de (E, ≤) à valeurs dans E, et qui est telle que, si g est définie pour la chaîne bien ordonnée C, g(C) est un majorant strict de C. Pour les besoins de la démonstration, on appelle g-chaîne une chaîne bien ordonnée C telle que, pour tout x de C :

x = g({y ∈ C | y < x}).

En particulier, l'ensemble vide est une g-chaîne, et si C est une g-chaîne telle que g(C) soit définie, alors C ∪ {g(C)} est encore une g-chaîne. On déduit le théorème de Zorn du lemme suivant :

Lemme 1. — Sous les conditions données ci-dessus, il existe une g-chaîne maximale, c'est-à-dire une g-chaîne C telle que g(C) n'est pas définie.

Preuve du lemme de Zorn à partir du lemme 1. Soit (E, ≤) un ensemble ordonné inductif au sens des chaînes bien ordonnées (1,3). Soit S(C) l'ensemble (éventuellement vide) des majorants stricts de la chaîne bien ordonnée C, et f une fonction de choix sur P(E)\{∅}. La fonction g est définie sur les chaînes bien ordonnées C qui possèdent au moins un majorant strict et vaut alors f(S(C)). Elle satisfait les hypothèses du lemme. Soit M une g-chaîne maximale, c'est-à-dire que g(M) n'est pas définie, ou de façon équivalente, M n'a pas de majorant strict. La chaîne bien ordonnée possède par ailleurs un majorant par hypothèse. Si celui-ci n'était pas un élément maximal, la chaîne M aurait des majorants stricts, et g(M) serait définie. Le lemme de Zorn est démontré.

Pour démontrer le lemme 1, on utilise le lemme suivant[20].

Lemme 2. — Sous les conditions données ci-dessus, étant données deux g-chaînes, l'une est segment initial de l'autre.

À noter que les deux cas ne sont pas exclusifs (quand les chaînes sont égales).

Preuve du lemme 2. Soient deux g-chaînes C et D. Soit Σ l'ensemble des segments initiaux à la fois de C et de D. Clairement ∅ ∈ Σ. La réunion des éléments de Σ est encore un segment initial de C ainsi que de D, soit I.

Si I = C ou I = D, on a la conclusion du lemme.
Sinon, I est un segment initial de C et de D différent de chacun d'entre eux, qui sont des chaînes bien ordonnées, donc I a un plus petit majorant strict dans C, soit m_C, et un plus petit majorant strict dans D, soit m_D. Comme de plus C et D sont des g-chaînes, m_C = m_D = g(I). Mais alors I ∪ {g(I)} est un segment initial à la fois de C et de D, ce qui contredit la définition de I. Ce cas est donc exclu et le lemme 2 est démontré.

Preuve du lemme 1. Soit M la réunion de toutes les g-chaînes de E. On déduit du lemme 2 que toute g-chaîne est un segment initial de M. L'ensemble M (éventuellement vide sans autre hypothèse sur g) est donc bien ordonné. De plus, si x ∈ M, alors il existe une g-chaîne C telle que x ∈ C, et comme C est un segment initial de M, on a aussi x = g({y ∈ M | y < x}), ce pour tout x de M, donc M est une g-chaîne. Par définition de M, cette g-chaîne est maximale.

Deux détails de la preuve du lemme 1

Toute g-chaîne C est segment initial de M.: Soient x ∈ C et y ∈ M tels que y ≤ x. Puisque y ∈ M, il existe une g-chaîne D telle que y ∈ D. D'après le lemme 2, C est un segment initial de D ou D ⊂ C. Dans les deux cas, y ∈ C.
M est bien ordonné.: D'après le lemme 2, l'ordre sur M est total. Soit dans M une partie N non vide, qui rencontre donc une g-chaîne C. Puisque C est bien ordonnée, C∩N a un plus petit élément n. Et puisque (d'après le point précédent) C est un segment initial de M, n est le plus petit élément de N.

Point fixe

Une fois la fonction de choix donnée, le reste de la démonstration, dans chacun des deux cas ci-dessus, se développe sans plus faire appel à l'axiome du choix. En adaptant légèrement l'une ou l'autre démonstration, on fait apparaître un théorème de point fixe indépendant de l'axiome du choix.

Théorème de point fixe des ensembles ordonnés. — Soit f une fonction d'un ensemble strictement inductif (E, ≤) dans lui-même expansive, c'est-à-dire vérifiant x ≤ f(x) pour tout x de E, alors f possède au moins un point fixe, c'est-à-dire un élément m de E vérifiant f(m) = m[21].

Ce théorème se démontre facilement par récurrence ordinale, de manière analogue à la démonstration du lemme de Zorn ci-dessus (mais sans utiliser l'axiome du choix)[22]. Il peut aussi se montrer plus directement en adaptant la démonstration par réunion de chaînes bien ordonnées du paragraphe précédent comme suit[23].

Appelons f-ensemble toute partie C de E bien ordonnée telle que pour tout x de C,

x = sup {f(y) | y ∈ C et y < x}

(en particulier, ∅ est un f-ensemble, et f est croissante sur tout f-ensemble).

On montre de la même façon qu'au paragraphe précédent pour les g-chaînes, que, étant donnés deux f-ensembles C et D, l'un est segment initial de l'autre. On en déduit pour les mêmes raisons, que la réunion M des f-ensembles est un f-ensemble. En particulier M est une chaîne bien ordonnée, et f est croissante sur M. L'image de M par f, {f(y) | y ∈ M} est alors une chaîne (bien ordonnée), donc possède une borne supérieure z. Alors M ∪ {z} est un f-ensemble donc z ∈ M, donc f(z) ≤ z donc f(z) = z.

Cette démonstration n'utilise l'existence de bornes supérieures que pour les chaînes bien ordonnées de E et donc le théorème de point fixe peut s'énoncer avec cette hypothèse seulement (plutôt que celle plus forte que E est strictement inductif)[24].

Le lemme de Zorn version (1,4) (ou même (2,4) avec la remarque précédente)[25] se déduit du théorème de point fixe, par exemple ainsi[26]. On suppose que (E, ≤) est un ensemble strictement inductif, c'est-à-dire que toute chaîne de E possède une borne supérieure. Si (E, ≤) ne possédait pas d'élément maximal alors tout élément possèderait un majorant strict et l'on pourrait, par l'axiome du choix, définir sur E une fonction f vérifiant x < f(x) pour tout x de E. Il suffit donc de montrer qu'une telle fonction ne peut exister, ce qui résulte immédiatement du théorème de point fixe.

Démonstration par intersection et propriété de clôture

Une autre démonstration du lemme de Zorn consiste en construire la chaîne bien ordonnée maximale souhaitée, comme intersection d'ensemble ayant de bonnes propriétés, à savoir stable par passage à la borne supérieure, et par une fonction « successeur » obtenue par axiome du choix. Cette démonstration ne nécessite pas de parler de bon ordre (même si la notion est sous-jacente), et convient directement pour le théorème de maximalité de Hausdorff[27]. Elle convient également pour la version « faible » du lemme de Zorn pour les ensembles strictement inductifs (version (1,4) ou (2,4)).

Plutôt que de démontrer directement le lemme de Zorn, il suffit de démontrer le théorème de point fixe de la section précédente[28], démonstration qui est esquissée ci-dessous.

On distingue e un élément de E (non vide). Pour les besoins de la preuve, on appelle ensemble admissible un sous-ensemble A de E contenant e, clos par application de f et par passage à la borne supérieure pour les chaînes de A, autrement dit :

e ∈ A
f(A) ⊂ A
Si C ⊂ A, et C totalement ordonné, la borne supérieure de C (qui existe dans E car celui-ci est strictement inductif) appartient à A.

L'ensemble E est admissible. On peut donc définir l'intersection M de tous les ensembles admissibles, qui est non vide (e ∈ M) et on montre facilement que c'est encore un ensemble admissible. Si l'on montre que M est totalement ordonné, il possède une borne supérieure, m. Comme M est admissible, m ∈ M et f(m) ∈ M. Donc f(m) = m.

Pour montrer que M est totalement ordonné, il suffit de montrer (sachant que x ≤ f(x) par hypothèse) le lemme suivant.

Lemme. — Pour tout x de M, pour tout y de M, y ≤ x ou f(x) ≤ y.

Pour ce lemme, on montre que M’ = {x ∈ M | ∀ y ∈ M (y ≤ x ou f(x) ≤ y)} est admissible, et l'on utilise le lemme suivant.

Lemme. — Pour tout x de M’, pour tout y de M, y ≤ x ou f(x) ≤ y.

Pour ce dernier lemme on montre que, si x ∈ M’, alors M_x = {y ∈ M | y ≤ x ou f(x) ≤ y} est admissible.

Propriété de caractère fini

Il existe d'autres variantes du lemme de Zorn[29], on trouve par exemple dans Bourbaki[30] un énoncé utilisant les propriétés de caractère fini, qui sont les propriétés qui sont satisfaites pour l'ensemble vide et par un ensemble non vide donné si et seulement si elles sont satisfaites pour tout sous-ensemble fini de celui-ci. Une relation d'ordre étant donnée sur un ensemble E, la propriété d'être totalement ordonné par cette relation est de caractère fini. Un énoncé du lemme de Zorn (qui généralise l'énoncé usuel) est que sur tout ensemble E, et pour toute propriété de caractère fini, il existe un sous-ensemble de E maximal pour l'inclusion qui a cette propriété.

Histoire

Des principes de maximalité plus ou moins proches du lemme de Zorn ont été découverts et redécouverts de nombreuses fois, sur une période qui va de 1907 à la fin des années 1930. Zorn lui-même ne revendiquait d'ailleurs pas la paternité du résultat[31]. En 1928, Salomon Bochner, dans un article sur les surfaces de Riemann, démontre un lemme dont l'énoncé est celui, usuel aujourd'hui (version (1,4)), du lemme de Zorn pour un ensemble ordonné[32]. Mais en 1922 Kuratowski démontrait déjà, à partir du principe du bon ordre, des « principes de minimalité » équivalents au cas (1,4) pour un ensemble d'ensembles (le lemme de Zorn pour l'inclusion) et même au cas (2,4)[33]. Felix Hausdorff donne l'énoncé de Kuratowski dans la seconde édition de 1927 de son livre de théorie des ensembles Grundzüge der Mengenlehre[34]. Dans un livre paru en 1932, Foundations of Point Set Theory[35], Robert Lee Moore déduit du principe du bon ordre — comme Kuratowski, qui figure d'ailleurs dans sa bibliographie — un « principe de minimalité » équivalent au lemme de Zorn pour l'inclusion[33].

Cependant, Zorn fut le premier à utiliser le lemme en algèbre pour les conséquences connues de l'axiome du choix, là où ses prédécesseurs utilisaient le théorème de Zermelo et la récurrence transfinie[36]. Zorn fut également le premier à annoncer l'équivalence d'un tel principe de maximalité avec l'axiome du choix[37]. Il présente son « principe du maximum »[38] alors qu'il est encore en Allemagne, à Hambourg en 1933, et intéresse Emil Artin et Claude Chevalley[39]. Il semble que c'est à partir de là que le lemme de Zorn circule sous ce nom, par l'intermédiaire d'Artin, de Chevalley et également de Solomon Lefschetz[40]. Les mathématiciens se rendent alors compte qu'il peut être largement utilisé, non seulement en algèbre mais aussi, par exemple, en topologie. On trouve, sous ces dénominations, le « théorème de Zorn » dans le fascicule de résultats de N. Bourbaki (groupe de mathématiciens dont Chevalley fait partie) paru en 1939, et le « lemme de Zorn » dans le livre de John Tukey Convergence and Uniformity in Topology paru en 1940[41].

Par ailleurs des principes de maximalité apparaissent avant Kuratowski. Hausdorff énonce un cas particulier de son théorème de maximalité en 1907, le généralise en 1909 (sous la forme : tout ensemble de parties contient une chaîne maximale pour l'inclusion, énoncé déjà équivalent au lemme de Zorn), et donne la forme donnée ci-dessus en 1914 dans la première édition de son livre Grundzüge der Mengenlehre[32]. On trouve également des cas particuliers du lemme de Zorn pour l'inclusion, avec des travaux en topologie autour de 1910 et 1911 de Zygmunt Janiszewski, Stefan Mazurkiewicz, Ludovic Zoretti et L. E. J. Brouwer[42].

Utilisations

Le lemme de Zorn a un large éventail d'applications, qu'il n'est pas possible de lister exhaustivement. Il s'avère que beaucoup d'applications de versions « fortes » de l'axiome du choix utilisent des résultats de maximalité, qui se démontrent alors avec le lemme de Zorn. Le lemme n'est en général pas invoqué pour des résultats obtenus par des versions dénombrables de l'axiome du choix, comme l'axiome du choix dépendant, qui permet de construire par récurrence une suite (indexée par les entiers) avec un choix à chaque étape de récurrence. Ainsi l'existence d'un idéal maximal dans un anneau quelconque utilise le lemme de Zorn, mais pour un anneau noethérien on peut préférer donner une démonstration qui n'utilise que l'axiome du choix dépendant.

À noter que, restreint au cas particulier des anneaux de Boole, le théorème de l'idéal maximal est plus faible que l'axiome du choix (alors que dans le cas général il est équivalent à l'axiome du choix et donc au lemme de Zorn). Il se démontre cependant naturellement par le lemme de Zorn, et lui-même possède de nombreuses applications, à commencer par le théorème de l'ultrafiltre qui lui est directement équivalent par dualité.

Quelques utilisations en algèbre

L'algèbre est historiquement le premier domaine des mathématiques, hors la théorie des ensembles, où l'axiome du choix a été largement utilisé, malgré les controverses suscitées lors de sa publication par Zermelo en 1904[43]. Beaucoup d'applications de l'axiome du choix en algèbre sont liées à des résultats de maximalité, ce que réalisa Zorn au milieu des années 1930. Les quelques applications à l'algèbre qui suivent sont déjà mentionnées par Zorn dans son article (à quelques variations près), et étaient démontrées avant Zorn par le théorème de Zermelo.

Le théorème de la base incomplète, en particulier l'existence de bases pour tout espace vectoriel, se démontre facilement par le lemme de Zorn. Une base est un système de vecteurs libre maximal, et il suffit donc de remarquer que la réunion d'une famille croissante pour l'inclusion de systèmes libres est encore un système libre pour pouvoir appliquer le lemme de Zorn. Une conséquence de ce théorème est que dans tout corps commutatif K extension de k, il existe une base d'éléments de K au-dessus de k[44]. Georg Hamel avait démontré ce théorème en 1905 dans le cas particulier du corps des réels comme extension du corps des rationnels (et donc comme espace vectoriel sur les rationnels), mais sa démonstration (par le théorème de Zermelo) est générale.
Le théorème de Krull (1929) est un autre exemple d'application très directe à l'algèbre que donne Zorn de son « principe du maximum ». Il s'agit de montrer que dans un anneau unitaire, tout idéal à gauche est inclus dans un idéal maximal (maximal au sens de l'inclusion parmi les idéaux à gauche différents de l'anneau tout entier), et il suffit de montrer qu'une réunion croissante d'idéaux est un idéal.
L'existence, dans toute extension transcendante K d'un corps k, d'une base de transcendance (système maximal d'éléments transcendants algébriquement indépendants) de K au-dessus de k est une autre conséquence de l'axiome du choix (due à Ernst Steinitz en 1910) qui se démontre simplement par le lemme de Zorn.
L'existence pour tout corps d'une clôture algébrique, et son unicité à isomorphisme près, résultats également dus à Steinitz en 1910, se démontrent aussi tous deux par le lemme de Zorn, comme celui-ci le montre dans son article[45].
L'existence pour tout corps ordonné k de la clôture réelle de k, c'est-à-dire d'un corps réel clos maximal, extension de k et sous-corps de la clôture algébrique de k (résultat dû à Emil Artin et Otto Schreier en 1927[46]) est encore une conséquence directe du lemme de Zorn.
Le théorème d'extension de Szpilrajn[47], selon lequel tout ordre partiel ≤ sur un ensemble E est prolongeable en un ordre total sur E, appelé une extension linéaire de ≤.

Topologie et analyse fonctionnelle

Théorème de Hahn-Banach
Théorème de Tychonov (équivalent à l'axiome du choix et donc au lemme de Zorn)

Théorie des ensembles

Quelques résultats de théorie des ensembles apparaissent naturellement comme des résultats de maximalité et se démontrent facilement par le lemme de Zorn. C'est le cas:

du théorème de Zermelo (tout ensemble peut être bien ordonné) ;
du théorème de comparabilité cardinale (étant donné deux ensembles A et B il existe une injection de A dans B ou une injection de B dans A) ;

tous deux sont équivalents à l'axiome du choix, et donc au lemme de Zorn.

Culture populaire

L'épisode Le Nouvel Ami de Bart de la série les Simpson fait référence au lemme de Zorn[48].

Notes et références

Zorn 1935.
Il ne peut se montrer sans l'axiome du choix puisqu'il lui est en fait équivalent (voir ordinal de Hartogs).
Le terme d'ensemble inductif peut être utilisé également dans des sens tout à fait différents dans d'autres contextes.
Ces variantes sont étudiées extensivement, avec quelques indications historiques quant à leur apparition, dans Rubin et Rubin 1985.
Où la terminologie peut être différente, voir l'article ordre partiel complet.
Par exemple Moschovakis 2006, p. 75, ou Kanamori 1997, p. 302.
(en) P. Todorovic, Sets Measures Integrals, Xlibris Corporation, mai 2012 (ISBN 978-1-4691-3781-0, lire en ligne), p. 67.
Par exemple Lang 2002, p. 880 utilise strictly inductively ordered set pour un ensemble tel que toute chaîne non vide possède une borne supérieure.
Équivalence simple à démontrer, voir la suite ; c'est cependant bien l'énoncé « plus général » de l'article que l'on a appelé très tôt lemme ou théorème de Zorn, voir Campbell 1978, p. 79.
Moschovakis 2006, Theorem 8.11.
Et c'était d'ailleurs l'intention de Zorn, selon Campbell 1978, p. 82.
The Axiom of Choice is obviously true; the Well Ordering Principle is obviously false; and who can tell about Zorn's Lemma?, relatée par Eric Schechter, Handbook of Analysis and its Foundations, et sur cette page
Zorn's lemma could be just taken as an axiom of set theory. However, it is not psychologically completely satisfactory as an axiom, because its statement is too involved, ..., Lang 2002, p. 881.
On trouve une démonstration de ce genre par exemple dans Rubin et Rubin 1985, § 4 p. 47, ou René Cori et Daniel Lascar, Logique mathématique II. Fonctions récursives, théorème de Gödel, théorie des ensembles, théorie des modèles [détail des éditions].
Moschovakis 2006, Theorem 7.35, utilise cet argument pour démontrer le théorème de point fixe ci-dessous.
(en) Katrin Tent et Martin Ziegler, A Course in Model Theory, CUP, 2012 (lire en ligne), p. 187-188.
(en) Keith Devlin, The Joy of Sets : Fundamentals of Contemporary Set Theory, Springer, 1994, 2^e éd. (1^re éd. 1979) (lire en ligne), p. 59.
Devlin 1994, p. 60.
Elle est due à (de) Hellmuth Kneser, « Eine direkte Ableitung des Zornschen Lemmas aus dem Auswahlaxiom », Math. Z., vol. 53,‎ 1950, p. 110-113 (lire en ligne), voir Zorn's Lemma, Daniel R. Grayson, 2007.
Réminiscent d'une propriété analogue fondamentale des ordinaux.
Ce théorème est attribué à Bourbaki par Lang 2002. On le trouve dans le fascicule de résultats de 1939, d'après Campbell 1978, p. 82. Mais Moschovakis 2006, p. 102 l'attribue à Zermelo, dans son article de 1904, tout en précisant que celui-ci ne l'a pas énoncé dans toute sa généralité, et que le résultat a été attribué ensuite à d'autres mathématiciens. Il est parfois appelé « théorème de Bourbaki-Kneser ». En effet, Kneser 1950 démontre la version (2,3) comme variation de définition d'ensemble inductif, et fait lui aussi référence à Zermelo (1904). Le « lemme fondamental » énoncé (sans preuve) par Bourbaki en 1939 prenait pour ensembles inductifs les ensembles partiellement ordonnés dont les chaînes possède une borne supérieure (version (1,4), puis dans les rééditions ultérieures simplement un majorant (version (1,3)) selon Kanamori 1997, p. 303, note 45.
Voir par exemple Lang 2002, p. 881 ou Moschovakis 2006, p. 102.
Kanamori 1997, p. 300 dans le cas particulier d'un ensemble strictement inductif (appelé inductif par Kanamori) de parties ordonné par inclusion. La démonstration est adaptée par Kanamori de Kuratowski 1922.
(de) Ernst Witt, « Beweisstudien zum Satz von M. Zorn », Mathematische Nachrichten, vol. 4,‎ 1951, p. 434-438 (DOI 10.1002/mana.3210040138), p. 435 et 437, repris par (en) Marcel Erné, « Algebraic ordered sets and their generalizations », dans Ivo G. Rosenberg, Gert Sabidussi (en), Algebras and Orders, Springer, 1993 (ISBN 978-0-79232143-9, lire en ligne), p. 119-120.
Ou encore (Moschovakis 2006, Theorem 8.11) le principe de maximalité.
Lang 2002, p. 884.
Voir par exemple Walter Rudin, Real and Complex Analysis, McGraw Hill, Appendix: Hausdorff maximality theorem.
Voir Lang 2002, que l'on va suivre, essentiellement, ou Nicolas Bourbaki, « Sur le théorème de Zorn », Archiv der Mathematik, vol. 2, n^o 6,‎ 1949/50, p. 434-437 (DOI 10.1007/BF02036949).
Rubin et Rubin 1985
Bourbaki 1970, voir aussi Rubin et Rubin 1985
Ainsi qu'il le déclare à Campbell 1978, p. 84, « I occasionnally accept the term “Zorn's lemma” […] but I always smile to supply the quote marks. »
Campbell 1978, p. 80.
Rubin et Rubin 1985, p. 32.
Campbell 1978, p. 78.
Voir p. 2 sur Google Livres, Theorem 3.
Moore 1982, p. 224.
Équivalence mentionnée dans Zorn 1935, et dont la démonstration est annoncée dans un article ultérieur qui ne paraîtra jamais. Zorn attribue à Emil Artin la remarque que son principe de maximalité et l'axiome du choix sont équivalents, d'après Campbell 1978, p. 83.
« Maximum principle » dans Zorn 1935.
Selon Zorn lui-même, Campbell 1978, p. 84.
Campbell 1978, p. 83 et 85.
Campbell 1978, p. 82.
Campbell 1978, p. 79-80.
Moore 1982, p. 227.
Zorn ne traite que ce cas particulier, mais la preuve est la même.
Pour l'existence, Zorn l'utilise par le biais du théorème de Krull, dans un anneau de polynômes à plusieurs indéterminées sur le corps des fractions rationnelles sur k, mais on trouve aussi des démonstrations utilisant directement le lemme de Zorn, en utilisant que la réunion d'un chaîne croissante d'extensions de corps est un corps, par exemple (en) Nathan Jacobson, Lectures In Abstract Algebra, vol. 3, Springer, 1975 (1^re éd. 1964).
Moore 1982, p. 228.
Edward Szpilrajn, « Sur l'extension de l'ordre partiel », Fund. Math., vol. 16, n^o 1,‎ 1930, p. 386-389 (lire en ligne).
(en) Simon Singh, « The Simpsons and their Mathematical Secrets ».

Bibliographie

N. Bourbaki, Éléments de mathématique, Théorie des ensembles, Hermann, 1970 (1^re éd. 1954), E.III.20, E.III.21 et fascicule de résultats E.R.29 — une première édition du fascicule de résultats est parue en 1939, avec un énoncé du lemme de Zorn sans démonstration.
(en) Paul J. Campbell, « The Origin of “Zorn's Lemma” », Historia Mathematica, vol. 5, n^o 1,‎ février 1978, p. 77-89 (DOI 10.1016/0315-0860(78)90136-2).
(en) Akihiro Kanamori, « The Mathematical Import of Zermelo's Well-Ordering Theorem », Bull. Symbolic Logic, vol. 3, n^o 3,‎ 1997, p. 281-311 (DOI 10.2307/421146, lire en ligne).
Casimir Kuratowski, « Une méthode d'élimination des nombres transfinis des raisonnements mathématiques », Fundamenta Mathematicae, vol. 3,‎ 1922 (lire en ligne).
(en) Serge Lang, Algebra, New York/Berlin/Heidelberg etc., Springer, 2002, 3^e éd., 914 p. [détail des éditions] (ISBN 0-387-95385-X, lire en ligne), appendix 2.
(en) Gregory H. Moore, Zermelo's Axiom of Choice Its Origins, Development, and Influence, Springer, coll. « Studies in the History of Mathematics and Physical Sciences » (n^o 8), 1982 (ISBN 978-0-387-90670-6) — l'histoire du lemme de Zorn et des principes de maximalité est étudiée en section 4.4.
(en) Yiannis N. Moschovakis, Notes on Set Theory, Springer, 2006, 2^e éd. (1^re éd. 1993), 278 p. (ISBN 978-0-387-28723-2, lire en ligne) — une démonstration du lemme de Zorn dans le cadre de la théorie de Zermelo, qui utilise la récurrence transfinie et le théorème de Hartogs.
(en) Herman Rubin et Jean E. Rubin, Equivalents of the Axiom of Choice, II, Amsterdam, North-Holland, 1985 (ISBN 978-0-444-87708-6, lire en ligne), « Part I §4 : Maximal principles » — version enrichie du livre des mêmes auteurs de 1963 Equivalents of the Axiom of Choice.
(en) Max Zorn, « A remark on method in transfinite algebra », Bull. Amer. Math. Soc., vol. 41,‎ 1935, p. 667-670 (lire en ligne).

Cet article est issu de wikipedia. Text licence: CC BY-SA 4.0, Des conditions supplémentaires peuvent s’appliquer aux fichiers multimédias.