Espérance de gain au poker
Cet article détaille les relations mathématiques entre niveau de mise et espérance de gain, dans le cas du poker.
Espérance mathématique
Loi des grands nombres
Le poker est un jeu où intervient le hasard, et où les gains financiers dépendent de l'habileté au jeu, de la capacité à lire la psychologie de l'adversaire, mais également des probabilités de rencontrer des situations favorables ou défavorables. Le joueur de poker doit prendre ses décisions sans avoir de certitudes, en fonction des seules probabilités : La probabilité p(A1) que la situation soit A1, p(A2) que la situation soit A2,... Et pour chacune de ces situations, le gain qu'il peut avoir sera variable: un gain g1 pour la situation A1, un gain (ou une perte négative) g2 pour la situation A2...
Si le joueur doit prendre une décision, cette décision influera sur ses gains futurs. Pour comparer l'effet de ces décisions, il faut généralement examiner l'espérance de gain associée à la situation, qui est mathématiquement définie comme la somme de tous les gains, pondérés par les probabilités des situations correspondantes :
L'espérance de gain est la moyenne des gains qui peuvent être espérés dans des situations comparables: si on fait la moyenne de ce qui sera gagné ou perdu sur toutes les situations comparables, on trouvera cette valeur comme limite.
Quand les conséquences de deux choix doivent être comparées, le premier élément de comparaison est de calculer l'espérance de gain résultant de l'un ou de l'autre choix. En effet, on peut mathématiquement démontrer le résultat suivant : "Un joueur qui choisira systématiquement l'option pour laquelle son espérance de gain est maximale gagnera nécessairement, au bout d'un temps infini, et à condition de disposer d'un capital infini." Les deux conditions du théorème (mathématiquement prouvé et indiscutable) ressemblent à une plaisanterie de mathématicien: personne ne dispose d'un capital infini et d'un temps infini pour jouer. Le résultat pratique de ce théorème, techniquement plus difficile à démontrer, est que :
Un joueur qui choisira systématiquement l'option pour laquelle son espérance de gain est maximale :
- sera gagnant en moyenne ;
- sera d'autant plus nettement gagnant qu'il jouera longtemps ;
- pourra jouer d'autant plus longtemps qu'il disposera d'un capital initial important.
La conséquence pratique de ces restrictions est que quand un joueur est trop serré financièrement parlant, l'espérance mathématique du coup n'est plus le seul élément à prendre en compte: il lui faut aussi (peut-être même surtout) prendre en compte la probabilité de rester dans le coup, et de ne pas être expulsé de la partie faute de fonds. Ceux qui ne disposent plus de temps ou d'argent doivent recourir à des manœuvres extrêmes qui n'entreront pas dans le cadre de la présente discussion. Cette restriction étant faite, on peut considérer que : le jeu optimum est généralement de jouer le coup pour lequel l'espérance de gain est maximale.
Jeu psychologique et jeu mathématique
On peut jouer au poker contre un ordinateur, qui à chaque moment prend la décision qui rend maximal son gain mathématique. L'ordinateur peut être parfaitement programmé pour jouer en fonction des informations factuelles du poker (mises, relances, nombres de cartes demandés,...), mais il n'intégrera pas les informations subjectives (hésitations - transpirations - regards en biais - tremblements dans la voix - ... ) qui lui permettraient de supposer que tel ou tel joueur est en train de bluffer, ou a au contraire une main gagnante, indépendamment de toute considération aux probabilités statistiques.
Contre un tel ordinateur, on peut imaginer un joueur. Face à l'ordinateur expert en poker, le joueur n'a pas à tenir compte de son comportement (nez qui gratte, regards fuyants,...) mais uniquement de sa stratégie de jeu. Les restrictions à la portée du théorème sont les mêmes que dans la section précédente (il faut avoir infiniment de temps et d'argent), mais le résultat important est :
Abstraction faite des facteurs psychologiques : Celui qui ne joue pas sur l'espérance de gain maximale perd en moyenne. D'un autre côté, le poker est un jeu "à somme nulle": si l'on fait abstraction de la somme prélevée par l'organisateur de la partie, (...), les gains et les pertes des joueurs d'une partie se compensent, et les joueurs ont tous les mêmes chances dans la partie. Pour cette raison, le jeu mathématiquement optimal est à gain nul: Si deux joueurs jouent uniquement en fonction de l'espérance de gain, et font abstraction de tout facteur psychologique, ils auront un gain nul en moyenne. La conclusion est que si on veut gagner au poker: Sur le plan mathématique:
- Il faut connaître la stratégie qui optimise l'espérance de gain;
- Il faut reconnaître chez son adversaire les erreurs qui n'optimisent pas l'espérance de gain, et les sanctionner.
Sur le plan psychologique:
- Il faut suggérer à l'adversaire de s'éloigner de l'optimum à tort;
- Il ne faut pas donner à l'adversaire des indications qui lui permettraient de s'éloigner de l'optimum à raison.
Ces alternatives conduisent à deux styles de jeu, psychologiques et mathématiques. Seule l'optimisation mathématique est abordée ici.
Mise et valeur de la main
Pour un joueur théorique parfaitement rationnel (sans bluff, mais très naïf), le niveau de mise ou de relance reflète directement la valeur du jeu détenu. En effet, le joueur estime à une certaine probabilité α le fait qu'il détient la main la plus forte de la table, compte tenu des enchères et des mises passées. Si le pot contient une somme P, il décide de parier une somme S sur le fait que sa main est la plus forte, suffisamment forte pour que tout le monde se « couche » après lui — ce qui lui permettra de remporter effectivement le pot.
La plus forte somme qu'il puisse rationnellement miser est celle qui en moyenne ne lui fait plus rien gagner, parce qu'en moyenne, le montant P qu'il gagnera avec une probabilité α vaut exactement le montant S qu'il aura perdu avec une probabilité (1-α) par une main trop faible. Dans ce cas :
- et donc ou inversement
Un joueur rationnel (sans bluff) ne dépassera donc jamais ce niveau de mise. Si le joueur mise plus, il court le risque qu'un adversaire ait un jeu de force suffisante pour jouer « pour voir » avec la même mise, ce qui le fera perdre plus que nécessaire. S'il est rationnel, mais très naïf, il peut jouer exactement ce niveau de mise. Dans ce cas, ses adversaires peuvent en déduire immédiatement la probabilité α à laquelle il estime sa main, et donc s'il faut ou non relancer. Au minimum, ce niveau est la force qu'il veut afficher pour son jeu.
Autrement dit :
Ce lien entre niveau d'enchère et probabilité de gain est la principale contrainte du jeu, pratiquement la seule. Si un joueur mise à un niveau trop élevé par rapport à la valeur de sa main, et que ses adversaires pensent avoir les moyens de jouer « pour voir », il perdra en moyenne.
Un joueur plus fort que ce niveau a intérêt à poser des mises inférieures à la valeur de son jeu, pour deux raisons. D'une part, il ne décourage pas ses adversaires de rentrer et relancer, ce qui augmente en moyenne la valeur du pot. D'autre part, quand il gagne le coup, il le fait alors à tarif réduit : la différence entre son enchère maximale et son enchère réelle représente en moyenne un gain financier qu'il doit maximiser, en misant le plus bas possible — mais sans se faire relancer.
Autrement dit :
Séquences simples d'enchères
Pour illustrer le mécanisme des enchères et les raisonnements mathématiques correspondants, on supposera ici que :
- huit joueurs jouent au poker avec 52 cartes, au pot. Le pot initial est à un montant P ;
- Alice ouvre, Bob suit, et les autres se taisent ;
- les ouvertures sont uniquement « au pot » ou « au demi-pot ».
Dans l'exemple retenu, Alice a une paire et échangera deux cartes, tandis que Bob a un tirage et échangera une seule carte. Cette hypothèse a l'avantage de simplifier très fortement les options de Alice et de Bob : Seule Alice peut avoir une double paire ou un brelan, et seul Bob peut avoir une quinte ou une couleur. De plus, à 52 cartes, une paire non améliorée coïncide avec l'ouverture au demi-pot, ce qui simplifie nettement l'interprétation de l'ouverture que fait Alice.
Paire contre tirage
Un des scénarios les plus élémentaires qui soient: Alice ouvre au pot, Bob suit. Alice échange deux cartes (paire), Bob une. Dans l'absolu, ayant échangé deux cartes, Alice peut avoir :
2 cartes | Rien | Paire | DP | Br | Q | C | F | K | QF |
---|---|---|---|---|---|---|---|---|---|
proba | 0,0 % | 67,7 % | 15,1 % | 15,4 % | 0,0 % | 0,0 % | 1,3 % | 0,5 % | 0,0 % |
cumul | 100,0 % | 32,3 % | 17,2 % | 1,8 % | 1,8 % | 1,8 % | 0,5 % | 0,0 % | 0,0 % |
À 52 cartes, Alice aura en fait sa paire initiale (75 %), une double paire (17 %) ou un brelan (7,8 %). Si Bob a tiré une seule carte, il peut avoir dans l'absolu :
1 cartes | Rien | Paire | DP | Br | Q | C | F | K | QF |
---|---|---|---|---|---|---|---|---|---|
proba | 32,9 % | 15,0 % | 37,4 % | 0,0 % | 3,9 % | 7,0 % | 3,5 % | 0,2 % | 0,0 % |
cumul | 67,1 % | 52,0 % | 14,6 % | 14,6 % | 10,8 % | 3,7 % | 0,3 % | 0,0 % | 0,0 % |
Si Alice n'a pas amélioré sa paire (trois fois sur quatre), ses chances de gagner sont supérieures à 33 % (puisque Bob n'a rien dans 32,9 % des cas), et inférieures à 48 % (puisque Bob a plus qu'une paire dans 52 % des cas). Alice ne peut donc raisonnablement ouvrir que d'un demi-pot. Bob sait alors que Alice a une simple paire, et ne l'a pas améliorée. S'il n'a rien ou une petite paire, il passe. S'il a lui-même une paire suffisante, il peut suivre pour voir (dans 3 à 4 % des cas), s'il a plus qu'une paire il lui suffit de suivre pour gagner.
La signification de cet échange est donc implicitement :
- (Alice) Ouverture au pot ( j'ai au moins une paire forte).
- (Bob) Suivi ( j'ai au moins ça).
- (Alice) Deux cartes ( c'est une paire ou un brelan).
- (Bob) Une carte ( c'est un tirage ou une double paire).
- (Alice) Ouverture au demi-pot ( ma paire ne s'est pas améliorée).
- (Bob) Suivi ( paire comparable, ou main gagnante sans plus) ou Passe (pas de paire présentable).
Paire améliorée contre tirage
Si Alice a amélioré sa paire (une fois sur quatre), elle peut ouvrir au pot (voir la discussion précédente). Dans ce cas, Bob peut exclure une paire dans la main Alice, et sait qu'il a en face de lui, dans les cas restants, la distribution suivante :
!2 cartes | Rien | Paire | DP | Br | Q | C | F | K | QF |
---|---|---|---|---|---|---|---|---|---|
proba | 0,0 % | 0,0 % | 46,7 % | 47,7 % | 0,0 % | 0,0 % | 4,1 % | 1,5 % | 0,0 % |
cumul | 100,0 % | 100,0 % | 53,3 % | 5,6 % | 5,6 % | 5,6 % | 1,5 % | 0,0 % | 0,0 % |
La double paire éventuelle est nécessairement forte, puisque la paire a justifié l'ouverture au pot. Pour suivre, il lui faut pouvoir gagner sur son gain à un contre deux (33 %). S'il n'a lui-même que rien ou une paire, il passe. S'il a une double paire, il passe également, sauf si sa plus forte paire est elle-même d'un niveau justifiant l'ouverture (dans ¼ des cas). Sinon, il peut suivre en ayant sa chance normale de gagner.
L'échange caractéristique signifie alors implicitement :
- (Alice) Ouverture au pot ( j'ai au moins une paire forte).
- (Bob) Suivi ( j'ai au moins ça).
- (Alice) Deux cartes ( c'est une paire ou un brelan).
- (Bob) Une carte ( c'est un tirage ou une double paire).
- (Alice) Ouverture au pot ( ma paire s'est améliorée).
- (Bob) Suivi ( double paire comparable, ou main gagnante sans plus) ou Passe ( moins qu'une double-paire forte).
Relances et Bluffs
Fondamentalement, un joueur relance quand il pense que sa main est meilleure que les autres, compte tenu de la ligne de jeu des adversaires. Une relance est a priori économiquement viable si la probabilité d'avoir effectivement le jeu le plus fort et de remporter le tapis justifie le niveau de relance fait.
Ceci étant, si les adversaires ne suivent pas, une relance n'est économiquement pas intéressante par rapport à un simple suivi. Pire, s'ils suivent avec un jeu meilleur, relancer est une perte d'argent.
En fait, la rationalité d'une relance s'analyse par rapport à la possibilité de bluff: pour qu'une relance soit payante, il faut mettre un peu de bluff dans son jeu. En résumé:
- L'intérêt d'une stratégie de bluff optimale est de valoriser statistiquement ses mains gagnantes, en obligeant l'adversaire à venir les voir plus souvent.
- Un niveau de relance typique est de deux fois la valeur du pot.
- Au point neutre, une relance à deux fois le pot correspond à un bluff une fois sur trois.
- Au point neutre, une relance à deux fois le pot doit être suivie une fois sur trois.
L'échange caractéristique avec une relance de Bob signifie alors implicitement :
- (Alice) Ouverture au pot ( j'ai au moins une paire forte).
- (Bob) Suivi ( j'ai au moins ça).
- (Alice) Deux cartes (c'est une paire ou un brelan).
- (Bob) Une carte (c'est un tirage ou une double paire).
- (Alice) Ouverture au pot ( ma paire s'est améliorée).
- (Bob) Je relance de deux fois le pot ( je prétends avoir touché mon tirage, mais bien sûr, je mens deux fois sur cinq... à toi de voir).
- (Alice) Suivi ( tu vas rire, mais j'avais touché mon full..) ou Suivi ( je ne suis pas avec une main gagnante, mais j'assure mes 33 % de "pour voir" pour sanctionner un bluffeur comme toi) ou Passe ( Tu as le droit de gagner ce type de relance dans 66 % des cas, j'espère que tu avais du jeu, tu n'auras même pas le plaisir de le montrer...).
Enchères limites au pot
Une enchère limite est celle qui en moyenne ne fait ni gagner ni perdre. Une main un peu plus forte justifie d'entrer, une main un peu plus faible justifie d'ouvrir à l'enchère inférieure (typiquement, au demi-pot).