Système de récompense

Le système de récompense / renforcement aussi appelé système hédonique, est un système fonctionnel fondamental des mammifères, situé dans le cerveau, le long du faisceau médian du télencéphale.

Exemples de récompenses primaires
Eau Sexualité	Aliments Soins parentaux

Ce système de « récompenses » est indispensable à la survie, car il fournit la motivation nécessaire à la réalisation d'actions ou de comportements adaptés, permettant de préserver l'individu et l'espèce (prise de risque nécessaire à la survie, recherche de nourriture, reproduction, évitement des dangers, etc.)[1].

Plus précisément, le système de renforcement est constitué de trois composantes :

affective, correspondant au plaisir provoqué par les « récompenses », ou au déplaisir provoqué par les « punitions » ;
motivationnelle, correspondant à la motivation à obtenir la « récompense » ou à éviter la « punition » ;
cognitive, correspondant aux apprentissages généralement réalisés par conditionnement[2].

Certains psychotropes, comme l'alcool ou les opioïdes, agissent directement sur ce système quand ils sont ingérés, inhalés ou injectés dans l'organisme. Le dysfonctionnement du système de renforcement[3] serait à l'origine de troubles du comportement (alimentaire[4], affectif[5], etc.), ou à la dépendance à des substances (psychotropes) et à des situations (jeux d'argent, sexe, pornographie, jeux vidéo, etc.)[6].

Des expériences ont montré son existence chez le poisson rouge, le marsouin, le pigeon, le rat, le chat, le singe et l'être humain, ce qui suggère qu'il existe chez la plupart des vertébrés, tels les poissons, les oiseaux et les mammifères[7].

Définitions

Utiliser la nourriture comme récompense est une technique habituelle pour dresser un animal.

Il existe plusieurs expressions pour désigner le phénomène de la « récompense » : « renforcement », « conditionnement opérant », « conditionnement instrumental », « loi de l'effet », « système de récompense », « récompense », ou « processus de renforcement ». Les définitions de ces termes sont données ci-dessous[7] :

Récompense. Le terme « récompense » désigne deux choses :

la situation d'apprentissage, où un comportement devient plus fréquent parce qu’il a entraîné un stimulus positif (par exemple, un chien saute plus souvent au-dessus d'une barrière si, à chaque fois, il reçoit une croquette) ;
le stimulus positif lui-même (la croquette).

Les mots « récompense » et « punition » sont souvent utilisés, car ils sont simples à comprendre. Mais comme ils ont un sens culturel et moral, on utilise également le terme « renforcement », qui a une signification plus neutre, mais aussi plus générale et plus technique.

Renforcement. Les « renforcements » concernent l'apprentissage de réactions motrices (conditionnement skinnérien, opérant ou instrumental) et l'apprentissage de réactions autonomes (salivation, vomissement, piloérection, etc. qui sont apprises par conditionnement pavlovien ou classique). Le terme « renforcement » désigne deux phénomènes :

l'augmentation du comportement ou de la réaction qui a été renforcée (la salivation du chien de Pavlov quand il entend sonner la cloche) ;
par extension, certains auteurs appellent également “renforcement” la procédure d'apprentissage qui permet l'apparition ou l'augmentation de la réaction (l'association entre la nourriture (stimulus inconditionnel) et le son de la cloche (stimulus conditionnel) ).

On distingue des renforcements positifs et des renforcements négatifs :

les renforcements positifs (ou appétitifs), provoquent la répétition de l'activité qui a déclenché ces renforcements appétitifs. Les renforcement positifs sont, en général, perçus consciemment comme des sensations de plaisir (récompense) ;
les renforcements négatifs (ou aversifs), provoquent la fuite ou l'évitement de l'activité qui a déclenché ces renforcements aversifs. Les renforcements négatifs sont, en général, perçus consciemment comme des sensations de déplaisir (punition).

Renforçateur. Un renforçateur est le stimulus (récompense ou punition) qui provoque le renforcement. Dans le conditionnement pavlovien (ou classique), le renforçateur est le stimulus inconditionnel (par exemple la nourriture). Dans le conditionnement skinnérien (ou opérant / instrumental), le renforçateur est un stimulus (par exemple une médaille) qui suit le comportement et produit une modification de celui-ci.

Processus de renforcement. L'expression “processus de renforcement” désigne les processus neurobiologiques à l'origine de l'apparition ou de l'augmentation de la réaction qui a été renforcée[8] (par exemple, les processus neurobiologiques qui provoquent l'association entre le son de la cloche et la salivation du chien de Pavlov).

Système de récompense. Le « système de récompense » correspond au regroupement fonctionnel de toutes les structures cérébrales qui participent aux renforcements (aire tegmentale ventrale, noyau accumbens, pallidum ventral, septum latéral, cortex préfrontal…).

Comme l'anglais est, dans les conférences scientifiques, encore plus souvent utilisée que le français, il est possible de rencontrer ces termes techniques en anglais dans des textes français. Voici la correspondance des principaux termes : récompense = reward ; punition = punishment ; renforcement = reinforcement ; renforçateur = reinforcer ; renforcement primaire / secondaire = primary / secondary reinforcement ; renforçateur positif / négatif = positive / negative reinforcer.

Niveau psychologique

Ivan Pavlov, pionnier des études sur les conditionnements et les renforcements.

Un des chiens de Pavlov, au Pavlov Museum.

Les recherches en neurosciences ont montré que les récompenses / renforcements correspondent à trois composantes psychologiques, les composantes affective, motivationnelle et cognitive[2] :

la composante affective correspond au plaisir ou au déplaisir provoqué par la « consommation » du renforçateur (par exemple, la consommation de la nourriture par le chien de Pavlov). Les principales « récompenses » sont les plaisirs gustatif, sexuel ou somatosensoriel, les principales « punitions » sont la douleur et la peur ;
la composante motivationnelle correspond à la motivation qui est déclenchée par le renforçateur (la vue et l'odeur de la nourriture pour le chien de Pavlov). C'est soit la perception du renforçateur (nourriture, boisson, partenaire sexuel…) par les organes sensoriels, soit la représentation mentale de ce renforçateur, qui déclenche la motivation ou le désir d'obtenir et de « consommer » la récompense (ou de fuir la punition) :
- si le renforçateur est inconditionnel (goût sucré, chaleur, phéromone sexuelle, caresse des zones érogènes …), il s'agit alors d'un stimulus qui active des circuits innés provoquant une motivation également innée,
- si le renforçateur est conditionnel (une médaille, un son, un objet, un lieu…), il s'agit dans ce cas d'un stimulus qui réactive l'expérience déjà vécue avec ce renforçateur, ce qui provoque une motivation acquise (ou désir) à « consommer » ou fuir le renforçateur,
La composante cognitive correspond aux apprentissages qui permettent l'association entre le renforçateur et la réaction émotionnelle ou comportementale (l'association entre la salivation du chien de Pavlov et le son de la cloche).

Ces trois composantes psychologiques sont distinguées les unes des autres, car elles dépendent de systèmes cérébraux relativement distincts[2].

La motivation et le plaisir (ou le déplaisir) ressenti pour un renforçateur sont modulés par l'état de l'organisme (faim, satiété, fatigue…) et par les préférences (ou les aversions) apprises. Par exemple la nourriture est plus appétissante au début d'un repas qu'à la fin (phénomène d'alliesthésie). La motivation pour la sexualité est faible quand l'organisme est fatigué. Un aliment préféré, dont la dégustation a été suivie d'une forte indigestion, peut ensuite provoquer du dégoût.

À noter par ailleurs que les renforcements ne sont pas toujours des phénomènes conscients. Des renforcements (récompenses ou punitions) peuvent modifier les états émotionnels et les comportements, sans que la personne en soit consciente[2].

Niveau neurobiologique

Organisation cérébrale

Au niveau neurobiologique, les recherches menées avant les années 2000 ont permis d'identifier un réseau de structures cérébrales qui sont à l'origine des renforcements :

pour les renforcements positifs (appétitifs / récompenses), les structures neurales sont situées en position latérale, le long du faisceau médian du télencéphale (voir figure ci-contre). Ces structures sont : l'aire tegmentale ventrale, le pallidum ventral, le noyau accumbens, l'hypothalamus latéral, le septum et le cortex préfrontal ;
pour les renforcements négatifs (aversifs / punitions), les structures sont situées en position médiane et sont périventriculaires : la substance grise périaqueducale et l'hypothalamus médian.

Situation et interconnexions des « hotspots » ou « points chauds » à l'origine des récompenses, chez le rat. Ces « hotspots » sont localisés dans le pallidum ventral, et dans les noyaux accumbens et parabrachial.

Depuis les années 2000, de nouvelles recherches ont permis d'identifier deux importantes caractéristiques de ces structures cérébrales des renforcements :

la composante affective des renforcements dépend d'un nombre limité de petites structures, appelées « hotspots » ou « points chauds », d'un volume d'environ 1 cm3, et localisées dans le noyau parabrachial, le noyau accumbens et le pallidum ventral[9] - [10]. Ces trois structures ou « hotspots » sont interconnectées entre elles et intégrées dans le système des « récompenses / renforcements »[8] (voir figure ci-dessous) ;
Le système des « renforcements / récompenses » est similaire chez tous les mammifères, tant au niveau structurel que fonctionnel. Les structures, les connexions entre les structures, les entrées sensorielles et les sorties motrices ont été conservées au cours de l'évolution[8] (voir figure ci-dessous).

Similitude du système cérébral des « renforcements / récompense » chez les différentes espèces de mammifères. La comparaison des structures neurales des renforcements entre le rat et le singe (monkey) met en évidence la conservation de l'organisation du système de récompense. Voir les explications dans le texte ci-dessous.
Légende : Amygdala = Amygdale (en orange) ; Ald = Insula agranulaire dorsale ; Alv = Insula agranulaire ventrale ; c = Central ; CD = Caudal ; LO = Orbital latéral ; m = Médial ; MD = Thalamus médiodorsal (en vert) ; Motor output = Sorties motrices ; Nac = Cœur du noyau accumbens ; OFC = Cortex frontal orbital (en violet) ; rABL = Amygdale basolatérale rostrale ; Sensory information = Entrée des informations sensorielles ; Striatum = Striatum (en rose) ; VO = Orbital ventral ; VP = Pallidum ventral.

En synthèse de toutes ces données, neurobiologiques et psychologiques, le système des « récompenses / renforcements » est organisé de la manière suivante[2] - [8] :

la composante motivationnelle : c'est la motivation pour obtenir une récompense (ou éviter une punition). Cette composante comprend deux niveaux :
- les processus motivationnels des renforcements, constitués principalement par le système dopaminergique de l'aire tegmentale ventrale. L'activité de ces processus n'est pas toujours consciente,
- le désir conscient d'obtenir des récompenses (ou d'éviter une punition),
la composante affective : c'est le plaisir provoqué par la récompense / renforcement appétitif (ou le déplaisir provoqué par la punition / renforcement aversif). Cette composante comprend également deux niveaux :
- le « cœur » ou le « noyau » fonctionnel des processus hédoniques des renforcements, constitué par le réseau des « points chauds » (ou « hotspots »). L'activité de ces processus n'est également pas toujours consciente,
- l'expérience consciente du plaisir de la récompense (ou déplaisant de la punition), qui serait en partie élaborée par les processus cognitifs responsables de la conscience,
La composante cognitive : ce sont, basées sur les expériences de renforcements (récompenses ou punitions) déjà vécues, les associations, les représentations et les prédictions concernant les renforcements. Avec également deux niveaux :
- les conditionnements associatifs, qui dépendent principalement de l'amygdale et du cortex préfrontal,
- les prédictions conscientes et explicites concernant les futurs renforcements appétitifs ou aversifs (récompenses ou punitions).

Neuromédiateurs

Les principaux neuromédiateurs impliqués dans les renforcements sont :

la dopamine, pour la composante motivationnelle, qui modifie le circuit de la récompense dopaminergique ;
les opioïdes endogènes et les cannabinoïdes endogènes, pour la composante affective.

La dopamine est le principal neuromédiateur de la composante motivationnelle des renforcements.
Les opioïdes endogènes (avec les cannabinoïdes endogènes) sont les principaux neuromédiateurs de la composante affective des renforcements.
Les cannabinoïdes endogènes (avec les opioïdes endogènes) sont les principaux neuromédiateurs de la composante affective des renforcements.

Rôle fonctionnel

Le système des récompenses / renforcements est actif dès la fin de la gestation. Il permet l'apprentissage de réactions émotionnelles, d'actions motrices et de comportements indispensables à la survie de l'individu et de l'espèce :

le maintien de l'homéostasie ;
des apprentissages permettant l'adaptation à l'environnement : mémorisation des emplacements de nourriture ou d'eau, conditionnements aux dangers …
l'apprentissage des comportements fondamentaux, comme le comportement alimentaire, l'allaitement[11] - [12] - [13] ou le rapport sexuel[14].

Histoire : découverte des récompenses / renforcements

L'étude des renforcements / récompenses a débuté dans les années 1950. Par la suite en 1954, Peter Milner et James Olds réalisent la découverte accidentelle que la stimulation électrique de certaines régions du cerveau provoquait la répétition de l'activité qui déclenchait cette stimulation électrique[15].

En variant l'implantation des électrodes, il est apparu que toutes les structures situées le long du faisceau médian du télencéphale provoquaient des autostimulations, dont la fréquence était de 10 à 100 par minute.

En conclusion de ces premières études, les structures provoquant l'autostimulation ont été considérées comme des « centres du plaisir » et ont été regroupées dans un « système de récompense ». La mise en jeu de ce système devait produire une « récompense » qui incitait l'individu à répéter l'action à l'origine de cette « récompense » cérébrale.

Notes et références

Bryan Kolb et Ian Q. Whisshaw, Cerveau et comportement, De Boeck Université, 2^e édition, 2008.
(en) Berridge KC, Robinson TE, Aldridge JW. « Dissecting components of reward: 'liking', 'wanting', and learning » Curr Opin Pharmacol. 2009;9(1):65-73.
(en) Salomon L, Lanteri C, Glowinski J, Tassin JP. « Behavioral sensitization to amphetamine results from an uncoupling between noradrenergic and serotonergic neurons » Proceedings of the National Academy of Sciences of the United States of America 2006;103(19):7476-81.
(en) Berridge KC. « 'Liking' and 'wanting' food rewards: brain substrates and roles in eating disorders » Physiology & Behavior 2009;97(5):537-50.
Michel Reynaud, L'amour est une drogue douce… en général, Robert Laffont, 2005
Marc Valeur et Jean-claude Matysiak, Sexe, passion et jeux vidéo ; les nouvelles formes d'addiction, Flammarion, 2003.
Le Ny Jean-François, in Bloch Henriette et al. (Dir.), Grand dictionnaire de la psychologie, Larousse 1994. (OCLC 31945728)
BERRIDGE KC, KRINGELBACH ML. Affective neuroscience of pleasure: reward in humans and animals, Psychopharmacology (Berl), 199(3):457-480, 2008.
PECINA S. , SMITH K. S. , BERRIDGE K. C. Hedonic hot spots in the brain, The Neuroscientist, 12(6):500-511, 2006.
PECINA S. , BERRIDGE K. C. Hedonic hot spot in nucleus accumbens shell: where do mu-opioids cause increased hedonic impact of sweetness? The Journal of Neuroscience, 25(50):11777-11786, 2005
(en) Ferris CF, Kulkarni P, Sullivan JM. Jr, Harder JA, Messenger TL, Febo M. « Pup suckling is more rewarding than cocaine: evidence from functional magnetic resonance imaging and three-dimensional computational analysis » The Journal of Neuroscience 2005;25(1):149-56.
(en) Stern JM, Dix L, Bellomo C, Thramann C. « Ventral trunk somatosensory determinants of nursing behavior in Norway rats: 2. Role of nipple and surrounding sensations » Psychobiology 1992;20(1):71-80.
(en) Stern JM, Johnson SK. « Ventral somatosensory determinants of nursing behavior in Norway rats. I. Effects of variations in the quality and quantity of pup stimuli », Physiology & Behavior 1990;47(5):993-1011.
(en) Janniko R. Georgiadis, Morten L. Kringelbach et James G. Pfaus, « Sex for fun: a synthesis of human and animal neurobiology », Nature Reviews Urology, vol. 9, n^o 9,‎ septembre 2012, p. 486–498 (ISSN 1759-4820, DOI 10.1038/nrurol.2012.151, lire en ligne, consulté le 16 novembre 2020)
(en) Olds J, Milner P. « Positive reinforcement produced by electrical stimulation of septal area and other areas of the brain » J Comp Physiol Psychol. 1954;47:419-427, 1954.

Voir aussi

Bibliographie

(en) Morten L. Kringelbach and Kent C. Berridge, Pleasures of the brain, Oxford University Press, 2009.
(en) Jaak Panksepp, Affective Neuroscience: The Foundations of Human and Animal Emotions, New York: Oxford University Press, 1998.
(en) Marc Breedlove, Mark Rosenzweig, Neil Watson, Biological Psychology, an introduction to behavioral, cognitive, and clinical neuroscience, 5^e édition, Sinauer Associates, 2007.

Liens externes

Le système de récompense sur le site Le cerveau à tous les niveaux

Cet article est issu de wikipedia. Text licence: CC BY-SA 4.0, Des conditions supplémentaires peuvent s’appliquer aux fichiers multimédias.