ModĂšle uplift
Uplift (levier en français) désigne une génération de modÚles statistiques employés en marketing quantitatif pour détecter les populations des consommateurs sensibles à une offre commerciale. Pour les opérations de marketing ciblées, uplift aide à identifier les groupes de personnes étant susceptibles de répondre positivement à une sollicitation marketing. Par là , cette technique permet de réduire le nombre de messages commerciaux émis, et donc le coût de la publicité. Elle est à la fois une amélioration des techniques marketing classiques et un complément aux techniques du data mining : scoring de propension et scoring anti-attrition, régressions et arbres de décision.
Généralité
D'une maniÚre générale, le modÚle uplift est un moyen de prédire, avec un certain taux d'erreur, l'impact d'une action sur le comportement de quelqu'un[1]. Par exemple la méthode permet de connaitre la probabilité de changement de comportement d'achat d'un groupe de personnes aprÚs une campagne marketing direct[1]. C'est une technique d'exploration de données nouvellement appliquée dans les services financiers, les télécommunications et les industries du marketing direct de la vente au détail pour les activités d'up-sell, de vente additionnelle (cross-sell), de churn et de fidélisation.
Domaines d'application
Lorsqu'on veut comprendre quelles actions marketing de fidĂ©lisation de clients dĂ©jĂ acquis sont les plus efficaces et dans quelles circonstances, la traçabilitĂ© des opĂ©rations marketing est essentielle. Les systĂšmes d'abonnements, de cartes de fidĂ©litĂ©, de moyens de paiement, de codes coupons sont les instruments de traçabilitĂ© des clients et de mesure de lâefficacitĂ© des opĂ©rations de fidĂ©lisation.
Ces systĂšmes de traçabilitĂ© mesurent en particulier la proportion de consommation « naturelle » non sollicitĂ©e et/ou rĂ©sultant dâopĂ©rations commerciales antĂ©rieures.
Un modĂšle uplift est adaptĂ© pour l'optimisation des coĂ»ts et rendements des campagnes marketing de fidĂ©lisation de gamme de produits qui peuvent ĂȘtre consommĂ©s ou souscrits naturellement (sans sollicitation commerciale) et en prĂ©sence d'une traçabilitĂ© des comportements. Le modĂšle uplift maximise la consommation additionnelle gĂ©nĂ©rĂ©e par un traitement commercial par rapport Ă une consommation naturelle sans traitement. Par ailleurs, un modĂšle uplift donne ses meilleurs rĂ©sultats lorsque les canaux de contacts peuvent ĂȘtre intrusifs et entraĂźner un risque de mĂ©contentement des personnes contactĂ©es (effet boomerang nĂ©gatif) : contact commercial par un centre d'appel, SMS, newsletter et emailing commercial assimilables Ă du spam avec des vagues de dĂ©sinscriptions des clients.
L'uplift est employé principalement dans le domaine des télécommunications et média pour la vente croisée d'abonnements téléphonie/internet/télévision et les campagnes de lutte contre le churn, de la finance de détail pour les campagnes marketing de vente de produits bancaires ou d'assurances additionnels, les campagnes de prévention d'attrition visant à augmenter la durée de vie ou la valeur des clients, les campagnes de renouvellement de produits d'assurance ou de crédit et la grande distribution pour les campagnes promotionnelles et de fidélisation des détenteurs de cartes de fidélité.
Groupe de contrĂŽle et segmentation
Les responsables marketing des organisations gĂšrent un ou plusieurs Ă©chantillons (de taille limitĂ©e) de clients « groupe de contrĂŽle » qui ne sont pas inclus dans les opĂ©rations commerciales. LâĂ©chantillon de contrĂŽle fait partie des bonnes pratiques de mesure et ciblage marketing. Il permet de mesurer lâefficacitĂ© des actions de marketing relationnel, de dĂ©tecter leurs Ă©ventuels impacts nĂ©gatifs et dâamĂ©liorer le ciblage.
La prĂ©sence d'un Ă©chantillon de contrĂŽle ("placebo") de taille suffisante et alĂ©atoirement distribuĂ© autorise la mesure et le ciblage de lâuplift.
En croisant, les deux mesures de la consommation avec et sans traitement, on peut schĂ©matiquement identifier quatre catĂ©gories de clients. Tout d'abord, les personnes qui rĂ©agissent nĂ©gativement Ă un traitement marketing sont dĂ©nommĂ©es les rĂ©fractaires. Lâaction commerciale gĂ©nĂšre un effet boomerang nĂ©gatif sur ce segment, qui va Ă l'encontre de l'effet souhaitĂ©. Ces personnes n'achĂštent pas parce qu'elles ont Ă©tĂ© sollicitĂ©es pour un achat. Ensuite, nous pouvons dĂ©finir les causes acquises qui sont des groupes de personnes fidĂšles consommant indĂ©pendamment des circonstances et actions commerciales. Les causes perdues consomment peu, quels que soient les efforts commerciaux consentis. Enfin, les groupes influençables rĂ©pondent positivement Ă lâopĂ©ration commerciale[2].
Lâeffort marketing doit porter sur les seuls clients influençables[2]. Les efforts de fidĂ©lisation nâont pas dâimpact ou mĂȘme un impact parfois nĂ©gatif pour les trois autres catĂ©gories. LâopĂ©ration marketing qui privilĂ©gie le ciblage sur la valeur des clients trĂšs rĂ©ceptifs maximise son retour sur investissement.
Mesure de la performance
Par les deux modĂšles
Un premier modĂšle peut estimer la probabilitĂ© de consommer sur la base dâun historique de clients soumis Ă une action : PCT = Prob (Consommation | traitement). Un second modĂšle est bĂąti sur lâhistorique de clients qui nâont pas Ă©tĂ© soumis Ă une activitĂ© de fidĂ©lisation : PCN = Prob (Consommation | aucun traitement).
LâUplift est la diffĂ©rence entre ces deux probabilitĂ©s (Uplift = PCT-PCN). Il peut sâexprimer en diffĂ©rentiel de taux de visite, de taux de souscription, de taux dâachat, de taux de d'attrition ou encore de montant moyen consommĂ©. Si par exemple pour un groupe de clients ciblĂ©, la consommation moyenne post opĂ©ration vaut 220 ⏠quand ils sont traitĂ©s et 200 ⏠lorsquâils ne sont pas traitĂ©s, lâuplift vaut 20 âŹ.
Un score de ciblage de lâuplift est construit en exploitant les informations clients disponibles (notĂ©es X) en amont de lâopĂ©ration commerciale : Score U = Prob (Consommation |X ; traitement) - Prob (Consommer |X ; aucun traitement)[3]
L'approche de l'uplift par les deux modÚles fonctionne cependant assez mal dans la pratique. Deux raisons expliquent ces difficultés :
Tout d'abord, les amplitudes entre la consommation naturelle et lâuplift des consommations additionnelles gĂ©nĂ©rĂ©es par lâopĂ©ration commerciale ne sont en gĂ©nĂ©ral pas comparables. Nous pouvons par exemple observer un uplift de consommation additionnelle de 20 ⏠pour une consommation naturelle de 200âŹ. Dans cette hypothĂšse dâun uplift significatif mais marginal par rapport Ă la consommation naturelle, les modĂšles statistiques classiques dĂ©tectent bien des signaux principaux de variabilitĂ© de la consommation naturelle. Ils dĂ©tectent beaucoup moins bien ou pas du tout le signal cachĂ© de lâuplift (10 %). Lâapproche dâestimation de lâuplift par les deux modĂšles, lâun construit sur les populations traitĂ©es (gĂ©nĂ©rant 220 âŹ) et lâautre non traitĂ©es (gĂ©nĂ©rant 200âŹ), a donc tendance Ă Ă©craser lâanalyse spĂ©cifique de lâuplift en se concentrant sur la consommation naturelle.
Ensuite, lâobjectif de lâapproche par les deux modĂšles nâest pas directement corrĂ©lĂ© Ă lâuplift. Il nây a aucune raison de penser que les facteurs principaux de variabilitĂ© de lâUplift soient les mĂȘmes que ceux de la consommation naturelle. La sensibilitĂ© Ă lâaction marketing (=uplift) nâa pas de raison dâĂȘtre liĂ©e Ă la fidĂ©litĂ© des clients en particulier pour les canaux intrusifs (Emailing, SMS ...).
Par les forĂȘts d'arbres de dĂ©cision
La problĂ©matique de l'uplift en marketing est proche de celle de l'Ă©pidĂ©miologie. L'Ă©pidĂ©miologiste compare la frĂ©quence dâune maladie au sein d'un groupe de personnes exposĂ©es Ă un traitement mĂ©dicamenteux par rapport Ă celle dâun groupe de personnes non exposĂ©es ou exposĂ©es Ă un placebo.
Lo[4] - [5] propose de modéliser l'uplift pour des opérations de fidélisation sur cartes de fidélité en ajoutant un terme d'interaction à chacune des variables explicatives. Il ajuste une régression statistique à l'aide de ces interactions. Pour l'utilisation du modÚle et le calcul de la prédiction d'uplift, il soustrait les consommations calculées entre le modÚle avec variable de traitement égale à 1 et le modÚle avec variable de traitement égale à 0.
Une approche originale de segmentation de l'uplift à l'aide d'arbres de décision a été initiée par Surry et Radcliffe en 1999[6].
Lâuplift nâest pas mesurable pour un individu activĂ© lors de lâopĂ©ration commerciale. En revanche en prĂ©sence dâun groupe de contrĂŽle lâuplift est mesurable par groupe dâindividus. Surry et Radcliffe[7] proposent de comparer des sous-groupes dâindividus activĂ©s aux mĂȘmes sous groupes non activĂ©s de lâĂ©chantillon de contrĂŽle.
Ils adoptent une mĂ©thodologie de construction dâarbres binaires Ă l'aide de la sĂ©quence suivante :
- ModĂ©lisation automatique des variables explicatives de l'uplift par utilisation de la technique de « bining » : par dĂ©faut 10 groupes de taille Ă©quivalente en nombre dâindividus pour chaque variable explicative quantitative ;
- CrĂ©ation d'un tableau de contingence de lâensemble des combinaisons binaires des modalitĂ©s de lâensemble des variables explicatives croisĂ©es avec la variable dâintĂ©rĂȘt et le critĂšre dâappartenance au groupe de contrĂŽle ;
- Mesure de lâUplift sur chaque combinaison des explicatives regroupĂ©es binairement ;
- Identification des 2 sous-groupes de populations pour lesquels les Ă©carts dâuplift sont maximums. Le critĂšre de mesure de lâĂ©cart est paramĂ©trable ;
- DiffĂ©renciation des deux rĂ©sultats, ce qui nous donne une estimation de lâuplift par individu de chaque groupe ;
- Ălagage de l'arbre : calcul du modĂšle et simulation de l'uplift sur un nombre important d'Ă©chantillons de validation. Suppression des nĆuds et segments terminaux pour lesquels la variance de l'uplift est importante ;
- On recommence lâopĂ©ration pour dĂ©velopper lâarbre par itĂ©ration.
La technique est consolidĂ©e par la production de multiples variantes de cet arbre. Lâobjectif est de trouver un bon compromis entre performances dâidentification de lâuplift et reproductibilitĂ© (robustesse) des calculs. Plusieurs gammes de modĂšles sont construits sur la base de a1 tirages alĂ©atoires dâĂ©chantillons de validation/construction. Une seconde gamme de paramĂštres permet de faire des variantes de modĂ©lisation sur la taille des segments terminaux (feuille de lâarbre) (a2). La technique de bootstrap (bagging) est utilisĂ©e pour construire a3 arbres distinctes. Chacun de ces arbres est dĂ©fini Ă partir dâun sous Ă©chantillon bootstrap N/a3 (avec N = taille totale des Ă©chantillons traitĂ© et de contrĂŽle). Lâuplift dâune personne est la moyenne des uplift calculĂ©s sur ces a3 segments terminaux. Finalement une forĂȘt d'arbres de dĂ©cision comprenant a1*a2*a3 modĂšles diffĂ©rents est Ă©tablie et permet d'Ă©valuer a1*a2 variantes de modĂ©lisation. L'arbitrage entre les diffĂ©rents arbres est fait Ă l'aide du critĂšre du Qini[8], une transposition de l'indicateur de Gini adaptĂ© Ă la mĂ©thode uplift. On choisit lâarbre possĂ©dant le meilleur Qini.
Difficultés connues
Il semble que les modĂšles uplift doivent ĂȘtre rafraĂźchis plus souvent que les autres. Ils ont besoin de groupes de contrĂŽles de qualitĂ© et sont parfois difficiles Ă interprĂ©ter[1]
Références
- (en) Portrait Software, « Uplift modeling FAQs », (consulté le )
- (en) Portrait Software, « How Does Uplift Modeling Work? », (consulté le )
- [PDF](en) Nicolas Radcliffe, « Generating incremental sales », (consulté le )
- V. S. Y. Lo, 2002. The true lift model. ACM SIGKDD Explorations Newsletter, 4(2):78â86.
- V. S. Y. Lo., 2005. Marketing data mining â new opportunities. In J. Wang, editor, Encyclopedia of Data Warehousing and Mining. Idea Reference Group.
- Radcliffe N. J. & Surry, P. D. (1999). Differential response analysis: Modelling true response by isolating the effect of a single action. Proceedings of Credit Scoring and Credit Control VI. Credit Research Centre, University of Edinburgh Management School.
- [PDF](en) Nicholas J. Radcliffe, Patrick D. Surry, « Real-World Uplift Modelling with SigniïŹcance-Based Uplift Trees (Portrait Technical Report TR-2011-1) »,â (consultĂ© le )
- P. D. Surry and N. J. Radcliffe, 2011. Quality measures for uplift models. submitted to KDD2011.