Data mining : 5 questions que vous vous posez sur les modèles prédictifs

Partager sur facebook
Partager sur twitter
Partager sur linkedin
Partager sur email

Dans le marketing digital comme dans de nombreuses autres industries, la modélisation prédictive est en train de transformer la façon dont les opérations sont menées. On entend souvent parler de « modèles », or ce vocable mérite d’être expliqué et clarifié.

Julien Budynek, Directeur Data Science chez NP6, livre des éléments de réponse à quelques questions que vous vous posez sur les modèles prédictifs.

Qu’est-ce qu’un modèle prédictif ?

Dans le contexte du marketing digital, un modèle peut être vu comme une fonction mathématique, à laquelle on donne en entrée un certain nombre de données qui caractérisent l’individu pour lequel on veut faire une prédiction, et qui en sortie propose un score pour cet individu, tout cela en réponse à une question de classification.

Exemple : on peut imaginer construire un modèle de cliqueurs qui réponde à la question « Quelle est la probabilité que cet internaute clique sur un lien de ma prochaine newsletter automobile ? » par une valeur comprise entre 0 (basse probabilité de cliquer) et 1 (probabilité maximum de cliquer), et ainsi identifier une « chance de cliquer ».

A quelles questions un modèle permet-il de répondre ?

Le premier point essentiel préalable à la conception d’un modèle est de déterminer la question à laquelle on souhaite répondre.

Au moment d’engager la conversation entre votre marque et vos clients (les individus qui sont en interaction avec votre marque), un modèle peut vous servir à anticiper un comportement futur sur l’un ou l’autre des canaux de communication online, voire offline.

Grâce au modèle prédictif, on peut par exemple se poser des questions très directes relatives au canal de communication email : qui sont les futurs ouvreurs et cliqueurs de mon message ? En ciblant ces deux populations lors d’une prochaine communication, on pourra s’assurer de maximiser les taux d’ouverture et de clic de ses campagnes.

Le modèle prédictif permet également de déterminer qui sont les futurs churners (individus sur le point de se désabonner). En excluant du ciblage les populations concernées, on pourra préserver la lifetime value des individus (valeur sur la durée totale de leur vie de client) et conserver un bon niveau de délivrabilité.

En ce qui concerne le display, le modèle prédictif permet de répondre à des questions de performance de campagne en permettant d’identifier les futurs cliqueurs sur sa publicité, les intentions futures d’achat ou de conversion, les futurs acheteurs online (sur son site web) ou offline (dans son point de vente), les produits qu’ils sont susceptibles d’acheter…

On peut se poser des questions relatives aux « moments de vie » : parmi les individus qui composent ma base, lesquels sont sur le point d’acheter ou de rénover leur logement ?

Pour résumer, on peut dire que le modèle prédictif apporte des réponses à des questions sur l’anticipation d’un comportement futur, ou la découverte d’une caractéristique jusqu’alors inconnue concernant un individu, par détection de profils jumeaux (ou « look-alike »).

Quelles données sont utilisées pour construire un modèle ?

C’est le deuxième point préalable à la conception d’un modèle : déterminer les sources de données que l’on peut utiliser pour répondre à la question identifiée.

Les données collectées sur chaque canal de communication peuvent être les suivantes :

  • email : ouvertures, clics, et plaintes sur les campagnes email passées
  • web ou display : navigation passée sur le site, affichage des bannières publicitaires (impressions) et clics sur ces bannières
  • offline : historique d’achat en magasin

Plus généralement, on peut utiliser les données CRM de la cible telles que les grandeurs sociodémographiques et les informations déclaratives. On peut également enrichir la connaissance des individus en base en utilisant des données Open Data telles que celles mises à disposition par l’INSEE, ou de la donnée tierce (« 3rd party data »).

Naturellement, plus on utilise de sources différentes de données, plus le modèle prédictif aura d’opportunités de détecter un signal intéressant pour répondre à la question. Ainsi une vraie approche multi-canal sera plus puissante qu’une approche limitée à un seul canal.

Comment est fabriqué un modèle ?

La fabrication d’un modèle prédictif porte le nom d’apprentissage. De multiples méthodes sont disponibles pour construire un modèle. Une approche bien connue et efficace dans le marketing digital porte le nom d’apprentissage supervisé. Il s’agit d’un certain type d’apprentissage automatique (en anglais « machine learning ») particulièrement adapté aux questions de classification, c’est-à-dire les questions auxquelles on cherche à répondre par oui ou non.

Un modèle d’apprentissage supervisé est entraîné par l’exemple : on lui montre successivement des exemples dits positifs (ceux qui ont la caractéristique désirée) et des exemples négatifs (ceux qui n’ont pas la caractéristique désirée). Ces exemples sont fournis avec une étiquette (« positif » ou « négatif ») et une collection de données les caractérisant. Ceci permet au modèle, pas à pas, d’affiner et de préciser son apprentissage.

Cette approche est intuitivement similaire à celle que l’on aurait pour apprendre à une personne à reconnaître un type d’objet. Par exemple, si l’on souhaitait apprendre à quelqu’un à reconnaître des pommes, on lui montrerait d’une part un certain nombre de pommes, de toutes tailles, formes, couleurs et variétés, en lui disant que ce sont des pommes (exemples  positifs), et d’autre part, toutes sortes de fruits qui ne sont pas des pommes, en lui disant que ce n’en sont pas (exemples négatifs). Petit à petit, la personne se construit un modèle mental d’une pomme.

Ainsi, un ordinateur utilisant un algorithme d’apprentissage supervisé est capable de suivre une approche similaire, et d’utiliser la population d’entraînement afin d’en extraire des caractéristiques générales relatives à la question de classification.

Par cette description, on peut comprendre que la question du volume de données disponibles est essentielle : un modèle ne pourra être performant qu’à la condition qu’on lui montre suffisamment d’exemples. Si les exemples négatifs sont aisés à trouver, les exemples positifs sont généralement moins nombreux, les taux de clic moyens par exemple étant rarement proches des 50% que l’on souhaiterait avoir pour une modélisation idéale.

Comment fonctionne un modèle ?

Une fois un modèle prédictif construit, on souhaite l’utiliser avec de nouvelles données et de nouveaux individus jusqu’alors inconnus. Étant donné un nouvel individu qui n’avait pas été utilisé pour entraîner le modèle, avec tout ou partie de ses données caractéristiques, un modèle pourra donner un score d’affinité avec la classe positive avec laquelle il a été entraîné. Cette approche revient à formuler une inférence sur la nature du nouvel individu.

Ainsi, pour reprendre l’exemple précédent, la personne ayant construit son modèle mental de pomme sera capable, lorsqu’on lui montrera un nouveau fruit inconnu, de dire si selon lui il s’agit d’une pomme ou non.

Exemple en marketing digital : un modèle prédictif de churn permettra, en utilisant le comportement sur des campagnes passées de tout individu présent dans une base email ainsi que toute autre donnée disponible sur cet individu, de donner un score entre 0 et 1 mesurant son risque d’effectuer prochainement un churn (désabonnement).

Ce scoring pourra être effectué rapidement, avec une faible latence, pour tout nouvel individu entrant dans la base (donc inconnu jusqu’ici, et notamment non utilisé pour l’apprentissage), et pour tout individu déjà connu et ayant effectué une action récente modifiant les données qui le concernent, comme une ouverture de newsletter (et donc se trouvant dans une nouvelle situation).

L’auteur : Julien Budynek est informaticien depuis la fin du vingtième siècle et a travaillé dans les domaines de l’intelligence artificielle, les predictive analytics et la data science au cours de sa vie professionnelle.

" Un moment de lecture à partager "
Partager sur facebook
Partager sur twitter
Partager sur linkedin
Partager sur email
GARDONS LE CONTACT

Inscrivez-vous à notre newsletter

LAISSEZ-VOUS TENTER...

Ces articles pourraient aussi vous intéresser

4 indices qui indiquent que vous n’utilisez pas efficacement votre solution de Marketing Automation B2C Marketing Automation

4 indices qui indiquent que vous n’utilisez pas efficacement votre solution de Marketing Automation B2C

Le terme marketing automation regroupe l’ensemble des outils et solutions qui permettent de coordonner des actions automatisées sur plusieurs canaux de communication afin d’être en …

+ lire la suite
Mutuelles : comment activer vos adhérents avec une stratégie omnicanale performante ? Customer Data Platform

Mutuelles : comment activer vos adhérents avec une stratégie omnicanale performante ?

En tant que mutuelle, vous êtes confrontée ces dernières années à un marché de problématiques diverses auxquelles vous devez rapidement trouver des solutions. En effet …

+ lire la suite
Comment optimiser le parcours client grâce à une stratégie omnicanale ? Customer Data Platform

Comment optimiser le parcours client grâce à une stratégie omnicanale ?

Proposer vos produits ou vos services sur différents canaux (site internet, email, téléphone, rendez-vous physiques) ne suffit plus pour convaincre vos prospects et vos leads …

+ lire la suite