Qu’est-ce que l’apprentissage supervisé ?
L’apprentissage supervisé s’oppose à l’apprentissage non supervisé. C’est une méthode de Machine learning qui consiste à prédire une variable d’intérêt en utilisant un échantillon de données. On distingue deux sous-catégories dans l’apprentissage supervisé :
Les problèmes de prédiction (ou régression) lorsque la variable d’intérêt à prédire est numérique.
Exemple : Quel sera le chiffre d’affaires de l’année prochaine ?
Les problèmes de classification lorsque la variable d’intérêt à prédire est catégorique.
Exemple : Cet email est-il un spam ou non ?
Cette technique consiste à utiliser une population d’échantillons large sur lequel un modèle de prédiction est créé et généralisé pour que la machine puisse s’adapter à l’arrivée de nouvelles données. Ainsi, l’algorithme a donc “appris” une fonction qui permet de prédire correctement une variable et n’a donc plus besoin de l’aide humaine pour continuer ses calculs.
Quelles sont les applications de l’apprentissage supervisé ?
Les prouesses technologiques ont fait exploser la performance du machine learning dans beaucoup de domaines, et son application est omniprésente au quotidien. Parmis ces applications, on retrouve notamment :
- La vision par ordinateur : les machine peuvent analyser, traiter et comprendre des images
- La reconnaissance des formes : les ordinateurs peuvent reconnaître des motifs informatiques a partir de données brutes
- La reconnaissance de l’écriture manuscrite : la machine permet la traduction de texte écrit à la main
- La reconnaissance vocale : la machine transcrit la voix humaine en un texte exploitable par la machine
Plus particulièrement en Marketing, l’apprentissage supervisé peut permettre de répondre à des enjeux business essentiels. Par exemple :
- Quelle est la probabilité d’achat d’un utilisateur ? Ceci est un problème de prédiction. Plus le prospect possède les caractéristiques idéales d’un client, alors son score se rapprochera de 1.
- Quel est le montant du panier le plus probable d’un utilisateur ? De même, les algorithmes peuvent calculer le montant moyen possible d’un utilisateur. Ainsi, le produit entre la probabilité d’un achat et le montant vous donnera un score d’espérance pour chaque prospect.
- Quels sont les utilisateurs les plus aptes à acheter un produit en particulier ? En apprenant des données historiques, l’algorithme peut les utilisateurs qui ont une forte probabilité d’être intéressés par une catégorie de produit, ou non. Un score 0 sera donné à l’utilisateur si l’algorithme prédit que l’utilisateur ne convertira pas, 1 si il prédit le contraire.
Quels sont les outils pour mettre en place un apprentissage supervisé ?
Les langages de code les plus utilisés possèdent pour la plupart des librairies pré-existantes permettant l’écriture d’algorithmes d’apprentissage supervisé. Par exemple, en Python, les librairies Scikit-learn, Pandas ou encore NLTK pour le traitement de texte sont très populaires dans le Machine Learning.
Elles permettent d’effectuer des régressions linéaires (Quel est la probabilité d’achat de cet utilisateur ?), des régressions logistiques (Ce client est-il à cibler ou non ?), ou encore des arbres de classification (segmentation des personas connus).