Andy Barakat est ex Data Engineer chez Stuart, et Data Engineer chez Phenix. Phenix est une entreprise qui lutte contre le gaspillage alimentaire en revalorisant les déchets des supermarchés. L’entreprise a deux moyens d’action : le don aux associations et une application B2C pour le consommateur.
Andy s’attache ici à nous expliquer les clés pour la mise en place d’une architecture data robuste afin de permettre l’analyse de données visant à l’amélioration des prises de décision.
Comment mettre en place cette infrastructure concrètement ?
Andy commence par préciser que son rôle est transverse à tous les départements. Il faut analyser les besoins data de tous les départements que ce soit les équipes opérationnelles, RH, account management, sales ou produit et récupérer ces données pour les aider dans la prise de décisions à différentes échelles. Par exemple, on peut récupérer la donnée des clients et la communiquer pour qu’ils améliorent la gestion des invendus. Mais on peut également se focaliser sur des données en interne comme celles de son CRM pour améliorer l’efficacité des équipes.
Quels sont les profils qui interviennent tout au long de cette chaîne de valeur ?
- Le Data Engineer : il est responsable de la collecte, du nettoyage et de la mise à disposition des données pour des data analysts
- Le Data Analyst : il se charge de faire des analyses plus avancées sur de la prédiction des invendus alimentaires et permettre l’automatisation de tâches réalisées manuellement pour optimiser l’échelle des impacts
Quelles sont les technologies impliquées ?
Les technologies sont multiples sur le marché. Il est essentiel quand on arrive dans une entreprise d’analyser l’existant en regardant, par exemple, quel cloud provider a été mis en place : AWS d’Amazon, Google Cloud Platform, Microsoft Azure… Il existe également des outils d’externalisation des pipelines. On peut aussi développer ses propres outils grâce à des technologies comme Airflow qui permet d’orchestrer différentes tâches. Les langages de programmation sont le langage Python ou SQL.
Un exemple concret ?
A son arrivée, Andy disposait de différentes sources : les bases de données de Phenix et des sources externes (le CRM, Intercom pour le support, Google Analytics pour l’analyse Marketing etc.).
L’idée a été très vite de rassembler toutes ces données dans une base de données commune qui est Big Query. Andy a ensuite mis à disposition ces données dans un second outil qui s’appelle Looker qui permet de faire de la modélisation. Son rôle a été de s’assurer que la donnée transite bien entre les différents outils et qu’elle soit utilisable facilement par les équipes.
Une ressource ? Un conseil ?
Il faut se renseigner sur les technologies qui existent – il y en a une multitude aujourd’hui. Lorsqu’on choisit une solution, il faut toujours s’assurer de la possibilité de changer car les besoins de l’entreprise vont évoluer à mesure qu’elle grandit. Il faut donc que les solutions en place soient versatiles et interopérables.