Contactez-nous

Construire un Data Lake

Qu’est-ce qu’un Data Lake ?

Un Data Lake est un environnement de stockage qui contient un vaste volume de données brutes dans leurs formats natifs. Souvent confondu avec le Data Warehouse, le Data Lake est plus flexible dans le format des données qui peuvent être stockées, et plus propice à l’analyse brute de données. 

Data WarehouseData Lake
TéléchargementSeulement de la donnée structuréeTout type de données
StockageTraditionnellement, le stockage est couplé avec le processing, rendant les technologies de Data Warehouse coûteuses. Mais des solutions récentes (notamment BigQuery / Snowflake) proposent des services de cloud DWH ou le stockage est découplé du processing. Bigquery par exemple facture au nombre de lignes parcourues par requête.Similairement aux Data Warehouses, les Data Lakes peuvent être analysées grâce à de nouvelles solutions qui découplent le stockage et qui facturent sur la base du nombre de requêtes. 
ModélisationLe modèle doit répondre à une série de questionsPas de questions initiales
Timing de l’analyseTravail rigoureux en amont d’intégration et de structuration de la donnée, mais l’analyse est rapide.L’analyse peut débuter directement, mais la donnée est brute et difficilement exploitable
RéactivitéTemps long pour mettre rendre la donnée accessible dû aux nombreuses étapes (extract, transformation, modeling)Mais temps court pour faire les analyses car la donnée est modelée pour répondre aux questionsRapidité pour rendre la donnée accessible au format brut. Potentiellement plus de temps pour l’analyse pour extraire des insights de la donnée brute.
UsageLes équipes techniquesLes équipes marketing et data science

Pourquoi mettre en place un Data Lake ?

L’utilisation d’un Data Lake va vous permettre d’avoir une vision centralisée de l’ensemble de vos données, tout comme les Data Warehouse, mais peut accueillir des données de tout format quels que soient les outils que vous utilisez. Vous pouvez ainsi regrouper dans un même espace de stockage vos données web, médias, CRM, transactionnelles, et plus encore.  

L’objectif derrière cette vision unifiée, est de pouvoir répondre avec efficacité et agilité aux enjeux business de votre entreprise. Une fois les données centralisées dans votre Data Lake, vos équipes marketing et data peuvent directement et facilement commencer à traiter les données brutes, les nettoyer, les réconcilier, et les transformer, à des visées d’analyses, de visualisations ou  d’activations marketing avancées. En effet, les environnements disponibles sur le marché permettent d’appliquer directement des requêtes SQL ou des modèles de Machine Learning sur les données stockées dans votre Data Lake grâce à des pipeline de données, toujours de façon rapide et optimisée.

Par ailleurs, tous les types de données peuvent être stockés dans votre Data Lake y compris les vidéos, les images, les fichiers binaires, etc. Vos données peuvent être ingérées dans le Data Lake par flux continu ou par batch, selon vos besoins business.

Quels outils utiliser pour mettre en place un Data Lake ?

Maxence, Senior Data Engineer chez Swile, vous présente quelques outils pour mettre en place un Data Lake.

1. Google BigQuery

BigQuery est un outil de stockage et de requêtage de données. Intégré dans Google Cloud Platform, BigQuery peut notamment être utilisé conjointement avec Cloud ML et TensorFlow, pour créer de puissants modèles d’IA. BigQuery permet d’exécuter des requêtes SQL sur des téraoctets de données en quelques secondes.

2. Amazon Redshift

Redshift est un outil directement intégré dans le cloud d’Amazon. Tout comme BigQuery, la plateforme permet de traiter de très large volume de données en quelques secondes.

3. Microsoft Azure SQL DWH

Azure SQL est une base de données relationnelle de Microsoft basée sur le cloud. Bien que moins intuitif que ses homologues Google et Amazon, cet outil sera adapté si les outils utilisés par votre entreprise sont déjà implantés dans l’environnement Microsoft.

Comment déployer un Data Lake ? 

Pour mettre en place un Data Lake, Maxence vous recommande de suivre les étapes suivantes :

  1. La première étape est de bien identifier les sources de données qui auront une valeur pour les parties prenantes. Il faut également identifier les outils utilisés par votre entreprise, les sources de données correspondantes, ainsi que les clés de jointure permettant la réconciliation des différentes sources.
  2. Ensuite, l’objectif est de découvrir les schémas et caractéristiques des données sources, et des tables de sortie qui seront issues du processing de données. C’est à cette étape qu’il est également important de spécifier les règles de traitement qui seront appliquées pour lors de la transformation des données à la fin du processus.
  3. Par la suite, les équipes techniques peuvent configurer l’architecture du Data Lake, créer les connecteurs permettant l’on-boarding des données sources et les pipelines de données contenant l’ensemble des traitements nécessaires à la création des tables de sortie. En général, cette étape se fait dans un environnement de test. 
  4. Enfin, si l’environnement de test est validé par une recette exhaustive et précise, le Data Lake et les traitements peuvent être mis en production. Il faut également prévoir à cette étape de mettre en place un système de monitoring, afin de s’assurer que le processing fonctionnera correctement dans le futur.

Il est tout de même important de noter que le processus de déploiement d’un Data Lake nécessite du temps, et un effort partagé de la part de plusieurs équipes de l’entreprise, en général les équipes CRM, digital, Marketing et Tech.

Maxence Haouari
Senior Data Engineer @Swile

Transformez vos équipes Data, Sales, Marketing, Product & Tech, avec les leaders du digital.

Cela peut vous intéresser...

Réussir sa migration Google Analytics 4 en 5 points

La migration de Google Analytics 3 vers Google Analytics 4 n'est pas à prendre à la légère. Si les différences entre les deux versions paraissent minimes, elles sont en réalité beaucoup plus structurelles. C'est toute l'analyse de la donnée qu'il faut adapter !

La data au service de la rétention client

Découvrez la rétention client ou comment conserver les clients préalablement convertis dans le cadre de votre stratégie d’acquisition. Apprenez à mettre en place un plan de tracking efficace et à comprendre la data pour retenir vos clients en leur présentant le meilleur produit possible et en articulant habilement du code.

Recherchez un cours

Pour aller plus loin...

Montez en compétences grâce à nos trainings personnalisés. Ils sont organisés 100% sur mesure par On train, en face-à-face avec nos trainers, et soutenus par notre plateforme unique de blended learning.

Training individuel

Les méthodes et l’expertise des leaders de l’environnement digital & tech. Pour vous, rien que pour vous.

Training en équipe

Transformez vos équipes grâce aux méthodes et à l’expertise des leaders de l’environnement digital & tech.

Conférences

Des conférences animées par les leaders de l’environnement digital & tech, pour inspirer vos talents et transformer vos stratégies.