Qu’est-ce qu’un Data warehouse ?
Un Data warehouse, ou entrepôt de données, est un environnement de stockage central de données structurées, provenant d’une ou plusieurs sources distinctes. Les Data warehouses permettent de stocker des données actuelles et historiques, qui sont ensuite utilisées pour créer des rapports analytiques destinés aux différentes équipes de l’entreprise.
Comment fonctionne un Data warehouse ?
La construction du Data Warehouse repose sur le processus Extraire, Transformer, Load (ETL).
Le processus ETL, est un enchaînement de tâches informatiques permettant de récupérer (extract) des données brutes de plusieurs data sources, avant de pouvoir les modifier (transform) selon des règles business bien définies et les stocker (load) dans une base de données dans un format directement exploitable par les différentes équipes de l’entreprise.
Ainsi, grâce à ce processus, le data warehouse reçoit des données structurées, qu’il stocke et qu’il met à disposition pour que les analystes les utilisent.
Data Warehouse ou Data Lake ?
Le Data Warehouse diffère du Data Lake sur plusieurs points. Ainsi, le choix d’opter plutôt pour l’un que l’autre dépend des données que vous souhaitez stocker, mais surtout des besoins métier liés à ces données.
Data Warehouse | Data Lake | |
Téléchargement | Seulement de la donnée structurée | Tout type de données |
Stockage | Traditionnellement, le stockage est couplé avec le processing, rendant les technologies de Data Warehouse coûteuses. Mais des solutions récentes (notamment BigQuery / Snowflake) proposent des services de cloud DWH ou le stockage est découplé du processing. Bigquery par exemple facture au nombre de lignes parcourues par requête. | Similairement aux Data Warehouses, les Data Lakes peuvent être analysées grâce à de nouvelles solutions qui découplent le stockage et qui facturent sur la base du nombre de requêtes. |
Modélisation | Le modèle doit répondre à une série de questions | Pas de questions initiales |
Timing de l’analyse | Travail rigoureux en amont d’intégration et de structuration de la donnée, mais l’analyse est rapide. | L’analyse peut débuter directement, mais la donnée est brute et difficilement exploitable |
Réactivité | Temps long pour mettre rendre la donnée accessible dû aux nombreuses étapes (extract, transformation, modeling)Mais temps court pour faire les analyses car la donnée est modelée pour répondre aux questions | Rapidité pour rendre la donnée accessible au format brut.Potentiellement plus de temps pour l’analyse pour extraire des insights de la donnée brute. |
Usage | Les équipes techniques | Les équipes marketing et data science |
Quels outils utiliser pour construire un Data Warehouse ?
Il existe plusieurs outils pour mettre en place un entrepôt de données. Voici les plus populaires :
1. Oracle
Oracle est essentiellement le nom de référence en matière de bases de données relationnelles et d’entreposage de données. La base de données Oracle permet un stockage de données haute performance, évolutif et optimisé.
2. Microsoft Azure
Azure SQL data warehouse est une base de données relationnelle de Microsoft basée sur le cloud. Vous pouvez l’utiliser pour le chargement/traitement de données à l’échelle du pétaoctet et la production de rapports en temps réel.
3. IBM
De même, IBM propose une solution de data warehouse dans le cloud avec la possibilité d’exécuter des requêtes SQL souples et performantes, accompagnées de méthodes d’apprentissage automatique.