Qu'est-ce que Lac de données
Stockage de données brutes dans n'importe quel format
Qu'est-ce qu'un Data Lake
Data Lake est un référentiel centralisé permettant de stocker des données structurées et non structurées à n'importe quelle échelle sans prétraitement.
Data Lake vs Data Warehouse
| Caractéristique | Data Lake | Data Warehouse | |-----------------|-----------|----------------| | Données | Brutes, non traitées | Traitées, structurées | | Schéma | Schema-on-read | Schema-on-write | | Utilisateurs | Data Scientists, ingénieurs | Analystes métier | | Flexibilité | Élevée | Limitée | | Coût | Faible | Élevé |
Architecture Data Lake
- Couche Bronze — données brutes (telles quelles)
- Couche Silver — nettoyées et validées
- Couche Gold — agrégées pour l'analyse
Plateformes populaires
| Plateforme | Caractéristiques | |------------|------------------| | AWS S3 + Athena | Serverless, paiement par requête | | Azure Data Lake | Intégration Power BI | | Google Cloud Storage | Intégration BigQuery | | Apache Hadoop HDFS | Open-source, on-premise | | Databricks Delta Lake | Transactions ACID |
Formats de stockage
- Parquet — colonnaire, compression, requêtes rapides
- ORC — optimisé pour Hive
- Avro — basé sur lignes, évolution de schéma
- JSON/CSV — pour scénarios simples
Avantages
- Stocker tout type de données
- Faible coût de stockage
- Flexibilité pour ML/IA
- Évolutivité jusqu'aux pétaoctets
- Préserver les données originales