Qué es Data Lake
Almacenamiento de datos brutos en cualquier formato
Qué es Data Lake
Data Lake es un repositorio centralizado que permite almacenar datos estructurados y no estructurados a cualquier escala sin preprocesamiento.
Data Lake vs Data Warehouse
| Característica | Data Lake | Data Warehouse | |----------------|-----------|----------------| | Datos | Crudos, sin procesar | Procesados, estructurados | | Esquema | Schema-on-read | Schema-on-write | | Usuarios | Data Scientists, ingenieros | Analistas de negocio | | Flexibilidad | Alta | Limitada | | Costo | Bajo | Alto |
Arquitectura Data Lake
- Capa Bronze — datos crudos (tal cual)
- Capa Silver — limpiados y validados
- Capa Gold — agregados para análisis
Plataformas populares
| Plataforma | Características | |------------|-----------------| | AWS S3 + Athena | Serverless, pago por consulta | | Azure Data Lake | Integración Power BI | | Google Cloud Storage | Integración BigQuery | | Apache Hadoop HDFS | Open-source, on-premise | | Databricks Delta Lake | Transacciones ACID |
Formatos de almacenamiento
- Parquet — columnar, compresión, consultas rápidas
- ORC — optimizado para Hive
- Avro — basado en filas, evolución de esquema
- JSON/CSV — para escenarios simples
Beneficios
- Almacenar cualquier tipo de datos
- Bajo costo de almacenamiento
- Flexibilidad para ML/AI
- Escalabilidad a petabytes
- Preservar datos originales