O que é Data Lake
Armazenamento de dados brutos em qualquer formato
O que é Data Lake
Data Lake é um repositório centralizado que permite armazenar dados estruturados e não estruturados em qualquer escala sem pré-processamento.
Data Lake vs Data Warehouse
| Característica | Data Lake | Data Warehouse | |----------------|-----------|----------------| | Dados | Brutos, não processados | Processados, estruturados | | Schema | Schema-on-read | Schema-on-write | | Usuários | Data Scientists, engenheiros | Analistas de negócio | | Flexibilidade | Alta | Limitada | | Custo | Baixo | Alto |
Arquitetura Data Lake
- Camada Bronze — dados brutos (como estão)
- Camada Silver — limpos e validados
- Camada Gold — agregados para análise
Plataformas populares
| Plataforma | Características | |------------|-----------------| | AWS S3 + Athena | Serverless, pagamento por consulta | | Azure Data Lake | Integração Power BI | | Google Cloud Storage | Integração BigQuery | | Apache Hadoop HDFS | Open-source, on-premise | | Databricks Delta Lake | Transações ACID |
Formatos de armazenamento
- Parquet — colunar, compressão, consultas rápidas
- ORC — otimizado para Hive
- Avro — baseado em linhas, evolução de schema
- JSON/CSV — para cenários simples
Benefícios
- Armazenar qualquer tipo de dados
- Baixo custo de armazenamento
- Flexibilidade para ML/IA
- Escalabilidade até petabytes
- Preservar dados originais