O que é Engenharia de dados
Construção de infraestrutura de dados
O que é Engenharia de Dados
Engenharia de dados é uma disciplina focada em projetar, construir e manter sistemas para coletar, armazenar, processar e entregar dados em escala organizacional.
Tarefas Chave
| Tarefa | Descrição | |--------|-----------| | Ingestão de dados | Coletar dados de diversas fontes | | Armazenamento | Design de data warehouses | | Processamento | Pipelines ETL/ELT | | Orquestração | Gerenciamento de dependências e agendamento | | Qualidade | Monitoramento de qualidade de dados |
Stack Tecnológico
- Warehouses: Snowflake, BigQuery, Redshift, Databricks
- Data Lakes: S3, Azure Data Lake, Delta Lake
- Processamento: Apache Spark, dbt, Airflow
- Streaming: Kafka, Flink, Kinesis
- Orquestração: Airflow, Dagster, Prefect
Padrões de Pipeline
| Padrão | Aplicação | |--------|-----------| | Processamento batch | Processamento periódico de grandes volumes | | Processamento stream | Processamento de eventos em tempo real | | Arquitetura Lambda | Combinação de batch e stream | | ELT | Transformar após carregar |
Papel do Engenheiro de Dados
- Design de arquitetura de dados
- Desenvolvimento de pipelines ETL/ELT
- Otimização de performance de consultas
- Garantir disponibilidade e confiabilidade
- Automação de workflows de dados
Métricas de Sucesso
- Frescura dos dados
- Confiabilidade do pipeline (SLA)
- Latência de processamento
- Score de qualidade de dados
- Eficiência de custos de infraestrutura