Was ist Data Lake
Rohdatenspeicher in beliebigem Format
Was ist ein Data Lake
Data Lake ist ein zentrales Repository zur Speicherung strukturierter und unstrukturierter Daten in beliebigem Umfang ohne Vorverarbeitung.
Data Lake vs. Data Warehouse
| Merkmal | Data Lake | Data Warehouse | |---------|-----------|----------------| | Daten | Roh, unverarbeitet | Verarbeitet, strukturiert | | Schema | Schema-on-read | Schema-on-write | | Benutzer | Data Scientists, Ingenieure | Business-Analysten | | Flexibilität | Hoch | Begrenzt | | Kosten | Niedrig | Hoch |
Data Lake Architektur
- Bronze Layer — Rohdaten (as-is)
- Silver Layer — bereinigt und validiert
- Gold Layer — aggregiert für Analytik
Beliebte Plattformen
| Plattform | Eigenschaften | |-----------|---------------| | AWS S3 + Athena | Serverless, Pay-per-Query | | Azure Data Lake | Power BI Integration | | Google Cloud Storage | BigQuery Integration | | Apache Hadoop HDFS | Open-Source, On-Premise | | Databricks Delta Lake | ACID-Transaktionen |
Speicherformate
- Parquet — spaltenbasiert, Kompression, schnelle Abfragen
- ORC — optimiert für Hive
- Avro — zeilenbasiert, Schema-Evolution
- JSON/CSV — für einfache Szenarien
Vorteile
- Speicherung beliebiger Datentypen
- Niedrige Speicherkosten
- Flexibilität für ML/AI-Aufgaben
- Skalierbarkeit bis Petabytes
- Originaldaten erhalten