Vad är Datasjö
Rådata lagring i valfritt format
Vad är Data Lake
Data Lake är ett centraliserat arkiv som låter dig lagra strukturerad och ostrukturerad data i valfri skala utan förbehandling.
Data Lake vs Data Warehouse
| Egenskap | Data Lake | Data Warehouse | |----------|-----------|----------------| | Data | Rå, obehandlad | Bearbetad, strukturerad | | Schema | Schema-on-read | Schema-on-write | | Användare | Data Scientists, ingenjörer | Affärsanalytiker | | Flexibilitet | Hög | Begränsad | | Kostnad | Låg | Hög |
Data Lake-arkitektur
- Bronze Layer — rådata (som den är)
- Silver Layer — rensad och validerad
- Gold Layer — aggregerad för analys
Populära plattformar
| Plattform | Funktioner | |-----------|------------| | AWS S3 + Athena | Serverlös, betala per fråga | | Azure Data Lake | Power BI-integration | | Google Cloud Storage | BigQuery-integration | | Apache Hadoop HDFS | Öppen källkod, on-premise | | Databricks Delta Lake | ACID-transaktioner |
Lagringsformat
- Parquet — kolumnär, komprimering, snabba frågor
- ORC — optimerad för Hive
- Avro — radbaserad, schemaevolution
- JSON/CSV — för enkla scenarier
Fördelar
- Lagra vilken datatyp som helst
- Låg lagringskostnad
- Flexibilitet för ML/AI
- Skalbarhet till petabyte
- Bevara originaldata