Hva er Datasjø
Rådatalagring i hvilket som helst format
Hva er Data Lake
Data Lake er et sentralisert depot som lar deg lagre strukturerte og ustrukturerte data i hvilken som helst skala uten forbehandling.
Data Lake vs Data Warehouse
| Egenskap | Data Lake | Data Warehouse | |----------|-----------|----------------| | Data | Rå, ubehandlet | Behandlet, strukturert | | Skjema | Schema-on-read | Schema-on-write | | Brukere | Data Scientists, ingeniører | Forretningsanalytikere | | Fleksibilitet | Høy | Begrenset | | Kostnad | Lav | Høy |
Data Lake-arkitektur
- Bronze Layer — rådata (som den er)
- Silver Layer — renset og validert
- Gold Layer — aggregert for analyse
Populære plattformer
| Plattform | Funksjoner | |-----------|------------| | AWS S3 + Athena | Serverløs, betal per spørring | | Azure Data Lake | Power BI-integrasjon | | Google Cloud Storage | BigQuery-integrasjon | | Apache Hadoop HDFS | Åpen kildekode, on-premise | | Databricks Delta Lake | ACID-transaksjoner |
Lagringsformater
- Parquet — kolonnebasert, komprimering, raske spørringer
- ORC — optimalisert for Hive
- Avro — radbasert, skjemaevolusjon
- JSON/CSV — for enkle scenarier
Fordeler
- Lagre hvilken som helst datatype
- Lav lagringskostnad
- Fleksibilitet for ML/AI
- Skalerbarhet til petabyte
- Bevare originaldata