Mikä on Datajärvi
Raakadatan tallennus missä tahansa muodossa
Mikä on Data Lake
Data Lake on keskitetty tietovarasto, joka mahdollistaa rakenteellisen ja rakenteettoman datan tallentamisen missä tahansa mittakaavassa ilman esikäsittelyä.
Data Lake vs Data Warehouse
| Ominaisuus | Data Lake | Data Warehouse | |------------|-----------|----------------| | Data | Raaka, käsittelemätön | Käsitelty, rakenteellinen | | Skeema | Schema-on-read | Schema-on-write | | Käyttäjät | Data Scientists, insinöörit | Liiketoiminta-analyytikot | | Joustavuus | Korkea | Rajoitettu | | Kustannus | Matala | Korkea |
Data Lake -arkkitehtuuri
- Bronze Layer — raakadata (sellaisenaan)
- Silver Layer — puhdistettu ja validoitu
- Gold Layer — aggregoitu analytiikkaan
Suositut alustat
| Alusta | Ominaisuudet | |--------|--------------| | AWS S3 + Athena | Serverless, maksu kyselyittäin | | Azure Data Lake | Power BI -integraatio | | Google Cloud Storage | BigQuery-integraatio | | Apache Hadoop HDFS | Avoimen lähdekoodin, on-premise | | Databricks Delta Lake | ACID-transaktiot |
Tallennusmuodot
- Parquet — sarakepohjainen, pakkaus, nopeat kyselyt
- ORC — optimoitu Hivelle
- Avro — rivipohjainen, skeeman evoluutio
- JSON/CSV — yksinkertaisiin skenaarioihin
Edut
- Tallenna mitä tahansa datatyyppiä
- Matalat tallennuskustannukset
- Joustavuus ML/AI-tehtäviin
- Skaalautuvuus petatavuihin
- Säilytä alkuperäinen data