Nima Data Lake
Har qanday formatda xom ma'lumotlarni saqlash
Data Lake nima
Data Lake — oldindan qayta ishlashsiz har qanday miqyosda tuzilgan va tuzilmagan ma'lumotlarni saqlash imkonini beruvchi markazlashgan ombor.
Data Lake va Data Warehouse
| Xususiyat | Data Lake | Data Warehouse | |-----------|-----------|----------------| | Ma'lumot | Xom, qayta ishlanmagan | Qayta ishlangan, tuzilgan | | Schema | Schema-on-read | Schema-on-write | | Foydalanuvchilar | Data Scientists, muhandislar | Biznes tahlilchilar | | Moslashuvchanlik | Yuqori | Cheklangan | | Narx | Past | Yuqori |
Data Lake arxitekturasi
- Bronze Layer — xom ma'lumotlar (boricha)
- Silver Layer — tozalangan va tekshirilgan
- Gold Layer — tahlil uchun jamlangan
Mashhur platformalar
| Platforma | Xususiyatlar | |-----------|--------------| | AWS S3 + Athena | Serverless, so'rov bo'yicha to'lov | | Azure Data Lake | Power BI integratsiyasi | | Google Cloud Storage | BigQuery integratsiyasi | | Apache Hadoop HDFS | Ochiq manba, on-premise | | Databricks Delta Lake | ACID tranzaksiyalar |
Saqlash formatlari
- Parquet — ustunli, siqish, tez so'rovlar
- ORC — Hive uchun optimallashtirilgan
- Avro — qator asosida, schema evolyutsiyasi
- JSON/CSV — oddiy stsenariylar uchun
Afzalliklar
- Har qanday turdagi ma'lumotlarni saqlash
- Past saqlash narxi
- ML/AI uchun moslashuvchanlik
- Petabaytlargacha kengayish
- Asl ma'lumotlarni saqlash