ما هو بحيرة البيانات
تخزين البيانات الخام بأي تنسيق
ما هي بحيرة البيانات
بحيرة البيانات هي مستودع مركزي يتيح لك تخزين البيانات المهيكلة وغير المهيكلة بأي حجم دون معالجة مسبقة.
بحيرة البيانات مقابل مستودع البيانات
| الخاصية | بحيرة البيانات | مستودع البيانات | |---------|---------------|-----------------| | البيانات | خام، غير معالجة | معالجة، مهيكلة | | المخطط | Schema-on-read | Schema-on-write | | المستخدمون | علماء البيانات، المهندسون | محللو الأعمال | | المرونة | عالية | محدودة | | التكلفة | منخفضة | عالية |
بنية بحيرة البيانات
- الطبقة البرونزية — البيانات الخام (كما هي)
- الطبقة الفضية — منظفة ومُتحقق منها
- الطبقة الذهبية — مُجمّعة للتحليلات
المنصات الشائعة
| المنصة | الميزات | |--------|---------| | AWS S3 + Athena | بدون خادم، الدفع لكل استعلام | | Azure Data Lake | تكامل Power BI | | Google Cloud Storage | تكامل BigQuery | | Apache Hadoop HDFS | مفتوح المصدر، محلي | | Databricks Delta Lake | معاملات ACID |
تنسيقات التخزين
- Parquet — عمودي، ضغط، استعلامات سريعة
- ORC — محسن لـ Hive
- Avro — قائم على الصفوف، تطور المخطط
- JSON/CSV — للسيناريوهات البسيطة
الفوائد
- تخزين أي نوع من البيانات
- تكلفة تخزين منخفضة
- مرونة لمهام ML/AI
- قابلية التوسع إلى بيتابايت
- الحفاظ على البيانات الأصلية