คืออะไร Data Lake
ที่เก็บข้อมูลดิบในรูปแบบใดก็ได้
Data Lake คืออะไร
Data Lake คือที่เก็บข้อมูลแบบรวมศูนย์ที่ช่วยให้คุณจัดเก็บข้อมูลที่มีโครงสร้างและไม่มีโครงสร้างในระดับใดก็ได้โดยไม่ต้องประมวลผลล่วงหน้า
Data Lake vs Data Warehouse
| คุณสมบัติ | Data Lake | Data Warehouse | |-----------|-----------|----------------| | ข้อมูล | ดิบ ไม่ผ่านการประมวลผล | ประมวลผลแล้ว มีโครงสร้าง | | Schema | Schema-on-read | Schema-on-write | | ผู้ใช้ | Data Scientists วิศวกร | นักวิเคราะห์ธุรกิจ | | ความยืดหยุ่น | สูง | จำกัด | | ต้นทุน | ต่ำ | สูง |
สถาปัตยกรรม Data Lake
- Bronze Layer — ข้อมูลดิบ (ตามที่เป็น)
- Silver Layer — ทำความสะอาดและตรวจสอบแล้ว
- Gold Layer — รวมสำหรับการวิเคราะห์
แพลตฟอร์มยอดนิยม
| แพลตฟอร์ม | คุณสมบัติ | |-----------|-----------| | AWS S3 + Athena | Serverless จ่ายตาม query | | Azure Data Lake | รวม Power BI | | Google Cloud Storage | รวม BigQuery | | Apache Hadoop HDFS | Open-source, on-premise | | Databricks Delta Lake | ACID transactions |
รูปแบบการจัดเก็บ
- Parquet — columnar บีบอัด query เร็ว
- ORC — ปรับให้เหมาะกับ Hive
- Avro — row-based schema evolution
- JSON/CSV — สำหรับสถานการณ์ง่ายๆ
ประโยชน์
- จัดเก็บข้อมูลทุกประเภท
- ต้นทุนการจัดเก็บต่ำ
- ยืดหยุ่นสำหรับงาน ML/AI
- ขยายได้ถึงเพตะไบต์
- รักษาข้อมูลต้นฉบับ