Деректер көлі дегеніміз не
Кез келген форматтағы шикі деректерді сақтау
Деректер көлі дегеніміз не
Деректер көлі — алдын ала өңдеусіз кез келген масштабта құрылымдалған және құрылымдалмаған деректерді сақтауға мүмкіндік беретін орталықтандырылған қойма.
Деректер көлі vs Деректер қоймасы
| Сипаттама | Деректер көлі | Деректер қоймасы | |-----------|---------------|------------------| | Деректер | Шикі, өңделмеген | Өңделген, құрылымдалған | | Схема | Schema-on-read | Schema-on-write | | Пайдаланушылар | Data Scientists, инженерлер | Бизнес-аналитиктер | | Икемділік | Жоғары | Шектелген | | Құны | Төмен | Жоғары |
Деректер көлі архитектурасы
- Қола қабаты — шикі деректер (сол күйінде)
- Күміс қабаты — тазартылған және тексерілген
- Алтын қабаты — талдау үшін жинақталған
Танымал платформалар
| Платформа | Ерекшеліктер | |-----------|--------------| | AWS S3 + Athena | Serverless, сұрау бойынша төлем | | Azure Data Lake | Power BI интеграциясы | | Google Cloud Storage | BigQuery интеграциясы | | Apache Hadoop HDFS | Ашық бастапқы код, on-premise | | Databricks Delta Lake | ACID транзакциялар |
Сақтау форматтары
- Parquet — бағандық, қысу, жылдам сұраулар
- ORC — Hive үшін оңтайландырылған
- Avro — жол негізінде, схема эволюциясы
- JSON/CSV — қарапайым сценарийлер үшін
Артықшылықтар
- Кез келген деректер түрін сақтау
- Төмен сақтау құны
- ML/AI үшін икемділік
- Петабайттарға дейін масштабтау
- Бастапқы деректерді сақтау