データレイク とは
任意の形式での生データストレージ
データレイクとは
データレイクは、前処理なしで任意の規模で構造化データと非構造化データを保存できる集中リポジトリです。
データレイク vs データウェアハウス
| 特性 | データレイク | データウェアハウス | |------|--------------|-------------------| | データ | 生、未処理 | 処理済み、構造化 | | スキーマ | Schema-on-read | Schema-on-write | | ユーザー | データサイエンティスト、エンジニア | ビジネスアナリスト | | 柔軟性 | 高い | 限定的 | | コスト | 低い | 高い |
データレイクアーキテクチャ
- ブロンズレイヤー — 生データ(そのまま)
- シルバーレイヤー — クレンジング・検証済み
- ゴールドレイヤー — 分析用に集約
主要プラットフォーム
| プラットフォーム | 特徴 | |------------------|------| | AWS S3 + Athena | サーバーレス、クエリ課金 | | Azure Data Lake | Power BI統合 | | Google Cloud Storage | BigQuery統合 | | Apache Hadoop HDFS | オープンソース、オンプレミス | | Databricks Delta Lake | ACIDトランザクション |
ストレージフォーマット
- Parquet — カラム型、圧縮、高速クエリ
- ORC — Hive最適化
- Avro — 行ベース、スキーマ進化
- JSON/CSV — シンプルなシナリオ向け
メリット
- あらゆるデータ型を保存
- 低ストレージコスト
- ML/AIタスクの柔軟性
- ペタバイトまでスケール
- 元データを保持