Nedir Veri Kalitesi
Veri doğruluğu ve eksiksizliğinin sağlanması
Veri Kalitesi Nedir
Veri Kalitesi, verilerin iş süreçlerinde ve analitikte kullanıma uygunluğunu belirleyen veri özelliklerinin bir kümesidir.
Veri Kalitesi Boyutları
| Boyut | Açıklama | |-------|----------| | Doğruluk | Gerçek dünyayla uyum | | Eksiksizlik | Doldurma derecesi | | Tutarlılık | Sistemler arası tutarlılık | | Zamanlılık | Tazelik ve güncellik | | Geçerlilik | İş kurallarına uygunluk | | Benzersizlik | Yineleme yok |
Kontrol Türleri
- Şema doğrulama — yapı doğrulama
- Aralık kontrolleri — izin verilen sınırlar içinde değerler
- Desen eşleştirme — format uygunluğu
- Referans bütünlüğü — ilişki bütünlüğü
- İş kuralları — iş mantığı
Araçlar
| Araç | Tip | |------|-----| | Great Expectations | Python çerçevesi | | dbt tests | SQL tabanlı | | Apache Griffin | Açık kaynak | | Talend DQ | Kurumsal | | Soda Core | Modern DQ |
Kalite Metrikleri
- Veri Kalite Skoru (DQS)
- Alan bazında hata oranı
- Eksiksizlik yüzdesi
- Tazelik (son güncellemeden bu yana geçen süre)
Uygulama Pratikleri
- Alımda veri profilleme
- Pipeline'da otomatik kontroller
- Kalite düşüşünde uyarı
- Veri yönetişimi süreçleri
- Veri sözlüğü dokümantasyonu