Veri Temizleme Etiği

Temizlemek istediğiniz veri setinde eksik değerler, yazım hataları, gizemli değerler, kısaltmalar, gömülü değerler, kelime aktarımı, çift kayıtlar, çelişen kayıtlar, yanlış referanslar, yasa dışı değerler, benzersiz ihlaller, referans bütünlüğü ihlali gibi sorunlarla karşılaşıldığında bilgilerin doğruluğu, farklı kaynaklarla karşılaştırılması sonrası analiz yapılmalıdır.

Örneğin veri setinizde eksik bir bilgiyi doğrulatılamıyor ve gerçek kaynağına ulaşamıyorsanız ve elinizde gelen  her türlü çalışmayı yaptığınıza inanıyorsanız  analizini ulaşamadığınız bilgi üzerinden devam ettirmelisiniz. Değerlerin normalin dışında eksik olduğunu düşünüyorsanız, eklenmediğini ya da paylaşılmadığını düşünüyorsanız bir  veri bilimci ya da bir istatistikçi ile eksik değerler üzerinde nasıl bir yol izleyebileceğini mutlaka sormalısınız.

Veri temizleme etiği özellikle veri gazeteciliği projeleri üretenlerin  de veri temizleme sürecinde, veri setinin doğruluğu kadar önem taşıyor.

Aşağıdaki tablolar veri temizleme sürecinde karşılaşılan bazı problemleri gösteriyor. 

Ekran görüntüsü: Data Cleaning: Problems and Current Approaches
http://betterevaluation.org/sites/default/files/data_cleaning.pdf

 

 

Bir Cevap Yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

*