AnalizAraçDataEğitimVeri

PDF’den Veri Kazıma (Uygulama /Video)

Veri formatının makine okunabilir olması, erişiminin zor olmaması ondan yararlanma hızını arttırıyor. Açık formatlı olmasının  kamusal alanda da , habercilik yaparken de oldukça önemli hale geliyor. Veriler kapalı formatta ve yapılandırılmamış  şekilde mevcut olduğunda işler zorlaşabiliyor. PDF’de bu formatlardan biri.    

Örnek 1:

2014 yılında Arjantin yönetimi 2004-2013 yılları arasında yapılan harcamaların verilerini  ham PDF dosyaları ve görsel olarak paylaşmıştı. Yığınlar dolusu yapılandırılmamış ve bilgiyasalar tarafından (makina okunabilirliği olmayan) okunamayan ve analizi oldukça güç dosyalardı bunlar.Modül 2’de Ders 5’de yer verilen dünyadan veri gazeteciliği siteleri arasında yer alan La Nacion gazetesi bu verileri kazımayı, dönüştürmeyi ( PDF’den excel’e , excel’den CSV’ye, TSV’ye)  başarmış, veriyi kullanılabilir, yapılandırılmış veri setlerine dönüştürmüş, harcamalar daha detaylı görülebilmiş ve  manşet haber olarak yer almıştı.  Haber her anlamda o dönemde hem yönetimin şefffalığına yönelik etkiler yaratmış hem de yasal sürece yönelik araştırmaların daha etkin şekilde yürütülmesinin yolunu açmıştı. Ayrıca veri gazetecileri bu dönüştürülmüş yığınla veriden çok sayıda farklı veri güdümlü haber de çıkarmışlardı. Ödül alan bu projeyi buradan detayı olarak da inceleyebilirsiniz: http://blogs.lanacion.com.ar/projects/data/argentina%C2%B4s-senate- expenses-2004- 2013/

 

Örnek 2:

23 Temmuz 2016 tarihli  Resmi Gazete’de yer alan 58 sayfalık OHAL ‘in Kanun Hükmünde Kararnamesi. Taranmış bir PDF dosyası. Açık format değil, yapılandırılmış değil, makine okunabilirliği ise yok. PDF dosyasının tamamı:http://dagmedya.net/wp-content/uploads/2016/07/kapatilan-okullarin-tam-listesi-.pdf

Aşağıda Açık Veri ve Veri Gazeteciliği Derneği’nin Temmuz-Eylül tarihleri arasında düzenlediği ve herkesin erişimine de açtığı Açık Veri ve Veri Okuryazarlığı derslerinin modül 3’de yer alan Tabula ile Veri Kazıma Pratiği videosu yer almakta.

 

Video Not dökümü için tıklayınız

Veriseti / güncel : 2015 -2016 yılı MEB Eğitim İstatistikleri Raporu
Kulanılan veri seti kaynağı: https://drive.google.com/open?id=0Bxz1Zy_R9wbOUFByd2Y1VzVyYVE
(Bilgi Edinme Hakkın’dan yararlanılarak temin edilmiştir)
Araç hakkında kısa bilgi / url:  http://tabula.technology/  Tabula açık kaynaklı pdf’den veri kazıma aracıdır. Yukardaki adresten cihazınıza indirebilirsiniz. Araç sadece elektronik pdf dosyalarından veri kazıyabilir. Taranmış rapor veya dökümanlar Tabula ile kazınamaz. Ayrıca aracı kurmadan önce Java yazılımı cihazınıza kurulmalı. Bu adresten edinebilirsiniz: https://java.com/tr/download/ Eğer Tabula yazılımı cihazınıza yüklemekte sorun yaşıyorsanız, aşağıdaki beta sürümlerini deneyebilirsiniz.
Beta  veya diğer sürümler için : https://github.com/tabulapdf/tabula/releases

AVVG’nin tüm eğitimlerine kayıt olarak ve başvuruyu tamamlayarak erişebilirsiniz:

http://avvg.org.tr/

 

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

*