GenelVeri Gazeteciliği

PDF’den veri nasıl ayıklanır?

Taşınabilir Belge Biçimi (PDF) platformlar arası taşınabilir ve yazdırılabilir belgeler oluşturmak amacıyla üretilmiş sayısal bir dosya biçimi ve dünyanın belkide en fazla kullandığı belge türünden biri.  Özellikle veri gazeteciliği alanında çalışma yapanlar için son dönemlerde önemli bir konu haline geldi pdf’den veri ayıklama ve veriyi çekip kullana bilmek. Bir excel tablosu gibi kolay olmadığından bu  işlemi en rahat yapmayı sağlayan araçlardan bazıları şöyle:

1-Tabula

Tabula, eski Knight-Mozilla Açık haber üyesi Manuel Aristaran tarafından  ProPublica işbilriğinde  açık kaynak olarak geliştirilen PDF ve CSV formatındaki dosyalardan veri ayıklamaya yardımcı olan bir yazılım.

Tabula-screenshot-1

2-  Scraper Wiki  ScraperWiki  web merkezli platform web sitelerinden verileri analiz edip, ayıklayıp, temizlemenizi sağlıyor.  Ayrıca PDF’den excel tabloyu verileri de aktarmanıza yardımcı oluyor. Nasıl kullanabileceğinizi bu adresten öğrenebilirsiniz:

Buradan da başlayabilirsiniz: https://datamineruk.wordpress.com/2011/07/21/getting-to-grips-with-scraperwiki-for-those-who-dont-code/

3-Come to Docs

Come to Docs  is an online pdf’den excele çevirmeye yardımcı olan çevrimiçi doküman yönetim sistemi. ( .txt dosyası gibi formatta dosyalar için de geçerli)  Kullanımı oldukça kolay ve sistem olarak da oldukça güvenilir bir yazılım.

2015-01-10 13-42-10 Ekran görüntüsü

4-Zamzar 

Zamzar, ücretsiz çevrimiçi dosya dönüştürücü bir diğer araç. Kullanımı da oldukça kolay.

2015-01-10 13-47-48 Ekran görüntüsü

 

5-Nitro

 

Nitro, PDF dosyalarını dönüştüren tarifeli bir araç ancak ücretsiz kullanma demoları da var ve 14 günde kullanma olanağı sağlıyor. Kullanımı da oldukça kolay.

Nitro-2-e1394628107180

 


 

Bunun dışında İngilizce olarak kaleme alınmış ama PDF dosyalarının veri gazetecilerinin işine bu haliyle ne kadar az yaradığına dikkat çeken ve bundan kurtulmanın yollarını anlatan güzel bir örnek yazıyı aktarıyoruz.  Okumak için tıklayınız


 

Ek olarak bu konuyla ilgili bazı kaynakları daha aktarıyoruz:

Veri Güdümlü

http://datadrivenjournalism.net/resources/getting_text_out_of_an_image_only_pdf2#sthash.DXQZw4KM.dpuf

Excel’den taranmış görüntü

http://www.verypdf.com/app/scan-to-excel-ocr/scanned-image-to-excel-converter.html

PDF’den metine

http://www.newocr.com/

http://datadrivenjournalism.net/resources/getting_text_out_of_an_image_only_pdf2

Propublica rehberliği:

http://www.propublica.org/nerds/item/turning-pdfs-to-text-doc-dollars-guide

ftp.foolabs.com/pub/xpdf

Açıklayanlar:

https://docs.google.com/file/d/1-y5aHy5KSZhAtd4Q7ZC_NVGylLNN5mHZmSeiZi15r8LHAhZXMjm6LctqsybM/edit

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

*