AraçKaynak

PDF’den veri ayıklama aracı Tabula’nın yeni sürümü yayınlandı

PDF dosyalarından verileri almaya çalışmış ve veri tablosu oluşturmak için  savaş verdiyseniz sorunun genelde ne olduğunu bilirsiniz. Metinler kısmen PDF formatından ayıklansa da veri tablosu oldukça dağınık şekilde elinize ulaşır. Bir araç desteği olmadan gazetecilerin verileri ayıklaması bu sebeple bıktırıcı  olabiliyor.

8267906

Tabula burada devreye girerek hayat kurtarıyor: Açık kaynak ücretsiz olan bu aracı bilgisayarınıza indiriyorsunuz ,  yerel bir arama motoru ile de çalışıyor. Kullanım şeklide oldukça kolay. Herhangi bir PDF dosyasını yüklüyorsunuz,  sonra ayıklamak istediğiniz  bölüm üzerinde bir dikdörtgen çiziyorsunuz. Veriler,  CSV olarak herhangi bir elektronik tablo programına aktarılır böylece.

Tabula geçtiğimiz hafta iki yılın ardından yazılımını güncellediğini ve 1.0 numaralı sürüme geçtiğini  duyurdu. Bu sürüm Windows, Mac ve Linux’de kullanıma uygun. Sürümün en önemli  özelliği revizyondan geçirilmiş kullanıcı arayüzüne sahip olması.  (Github’dan inceleyiniz)

Tabula’yı kullanacaklar için bilinmesinde fayda var bu araç sadece gerçek PDF dosyalarında kullanılabilir, yani taranmış fotoğraf formatında olan dosyalarda çalışmıyor. Bunun için OCR yazılımı alternatif olabilir ya da elle verileri ayıklamanız gerekebilir eğer bir fotoğraf dosyası olarak elinizdeyse. Aracın gelişmesini Knight Foundation desteklemiştir.

Yeni sürüm hakkında daha fazla detay için ve yazılımı indirmek için tıklayınız.

 

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

*