#textscraping — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #textscraping, aggregated by home.social.
-
Vor einiger Zeit twittert ich zumscrappen von in PDF gefangenen Texten. Inzwischen si d wir ein Stück weiter. Für uns hat es im Test das #Python-tool #PDFminer getan. Hat sehr sauber gearbeitet. Wir hatten dazu allerdings auch sehr sauber gesetzte PDFs, die bereits mit OCR vorliegen. Mehr, wenn wir durch sind und dann auch mit Doku auf Github.
#digitalhumanities #newbie #textscraping