PDF-Dateien ohne Text-/OCR-Layer finden (OS X)

Falls ihr Dokumente archiviert und diese entweder im Original mit Textlayer oder eingescannt mit OCR-Layer versehen sind, lassen sich diese besser durchsuchen und Texte kopiere. Doch wie kann man nun in einem Ordner mit zig PDF-Dateien, die Dateien finden, welche keinen Textlayer haben? Bspw. wo die OCR Erkennung vergessen wurde oder man eine Datei von extern ohne Texterkennung hinzugefügt hat.

Hierfür bietet sich folgendes Script unter OS X an:

Im betreffenen Ordner den Unterordner „noocr“ erstellen und den Terminal öffnen. Im Terminal den entsprechenden Ordner mit den PDF-Dateien öffnen, bspw. mit cd. Danach das o.g. Script aufrufen. Die Dateien ohne Text/OCR werden dann in den Ordner „noocr“ verschoben und können dann anschließend verarbeitet werden. Hierfür kann man dann bpsw. ocrmypdf nutzen.

Angaben ohne Gewähr, ohne Haftung. Nutzung auf eigene Gefahr. Gebt gerne euer Feedback in die Kommentare.

Kommentare

Das könnte interessant sein

Kostenlos und schnell: PDFs von Websites und Texten im Browser erstellen

Vor einiger Zeit habe ich ein neues Tool unter http://merq.de/thumb vorgestellt. Es konnte Thumbnail...

RSS-Feeds als PDF Zeitung zum Ausdrucken

Leserfreundliche PDFs auf Grundlage eines bzw. mehrerer RSS-Feeds lassen sich leicht auf http://www....

Artikel teilen