Umstieg auf Linux

Probleme und Lösungen

Text in gescannten PDF Dateien auswählen

Problem: Sie möchten in einem gescannten PDF Dokument Text auswählen zum kopieren.

Lösung: Das Kommandozeilenprogramm pdfsandwich fügt gescannten PDF Dateien per optischer Zeichenerkennung (OCR) eine Textebene hinzu, aus der der Text kopiert werden kann. Installation mit folgenden Kommandos

sudo apt install pdfsandwich
sudo apt install tesseract-ocr-deu

Der folgende Befehl erzeugt aus einer vorhandenen PDF Datei mit deutschem Text beispiel.pdf eine Date beispiel_ocr.pdf, in der erkannter Text auswählbar ist:

pdfsandwich -lang deu beispiel.pdf

 

 


 - - - By CrazyStat - - -