Text in gescannten PDF Dateien auswählen
Problem: Sie möchten in einem gescannten PDF Dokument Text auswählen zum kopieren.
Lösung: Das Kommandozeilenprogramm pdfsandwich fügt gescannten PDF Dateien per optischer Zeichenerkennung (OCR) eine Textebene hinzu, aus der der Text kopiert werden kann. Installation mit folgenden Kommandos
sudo apt install pdfsandwich sudo apt install tesseract-ocr-deu
Der folgende Befehl erzeugt aus einer vorhandenen PDF Datei mit deutschem Text beispiel.pdf eine Date beispiel_ocr.pdf, in der erkannter Text auswählbar ist:
pdfsandwich -lang deu beispiel.pdf