Een gescande PDF naar tekst

  Algemeen

regelmatig kom je pdf documenten tegen waar de gescande tekst eigenlijk een plaatje is, dan is het niet mogelijk om de tekst te kopiëren, er zijn diverse tools te vinden op het internet maar op dit moment werk ik het liefst met ocrmypdf.

  • ocrmypdf maakt PDF/A documenten.
  • De tekst word ook accurate op het image geplaats zodat het eenvoudig te copieren is.
  • de resolutie van de plaatjes blijft gelijk.
  • De documenten worden geoptimaliseerd meestal dus kleiner

Op een ubuntu > 18.04  machine is het eenvoudige te installeren.

sudo apt install ocrmypdf 

het gebruik van ocrmypdf is eenvoudig gewoon via de command line je geeft de input file en de output file naam op. 

 

$ ocrmypdf input.pdf output.pdf