• EunieIsTheBus@feddit.deOP
    link
    fedilink
    Deutsch
    arrow-up
    0
    ·
    1 year ago

    Gerade ausprobiert. (Musste erst ein wenig in etc rumspielen, weil imagemagick wohl nicht genug rechte zum bearbeiten von pdfs hat) Das Ergebnis ist tatsächlich besser. Allerdings bin ich nur an der Textausgabe interessiert und nicht an einer durchsuchbaren pdf.

    • heeplr@feddit.de
      link
      fedilink
      Deutsch
      arrow-up
      0
      ·
      1 year ago

      Dafür nehme ich pdftotext (glaube Teil von poppler).

      Aber für dich wäre es vermutlich schlauer über debug modus, /proc/…/cmdline oder quellcode die settings für tesseract rauszufinden, die pdfsandwich verwendet, damit du dein frontend entsprechen konfigurieren kannst.