PDFtoText (Pdf2Text), PDF to Fonts, PDF to Info

Manchmal möchte man aus einem PDF den Text extrahieren oder Infos aus dem PDF gewinnen. Das geht mit den poppler Utils auf dem Raspberry Pi.

Wir laden uns die poppler.pdf als Beispiel in ein Verzeichnis.
Dann rufen wir die pdftotext Anwendung auf:

pdftotext poppler.pdf

und wir erhalten eine neue Datei poppler.txt mit dem Text aus der PDF:

Nun wollen wir schauen, welche Schriften in der PDF verwendet werden.

pdffonts poppler.pfd

Das Ergebnis nur die TrueType Helvetica und HelveticaNeue vom Mac und zwar emb (=yes) d.h. die Schriften sind in das Dokument eingebettet.

Nun noch die Tags und weitere Infos ausgeben mit:

pdfinfo poppler.pdf

Das Ergebnis:

Schon interessant, welche Informationen man so mit PDFs evl. unwissentlich verteilt!