Manchmal möchte man aus einem PDF den Text extrahieren oder Infos aus dem PDF gewinnen. Das geht mit den poppler Utils auf dem Raspberry Pi.
Wir laden uns die poppler.pdf als Beispiel in ein Verzeichnis.
Dann rufen wir die pdftotext Anwendung auf:
pdftotext poppler.pdf
und wir erhalten eine neue Datei poppler.txt mit dem Text aus der PDF:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 |
Sammlung von Kommandozeilen-Programmen pdfsig – prüft digitale Signaturen pdffonts – Analyse von Schriften pdfimages – Entnahme von Bildern Installation: sudo apt-get install poppler-utils pdfinfo – Dokumentinformationen pdfseparate – Werkzeug zur Entnahme von Seiten in andere Formate umgewandelt oder manipuliert pdftocairo – Umwandlung von PDF nach PNG/JPEG/PDF/PS/EPS/SVG pdfdetach – Listet oder entnimmt eingebettete Dateien (Anhänge) PDF-Dokumente PDF Tool Poppler pdfunite – Werkzeug für das Zusammenfügen von Dokumenten pdftoppm – Umwandlung von PDF nach PPM/PNG/JPEG pdftops – Umwandlung von PDF nach PostScript (PS) mittels Cairo pdftohtml – Umwandlung von PDF nach HTML pdftotext – Entnahme von Text Dr. Kleinhirn.eu |
Nun wollen wir schauen, welche Schriften in der PDF verwendet werden.
pdffonts poppler.pfd
Das Ergebnis nur die TrueType Helvetica und HelveticaNeue vom Mac und zwar emb (=yes) d.h. die Schriften sind in das Dokument eingebettet.
1 2 3 4 |
name type encoding emb sub uni object ID ------------------------------------ ----------------- ---------------- --- --- --- --------- AAAAAB+Helvetica TrueType MacRoman yes yes no 11 0 AAAAAC+HelveticaNeue TrueType MacRoman yes yes no 12 0 |
Nun noch die Tags und weitere Infos ausgeben mit:
pdfinfo poppler.pdf
Das Ergebnis:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 |
Title: poppler.pdf Subject: poppler.pdf Keywords: poppler.pdf Author: Thomas Wenzlaff Creator: © 2020 de.wenzlaff.twpdftagger 0.0.4 by Thomas Wenzlaff Producer: iOS Version 14.2 (Build 18B92) Quartz PDFContext; modified using iText® 5.5.13.1 ©2000-2019 iText Group NV (AGPL-version) CreationDate: Wed Dec 2 18:58:14 2020 CET ModDate: Fri Dec 4 11:47:19 2020 CET Tagged: no UserProperties: no Suspects: no Form: none JavaScript: no Pages: 1 Encrypted: no Page size: 842 x 595 pts (A4) Page rot: 0 File size: 458785 bytes Optimized: no PDF version: 1.3 |
Schon interessant, welche Informationen man so mit PDFs evl. unwissentlich verteilt!