{"id":15837,"date":"2020-12-13T08:55:11","date_gmt":"2020-12-13T07:55:11","guid":{"rendered":"http:\/\/blog.wenzlaff.de\/?p=15837"},"modified":"2020-12-13T08:55:11","modified_gmt":"2020-12-13T07:55:11","slug":"pdftotext-pdf2text-pdf-to-fonts-pdf-to-info","status":"publish","type":"post","link":"http:\/\/blog.wenzlaff.de\/?p=15837","title":{"rendered":"PDFtoText (Pdf2Text), PDF to Fonts, PDF to Info"},"content":{"rendered":"<p>Manchmal m\u00f6chte man aus einem PDF den Text extrahieren oder Infos aus dem PDF gewinnen. Das geht mit den <a href=\"http:\/\/blog.wenzlaff.de\/?p=15745\" rel=\"noopener\" target=\"_blank\">poppler Utils<\/a> auf dem Raspberry Pi.<br \/>\n<a href=\"http:\/\/blog.wenzlaff.de\/wp-content\/uploads\/2020\/12\/pdftotext-scaled.jpg\"><img loading=\"lazy\" decoding=\"async\" src=\"http:\/\/blog.wenzlaff.de\/wp-content\/uploads\/2020\/12\/pdftotext-scaled.jpg\" alt=\"\" width=\"2560\" height=\"1919\" class=\"aligncenter size-full wp-image-15838\" srcset=\"http:\/\/blog.wenzlaff.de\/wp-content\/uploads\/2020\/12\/pdftotext-scaled.jpg 2560w, http:\/\/blog.wenzlaff.de\/wp-content\/uploads\/2020\/12\/pdftotext-300x225.jpg 300w, http:\/\/blog.wenzlaff.de\/wp-content\/uploads\/2020\/12\/pdftotext-1024x768.jpg 1024w, http:\/\/blog.wenzlaff.de\/wp-content\/uploads\/2020\/12\/pdftotext-768x576.jpg 768w, http:\/\/blog.wenzlaff.de\/wp-content\/uploads\/2020\/12\/pdftotext-1536x1151.jpg 1536w, http:\/\/blog.wenzlaff.de\/wp-content\/uploads\/2020\/12\/pdftotext-2048x1535.jpg 2048w\" sizes=\"auto, (max-width: 767px) 89vw, (max-width: 1000px) 54vw, (max-width: 1071px) 543px, 580px\" \/><\/a><\/p>\n<p>Wir laden uns die <a href=\"http:\/\/blog.wenzlaff.de\/wp-content\/uploads\/2020\/12\/poppler.pdf\">poppler.pdf<\/a> als Beispiel in ein Verzeichnis.<br \/>\nDann rufen wir die pdftotext Anwendung auf:<\/p>\n<p><strong>pdftotext poppler.pdf<\/strong><\/p>\n<p>und wir erhalten eine neue Datei poppler.txt mit dem Text aus der PDF:<!--more--><\/p>\n<pre class=\"lang:default decode:true \" >Sammlung von Kommandozeilen-Programmen\r\npdfsig \u2013 pr\u00fcft digitale Signaturen\r\n\r\npdffonts \u2013 Analyse von Schriften\r\npdfimages \u2013 Entnahme von Bildern\r\n\r\nInstallation: sudo apt-get install poppler-utils\r\n\r\npdfinfo \u2013 Dokumentinformationen\r\npdfseparate \u2013 Werkzeug zur Entnahme von Seiten\r\n\r\nin andere Formate\r\numgewandelt oder manipuliert\r\n\r\npdftocairo \u2013 Umwandlung von PDF nach PNG\/JPEG\/PDF\/PS\/EPS\/SVG\r\n\r\npdfdetach \u2013 Listet oder entnimmt eingebettete Dateien (Anh\u00e4nge)\r\nPDF-Dokumente\r\n\r\nPDF Tool Poppler\r\n\r\npdfunite \u2013 Werkzeug f\u00fcr das Zusammenf\u00fcgen von Dokumenten\r\n\r\npdftoppm \u2013 Umwandlung von PDF nach PPM\/PNG\/JPEG\r\npdftops \u2013 Umwandlung von PDF nach PostScript (PS)\r\n\r\nmittels Cairo\r\npdftohtml \u2013 Umwandlung von PDF nach HTML\r\n\r\npdftotext \u2013 Entnahme von Text\r\nDr. Kleinhirn.eu<\/pre>\n<p>Nun wollen wir schauen, welche Schriften in der PDF verwendet werden.<\/p>\n<p><strong>pdffonts poppler.pfd<\/strong><\/p>\n<p>Das Ergebnis nur die TrueType Helvetica und HelveticaNeue vom Mac und zwar <strong>emb (=yes)<\/strong>  d.h. die Schriften sind in das Dokument eingebettet.<\/p>\n<pre class=\"lang:default decode:true \" >name                                 type              encoding         emb sub uni object ID\r\n------------------------------------ ----------------- ---------------- --- --- --- ---------\r\nAAAAAB+Helvetica                     TrueType          MacRoman         yes yes no      11  0\r\nAAAAAC+HelveticaNeue                 TrueType          MacRoman         yes yes no      12  0<\/pre>\n<p>Nun noch die Tags und weitere Infos ausgeben mit:<\/p>\n<p><strong>pdfinfo poppler.pdf<\/strong><\/p>\n<p>Das Ergebnis:<\/p>\n<pre class=\"lang:default decode:true \" >Title:          poppler.pdf\r\nSubject:        poppler.pdf\r\nKeywords:       poppler.pdf\r\nAuthor:         Thomas Wenzlaff\r\nCreator:        \u00a9 2020 de.wenzlaff.twpdftagger 0.0.4 by Thomas Wenzlaff\r\nProducer:       iOS Version 14.2 (Build 18B92) Quartz PDFContext; modified using iText\u00ae 5.5.13.1 \u00a92000-2019 iText Group NV (AGPL-version)\r\nCreationDate:   Wed Dec  2 18:58:14 2020 CET\r\nModDate:        Fri Dec  4 11:47:19 2020 CET\r\nTagged:         no\r\nUserProperties: no\r\nSuspects:       no\r\nForm:           none\r\nJavaScript:     no\r\nPages:          1\r\nEncrypted:      no\r\nPage size:      842 x 595 pts (A4)\r\nPage rot:       0\r\nFile size:      458785 bytes\r\nOptimized:      no\r\nPDF version:    1.3<\/pre>\n<p>Schon interessant, welche Informationen man so mit PDFs evl. unwissentlich verteilt!<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Manchmal m\u00f6chte man aus einem PDF den Text extrahieren oder Infos aus dem PDF gewinnen. Das geht mit den poppler Utils auf dem Raspberry Pi. Wir laden uns die poppler.pdf als Beispiel in ein Verzeichnis. Dann rufen wir die pdftotext Anwendung auf: pdftotext poppler.pdf und wir erhalten eine neue Datei poppler.txt mit dem Text aus &hellip; <\/p>\n<p class=\"link-more\"><a href=\"http:\/\/blog.wenzlaff.de\/?p=15837\" class=\"more-link\"><span class=\"screen-reader-text\">\u201ePDFtoText (Pdf2Text), PDF to Fonts, PDF to Info\u201c <\/span>weiterlesen<\/a><\/p>\n","protected":false},"author":2,"featured_media":0,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_import_markdown_pro_load_document_selector":0,"_import_markdown_pro_submit_text_textarea":"","footnotes":""},"categories":[220,2173,808,1023,4129,4102,2752,7],"tags":[4150,4151,4147,4148,4149,1633],"class_list":["post-15837","post","type-post","status-publish","format-standard","hentry","category-anleitung","category-debian","category-linux-2","category-raspberry-pi","category-raspberry-pi-4-b","category-raspberry-pi-b","category-raspberry-pi-zero-w","category-tools","tag-pdf-2-text","tag-pdf-nach-text-umwandeln","tag-pdf-to-text","tag-pdf2text","tag-pdftotext","tag-umwandeln"],"_links":{"self":[{"href":"http:\/\/blog.wenzlaff.de\/index.php?rest_route=\/wp\/v2\/posts\/15837","targetHints":{"allow":["GET"]}}],"collection":[{"href":"http:\/\/blog.wenzlaff.de\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"http:\/\/blog.wenzlaff.de\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"http:\/\/blog.wenzlaff.de\/index.php?rest_route=\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"http:\/\/blog.wenzlaff.de\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=15837"}],"version-history":[{"count":0,"href":"http:\/\/blog.wenzlaff.de\/index.php?rest_route=\/wp\/v2\/posts\/15837\/revisions"}],"wp:attachment":[{"href":"http:\/\/blog.wenzlaff.de\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=15837"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"http:\/\/blog.wenzlaff.de\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=15837"},{"taxonomy":"post_tag","embeddable":true,"href":"http:\/\/blog.wenzlaff.de\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=15837"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}