{"id":14150,"date":"2020-03-01T15:47:28","date_gmt":"2020-03-01T14:47:28","guid":{"rendered":"http:\/\/blog.wenzlaff.de\/?p=14150"},"modified":"2020-03-04T18:11:04","modified_gmt":"2020-03-04T17:11:04","slug":"java-einzeiler-des-tages-lesen-einer-webseite-mit-jsoup-den-open-source-html-parser","status":"publish","type":"post","link":"http:\/\/blog.wenzlaff.de\/?p=14150","title":{"rendered":"Java Einzeiler des Tages: Lesen einer Webseite mit  jsoup den Open source HTML Parser"},"content":{"rendered":"<p>Mit <a href=\"https:\/\/jsoup.org\/\" rel=\"noopener noreferrer\" target=\"_blank\">JSoup<\/a> kann ganz einfach eine Webseite gelesen werden. <\/p>\n<p><a href=\"http:\/\/blog.wenzlaff.de\/wp-content\/uploads\/2020\/03\/jsoup.png\"><img loading=\"lazy\" decoding=\"async\" src=\"http:\/\/blog.wenzlaff.de\/wp-content\/uploads\/2020\/03\/jsoup-1024x705.png\" alt=\"\" width=\"525\" height=\"361\" class=\"aligncenter size-large wp-image-14154\" srcset=\"http:\/\/blog.wenzlaff.de\/wp-content\/uploads\/2020\/03\/jsoup-1024x705.png 1024w, http:\/\/blog.wenzlaff.de\/wp-content\/uploads\/2020\/03\/jsoup-300x207.png 300w, http:\/\/blog.wenzlaff.de\/wp-content\/uploads\/2020\/03\/jsoup-768x529.png 768w, http:\/\/blog.wenzlaff.de\/wp-content\/uploads\/2020\/03\/jsoup-1536x1057.png 1536w, http:\/\/blog.wenzlaff.de\/wp-content\/uploads\/2020\/03\/jsoup.png 1598w\" sizes=\"auto, (max-width: 525px) 100vw, 525px\" \/><\/a>Dazu einfach in der pom.xml:<\/p>\n<pre class=\"lang:xhtml decode:true \">&lt;dependency&gt;\r\n\t\t\t&lt;groupId&gt;org.jsoup&lt;\/groupId&gt;\r\n\t\t\t&lt;artifactId&gt;jsoup&lt;\/artifactId&gt;\r\n\t\t\t&lt;version&gt;1.12.2&lt;\/version&gt;\r\n&lt;\/dependency&gt;<\/pre>\n<p>erg\u00e4nzen und folgenden Einzeiler:<\/p>\n<p><strong>System.out.println(&#8222;Webseite: &#8220; + Jsoup.connect(&#8222;http:\/\/wenzlaff.info&#8220;).get().html());<\/strong><\/p>\n<p>Das Ergebnis ist dann die HTML Seite. Mit <a href=\"https:\/\/jsoup.org\/cookbook\/\" rel=\"noopener noreferrer\" target=\"_blank\">JSoup<\/a> k\u00f6nnen auch einfach <a href=\"https:\/\/jsoup.org\/cookbook\/\" rel=\"noopener noreferrer\" target=\"_blank\">Filter und Selektoren<\/a> erstellt werden. Es unterst\u00fczt leider <strong>kein JavaScript<\/strong>.<br \/>\nDaf\u00fcr kann dann HtmlUnit oder Selenium verwendet werden.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Mit JSoup kann ganz einfach eine Webseite gelesen werden. Dazu einfach in der pom.xml: &lt;dependency&gt; &lt;groupId&gt;org.jsoup&lt;\/groupId&gt; &lt;artifactId&gt;jsoup&lt;\/artifactId&gt; &lt;version&gt;1.12.2&lt;\/version&gt; &lt;\/dependency&gt; erg\u00e4nzen und folgenden Einzeiler: System.out.println(&#8222;Webseite: &#8220; + Jsoup.connect(&#8222;http:\/\/wenzlaff.info&#8220;).get().html()); Das Ergebnis ist dann die HTML Seite. Mit JSoup k\u00f6nnen auch einfach Filter und Selektoren erstellt werden. Es unterst\u00fczt leider kein JavaScript. Daf\u00fcr kann dann HtmlUnit oder Selenium &hellip; <\/p>\n<p class=\"link-more\"><a href=\"http:\/\/blog.wenzlaff.de\/?p=14150\" class=\"more-link\"><span class=\"screen-reader-text\">\u201eJava Einzeiler des Tages: Lesen einer Webseite mit  jsoup den Open source HTML Parser\u201c <\/span>weiterlesen<\/a><\/p>\n","protected":false},"author":2,"featured_media":0,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_import_markdown_pro_load_document_selector":0,"_import_markdown_pro_submit_text_textarea":"","footnotes":""},"categories":[220,5,79,7],"tags":[3922,3921,1722,3924,2178,2577,3923,2578,2182,3920],"class_list":["post-14150","post","type-post","status-publish","format-standard","hentry","category-anleitung","category-java","category-programmierung","category-tools","tag-einzeiler","tag-fetch-url","tag-html","tag-html-parser","tag-java","tag-jsoup","tag-open-source","tag-parser","tag-programmierung","tag-url-holen"],"_links":{"self":[{"href":"http:\/\/blog.wenzlaff.de\/index.php?rest_route=\/wp\/v2\/posts\/14150","targetHints":{"allow":["GET"]}}],"collection":[{"href":"http:\/\/blog.wenzlaff.de\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"http:\/\/blog.wenzlaff.de\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"http:\/\/blog.wenzlaff.de\/index.php?rest_route=\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"http:\/\/blog.wenzlaff.de\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=14150"}],"version-history":[{"count":0,"href":"http:\/\/blog.wenzlaff.de\/index.php?rest_route=\/wp\/v2\/posts\/14150\/revisions"}],"wp:attachment":[{"href":"http:\/\/blog.wenzlaff.de\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=14150"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"http:\/\/blog.wenzlaff.de\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=14150"},{"taxonomy":"post_tag","embeddable":true,"href":"http:\/\/blog.wenzlaff.de\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=14150"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}