Wer einen Web-Crawler auf dem Pi laufen lassen will, kann sich mal den in Go geschiebenen hakrawler anschauen.
Nach der Installation lassen wir das Programm im Docker (nur gegen eigene Server!) laufen, z.B. mit der Domäne http://kleinhirn.eu/
echo http://kleinhirn.eu | docker run –rm -i hakluke/hakrawler -subs -u
Hier ein Ausschnitt aus dem Dump:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 |
http://blog.wenzlaff.de/?p=6195 http://kleinhirn.eu/2015/09/01/die-schlechtesten-airlines-der-welt-2015/ http://kleinhirn.eu/wp-content/uploads/2015/09/schlechtesten-Airlines-der-Welt.png http://kleinhirn.eu/wp-content/uploads/2015/09/schlechtesten-Airlines-der-Welt.pdf http://kleinhirn.eu/wp-content/uploads/2020/09/ziele-setzen.png http://kleinhirn.eu/2020/09/04/top-7-wie-ziele-setzen/#more-5311 http://kleinhirn.eu/wp-content/uploads/2020/01/top-10-goals-2020.png http://kleinhirn.eu/2020/01/10/top-10-goals-template/#more-4745 http://kleinhirn.eu/wp-content/uploads/2020/01/2020_Ziele-scaled.jpg http://kleinhirn.eu/2020/01/08/ziele-2020/#more-4734 http://kleinhirn.eu/wp-content/uploads/2018/12/ziele-vorlage.png http://kleinhirn.eu/2018/12/22/top-10-ziele-vorlage/#more-3822 http://kleinhirn.eu/2015/12/25/2016/ http://kleinhirn.eu/wp-content/uploads/2015/12/2016.png http://kleinhirn.eu/wp-content/uploads/2015/12/2016.pdf http://kleinhirn.eu/wp-content/uploads/2021/01/base58.png http://kleinhirn.eu/2021/01/30/base58/#more-5706 |
Hier die Parameter aus der Hilfe:
docker run –rm -i hakluke/hakrawler –help
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 |
Usage of hakrawler: -d int Depth to crawl. (default 2) -h string Custom headers separated by two semi-colons. E.g. -h "Cookie: foo=bar;;Referer: http://example.com/" -insecure Disable TLS verification. -json Output as JSON. -proxy string Proxy URL. E.g. -proxy http://127.0.0.1:8080 -s Show the source of URL based on where it was found. E.g. href, form, script, etc. -size int Page size limit, in KB. (default -1) -subs Include subdomains for crawling. -t int Number of threads to utilise. (default 8) -timeout int Maximum time to crawl each URL from stdin, in seconds. (default -1) -u Show only unique urls. |
Mehr auf GitHub.