Hakrawler ein schneller golang Web-Crawler auf dem Pi im Docker – Wenzlaff.de

Wer einen Web-Crawler auf dem Pi laufen lassen will, kann sich mal den in Go geschiebenen hakrawler anschauen.

Blutzelle

Nach der Installation lassen wir das Programm im Docker (nur gegen eigene Server!) laufen, z.B. mit der Domäne http://kleinhirn.eu/

echo http://kleinhirn.eu | docker run –rm -i hakluke/hakrawler -subs -u

Hier ein Ausschnitt aus dem Dump:

http://blog.wenzlaff.de/?p=6195
http://kleinhirn.eu/2015/09/01/die-schlechtesten-airlines-der-welt-2015/
http://kleinhirn.eu/wp-content/uploads/2015/09/schlechtesten-Airlines-der-Welt.png
http://kleinhirn.eu/wp-content/uploads/2015/09/schlechtesten-Airlines-der-Welt.pdf
http://kleinhirn.eu/wp-content/uploads/2020/09/ziele-setzen.png
http://kleinhirn.eu/2020/09/04/top-7-wie-ziele-setzen/#more-5311
http://kleinhirn.eu/wp-content/uploads/2020/01/top-10-goals-2020.png
http://kleinhirn.eu/2020/01/10/top-10-goals-template/#more-4745
http://kleinhirn.eu/wp-content/uploads/2020/01/2020_Ziele-scaled.jpg
http://kleinhirn.eu/2020/01/08/ziele-2020/#more-4734
http://kleinhirn.eu/wp-content/uploads/2018/12/ziele-vorlage.png
http://kleinhirn.eu/2018/12/22/top-10-ziele-vorlage/#more-3822
http://kleinhirn.eu/2015/12/25/2016/
http://kleinhirn.eu/wp-content/uploads/2015/12/2016.png
http://kleinhirn.eu/wp-content/uploads/2015/12/2016.pdf
http://kleinhirn.eu/wp-content/uploads/2021/01/base58.png
http://kleinhirn.eu/2021/01/30/base58/#more-5706

http://blog.wenzlaff.de/?p=6195

http://kleinhirn.eu/2015/09/01/die-schlechtesten-airlines-der-welt-2015/

http://kleinhirn.eu/wp-content/uploads/2015/09/schlechtesten-Airlines-der-Welt.png

http://kleinhirn.eu/wp-content/uploads/2015/09/schlechtesten-Airlines-der-Welt.pdf

http://kleinhirn.eu/wp-content/uploads/2020/09/ziele-setzen.png

http://kleinhirn.eu/2020/09/04/top-7-wie-ziele-setzen/#more-5311

http://kleinhirn.eu/wp-content/uploads/2020/01/top-10-goals-2020.png

http://kleinhirn.eu/2020/01/10/top-10-goals-template/#more-4745

http://kleinhirn.eu/wp-content/uploads/2020/01/2020_Ziele-scaled.jpg

http://kleinhirn.eu/2020/01/08/ziele-2020/#more-4734

http://kleinhirn.eu/wp-content/uploads/2018/12/ziele-vorlage.png

http://kleinhirn.eu/2018/12/22/top-10-ziele-vorlage/#more-3822

http://kleinhirn.eu/2015/12/25/2016/

http://kleinhirn.eu/wp-content/uploads/2015/12/2016.png

http://kleinhirn.eu/wp-content/uploads/2015/12/2016.pdf

http://kleinhirn.eu/wp-content/uploads/2021/01/base58.png

http://kleinhirn.eu/2021/01/30/base58/#more-5706

Hier die Parameter aus der Hilfe:

docker run –rm -i hakluke/hakrawler –help

Usage of hakrawler:
  -d int
    	Depth to crawl. (default 2)
  -h string
    	Custom headers separated by two semi-colons. E.g. -h "Cookie: foo=bar;;Referer: http://example.com/"
  -insecure
    	Disable TLS verification.
  -json
    	Output as JSON.
  -proxy string
    	Proxy URL. E.g. -proxy http://127.0.0.1:8080
  -s	Show the source of URL based on where it was found. E.g. href, form, script, etc.
  -size int
    	Page size limit, in KB. (default -1)
  -subs
    	Include subdomains for crawling.
  -t int
    	Number of threads to utilise. (default 8)
  -timeout int
    	Maximum time to crawl each URL from stdin, in seconds. (default -1)
  -u	Show only unique urls.

Usage of hakrawler:

-d int

Depth to crawl. (default 2)

-h string

Custom headers separated by two semi-colons. E.g. -h "Cookie: foo=bar;;Referer: http://example.com/"

-insecure

Disable TLS verification.

-json

Output as JSON.

-proxy string

Proxy URL. E.g. -proxy http://127.0.0.1:8080

-s Show the source of URL based on where it was found. E.g. href, form, script, etc.

-size int

Page size limit, in KB. (default -1)

-subs

Include subdomains for crawling.

-t int

Number of threads to utilise. (default 8)

-timeout int

Maximum time to crawl each URL from stdin, in seconds. (default -1)

-u Show only unique urls.

Mehr auf GitHub.