„> 1000 fehlerhafte Links gefunden“ – notizBlog

Über die robots.txt kann man festlegen, ob und wie Crawler (z.B. von Suchmaschinen, aber eben auch jene von Archive.org) die eigene Seite indizieren können. In einem Blogpost von 2017 werden ein paar Probleme damit erläutert: https://blog.archive.org/2017/04/17/robots-txt-meant-for-search-engines-dont-work-well-for-web-archives/

Eine umfangreiche Anleitung, wie die robots.txt funktioniert gibt es z.B. im SelfHTML-Wiki: https://wiki.selfhtml.org/wiki/Grundlagen/Robots.txt

LG