Da sich das Internetarchiv, auch bekannt unter dem Namen Wayback Machine – Internet Archive oder einfach archive.org nicht an die robots.txt Einträge hält, muss man wohl zu anderen Mitteln greifen.

Nicht jeder will das archive.org auf seiner Webseite

Vornweg muss gesagt werden, die Leute von archive.org müssen sich nicht an die robots.txt halten. Eigentlich muss das niemand. Da diese Datei eher als Empfehlung zu sehen ist. Des weiteren hab ich nichts gegen die Webseite. Aber es muss sich, so auch ich nicht, auch niemand rechtfertigen, wenn er bestimmte Webseiten oder Archive aussperren möchte.

Der bekannte Weg über die htaccess funktioniert so scheinbar nicht mehr, wie hier schon beschrieben steht. Einmal ganz davon abgesehen das der User-agent: ia_archiver nicht, oder nicht mehr zu archive.org gehört, sondern zu Alexa. Falls sich Alexa an die robots.txt hält, wird damit Alexa ausgesperrt!

Der User-Agent von archive.org kommt heute im schicken Firefox gewannt daher, oder leitet den User-Agent direkt vom Besucher durch, keine Ahnung.

207.241.227.105 - - [22/Jan/2020:08:01:46 +0100] "GET / HTTP/1.1" 200 8944 "https://web.archive.org/" "Mozilla/5.0 (Windows NT 10.0; rv:68.0) Gecko/20100101 Firefox/68.0"

An der Stelle kommt dann das harte Geschütz, die htaccess Datei. Warum diese und nicht gleich per iptables/Firewall regeln? Ganz einfach, nicht jeder hat Zugriff auf den Server. Da bietet sich die htaccess schon eher an. Um das Archiv auszusperren gehe ich persönlich einen sehr extremen Weg, einfach einen riesigen IP Rang aussperren. Der kommt ohnehin aus den USA und ist für meine Webseite völlig irrelevant.

order allow,deny
allow from all
deny from 207.241.0.0/16

Bumm ruhe 😊. So ganz einfach ist es dann doch nicht. Bei Kuketz hab ich noch diese IP Range gefunden, aus der sich noch ein weiterer htaccess Eintrag ergibt: 208.70.24.0/21.

Alternative kann man auch folgendes eintragen (ist dann immer noch ein sehr großer Bereich):

deny from 207.241.200.0/21
deny from 207.241.208.0/20
deny from 207.241.224.0/20
deny from 207.241.240.0/21
deny from 207.241.248.0/22
deny from 207.241.252.0/23
deny from 207.241.254.0/24
deny from 207.241.255.0/32

Hier noch ein paar einzel IP-Adressen die ich bisher gefunden habe. Für jene welche die nur bestimmte IPs sperren wollen:

deny from 207.241.229.161
deny from 207.241.226.230
deny from 207.241.225.87
deny from 207.241.229.195
deny from 207.241.227.105
deny from 207.241.226.219
deny from 207.241.225.246
deny from 207.241.232.123
deny from 207.241.225.244
deny from 207.241.225.235
deny from 207.241.232.121
deny from 207.241.229.226
deny from 207.241.229.194
deny from 207.241.225.87
deny from 207.241.230.164

Wer mehr findet darf sie gerne als Kommentar posten.

1 Star2 Stars3 Stars4 Stars5 Stars (No Ratings Yet)
Loading...