Javabot, Du kommst hier net rein!

Die SEO Welt spricht seit zwei Tagen über nichts anderes, als die robots.txt und was ein SEO über die robots.txt wissen sollte (Original). Alles schön und gut, die beiden Artikel bieten wirklich gute Grundlagen zum Thema Robots-Management. Allerdings fehlt mir eindeutig die Möglichkeit bestimmte Robots komplett auszusperren!

Die robots.txt ist nämlich nur eine Liste, an die sich die Crawler halten können, aber nicht müssen! So ist es auch nicht verwunderlich, dass die meisten Robots Exclusions in der robots.txt auch nur von Google, BING, Yahoo interpretiert werden.

Wer einen eigenen Webserver betreibt wird sicherlich schon mindestens einmal mit einem Angriff der Javabots zu tun gehabt haben. Diese „scheißen“ auf gut deutsch auf die robots.txt und zwingen meistens kleinere Server recht schnell in die Knie. Solche und anderre Bösewichte lassen sich aber mit einem kleinen Eingriff in die .htaccess recht einfach blocken — es sei denn, sie liefern einen falschen User Agent mit.

Böse Bots aussperren

Um den eben benannten Javabot in einer beliebigen Version — es gibt mittlerweile sehr viele — auszusperren trägst Du folgendes in die .htaccess ein:

RewriteEngine On #(sofern nicht schon geschehen)
RewriteCond %{HTTP_USER_AGENT} ^Java
RewriteRule ^.*$ - [F]

Der Eintrag bewirkt, dass die Javabots einen „403 Access Forbidden“ Server Response bekommen

Um das Ganze zu testen, kannst Du cURL verwenden und Deine Webseite damit so aufrufen, als täte es der Javabot:

curl --user-agent Java http://domain.de

Die Sperre lässt sich natürlich auf jegliche Art Crawler und Spider ausweiten

Java bots und crawler aussperren per .htaccess

2 Kommentare » Schreibe einen Kommentar

Schreibe einen Kommentar

Pflichtfelder sind mit * markiert.