Webseite abrufen wie der Google Bot

Hin und wieder muss ein Webworker seine Webseite aus den Augen des Google Bots sehen. Ich zeige hier drei Wege, wie Du die Webseiten wie durch einen GoogleBot abrufen kannst.

Wenn Google beim Crawlen der Webseite Fehler entdeckt, die Du entweder im Browser nicht nachvollziehen kannst oder Du sehen willst, was andere Webseiten dem Googlebot an Inhalten präsentieren, dann können die folgenden drei Varianten dabei sehr behilflich sein eine Webseite wie ein Googlebot abzurufen:

Abruf wie durch Googlebot

Es gibt drei Varianten eine Webseite wie durch den Googlebot abzurufen:

  1. Abrufen mit cURL:
    Mit cURL lässt sich der UserAgent auf den GoogleBot einstellen, so dass cURL die Webseite wirklich so abrufen kann wie der Google Bot. Das funktioniert folgendermaßen:
    curl --user-agent Googlebot/2.1 http://www.url.de

    Um die Headerinformationen zu bekommen, muss man den Befehl wie folgt erweitern:

    curl -I -L --user-agent Googlebot/2.1 http://www.url.de
  2. Abrufen mit Web-Sniffer
    Mit dem Web-Sniffer lassen sich Webseiten unter anderem abrufen, wie durch den Googlebot. Dazu einfach unter User Agent den Googlebot auswählen. Die Ausgabe zeigt dann auf einen Blick, wie die Headerinformationen und das zurückgelieferte HTML aussehen.
  3. Google Webmaster Tools
    Das ist die unflexibelste Lösung, da hierzu nur eigene Webseiten, die unter Google Webmaster Tools angemeldet sing untersucht werden können und Google hier nur ein Erfolg oder Misserfolg meldet. Auf diese Weise lassen sich bei Fehlern weder Headerinformationen ausgeben lassen, noch die Response, die den Fehler verursacht hat.

Abruf wie durch Googlebot

Kommentare:

Kommentare zum Beitrag lesen »
Schreibe selbst einen Kommentar »


Weitere Beiträge in dieser Kategorie:

Wer Slideshare nutzt muss jetzt sofort handeln!

Wer Slideshare auf einer deutschen Seite eingebettet hat, muss jetzt dringend handeln! Sonst besteht eine hohe Abmahnungsgefahr! Es hat sich nämlich herausgestellt, dass eine Einbindung von Slideshare-Präsentationen nach deutschem Recht datenschutzwidrig ist. Die Embedds enthalten Tracking-Codes, die Drittanbietern IP-Adresse der … Weiterlesen →

1 Kommentar » Schreibe einen Kommentar

Hinterlasse eine Antwort

Pflichtfelder sind mit * markiert.


Du kannst folgende HTML-Tags benutzen: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>