Canonical Tag und Noindex Tag niemals zusammen nutzen

John Müller sagte neulich: „Nutze niemals einen Canonical-Tag von Seite X zu einer indexierbaren Seite Y, wenn auf der Seite X ein noindex Tag ist. Ich würde eines der beiden Tags nutzen, aber nicht beide!“ John Müller. Und jetzt weiß ich warum!

Canonical-Tag und Noindex-Tag niemals zusammen nutzen

Das Problem mit dem Canonical Tag und Noindex Tag auf einer Seite

Wenn man Google sagt, Seite X soll nicht in den Index, dann markiert man diese mit einem noindex robots Tag.

Fall 1: Wenn aber auf der selben Seite X dann ein selbstreferenzierender Canonical Tag enthalten ist, also ein Canonical auf sich selbst, also ein Canonical auf eine noindex Seite, dann macht das keinen Sinn.

Fall 2: „Der Canonical-Tag gibt eigentlich an, dass beide Seiten identisch sind. Die mit noindex markierte Seite gibt an, dass die Seite nicht indexiert werden darf. Die Frage für Google: Dürfen dann beide Seiten nicht indexiert werden?“ John Müller

verwirre Google nicht!

Es ist dann so, als teile man Google mit, nehme für die noindex Seite X eine Alternative Seite. In diesem Fall wieder X und die ist ja auf noindex. Das ist ein Widerspruch in sich und Google ist verwirrt. Man darf nie vergessen, dass Google immer noch eine Maschine ist. Eine Maschine kann nicht logisch denken und wird extrem verwirrt, sobald man von der vorgegeben Norm abweicht. Soweit die Theorie.

Proof: Wird eine noindex Seite indexiert, wenn Sie einen Canonical auf sich selbst hat?

Jain. Es kann halt vorkommen! Muss aber nicht. Kurzum, keiner weiß dann mehr, was die Maschine daraus macht. Ich habe gerade eine von mehreren URLs gefunden, die einen noindex Tag hat, aber der Canonical auf sich selbst verweist. Diese URL ist im Index, obwohl sie einen noindex Tag hat! Dank des Canonicals wird also der Robots-Tag völlig ignoriert!

Hier ist deutlich zu erkennen, dass die URL einen robots Noindex Tag hat
noindex-canonical

Und hier deutlich zu erkennen, dass diese URL dennoch im Index ist!
noindex-canonical-index

Learnings aus dem Beispiel

  • Selbstreferenzierte Canonicals und Robots noindex Tag zusammen zu nutzen ist nicht nur Blödsinn, sondern sogar „gefährlich“, da das noindex oder der Canonical komplett ignoriert werden könnte.
  • Wenn man einer noindex Seite ein anderes Canonical gibt, dann kann es passieren, dass der noindex bis zur referenzierten indexierbaren Seite durchgereicht wird und dafür sorgt, dass auch diese aus dem Index fliegt. Jens Fauldrath und John Müller
  • Wenn die URL nicht in den Index soll, es aber ein anderes Original dazu gibt (Duplicate Content), dann das noindex einfach weglassen und per canonical zum Original verlinken.
  • Wenn die URL kein Duplicate Content erzeugt (also kein anderes Original hat) und dennoch nicht in den Index soll, Canonical weglassen und ein noindex setzen.
  • Wenn die URL auf index steht, dann sollte der Canonical Tag niemals auf eine andere Seite zeigen als sich selbst. Ob ein Meta Robots index Eintrag existiert oder gar kein Robots Eintrag existiert ist gleich. Ein nicht existenter Robots-Tag bedeutet index.

Mein Fazit zum Canonical Tag und Robots Index Tag in Kombination

Ich ziehe den folgenden Schluss aus der Geschichte:

Canonical-Tag und Noindex-Tag niemals zusammen nutzen

  • Laut Google sollte ein Canonical nur dann gesetzt werden, wenn die URL des Canonical Links eine andere ist, als die aufgerufene. Also nur dann, wenn Duplicate Content vermieden werden soll. („Including a rel=canonical link in your webpage is a strong hint to search engines your about preferred version to index among duplicate pages on the web.“ Google Webmaster Blog)
  • Ein Canonical darf nicht gesetzt werden, wenn ein Noindex Robots Tag gesetzt ist. Google weiß dann nicht, ob das Noindex für die URL oder auch für die canonisierte URL gilt. Hier wird beides ignoriert oder schlimemr noch, die referenzierte Seite aus dem Index genommen.
  • Vice Versa: Ein Robots noindex Tag darf nur dann gesetzt werden, wenn kein Canonical gesetzt ist (diese Einsicht ist die Umkehrung des vorherigen Punktes)
  • Ein Canonical hat Prio vor dem Robots Index oder Noindex Tag, denn ohne Duplicate Content kein Canonical Link notwendig. Noindex ist dann individuell nach der Intention des Beitrags zu wählen. Das ist eine Folgerung, die nicht bewiesen werden kann.

Nachtrag 9.6.15 – WordPress Plugin wpSEO macht das für euch bereits richtig

Wie es scheint, liefert das SEO-Plugin wpSEO in der aktuellen Version bereits eine Möglichkeit des geforderten Prozedere. Sobald ein Noindex Tag gesetzt wird, wird das Canonical entfernt.

Screenshot 2015-06-11 um 22.13.40

Diese Beitrag stellt nur meine Beobachtung und eine Kuration verschiedener Quellen zum Thema Canonical Tag und Robots Tag. Keine Gewehr für Richtigkeit. Fehlaussagen möglich. Solltest Du es besser wissen, dann wäre ich Dir sehr dankbar, wenn Du eine nicht korrekte Aussage im Kommentar richtig stellen würdest.

Dieser Beitrag wurde hierher importiert. Das Datum der Veröffentlichung war 1.6.15. Die Inhalte stimmen aber auch heute noch.

4 Kommentare » Schreibe einen Kommentar

  1. Hallo Viktor,

    habe mir gerade deinen Beitrag durchgelesen und wollte kurz meine Meinung bzw. meine Erfahrung teilen. Natürlich kenne ich die Aussage von John Müller, dass ein Canonical-Tag nicht mit einer Noindex-Anweisung kombiniert werden sollte. Aus meiner langjährigen Erfahrung ist mir aber kein einziger Fall bekannt, indem eine kanonisierte URL aus dem Index geflogen wäre, weil eine Kopie dieser URL eine noindex-Anweisung + ein Canonical-Tag auf das Original (die kanonisierte URL) enthielt. Da das Canonical-Tag nur als Empfehlung gilt, an welche Google sich halten sollte, aber nicht halten muss, verwende ich häufig noch ein noindex als „Safeguard“ um ganz sicher zu gehen, dass die Kopie nicht indexiert wird. Bisher habe ich damit ausschließlich positive Erfahrungen gemacht. Mir ist nicht ein einziger Fall bekannt, indem das noindex ignoriert worden wäre oder sogar die kanonisierte URL deindexiert worden wäre.
    Für mich persönlich (eigene Meinung) macht das auch keinen Sinn. Da ich mit einem Canonical-Tag auf das Original verweise und damit zum Ausdruck bringe, dass die vorliegende Kopie nicht indexiert werden soll. Zusätzlich kann (muss ich laut Google aber zwar nicht, die Erfahrung zeigt aber, dass Google mit Canonical-Tags nicht immer so umgeht, wie man das haben möchte – auch wenn sie im Sinne von Google korrekt gesetzt wurden) ich noch eine noindex-Anweisung setzen, die für Google verbindlich ist. Somit stelle ich sicher, dass Google nicht nur das Original kennt, sondern meine Kopie definitiv nicht indexiert (was alleine mit dem Canonical-Tag leider nicht immer sichergestellt ist).
    Aber jetzt kommt der Knackpunkt: Warum sollte Google denn ein Signal (noindex) einer URL (z. B. einer Kopie eines Inhaltes bzw. einer Variante) auf eine andere URL übertragen, die ich als Original deklariere und die auf index steht? Weißt du, was das bedeuten würde? Ich kann die Seite eines Konkurrenten kopieren/spiegeln, alle Seiten auf noindex setzen und ein Cross-Canonical-Tag auf die Unterseiten meines Konkurrenten setzen. Nach deiner Definition – und der von John Müller – würde das dann bedeuten, dass ich damit den kompletten Shop meines Konkurrenten deindexiere. ;-)

    Auch an einem Self-Canonical in Kombination mit noindex kann ich nichts falsches finden. Ich kann doch die URL als Original deklarieren und dennoch nicht indexieren lassen. Ob das jetzt besonders viel Sinn macht, steht auf einem anderen Blatt, aber ich finde nicht, dass ich Google damit verwirre. Das CT sagt (Empfehlung) „Ich bin das Original“ und das Noindex (Anweisung) sagt: „Aber bitte indexiere mich nicht.“.

    Um noch die „Auflösung“ für deine Seite zu liefern, die trotz „noindex“-Anweisung indexiert ist: Schon mal drüber nachgedacht, dass es sein könnte, dass die Seite indexiert wurde und die noindex-Anweisung erst später ergänzt wurde. Die URL dann nicht mehr gecrawlt wurde und deshalb noch im Index ist? Evtl. mal die URL über „Abruf wie durch Google“ anpingen und schauen, was passiert.

    Disclaimer: Das war meine eigene Meinung – beruhend auf meiner Erfahrung. Ich will nicht ausschließen, dass du Recht hast. Aber ich kann das leider in keinster Weise bestätigen und wie ich oben beschrieben habe, würde das auch bedeuten, dass ich somit krassestes Blackhat betreiben könnte. Wenn du mir aber den Beweis bringst, dass man sich somit tatsächlich Seiten aus dem Index schießen kann, dann freue ich mich auf Beispiele. Das Thema ist jedenfalls ein Dauerbrenner. Leider erzählen mir immer nur die Kollegen, dass sie das schon erlebt hätten. Mit einem konkreten Beispiel kam mir bisher noch keiner.

    Beste Grüße,
    Christoph

  2. Hier im Beitrag geht es nicht um Johns Meinung, sondern eine Netzwerktheorie, die Google definiert hat. Mag sein, dass echte Erfahrungen anders sind, aber Definition ist Definition. Wer für Google optimiert soll sich daran halten, wenn es kein Risiko geben soll. Auch wenn es noch so klein ist, es ist da, wenn man sich nicht an Definitionen hält.

    Es macht aus netzwerktheoretischer Sicht einfach keinen Sinn auf einer Noindex Seite auf ein Original zu verweisen.

    Ein eigenreferenzierter Canonical ist per se falsch. Auf einer Noindex Seite erst Recht. Er ist nur zu setzen, wenn die URL der Seite von der eigentlichen Schreibweise abweicht, bspw. durch Parameter.

    >>Ich kann die Seite eines Konkurrenten kopieren/spiegeln, alle Seiten auf noindex setzen und ein Cross-Canonical-Tag auf die Unterseiten meines Konkurrenten setzen.
    Ein cross-domain canonical interpretiert Google als einen „soften 301“ und folgt per Bot genau so wie einen 301, nur dass der User auf der ursprünglichen URL ohne Redirect verbleibt. https://webmasters.googleblog.com/2009/12/handling-legitimate-cross-domain.html

  3. Die Canonical-Tags müssen ja auf der Seite mit dem dublicate content platziert werden. Was mache ich bei einem CMS-System, dass doppelten Content erzeugt? Es gibt ja offiziell nur die eine bearbeitbare Seite. Auf der Seite habe ich vielleicht für einen Flyer nochmal eine kürzere URL erzeugt z. B. www.website.de/produktinfo. Die eigentliche relevante Inhaltsseite ist aber www.website.de/abc/loesungen/produktinfo.
    Wie kann ich jetzt dem dublicate-content das Canonical-Tag geben? Ich kann es in der Pflege der Seite nicht einfügen, weil ich auch den zweiten Seitenpfad auf der Zielseite des Canonical-Tags erstellt habe.

  4. Auf der Seite habe ich vielleicht für einen Flyer nochmal eine kürzere URL erzeugt z. B. www.website.de/produktinfo. Die eigentliche relevante Inhaltsseite ist aber www.website.de/abc/loesungen/produktinfo.

    Wenn Dein CMS hier keine Möglichkeit hat, auf der Flyer-Seite einen Canonical zu setzen, hast Du schlechte Karten das Ganze per Canonical zu lösen.

    Letzte Möglichkeit ist es dann per htaccess die URL www.website.de/produktinfo per 301 Redirect auf die URL www.website.de/abc/loesungen/produktinfo umzuleiten. Aus genau so einem Grund habe ich in diversen Shops mehrere hundert htaccess Anweisungen :-(

Schreibe einen Kommentar

Pflichtfelder sind mit * markiert.


%d Bloggern gefällt das: