Was ist noindex?

Noindex ist eine Anweisung mit der verhindert werden kann, dass die jeweilige Seite in den Index der Suchmaschinen aufgenommen wird und somit nicht in den Suchergebnissen der Suchmaschinen (SERPs) auftaucht.

Umsetzung der noindex-Anweisung

Seite per HTML Meta Tag auf noindex stellen

Die meist verwendete Variante ist, die Anweisung in den HTML-Quellcode einzufügen. Das beliebte WordPress Plugin „Yoast SEO“ nutzt ebenfalls diese Variante und erledigt dies für dich.
Der einzufügende HTML-Code sieht dabei wie folgt aus:
<meta name="robots" content="noindex">

Damit gilt die noindex-Anweisung für alle Bots. Es gibt aber auch die Möglichkeit die Anweisung nur für bestimmte Bots festzulegen und lautet dann wie folgt für z.B. den Googlebot:

<meta name="googlebot" content="noindex">

oder für den Bingbot:

<meta name="bingbot" content="noindex">

Die Anweisung nur für spezielle Bots zu tätigen macht aber in der Praxis meistens keinen Sinn, daher wird fast immer die Angabe mit „robots“ (also für alle Bots) verwendet.

Alternative Angabe per HTTP-response-header

Die andere Möglichkeit Seiten vom Index auszuschließen ist per X-Robots-Tag-Header. Dieser Header muss dann im Response Header der HTTP-Antwort stehen und sieht wie folgt aus:

X-Robots-Tag: noindex

Ein Grund diese Variante zu wählen könnte sein, dass man auf die Weiße auch für Ressourcen ohne HTML-Quellcode (z.B. PDFs, etc.) die noindex-Anweisung festlegen kann.

Unterschied zwischen noindex und disallow der robots.txt

Bei noindex wird die Seite zwar nicht in den Index aufgenommen aber trotzdem gecrawlt. Wohingegen bei der disallow-Anweisung das Crawling verboten wird (ACHTUNG: es kann trotzdem passieren dass die Seite gecrawlt wird) aber theoretisch trotzdem indexiert werden könnte.
Die Verwendung von beiden Anweisung für die selbe Seite sollte unterlassen werden, da sonst die noindex-Anweisung nicht gelesen werden kann, weil das Crawling verboten wurde.

Mehr Informationen dazu unter robots.txt.

Für welche Seiten sollte man noindex verwenden?

Vor allem bei Seiten mit Duplicate Content ist die erste Maßnahme die Seite nicht indexieren zu lassen, daher ist dies ein häufiger Anwendungsfall.

Seiteninterne Suchergebnis-Seiten indexieren zu lassen macht natürlich auch keinen Sinn. Aber Achtung: häufig wird die URL der Startseite als Suchergebnis-Seite verwendet und die Suche über einen GET-Parameter in der URL (z.B: s=suchwort) geregelt. Wenn dies der Fall ist, darf natürlich nicht die Startseite auf noindex gestellt werden, sondern hier muss der Canonical-Tag verwendet werden.

Manchmal kann es Sinn machen Seiten wie z.B. Impressum, Datenschutzerklärung, Cookie-Richtlinien nicht indexieren zu lassen. Hier gibt es aber keine Pauschalantwort und muss immer individuell entschieden werden.