Robots.txt
Inhaltsverzeichnis
Die robots.txt ist eine Textdatei, in der festgelegt wird, welche Verzeichnisse einer Webseite von den Crawlern einer Suchmaschine gelesen werden dürfen und welche nicht. Dabei ist es möglich, einzelne Dateien, ein ganzes Verzeichnis oder die gesamte Domain vom Crawling auszuschließen. Beim Aufruf der Webseite steuert der Crawler die robots.txt zuerst an und liest sie aus. Damit das funktionieren kann, muss die Datei aber im Root (Stammverzeichnis) der Domain hinterlegt sein.
Robots.txt einfach erklärt (Dauer 04:05 Min)
Hinweis: Es besteht keine Garantie, dass sich Suchmaschinen an die Einschränkungen bzw. Anweisungen in der robots.txt halten.
Das Robots Exclusion Standard Protokoll
Der Robots Exclusion Standard wurde 1994 entwickelt, um sicherzustellen, dass bestimmte Teile einer Domain von Crawlern nicht beachtet werden. Webmaster können mit der robots.txt das Verhalten der Crawler steuern. Außerdem ist es möglich, einen Verweis in der robots.txt auf die XML-Sitemap zu hinterlegen. Auch wenn das Protokoll die Ausgrenzung bestimmter Teile einer Webseite ermöglicht, ist eine absolute Geheimhaltung der ausgeschlossenen Teile nicht möglich. Einige Suchmaschinen crawlen diese Bereiche trotzdem. Wer also sicher gehen möchte, dass einige Bereiche nicht gecrawlt werden, muss diese mit anderen Mechanismen schützen.
Einrichten einer robots.txt
Das Anlegen einer robots.txt-Datei ist einfach und benötigt zuallererst einmal keine besonderen Tools, außer einem Texteditor. Zur Vereinfachung gibt es im Netz aber auch kostenfreie Angebote, die eine robots.txt automatisch erstellen, wie zum Beispiel bei Google: Dort kann jeder, der einen Account besitzt den Generator (unter Webmastertools / Google Search Console) nutzen und die Datei erstellen lassen.
Der Aufbau der robots.txt erfolgt immer nach dem gleichen Muster: Es gibt zwei Blöcke, im ersten wird der User Agent angegeben, im zweiten Block sind die Anweisungen für den Crawler hinterlegt. Um ein exakteres Ergebnis zu erzielen, ist es auch möglich, einen dritten Block einzufügen. Hier ist das Muster dann folgendermaßen angelegt: User Agent, Allow und Disallow.
In der Praxis sieht das dann folgendermaßen aus:
User-agent: Googlebot
Disallow:
Das Ergebnis dieser Anweisung ist, dass der Googlebot alle Seiten indexiert. Diese Anweisung muss in der robots.txt nicht zwingend stehen, damit der Googlebot die Seiten indexieren kann. Möchte der Webmaster die Indexierung der gesamten Seite unterbinden, nutzt er diesen Aufbau:
User-agent: Googlebot
Disallow:/
Soll nur ein bestimmtes Verzeichnis ausgeschlossen werden, sieht der Befehl folgendermaßen aus:
User-agent: Googlebot
Disallow: /meinbeispielverzeichnis/
Es gibt weiterhin die Möglichkeit, Wildcards zu nutzen. Große Suchmaschinen wie Google, Yahoo oder Bing unterstützen Ausdrücke wie * und $, um bestimmte Bereiche, Dateien oder Seiten auszuschließen. Um beispielsweise alle Suchmaschinen daran zu hindern, ein Verzeichnis zu crawlen, sieht die Anweisung folgendermaßen aus:
User-agent: *
Diallow: /meinbeispielverzeichnis/
Möchte man alle PDFs einer Domain vom crawlen ausschließen, gibt es diese Möglichkeit:
User-agent: Googlebot
Disallow: /*.pdf$
Sollen mehrere Verzeichnisse und Seiten bei bestimmten Webcrawlern ausgeschlossen werden, wird die Anweisung jeweils in einer neuen Zeile verwendet:
User-agent: Googlebot
User-agent: bingbot
Disallow: /meinbeispielverzeichnis/
Disallow: /meinebeispielseite1.html
Disallow: /meinebeispielseite2.html
Vor dem Upload in das Root-Verzeichnis sollte aber genau geprüft werden, ob die eingetragenen Befehle korrekt sind. Sind Fehler enthalten, kann das dazu führen, dass die Crawler die Anweisungen missachten und Seiten einlesen, die eigentlich gar nicht im Index auftauchen sollten. Google bietet in der Search Console die Möglichkeit, unter „Status“ eine Analyse der robots.txt durchzuführen.
Die Bedeutung der robots.txt für die Suchmaschinenoptimierung
Die Verwendung der robots.txt hat großen Einfluss auf die Suchmaschinenoptimierung. Seiten, die durch die Datei ausgeschlossen werden, erscheinen nicht in den Suchergebnislisten und können nicht ranken.
Ein zu großzügiger Umgang mit dem Ausschluss von Seiten kann allerdings auch zu Problemen führen. Deswegen ist es wichtig, die robotos.txt sorgfältig zu erstellen und zu kontrollieren. Ist die Datei sauber erstellt und enthält keine Fehler, sind beim Ranking keine bedeutenden Folgen zu befürchten.