Crawler

Inhaltsverzeichnis

1 Was ist ein Crawler?
2 Welche unterschiedlichen Crawler gibt es?
3 Wie funktioniert ein Crawler?
4 Bedeutung für SEO

Ein Crawler ist ein automatisiertes Programm, welches systematisch indexierte Internetseiten aus dem Web abruft und deren Inhalte scannt.

Was ist ein Crawler?

Ein Crawler ist ein Programm, welches automatisiert Webseiten im Internet besucht und deren Inhalte ausliest. Crawler werden auch als Robots oder Spider bezeichnet, weil deren Scan-Verhalten vergleichbar mit einem Spinnennetz ist. Sie durchlaufen das Web von Seite zu Seite und gelangen über interne oder externe Verlinkungen auf weitere Websites. Dadurch verzweigt sich die erfasste Struktur immer weiter.

Der erste Crawler war der World Wide Web Wanderer in den 1990ern. Seine Aufgabe lag zunächst darin, das Wachstum des Internets nachzuvollziehen. Der erste öffentliche Nachfolger war der Webcrawler im Jahr 1994. Heutzutage bezeichnet man jede Automatisierung, die selbstständig Inhalte im Internet durchsucht, als Crawler.

Welche unterschiedlichen Crawler gibt es?

Ein Großteil der Crawler kommt von den Suchmaschinen selbst, die das Web immer wieder nach indexierten Websites durchsuchen. Daneben gibt es aber auch noch weitere Crawler mit verschiedenen Aufgaben:

Data-Mining: Diese Robots durchsuchen das Internet nach spezifischen Daten, wie E-Mail-Adressen. Häufig werden diese Crawler für Spam missbraucht.
Analyse: Es gibt spezielle Crawler, die das Web für wissenschaftliche Zwecke durchforsten, um zum Beispiel den Zuwachs an neuen Internetseiten zu messen.
Plagiatsscanner: Diese Crawler vergleichen Inhalte mit ähnlichen Seiten, um Plagiate und Urhebermissbrauch aufzudecken.
Scraping: Diese Technik nutzen zum Beispiel Vergleichsportale, die sich ihre Inhalte von anderen Websites ziehen. Allerdings wird auch dieser Crawler häufig von Spam-Seiten missbraucht.

Wie funktioniert ein Crawler?

Der Crawler gehört neben dem Algorithmus zu den wichtigsten Werkzeugen einer Suchmaschine. Er ist dafür zuständig, Inhalte im Web zu finden. Nur so können alle relevanten Seiten indexiert werden. Dafür bekommt er von der Suchmaschine die Information, welche URLs er scannen soll und arbeitet diese sukzessive ab.

Webcrawler besuchen ausschließlich Websites, die im Index der Suchmaschine sind und entsprechend gekennzeichnet sind. Webseitenbetreiber können dem Crawler mit einer robots.txt-Datei oder mit bestimmten Meta-Tags im HTML-Header der Seite mitteilen, ob eine Unterseite indexiert werden soll oder nicht. Sobald das Attribut „noindex, nofollow“ gesetzt ist, wird eine Seite vom Crawling ausgeschlossen und ist für die Suchmaschine quasi unsichtbar.

Besucht ein Crawler eine Website, scannt er dort den gesamten Content. Das bedeutet, dass er alle Texte und Daten ausliest, die er dort finden kann. Anschließend speichert er diese Informationen in einer Datenbank – dem sogenannten Cache – ab.

Bedeutung für SEO

Webseitenbetreibern ist es ein großes Anliegen, dass Crawler auf ihre Seite gelangen und deren Inhalte optimal durchsuchen können. Denn nur so gelangen die Inhalte in den Index der Suchmaschine und können dort ein gutes Ranking erzielen. Um den Robot bei seiner Arbeit zu unterstützen, sollten die richtigen Linkattribute vergeben und eine robots.txt-Datei angelegt werden. Inhalte, die nicht für ein Ranking gedacht sind, können bewusst aus dem Index ausgeschlossen werden.

Die Suchmaschine bevorzugt Webseiten, die sich gut crawlen lassen. Dabei helfen eine flache Content-Hierarchie und eine saubere Linkstruktur. Eine hohe Anzahl an Backlinks trägt außerdem dazu bei, dass der Crawler häufiger auf der eigenen Webseite vorbeischaut. Sie wirkt dann als relevant und vertrauenswürdig

Wir unterstützen Sie bei der Suchmaschinenoptimierung

Sie haben ausreichend Informationen zum Thema Crawler erhalten? Lassen Sie sich jetzt bei der Suchmaschinenoptimierung unterstützen und schreiben Sie uns eine kurze Nachricht. Gemeinsam finden wir eine geeignete Lösung.