Wiki.

Robots.txt.

Was ist eine robots.txt?

Die robots.txt ist eine Datei, die sich im Stamm­ver­zeichnis — dem Root — einer Domain befindet und Anwei­sungen an den Crawler der Such­ma­schinen enthält. Hier findet der Crawler die Unter­seiten einer Webseite, die von ihm besucht und gecrawlt werden dürfen. In dieser Datei kann auch der Hinweis hinter­legt werden, dass bestimmte Seiten für Such­ma­schinen für den Crawler nicht freigeben, also nicht gecrawlt werden dürfen  — aller­dings ohne Garantie. Die robots.txt ist das erste Dokument, das von einem Crawler beim Aufruf einer Seite abgerufen wird. Ein Verweis zur XML Sitemap sollte dort ebenfalls eingefügt werden, sodass der Crawler einen Überblick über alle vorhan­denen Unter­seiten einer Domain erhält.

Welche Anwei­sungen sind in der Datei enthalten?

Die Datei ist eine Textdatei in einem sehr einfachen, lesbaren Format und wird im Root der Webseite als UTF-8- oder ASCII-Textdatei erstellt (zum Beispiel mit dem Editor). In der robots.txt sind eine oder mehrere Regel­sätze für den Crawler enthalten, bei der die Groß- und Klein­schrei­bung wichtig ist und die Anwei­sungen von oben nach unten gelesen werden. Folgende Einträge findet man in einer robots.txt-Datei wieder:

Die Einträge in der Datei bestehen aus zwei Teilen: im ersten Teil wird fest­ge­legt, für welche user-agents (Robots) die Anweisung gilt. Im zweiten Teil befindet sich die Anweisung allow bzw. disallow. Die folgende Anweisung bedeutet, dass der Google Bot das Verzeichnis “autoren” nicht durch­su­chen darf:

user-agent: Googlebot

disallow: /autoren/

So sieht der Eintrag in einer robots.txt aus, wenn alle Such­ma­schinen die komplette Seite nicht durch­su­chen dürfen:

user-agent: *
disallow: /

Mit einem Dollar-Zeichen können Seiten, die auf eine bestimmte Endung (zum Beispiel Datei­for­mate wie .pdf oder .doc) enden, blockiert werden. Dazu wird die Anweisung “disallow: /* .doc$” bzw. “disallow: /* .pdf$” in der robots.txt hinter­legt. So könnte eine robots.txt aussehen:

user-agent: *
disallow: /login/
disallow: /temp/
disallow: /search/
disallow: /*.pdf$/

Sitemap: https://www.beispiel.de/sitemap.xml

Bedeutung für die Suchmaschinenoptimierung

Die Verwen­dung der robots.txt ist die wich­tigste Möglich­keit, das Verhalten von Such­ma­schinen-Crawlern indi­vi­duell zu steuern. User Agents sollten dabei nicht zu stark durch die Anwei­sungen einge­schränkt werden, da sich dies nach­teilig auf das Ranking der Webseite auswirkt. Es ist zu bedenken, dass mit den Seiten, die in der Datei einge­tragen sind, die Webseite nicht ranken wird. Gibt es keine oder kaum Einschrän­kungen für die Robots, kann es dazu kommen, dass Seiten mit Duplicate Content indexiert werden, was ebenfalls nicht gut für das Ranking ist. Die korrekte Verwen­dung hat aller­dings keine direkten positiven oder negativen Auswir­kungen auf das eigent­liche Ranking einer Webseite. Vielmehr wird mit ihr die Arbeit des Bots gesteuert — aber die korrekte Nutzung sorgt dafür, dass alle wichtigen Bereiche der Domain gecrawlt und aktuelle Inhalte indexiert werden. Tipp­fehler oder Fehler in der Syntax sollten vermieden werden, da diese Fehler dazu führen, dass Crawler die Anwei­sungen miss­achten und die Seiten dennoch crawlen. Wenn es dauer­hafte Probleme beim Abruf der Datei gibt, kommt es zu Beein­träch­ti­gungen beim Crawlen, sodass eine Webseite sogar aus dem Google Index entfernt werden kann. Nach Angaben von Google käme es bei rund 26 % der Crawl-Versuche zu Problemen. Daher lohnt es sich, die robots.txt zu über­prüfen: In der Search Console können Websei­ten­be­treiber die Korrekt­heit der Robots.txt analy­sieren und die Seiten einsehen, die durch Anwei­sungen blockiert wurden.

Ohne Kommunikation gibts keine Veränderung. Lust auf ein gutes Gespräch?

Welche Möglichkeiten hat dein Unternehmen im Bereich Online Marketing? Wie erreichst du deine Umsatzziele? Lass uns genau das herausfinden und gemeinsam Großes schaffen.