Wiki.

Robots.txt

Was ist eine robots.txt?

Die robots.txt ist eine Datei, die sich im Stammverzeichnis – dem Root – einer Domain befindet und Anweisungen an den Crawler der Suchmaschinen enthält. Hier findet der Crawler die Unterseiten einer Webseite, die von ihm besucht und gecrawlt werden dürfen. In dieser Datei kann auch der Hinweis hinterlegt werden, dass bestimmte Seiten für Suchmaschinen für den Crawler nicht freigeben, also nicht gecrawlt werden dürfen  – allerdings ohne Garantie. Die robots.txt ist das erste Dokument, das von einem Crawler beim Aufruf einer Seite abgerufen wird. Ein Verweis zur XML Sitemap sollte dort ebenfalls eingefügt werden, sodass der Crawler einen Überblick über alle vorhandenen Unterseiten einer Domain erhält.

Welche Anweisungen sind in der Datei enthalten?

Die Datei ist eine Textdatei in einem sehr einfachen, lesbaren Format und wird im Root der Webseite als UTF-8- oder ASCII-Textdatei erstellt (zum Beispiel mit dem Editor). In der robots.txt sind eine oder mehrere Regelsätze für den Crawler enthalten, bei der die Groß- und Kleinschreibung wichtig ist und die Anweisungen von oben nach unten gelesen werden. Folgende Einträge findet man in einer robots.txt-Datei wieder:

Die Einträge in der Datei bestehen aus zwei Teilen: im ersten Teil wird festgelegt, für welche user-agents (Robots) die Anweisung gilt. Im zweiten Teil befindet sich die Anweisung allow bzw. disallow. Die folgende Anweisung bedeutet, dass der Google Bot das Verzeichnis „autoren“ nicht durchsuchen darf:

user-agent: Googlebot

disallow: /autoren/

So sieht der Eintrag in einer robots.txt aus, wenn alle Suchmaschinen die komplette Seite nicht durchsuchen dürfen:

user-agent: *
disallow: /

Mit einem Dollar-Zeichen können Seiten, die auf eine bestimmte Endung (zum Beispiel Dateiformate wie .pdf oder .doc) enden, blockiert werden. Dazu wird die Anweisung „disallow: /* .doc$“ bzw. „disallow: /* .pdf$“ in der robots.txt hinterlegt. So könnte eine robots.txt aussehen:

user-agent: *
disallow: /login/
disallow: /temp/
disallow: /search/
disallow: /*.pdf$/

Sitemap: https://www.beispiel.de/sitemap.xml

Bedeutung für die Suchmaschinenoptimierung

Die Verwendung der robots.txt ist die wichtigste Möglichkeit, das Verhalten von Suchmaschinen-Crawlern individuell zu steuern. User Agents sollten dabei nicht zu stark durch die Anweisungen eingeschränkt werden, da sich dies nachteilig auf das Ranking der Webseite auswirkt. Es ist zu bedenken, dass mit den Seiten, die in der Datei eingetragen sind, die Webseite nicht ranken wird. Gibt es keine oder kaum Einschränkungen für die Robots, kann es dazu kommen, dass Seiten mit Duplicate Content indexiert werden, was ebenfalls nicht gut für das Ranking ist. Die korrekte Verwendung hat allerdings keine direkten positiven oder negativen Auswirkungen auf das eigentliche Ranking einer Webseite. Vielmehr wird mit ihr die Arbeit des Bots gesteuert – aber die korrekte Nutzung sorgt dafür, dass alle wichtigen Bereiche der Domain gecrawlt und aktuelle Inhalte indexiert werden. Tippfehler oder Fehler in der Syntax sollten vermieden werden, da diese Fehler dazu führen, dass Crawler die Anweisungen missachten und die Seiten dennoch crawlen. Wenn es dauerhafte Probleme beim Abruf der Datei gibt, kommt es zu Beeinträchtigungen beim Crawlen, sodass eine Webseite sogar aus dem Google Index entfernt werden kann. Nach Angaben von Google käme es bei rund 26 % der Crawl-Versuche zu Problemen. Daher lohnt es sich, die robots.txt zu überprüfen: In der Search Console können Webseitenbetreiber die Korrektheit der Robots.txt analysieren und die Seiten einsehen, die durch Anweisungen blockiert wurden.

Ohne Kommunikation gibts keine Veränderung. Lust auf ein gutes Gespräch?

Welche Möglichkeiten hat dein Unternehmen im Bereich Online Marketing? Wie erreichst du deine Umsatzziele? Lass uns genau das herausfinden und gemeinsam Großes schaffen.