Glossarbeitrag: robots.txt

Im Bereich der Suchmaschinenoptimierung (SEO) können verschiedene Tools helfen zu verstehen, wie Google die Domain sieht. Zusätzlich gibt es Anweisungen, um Google dabei zu unterstützen die richtigen Informationen deiner Website zu erkennen – so kannst du Schritt für Schritt mehr Sichtbarkeit erreichen.

Die robots.txt-datei ist eine solche Anweisung.

Was ist robots.txt ?

Die robots.txt spielt im Online Marketing, sowie in SEO, eine essentielle Rolle. Wichtige Werkzeuge im Rahmen von Indexierung und Crawling sind zum Beispiel Robots-Angaben in Meta – Tags, der Canonical – Tag, Redirect und nicht zuletzt die robots.txt.

Mit Hilfe der robots.txt Datei können einzelne Dateien in einem Verzeichnis, komplette Verzeichnisse oder ganze Domains vom Crawling ausgeschlossen werden. Die robots.txt ist eine Datei, die im Hauptverzeichnis deiner Webseite hinterlegt werden kann und ist das Erste, was ein Bot aufruft, wenn er eine Seite besucht.

Einfach ausgedrückt: Die robots.txt Datei ist ein Wegweiser für alle Crawler und Bots und gibt diesen Anweisungen, wie sie die Website auszulesen haben. Mit Hilfe dieser Datei können bestimmte Kategorie oder auch nur einzelne Seiten für die Bots ausgeschlossen werden. Man kann somit hinterlegen, dass zum Beispiel alle Seiten vom Googlebot gecrawlt werden dürfen, der Bot von Yahoo den Content der Seiten aber nicht indexieren darf.

Es kann pro Domain nur eine robot.txt geben.

Wozu braucht man die robots.txt?

Grundsätzlich ist das Ziel jeder Website mehr Sichtbarkeit in Suchmaschinen wie Google zu erlangen und somit zu mehr Traffic zu kommen. Wichtig dabei ist, dass alle relevanten URLs von der Suchmaschine gecrawlt werden und im Index aufgenommen werden können. Wie so oft, steht auch hier Qualität vor Quantität. Denn auch für die größte Suchmaschine der Welt – Google – ist das Erfassen und Speichern von allen Websites und deren Content eine Herausforderung. Daher hat jede Domain nur ein bestimmtes Crawlingbudget (Anzahl der gecrwalten URLs pro Tag) und dies heißt es sinnvoll zu nutzen.

Aktuell ist robots.txt kein offizieller Standard bei einer Website, dennoch wird die Datei unter den Webmastern und SEO Spezialisten als Muss angesehen – es herrscht das unausgesprochenes Gesetz eine robots.txt Datei zu nutzen.

Hinweis: Angeblich arbeitet Google bereits daran, einen einheitlichen Standard für alle robots.txt Dateien zu schaffen.

robots.txt Datei – Aufbau & Inhalte

Eine robots.txt Datei kann unzählige Befehle haben – doch jeder vollständige Befehl besteht aus zwei essentiellen Elementen, die immer zusammengehören: Der User-Agent und der Befehl an sich.

Der User-Agent benennt den Bot bzw. Crawler, dem der nächste Befehl geltend gemacht werden soll.

Nachstehend kommt der Befehl an sich:

Disallow: schließt die betroffenen Dateien aus

oder Allow: schließt die betroffenen Dateien ein.

Einreichen der robots.txt

Für die Erstellung einer .txt-datei kann ein Texteditors genutzt und anschließend in der Google Search Console auf Fehler getestet werden. Fehler in der Syntax müssen unbedingt vermieden werden – zur Kontrolle kann für die txt.datei in der Google Search Console unter „Status“ -> „Blockierte URLs“ eine Analyse durchgeführt werden.

Achtung: Unterschiedliche Crawler können die Syntax unterschiedlich interpretieren.

Achtung: Ist eine Seite in der robots.txt-datei blockiert, kann diese jedoch weiterhin indexiert werden, wenn andere Websites auf sie verlinken. Zwar berücksichtigen die Crawler die robots.txt-datei, dennoch können nicht zugelassene URLs von Bots gefunden und indexiert werden und in den Suchergebnissen von Google erscheinen, wenn diese über andere Wege zur Seite gelangen. Wenn du dies verhindern möchtest, kannst du Dateien auf deinem Server mit einem Passwort schützen, noindex-Meta-Tags oder Antwortheader verwenden.

Wichtiger Begleiter für das Installieren der robots.txt, der Crawlingbereiche und der Sitemap ist die Google Search Console.

robots.txt – Beispiel

User-agent: UniversalRobot/1.0

User-agent: mein-Robot

Disallow: /quellen/dtd/

User-agent: *

Disallow: /unsinn/

Disallow: /temp/

Disallow: /newsticker.shtml

Top User-Agents – Bezeichnungen:

Crawler = User-agent
Google = Googlebot
Google Bildersuch = Googlebot-Image
Bing = Bingbot
Yahoo = Slurp
MSN = Msnbot

Wildcards

Grundsätzlich erlaubt das Robots Exclusion Protocol keine regulären Ausdrücke (engl. Wildcards) jedoch unterstützt die größte Suchmaschine bestimmte Ausdrücke.

Beispiel:

* Platzhalter für jegliche Zeichenketten, die auf dieses Zeichen folgen.

Seiten, deren URLs “.pdf” enthalten, werden vom Googlebot nicht abgerufen.

Useragent: *

Disallow: *.pdf

$ dient als Platzhalter für eine Filterregel, die am Ende einer Zeichenkette greift.

Inhalte, deren URLs mit “.pdf” enden, werden vom Googlebot nicht abgerufen.

Useragent: *

Disallow: *.pdf$

Ausnahmen definieren

Neben dem Befehl “Disallow” versteht der Googlebot auch “Allow” in der robots.txt – und das ermöglicht Ausnahmeregelungen für gesperrte Verzeichnisse zu definieren:

robots.txt Beispiel:

User-agent: Googlebot

Disallow: /news/

Allow: /news/index.html

Diese Kombination von Disallow & Allow Befehlen gibt dem Googlebot zu verstehen, dass es sich um eine Ausnahme handelt – und obwohl ein geordnetes Verzeichnis besteht, er diese bestimmte Datei lesen darf.

Sitemap

Neben den Anweisungen des Crawling Verhaltens erlaubt die robots.txt auch auf die sitemap hinzuweisen.

robots.txt Beispiel:

User-agent: *

Disallow: /temp/

Sitemap: http://www.beispiel.de/sitemap.xml

robots.txt – Verwendung im SEO Bereich

Durch ein robots.txt Datei im Verzeichnis können Webmaster allen Suchmaschinen und deren Robots (User-agents) Anweisungen geben, welche Seiten zu lesen sind und im Index aufzunehmen bzw. welche ausgeschlossen werden sollen.

Suchmaschinen reagieren auf gesperrte Seiten und crawlen dies in der Regel auch nicht – jedoch ist zu bedenken, dass es auch “böse” Crawler gibt, die die robots.txt einfach ignorieren. Die robots.txt ist also nicht verpflichtend und kann umgangen werden, da sie als Anweisung ausgegeben wird, die von Suchmaschinen nicht eingehalten werden muss. Die robots.txt gibt keine Garantie, dass eine gesperrte Seite von der Indexierung ausgeschlossen wird.

Glossarbeitrag: robots.txt

Was ist robots.txt ?

Wozu braucht man die robots.txt?

robots.txt Datei – Aufbau & Inhalte

Einreichen der robots.txt

robots.txt – Beispiel

Top User-Agents – Bezeichnungen:

Wildcards

Ausnahmen definieren

Sitemap

robots.txt – Verwendung im SEO Bereich

Professionelle Unterstützung SEO & mehr?