Robots.txt – alles über Definition und Fehler

Robots.txt und Seiteninhaber sollten stets beste Freunde sein. Doch warum ist das eigentlich so? Was ist das genau? Wie hängt diese Datei mit Websites zusammen? All das und mehr erfährst Du in diesem Artikel.

Was ist robots.txt?

Die robots.txt ist eine Textdatei, die Webmaster verwenden können, um Suchmaschinen darüber zu informieren, welche Teile ihrer Website nicht indiziert werden sollen. Diese Textdatei befindet sich im sogenannten Root-Verzeichnis Deiner Website.

Sie ist ein wichtiger Bestandteil der Suchmaschinenoptimierung, da sie dazu beitragen kann, die Qualität der Suchergebnisse zu verbessern. Dadurch klicken mehr Nutzer auf die Website, wodurch ein hoher Traffic entsteht.  

Es ist wichtig zu beachten, dass die “robots.txt”-Datei keine verbindlichen Regeln für Suchmaschinen darstellt. Sie dient lediglich als Hinweis für die Suchmaschinen-Robots und sollte daher nicht das einzige Mittel sein, um Bereiche Deiner Website vor den Suchmaschinen zu verbergen.

Warum ist es wichtig?

Manchmal gibt es Bereiche auf Deiner Website, die Du nicht in den Suchmaschinen-Ergebnissen angezeigt haben möchtest. Vielleicht gibt es testweise Seiten, die noch nicht veröffentlicht wurden, oder Du möchtest nicht, dass bestimmte Bilder oder Dokumente von den Suchmaschinen gefunden werden. In diesem Fall kannst Du diese Bereiche in der robots.txt-Datei ausschließen.

Wie verwendest Du robots.txt?

Wenn eine Suchmaschine Deine Website besucht, wird sie zunächst nach einer robots.txt-Datei suchen. Diese Datei befindet sich im Stammverzeichnis Deiner Website undjeder kann diese besuchen, indem er “http://deinedomain.de/robots.txt” in seinen Browser eingibt. Die Datei enthält dann die passenden Anweisungen für die Suchmaschinenbots, die besagen, welche Teile der Website durchsucht werden dürfen und welche nicht.

Um Deine “robots.txt”-Datei zu erstellen, musst Du einfach eine Textdatei erstellen und sie genauso nennen. Dann kannst Du sie im Root-Verzeichnis Deiner Website hochladen.

Standardbefehle

  • “User-agent: *” gibt an, welcher Suchmaschinen-Bot die nachfolgenden Anweisungen empfangen soll. Der Stern bedeutet, dass alle Suchmaschinen-Bots betroffen sind.
  • “Disallow: /pfad/zur/seite” gibt an, dass die angegebene Seite nicht von den Suchmaschinen indexiert werden soll.
  • “Allow: /pfad/zur/seite” gibt an, dass die angegebene Seite von den Suchmaschinen indexiert (indiziert) werden soll, obwohl sie sich in einem verbotenen Verzeichnis befindet.

Hier ist ein Beispiel für eine “robots.txt”-Datei:

User-agent: *

Disallow: /pfad/zur/seite

Allow: /pfad/zur/erlaubten/seite

Diese “robots.txt”-Datei gibt an, dass alle Suchmaschinen-Bots die Seite “/pfad/zur/seite” nicht indexieren sollen, aber die Seite “/pfad/zur/erlaubten/seite” indexieren dürfen.

Häufige Fehler

Einer der häufigsten Fehler ist, dass Webmaster glauben, dass diese Textdatei dazu dient, sensible oder private Informationen zu schützen. Das ist jedoch nicht der Fall. Die robots.txt ist lediglich eine Anweisung für Suchmaschinenbots und hat keine Sicherheitsfunktion. Sensible oder private Informationen sollten daher immer auf einer geschützten Seite gespeichert werden, die nur für autorisierte Benutzer zugänglich ist.

Ein weiterer Fehler, den viele Webmaster machen, ist, dass sie versuchen, bestimmte Seiten oder Verzeichnisse von der Indexierung auszuschließen, ohne zu bedenken, dass diese Seiten möglicherweise von anderen Websites verlinkt werden.

Diese kleine Textdatei kann einen großen Unterschied machen

Robots.txt ist eine Textdatei, die zwar nur einen kleinen Teil Deiner Website ausmacht, Dir dennoch immens helfen kann. Diese Textdatei sorgt nämlich dafür, dass Du die Kontrolle hast, was indizierte Elemente auf Deiner Website angeht. Mit den zwei primären Befehlen allow und disallow kannst Du genau das bestimmen.

FAQ – Robots.txt

Was ist robots.txt?

Robots.txt ist eine wichtige Datei für Webmaster, da sie dem Suchmaschinen-Robot mitteilt, welche Bereiche der Website durchsucht werden sollen und welche nicht.

Wie verwendest Du robots.txt?

Die Syntax der robots.txt ist relativ einfach und besteht aus zwei Teilen: User-agent und Disallow bzw. Allow. Der User-agent gibt an, für welchen Bot die Anweisungen gelten, während das Disallow- und Allow-Feld angeben, welche URL-Pfade nicht bzw. durchsucht werden dürfen.

Welche häufigen Fehler treten bei robots.txt auf?

Viele Leute denken, dass robots.txt eine Sicherheitsfunktion hat, was aber absolut nicht stimmt. Auch funktioniert die Indexierung nicht, wenn die Website auf einer anderen verlinkt ist.

Quellen