Die robots.txt-Datei

Obwohl die robots.txt-Datei eine wichtige Datei ist, wenn Sie gute Suchmaschinenplatzierungen haben möchten, bieten viele Websites diese Datei nicht an.

Wenn Ihre Website keine robots.txt-Datei besitzt, dann erfahren Sie in diesem Artikel, wie Sie so eine Datei erzeugen können. Wenn Sie bereits eine robots.txt-Datei haben, dann lesen Sie diesen Artikel, um sicher zu stellen, dass die Datei keine Fehler enthält.


Was ist robots.txt?

Wenn ein Suchmaschinen-Spider Ihre Website besucht, dann sucht er eine bestimmte Datei auf Ihrer Website. Dieses Datei heißt robots.txt und sie sagt dem Suchmaschinen-Spider, welche Dateien Ihrer Website indiziert werden und welche Dateien ignoriert werden sollen.

Die robots.txt-Datei ist eine einfache Textdatei (kein HTML), die im Hauptverzeichnis Ihrer Internet-Präsenz gespeichert werden muss, zum Beispiel:

    http://www.beispiel.de/robots.txt

Wie erstelle ich eine robots.txt-Datei?

Wie bereits erwähnt sind robots.txt-Dateien einfache Text-Dateien. Verwenden Sie einen einfachen Text-Editor, um die robots.txt-Datei zu erstellen. Der Inhalt der robots.txt-Datei besteht aus sogenannten "Records".

Ein "Record" enthält die Anweisungen für eine bestimmte Suchmaschine. Jeder "Record" besteht aus zwei Feldern: der Zeile für den User-Agent (das ist der Name des Suchmaschinen-Spiders) und einer oder mehreren Zeilen für die "Disallow"-Befehle. Hier ist ein Beispiel:

User-agent: googlebot
Disallow: /cgi-bin/

Diese robots.txt-Datei würde dem Suchmaschinen-Spider Googlebot (dem Spider von Google) erlauben, alle Seiten bis auf das cgi-bin-Verzeichnis zu indizieren. Alle Dateien im Verzeichnis "cgi-bin" werden vom Googlebot ignoriert.

Der Disallow-Befehl funktioniert wie ein Joker. Wenn Sie folgendes eingeben

User-agent: googlebot
Disallow: /support

dann werden die Dateien "/support-desk/index.html" und "/support/index.html" sowie alle anderen Dateien im "support"-Verzeichnis nicht von Suchmaschinen indiziert.

Wenn Sie nichts in der "Disallow"-Zeile eintragen, dann teilen Sie den Suchmaschinen mit, dass alles indiziert werden darf. Auf jeden Fall müssen Sie für jeden User-Agent-Eintrag eine Disallow-Zeile einfügen.

Wenn Sie möchten, dass alle Suchmaschinen die gleichen Rechte erhalten, verwenden Sie folgenden Inhalt für Ihre robots.txt-Datei:

User-agent: *
Disallow: /cgi-bin/


Wo finde ich die Namen von User-Agents?

Sie finden die Namen in den Log-Dateien Ihrer Website, indem Sie nach robots.txt suchen. In der Regel sollten alle Suchmaschinen die gleichen Rechte erhalten. Dann verwenden Sie einfach "User-agent: *" wie oben erwähnt.


Dinge, die Sie vermeiden sollten

Wenn Sie Ihre robots.txt-Datei nicht ordentlich formatieren, dann können manche oder alle Dateien auf Ihrer Website eventuell nicht von Suchmaschinen indiziert werden. Um dies zu vermeiden, tun Sie bitte folgendes:

  1. Verwenden Sie keine Kommentare in Ihrer robots.txt-Datei.

    Obwohl Kommentare generell erlaubt sind, können manche Suchmaschinen-Spider davon verwirrt werden.

    "Disallow: support # Das Support-Verzeichnis nicht indizieren" könnte missverstanden werden als "Disallow: support#Das Support-Verzeichnis nicht indizieren".


  2. Verwenden Sie keine Leerzeichen am Zeilenanfang. Schreiben Sie zum Beispiel nicht

    placeholder User-agent: *
    place Disallow: /support

    sondern

    User-agent: *
    Disallow: /support

  3. Verändern Sie die Reihenfolge nicht. Die robots.txt-Datei funktioniert dann nicht mehr richtig. Schreiben Sie nicht

    Disallow: /support
    User-agent: *

    sondern

    User-agent: *
    Disallow: /support

  4. Benennen Sie nicht mehr als ein Verzeichnis pro Disallow-Zeile. Schreiben Sie nicht

    User-agent: *
    Disallow: /support /cgi-bin/ /../images/

    Suchmaschinen-Spider verstehen dieses Format nicht. Das korrekte Format sieht so aus:

    User-agent: *
    Disallow: /support
    Disallow: /cgi-bin/
    Disallow: /../images/

  5. Achten Sie auf Groß- und Kleinschreibung. Die Dateinamen auf Ihrem Webserver unterscheiden Groß- und Kleinbuchstaben. Wenn der Name des Verzeichnisses "Support" ist, schreiben Sie nicht "support" in Ihre robots.txt-Datei.


  6. Listen Sie nicht alle Dateien auf. Wenn Sie alle Dateien in einem bestimmten Verzeichnis schützen wollen, dann müssen Sie diese nicht alle aufführen:
    User-agent: *
    Disallow: /support/orders.html
    Disallow: /support/technical.html
    Disallow: /support/helpdesk.html
    Disallow: /support/index.html

    Dies können Sie ersetzen mit:

    User-agent: *
    Disallow: /support


  7. Es gibt keinen "Allow"-Befehl.

    Verwenden Sie keinen "Allow"-Befehl in Ihrer robots.txt-Datei. Erwähnen Sie nur Dateien, die Sie nicht indiziert haben möchten. Alle anderen Dateien werden automatisch indiziert, wenn diese durch Links auf Ihrer Website gefunden werden können.

Tipps und Tricks:

1. Wie Sie allen Suchmaschinen-Spidern erlauben, alle Dateien zu indizieren:

    Verwenden Sie den folgenden Inhalt für Ihre robots.txt-Datei, wenn Sie möchten, dass alle Suchmaschinen-Spider alle Dateien Ihrer Website indizieren:

    User-agent: *
    Disallow:

2. Wie Sie alle Dateien für alle Suchmaschinen sperren:

    Wenn Sie möchten, dass Suchmaschinen überhaupt keine Dateien Ihrer Website indizieren, verwenden Sie folgenden Inhalt für Ihre robots.txt-Datei:

    User-agent: *
    Disallow: /

3. Wo Sie komplexere Beispiele finden:

    Wenn Sie komplexere Beispiele sehen möchten, sehen Sie sich einfach die robotx.txt-Dateien einiger großer Websites an:

Ihre Website sollte eine ordentliche robots.txt-Datei besitzen, wenn Sie in Suchmaschinen gut platziert werden möchten. Nur wenn Suchmaschinen wissen, wie sie mit Ihrer Website umgehen sollen, dann können Sie gute Platzierungen erhalten.

0 Comments: