Obwohl die robots.txt-Datei eine wichtige Datei ist, wenn Sie gute Suchmaschinenplatzierungen haben möchten, bieten viele Websites diese Datei nicht an.
Wenn Ihre Website keine robots.txt-Datei besitzt, dann erfahren Sie in diesem Artikel, wie Sie so eine Datei erzeugen können. Wenn Sie bereits eine robots.txt-Datei haben, dann lesen Sie diesen Artikel, um sicher zu stellen, dass die Datei keine Fehler enthält.
Was ist robots.txt?
Wenn ein Suchmaschinen-Spider Ihre Website besucht, dann sucht er eine bestimmte Datei auf Ihrer Website. Dieses Datei heißt robots.txt und sie sagt dem Suchmaschinen-Spider, welche Dateien Ihrer Website indiziert werden und welche Dateien ignoriert werden sollen.
Die robots.txt-Datei ist eine einfache Textdatei (kein HTML), die im Hauptverzeichnis Ihrer Internet-Präsenz gespeichert werden muss, zum Beispiel:
Wie erstelle ich eine robots.txt-Datei?
Wie bereits erwähnt sind robots.txt-Dateien einfache Text-Dateien. Verwenden Sie einen einfachen Text-Editor, um die robots.txt-Datei zu erstellen. Der Inhalt der robots.txt-Datei besteht aus sogenannten "Records".
Ein "Record" enthält die Anweisungen für eine bestimmte Suchmaschine. Jeder "Record" besteht aus zwei Feldern: der Zeile für den User-Agent (das ist der Name des Suchmaschinen-Spiders) und einer oder mehreren Zeilen für die "Disallow"-Befehle. Hier ist ein Beispiel:
User-agent: googlebot Disallow: /cgi-bin/ |
Diese robots.txt-Datei würde dem Suchmaschinen-Spider Googlebot (dem Spider von Google) erlauben, alle Seiten bis auf das cgi-bin-Verzeichnis zu indizieren. Alle Dateien im Verzeichnis "cgi-bin" werden vom Googlebot ignoriert.
Der Disallow-Befehl funktioniert wie ein Joker. Wenn Sie folgendes eingeben
User-agent: googlebot Disallow: /support |
dann werden die Dateien "/support-desk/index.html" und "/support/index.html" sowie alle anderen Dateien im "support"-Verzeichnis nicht von Suchmaschinen indiziert.
Wenn Sie nichts in der "Disallow"-Zeile eintragen, dann teilen Sie den Suchmaschinen mit, dass alles indiziert werden darf. Auf jeden Fall müssen Sie für jeden User-Agent-Eintrag eine Disallow-Zeile einfügen.
Wenn Sie möchten, dass alle Suchmaschinen die gleichen Rechte erhalten, verwenden Sie folgenden Inhalt für Ihre robots.txt-Datei:
User-agent: * Disallow: /cgi-bin/ |
Wo finde ich die Namen von User-Agents?
Sie finden die Namen in den Log-Dateien Ihrer Website, indem Sie nach robots.txt suchen. In der Regel sollten alle Suchmaschinen die gleichen Rechte erhalten. Dann verwenden Sie einfach "User-agent: *" wie oben erwähnt.
Dinge, die Sie vermeiden sollten
Wenn Sie Ihre robots.txt-Datei nicht ordentlich formatieren, dann können manche oder alle Dateien auf Ihrer Website eventuell nicht von Suchmaschinen indiziert werden. Um dies zu vermeiden, tun Sie bitte folgendes:
- Verwenden Sie keine Kommentare in Ihrer robots.txt-Datei.
Obwohl Kommentare generell erlaubt sind, können manche Suchmaschinen-Spider davon verwirrt werden.
"Disallow: support # Das Support-Verzeichnis nicht indizieren" könnte missverstanden werden als "Disallow: support#Das Support-Verzeichnis nicht indizieren".
- Verwenden Sie keine Leerzeichen am Zeilenanfang. Schreiben Sie zum Beispiel nicht
placeholder User-agent: * place Disallow: /support
|
sondern
User-agent: * Disallow: /support
|
- Verändern Sie die Reihenfolge nicht. Die robots.txt-Datei funktioniert dann nicht mehr richtig. Schreiben Sie nicht
Disallow: /support User-agent: * |
sondern
User-agent: * Disallow: /support
|
- Benennen Sie nicht mehr als ein Verzeichnis pro Disallow-Zeile. Schreiben Sie nicht
User-agent: * Disallow: /support /cgi-bin/ /../images/
|
Suchmaschinen-Spider verstehen dieses Format nicht. Das korrekte Format sieht so aus:
User-agent: * Disallow: /support Disallow: /cgi-bin/ Disallow: /../images/
|
- Achten Sie auf Groß- und Kleinschreibung. Die Dateinamen auf Ihrem Webserver unterscheiden Groß- und Kleinbuchstaben. Wenn der Name des Verzeichnisses "Support" ist, schreiben Sie nicht "support" in Ihre robots.txt-Datei.
- Listen Sie nicht alle Dateien auf. Wenn Sie alle Dateien in einem bestimmten Verzeichnis schützen wollen, dann müssen Sie diese nicht alle aufführen:
User-agent: * Disallow: /support/orders.html Disallow: /support/technical.html Disallow: /support/helpdesk.html Disallow: /support/index.html |
Dies können Sie ersetzen mit:
User-agent: * Disallow: /support
|
- Es gibt keinen "Allow"-Befehl.
Verwenden Sie keinen "Allow"-Befehl in Ihrer robots.txt-Datei. Erwähnen Sie nur Dateien, die Sie nicht indiziert haben möchten. Alle anderen Dateien werden automatisch indiziert, wenn diese durch Links auf Ihrer Website gefunden werden können.
Tipps und Tricks:
1. Wie Sie allen Suchmaschinen-Spidern erlauben, alle Dateien zu indizieren:
Verwenden Sie den folgenden Inhalt für Ihre robots.txt-Datei, wenn Sie möchten, dass alle Suchmaschinen-Spider alle Dateien Ihrer Website indizieren:
2. Wie Sie alle Dateien für alle Suchmaschinen sperren:
Wenn Sie möchten, dass Suchmaschinen überhaupt keine Dateien Ihrer Website indizieren, verwenden Sie folgenden Inhalt für Ihre robots.txt-Datei:
3. Wo Sie komplexere Beispiele finden:
Wenn Sie komplexere Beispiele sehen möchten, sehen Sie sich einfach die robotx.txt-Dateien einiger großer Websites an:
Ihre Website sollte eine ordentliche robots.txt-Datei besitzen, wenn Sie in Suchmaschinen gut platziert werden möchten. Nur wenn Suchmaschinen wissen, wie sie mit Ihrer Website umgehen sollen, dann können Sie gute Platzierungen erhalten.