WordPress robots.txt: Was muss ich darüber wissen?

Wenn Du dich fragst, was es mit dieser Datei auf sich hat und was es dabei aus SEO Perspektive zu beachten gibt, bist Du hier richtig! Ich erkläre Dir, wozu die Datei dient, was es dabei zu beachten gilt und warum es wichtig ist sie für Suchmaschinen zu optimieren um Deine Suchplatzierungen zu verbessern.

Was ist eine robots.txt-Datei und wozu nutzt sie?

Kurz gesagt dient sie primär dazu den Bots der Suchmaschinen mitzuteilen, auf welche Dateien und Ordner zugegriffen werden soll und auf welche nicht.

Es gibt vier allgemeine Befehle, die in einer robots.txt-Datei zu finden sind:

  • Disallow: Hindert Suchmaschinen-Crawler daran, bestimmte Website-Dateien zu untersuchen und zu indizieren.
  • Allow: Ermöglicht den Zugriff auf Unterordner, während übergeordnete Ordner nicht erlaubt sind. So kann man gezielt Inhalte freigeben.
  • Crawl-delay: Weist den Crawler an, eine bestimmte Zeitspanne zu warten.
  • Sitemap: Hier sollte die URL der Sitemap hinterlegt werden um die Indexierung neuer Webseiten zu beschleunigen.

Üblicherweise wird der Zugriff mit Disallow verhindert. Es gibt innerhalb einer WordPress Installation eine Menge Verzeichnisse, die für das Crawling unnötig sind (z.B. rein technische Dateien und Verzeichnisse).

Zum einen werden so Inhalte unterdrückt, die nicht in den SERPs erscheinen sollen, zum anderen – und das ist ein sehr wichtiger Faktor – wird das Crawl Budget einer Suchmaschine geschont. Der Suchmaschinen-Bot honoriert quasi seine Energie nicht in überflüssigen Dateien und Ordner verschwenden zu müssen. Aus diesem Grund ist die Optimierung dieser Datei auch ein Rankingfaktor fürs SEO.

Wie sieht eine optimierte robots.txt-Datei aus?

Der Aufbau der Datei ist simpel. In der ersten Zeile wird ein User-Agent adressiert. Meist macht es Sinn mit der Wildcard * einfach alle Bots anzuweisen. In den darauffolgenden Zeilen wird bestimmt, welche Teile gecrawlt und welche nicht gecrawlt werden sollen:

User-Agent: *
Allow: /wp-content/uploads/
Disallow: /wp-content/plugins/
Disallow: /wp-admin/
 
Sitemap: https://example.com/sitemap_index.xml

Anwendungsbeispiele für eine robots.txt

Alle Bot-Zugriffe auf Deine Website einschränken:

User-agent: *
Disallow: /

Nur einen bestimmten Bot erlauben:

User-agent: Google
Disallow:

User-agent: *
Disallow: /

Einem bestimmten Bot den Zugriff verweigern, im Beispiel der Googlebot (eine gute Übersicht über Crawler gibt es hier):

User-Agent: Googlebot-Image
Disallow: /wp-content/uploads/

Einschränken Zugriffs auf einen bestimmten Dateityp:

User-agent: *
Disallow:  /*.pdf$

Was sollte ich auf disallow, was auf noindex setzen?

In den Webmaster Guidelines von Google wird empfohlen, die robots.txt-Datei nicht zum Ausblenden von potentiellem „Thin Content“ oder „Duplicate Content“ zu verwenden (z.B. Kategorie, Datum und Archive). Der Zweck der Datei besteht darin zu „empfehlen“, welche Bereiche gecrawlt werden sollen und welche nicht (Der Bot kann sich nämlich über diese „Empfehlung“ einfach hinwegsetzen).

Besser ist es aus SEO-Sicht den noindex Meta-Tag (keine Indizierung) oder einen canonical Meta-Tag zu nutzen (Dupliate Content zeigt auf das Orginal). PlugIns wie YOAST SEO oder All in One SEO können diese Tags explizit für die verschiedenen Seitentypen setzen. Der WordPress-Login und die Admin-Verzeichnis bekommen übrigens den noindex-Tag automatisch hinzugefügt.

Eine gute Praxis ist es, die Datei readme.html in der robots.txt-Datei nicht zuzulassen. Über sie kann man herausfinden, welche Version von WordPress benutzen wird. Dadurch wird es Angreifern erschwert Sicherheitslücken einer Version auszunutzen. Zudem können guten Gewissens alle technischen Verzeichnisse der WordPress Seite ausgeschlossen werden (/wp-content/plugin, /wp-admin/).

Wozu brauche ich Crawl-Delay?

SEO Tools wie z.B. SEMrush sind für professionelles unglaublich hilfreich, kann damit doch der „Gesundheitszustand“ einer Webpräsenz für OnPage Optimierung überwacht werden.

Die Kehrseite der Medaille kann eine erhöhte Serverlast durch häufiges Crawlen sein.

Der Crawl-delay kann hier den Server entlasten.  Er wird in Sekunden angegeben, im Beispiel 15 Minuten (15*60=900):

Crawl-delay: 900

Ob Suchmaschine oder SEO Tool, um alles richtig einzustellen sollte man einen Blick in die Dokumentation des Dienstes werfen:

WordPress robots.txt Generator

Obwohl die grundlegenden Regeln nicht sehr schwierig sind kann der Aufbau je nach Ansprüchen komplex werden. Ein robots.txt Generator mit grafischer Oberfläche kann dann sehr praktisch sein:

Testen ob alles funktioniert

Ist man mit der Erstellung fertig ist es eine gute Idee die Datei zu testen. Es gibt verschiedene Onlinedienste, ich empfehle den Tester der Google Search Console zu nutzen.

Dafür brauchst Du einen Account bei Google, das Tool kannst Du hier aufrufen:

Methode 1: Bearbeiten der Robots.txt-Datei mit Yoast SEO

Mit dem weit verbreiteten Yoast-SEO PlugIn kannst Du die Datei direkt aus dem WordPress Backend erstellen und bearbeiten. Gehe auf SEO → Dashboard → Werkzeuge:

YoastSEO Werkzeuge

Falls noch keine robots.txt vorhanden ist gibt Dir Yoast SEO an dieser Stelle die Möglichkeit eine zu erstellen.

Yoast SEO robots.txt erstellen

Standardmäßig wird die Datei dann so erzeugt:

Yoast SEO robots.txt erstellen

Methode 2: Bearbeiten per FTP

Normalerweise liegt die Datei im Stammverzeichnis der Website. Zu diesem hast du üblicherweise mit einem FTP Programm Zugriff. Wo das Verzeichnis genau liegt und wie Du den Zugang einrichtest kannst Du mit Deinem Webhost herausfinden. Im Screenshot nutze ich das Programm Filezilla, mit einem Reckts-Klick kann eine bestehende Datei bearbeitet bzw. eine Datei neu erzeugt werden.