robots.txt schützt nicht vor LLM-Crawlern: ein Schild ist kein Schloss

Seit dem Boom der großen Sprachmodelle stellen viele Unternehmen dieselbe Frage: „Wie verhindern wir, dass unsere Inhalte in den Trainingsdaten der LLMs landen?" Und fast immer kommt dieselbe Antwort: „Wir tragen das in die robots.txt ein." Das ist gut gemeint, aber es beruht auf einem Missverständnis darüber, was robots.txt eigentlich ist. Die kurze Version: robots.txt ist ein Schild, kein Schloss. Wer es als Schutz versteht, verlässt sich auf die Höflichkeit von Fremden.

Was robots.txt eigentlich ist

robots.txt ist eine Textdatei im Wurzelverzeichnis einer Website, die Crawlern mitteilt, welche Bereiche sie besuchen sollen und welche nicht. Die Idee stammt aus dem Jahr 1994, von Martijn Koster, als das Web noch klein war und ein paar Suchmaschinen aus Versehen Server überlasteten. Es war eine pragmatische Vereinbarung unter Wohlmeinenden: „Bitte lass diese Pfade in Ruhe."

Das Entscheidende steht schon im Namen des Mechanismus: Robots Exclusion Protocol. Es ist ein Protokoll zur freiwilligen Selbstbeschränkung, kein Zugriffsschutz. robots.txt verhindert technisch gar nichts. Sie ist eine Bitte, kein Befehl. Jeder, der eine URL aufrufen kann, kann den Inhalt abrufen, völlig unabhängig davon, was in der robots.txt steht. Die Datei wird nur dann respektiert, wenn der Crawler sich entscheidet, sie zu respektieren.

Was der RFC dazu sagt

Lange war robots.txt nur ein De-facto-Standard, eine Konvention ohne offizielles Dokument. Erst 2022 wurde sie als RFC 9309 bei der IETF formalisiert. Wer den RFC liest, findet dort genau die Bestätigung der Schwäche, nicht ihre Behebung.

Der RFC beschreibt sauber das Format, die Syntax, wie Crawler die Datei abrufen und interpretieren sollen. Aber er macht an keiner Stelle die Befolgung verbindlich oder erzwingbar. Im Gegenteil: Das Dokument spricht ausdrücklich von Crawlern, die sich freiwillig an das Protokoll halten, und benennt Sicherheitsüberlegungen, darunter den schlichten Hinweis, dass robots.txt kein Mechanismus zur Zugriffskontrolle ist. Ein RFC, der ein Format standardisiert, verleiht diesem Format keine Durchsetzungskraft. Er beschreibt, wie man höflich fragt, nicht, wie man zwingt.

Anders gesagt: Selbst der offizielle Standard sagt, dass der Standard nur gilt, wenn das Gegenüber mitspielt.

Warum das gegen LLM-Crawler besonders wenig hilft

Bei klassischen Suchmaschinen funktionierte die Höflichkeitsvereinbarung lange ganz gut, weil es ein Eigeninteresse gab: Google will nicht als der Akteur gelten, der robots.txt ignoriert. Bei der Datensammlung für Sprachmodelle bröckelt diese Logik aus mehreren Gründen.

1. Es gibt nicht „den einen" Crawler. Sie können GPTBot, Google-Extended, CCBot, ClaudeBot und ein Dutzend weitere eintragen. Aber Sie können nur blockieren, was Sie kennen. Es entstehen ständig neue Akteure mit neuen User-Agents, schneller, als Sie Ihre robots.txt pflegen können. Sie spielen ein Spiel, in dem Sie immer einen Zug hinterherhinken.

2. Der User-Agent ist frei wählbar. Ein Crawler, der sich nicht an die Regeln halten will, gibt sich einfach als normaler Browser aus. Es gibt keine Pflicht, sich ehrlich zu kennzeichnen. Wer böswillig oder nur nachlässig ist, ignoriert robots.txt nicht laut, sondern unsichtbar.

3. Die Daten sind oft schon weg. Riesige öffentliche Datensätze wie Common Crawl haben das Web über Jahre archiviert. Ein heute gesetztes Disallow ändert nichts an dem, was bereits gesammelt, kopiert und in Trainingskorpora weitergereicht wurde. Sie schließen eine Tür, durch die längst alle gegangen sind.

4. Dritte sammeln und verkaufen weiter. Selbst wenn der große, sichtbare Anbieter brav bleibt, gibt es eine ganze Industrie von Scrapern, die Daten abgreifen und als Datensätze verkaufen. Deren Geschäftsmodell ist gerade, das zu tun, was robots.txt verbietet.

5. Die Grenze zwischen „crawlen" und „abrufen" verschwimmt. Wenn ein Sprachmodell auf Wunsch eines Nutzers eine bestimmte URL aufruft, um sie zusammenzufassen, ist das aus Sicht mancher Anbieter kein „Crawling" im Sinne der robots.txt. Ihre Inhalte landen also auch dann im LLM-Kontext, wenn der klassische Trainings-Crawler ausgesperrt ist.

Der gefährlichste Irrtum: robots.txt als Geheimnisschutz

Es gibt eine besonders verbreitete und besonders riskante Fehlnutzung: sensible Pfade per Disallow „verstecken" zu wollen. Das Gegenteil passiert. robots.txt ist öffentlich abrufbar, jeder kann sie lesen. Wer dort Disallow: /admin-backup/ einträgt, hat soeben aller Welt eine Landkarte der interessanten Verstecke geliefert. Sie verstecken nichts, Sie weisen den Weg.

Merksatz: Was wirklich nicht öffentlich sein soll, gehört hinter eine Authentifizierung, nicht in eine Liste der Dinge, die man bitte nicht ansehen möge.

Was tatsächlich schützt

robots.txt ist nicht nutzlos, sie ist nur für etwas anderes gemacht: Crawl-Last steuern, gutwillige Suchmaschinen lenken, Crawl-Budget verwalten. Für diesen Zweck ist sie sinnvoll und sollte gepflegt werden. Als Schutz vor unerwünschter Datensammlung braucht es echte Mechanismen:

Authentifizierung und Paywalls: Inhalte hinter Login sind für Crawler nicht erreichbar. Das ist die einzige wirklich harte Grenze.
Rate-Limiting und Bot-Erkennung: Auffällige Zugriffsmuster drosseln oder blockieren, statt höflich zu bitten.
WAF und serverseitige Regeln: Bekannte schädliche Akteure auf Netzwerkebene aussperren.
Rechtliche Mittel: Nutzungsbedingungen und Urheberrecht helfen gegen seriöse Akteure mit Adresse, aber wenig gegen anonyme Scraper im Ausland.
Die unbequemste Wahrheit: Was öffentlich im Netz steht, ist faktisch kopierbar. Wirklich sensible Inhalte gehören nicht ungeschützt ins offene Web.

Unser Fazit

robots.txt ist eine sinnvolle Vereinbarung unter Wohlmeinenden und ein nützliches Werkzeug für die Crawl-Steuerung. Sie ist aber kein Sicherheitsmechanismus, und der RFC, der sie standardisiert, sagt das selbst. Die Vorstellung, dass alle Akteure sich an ein freiwilliges Schild halten, ist Wunschdenken, gerade in einem Markt, in dem Daten der Rohstoff sind. Wer seine Inhalte ernsthaft schützen will, baut Schlösser, keine Schilder.

Wenn Sie überlegen, wie Sie mit der Sichtbarkeit Ihrer Inhalte gegenüber LLMs umgehen, von Crawl-Steuerung bis zu echtem Zugriffsschutz, sprechen Sie mit uns. Wir trennen für Sie, was eine Bitte ist und was eine Grenze.