Schilde hoch: Schutz vor Crawling und Data Mining

dome-threads-21_9 (1).webp

Table of Content

Inhalt
Weitere Recherche

TL;DR (Fazit)

Ich habe die Ergebnisse der Recherche (Export dieser Seite als PDF) mit folgendem Promt einschätzen lassen. Zuvor habe ich der KI eine Persona zugeordnet: Du bist ein Berater und Experte für Datenschutz und Urheberrecht. Wir sind Freiberufler und erstellen Content und Websites für Vereine und kleine Unternehmen.

PROMT (Le Chat): Prüfe bitte unsere Recherche (PDF) und gib uns eine Einschätzung, welche Maßnahmen wir standardisiert umsetzen können, und welche wir ggf. mit einem finanziellen Mehraufwand berechnen sollten.
MFG-Schilde%20hoch_%20Schutz%20vor%20Crawling%20und%20Data%20Mining-120725-103143.pdf

Ergebnis

Standardisierte Maßnahmen

Sichtbare Erklärung zur Rechtevorbehaltung

Aufwand: Gering
Beschreibung: Diese Erklärung kann einfach in die Nutzungsbedingungen oder den Footer jeder Website eingefügt werden. Es erfordert keine technischen Kenntnisse und ist schnell umsetzbar.

Metadaten-Tags für Rechtevorbehalte

Aufwand: Mittel
Beschreibung: Das Einfügen von Metadaten in HTML-Dateien und Medien kann mit Tools wie ExifTool oder Adobe Bridge durchgeführt werden. Es erfordert etwas technisches Know-how, ist aber mit etwas Übung gut umsetzbar.

Trust.txt

Aufwand: Gering
Beschreibung: Eine einfache Textdatei, die auf dem Server abgelegt wird. Sie erfordert keine regelmäßige Aktualisierung und ist leicht zu implementieren.

Robots Exclusion Protocol (robots.txt)

Aufwand: Mittel
Beschreibung: Die Erstellung und Pflege einer robots.txt-Datei ist relativ einfach und kann mit Online-Tools unterstützt werden. Sie sollte jedoch regelmäßig überprüft und aktualisiert werden.

TDM Reservation Protocol (TDMRep)

Aufwand: Mittel
Beschreibung: Die Erstellung einer tdmrep.json-Datei erfordert etwas technisches Know-how, ist aber mit Anleitungen und Vorlagen gut umsetzbar.

Rechtlich gültiger Nutzungsvorbehalt

Aufwand: Mittel
Beschreibung: Die Erstellung eines rechtlich gültigen Nutzungsvorbehalts erfordert möglicherweise die Konsultation eines Anwalts, um sicherzustellen, dass er den rechtlichen Anforderungen entspricht. Einmal erstellt, kann er jedoch einfach in die Website integriert werden.

Maßnahmen mit finanziellen Mehraufwand

Firewalls zur Blockierung von KI-Crawler-Bots

Aufwand: Hoch
Beschreibung: Die Konfiguration und Wartung von Firewalls erfordert fortgeschrittene technische Kenntnisse und regelmäßige Updates. Dies kann mit zusätzlichen Kosten für Tools und Dienstleistungen verbunden sein.

Content Credentials (C2PA)

Aufwand: Hoch
Beschreibung: Die Implementierung von Content Credentials erfordert spezielle Tools und Kenntnisse. Die Protokollierung und Verwaltung kann komplex und zeitaufwendig sein, was zusätzliche Kosten verursachen kann.

Schutz vor Stilimitation (Glaze)

Aufwand: Hoch
Beschreibung: Die Anwendung von Glaze erfordert spezielle Software und kann zeitaufwendig sein, insbesondere bei der Verarbeitung großer Mengen an Bildern. Dies kann zusätzliche Kosten für Software und Rechenleistung verursachen.

User-Agent Detection und Bot-Mitigation Services

Aufwand: Hoch
Beschreibung: Die Implementierung von User-Agent Detection und die Nutzung von Bot-Mitigation Services wie Cloudflare oder DataDome können zusätzliche Kosten verursachen, insbesondere wenn fortgeschrittene Funktionen und Dienste genutzt werden.

Kudurru & Spawning

Aufwand: Mittel bis Hoch
Beschreibung: Die Nutzung von Kudurru und Spawning erfordert möglicherweise zusätzliche Kosten für die Registrierung und Nutzung der Dienste. Die Implementierung kann auch technisches Know-how erfordern.

Einleitung/Übersicht

Als Grundlage für die Umsetzung können wir die Übersicht zu Maßnahmen der International Press Telecommunications Council (IPTC) nutzen, die auf der Grundlage der Arbeit der International Association of Scientific, Technical & Medical Publishers (STM) basiert.

Folgend habe ich mit KI eine Tabelle erstellen lassen, die den Nutzen, die Anwendungsebene, sowie den Aufwand der Umsetzung und die mögliche Kombination der Maßnahmen untereinander angibt:

PROMT (Le Chat): Du bist ein Berater und Experte für Datenschutz und Urheberrecht. Wir sind Freiberufler und erstellen Content und Websites für Vereine und kleine Unternehmen. Prüfe für uns das hochgeladene PDF auf die darin gelisteten Möglichkeiten zum Schutz vor Generativer KI und dem Aufwand für uns sowie den Nutzen für unsere Kunden. Gib dabei bitte auch an, ob und welche Maßnahmen sich gegenseitig ausschließen bzw. gleichzeitig angewandt werden können. https://iptc.org/std/guidelines/data-mining-opt-out/IPTC-Generative-AI-Opt-Out-Best-Practices.pdf

Ergänze mir bitte die Anwendungsebene der Maßnahmen. Für uns haben wir folgende Ebenen identifiziert: Datei (Bilder, Dokumente, einzelne HTML-Seiten), Website, Server. Ergänze gerne Ebenen, falls unsere zu ungenau sind oder nicht zutreffen.

Maßnahme	Nutzen	Ebene	Aufwand	Kombinierbar
1. Sichtbare Erklärung zur Rechtevorbehaltung	Klarstellung der Rechte für Besucher und Nutzer der Website	Website	:gray_star: :gray_star: Einfache Textänderung auf Website
2. Metadaten-Tags für Rechtevorbehalte	Maschinenlesbare Rechteklärung für Crawler und Bots	Datei, Website	:gray_star: Erfordert Änderungen im HTML-Code oder in den Metadaten von Bildern und Videos
3. Firewalls zur Blockierung von KI-Crawler-Bots -> Teilweise Umsetzung	Effektive Blockierung unerwünschter Crawler	Server	:gray_star: Erfordert technische Kenntnisse zur Konfiguration von Firewalls und regelmäßige Updates	kann SEO beeinflussen
4. Robots Exclusion Protocol (robots.txt)	Steuerung des Zugriffs von Crawlern auf die Website	Website	:gray_star: Erfordert regelmäßige Aktualisierung der robots.txt-Datei
5. TDMRep (tdmrep.json)	Feinsteuerung der Rechte für Text- und Data-Mining	Website	:gray_star: Erfordert Erstellung und Pflege einer JSON-Datei
6. Trust.txt	Einfache, website-weite Erklärung zur Datenverwendung	Website	:gray_star: :gray_star: Einfache Textdatei auf dem Server
7. IPTC Photo Metadata Data Mining Property	Feinsteuerung der Rechte für einzelne Medien	Datei	:gray_star: Erfordert Bearbeitung der Metadaten von Bildern und Videos
8. C2PA Training and Data Mining Assertion	Sichere Einbettung von Rechten in signierte Medien	Datei	Erfordert Kenntnisse in der Verwendung von C2PA
9. In-Page Metadaten (noindex, noarchive, nocache)	Steuerung der Indexierung und Archivierung durch Crawler	Datei	:gray_star: :gray_star: Einfache HTML-Metatags
10. TDMRep HTML Meta Tags	Feinsteuerung der Rechte auf Seitenebene	Datei	:gray_star: :gray_star: Einfache HTML-Metatags
11. Robots Exclusion Protocol in HTTP Headern	Steuerung des Zugriffs von Crawlern auf einzelne Seiten	Server, Datei	:gray_star: Erfordert Server-Konfiguration
12. TDMRep HTTP Header	Feinsteuerung der Rechte auf URL-Ebene	Server, Datei	:gray_star: Erfordert Server-Konfiguration

Eigenrecherche

XMP-Metadaten

https://de.wikipedia.org/wiki/Extensible_Metadata_Platform

Vorteile Nachteile

- Niedrigschwellig durch freie Software wie ExifTool oder Adobe Bridge pflegbar
- Schnelle Kennzeichnung von Urheberschaft, Lizenz und KI-Einsatz
- Lesbar durch Mensch und Maschine - Kein technischer Schutz vor TDM (Text und Data Mining)
- Keine standardisierten XMP-Felder für KI- und Data Mining-Kontexte aber pflegbar
- Contributor und Digital Source Type siehe https://www.iptc.org/std/photometadata/documentation/userguide/#_applying_metadata_to_ai_generated_images
- plus:DataMining siehe https://www.pixsy.com/image-protection/block-ai-from-using-individual-images
- Leicht manipulierbar oder löschbar (bspw. auch automatisiert bei Upload)

Vorteile	Nachteile
- Niedrigschwellig durch freie Software wie ExifTool oder Adobe Bridge pflegbar - Schnelle Kennzeichnung von Urheberschaft, Lizenz und KI-Einsatz - Lesbar durch Mensch und Maschine	- Kein technischer Schutz vor TDM (Text und Data Mining) - Keine standardisierten XMP-Felder für KI- und Data Mining-Kontexte aber pflegbar - `Contributor` und `Digital Source Type` siehe https://www.iptc.org/std/photometadata/documentation/userguide/#_applying_metadata_to_ai_generated_images - `plus:DataMining` siehe https://www.pixsy.com/image-protection/block-ai-from-using-individual-images - Leicht manipulierbar oder löschbar (bspw. auch automatisiert bei Upload)

Content Credentials

https://contentcredentials.org/

Content Credentials basieren auf dem offenen Standard der C2PA (Coalition for Content Provenance and Authenticity). Sie bauen auf XMP auf, gehen aber darüber hinaus, da sie:

kryptographisch signiert sind,
Informationen zur Bildherkunft (z. B. Kamera, Software, Bearbeitungsschritte) enthalten,
manipulationssicher gestaltet sind.

1. Automatisierte Protokollierung und Pflege durch Adobe-Programme: https://helpx.adobe.com/de/firefly/get-set-up/learn-the-basics/content-credentials-overview.html → https://contentauthenticity.adobe.com/

2. Manuelle, aufwändige Protokollierung durch Open-Source Tools: https://opensource.contentauthenticity.org/docs/introduction/, https://c2pa.org/specifications/specifications/1.0/guidance/Guidance.html

Vorteile	Nachteile
- Durch Signaturen verifizierbar und manipulationssicher - Starke Unterstützung durch Industrie (Adobe, Microsoft, Leica)	- Kein technischer Schutz vor TDM (Text und Data Mining) - Relativ intransparenter und komplexer Workflow (Protokollierung, Lizensierung, Auslesen, …)

Schutz vor Stilimitation (Glaze)

https://glaze.cs.uchicago.edu/what-is-glaze.html (Paper zur Funktionsweise: https://arxiv.org/pdf/2302.04222)

Glaze ist ein System, das entwickelt wurde, um Künstler vor der Nachahmung ihres Stils durch KI zu schützen. Es funktioniert, indem es minimale Änderungen an Kunstwerken vornimmt, die für das menschliche Auge kaum sichtbar sind, aber für KI-Modelle wie ein völlig anderer Kunststil erscheinen. Dies erschwert es KI-Modellen, den Stil eines Künstlers zu kopieren.

Risiken und Einschränkungen

Sichtbarkeit der Änderungen: Änderungen durch Glaze sind auf Werken mit flachen Farben und glatten Hintergründen sichtbarer.
Keine dauerhafte Lösung: Glaze ist nicht zukunftssicher und könnte durch zukünftige Algorithmen überwunden werden.
Robustheit: Glaze wurde ausführlich getestet und ist das stärkste Tool gegen Stilimitation, muss aber kontinuierlich aktualisiert werden.
Effektivität: Glaze schützt am besten gegen individualisierte Imitation und ist weniger wirksam gegen bereits in Basismodelle trainierte Stile.
Bekannte Angriffe: Es gibt zwei bekannte Angriffe auf Glaze, die jedoch in neueren Versionen behoben wurden.

Tests mit verschiedenen Assets und “Schutz-Intensitäten”

Geringe bis mittlere Intensität ist vertretbar, muss jedoch individuell je Werk geprüft werden. Ich habe die Assets lokal auf dem Mac “geglazed”, wobei eine Bilddatei zwischen 4 und 32 Minuten dauern kann. Hier habe ich die Default Quality genutzt.

[!INFO] Es gibt keine Belege zur Wirksamkeit des Schutzes, wenn die Bilder in WEBP umgewandelt werden. Lediglich JPEG-Komprimierung (Intensität 10 bis 20) wurden erfolgreich getestet. Außerdem ist keine Möglichkeit bekannt, den Schutz ohne aufwändiges Trainieren eines Modells zu testen.

Low Intensity	Default Intensity	High Intensity

Vorteile	Nachteile
- Verhindert Stil-Imitation durch generative KI - Kann lokal betrieben werden	- Relativ hoher (passiver) Zeit- und Rechenaufwand - Nur 3 gleichzeitige Assets in Warteschlange möglich - Sichtbare Veränderung - Keine “moderne” Komprimierung in bspw. WEBP möglich bei gleichzeitigem Schutz - Eher für Kunst- und Grafikstile geeignet

Robots Exclusion Protocol

Teilt bestimmten Bots mit, ob und inwieweit sie willkommen oder unerwünscht sind. Umgesetzt wird das durch eine Textdatei namens robots.txt im Stammverzeichnis der Website. Webcrawler sollen zuerst eine Datei dieses Namens abzurufen versuchen, und sofern das gelingt, darin niedergeschriebene Grenzen achten. (Vgl. https://de.wikipedia.org/wiki/Robots_Exclusion_Standard)

Erstellen einer robots.txt-Datei:

Vorteile	Nachteile
- Kein Training von KI-Modellen mit eigenen Daten - Traffic bleibt bestehen, da KI-Suchen nicht auf die Inhalte zugreifen und diese VOR einem Besuch ausgeben (bspw. direkt in Suchmaschinen).	- Dient lediglich als freundliche Aufforderung und wird von böswilligen Bots missachtet - Gilt nur partiell (bspw. respektiert OpenAI die Aufforderung “im Gespräch”, aber nicht beim Crawlen) - Muss ggf. granular formuliert werden um SEO nicht zu behindern (vgl. mit ai.txt von https://spawning.ai/ai-txt) - keine Möglichkeit zur Angabe von Nutzungsarten oder Lizenzbedingungen

TDM Reservation Protocol

https://www.w3.org/community/reports/tdmrep/CG-FINAL-tdmrep-20240510/

Die TDMrep-Spezifikation wurde entwickelt, um die Anforderungen von Artikel 4 Absatz 3 der EU-Urheberrechtsrichtlinie zu erfüllen, der es den Rechteinhabern erlaubt, von der TDM-Ausnahme für kommerzielle Zwecke abzusehen, indem sie ihre Vorbehalte in geeigneter Weise zum Ausdruck bringen, z. B. durch maschinenlesbare Metadaten.

Hauptmerkmale

Maschinenlesbare Rechtevorbehalte: Ermöglicht Rechteinhabern, ihre Vorbehalte für TDM-Aktivitäten in einer Weise zu erklären, die von Data Minern automatisch erkannt und beachtet werden kann.

Mehrere Implementierungen möglich:

HTTP-Header: Rechtevorbehalte können in HTTP-Antwort-Headern angegeben werden.
HTML-Meta-Tags: Einbettung von Rechtevorbehalten in HTML-Inhalte über Meta-Tags.
Robots.txt-Erweiterungen: Nutzung der Datei robots.txt zur Aufnahme von TDM-spezifischen Direktiven.
Richtlinien-Spezifikation: Bietet eine Möglichkeit, auf eine TDM-Richtlinie zu verweisen oder diese einzubinden, die Informationen über Lizenzierungsoptionen oder Bedingungen, unter denen TDM erlaubt ist, enthalten kann.
Granulare Kontrolle: Rechteinhaber können Reservierungen auf verschiedenen Ebenen festlegen, einschließlich ganzer Domains, bestimmter Verzeichnisse oder einzelner Ressourcen.

Vorteile	Nachteile
- Maschinenlesbarer Nutzungsvorbehalt - Möglichkeit zur Erfüllung von Artikel 4 Absatz 3 der EU-Urheberrechtsrichtlinie	- Entwickelt für TDM-Kontext, nicht für KI-Crawler - Keine aktive Rechts-Durchsetzung bei Verstößen

User-Agent Detection

Am Beispiel des NGINX-Servers: https://docs.nginx.com/nginx/admin-guide/content-cache/content-caching/#vary-header.

User-Agent Detection im NginX ist eine Methode, um den Zugriff auf Ihre Website basierend auf dem User-Agent-Header der Anfrage zu steuern. Der User-Agent-Header ist ein Teil der HTTP-Anfrage, der Informationen über den Clienten (z.B. Browser, Crawler) enthält, der die Anfrage stellt. Durch die Analyse dieses Headers können Sie bestimmte User-Agents identifizieren und blockieren, die von AI-Crawlern oder anderen unerwünschten Bots stammen.

Was leistet die UA Detection bspw. auf einem NginX-Server?

Konfiguration der NginX:

Kann als Reverse-Proxy und Load-Balancer verwendet werden.

Erstellung von Regeln:

Sie können Regeln in der NginX-Konfigurationsdatei erstellen, um Anfragen von bestimmten User-Agents zu blockieren.

Identifikation von User-Agents:

Sie müssen die User-Agents identifizieren, die Sie blockieren möchten. Dies kann durch die Analyse der Server-Logs oder durch die Verwendung von Listen bekannter böswilliger Bots erfolgen.

Bonus: LLMs “vergiften”

Alternativ zum “Aussperren” der User-Agents, können diese auch mit Müll gefüttert werden.

Serviert wird dieser Müll den Crawlern der LLMs durch unseren Reverse-Proxy: Wenn der Request von einem bekannten Crawler kommt, liefert er statt der echten Website eine von Iocaine erzeugte Müllseite. Diese Müllseiten enthalten Links zu weiteren von Iocaine erzeugten Müllseiten – und Crawler lieben Links! So zieht sich der Crawler jede Menge Müll rein, anstatt Mastodon-Postings, Vernissage-Bilder oder anderer echter Inhalte (vgl. https://blog.pnpde.social/spielleitung/poison-the-wellm).

Jedoch auch zu beachten:

This is deliberately malicious software, intended to cause harm. Do not deploy if you aren’t fully comfortable with what you are doing (vgl. https://iocaine.madhouse-project.org/)

Vorteile	Nachteile
- Einfache Implementierung - Aussperren oder Umleiten von Crawlern - Möglichkeit, Crawler mit Müll-Daten zu füttern	- Crawler können Identität verschleiern - Hoher Pflegeaufwand der Liste bekannter und relevanter User-Agents - Legitime Benutzer könnten fälschlicherweise identifiziert werden

Rechtlich gültiger Nutzungsvorbehalt

Wenn eine Website keinen ausdrücklichen und maschinenlesbaren Widerspruch enthält, sind KI-Systeme per Gesetz berechtigt, deine Website auszulesen und mithilfe deiner Inhalte ihr Wissen zu trainieren. Heißt im im Umkehrschluss:

Ein Nutzungsvorbehalt, der in maschinenlesbarer Form erklärt wird, ist nach § 44b UrhG rechtlich bindend (vgl. https://www.oppenhoff.eu/de/news/detail/kuenstliche-intelligenz-und-urheberrecht-das-training-der-ki/).

Die urhebende Person (bzw. Inhaber:in der Verwertungsrechte) hat die Möglichkeit im Wege eines Opt-Out-Modelles eine KI-Training (Scrapnig, Crawling, Data-Mining) zu untersagen. Der Nutzungsvorbehalt kann dabei ausdrücklich und/oder in angemessener Weise (etwa in den AGB) erklärt werden. – Generell ist festzuhalten, dass im Bereich von KI bzw KI-Training im Laufe der nächsten Jahre mit einer dynamischen Rechtsprechung bzw. Gesetzgebung zu rechnen ist. (vgl. https://www.digital-recht.at/blog/ist-scraping-bzw-crawling-rechtlich-zulassig)

Rechtlich spannend dürfte eine Einbindung (zusätzlich) in AGB einer Website sein. Denn der § 44b UrhG ist dispositiv, d.h. es kann etwas anderes durch Vertrag vereinbart werden. Sofern also nur in den AGB ein Vermerk erfolgen soll, sollte dieser rechtlich abgestimmt werden (vgl. https://bvpa.org/text-und-data-mining-durch-nutzungsvorbehalt-untersagen/). Idealerweise wird er auf jeder Webseite im HTML-Code platziert. Unabhängig von der gewählten Methode sollte das Datum für das Inkrafttreten der neuen Nutzungsbedingungen nach Möglichkeit juristisch sicher dokumentiert werden, damit es keinen Zweifel daran geben kann, ob sie zu einem bestimmten Zeitpunkt galten oder nicht (vgl. https://kollektive-intelligenz.de/originals/praktische-uberlegungen-zum-nutzungsvorbehalt/). Inhaltlich könnte der Vermerk folgendermaßen aussehen:

“Der Inhaber dieser Website gestattet die Nutzung oder das Herunterladen von Inhalten dieser Website durch Dritte für die Entwicklung, das Training oder den Betrieb von künstlicher Intelligenz oder anderen maschinellen Lernsystemen (“Text und Data Mining”) ausschließlich mit ausdrücklicher schriftlicher Zustimmung des Inhabers. Ohne eine solche Zustimmung ist es untersagt, die Inhalte für Text und Data Mining zu verwenden. Dies gilt auch, wenn auf der Website keine Meta-Angaben vorhanden sind, die entsprechende Verfahren aussperren, und selbst dann, wenn Bots, die den Zweck haben, die Website zu Zwecken des Text und Data Mining auszulesen, nicht ausgesperrt werden.” (vgl. https://www.vgsd.de/ki-crawler-muessen-draussen-bleiben-so-schuetzt-du-texte-und-bilder-auf-deiner-webseite-vor-einer-verwendung-durch-openai/)

Urheberinformationen und Nutzungsbedingungen sollten zudem direkt in die entsprechenden Medien und deren Metadaten eingebettet werden. Bei Bildern bieten sich entsprechende Einträge in den IPTC-Metadaten an, die auch von Suchmaschinen ausgelesen und bei der Suche berücksichtigt werden.

Ergänzend kann ein weiterer Opt-Out im Dashboard von Spawning pro URL getätigt werden.

Vorteile	Nachteile
- Rechtsgültiger Widerspruch der Nutzung nach - § 16 UrhG (Vervielfältigungsrecht) - § 44b UrhG (Text und Data Mining) , die wiederum die DSM-Richtlinie der EU (ErwG. 18) umsetzen.	- Problem der Nachweisbarkeit eines Verstoßes - Weitere rechtliche Schritte und Kosten nötig

Bot-Mitigation Services

https://www.cloudflare.com/de-de/plans/application-services/ (Free)
https://www.crowdsec.net/pricing (Community Plan)
https://datadome.co/pricing/ (viel zu teuer)
https://european-alternatives.eu/de/alternativen-zu/cloudflare → https://www.ovhcloud.com/de/web-hosting/options/cdn/

Ziel ist es, Webserver vor ungewolltem Zugriff durch automatisierte Systeme zu schützen, etwa um geistiges Eigentum, API-Endpunkte, Preise, Texte oder Mediendaten zu sichern.

Vorteile	Nachteile
- Identifikation und Blockierung böswilliger Bots in Echtzeit - Sichere Differenzierung zwischen menschlichem und bot-gesteuertem Verkehr	- Oft Cloud-basiert und mit zusätzlichen Kosten verbunden - Abhängigkeit von Drittanbietern

Bonus: Kudurru & Spawning

https://kudurru.ai/ – Ablehnen identifizierter Web-Scraper bzw. umleiten dieser, wenn sie Opt-Outs ignorieren.

Kudurru monitors popular AI datasets for scraping behavior, and coordinates amongst the network to quickly identify scrapers. When a scraper is identified, its identity is broadcast to all protected Kudurru sites. All Kudurru sites then collectively block the scraper from downloading content from their respective host. When the scraper is finished, Kudurru informs the network and traffic is allowed to proceed as normal.

[!INFO] Aktuell nur Beta → Beitritt über Mail + URL (einmal für uns angestoßen)

https://haveibeentrained.com/ – Widerspruch zur bestehenden Nutzung spezifischer Inhalte oder ganzer URLs (Opt-Out).

Once approved and confirmed, they will be communicated to any organizations using our API as: Opted Out of AI Training.

[!INFO] Opt-Out wird nur von wenigen Unternehmen respektiert. Aktuell Stability AI und Hugging Face.

Vorteile	Nachteile
Spawning
- Nachträgliche Opt-Out-Möglichkeit für separate Dateien oder ganze URLs	- Spawnings Opt-Out-Liste wird nur von wenigen Diensten respektiert
Kudurru
- Identifikation und Umleitung böswilliger Bots in Echtzeit	- noch Beta-Phase - Keine garantierte Nutzung (closed Beta)

Weitere Recherche

https://vercel.com/blog/the-rise-of-the-ai-crawler https://techcrunch.com/2025/03/27/open-source-devs-are-fighting-ai-crawlers-with-cleverness-and-vengeance/https://pivot-to-ai.com/2025/06/02/fighting-the-ai-scraper-bots-at-pivot-to-ai-and-rationalwiki/#more-4613