wie ist eure Handhabung bzgl. KI Crawlern? Ergreift ihr Maßnahmen, dass KI Crawler eure Inhalte nicht abgreifen können oder lasst ihr das zu?
Das Ganze ist vermutlich ein Kampf gegen Windmühlen, da die Betreiber nicht mit fairen Mitteln spielen und sich nicht an Regeln halten. Ich halte recht viel von https://darkvisitors.com/ Deren Datensätze benutze ich für ein Blockier-Plugin für mein CMS, es gibt auch eines für WordPress.
Da sich die meisten der KI-Crawler nicht um die robots.txt scheren, muss man wohl andere Wege gehen, wenn man diese ausschließen will. Die von Darkvisitors gepflegten UserAgents der Crawler kann man auch nutzen, um sie z.B. in der htaccess Datei zu blockieren, bevor sie überhaupt beim CMS ankommen.
Neben der Frage, ob man solchen Unternehmen seine Daten in den Rachen werfen sollte, damit sie einem dieselben Daten dann in anderer Form wieder verkaufen, sei mal dahingestellt – meine Meinung dazu kann man wahrscheinlich zwischen den Zeilen raushören 😅 – das viel größere Problem ist die technische Herangehensweise dieser Bots und Crawler, die machen auf manch einer Seite nämlich inzwischen über 60% des Traffics aus und sorgen bei größeren Seiten regelmäßig für Ausfälle, weil sie sie überrennen. Das könnte also alleine schon Grund genug sein, sie serverseitig zu blockieren.