KI Crawler aussperren?

  • Hallo ihr,

    wie ist eure Handhabung bzgl. KI Crawlern? Ergreift ihr Maßnahmen, dass KI Crawler eure Inhalte nicht abgreifen können oder lasst ihr das zu?

    Mit Wordpress gibt es ja einige Möglichkeiten, diesen Versuchen etwas entgegen zu setzen. Bei Blogger/Blogspot gibt es diese Möglichkeit nicht. Wie das bei anderen Blogportalen oder Software aussieht weiß ich schlicht nicht.

    Ich bin sehr ambivalent ob ich mich darum bemühen soll, dass die KI Engines nicht auf den Blog zugreifen können oder nicht.

  • Das hier ist ein recht ausführlicher Artikel zu dem Thema und wie man vorgehen kann: https://forum-sprachen-lernen.com/opt-out-fuer-ki-bots/

    Und der hier ist auch noch ganz hilfreich: https://neil-clarke.com/block-the-bots…g-your-website/

    Nicht so schlaue Menschen, wie ich beispielsweise, probieren einfach wild ein paar Plugins aus. Beispielsweise "Block AI Crawlers" von Bob Matyas.

    Das funktioniert soweit sogar. ChatGPT kann im Moment nicht auf die Inhalte meines Blogs zugreifen.

    Einmal editiert, zuletzt von Martha (9. Juni 2025 um 18:05)

  • Ich hab darüber vor einiger Zeit gebloggt.

    Es gibt da schon effektive Möglichkeiten. Die robots.txt zählt jedoch nicht dazu.

    AI Bots aussperren - Norbert Eder
    Wer selbst Inhalte im Internet publiziert, möchte eventuell nicht, dass diese von den AI Web Crawlern zum Trainieren von LLMs etc. eingesammelt werden. Viele
    norberteder.com

    Persönlich halte ich es so, dass ich KI-Bots aussperre. Ich finde es nicht unterstützenswert, dass kommerzielle Unternehmen meinen Content verwerten, mich dann aber ausblenden.

  • Persönlich halte ich es so, dass ich KI-Bots aussperre. Ich finde es nicht unterstützenswert, dass kommerzielle Unternehmen meinen Content verwerten, mich dann aber ausblenden.

    Ich bin da ganz bei Dir. Aber der von Dir angegebene Link kennt auch nur die Möglichkeiten via robots.txt oder .htaccess. Und beide Male müssen wir ganz fest glauben und hoffen, dass sich die AIs an die Spielregeln halten und sich als solche zu erkennen geben. Woran ich, nach allem, was ich gelesen habe, nicht glaube.

  • Damals, als die Sache rund um die KI losging, habe ich auch meinen Blog für KI-Crawler über htaccess gesperrt. Allerdings ist das ein Kampf gegen Windmühlen. Ständig kommen neue Crawler dazu. Man muss sich also ständig informieren und die Rules aktualisieren. Und wer garantiert, dass der generierte Index der normalen Web-Crawler am Ende nicht doch einer KI zugeführt werden? Teilweise spielen die Anbieter hier auch ihre Marktmacht aus. Wenn man den KI-Crawler sperrt, kann es mitunter sein, dass auch der Web-Crawler die Seite nicht mehr indiziert. Die Grenzen verschwimmen immer weiter. ChatBots und Sprachmodelle können mittlerweile selbstständig Suchen ausführen und die Suchtreffer in ihre Antwort übernehmen (RAG). Also wo fängt KI an und wo hört KI auf? Jedenfalls habe ich aufgehört, meinen Blog für KI-Crawlern zu sperren. Am Ende machen die eh, was sie wollen und setzen sich über alle Regeln und Gesetze hinweg.

  • Persönlich halte ich es so, dass ich KI-Bots aussperre. Ich finde es nicht unterstützenswert, dass kommerzielle Unternehmen meinen Content verwerten, mich dann aber ausblenden.

    Ich bin da ganz bei Dir. Aber der von Dir angegebene Link kennt auch nur die Möglichkeiten via robots.txt oder .htaccess. Und beide Male müssen wir ganz fest glauben und hoffen, dass sich die AIs an die Spielregeln halten und sich als solche zu erkennen geben. Woran ich, nach allem, was ich gelesen habe, nicht glaube.

    Nö, nur die robots.txt ist freiwillig.
    Mit der .htaccess sperrt der Webserver, egal was der KI-Bot will.

    Damals, als die Sache rund um die KI losging, habe ich auch meinen Blog für KI-Crawler über htaccess gesperrt. Allerdings ist das ein Kampf gegen Windmühlen. Ständig kommen neue Crawler dazu. Man muss sich also ständig informieren und die Rules aktualisieren. Und wer garantiert, dass der generierte Index der normalen Web-Crawler am Ende nicht doch einer KI zugeführt werden?

    Es gibt viele Menschen, die Zeit in dieses Thema stecken und Listen pflegen. Die .htaccess kann man automatisiert aktualisieren, d.h. den eigenen Aufwand durchaus minimieren. Dass die großen Suchmaschinen das Ergebnis des normalen Web-Crawlers ihren KIs zuführen, ja, das wissen wir ja, dass sie das auch schon gemacht haben. Aber nur weil's zwei ins Haus geschafft haben, müssen wir nicht alle anderen auch noch rein lassen.

  • Mit der .htaccess sperrt der Webserver, egal was der KI-Bot will.

    Ja. Sofern er auf der Liste ist. Du sagst es ja selber: Es kommen immer neue hinzu. Und wohl auch alte mit anderen unauffälligen Namen. Es ist eine Sysiphus-Arbeit.

    Ausserdem brauchen immer mehr Personen zwischen 8 und 95 AI für die Websuche. Soll ich die aussperren? Dann schreibe ich bald nur noch für mich selber und die paar, denen ich in Social Media Direktlinks zugestellt habe ...

  • Ja. Sofern er auf der Liste ist. Du sagst es ja selber: Es kommen immer neue hinzu. Und wohl auch alte mit anderen unauffälligen Namen. Es ist eine Sysiphus-Arbeit.

    Wie schon geschrieben: das kann man automatisieren, dann ist Sisyphos fertig mit der Arbeit.

    Ausserdem brauchen immer mehr Personen zwischen 8 und 95 AI für die Websuche. Soll ich die aussperren? Dann schreibe ich bald nur noch für mich selber und die paar, denen ich in Social Media Direktlinks zugestellt habe ...

    "Brauchen" lasse ich mal so dahingestellt ;)

    ABER: Die KI abstrahiert dein Blog weg. Sie greift deinen Content ab und vernudelt den in etwas, das du nicht kontrollieren kannst. Zudem siehst du keine Besucher mehr. Google zeigt KI-Zusammenfassungen, aber nicht, woher die Inhalte kommen. Das ist eine Frage dessen, ob man dieses System unterstützen möchte. Ich möchte das nicht. Du musst das aber ohnehin für dich selbst entscheiden.

  • Ich lasse KI-Crawler zu und habe mich auch kundig gemacht, wie man es ihnen leicht macht, den Inhalt korrekt zu lesen: LLM-Optimierung statt SEO. :)

    Wordpress-Blog für KI gut zugänglich machen (inkl. Anleitung von Perplexity) › Digital Diary
    Thomas Gigold, Gründer und Betreiber des erfolgreichen UberBlogrings, schreibt in seinem neuesten Blogpost "Webseite-Traffic durch Suchmaschinen ist tot" über…
    www.claudia-klinger.de

    Die KIs, insbesondere Perplexity, das ich selber täglich nutze, lösen zunehmend die Google-Suche ab - und Perplexity gibt sogar zu jeder Behauptung die Originalquellen an.

    Abgesehen von der kleinen Chance, da auch mal vorzukommen, ist es mir wichtig, dass die KIs dieser Welt auch europäischen Content zu lesen bekommen. In ihnen entsteht ja eine Art "Weltwissen", das sie den Usern zur Verfügung stellen. Warum die eigenen Inhalte da außen vor bleiben sollen, leuchtet mir nicht ein. Es kommt ja kein einziger Besucher MEHR auf mein Blog, wenn ich KIs ausschließe.

    Digital Diary - Vom Sinn des Lebens zum Buchstabenglück (seit 1999).

  • Abgesehen von der kleinen Chance, da auch mal vorzukommen, ist es mir wichtig, dass die KIs dieser Welt auch europäischen Content zu lesen bekommen. In ihnen entsteht ja eine Art "Weltwissen", das sie den Usern zur Verfügung stellen. Warum die eigenen Inhalte da außen vor bleiben sollen, leuchtet mir nicht ein. Es kommt ja kein einziger Besucher MEHR auf mein Blog, wenn ich KIs ausschließe.

    Ich kann deine Argumentation gut verstehen. Auch dein holistischer Gedanke eines "Weltwissens" ist ein hehrer.

    Das Problem ist aber ein grundlegendes: Hinter den KIs dieser Welt stehen Unternehmen, die Geld verdienen wollen. Das funktioniert nur, wenn man Menschen an eine Plattform bindet und dann auch nicht mehr raus lässt. Was aber bedeutet, dass die Quellen nicht mehr genannt werden. Perplexity macht das jetzt noch. Aber das wird auch bald vorbei sein. Schlussendlich bekommt dein Blog dann gar keine Besucher mehr - nur mehr KI-Bots. Eine Kontrolle, was mit deinem Content gemacht wird und wie er KI-Benutzern vorgesetzt wird, hast du ohnehin nicht. Ein weiterer Nachteil von gewinnorientierten Unternehmen ist der fehlende holistische Ansatz - was immer passiert, ist nicht in erster Linie für uns gut.

    Nun kannst du argumentieren, dass du das System durch Reinlassen oder Blockieren der KIs ja auch nicht unbedingt verändern kannst. Damit hast du sicherlich recht, es braucht Alternativen zur aktuellen Entwicklung, wenn das Open Web (wie es ursprünglich gedacht war) weiterhin funktionieren soll. Schlussendlich muss jeder für sich entscheiden, ob bzw. inwieweit diese Entwicklung unterstützt werden soll.

  • Abgesehen von der kleinen Chance, da auch mal vorzukommen, ist es mir wichtig, dass die KIs dieser Welt auch europäischen Content zu lesen bekommen. In ihnen entsteht ja eine Art "Weltwissen", das sie den Usern zur Verfügung stellen. Warum die eigenen Inhalte da außen vor bleiben sollen, leuchtet mir nicht ein. Es kommt ja kein einziger Besucher MEHR auf mein Blog, wenn ich KIs ausschließe.

    Ich kann deine Argumentation gut verstehen.

    Ja, da hat Claudia absolut recht.

  • wie ist eure Handhabung bzgl. KI Crawlern? Ergreift ihr Maßnahmen, dass KI Crawler eure Inhalte nicht abgreifen können oder lasst ihr das zu?

    Das Ganze ist vermutlich ein Kampf gegen Windmühlen, da die Betreiber nicht mit fairen Mitteln spielen und sich nicht an Regeln halten. Ich halte recht viel von https://darkvisitors.com/ Deren Datensätze benutze ich für ein Blockier-Plugin für mein CMS, es gibt auch eines für WordPress.

    Da sich die meisten der KI-Crawler nicht um die robots.txt scheren, muss man wohl andere Wege gehen, wenn man diese ausschließen will. Die von Darkvisitors gepflegten UserAgents der Crawler kann man auch nutzen, um sie z.B. in der htaccess Datei zu blockieren, bevor sie überhaupt beim CMS ankommen.

    Neben der Frage, ob man solchen Unternehmen seine Daten in den Rachen werfen sollte, damit sie einem dieselben Daten dann in anderer Form wieder verkaufen, sei mal dahingestellt – meine Meinung dazu kann man wahrscheinlich zwischen den Zeilen raushören 😅 – das viel größere Problem ist die technische Herangehensweise dieser Bots und Crawler, die machen auf manch einer Seite nämlich inzwischen über 60% des Traffics aus und sorgen bei größeren Seiten regelmäßig für Ausfälle, weil sie sie überrennen. Das könnte also alleine schon Grund genug sein, sie serverseitig zu blockieren.

Bloghexen-Post: unser Newsletter 🗞️

Erhalte einmal im Monat die Bloghexen-Post und bleib über Neuigkeiten rund um die Bloghexe und unser Forum auf dem Laufenden!

» Hier findest du mehr Infos & kannst dich eintragen « 

Mach mit!

Du hast noch kein Benutzerkonto auf unserer Seite? Registriere dich jetzt und werde kostenlos Mitglied bei den Bloghexen!