#gptbot — Public Fediverse posts on home.social

@[email protected] @[email protected] · 2026-04-28 · 16:12 UTC

I haven't had this domain up for that long and GPTBot has already been poking around. The domain isn't linked from anywhere and they've somehow discovered the server already. Absolute creeps.

#OpenAI #GPTBot #AI

#openai #gptbot #ai

C.Suthorn :prn: @[email protected] · 2025-12-17 · 11:14 UTC

Wenn ich nachsehen möchte, ob im #Formatstring für das Datum das kleine s für Sekunden und das große S für Millisekunden steht, dann frage ich das einen beliebigen #GPTbot (den, der nicht sagt #Quota exceded, weil ich mich nicht per #Api-Key identifiziert habe). Warum?

In #Wikipedia steht die Antwort möglicherweise. Es dauert aber, herauszufinden, in welchem Artikel, Listenartikel oder Unterartikel. Die #Suche von Wikipedia verwendet zwar #ElasticSearch, aber um die Vorteile von dieser starken Engine auch zu erhalten, hätten 100000e Menschen, die Wikipedia-Artikel auch verschlagworten müssen (#wikidata). Ausserdem kann es sein, dass etwas so praktisches wie formatstrings als #unenzyklpädisch eingestuft wurde und daher entfernt.

In #Stackexchange muss ich mehrfach bestätigen, dass ich ein Mensch bin, finde dann einen Artikel, der unbeantwortet geschlossen wurde, weil #Duplikat. Dann zwei veraltete, die inzwischen falsch sind, dann welche mit einem nicht mehr funktionierenden link auf die Lösung.

Bei #archive_org, archive.is und #AnnasArchive muss ich die #URL des gesuchten Artikels wissen, um suchen zu können.

Eine #Suchmaschine sucht nicht. Eine Suchmaschine liest die "Sutemap.XML" Dateien aus, die websitebetreiber online stellen für die #crawler der Suchmaschinen. Ich finde also fünf Jahre alte Artikel auf Websites die seit fünf Jahren nicht mehr gepflegt werden. Und maximal ein jahr alte Artikel, die meine Frage nicht beantworten aber in der #sitemap stehen. Die 100 Websites, die die richtige Antwort in einem zwei bis vier Jahre alte Artikel enthalten, finde ich nicht, weil diese Artikel nicht mehr in der sitemap stehen.

Die GPTbots haben Wikipedia, stackexchange, Archiv.org, Annas archive und alle Websites gescrapt und dabei #robots.txt und sitemap ignoriert. Ich bekomme die richtige Antwort und zwar schneller als mit allen zuvor genannten Varianten.

Oder ich suche in #Grokipedia. Grokipedia besteht aus 1Million statischen seiten im #CDN von #Cloudflare die von wikipedia gescrapt wurden. Die suche ist ein GPTbot und 57mal besser als die suche in wikipedia.

@malteengeler @awinkler @evawolfangel @bkastl @Raymond @wikipedia

#formatstring #gptbot #quota #api #wikipedia #suche

C.Suthorn :prn: @[email protected] · 2025-12-17 · 11:14 UTC

Wenn ich nachsehen möchte, ob im #Formatstring für das Datum das kleine s für Sekunden und das große S für Millisekunden steht, dann frage ich das einen beliebigen #GPTbot (den, der nicht sagt #Quota exceded, weil ich mich nicht per #Api-Key identifiziert habe). Warum?

In #Wikipedia steht die Antwort möglicherweise. Es dauert aber, herauszufinden, in welchem Artikel, Listenartikel oder Unterartikel. Die #Suche von Wikipedia verwendet zwar #ElasticSearch, aber um die Vorteile von dieser starken Engine auch zu erhalten, hätten 100000e Menschen, die Wikipedia-Artikel auch verschlagworten müssen (#wikidata). Ausserdem kann es sein, dass etwas so praktisches wie formatstrings als #unenzyklpädisch eingestuft wurde und daher entfernt.

In #Stackexchange muss ich mehrfach bestätigen, dass ich ein Mensch bin, finde dann einen Artikel, der unbeantwortet geschlossen wurde, weil #Duplikat. Dann zwei veraltete, die inzwischen falsch sind, dann welche mit einem nicht mehr funktionierenden link auf die Lösung.

Bei #archive_org, archive.is und #AnnasArchive muss ich die #URL des gesuchten Artikels wissen, um suchen zu können.

Eine #Suchmaschine sucht nicht. Eine Suchmaschine liest die "Sutemap.XML" Dateien aus, die websitebetreiber online stellen für die #crawler der Suchmaschinen. Ich finde also fünf Jahre alte Artikel auf Websites die seit fünf Jahren nicht mehr gepflegt werden. Und maximal ein jahr alte Artikel, die meine Frage nicht beantworten aber in der #sitemap stehen. Die 100 Websites, die die richtige Antwort in einem zwei bis vier Jahre alte Artikel enthalten, finde ich nicht, weil diese Artikel nicht mehr in der sitemap stehen.

Die GPTbots haben Wikipedia, stackexchange, Archiv.org, Annas archive und alle Websites gescrapt und dabei #robots.txt und sitemap ignoriert. Ich bekomme die richtige Antwort und zwar schneller als mit allen zuvor genannten Varianten.

Oder ich suche in #Grokipedia. Grokipedia besteht aus 1Million statischen seiten im #CDN von #Cloudflare die von wikipedia gescrapt wurden. Die suche ist ein GPTbot und 57mal besser als die suche in wikipedia.

@malteengeler @awinkler @evawolfangel @bkastl @Raymond @wikipedia

#formatstring #gptbot #quota #api #wikipedia #suche

C.Suthorn :prn: @[email protected] · 2025-12-17 · 11:14 UTC

Wenn ich nachsehen möchte, ob im #Formatstring für das Datum das kleine s für Sekunden und das große S für Millisekunden steht, dann frage ich das einen beliebigen #GPTbot (den, der nicht sagt #Quota exceded, weil ich mich nicht per #Api-Key identifiziert habe). Warum?

In #Wikipedia steht die Antwort möglicherweise. Es dauert aber, herauszufinden, in welchem Artikel, Listenartikel oder Unterartikel. Die #Suche von Wikipedia verwendet zwar #ElasticSearch, aber um die Vorteile von dieser starken Engine auch zu erhalten, hätten 100000e Menschen, die Wikipedia-Artikel auch verschlagworten müssen (#wikidata). Ausserdem kann es sein, dass etwas so praktisches wie formatstrings als #unenzyklpädisch eingestuft wurde und daher entfernt.

In #Stackexchange muss ich mehrfach bestätigen, dass ich ein Mensch bin, finde dann einen Artikel, der unbeantwortet geschlossen wurde, weil #Duplikat. Dann zwei veraltete, die inzwischen falsch sind, dann welche mit einem nicht mehr funktionierenden link auf die Lösung.

Bei #archive_org, archive.is und #AnnasArchive muss ich die #URL des gesuchten Artikels wissen, um suchen zu können.

Eine #Suchmaschine sucht nicht. Eine Suchmaschine liest die "Sutemap.XML" Dateien aus, die websitebetreiber online stellen für die #crawler der Suchmaschinen. Ich finde also fünf Jahre alte Artikel auf Websites die seit fünf Jahren nicht mehr gepflegt werden. Und maximal ein jahr alte Artikel, die meine Frage nicht beantworten aber in der #sitemap stehen. Die 100 Websites, die die richtige Antwort in einem zwei bis vier Jahre alte Artikel enthalten, finde ich nicht, weil diese Artikel nicht mehr in der sitemap stehen.

Die GPTbots haben Wikipedia, stackexchange, Archiv.org, Annas archive und alle Websites gescrapt und dabei #robots.txt und sitemap ignoriert. Ich bekomme die richtige Antwort und zwar schneller als mit allen zuvor genannten Varianten.

Oder ich suche in #Grokipedia. Grokipedia besteht aus 1Million statischen seiten im #CDN von #Cloudflare die von wikipedia gescrapt wurden. Die suche ist ein GPTbot und 57mal besser als die suche in wikipedia.

@malteengeler @awinkler @evawolfangel @bkastl @Raymond @wikipedia

#cloudflare #cdn #grokipedia #robots #sitemap #crawler

C.Suthorn :prn: @[email protected] · 2025-12-17 · 11:14 UTC

Wenn ich nachsehen möchte, ob im #Formatstring für das Datum das kleine s für Sekunden und das große S für Millisekunden steht, dann frage ich das einen beliebigen #GPTbot (den, der nicht sagt #Quota exceded, weil ich mich nicht per #Api-Key identifiziert habe). Warum?

In #Wikipedia steht die Antwort möglicherweise. Es dauert aber, herauszufinden, in welchem Artikel, Listenartikel oder Unterartikel. Die #Suche von Wikipedia verwendet zwar #ElasticSearch, aber um die Vorteile von dieser starken Engine auch zu erhalten, hätten 100000e Menschen, die Wikipedia-Artikel auch verschlagworten müssen (#wikidata). Ausserdem kann es sein, dass etwas so praktisches wie formatstrings als #unenzyklpädisch eingestuft wurde und daher entfernt.

In #Stackexchange muss ich mehrfach bestätigen, dass ich ein Mensch bin, finde dann einen Artikel, der unbeantwortet geschlossen wurde, weil #Duplikat. Dann zwei veraltete, die inzwischen falsch sind, dann welche mit einem nicht mehr funktionierenden link auf die Lösung.

Bei #archive_org, archive.is und #AnnasArchive muss ich die #URL des gesuchten Artikels wissen, um suchen zu können.

Eine #Suchmaschine sucht nicht. Eine Suchmaschine liest die "Sutemap.XML" Dateien aus, die websitebetreiber online stellen für die #crawler der Suchmaschinen. Ich finde also fünf Jahre alte Artikel auf Websites die seit fünf Jahren nicht mehr gepflegt werden. Und maximal ein jahr alte Artikel, die meine Frage nicht beantworten aber in der #sitemap stehen. Die 100 Websites, die die richtige Antwort in einem zwei bis vier Jahre alte Artikel enthalten, finde ich nicht, weil diese Artikel nicht mehr in der sitemap stehen.

Die GPTbots haben Wikipedia, stackexchange, Archiv.org, Annas archive und alle Websites gescrapt und dabei #robots.txt und sitemap ignoriert. Ich bekomme die richtige Antwort und zwar schneller als mit allen zuvor genannten Varianten.

Oder ich suche in #Grokipedia. Grokipedia besteht aus 1Million statischen seiten im #CDN von #Cloudflare die von wikipedia gescrapt wurden. Die suche ist ein GPTbot und 57mal besser als die suche in wikipedia.

@malteengeler @awinkler @evawolfangel @bkastl @Raymond @wikipedia

#formatstring #gptbot #quota #api #wikipedia #suche

Sebastian Zdrojewski @[email protected] · 2025-12-17 · 07:48 UTC

With the surprise of absolutely anyone I believe, #OpenAI does not follow robots.txt rules with its #GPTbot.

With at least one full crawl of websites per day, setting a rule to reject their user agent I hoped to see at least a slow down, but instead there was an increase in frequency.

Oh well, we're starting to ban IP from #Azure Cloud where their crawling comes from. I know that this will reduce our "visibility" in "searches" but... who gives.

#openai #gptbot #azure

Le site de Korben [Unofficial] @[email protected] · 2025-12-15 · 12:11 UTC

Comment bloquer les crawlers IA qui pillent votre site sans vous demander la permission ?

https://fed.brid.gy/r/https://korben.info/bloquer-crawlers-ia-robots-txt-htaccess-nginx.html

#linuxopensourceadministrationserveur #linuxopensourcelogicielslibres #apache #claudebot #crawlersia #gptbot

spielleitung @[email protected] · 2025-05-27 · 10:36 UTC

#GPTBot macht nach wie vor ca. 20% der Zugriffe dieser Mastodon-Instanz aus, aber der Crawler bekommt nur noch von #Iocaine generierten Unsinn. Das reduziert die Datenmenge, die wir an ihn ausliefern, drastisch und zerstört die Qualität unseres Datensatzes für ihn vollkommen.

Es hilft uns also Kosten zu sparen, verschlechtert die LLM und macht auch noch diebische Freude! Win-Win-Win! :KritischerTreffer:

#MastoAdmin #OpenAI

#gptbot #iocaine #mastoadmin #openai

FlohEinstein @[email protected] · 2025-05-23 · 04:38 UTC

This is -ing unbelievable:
In the 17 hours running my "Discworld Ólyfjan" Iocaine, GPTBot has download the same 84 pages over 10000 times. They don't even change!

And Google has it on the search index: "Ólyfjan" [name of any discworld character]
has results.

HEX, the Bursar, even the troll Brick would be more intelligent than that...

#iocaine #aipoisoning #gptbot #chatgpt #discworld

FlohEinstein @[email protected] · 2025-05-22 · 15:02 UTC

One of the things that annoys me the most is that the scraper that went furthest into the tarpit (83 links deep) is also the one who comes back reading the same pages again and again:

{host="olyfjan.blomi.is",user_agent="Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.2; +https://openai.com/gptbot)",user_agent_group="GPTBot"} has sent 6991 GET requests, for the same 84 pages, downloading 22779416 bytes.

#gptbot #aipoisoning #iocaine

BlablaLinux @[email protected] · 2025-02-05 · 09:32 UTC

#openia #boots

#GPTBot est utilisé pour rendre nos modèles de base d' #IA générative plus utiles et plus sûrs. Il est utilisé pour explorer le contenu qui peut être utilisé pour former nos modèles de base d'IA générative. Interdire GPTBot indique que le contenu d'un site ne doit pas être utilisé.

Et bien moi, c'est bloqué 😉
Robots de m*r*e 😎

52.230.152.0/24
52.233.106.0/24
20.171.206.0/24
20.171.207.0/24
4.227.36.0/25
172.182.193.160/28

https://platform.openai.com/docs/bots/

#openia #boots #gptbot #ia

ROllerozxa @ROllerozxa · 2024-12-09 · 12:19 UTC

Now #OpenAI's rabid scraper bot #GPTBot is getting stuck in an endless URL concatenation loop again, this time it's on the principia-web forums. It's been going ever since last night.

I have no idea how you can mess up a crawler bot this badly, but I guess nobody cares if it goes havoc. Into the shitlist it goes.

#openai #gptbot

Leon Miller @[email protected] · 2024-11-22 · 12:14 UTC

Apart from everything else GPTBot is brutal on servers. Block that bad baby and block it good.

Info here (IP addresses and full user-gent string):
https://platform.openai.com/docs/bots

#gptbot

sahilister @[email protected] · 2024-04-25 · 05:21 UTC

Just noticed, 18758 and counting requests from GPTBot (https://platform.openai.com/docs/gptbot) in the last two days on https://mirrors.sahilister.in/

#mirrors #openai #gptbot

das_menschy @[email protected] · 2024-03-10 · 06:19 UTC

Lol. #Amazon nutzt (soweit ich weiß) sehr gerne #KI-basierte Text-Generatoren so wie #ChatGPT - aber laut Amazon's robots.txt ( https://amazon.com/robots.txt ) soll der #ChatGPT-Bot namens #GPTBot nicht auf der Website von Amazon crawlen (Disallow: /), also nicht mit Daten von Amazon trainiert werden!

#amazon #ki #chatgpt #gptbot

teufelswerk @[email protected] · 2024-03-01 · 17:34 UTC

Wenn #Kreative ihr geistiges Eigentum von den #Trainingsdaten diverser KI-Modelle ausschliessen wollen, wird das Vorhaben schnell zu einer nervigen Lebensaufgabe. In meinem ersten Blog-Beitrag zu diesem Thema erfährst du, wie du den #GPTBot von #OpenAI (DALL-E) von deiner #Website oder Teilen der Site aussperren und wie du mit Hilfe des Opt-out-Formulares von OpenAI Werke aus den Trainingsdaten "entfernen" kannst.
#KI #AI #kuenstler #designer #fotografen #kreative #kunst
https://teufelswerk.net/kuenstler-designer-autoren-und-urheber-aufgepasst-teil-1-so-kannst-du-deine-werke-aus-den-ki-trainingsdaten-von-open-ai-dall-e-entfernen/

#kreative #trainingsdaten #gptbot #openai #website #ki

The MES Times @[email protected] · 2024-02-16 · 18:12 UTC

OpenAI, known for ChatGPT, is developing a web search engine powered by Microsoft's Bing called GPTBot. While it may not challenge Google immediately, it offers potential for organic traffic and brand awareness. Despite skepticism due to past failures of rivals like Bing, OpenAI's venture into search is noteworthy. Time will tell its impact in the competitive search landscape.

#OpenAI #GPTBot #WebSearch #Google #MicrosoftBing #AI

#openai #gptbot #websearch #google #microsoftbing #ai

MYELECTRICSPARKS @[email protected] · 2024-02-16 · 18:12 UTC

OpenAI, known for ChatGPT, is developing a web search engine powered by Microsoft's Bing called GPTBot. While it may not challenge Google immediately, it offers potential for organic traffic and brand awareness. Despite skepticism due to past failures of rivals like Bing, OpenAI's venture into search is noteworthy. Time will tell its impact in the competitive search landscape.

#OpenAI #GPTBot #WebSearch #Google #MicrosoftBing #AI

#openai #gptbot #websearch #google #microsoftbing #ai

MYELECTRICSPARKS @[email protected] · 2024-02-16 · 18:12 UTC

OpenAI, known for ChatGPT, is developing a web search engine powered by Microsoft's Bing called GPTBot. While it may not challenge Google immediately, it offers potential for organic traffic and brand awareness. Despite skepticism due to past failures of rivals like Bing, OpenAI's venture into search is noteworthy. Time will tell its impact in the competitive search landscape.

#OpenAI #GPTBot #WebSearch #Google #MicrosoftBing #AI

#openai #gptbot #websearch #google #microsoftbing #ai

Stéphane Bortzmeyer @[email protected] · 2023-09-18 · 11:34 UTC

Est-ce légitime de récolter des pages Web pour entrainer des IA ?

https://www.bortzmeyer.org/collecte-pour-l-ia.html

#IA #ChatGPT #GPTBot #LLM #Copilot #AddOtherHashtags

#ia #chatgpt #gptbot #llm #copilot #addotherhashtags

Nayla Salibi @[email protected] · 2023-09-07 · 16:24 UTC

تمنع مواقع ‫#ويب‬ وصول ‪#GPTBot‬، الذي طورته، ‪#OpenAi‬ لجمع البيانات، بحجة تحسين "دقة نماذج ‫#الذكاء_الاصطناعي‬" التي تطورها. لماذا قلق هذه المواقع من حصد بياناتها؟ وكيف يمكن حظر ‫#الروبوت‬ من حصد بيانات مواقع الويب؟مع تحيات ‫#نايلةالصليبي‬
‏‪#AI‬
‏‪#web_crawler‬

https://mc-d.co/1uQu

#ويب #gptbot #openai #الذكاء_الاصطناعي #الروبوت #نايلةالصليبي

beSpacific @[email protected] · 2023-08-22 · 12:31 UTC

The #NewYorkTimes has blocked #OpenAI’s #webcrawler, meaning that OpenAI can’t use content from the publication to train its AI models. If you check the NYT’s robots.txt page, you can see that the NYT disallows #GPTBot, the crawler that OpenAI introduced earlier this month. Based on the #InternetArchive’s #WaybackMachine, it appears NYT blocked the crawler as early as August 17th. https://www.theverge.com/2023/8/21/23840705/new-york-times-openai-web-crawler-ai-gpt #copyright #legalresearch

#newyorktimes #openai #webcrawler #gptbot #internetarchive #waybackmachine

shaun @[email protected] · 2023-08-21 · 01:14 UTC

Persistent little fuckers, aren't they. #OpenAI #GPTBot #ChatGPT

#openai #gptbot #chatgpt

cutterkom @[email protected] · 2023-08-18 · 08:43 UTC

Robots.txt, OpenAI’s GPTBot, Common Crawl’s CCBot: How to block AI crawlers from gathering text and images from your website: https://katharinabrunner.de/2023/08/robots-txt-openais-gptbot-common-crawls-ccbot-how-to-block-ai-crawlers-from-gathering-text-and-images-from-your-website/

#ai #openAI #crawler #commoncrawl #ccbot #GPTBot #robotstxt #wordpress

#ai #openai #crawler #commoncrawl #ccbot #gptbot

PrivacyDigest @[email protected] · 2023-08-13 · 04:06 UTC

Sites scramble to block #ChatGPT web #crawler after instructions emerge

Without announcement, #OpenAI recently added details about its web crawler, #GPTBot, to its online documentation site.
#privacy

https://arstechnica.com/?p=1960108

#privacy #gptbot #openai #crawler #chatgpt

Paul Chambers🚧 @[email protected] · 2023-08-12 · 10:14 UTC

#OpenAI IP block ranges if you want to block them from your instance and scraping your content. I saw Mastodon devs added something to block #GPTBot via robots.txt a few days ago. Here are the IP ranges:

#MastoAdmin #FediBlock

20.15.240.64/28
20.15.240.80/28
20.15.240.96/28
20.15.240.176/28
20.15.241.0/28
20.15.242.128/28
20.15.242.144/28
20.15.242.192/28
40.83.2.64/28

https://openai.com/gptbot-ranges.txt

https://www.theverge.com/2023/8/7/23823046/openai-data-scrape-block-ai

https://github.com/mastodon/mastodon/pull/26396

#openai #gptbot #mastoadmin #fediblock

bananabob :tinoflag: 🇺🇦 🇵🇸 @[email protected] · 2023-08-11 · 23:40 UTC

Sites scramble to block ChatGPT web crawler after instructions emerge

#ArsTechnica #ChatGPT #GPTBot #RobotsTXT

https://arstechnica.com/information-technology/2023/08/openai-details-how-to-keep-chatgpt-from-gobbling-up-website-data/

#arstechnica #chatgpt #gptbot #robotstxt