#gptbot — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #gptbot, aggregated by home.social.
-
I haven't had this domain up for that long and GPTBot has already been poking around. The domain isn't linked from anywhere and they've somehow discovered the server already. Absolute creeps.
-
Wenn ich nachsehen möchte, ob im #Formatstring für das Datum das kleine s für Sekunden und das große S für Millisekunden steht, dann frage ich das einen beliebigen #GPTbot (den, der nicht sagt #Quota exceded, weil ich mich nicht per #Api-Key identifiziert habe). Warum?In #Wikipedia steht die Antwort möglicherweise. Es dauert aber, herauszufinden, in welchem Artikel, Listenartikel oder Unterartikel. Die #Suche von Wikipedia verwendet zwar #ElasticSearch, aber um die Vorteile von dieser starken Engine auch zu erhalten, hätten 100000e Menschen, die Wikipedia-Artikel auch verschlagworten müssen (#wikidata). Ausserdem kann es sein, dass etwas so praktisches wie formatstrings als #unenzyklpädisch eingestuft wurde und daher entfernt.
In #Stackexchange muss ich mehrfach bestätigen, dass ich ein Mensch bin, finde dann einen Artikel, der unbeantwortet geschlossen wurde, weil #Duplikat. Dann zwei veraltete, die inzwischen falsch sind, dann welche mit einem nicht mehr funktionierenden link auf die Lösung.
Bei #archive_org, archive.is und #AnnasArchive muss ich die #URL des gesuchten Artikels wissen, um suchen zu können.
Eine #Suchmaschine sucht nicht. Eine Suchmaschine liest die "Sutemap.XML" Dateien aus, die websitebetreiber online stellen für die #crawler der Suchmaschinen. Ich finde also fünf Jahre alte Artikel auf Websites die seit fünf Jahren nicht mehr gepflegt werden. Und maximal ein jahr alte Artikel, die meine Frage nicht beantworten aber in der #sitemap stehen. Die 100 Websites, die die richtige Antwort in einem zwei bis vier Jahre alte Artikel enthalten, finde ich nicht, weil diese Artikel nicht mehr in der sitemap stehen.
Die GPTbots haben Wikipedia, stackexchange, Archiv.org, Annas archive und alle Websites gescrapt und dabei #robots.txt und sitemap ignoriert. Ich bekomme die richtige Antwort und zwar schneller als mit allen zuvor genannten Varianten.
Oder ich suche in #Grokipedia. Grokipedia besteht aus 1Million statischen seiten im #CDN von #Cloudflare die von wikipedia gescrapt wurden. Die suche ist ein GPTbot und 57mal besser als die suche in wikipedia.
@malteengeler @awinkler @evawolfangel @bkastl @Raymond @wikipedia
-
Wenn ich nachsehen möchte, ob im #Formatstring für das Datum das kleine s für Sekunden und das große S für Millisekunden steht, dann frage ich das einen beliebigen #GPTbot (den, der nicht sagt #Quota exceded, weil ich mich nicht per #Api-Key identifiziert habe). Warum?In #Wikipedia steht die Antwort möglicherweise. Es dauert aber, herauszufinden, in welchem Artikel, Listenartikel oder Unterartikel. Die #Suche von Wikipedia verwendet zwar #ElasticSearch, aber um die Vorteile von dieser starken Engine auch zu erhalten, hätten 100000e Menschen, die Wikipedia-Artikel auch verschlagworten müssen (#wikidata). Ausserdem kann es sein, dass etwas so praktisches wie formatstrings als #unenzyklpädisch eingestuft wurde und daher entfernt.
In #Stackexchange muss ich mehrfach bestätigen, dass ich ein Mensch bin, finde dann einen Artikel, der unbeantwortet geschlossen wurde, weil #Duplikat. Dann zwei veraltete, die inzwischen falsch sind, dann welche mit einem nicht mehr funktionierenden link auf die Lösung.
Bei #archive_org, archive.is und #AnnasArchive muss ich die #URL des gesuchten Artikels wissen, um suchen zu können.
Eine #Suchmaschine sucht nicht. Eine Suchmaschine liest die "Sutemap.XML" Dateien aus, die websitebetreiber online stellen für die #crawler der Suchmaschinen. Ich finde also fünf Jahre alte Artikel auf Websites die seit fünf Jahren nicht mehr gepflegt werden. Und maximal ein jahr alte Artikel, die meine Frage nicht beantworten aber in der #sitemap stehen. Die 100 Websites, die die richtige Antwort in einem zwei bis vier Jahre alte Artikel enthalten, finde ich nicht, weil diese Artikel nicht mehr in der sitemap stehen.
Die GPTbots haben Wikipedia, stackexchange, Archiv.org, Annas archive und alle Websites gescrapt und dabei #robots.txt und sitemap ignoriert. Ich bekomme die richtige Antwort und zwar schneller als mit allen zuvor genannten Varianten.
Oder ich suche in #Grokipedia. Grokipedia besteht aus 1Million statischen seiten im #CDN von #Cloudflare die von wikipedia gescrapt wurden. Die suche ist ein GPTbot und 57mal besser als die suche in wikipedia.
@malteengeler @awinkler @evawolfangel @bkastl @Raymond @wikipedia
-
Wenn ich nachsehen möchte, ob im #Formatstring für das Datum das kleine s für Sekunden und das große S für Millisekunden steht, dann frage ich das einen beliebigen #GPTbot (den, der nicht sagt #Quota exceded, weil ich mich nicht per #Api-Key identifiziert habe). Warum?In #Wikipedia steht die Antwort möglicherweise. Es dauert aber, herauszufinden, in welchem Artikel, Listenartikel oder Unterartikel. Die #Suche von Wikipedia verwendet zwar #ElasticSearch, aber um die Vorteile von dieser starken Engine auch zu erhalten, hätten 100000e Menschen, die Wikipedia-Artikel auch verschlagworten müssen (#wikidata). Ausserdem kann es sein, dass etwas so praktisches wie formatstrings als #unenzyklpädisch eingestuft wurde und daher entfernt.
In #Stackexchange muss ich mehrfach bestätigen, dass ich ein Mensch bin, finde dann einen Artikel, der unbeantwortet geschlossen wurde, weil #Duplikat. Dann zwei veraltete, die inzwischen falsch sind, dann welche mit einem nicht mehr funktionierenden link auf die Lösung.
Bei #archive_org, archive.is und #AnnasArchive muss ich die #URL des gesuchten Artikels wissen, um suchen zu können.
Eine #Suchmaschine sucht nicht. Eine Suchmaschine liest die "Sutemap.XML" Dateien aus, die websitebetreiber online stellen für die #crawler der Suchmaschinen. Ich finde also fünf Jahre alte Artikel auf Websites die seit fünf Jahren nicht mehr gepflegt werden. Und maximal ein jahr alte Artikel, die meine Frage nicht beantworten aber in der #sitemap stehen. Die 100 Websites, die die richtige Antwort in einem zwei bis vier Jahre alte Artikel enthalten, finde ich nicht, weil diese Artikel nicht mehr in der sitemap stehen.
Die GPTbots haben Wikipedia, stackexchange, Archiv.org, Annas archive und alle Websites gescrapt und dabei #robots.txt und sitemap ignoriert. Ich bekomme die richtige Antwort und zwar schneller als mit allen zuvor genannten Varianten.
Oder ich suche in #Grokipedia. Grokipedia besteht aus 1Million statischen seiten im #CDN von #Cloudflare die von wikipedia gescrapt wurden. Die suche ist ein GPTbot und 57mal besser als die suche in wikipedia.
@malteengeler @awinkler @evawolfangel @bkastl @Raymond @wikipedia
-
Wenn ich nachsehen möchte, ob im #Formatstring für das Datum das kleine s für Sekunden und das große S für Millisekunden steht, dann frage ich das einen beliebigen #GPTbot (den, der nicht sagt #Quota exceded, weil ich mich nicht per #Api-Key identifiziert habe). Warum?In #Wikipedia steht die Antwort möglicherweise. Es dauert aber, herauszufinden, in welchem Artikel, Listenartikel oder Unterartikel. Die #Suche von Wikipedia verwendet zwar #ElasticSearch, aber um die Vorteile von dieser starken Engine auch zu erhalten, hätten 100000e Menschen, die Wikipedia-Artikel auch verschlagworten müssen (#wikidata). Ausserdem kann es sein, dass etwas so praktisches wie formatstrings als #unenzyklpädisch eingestuft wurde und daher entfernt.
In #Stackexchange muss ich mehrfach bestätigen, dass ich ein Mensch bin, finde dann einen Artikel, der unbeantwortet geschlossen wurde, weil #Duplikat. Dann zwei veraltete, die inzwischen falsch sind, dann welche mit einem nicht mehr funktionierenden link auf die Lösung.
Bei #archive_org, archive.is und #AnnasArchive muss ich die #URL des gesuchten Artikels wissen, um suchen zu können.
Eine #Suchmaschine sucht nicht. Eine Suchmaschine liest die "Sutemap.XML" Dateien aus, die websitebetreiber online stellen für die #crawler der Suchmaschinen. Ich finde also fünf Jahre alte Artikel auf Websites die seit fünf Jahren nicht mehr gepflegt werden. Und maximal ein jahr alte Artikel, die meine Frage nicht beantworten aber in der #sitemap stehen. Die 100 Websites, die die richtige Antwort in einem zwei bis vier Jahre alte Artikel enthalten, finde ich nicht, weil diese Artikel nicht mehr in der sitemap stehen.
Die GPTbots haben Wikipedia, stackexchange, Archiv.org, Annas archive und alle Websites gescrapt und dabei #robots.txt und sitemap ignoriert. Ich bekomme die richtige Antwort und zwar schneller als mit allen zuvor genannten Varianten.
Oder ich suche in #Grokipedia. Grokipedia besteht aus 1Million statischen seiten im #CDN von #Cloudflare die von wikipedia gescrapt wurden. Die suche ist ein GPTbot und 57mal besser als die suche in wikipedia.
@malteengeler @awinkler @evawolfangel @bkastl @Raymond @wikipedia
-
With the surprise of absolutely anyone I believe, #OpenAI does not follow robots.txt rules with its #GPTbot.
With at least one full crawl of websites per day, setting a rule to reject their user agent I hoped to see at least a slow down, but instead there was an increase in frequency.
Oh well, we're starting to ban IP from #Azure Cloud where their crawling comes from. I know that this will reduce our "visibility" in "searches" but... who gives.
-
Comment bloquer les crawlers IA qui pillent votre site sans vous demander la permission ?
https://fed.brid.gy/r/https://korben.info/bloquer-crawlers-ia-robots-txt-htaccess-nginx.html
-
#GPTBot macht nach wie vor ca. 20% der Zugriffe dieser Mastodon-Instanz aus, aber der Crawler bekommt nur noch von #Iocaine generierten Unsinn. Das reduziert die Datenmenge, die wir an ihn ausliefern, drastisch und zerstört die Qualität unseres Datensatzes für ihn vollkommen.
Es hilft uns also Kosten zu sparen, verschlechtert die LLM und macht auch noch diebische Freude! Win-Win-Win! :KritischerTreffer:
-
This is -ing unbelievable:
In the 17 hours running my "Discworld Ólyfjan" Iocaine, GPTBot has download the same 84 pages over 10000 times. They don't even change!And Google has it on the search index: "Ólyfjan" [name of any discworld character]
has results.HEX, the Bursar, even the troll Brick would be more intelligent than that...
-
One of the things that annoys me the most is that the scraper that went furthest into the tarpit (83 links deep) is also the one who comes back reading the same pages again and again:
{host="olyfjan.blomi.is",user_agent="Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.2; +https://openai.com/gptbot)",user_agent_group="GPTBot"} has sent 6991 GET requests, for the same 84 pages, downloading 22779416 bytes.
-
#GPTBot est utilisé pour rendre nos modèles de base d' #IA générative plus utiles et plus sûrs. Il est utilisé pour explorer le contenu qui peut être utilisé pour former nos modèles de base d'IA générative. Interdire GPTBot indique que le contenu d'un site ne doit pas être utilisé.
Et bien moi, c'est bloqué 😉
Robots de m*r*e 😎52.230.152.0/24
52.233.106.0/24
20.171.206.0/24
20.171.207.0/24
4.227.36.0/25
172.182.193.160/28 -
Now #OpenAI's rabid scraper bot #GPTBot is getting stuck in an endless URL concatenation loop again, this time it's on the principia-web forums. It's been going ever since last night.
I have no idea how you can mess up a crawler bot this badly, but I guess nobody cares if it goes havoc. Into the shitlist it goes.
-
Apart from everything else GPTBot is brutal on servers. Block that bad baby and block it good.
Info here (IP addresses and full user-gent string):
https://platform.openai.com/docs/bots -
Just noticed, 18758 and counting requests from GPTBot (https://platform.openai.com/docs/gptbot) in the last two days on https://mirrors.sahilister.in/
-
Lol. #Amazon nutzt (soweit ich weiß) sehr gerne #KI-basierte Text-Generatoren so wie #ChatGPT - aber laut Amazon's robots.txt ( https://amazon.com/robots.txt ) soll der #ChatGPT-Bot namens #GPTBot nicht auf der Website von Amazon crawlen (Disallow: /), also nicht mit Daten von Amazon trainiert werden!
-
Wenn #Kreative ihr geistiges Eigentum von den #Trainingsdaten diverser KI-Modelle ausschliessen wollen, wird das Vorhaben schnell zu einer nervigen Lebensaufgabe. In meinem ersten Blog-Beitrag zu diesem Thema erfährst du, wie du den #GPTBot von #OpenAI (DALL-E) von deiner #Website oder Teilen der Site aussperren und wie du mit Hilfe des Opt-out-Formulares von OpenAI Werke aus den Trainingsdaten "entfernen" kannst.
#KI #AI #kuenstler #designer #fotografen #kreative #kunst
https://teufelswerk.net/kuenstler-designer-autoren-und-urheber-aufgepasst-teil-1-so-kannst-du-deine-werke-aus-den-ki-trainingsdaten-von-open-ai-dall-e-entfernen/ -
OpenAI, known for ChatGPT, is developing a web search engine powered by Microsoft's Bing called GPTBot. While it may not challenge Google immediately, it offers potential for organic traffic and brand awareness. Despite skepticism due to past failures of rivals like Bing, OpenAI's venture into search is noteworthy. Time will tell its impact in the competitive search landscape.
-
OpenAI, known for ChatGPT, is developing a web search engine powered by Microsoft's Bing called GPTBot. While it may not challenge Google immediately, it offers potential for organic traffic and brand awareness. Despite skepticism due to past failures of rivals like Bing, OpenAI's venture into search is noteworthy. Time will tell its impact in the competitive search landscape.
-
OpenAI, known for ChatGPT, is developing a web search engine powered by Microsoft's Bing called GPTBot. While it may not challenge Google immediately, it offers potential for organic traffic and brand awareness. Despite skepticism due to past failures of rivals like Bing, OpenAI's venture into search is noteworthy. Time will tell its impact in the competitive search landscape.
-
Est-ce légitime de récolter des pages Web pour entrainer des IA ?
-
تمنع مواقع #ويب وصول #GPTBot، الذي طورته، #OpenAi لجمع البيانات، بحجة تحسين "دقة نماذج #الذكاء_الاصطناعي" التي تطورها. لماذا قلق هذه المواقع من حصد بياناتها؟ وكيف يمكن حظر #الروبوت من حصد بيانات مواقع الويب؟مع تحيات #نايلةالصليبي
#AI
#web_crawler -
The #NewYorkTimes has blocked #OpenAI’s #webcrawler, meaning that OpenAI can’t use content from the publication to train its AI models. If you check the NYT’s robots.txt page, you can see that the NYT disallows #GPTBot, the crawler that OpenAI introduced earlier this month. Based on the #InternetArchive’s #WaybackMachine, it appears NYT blocked the crawler as early as August 17th. https://www.theverge.com/2023/8/21/23840705/new-york-times-openai-web-crawler-ai-gpt #copyright #legalresearch
-
Robots.txt, OpenAI’s GPTBot, Common Crawl’s CCBot: How to block AI crawlers from gathering text and images from your website: https://katharinabrunner.de/2023/08/robots-txt-openais-gptbot-common-crawls-ccbot-how-to-block-ai-crawlers-from-gathering-text-and-images-from-your-website/
#ai #openAI #crawler #commoncrawl #ccbot #GPTBot #robotstxt #wordpress
-
#OpenAI IP block ranges if you want to block them from your instance and scraping your content. I saw Mastodon devs added something to block #GPTBot via robots.txt a few days ago. Here are the IP ranges:
20.15.240.64/28
20.15.240.80/28
20.15.240.96/28
20.15.240.176/28
20.15.241.0/28
20.15.242.128/28
20.15.242.144/28
20.15.242.192/28
40.83.2.64/28https://openai.com/gptbot-ranges.txt
https://www.theverge.com/2023/8/7/23823046/openai-data-scrape-block-ai
-
Sites scramble to block ChatGPT web crawler after instructions emerge
-
Sites scramble to block ChatGPT web crawler after instructions emerge - Enlarge (credit: Getty Images)
Without announcement, OpenAI re... - https://arstechnica.com/?p=1960108 #machinelearning #webscraming #webcrawling #aiethics #chatgpt #chatgtp #biz #gptbot #openai #tech #ai
-
Sites scramble to block ChatGPT web crawler after instructions emerge - Enlarge (credit: Getty Images)
Without announcement, OpenAI re... - https://arstechnica.com/?p=1960108 #machinelearning #webscraming #webcrawling #aiethics #chatgpt #chatgtp #biz #gptbot #openai #tech #ai
-
Sites scramble to block ChatGPT web crawler after instructions emerge - Enlarge (credit: Getty Images)
Without announcement, OpenAI re... - https://arstechnica.com/?p=1960108 #machinelearning #webscraming #webcrawling #aiethics #chatgpt #chatgtp #biz #gptbot #openai #tech #ai
-
Sites scramble to block ChatGPT web crawler after instructions emerge - Enlarge (credit: Getty Images)
Without announcement, OpenAI re... - https://arstechnica.com/?p=1960108 #machinelearning #webscraming #webcrawling #aiethics #chatgpt #chatgtp #biz #gptbot #openai #tech #ai
-
Sites scramble to block ChatGPT web crawler after instructions emerge - Enlarge (credit: Getty Images)
Without announcement, OpenAI re... - https://arstechnica.com/?p=1960108 #machinelearning #webscraming #webcrawling #aiethics #chatgpt #chatgtp #biz #gptbot #openai #tech #ai
-
Ars Technica: Sites scramble to block ChatGPT web crawler after instructions emerge https://arstechnica.com/?p=1960108 #Tech #arstechnica #IT #Technology #machinelearning #webscraming #webcrawling #AIethics #ChatGPT #chatgtp #Biz&IT #GPTBot #openai #Tech #AI
-
Ars Technica: Sites scramble to block ChatGPT web crawler after instructions emerge https://arstechnica.com/?p=1960108 #Tech #arstechnica #IT #Technology #machinelearning #webscraming #webcrawling #AIethics #ChatGPT #chatgtp #Biz&IT #GPTBot #openai #Tech #AI
-
Ars Technica: Sites scramble to block ChatGPT web crawler after instructions emerge https://arstechnica.com/?p=1960108 #Tech #arstechnica #IT #Technology #machinelearning #webscraming #webcrawling #AIethics #ChatGPT #chatgtp #Biz&IT #GPTBot #openai #Tech #AI
-
Ars Technica: Sites scramble to block ChatGPT web crawler after instructions emerge https://arstechnica.com/?p=1960108 #Tech #arstechnica #IT #Technology #machinelearning #webscraming #webcrawling #AIethics #ChatGPT #chatgtp #Biz&IT #GPTBot #openai #Tech #AI
-
OpenAI запустила вебкраулер GPTBot і додала інструкції для його блокування https://itc.ua/ua/novini/openai-zapustyla-vebkrauler-gptbot-i-dodala-instruktsiyi-dlya-jogo-blokuvannya/ #Штучнийінтелект #Технології #Вебкраулер #Вебсканер #Новини #GPTBot #OpenAI #Сайти
-
OpenAI launches web crawler 'GPTBot' amid plans for next model: GPT-5 - ChatGPT users have the option to scrap the web crawler by adding ... - https://cointelegraph.com/news/open-ai-launch-gptbot-web-crawler-amid-gpt5-trademark #u.s.patentandtrademarkoffice #computerfraudandabuseact #privateinformation #worldwideweb #webcrawler #aimodel #paywall #openai #gptbot #policy #gpt-4 #gpt-5
-
Worried about people using ChatGPT #WebPilot to spin your website content?
Don't block GPTbot or ChatGPT-User in your robots.txt.
Instead, detect #GPTbot and show it different content adaptively.
This content could be marketing copy or ads, so people would see some of your advertising text as #ChatGPT output.
-
Worried about people using ChatGPT #WebPilot to spin your website content?
Don't block GPTbot or ChatGPT-User in your robots.txt.
Instead, detect #GPTbot and show it different content adaptively.
This content could be marketing copy or ads, so people would see some of your advertising text as #ChatGPT output.
-
Worried about people using ChatGPT #WebPilot to spin your website content?
Don't block GPTbot or ChatGPT-User in your robots.txt.
Instead, detect #GPTbot and show it different content adaptively.
This content could be marketing copy or ads, so people would see some of your advertising text as #ChatGPT output.
-
Worried about people using ChatGPT #WebPilot to spin your website content?
Don't block GPTbot or ChatGPT-User in your robots.txt.
Instead, detect #GPTbot and show it different content adaptively.
This content could be marketing copy or ads, so people would see some of your advertising text as #ChatGPT output.
-
Worried about people using ChatGPT #WebPilot to spin your website content?
Don't block GPTbot or ChatGPT-User in your robots.txt.
Instead, detect #GPTbot and show it different content adaptively.
This content could be marketing copy or ads, so people would see some of your advertising text as #ChatGPT output.
-
I just noticed
40.83.2.68 - - [05/Aug/2023:12:27:44 +0200] "GET /~peter/wankstortion/20210106_wankstortion_message73e86b03477f2%40hireassociation.co.uk_i_recorded_you_bsdly%40bsdly.net.txt HTTP/1.1" 200 6746 "-" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)"
- will we see "convincing" #wankstortion coming out of #openai #gptbot? (background - https://bsdly.blogspot.com/2022/12/the-despicable-no-good-blackmail.html trackerless https://www.nxdomain.no/~peter/despicable_no_good_blackmail.html) #sextortion #scams #spam
-
I just noticed
40.83.2.68 - - [05/Aug/2023:12:27:44 +0200] "GET /~peter/wankstortion/20210106_wankstortion_message73e86b03477f2%40hireassociation.co.uk_i_recorded_you_bsdly%40bsdly.net.txt HTTP/1.1" 200 6746 "-" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)"
- will we see "convincing" #wankstortion coming out of #openai #gptbot? (background - https://bsdly.blogspot.com/2022/12/the-despicable-no-good-blackmail.html trackerless https://www.nxdomain.no/~peter/despicable_no_good_blackmail.html) #sextortion #scams #spam
-
There seems to be a debate about GPT bot generated essays and what this means for student learning.
What if we just use GPT to identify GPT-generated easays, the same way we use plagiarism software?