#web-crawler — Public Fediverse posts on home.social

Walled Culture @[email protected] · 2026-05-27 · 12:00 UTC

Why Google’s new AI-saturated search page will be a disaster

Google didn’t invent full-text search of the Internet – that honour belongs to early pioneers such as WebCrawler, Lycos and AltaVista. But for the last 25 years or so, Google has been synonymous with online searching, providing the quickest and most effective way to find things online (although its results may be getting worse.) More recently, it has been adding to its search engine more […]

#agentic #agents #ai #altavista #blackBox #chatbot #creators #dependency #google #interface #links #llms #lycos #magazines #newspapers #publishing #search #training #webcrawler #worldWideWeb https://walledculture.org/why-googles-new-ai-saturated-search-page-will-be-a-disaster/

#agentic #agents #ai #altavista #blackbox #chatbot

Walled Culture @[email protected] · 2026-05-27 · 12:00 UTC

Why Google’s new AI-saturated search page will be a disaster

Google didn’t invent full-text search of the Internet – that honour belongs to early pioneers such as WebCrawler, Lycos and AltaVista. But for the last 25 years or so, Google has been synonymous with online searching, providing the quickest and most effective way to find things online (although its results may be getting worse.) More recently, it has been adding to its search engine more […]

#agentic #agents #ai #altavista #blackBox #chatbot #creators #dependency #google #interface #links #llms #lycos #magazines #newspapers #publishing #search #training #webcrawler #worldWideWeb https://walledculture.org/why-googles-new-ai-saturated-search-page-will-be-a-disaster/

#agentic #agents #ai #altavista #blackbox #chatbot

Cyclone @[email protected] · 2026-05-22 · 16:56 UTC

Spider v1.0.0 released.

Spider is not just another web crawler -- it is a purpose-built wordlist and ngram processor for hash cracking workflows.

URL Mode:
Point it at a URL and Spider crawls the target, extracts words, and generates frequency-sorted wordlists and/or ngrams.

But, Spider does not stop at web crawling...

File Mode:
Feed it local files and it brings the same word-processing engine to your own datasets, scraped content, notes, dumps, configs, or any other plaintext source you want to turn into a targeted wordlist or ngram set.

More info:
https://forum.hashpwn.net/post/52

#spider #webcrawler #wordlist #generator #sort #ngram #cyclone #hashpwn #hashcracking

#spider #webcrawler #wordlist #generator #sort #ngram

Cyclone @[email protected] · 2026-05-22 · 16:56 UTC

Spider v1.0.0 released.

Spider is not just another web crawler -- it is a purpose-built wordlist and ngram processor for hash cracking workflows.

URL Mode:
Point it at a URL and Spider crawls the target, extracts words, and generates frequency-sorted wordlists and/or ngrams.

But, Spider does not stop at web crawling...

File Mode:
Feed it local files and it brings the same word-processing engine to your own datasets, scraped content, notes, dumps, configs, or any other plaintext source you want to turn into a targeted wordlist or ngram set.

More info:
https://forum.hashpwn.net/post/52

#spider #webcrawler #wordlist #generator #sort #ngram #cyclone #hashpwn #hashcracking

#spider #webcrawler #wordlist #generator #sort #ngram

C. @[email protected] · 2026-03-28 · 07:01 UTC

Oh, this is #fun.

#Applebot - Apple's web crawler, used for various things - is ignoring robots.txt rules governing crawling of websites.

I have Applebot (and Applebot-Extended, which isn't really a crawler) in my robots.txt files, set to disallow all access. Has been that way for #yonks.

And Applebot is consistently the highest-traffic crawler to my sites - at least of ones that actually bother to fetch robots.txt. Yesterday, for example, Applebot fetched robots.txt from one of my websites almost 800 times.

Yes, it's really Apple, not someone faking the user-agent identifier. It's coming from the networks that Apple says can be used to identify Applebot access. DNS matches, everything.
e.g. https://support.apple.com/en-ca/119829

So: legendary Apple software quality. Documented to do the right thing, but actually doing the wrong thing. And completely failing to cache content, fetching the same file 800 times a day when it hasn't changed in years.

Hey, Apple! Need a software engineer who's actually, you know, good at it? I'm available.

#Apple #AppleInc #TimApple #WebCrawler #RobotsTxt #quality #WeveHeardOfIt #qwality #AppleQwality #legendary #TwoHardThings #caching #fail #engineer #software #SoftwareEngineer

#fun #applebot #yonks #apple #appleinc #timapple

C. @[email protected] · 2026-03-28 · 07:01 UTC

Oh, this is #fun.

#Applebot - Apple's web crawler, used for various things - is ignoring robots.txt rules governing crawling of websites.

I have Applebot (and Applebot-Extended, which isn't really a crawler) in my robots.txt files, set to disallow all access. Has been that way for #yonks.

And Applebot is consistently the highest-traffic crawler to my sites - at least of ones that actually bother to fetch robots.txt. Yesterday, for example, Applebot fetched robots.txt from one of my websites almost 800 times.

Yes, it's really Apple, not someone faking the user-agent identifier. It's coming from the networks that Apple says can be used to identify Applebot access. DNS matches, everything.
e.g. https://support.apple.com/en-ca/119829

So: legendary Apple software quality. Documented to do the right thing, but actually doing the wrong thing. And completely failing to cache content, fetching the same file 800 times a day when it hasn't changed in years.

Hey, Apple! Need a software engineer who's actually, you know, good at it? I'm available.

#Apple #AppleInc #TimApple #WebCrawler #RobotsTxt #quality #WeveHeardOfIt #qwality #AppleQwality #legendary #TwoHardThings #caching #fail #engineer #software #SoftwareEngineer

#fun #applebot #yonks #apple #appleinc #timapple

PPC Land @[email protected] · 2026-03-24 · 15:02 UTC

ICYMI: Google-Agent joins the crawler list as AI browsing gets an official identity: Google on March 20 added Google-Agent to its user-triggered fetchers list, formalizing a new user agent for AI systems like Project Mariner that navigate the web on behalf of users. https://ppc.land/google-agent-joins-the-crawler-list-as-ai-browsing-gets-an-official-identity/ #GoogleAgent #AIBrowsing #ProjectMariner #WebCrawler #ArtificialIntelligence

#googleagent #aibrowsing #projectmariner #webcrawler #artificialintelligence

PPC Land @[email protected] · 2026-03-24 · 15:02 UTC

ICYMI: Google-Agent joins the crawler list as AI browsing gets an official identity: Google on March 20 added Google-Agent to its user-triggered fetchers list, formalizing a new user agent for AI systems like Project Mariner that navigate the web on behalf of users. https://ppc.land/google-agent-joins-the-crawler-list-as-ai-browsing-gets-an-official-identity/ #GoogleAgent #AIBrowsing #ProjectMariner #WebCrawler #ArtificialIntelligence

#googleagent #aibrowsing #projectmariner #webcrawler #artificialintelligence

Nicholas A. Ferrell @[email protected] · 2026-02-25 · 17:51 UTC

What is the YandoriRSSBot?

I just happened to have my NLJ logs open (I had opened them when the site was slow for a moment). I saw something called the YandoriRSSBot requesting the NLJ ATOM feed. While not unprecedented, almost all the feed fetchers ask for the regular RSS feed. I decided to search for the user agent to see if it is coming from a new feed reader that I had never heard of. Unfortunately, Known Agents has no information about it beyond the fact that it has been reported in the wild. But I ran another […]

https://social.emucafe.org/naferrell/what-is-the-yandorirssbot-02-25-26/

#bots #feedreaders #webcrawler

:rss: Hacker News @[email protected] · 2026-01-14 · 03:16 UTC

Exa-d: How to store the web in S3
https://exa.ai/blog/exa-d
#ycombinator #ai_search_engine #web_search_api #webcrawler #serp_api #web_api #google_search_api #google_serp_api #people_search_engines #perplexity_ai_search_engine_features #ai_search_engine_free #search_engine_ai #free_people_search_engines #best_ai_search_engine #web_api_security #ai_search_engines #search_api #free_ai_search_engine #web_scraping_api #bing_search_api #webcrawler_search_engine #search_engine_rankings_api

#ycombinator #ai_search_engine #web_search_api #webcrawler #serp_api #web_api

:rss: Hacker News @[email protected] · 2026-01-14 · 03:16 UTC

Exa-d: How to store the web in S3
https://exa.ai/blog/exa-d
#ycombinator #ai_search_engine #web_search_api #webcrawler #serp_api #web_api #google_search_api #google_serp_api #people_search_engines #perplexity_ai_search_engine_features #ai_search_engine_free #search_engine_ai #free_people_search_engines #best_ai_search_engine #web_api_security #ai_search_engines #search_api #free_ai_search_engine #web_scraping_api #bing_search_api #webcrawler_search_engine #search_engine_rankings_api

#ycombinator #ai_search_engine #web_search_api #webcrawler #serp_api #web_api

Ciourte Piaille @[email protected] · 2026-01-13 · 00:04 UTC

I've checked on #YaCy from time to time because the project seemed very interesting but the resources (disk space and memory) too big for it to be run on cheap hardware as a hobby. I don't know of any other #OpenSource (optionally) #distributed #searchEngine with #webCrawler included (independent of Google and co., unlike metasearch engines).
I thought maybe somebody will rewrite it in Rust or something, but no luck so far. There was an announcement of significant optimisations made once, but the resources needed seem to be huge still.
Sadly, the focus nowadays seems to be on adding #AI to it. I guess I'll wait until the bubble is gone. 😕

#yacy #opensource #distributed #searchengine #webcrawler #ai

Ciourte Piaille @[email protected] · 2026-01-13 · 00:04 UTC

I've checked on #YaCy from time to time because the project seemed very interesting but the resources (disk space and memory) too big for it to be run on cheap hardware as a hobby. I don't know of any other #OpenSource (optionally) #distributed #searchEngine with #webCrawler included (independent of Google and co., unlike metasearch engines).
I thought maybe somebody will rewrite it in Rust or something, but no luck so far. There was an announcement of significant optimisations made once, but the resources needed seem to be huge still.
Sadly, the focus nowadays seems to be on adding #AI to it. I guess I'll wait until the bubble is gone. 😕

#yacy #opensource #distributed #searchengine #webcrawler #ai

apfeltalk :verified: @[email protected] · 2025-10-24 · 07:00 UTC

Wikipedia verzeichnet Besucherrückgang durch KI und Social Media
Wikipedia verliert im Jahr 2025 Besucher:innen. Grund dafür sind künstliche Intelligenz in Suchmaschinen und die wachsende Nutzung sozialer Medien.

Wikipedia: Weniger Seitenaufrufe durch KI und
https://www.apfeltalk.de/magazin/news/wikipedia-verzeichnet-besucherrueckgang-durch-ki-und-social-media/
#KI #News #Besucherzahlen #Google #KnstlicheIntelligenz #PewResearch #SocialMedia #Webcrawler #Wikipedia #Wissensplattform

#ki #news #besucherzahlen #google #knstlicheintelligenz #pewresearch

apfeltalk :verified: @[email protected] · 2025-10-24 · 07:00 UTC

Wikipedia verzeichnet Besucherrückgang durch KI und Social Media
Wikipedia verliert im Jahr 2025 Besucher:innen. Grund dafür sind künstliche Intelligenz in Suchmaschinen und die wachsende Nutzung sozialer Medien.

Wikipedia: Weniger Seitenaufrufe durch KI und
https://www.apfeltalk.de/magazin/news/wikipedia-verzeichnet-besucherrueckgang-durch-ki-und-social-media/
#KI #News #Besucherzahlen #Google #KnstlicheIntelligenz #PewResearch #SocialMedia #Webcrawler #Wikipedia #Wissensplattform

#ki #news #besucherzahlen #google #knstlicheintelligenz #pewresearch

Nicholas A. Ferrell @[email protected] · 2025-08-22 · 15:34 UTC

https://social.emucafe.org/naferrell/user-agent-godhatesmastodon-08-22-25/

The New Leaf Journal became inaccessable for about 1-2 minutes this morning. Fortunately, I opened the site almost immediately when it happened. I opened my server logs and found what was probably the offending bot/scraper so I could block it. I kept the server logs open to watch for any other questionable activity. I saw an interesting user-agent string.

Aug 22 11:22:46 [IP ADDRESS] - - [22/Aug/2025:15:22:46 +0000] "GET / HTTP/1.1" 200 63425 "-" "GodHatesMastodon"

My two sites are often crawled by Mastodon servers and Fediverse-related crawlers because both sites function as ActivityPub servers (you can follow this account on the Fediverse at @naferrell@social.emcafe.org). I had not previously seen the crawler GodHatesMastodon, but I understand through the grapevine that there are some questionable instances out there. Fortunately, there is no reason for anyone to hate The New Leaf Journal. As my friend and colleague Victor V. Gurbo once explained, “The New Leaf Journal is a family website.”

#activitypub #fediverse #mastodon #webCrawler

#activitypub #fediverse #mastodon #webcrawler

Pirates.BZ Tech Startup News @[email protected] · 2025-08-20 · 05:23 UTC

#Firecrawl, an #opensource #webcrawler for #developers and #AIagents, raised $14.5 million in a Series A round led by Nexus Venture Partners. The company, which is already profitable, plans to use the funds to expand its team and develop tools to help website owners get paid when AI uses their content. https://techcrunch.com/2025/08/19/ai-crawler-firecrawl-raises-14-5m-is-still-looking-to-hire-agents-as-employees/?Pirates.BZ #Pirates #Tech #Startup #News

#firecrawl #opensource #webcrawler #developers #aiagents #pirates

jan @[email protected] · 2025-08-14 · 15:02 UTC

eigentlich wärs ja cool wenns einen standardisierten ort gäbe, wo sich #webcrawler einen dump der jeweiligen website abholen können. so mit allen sachen die von suchmaschinen geindext werden sollen. könnte einfach unter einer https://en.wikipedia.org/wiki/Well-known_URI liegen.

#webcrawler

eicker.TV ▹ Tech News @[email protected] · 2025-08-11 · 08:28 UTC

Cloudflare sperrt den Perplexity-Bot.

Cloudflare wirft Perplexity „Stealth Crawling“ vor 🕵️ Laut #Cloudflare umgeht der #KI-Suchdienst #Perplexity gezielt #Sperren gegen seine #Webcrawler, indem er seine #Identität verschleiert.

Techniken zur Umgehung von Blockaden 🔄 Perplexity soll Bots als Chrome-Browser tarnen, IP-Adressen rotieren und Netzwerkkennungen ändern, um weiter Inhalte abzugreifen. (1/2)

#cloudflare #ki #perplexity #sperren #webcrawler #identitat

Agnieszka Serafinowicz @[email protected] · 2025-08-11 · 06:00 UTC

Perplexity AI przyłapane na gorącym uczynku. Firma miała potajemnie omijać blokady stron

Firma Cloudflare, gigant w dziedzinie bezpieczeństwa i infrastruktury internetowej, opublikowała raport oskarżający popularną wyszukiwarkę AI, Perplexity, o stosowanie nieetycznych praktyk.

Według dochodzenia, Perplexity miało używać potajemnych, niezadeklarowanych crawlerów do pobierania treści ze stron internetowych, które wyraźnie zablokowały dostęp dla botów tej firmy.

Dochodzenie Cloudflare zostało wszczęte po skargach od klientów, którzy zauważyli, że Perplexity wciąż indeksuje ich witryny, mimo zastosowania blokad. Jak się okazało, mechanizm działania był prosty, ale skuteczny. Gdy standardowy bot Perplexity (PerplexityBot) napotykał blokadę, firma miała przełączać się na „tryb stealth”. Używała wtedy crawlerów z generycznym identyfikatorem przeglądarki (np. Chrome), które dodatkowo działały z puli niezgłoszonych adresów IP i różnych sieci, aby ukryć swoją prawdziwą tożsamość. Co najważniejsze, te potajemne boty w ogóle nie próbowały odczytać pliku robots.txt – pliku, w którym właściciele stron określają zasady dla botów.

Skala problemu była ogromna. Cloudflare zaobserwowało takie zachowanie na dziesiątkach tysięcy domen, a liczba zapytań od ukrytych botów Perplexity sięgała milionów dziennie. To praktyka stojąca w sprzeczności z działaniami innych firm, jak OpenAI, które jasno deklarują swoje boty i respektują dyrektywy zawarte w plikach robots.txt skonfigurowanych przez właścicieli stron.

W odpowiedzi na te odkrycia, Cloudflare podjęło zdecydowane kroki. Po pierwsze, firma usunęła Perplexity ze swojej listy „zweryfikowanych botów”, co utrudni jego interakcje ze stronami chronionymi przez Cloudflare. Po drugie, wprowadzono nowe, heurystyczne zabezpieczenia do swoich reguł. Zamiast blokować konkretne, znane boty, system będzie teraz automatycznie wykrywał i blokował podejrzane zachowania, takie jak próba ukrycia tożsamości przez crawlera. Ochrona ta jest dostępna dla wszystkich klientów Cloudflare. Co ważne, z wdrożonej ochrony przez Cloudflare mogą skorzystać nie tylko podmioty odpłatnie korzystające z usług sieciowego giganta, ale także użytkownicy planów darmowych.

Koniec z przeglądaniem, czas na działanie. Perplexity rzuca wyzwanie Google z przeglądarką AI Comet

#AI #Cloudflare #cyberbezpieczeństwo #news #PerplexityAI #prywatność #robotsTxt #scrapowanieDanych #sztucznaInteligencja #webCrawler

#ai #cloudflare #cyberbezpieczenstwo #news #perplexityai #prywatnosc

Marcel SIneM(S)US @[email protected] · 2025-07-31 · 06:01 UTC

#IETF diskutiert Maßnahmen gegen den Ansturm der KI-#Crawler | heise online https://www.heise.de/news/Technische-Massnahmen-gegen-den-Ansturm-der-KI-Crawler-10497930.html #Webcrawler #ArtificialIntelligence

#ietf #crawler #webcrawler #artificialintelligence

Marcel SIneM(S)US @[email protected] · 2025-07-31 · 06:01 UTC

#IETF diskutiert Maßnahmen gegen den Ansturm der KI-#Crawler | heise online https://www.heise.de/news/Technische-Massnahmen-gegen-den-Ansturm-der-KI-Crawler-10497930.html #Webcrawler #ArtificialIntelligence

#ietf #crawler #webcrawler #artificialintelligence

Benjamin Carr, Ph.D. 👨🏻‍💻🧬 @[email protected] · 2025-07-18 · 10:04 UTC

News publishers take #paywall-blocker 12ftio offline
The News/Media Alliance says it will take action against similar tools in the future.
12ftio — or #12FootLadder — allowed users to view webpages without #ads, #trackers, or #popups by disguising a user’s browser as a #webcrawler, giving them unfettered access to a webpage’s contents. Software engineer Thomas Millar says he created the site when he realized “8 of the top 10 links on Google were paywalled”
https://www.theverge.com/news/709209/news-media-alliance-12ft-io-takedown-paywall

#paywall #12footladder #ads #trackers #popups #webcrawler

Benjamin Carr, Ph.D. 👨🏻‍💻🧬 @[email protected] · 2025-07-18 · 10:04 UTC

News publishers take #paywall-blocker 12ftio offline
The News/Media Alliance says it will take action against similar tools in the future.
12ftio — or #12FootLadder — allowed users to view webpages without #ads, #trackers, or #popups by disguising a user’s browser as a #webcrawler, giving them unfettered access to a webpage’s contents. Software engineer Thomas Millar says he created the site when he realized “8 of the top 10 links on Google were paywalled”
https://www.theverge.com/news/709209/news-media-alliance-12ft-io-takedown-paywall

#paywall #12footladder #ads #trackers #popups #webcrawler

Benedikt Wi @[email protected] · 2025-06-25 · 20:08 UTC

Gibt's hier noch Leute, die auf der Selbstauskunft von der Datenauskunftei #crif auch Daten hat, die mit Datenquelle "effect... UG" versehen sind und zumindest teilweise aus einem (schlechten) #Webcrawler (dort steht von mir eine "E-Mailadresse" ohne TLD) stammen? Und kann das legal sein?

#crif #webcrawler

Dorian Santner 🇦🇹 @[email protected] · 2025-06-17 · 08:06 UTC

"Für Menschen sei es mittlerweile unmöglich geworden, sämtliche, teils nur für Eingeweihte zugängliche Foren und Social-Media-Plattformen inklusive aller Kommentare auf mögliche #Gefahren zu überprüfen.

Für den Einsatz derartiger #Webcrawler brauche die #Polizei in Österreich allerdings erst die #Befugnis.

Diese liege momentan nicht vor."

🫣 .. schwieriges Thema ..

In Kombination mit den aktuellen Überwachungsphantasien schlicht ein #Horrorszenario.

In Anbetracht der offensichtlichen Faktenlage eher ein #Armutszeugnis.

Polizeiarbeit - vor allem Online-Recherchen - könnte einen hohen #Automatisierungsgrad haben - ohne verfassungsrechtliche Probleme.

Sollte sogar, finde ich, weil dann auch die #Genehmigungsverfahren entsprechend standardisiert wären.

#KleineZeitung

https://www.kleinezeitung.at/service/newsticker/chronik/19799673/polizei-prueft-nach-amoklauf-social-media-profile

#gefahren #webcrawler #polizei #befugnis #horrorszenario #armutszeugnis

Dorian Santner 🇦🇹 @[email protected] · 2025-06-17 · 08:06 UTC

"Für Menschen sei es mittlerweile unmöglich geworden, sämtliche, teils nur für Eingeweihte zugängliche Foren und Social-Media-Plattformen inklusive aller Kommentare auf mögliche #Gefahren zu überprüfen.

Für den Einsatz derartiger #Webcrawler brauche die #Polizei in Österreich allerdings erst die #Befugnis.

Diese liege momentan nicht vor."

🫣 .. schwieriges Thema ..

In Kombination mit den aktuellen Überwachungsphantasien schlicht ein #Horrorszenario.

In Anbetracht der offensichtlichen Faktenlage eher ein #Armutszeugnis.

Polizeiarbeit - vor allem Online-Recherchen - könnte einen hohen #Automatisierungsgrad haben - ohne verfassungsrechtliche Probleme.

Sollte sogar, finde ich, weil dann auch die #Genehmigungsverfahren entsprechend standardisiert wären.

#KleineZeitung

https://www.kleinezeitung.at/service/newsticker/chronik/19799673/polizei-prueft-nach-amoklauf-social-media-profile

#gefahren #webcrawler #polizei #befugnis #horrorszenario #armutszeugnis

cafetron @[email protected] · 2025-06-05 · 18:32 UTC

#pandoras_pot: um #honeypot para #bots mal-educados: crie dados recursiva e infinitamente até depletar a RAM do #webcrawler maldito.

https://github.com/ginger51011/pandoras_pot

#pandoras_pot #honeypot #bots #webcrawler

Norbert Eder @[email protected] · 2025-06-04 · 05:30 UTC

GreatBlogs – Ein Webcrawler entsteht

Im letzten Beitrag zu GreatBlogs ging es um die Resourcen-Optimierung der bereits bestehenden Software. Nachdem ein erster Nutzen des Projektes vorhanden ist, geht es ans Eingemachte. Um das eigentliche Suchthema. Dazu braucht es mehrere Dinge, eines davon ist ein Webcrawler, der nach Inhalten sucht.

Grundlegende Idee

Die Idee des Webcrawler ist, von einem Startpunkt ausgehend, neue Seiten bzw. Aktualisierungen zu finden. Diese wandern in einen Index und werden in weiterer Folge von einem anderen Prozess thematisch kategorisiert und mit einer Relevanz versehen.

Erste Iterationen und Learnings

Theoretisch ist ein Webcrawler eine einfache Sache. Aber wie immer in der Softwareentwicklung trifft Theorie auf Praxis und es gibt Themen, die unerwartet sind, aber auch solche, die bewusst auf später verschoben werden.

Ich wählte einen iterativen Ansatz mit dem Ziel, einen einfachen Crawler funktional zu haben und diesen in weiterer Folge kontinuierlich zu optimieren und um neue Features anzureichern.

Webcrawler v0.1.0

Wie auch das bisherige Backend, ist der Webcrawler mit Go geschrieben. Er gibt sich als gbbot zu erkennen. Ausgehend von einer Startdomain wird diese durchsucht und sowohl die einzelnen Seiten dieser Domain, als auch weitere Domains persistiert.

Im nächsten Schritt werden die neu gefundenen Domains durchsucht – nach demselben Verfahren.

Mit net/http und net/url bring Go alles mit, was man braucht.

Webcrawler v0.2.0

Bereits nach dem dritten Durchlauf gab es eine Unmenge an Domains, die natürlich mit dem Thema Blogs nichts mehr zu tun hat. Im Grunde finden sich alle Social Media-Plattformen und großen Tech-Buden in der Liste. Es muss also doch eine manuelle Freischaltung her.

Es werden zwar weiterhin alle gefundenen Domains gespeichert, allerdings müssen die zu crawlenden Domains manuell aktiviert werden. Das ist zwar aktuell Handarbeit, aber ohne eindeutige Erkennung, dass es sich hierbei um ein Blog handelt, gibt es keine andere Möglichkeit.

Der bisherige Nachteil: Das Parsen und Verfolgen ist nicht ganz billig.

Webcrawler v0.3.0

Um den gesamten Parsing-Prozess zu verbessern, wird nun zu Beginn überprüft, ob es eine sitemap.xml gibt. Wenn ja, wird diese herangezogen. Sitemap-Index-Dateien werden genauso unterstützt, wie Standard-Sitemap-Dateien.

In diesem Fall werden nur diese Seiten evaluiert und lediglich neue gefundene Domains mitgeschrieben, aber keinen weiteren Links gefolgt.

Das ist in Summe wesentlich performanter bzw. speichereffizienter, als sich alle gecrawlten Seiten zu merken und beim Durchsuchen des Trees zu prüfen, ob der gefundene Link bereits überprüft wurde.

Für die Arbeit mit den Sitemap-Dateien setze ich auf gopher-parse-sitemap. Die Lib ist schon älter, aber die Abhängigkeiten sind überschaubar und am Sitemap-Standard hat sich nichts weiter geändert, also kein Problem.

Learnings

Defensives Programmieren und so, ihr kennt das.

Aber das, was der Crawler da so findet, ist teilweise schon sehr grenzwertig. Auf jeden Fall muss er mit zahlreichen “Edge-Cases” umgehen können:

Veraltete Links in Form von HTTP statt HTTPS
Client-Links
Malformed Links
Dead-Links
Nicht mehr existierende Domains

Und da gibt es noch weitere Fälle. Manchmal würde ich tatsächlich gerne einige Domaininhaber*innen anschreiben und ihnen einen Liste von unsinnigen Links mitteilen – aber das ist eine völlig andere Geschichte.

Weitere Verbesserungen

Natürlich gibt es noch viel zu tun, denn der Webcrawler ist bei weitem noch nicht optimal. Das sind die Themen, die als nächstes anstehen.

Berücksichtigung robots.txt
Einschränkung Sprache (vorerst Deutsch)
Berücksichtigung /slashes

Danach wird es in Richtung “Themen-Erkennung” der Beiträge gehen.

Bei Interesse also bitte gerne bei GreatBlogs vorbeischauen.

#golang #GreatBlogs #Webcrawler

#golang #greatblogs #webcrawler

Harald Sack @[email protected] · 2025-06-03 · 12:35 UTC

LLMs are starving for knowledge graphs. Raphael Troncy was pointing out that many LLM company crawlers are constantly visiting their KGs. Some crawlers even perform explicit SPARQL queries on the KGs.

#knowledgegraphs #eswc2025 #semweb #semanticweb #reliableAI #AI #responsibleAI #llms #webcrawler #slovenia #conference

#knowledgegraphs #eswc2025 #semweb #semanticweb #reliableai #ai

Harald Sack @[email protected] · 2025-06-03 · 12:35 UTC

LLMs are starving for knowledge graphs. Raphael Troncy was pointing out that many LLM company crawlers are constantly visiting their KGs. Some crawlers even perform explicit SPARQL queries on the KGs.

#knowledgegraphs #eswc2025 #semweb #semanticweb #reliableAI #AI #responsibleAI #llms #webcrawler #slovenia #conference

#knowledgegraphs #eswc2025 #semweb #semanticweb #reliableai #ai

N-gated Hacker News @[email protected] · 2025-05-30 · 23:28 UTC

🚀💥 #Java "genius" tries to turbocharge his web crawler with Virtual Threads, only to find out that memory isn't infinite. Who knew that making something go from "zero to hero" in URL processing could end in a spectacular crash? 🤦‍♂️💻
https://dariobalinzo.medium.com/virtual-threads-ate-my-memory-a-web-crawlers-tale-of-speed-vs-memory-a92fc75085f6 #VirtualThreads #WebCrawler #MemoryManagement #Crash #HackerNews #ngated

#java #virtualthreads #webcrawler #memorymanagement #crash #hackernews

N-gated Hacker News @[email protected] · 2025-05-30 · 23:28 UTC

🚀💥 #Java "genius" tries to turbocharge his web crawler with Virtual Threads, only to find out that memory isn't infinite. Who knew that making something go from "zero to hero" in URL processing could end in a spectacular crash? 🤦‍♂️💻
https://dariobalinzo.medium.com/virtual-threads-ate-my-memory-a-web-crawlers-tale-of-speed-vs-memory-a92fc75085f6 #VirtualThreads #WebCrawler #MemoryManagement #Crash #HackerNews #ngated

#java #virtualthreads #webcrawler #memorymanagement #crash #hackernews

ccinfo.nl @[email protected] · 2025-05-22 · 10:34 UTC

In 2024 intensiveren de politie en opsporingsdiensten hun strijd tegen cybercrime met krachtige technologieën en wereldwijde samenwerking.

Podcast Youtube: https://youtu.be/Reovh4irwTI

Podcast Spotify: https://open.spotify.com/episode/1gVqd4g95c86T8QroJyG4M?si=54398ede95ac4507

Artikel Cybercrimeinfo: https://www.ccinfo.nl/menu-nieuws-trends/opsporing/opsporing-cyber-nieuws/2520331_cybercrime-2024-hoe-de-politie-de-digitale-oorlog-wint-met-technologie-en-samenwerking

#Cybercrime2024 #Politie #DigitaleOorlog #Veiligheid #Technologie #AI #SafeBrowser #InternationaleSamenwerking #Ransomware #Phishing #Identiteitsdiefstal #DarkWeb #Webcrawler #Lokprofiel #MachineLearning #PredictivePolicing

#digitaleoorlog #veiligheid #technologie #ai #safebrowser #internationalesamenwerking

Cyclone @[email protected] · 2025-04-17 · 17:27 UTC

🚀 Spider v0.8.0

New features include:

"-file" to generate n-grams from local plaintext files

"-timeout" for URL crawling

"-sort" to output n-grams by frequency

https://forum.hashpwn.net/post/52

#spider #webcrawler #wordlist #ngram #infosec #hashcracking #golang #hashpwn

#spider #webcrawler #wordlist #ngram #infosec #hashcracking

Norbert Eder @[email protected] · 2025-04-17 · 07:11 UTC

AI Bots aussperren

Wer selbst Inhalte im Internet publiziert, möchte eventuell nicht, dass diese von den AI Web Crawlern zum Trainieren von LLMs etc. eingesammelt werden. Viele haben diese Crawler deshalb ausgesperrt. Wer dies noch nicht hat und möchte, findet hier eine entsprechende Anleitung da zu.

Webcrawler

Diese sind unter verschiedenen Namen bekannt: Searchbot, Robot, Bot, Crawler, Webcrawler. Eines haben sie aber alle gemeinsam: Sie durchsuchen das Internet nach Webseiten und analysieren diese. Je nach Zweck des Crawlers suchen sie unterschiedliche Inhalte, angefangen von E-Mail-Adressen bis hin zu Webfeeds, Fotos, Videos. Allerdings werden sie auch von Suchmaschinen zur Indexierung verwendet.

Normalerweise setzen Webcrawler den HTTP User Agent und sind darüber eindeutig identifizierbar.

KI Bots per robots.txt blockieren

Die robots.txt bildet den Robots Exclusion Standard ab. Dieser ist in RFC 9309 beschrieben und definiert ein Dateiformat für Webserver, um Bots mitzuteilen, ob sie willkommen sind, oder nicht. Diese Datei liegt im Root der jeweiligen Webseite bzw. muss dort abgelegt werden.

Idealerweise liest ein Webcrawler beim Auffinden einer Website diese Datei aus (sofern sie vorhanden ist). Ist er nicht erwünscht, verlässt er diese Seite wieder, ohne sie zu durchsuchen.

Wenn man nun also weiß, wie sich bestimmte Webcrawler bekannt machen, können diese ausgeschlossen werden:

User-agent: anthropic-aiDisallow: /

Dies kann man nun für alle bekannten Webcrawler tun.

Da natürlich ständig neue Webcrawler hinzukommen, oder sich Namen ändern, muss die Datei entsprechend gepflegt werden. Hierzu gibt es Listen, die laufend gepflegt werden. Unter anderem block-ai-robots.

KI Bots per .htaccess blockieren

Nun halten sich nicht alle Webcrawler an das, was die robots.txt vorgibt und analysieren eine Webseite auch dann, wenn sie blockiert werden. Dazu muss man mit schweren Geschützen auffahren.

Mit der .htaccess Datei können Webserver bezüglich Zugriffe konfiguriert werden. Damit können alle NCSA-kompatiblen Webserver (zum Beispiel der bei Webhostern sehr verbreitete Apache) umgehen. Mit Hilfe dieser Datei können unter anderem Routen (Weiterleitungen) definiert, aber auch Zugriffe erlaubt, oder eben auch verboten werden.

Das bedeutet, dass man die in der robots.txt definierte Sperre auch über den Webserver forcieren kann bzw. ihnen eben nur diese Datei erlaubt:

RewriteEngine onRewriteCond %{HTTP_USER_AGENT} (anthropic\-ai)RewriteRule !^/?robots\.txt$ - [F,L]

Webcrawler, die den HTTP User Agent nicht setzen, sind schwer zu erkennen. Oftmals geben Sie sich als ganz normaler Browser zu erkennen. Der Webserver kann nun nicht unterscheiden, ob es sich um eine surfende Person handelt, oder eben um einen Webcrawler.

In einigen Fällen sind die IP-Adressen bzw. IP-Adressbereiche von Webcrawlern bekannt. So ist es möglich, überhaupt die IP-Adressen am Webserver zu sperren. Hier ein Beispiel für OpenAI ChatGPT:

Order Allow,Deny# OpenAI ChatGPT - https://platform.openai.com/docs/plugins/bot/ip-egress-rangesDeny from 23.98.142.176/28Deny from 40.84.180.224/28Deny from 13.65.240.240/28Deny from 20.97.189.96/28Deny from 20.161.75.208/28Deny from 52.225.75.208/28Deny from 52.156.77.144/28Deny from 40.84.180.64/28Allow from all

Generell empfiehlt es sich, bei IP-Sperren jedoch vorsichtig zu sein. Tippfehler können sehr schnell, einen weit größeren Bereich aussperren, oftmals teilen sich aber auch gewünschte und unerwünschte Webcrawler den gleichen IP-Bereich.

Eine Vorlage hierfür gibt es ebenfalls unter block-ai-robots.

Hast du weitere hilfreiche Informationen zu diesem Thema, freue ich mich über eine Kontaktaufnahme oder einen Kommentar.

#KI #Webcrawler #Webserver

#ki #webcrawler #webserver

MOVED to: @[email protected] @[email protected] · 2025-03-20 · 23:59 UTC

Meta's AI Bot, cannot be blocked by JavaScript detection. That is because Meta's AI Bot, is running a real web browser, just like a user. The script side of things is on their server - Not your typical crawler.

#WebCrawler #Crawler #AI #ArtificialIntelligence #Meta

#webcrawler #crawler #ai #artificialintelligence #meta

MOVED to: @[email protected] @[email protected] · 2025-03-20 · 23:59 UTC

Meta's AI Bot, cannot be blocked by JavaScript detection. That is because Meta's AI Bot, is running a real web browser, just like a user. The script side of things is on their server - Not your typical crawler.

#WebCrawler #Crawler #AI #ArtificialIntelligence #Meta

#webcrawler #crawler #ai #artificialintelligence #meta

adingbatponder :nixos: 👾 @adingbatponder · 2025-03-18 · 07:34 UTC

@compsci_discussions So what DOES one actually put in the robots.txt file? #webcrawler #robotsdottxt

#webcrawler #robotsdottxt

adingbatponder :nixos: 👾 @[email protected] · 2025-03-18 · 07:34 UTC

@compsci_discussions So what DOES one actually put in the robots.txt file? #webcrawler #robotsdottxt

#webcrawler #robotsdottxt

Stefan Müller :verified: @[email protected] · 2025-02-09 · 17:54 UTC

Sach ma, halten sich roboter nicht mehr an robots.txt? Die nerven. Gibt es irgendwas anderes, womit man Roboter (#webcrawler) erkennen und ausschließen kann?

#FollowerPower

#webcrawler #followerpower

Marcel SIneM(S)US @[email protected] · 2025-01-25 · 13:46 UTC

#Nepenthes: eine Teergrube für KI-#Webcrawler | heise online https://www.heise.de/news/Nepenthes-eine-Teergrube-fuer-KI-Webcrawler-10255982.html #ArtificialIntelligence #copyright #Urheberrecht

#nepenthes #webcrawler #artificialintelligence #copyright #urheberrecht

Pyrzout :vm: @[email protected] · 2025-01-24 · 03:55 UTC

Trap Naughty Web Crawlers in Digestive Juices with Nepenthes https://hackaday.com/2025/01/23/trap-naughty-web-crawlers-in-digestive-juices-with-nepenthes/ #largelanguagemodel #internethacks #webcrawler

#largelanguagemodel #internethacks #webcrawler

IT News @[email protected] · 2025-01-24 · 03:35 UTC

Trap Naughty Web Crawlers in Digestive Juices with Nepenthes - In the olden days of the WWW you could just put a robots.txt file in the root of y... - https://hackaday.com/2025/01/23/trap-naughty-web-crawlers-in-digestive-juices-with-nepenthes/ #largelanguagemodel #internethacks #webcrawler

#webcrawler #internethacks #largelanguagemodel

Marcel SIneM(S)US @[email protected] · 2024-12-29 · 15:38 UTC

Die KI-Modelle beklauen die Medien — Fehlender Faktencheck der NZZ - Das Netz ist politisch https://dnip.ch/2024/12/05/die-ki-modelle-beklauen-die-medien-fehlender-faktencheck-der-nzz/

#Journalismus #journalism #ArtificialIntelligence #Urheberrecht #copyright #Datenschutz #privacy #WebCrawler
@adfichter @marcel

#journalismus #journalism #artificialintelligence #urheberrecht #copyright #datenschutz

C. @[email protected] · 2024-10-21 · 14:53 UTC

Hey, #webmasters ... just so you know.

#Facebook's new-ish "meta-externalagent" #webcrawler, which they document is for stealing data for their Grand Theft Autocomplete (cough #AI cough), is ignoring robots.txt on my websites.

https://developers.facebook.com/docs/sharing/webmasters/web-crawlers

Is anyone surprised?

#Meta #LLM #scrape #web #copyright #RobotsTXT

#webmasters #facebook #webcrawler #ai #meta #llm