home.social

#googlebot — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #googlebot, aggregated by home.social.

  1. Is it now okay to consider GoogleBot hostile and just 403 them away?

    #WebAdmin #FreeWeb #GoogleBot #Google

  2. Is it now okay to consider GoogleBot hostile and just 403 them away?

    #WebAdmin #FreeWeb #GoogleBot #Google

  3. Is it now okay to consider GoogleBot hostile and just 403 them away?

    #WebAdmin #FreeWeb #GoogleBot #Google

  4. Is it now okay to consider GoogleBot hostile and just 403 them away?

    #WebAdmin #FreeWeb #GoogleBot #Google

  5. Is it now okay to consider GoogleBot hostile and just 403 them away?

    #WebAdmin #FreeWeb #GoogleBot #Google

  6. After Google’s announcement that they will start showing AI results rather than links in search results a lot of people showed interest in blocking them from scanning their sites.
    If you want to do this rather block their IP ranges than use robots.txt. I recommend blocking all Google Cloud IP ranges as well. I only see malicious bot traffic from there.
    Here is a good resource.

    searchengineworld.com/googles-

    #google #googlebot #googleai #hosting #AI #seo #googlesearch

  7. Пять неочевидных вещей, которые я узнал, запуская кино-соцсеть: от robots.txt-ловушки до 24-мерной математики вкуса

    Последние полгода я работаю над VibeMuvik — кино-соцсетью с рецензиями, дебатами и синхронным просмотром фильмов. Одна из тех штук, которые «ну вроде несложно», пока не начинаешь копать. Эта статья — про неожиданные находки . Не про «как я выбрал стек» (скучно) и не про «туториал по WebRTC» (и без меня есть). Это пять ситуаций, в которых я споткнулся, обнаружил что-то интересное, и подумал «об этом стоит рассказать — другим пригодится». Поехали.

    habr.com/ru/articles/1027876/

    #robotstxt #SEO #WebRTC #Nextjs #IndexNow #sitemap #Googlebot #Cinema_DNA #синхронный_просмотр #рекомендательные_системы

  8. Пять неочевидных вещей, которые я узнал, запуская кино-соцсеть: от robots.txt-ловушки до 24-мерной математики вкуса

    Последние полгода я работаю над VibeMuvik — кино-соцсетью с рецензиями, дебатами и синхронным просмотром фильмов. Одна из тех штук, которые «ну вроде несложно», пока не начинаешь копать. Эта статья — про неожиданные находки . Не про «как я выбрал стек» (скучно) и не про «туториал по WebRTC» (и без меня есть). Это пять ситуаций, в которых я споткнулся, обнаружил что-то интересное, и подумал «об этом стоит рассказать — другим пригодится». Поехали.

    habr.com/ru/articles/1027876/

    #robotstxt #SEO #WebRTC #Nextjs #IndexNow #sitemap #Googlebot #Cinema_DNA #синхронный_просмотр #рекомендательные_системы

  9. Пять неочевидных вещей, которые я узнал, запуская кино-соцсеть: от robots.txt-ловушки до 24-мерной математики вкуса

    Последние полгода я работаю над VibeMuvik — кино-соцсетью с рецензиями, дебатами и синхронным просмотром фильмов. Одна из тех штук, которые «ну вроде несложно», пока не начинаешь копать. Эта статья — про неожиданные находки . Не про «как я выбрал стек» (скучно) и не про «туториал по WebRTC» (и без меня есть). Это пять ситуаций, в которых я споткнулся, обнаружил что-то интересное, и подумал «об этом стоит рассказать — другим пригодится». Поехали.

    habr.com/ru/articles/1027876/

    #robotstxt #SEO #WebRTC #Nextjs #IndexNow #sitemap #Googlebot #Cinema_DNA #синхронный_просмотр #рекомендательные_системы

  10. Пять неочевидных вещей, которые я узнал, запуская кино-соцсеть: от robots.txt-ловушки до 24-мерной математики вкуса

    Последние полгода я работаю над VibeMuvik — кино-соцсетью с рецензиями, дебатами и синхронным просмотром фильмов. Одна из тех штук, которые «ну вроде несложно», пока не начинаешь копать. Эта статья — про неожиданные находки . Не про «как я выбрал стек» (скучно) и не про «туториал по WebRTC» (и без меня есть). Это пять ситуаций, в которых я споткнулся, обнаружил что-то интересное, и подумал «об этом стоит рассказать — другим пригодится». Поехали.

    habr.com/ru/articles/1027876/

    #robotstxt #SEO #WebRTC #Nextjs #IndexNow #sitemap #Googlebot #Cinema_DNA #синхронный_просмотр #рекомендательные_системы

  11. FYI: Google rewrites Googlebot's rulebook: 2MB limits, IP moves, and what crawlers really are: Google today published two blog posts revealing Googlebot's true architecture as a shared SaaS platform, a 2MB fetch limit, and a new IP ranges directory path. ppc.land/google-rewrites-googl #Googlebot #SEO #WebCrawlers #DigitalMarketing #SaaS

  12. ICYMI: Google rewrites Googlebot's rulebook: 2MB limits, IP moves, and what crawlers really are: Google today published two blog posts revealing Googlebot's true architecture as a shared SaaS platform, a 2MB fetch limit, and a new IP ranges directory path. ppc.land/google-rewrites-googl #Google #Googlebot #SEO #Crawlers #WebMaster

  13. ICYMI: Google rewrites Googlebot's rulebook: 2MB limits, IP moves, and what crawlers really are: Google today published two blog posts revealing Googlebot's true architecture as a shared SaaS platform, a 2MB fetch limit, and a new IP ranges directory path. ppc.land/google-rewrites-googl #Google #Googlebot #SEO #Crawlers #WebMaster

  14. ICYMI: Google rewrites Googlebot's rulebook: 2MB limits, IP moves, and what crawlers really are: Google today published two blog posts revealing Googlebot's true architecture as a shared SaaS platform, a 2MB fetch limit, and a new IP ranges directory path. ppc.land/google-rewrites-googl #Google #Googlebot #SEO #Crawlers #WebMaster

  15. Inside Googlebot: demystifying crawling, fetching, and the bytes we process: developers.google.com/search/b. A great post that clarifies how #Googlebot does its business for people in the #SEO community.

  16. Google rewrites Googlebot's rulebook: 2MB limits, IP moves, and what crawlers really are: Google today published two blog posts revealing Googlebot's true architecture as a shared SaaS platform, a 2MB fetch limit, and a new IP ranges directory path. ppc.land/google-rewrites-googl #Google #Googlebot #SEO #WebCrawlers #DigitalMarketing

  17. FYI: Googlebot is not a program - Google engineers finally explain what it really is: Google engineers reveal Googlebot is a misnomer for a central SaaS crawling platform serving dozens of products, with a 15 MB default file size limit and geo-crawling constraints. ppc.land/googlebot-is-not-a-pr #Googlebot #SEO #WebCrawling #DigitalMarketing #SaaS

  18. ICYMI: Googlebot is not a program - Google engineers finally explain what it really is: Google engineers reveal Googlebot is a misnomer for a central SaaS crawling platform serving dozens of products, with a 15 MB default file size limit and geo-crawling constraints. ppc.land/googlebot-is-not-a-pr #Googlebot #SEO #Crawling #SaaS #DigitalMarketing

  19. ICYMI: Googlebot is not a program - Google engineers finally explain what it really is: Google engineers reveal Googlebot is a misnomer for a central SaaS crawling platform serving dozens of products, with a 15 MB default file size limit and geo-crawling constraints. ppc.land/googlebot-is-not-a-pr #Googlebot #SEO #Crawling #SaaS #DigitalMarketing

  20. ICYMI: Googlebot is not a program - Google engineers finally explain what it really is: Google engineers reveal Googlebot is a misnomer for a central SaaS crawling platform serving dozens of products, with a 15 MB default file size limit and geo-crawling constraints. ppc.land/googlebot-is-not-a-pr #Googlebot #SEO #Crawling #SaaS #DigitalMarketing

  21. ICYMI: Googlebot is not a program - Google engineers finally explain what it really is: Google engineers reveal Googlebot is a misnomer for a central SaaS crawling platform serving dozens of products, with a 15 MB default file size limit and geo-crawling constraints. ppc.land/googlebot-is-not-a-pr #Googlebot #SEO #Crawling #SaaS #DigitalMarketing

  22. Googlebot is not a program - Google engineers finally explain what it really is: Google engineers reveal Googlebot is a misnomer for a central SaaS crawling platform serving dozens of products, with a 15 MB default file size limit and geo-crawling constraints. ppc.land/googlebot-is-not-a-pr #Googlebot #SEO #WebCrawling #SaaS #DigitalMarketing

  23. FYI: Google's secret crawl logic, finally explained in one page: Google published a new web crawling overview on March 3, 2026, detailing how Googlebot discovers, renders, and manages site access across 30+ years of web indexing. ppc.land/googles-secret-crawl- #Google #SEO #WebCrawling #Googlebot #DigitalMarketing

  24. ICYMI: Google's secret crawl logic, finally explained in one page: Google published a new web crawling overview on March 3, 2026, detailing how Googlebot discovers, renders, and manages site access across 30+ years of web indexing. ppc.land/googles-secret-crawl- #Google #SEO #WebCrawling #Googlebot #DigitalMarketing

  25. Google's secret crawl logic, finally explained in one page: Google published a new web crawling overview on March 3, 2026, detailing how Googlebot discovers, renders, and manages site access across 30+ years of web indexing. ppc.land/googles-secret-crawl- #Google #SEO #WebCrawling #Googlebot #DigitalMarketing

  26. Testing tool simulates Google's 2MB HTML limit as SEO professionals assess crawling impact: Dave Smart added 2MB truncation feature to Tame the Bots fetch tool on February 6, enabling technical SEO professionals to simulate Googlebot's reduced file size limits. ppc.land/testing-tool-simulate #SEO #GoogleBot #HTML #Crawling #DigitalMarketing

  27. Vers un #web toujours plus fragile siecledigital.fr/2025/12/31/et
    À eux seuls, les #bots représenteraient près de 30% du trafic web mondial, avec des pics capables de générer des volumes comparables à des attaques DDoS
    #Googlebot est le #crawler dominant avec 4,5% des requêtes HTML
    En 2025, le #smartphone s’impose avec environ 43% des utilisateurs mondiaux, contre 57% pour les ordinateurs. #Android domine largement le trafic mobile à l’échelle mondiale, tandis qu’#iOS conserve une position forte

  28. So, someone in the issue made me realize that some bots impersonate the user agents of big actors, such as Googlebot. I checked my webserver logs and found a lot of them actually!

    I liked the challenge, so I just wrote an article about how to do this in less than 40 SLOC 🏆
    reaction.ppom.me/filters/usera

    #reactionrust #bots #badbots #google #googlebot

  29. So, someone in the issue made me realize that some bots impersonate the user agents of big actors, such as Googlebot. I checked my webserver logs and found a lot of them actually!

    I liked the challenge, so I just wrote an article about how to do this in less than 40 SLOC 🏆
    reaction.ppom.me/filters/usera

    #reactionrust #bots #badbots #google #googlebot

  30. @jackyan I suspect they created #GoogleOther to break the crawling / robots.txt / nettiquette rules without getting too many repurcusions on #GoogleBot.

  31. @cks

    Early results are not promising. I've had a handful of HEAD requests in the past day. Only 2 appear legitimate, in that they hit genuine page URLs. The others were attempts to exploit WordPress vulnerabilities.

    #HTTP #httpd #GoogleBot #djbwares #WordPress

  32. @cks

    Early results are not promising. I've had a handful of HEAD requests in the past day. Only 2 appear legitimate, in that they hit genuine page URLs. The others were attempts to exploit WordPress vulnerabilities.

    #HTTP #httpd #GoogleBot #djbwares #WordPress

  33. @cks

    Early results are not promising. I've had a handful of HEAD requests in the past day. Only 2 appear legitimate, in that they hit genuine page URLs. The others were attempts to exploit WordPress vulnerabilities.

    #HTTP #httpd #GoogleBot #djbwares #WordPress

  34. @cks

    It makes me think that there's one well-behaved 'bot drowned in a sea of ill-behaved ones.

    I'm just instrumenting #djbwares httpd to log GET and HEAD differently. I wonder what I'll see.

    #HTTP #httpd #GoogleBot

  35. @cks

    It makes me think that there's one well-behaved 'bot drowned in a sea of ill-behaved ones.

    I'm just instrumenting #djbwares httpd to log GET and HEAD differently. I wonder what I'll see.

    #HTTP #httpd #GoogleBot

  36. @cks

    It makes me think that there's one well-behaved 'bot drowned in a sea of ill-behaved ones.

    I'm just instrumenting #djbwares httpd to log GET and HEAD differently. I wonder what I'll see.

    #HTTP #httpd #GoogleBot

  37. @cks

    It makes me think that there's one well-behaved 'bot drowned in a sea of ill-behaved ones.

    I'm just instrumenting #djbwares httpd to log GET and HEAD differently. I wonder what I'll see.

    #HTTP #httpd #GoogleBot

  38. @cks

    It makes me think that there's one well-behaved 'bot drowned in a sea of ill-behaved ones.

    I'm just instrumenting #djbwares httpd to log GET and HEAD differently. I wonder what I'll see.

    #HTTP #httpd #GoogleBot

  39. @cks

    Is it doing straightforward GETs? Or is it doing HEAD? Or using If-Modified-Since?

    #HTTP #GoogleBot #httpd

  40. [Перевод] Как Google обрабатывает JavaScript в процессе индексации веб-страниц

    Понимание того, как поисковые системы изучают, рендерят и индексируют веб-страницы, имеет решающее значение для оптимизации сайтов под поисковые системы. По мере изменений в работе поисковых систем (например, Google), отслеживать, что работает, а что нет, становится все сложнее, особенно в случае с клиентским JS.

    habr.com/ru/companies/timeweb/

    #timeweb_статьи_перевод #javascript #seo #googlebot #поисковая_оптимизация #индексация #indexing #crawling

  41. [Перевод] Как Google обрабатывает JavaScript в процессе индексации веб-страниц

    Понимание того, как поисковые системы изучают, рендерят и индексируют веб-страницы, имеет решающее значение для оптимизации сайтов под поисковые системы. По мере изменений в работе поисковых систем (например, Google), отслеживать, что работает, а что нет, становится все сложнее, особенно в случае с клиентским JS.

    habr.com/ru/companies/timeweb/

    #timeweb_статьи_перевод #javascript #seo #googlebot #поисковая_оптимизация #индексация #indexing #crawling

  42. [Перевод] Как Google обрабатывает JavaScript в процессе индексации веб-страниц

    Понимание того, как поисковые системы изучают, рендерят и индексируют веб-страницы, имеет решающее значение для оптимизации сайтов под поисковые системы. По мере изменений в работе поисковых систем (например, Google), отслеживать, что работает, а что нет, становится все сложнее, особенно в случае с клиентским JS.

    habr.com/ru/companies/timeweb/

    #timeweb_статьи_перевод #javascript #seo #googlebot #поисковая_оптимизация #индексация #indexing #crawling