home.social

#вебскрапинг — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #вебскрапинг, aggregated by home.social.

  1. Парсинг данных: когда это законно, а когда нет — разбираю судебную практику

    Парсинг используют тысячи компаний — для мониторинга цен, сбора контактов, агрегации данных. Большинство уверены: раз информация в открытом доступе, значит, брать её можно. Разбираю, почему это не так, на пяти правовых режимах и семи реальных судебных делах — от ВКонтакте против Double Data до Meta против Bright Data. Разобрать все пять рисков

    habr.com/ru/articles/1032564/

    #парсинг #скрапинг #вебскрапинг #авторское_право #ITправо #судебная_практика #персональные_данные #базы_данных #интеллектуальная_собственность #антимонопольное_право

  2. Парсинг данных: когда это законно, а когда нет — разбираю судебную практику

    Парсинг используют тысячи компаний — для мониторинга цен, сбора контактов, агрегации данных. Большинство уверены: раз информация в открытом доступе, значит, брать её можно. Разбираю, почему это не так, на пяти правовых режимах и семи реальных судебных делах — от ВКонтакте против Double Data до Meta против Bright Data. Разобрать все пять рисков

    habr.com/ru/articles/1032564/

    #парсинг #скрапинг #вебскрапинг #авторское_право #ITправо #судебная_практика #персональные_данные #базы_данных #интеллектуальная_собственность #антимонопольное_право

  3. Парсинг данных: когда это законно, а когда нет — разбираю судебную практику

    Парсинг используют тысячи компаний — для мониторинга цен, сбора контактов, агрегации данных. Большинство уверены: раз информация в открытом доступе, значит, брать её можно. Разбираю, почему это не так, на пяти правовых режимах и семи реальных судебных делах — от ВКонтакте против Double Data до Meta против Bright Data. Разобрать все пять рисков

    habr.com/ru/articles/1032564/

    #парсинг #скрапинг #вебскрапинг #авторское_право #ITправо #судебная_практика #персональные_данные #базы_данных #интеллектуальная_собственность #антимонопольное_право

  4. Парсинг данных: когда это законно, а когда нет — разбираю судебную практику

    Парсинг используют тысячи компаний — для мониторинга цен, сбора контактов, агрегации данных. Большинство уверены: раз информация в открытом доступе, значит, брать её можно. Разбираю, почему это не так, на пяти правовых режимах и семи реальных судебных делах — от ВКонтакте против Double Data до Meta против Bright Data. Разобрать все пять рисков

    habr.com/ru/articles/1032564/

    #парсинг #скрапинг #вебскрапинг #авторское_право #ITправо #судебная_практика #персональные_данные #базы_данных #интеллектуальная_собственность #антимонопольное_право

  5. Как научить Claude Code работать с вебом и не сжигать на этом лимиты

    Попросить LLM-агента типа Claude Code "сходи в интернет и собери мне данные" - это как играть в казино. Иногда везет, и ты получаешь то что искал. А иногда сжигаешь половину дневного лимита на двух сайтах, упираешься в антибот защиту и в итоге получаешь кашу из тегов вперемешку с куском нужного контента. Любой, кто пробовал натравить LLM-агента на сайт, знает это чувство: даешь простую задачу - собери данные с такой-то страницы. Агент бодро рапортует, что работа кипит. Проходит минута, две, он пошел по соседним ссылкам, начал сам что-то искать, что-то быстро перебирает, и в итоге половину сайтов он не смог открыть, половина второй половины - это мусор и только крупица нужной информации. В этой статье я предложу вам один способ, которым пользуюсь сам и который хорошо ( почти всегда ) решает эту проблему.

    habr.com/ru/articles/1020598/

    #claude_code #claude_code_skills #mcp #Firecrawl #вебскрапинг #aiагенты #llm #anthropic #вебпоиск

  6. Как научить Claude Code работать с вебом и не сжигать на этом лимиты

    Попросить LLM-агента типа Claude Code "сходи в интернет и собери мне данные" - это как играть в казино. Иногда везет, и ты получаешь то что искал. А иногда сжигаешь половину дневного лимита на двух сайтах, упираешься в антибот защиту и в итоге получаешь кашу из тегов вперемешку с куском нужного контента. Любой, кто пробовал натравить LLM-агента на сайт, знает это чувство: даешь простую задачу - собери данные с такой-то страницы. Агент бодро рапортует, что работа кипит. Проходит минута, две, он пошел по соседним ссылкам, начал сам что-то искать, что-то быстро перебирает, и в итоге половину сайтов он не смог открыть, половина второй половины - это мусор и только крупица нужной информации. В этой статье я предложу вам один способ, которым пользуюсь сам и который хорошо ( почти всегда ) решает эту проблему.

    habr.com/ru/articles/1020598/

    #claude_code #claude_code_skills #mcp #Firecrawl #вебскрапинг #aiагенты #llm #anthropic #вебпоиск

  7. Как научить Claude Code работать с вебом и не сжигать на этом лимиты

    Попросить LLM-агента типа Claude Code "сходи в интернет и собери мне данные" - это как играть в казино. Иногда везет, и ты получаешь то что искал. А иногда сжигаешь половину дневного лимита на двух сайтах, упираешься в антибот защиту и в итоге получаешь кашу из тегов вперемешку с куском нужного контента. Любой, кто пробовал натравить LLM-агента на сайт, знает это чувство: даешь простую задачу - собери данные с такой-то страницы. Агент бодро рапортует, что работа кипит. Проходит минута, две, он пошел по соседним ссылкам, начал сам что-то искать, что-то быстро перебирает, и в итоге половину сайтов он не смог открыть, половина второй половины - это мусор и только крупица нужной информации. В этой статье я предложу вам один способ, которым пользуюсь сам и который хорошо ( почти всегда ) решает эту проблему.

    habr.com/ru/articles/1020598/

    #claude_code #claude_code_skills #mcp #Firecrawl #вебскрапинг #aiагенты #llm #anthropic #вебпоиск

  8. Как научить Claude Code работать с вебом и не сжигать на этом лимиты

    Попросить LLM-агента типа Claude Code "сходи в интернет и собери мне данные" - это как играть в казино. Иногда везет, и ты получаешь то что искал. А иногда сжигаешь половину дневного лимита на двух сайтах, упираешься в антибот защиту и в итоге получаешь кашу из тегов вперемешку с куском нужного контента. Любой, кто пробовал натравить LLM-агента на сайт, знает это чувство: даешь простую задачу - собери данные с такой-то страницы. Агент бодро рапортует, что работа кипит. Проходит минута, две, он пошел по соседним ссылкам, начал сам что-то искать, что-то быстро перебирает, и в итоге половину сайтов он не смог открыть, половина второй половины - это мусор и только крупица нужной информации. В этой статье я предложу вам один способ, которым пользуюсь сам и который хорошо ( почти всегда ) решает эту проблему.

    habr.com/ru/articles/1020598/

    #claude_code #claude_code_skills #mcp #Firecrawl #вебскрапинг #aiагенты #llm #anthropic #вебпоиск

  9. Когда curl перестаёт работать: многоуровневый детект ботов и где в этой схеме живёт облачный браузер

    Эта статья не о том, что Puppeteer плохой инструмент. Puppeteer — отличный. И грамотный TLS-фингерпринтинг вынесет большинство защит. Но есть класс задач, где даже идеальный сетевой стек не спасает — потому что детект давно приземлился на уровень поведения рендеринг-движка. Разберём, как Cloudflare и Akamai палят вас через WebGL и Canvas, и почему "чистый" код больше не работает. Вскрываем антифрод

    habr.com/ru/articles/1005068/

    #вебскрапинг #парсинг #puppeteer #playwright #cloudflare #антифрод #fingerprinting #резидентные_прокси #cdp #автоматизация

  10. Когда curl перестаёт работать: многоуровневый детект ботов и где в этой схеме живёт облачный браузер

    Эта статья не о том, что Puppeteer плохой инструмент. Puppeteer — отличный. И грамотный TLS-фингерпринтинг вынесет большинство защит. Но есть класс задач, где даже идеальный сетевой стек не спасает — потому что детект давно приземлился на уровень поведения рендеринг-движка. Разберём, как Cloudflare и Akamai палят вас через WebGL и Canvas, и почему "чистый" код больше не работает. Вскрываем антифрод

    habr.com/ru/articles/1005068/

    #вебскрапинг #парсинг #puppeteer #playwright #cloudflare #антифрод #fingerprinting #резидентные_прокси #cdp #автоматизация

  11. Когда curl перестаёт работать: многоуровневый детект ботов и где в этой схеме живёт облачный браузер

    Эта статья не о том, что Puppeteer плохой инструмент. Puppeteer — отличный. И грамотный TLS-фингерпринтинг вынесет большинство защит. Но есть класс задач, где даже идеальный сетевой стек не спасает — потому что детект давно приземлился на уровень поведения рендеринг-движка. Разберём, как Cloudflare и Akamai палят вас через WebGL и Canvas, и почему "чистый" код больше не работает. Вскрываем антифрод

    habr.com/ru/articles/1005068/

    #вебскрапинг #парсинг #puppeteer #playwright #cloudflare #антифрод #fingerprinting #резидентные_прокси #cdp #автоматизация

  12. Когда curl перестаёт работать: многоуровневый детект ботов и где в этой схеме живёт облачный браузер

    Эта статья не о том, что Puppeteer плохой инструмент. Puppeteer — отличный. И грамотный TLS-фингерпринтинг вынесет большинство защит. Но есть класс задач, где даже идеальный сетевой стек не спасает — потому что детект давно приземлился на уровень поведения рендеринг-движка. Разберём, как Cloudflare и Akamai палят вас через WebGL и Canvas, и почему "чистый" код больше не работает. Вскрываем антифрод

    habr.com/ru/articles/1005068/

    #вебскрапинг #парсинг #puppeteer #playwright #cloudflare #антифрод #fingerprinting #резидентные_прокси #cdp #автоматизация

  13. Простые лайфхаки для автоматизации работы с помощью Python

    Если какое-то действие приходится выполнять слишком часто — значит, пора его автоматизировать. Разбираю полезные скрипты — от работы с файлами до DevOps. В каждом разделе есть примеры для новичков и более опытных разработчиков. А в конце статьи — несколько простых правил, которые помогут писать удобный и надёжный код.

    habr.com/ru/companies/netology

    #python #автоматизация #скрипты_для_автоматизации #json #shutil #autopep8 #вебскрапинг #excel #отправка_отчётов #beautifulsoup

  14. Простые лайфхаки для автоматизации работы с помощью Python

    Если какое-то действие приходится выполнять слишком часто — значит, пора его автоматизировать. Разбираю полезные скрипты — от работы с файлами до DevOps. В каждом разделе есть примеры для новичков и более опытных разработчиков. А в конце статьи — несколько простых правил, которые помогут писать удобный и надёжный код.

    habr.com/ru/companies/netology

    #python #автоматизация #скрипты_для_автоматизации #json #shutil #autopep8 #вебскрапинг #excel #отправка_отчётов #beautifulsoup

  15. Простые лайфхаки для автоматизации работы с помощью Python

    Если какое-то действие приходится выполнять слишком часто — значит, пора его автоматизировать. Разбираю полезные скрипты — от работы с файлами до DevOps. В каждом разделе есть примеры для новичков и более опытных разработчиков. А в конце статьи — несколько простых правил, которые помогут писать удобный и надёжный код.

    habr.com/ru/companies/netology

    #python #автоматизация #скрипты_для_автоматизации #json #shutil #autopep8 #вебскрапинг #excel #отправка_отчётов #beautifulsoup

  16. Простые лайфхаки для автоматизации работы с помощью Python

    Если какое-то действие приходится выполнять слишком часто — значит, пора его автоматизировать. Разбираю полезные скрипты — от работы с файлами до DevOps. В каждом разделе есть примеры для новичков и более опытных разработчиков. А в конце статьи — несколько простых правил, которые помогут писать удобный и надёжный код.

    habr.com/ru/companies/netology

    #python #автоматизация #скрипты_для_автоматизации #json #shutil #autopep8 #вебскрапинг #excel #отправка_отчётов #beautifulsoup

  17. Что такое Puppeteer и как его использовать для веб-скрапинга | Полное руководство 2024

    Это полное руководство расскажет о том, что такое Puppeteer и как эффективно использовать его для веб-скрапинга

    habr.com/ru/articles/859080/

    #puppeteer #вебскрапинг #puppet #скрапинг #python #captcha #captcha_защита

  18. Веб-скрапинг с Scrapy на Python

    Сегодня мы поговорим о хорошем инструменте для веб-скрапинга, который зарекомендовал себя, библиотеке Scrapy для Python.

    habr.com/ru/companies/otus/art

    #python #otus #scrapye #вебскрапинг