home.social

#парсинг_контента — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #парсинг_контента, aggregated by home.social.

  1. Сбор сведений из открытых источников: почему это рискованно, если выкачивается информация из чужих баз данных?

    Собрать информацию о человеке или продукте с использованием высоких технологий стало делом техники. В прямом и переносном смысле слова. Однако такое выкачивание данных может стать поводом для судебного разбирательства. Почему это происходит — далее в материале.

    habr.com/ru/companies/onlinepa

    #базы_данных #база_дынных #парсинг #парсинг_контента #парсинг_сайтов #парсинг_сайта #парсинг_данных #защита_данных #защита_данных_пользователей #законодательство

  2. Сбор сведений из открытых источников: почему это рискованно, если выкачивается информация из чужих баз данных?

    Собрать информацию о человеке или продукте с использованием высоких технологий стало делом техники. В прямом и переносном смысле слова. Однако такое выкачивание данных может стать поводом для судебного разбирательства. Почему это происходит — далее в материале.

    habr.com/ru/companies/onlinepa

    #базы_данных #база_дынных #парсинг #парсинг_контента #парсинг_сайтов #парсинг_сайта #парсинг_данных #защита_данных #защита_данных_пользователей #законодательство

  3. Сбор сведений из открытых источников: почему это рискованно, если выкачивается информация из чужих баз данных?

    Собрать информацию о человеке или продукте с использованием высоких технологий стало делом техники. В прямом и переносном смысле слова. Однако такое выкачивание данных может стать поводом для судебного разбирательства. Почему это происходит — далее в материале.

    habr.com/ru/companies/onlinepa

    #базы_данных #база_дынных #парсинг #парсинг_контента #парсинг_сайтов #парсинг_сайта #парсинг_данных #защита_данных #защита_данных_пользователей #законодательство

  4. Сбор сведений из открытых источников: почему это рискованно, если выкачивается информация из чужих баз данных?

    Собрать информацию о человеке или продукте с использованием высоких технологий стало делом техники. В прямом и переносном смысле слова. Однако такое выкачивание данных может стать поводом для судебного разбирательства. Почему это происходит — далее в материале.

    habr.com/ru/companies/onlinepa

    #базы_данных #база_дынных #парсинг #парсинг_контента #парсинг_сайтов #парсинг_сайта #парсинг_данных #защита_данных #защита_данных_пользователей #законодательство

  5. Небольшой тест LLM‑модели qwen3‑coder‑next:q8_0

    Тест LLM‑модели qwen3‑coder‑next:q8_0: модель успешно построила карту большого форума, собрала все сообщения в JSON и преобразовала их в готовый SQL‑дайджест, показав высокое качество генерации кода, но «залипла» при решении чисто логической задачи.

    habr.com/ru/articles/996486/

    #llm #llmмодели #llm_код #кодингагенты #парсинг_контента #парсинг_сайтов #парсинг_html

  6. Небольшой тест LLM‑модели qwen3‑coder‑next:q8_0

    Тест LLM‑модели qwen3‑coder‑next:q8_0: модель успешно построила карту большого форума, собрала все сообщения в JSON и преобразовала их в готовый SQL‑дайджест, показав высокое качество генерации кода, но «залипла» при решении чисто логической задачи.

    habr.com/ru/articles/996486/

    #llm #llmмодели #llm_код #кодингагенты #парсинг_контента #парсинг_сайтов #парсинг_html

  7. Небольшой тест LLM‑модели qwen3‑coder‑next:q8_0

    Тест LLM‑модели qwen3‑coder‑next:q8_0: модель успешно построила карту большого форума, собрала все сообщения в JSON и преобразовала их в готовый SQL‑дайджест, показав высокое качество генерации кода, но «залипла» при решении чисто логической задачи.

    habr.com/ru/articles/996486/

    #llm #llmмодели #llm_код #кодингагенты #парсинг_контента #парсинг_сайтов #парсинг_html

  8. Небольшой тест LLM‑модели qwen3‑coder‑next:q8_0

    Тест LLM‑модели qwen3‑coder‑next:q8_0: модель успешно построила карту большого форума, собрала все сообщения в JSON и преобразовала их в готовый SQL‑дайджест, показав высокое качество генерации кода, но «залипла» при решении чисто логической задачи.

    habr.com/ru/articles/996486/

    #llm #llmмодели #llm_код #кодингагенты #парсинг_контента #парсинг_сайтов #парсинг_html

  9. Google против SerpApi: юридический фронт войны за обучающие выборки и «невидимая» защита SearchGuard

    В декабре 2025 года Google подала иск против компании SerpApi, специализирующейся на сборе данных (парсинге) из результатов поиска. Google обвиняет ответчика в использовании сотен миллионов «поддельных» запросов для бесплатного доступа к лицензионному контенту. Для сообщества это дело интересно не только как очередной юридический спор, но и как глубокий разбор того, как Google защищает свой «ров» из данных в эпоху генеративного ИИ. Постепенно процесс обрастает деталями: от участия OpenAI в качестве клиента SerpApi до технических подробностей работы системы SearchGuard.

    habr.com/ru/companies/finam_br

    #google #open_ai #парсинг #парсинг_контента #парсинг_сайтов #антифрод #dmca #serpapi #судебный_процесс

  10. Google против SerpApi: юридический фронт войны за обучающие выборки и «невидимая» защита SearchGuard

    В декабре 2025 года Google подала иск против компании SerpApi, специализирующейся на сборе данных (парсинге) из результатов поиска. Google обвиняет ответчика в использовании сотен миллионов «поддельных» запросов для бесплатного доступа к лицензионному контенту. Для сообщества это дело интересно не только как очередной юридический спор, но и как глубокий разбор того, как Google защищает свой «ров» из данных в эпоху генеративного ИИ. Постепенно процесс обрастает деталями: от участия OpenAI в качестве клиента SerpApi до технических подробностей работы системы SearchGuard.

    habr.com/ru/companies/finam_br

    #google #open_ai #парсинг #парсинг_контента #парсинг_сайтов #антифрод #dmca #serpapi #судебный_процесс

  11. Google против SerpApi: юридический фронт войны за обучающие выборки и «невидимая» защита SearchGuard

    В декабре 2025 года Google подала иск против компании SerpApi, специализирующейся на сборе данных (парсинге) из результатов поиска. Google обвиняет ответчика в использовании сотен миллионов «поддельных» запросов для бесплатного доступа к лицензионному контенту. Для сообщества это дело интересно не только как очередной юридический спор, но и как глубокий разбор того, как Google защищает свой «ров» из данных в эпоху генеративного ИИ. Постепенно процесс обрастает деталями: от участия OpenAI в качестве клиента SerpApi до технических подробностей работы системы SearchGuard.

    habr.com/ru/companies/finam_br

    #google #open_ai #парсинг #парсинг_контента #парсинг_сайтов #антифрод #dmca #serpapi #судебный_процесс

  12. Google против SerpApi: юридический фронт войны за обучающие выборки и «невидимая» защита SearchGuard

    В декабре 2025 года Google подала иск против компании SerpApi, специализирующейся на сборе данных (парсинге) из результатов поиска. Google обвиняет ответчика в использовании сотен миллионов «поддельных» запросов для бесплатного доступа к лицензионному контенту. Для сообщества это дело интересно не только как очередной юридический спор, но и как глубокий разбор того, как Google защищает свой «ров» из данных в эпоху генеративного ИИ. Постепенно процесс обрастает деталями: от участия OpenAI в качестве клиента SerpApi до технических подробностей работы системы SearchGuard.

    habr.com/ru/companies/finam_br

    #google #open_ai #парсинг #парсинг_контента #парсинг_сайтов #антифрод #dmca #serpapi #судебный_процесс

  13. Парсер, анализ цен и подбор товара с помощью ИИ

    Часть 2. Путь от простого поисковика по своей базе до инструмента, с помощью которого можно облегчить себе жизнь при работе с конкурентами/поставщиками, да и в общем отслеживать свою товарную нишу. Меня зовут Евгений. Если вы читали мою первую статью , то знаете, как я, не написав ни строчки профессионального кода, создал с помощью Gemini ИИ-поисковик для нашего сложного ассортимента спецодежды. Это был первый опыт внедрения ИИ в реальные бизнес-процессы. Инструмент заработал, и я мог бы на этом остановиться. Но пытливый ум вел меня дальше. Хотя, в данном случае даже не пытливый ум, а скорее анализ «хотелок» в компании. Вот об этих хотелках и о том, что из этого вышло, я и расскажу. Эта статья — не о решении проблемы, а о расширении возможностей моего инструмента. Это рассказ о том, как мой внутренний инструмент планомерно эволюционировал в мини-платформу Market Intelligence (это название я узнал уже по факту реализации от того же Gemini). В моем случае это связка «Парсер + Подбор по сторонним данным + Анализ цен» . Я хочу не просто поделиться историей, но и на пальцах разобрать логику каждого модуля. Про код рассказывать не буду, так как я не программист, и это в моем случае неуместно. Моя цель — показать, как устроен инструмент, какие бизнес-задачи он решает, и как вы можете применить его в своей нише. В общем, это история о том, как не-программист, вооруженный современным ИИ, может реализовать нужный инструмент. Первая версия моего приложения эффективно решала задачу внутреннего поиска. Она позволяла быстро находить товары по сложным запросам (а иногда и по запросам, рожденным больной фантазией сотрудников), что значительно ускорило работу менеджеров и адаптацию новичков. Есть данные, есть каша в голове неопытного менеджера, нужен результат. Мой инструмент как раз и помогал с этим, работая как замкнутый контур исключительно с нашими внутренними данными.

    habr.com/ru/articles/970726/

    #ии #продажи #парсинг_контента #парсинг_сайтов

  14. [Перевод] Парсить XML при помощи регулярных выражений нельзя… но давайте попробуем

    Парсинг HTML при помощи регулярных выражений — популярная ошибка и отличный пример использования неподходящего под задачу инструмента. Общепризнанно, что это плохая идея по множеству причин. Существует знаменитый ответ на Stack Overflow о том, почему этого ни в коем случае не следует делать. На самом деле, этот ответ стал настолько популярным, что в определённых кругах используется, как копипаста. Каждый раз, когда я натыкаюсь на него, то думаю что он во многом справедлив... но в то же время, не могу согласиться с ним полностью...

    habr.com/ru/articles/954632/

    #парсинг_xml #парсинг_контента #парсинг_html #regex

  15. Как не-программист спас дедлайн и защитил тайны компании: История Веры и GPT для проверки договоров

    Привет, Хабр! Меня зовут Александр, я лидер команды DevSup (это как DevOps, только с функцией поддержки больших клиентов которым Saas не подходит) в IT-компании ПравоТех. Мы создаем решения (например, case.one для ведения дел и doc.one для документооборота), чтобы юристы, менеджеры и все кто рядом с юриспруденцией могли работать быстрее, умнее и спокойнее. Наша миссия – «Помогаем людям получать удовольствие от работы». Сейчас у нас активно внедряются ИИ-инструменты. Создаются боты для консультаций и опросов, часто обращаемся к большим моделям чтобы «обстучать» какую-то идею. В этой статье поделюсь историей о том, как эффективно и безопасно использовать ИИ, превратив рутину в решенную задачу. Итак, представьте: вам в руки попадает договор поставки ПО. Не просто договор, а целая книжечка на 50-70 страниц А4. Нужно срочно – за 2-3 дня! – проанализировать его вдоль и поперек: проверить сроки, штрафы, бонусы, риски для вашей компании. Знакомая ситуация для менеджеров, юристов, закупщиков? Дилемма: Выкроить время и вычитать всё дотошно, рискуя не успеть? Или пробежаться по диагонали, надеясь, что глаз «зацепит» опасную формулировку? Соблазн велик: закинуть текст в публичный ИИ-чат (типа ChatGPT или DeepSeek) и спросить: «Эй, ИИ, моя компания ООО «Рога и копыта» – найди всё, что нам невыгодно!» Цена такого «упрощения» может быть огромной. Давайте разберемся, почему это крайне опасно : 1. Конфиденциальность — прощай! Условия договора (а они почти всегда секретны!) отправляются владельцу ИИ-сервиса. Нарушение пункта о неразглашении – гарантировано.

    habr.com/ru/articles/922132/

    #Автоматизация #Анализ #парсинг_контента #ML #ai #legaltech

  16. Парсим YouTube на Python как для взрослых: отказоустойчивый скрипт с ротацией ключей

    Путь разработчика парсеров тернист и сложен, сперва ты пытаешься обойти официальные ограничения, потому что так проще, так нету квот и разных требований. Параллельно мучаясь с Selenium, в попытка угнаться за меняющейся версткой YouTube. Кто-то пишет простые скрипты на requests, которые падают при первой же ошибке. И куда вас все эти действия приводят? Снова ко мне - к официальному YouTube Data API v3 .

    habr.com/ru/articles/916114/

    #парсинг #парсинг_контента #парсинг_сайта #парсинг_данных #парсинг_youtube #youtube_api

  17. Топ веб‑парсеров и API-сервисов для сбора данных: сравнение скорости, масштабируемости и обхода защит

    Автоматический сбор данных (парсинг, или web scraping) стал неотъемлемой практикой для разработчиков, аналитиков и автоматизаторов. С его помощью получают массовую информацию с сайтов – от цен конкурентов и отзывов до контента соцсетей​. Для этого разработано множество “парсеров” – библиотек, фреймворков и облачных сервисов, которые позволяют извлекать веб-данные программно. Одни решения требуются для быстрого парсинга статичных страниц, другие – для обхода сложной JavaScript-навигации, третьи – для получения данных через API. В этой статье я рассмотрю топ инструментов для парсинга – как открытых (Open Source) библиотек, так и коммерческих SaaS/API-сервисов – и сравню их по ключевым метрикам:

    habr.com/ru/articles/893622/

    #парсинг #парсинг_контента #парсеры #парсинг_сайтов #парсинг_json #парсинг_данных #парсинг_html #парсер_сайтов #парсинг_сайта #парсер

  18. Настройка мониторинга и отслеживания изменений на сайтах

    Сложилось так, что в рамках рабочих и бытовых задач появился у меня заветный список ресурсов, которые приходится регулярно мониторить "руками": зашел на сайт, посмотрел изменилось ли то, закрыл. Думаю, многие сталкивались с подобной рутиной и задумывались об автоматизации действий в браузере. Вот и я решил найти удобный, и желательно бесплатный инструмент, способный выполнить все мои задачи.

    habr.com/ru/articles/836316/

    #автоматизация #автоматизация_действий_с_сайтами #мониторинг_изменений #парсинг_сайтов #парсинг_контента

  19. Кейс: как с помощью парсинга Авито и ЦИАН увеличить эффективность отдела развития крупной ритейл компании на ~27%

    Привет! В этом кейсе хочу описать процесс взаимодействие заказчика с поиском новых объявлений по определенным адресам (координатам) по всей России. Суть: необходимо мониторить объявления объектов коммерческой недвижимости (аренда) на Авито и ЦИАН по заданным критериям. Необычность задачи - поиск объявлений в определенном радиусе от изначальной точки координаты. Заказчик: крупнейшая сеть аптек (ввиду коммерческой тайны, раскрыть названия не могу), насчитывающая более 1000 оффлайн-точек по всей России. Для расширения своего присутствия на российском рынке в формате «на каждом шагу», заказчиком было принято решение занимать данный рынок через поиск объявлений об аренде коммерческой недвижимости. Сложность: на 4 менеджеров по развитию внутри компании - приходилось отслеживать более 7000 определенных адресов по всей РФ на наличие новых объектов аренды недвижимости в определенном радиусе (и это только на одном ресурсе). На подобный поиск новых объявлений могло уходить от 2х недель до 3х месяцев. Выходило трудозатратно и неудобно (ну а помимо этого, есть же еще и другие бизнес-процессы). При этом, очень крутые, вкусные объявления, улетали за считанные дни, которые даже могли не попасть в обозрение заказчиком. Читать кейс

    habr.com/ru/articles/812631/

    #парсинг_контента #парсинг_сайтов #парсинг_данных #парсинг

  20. Об одном способе веб-скрапинга сайтов, защищенных Cloudflare

    Сразу оговорюсь, что описанное ниже носит исключительно информационно-образовательный характер, и не имеет целью нанесение какого-либо ущерба компаниям, использующим защиту из заголовка статьи. По этим же причинам фокусировка статьи именно на том, как получить заветный html «как из браузера» в автоматизированном режиме, и здесь не будет идти речь о каких-то массовых распараллеливаниях через proxy и VPN, подкладываниях отпечатков (finger prints) браузеров и т. д. Узнать о способе обхода защиты Cloudflare

    habr.com/ru/articles/792868/

    #скрапинг #парсинг_сайтов #парсинг #парсинг_контента #cloudflare #net #c# #seleniumwebdriver #selenium #ozonru

  21. Парсер, анализ цен и подбор товара с помощью ИИ

    Часть 2. Путь от простого поисковика по своей базе до инструмента, с помощью которого можно облегчить себе жизнь при работе с конкурентами/поставщиками, да и в общем отслеживать свою товарную нишу. Меня зовут Евгений. Если вы читали мою первую статью , то знаете, как я, не написав ни строчки профессионального кода, создал с помощью Gemini ИИ-поисковик для нашего сложного ассортимента спецодежды. Это был первый опыт внедрения ИИ в реальные бизнес-процессы. Инструмент заработал, и я мог бы на этом остановиться. Но пытливый ум вел меня дальше. Хотя, в данном случае даже не пытливый ум, а скорее анализ «хотелок» в компании. Вот об этих хотелках и о том, что из этого вышло, я и расскажу. Эта статья — не о решении проблемы, а о расширении возможностей моего инструмента. Это рассказ о том, как мой внутренний инструмент планомерно эволюционировал в мини-платформу Market Intelligence (это название я узнал уже по факту реализации от того же Gemini). В моем случае это связка «Парсер + Подбор по сторонним данным + Анализ цен» . Я хочу не просто поделиться историей, но и на пальцах разобрать логику каждого модуля. Про код рассказывать не буду, так как я не программист, и это в моем случае неуместно. Моя цель — показать, как устроен инструмент, какие бизнес-задачи он решает, и как вы можете применить его в своей нише. В общем, это история о том, как не-программист, вооруженный современным ИИ, может реализовать нужный инструмент. Первая версия моего приложения эффективно решала задачу внутреннего поиска. Она позволяла быстро находить товары по сложным запросам (а иногда и по запросам, рожденным больной фантазией сотрудников), что значительно ускорило работу менеджеров и адаптацию новичков. Есть данные, есть каша в голове неопытного менеджера, нужен результат. Мой инструмент как раз и помогал с этим, работая как замкнутый контур исключительно с нашими внутренними данными.

    habr.com/ru/articles/970726/

    #ии #продажи #парсинг_контента #парсинг_сайтов

  22. Парсер, анализ цен и подбор товара с помощью ИИ

    Часть 2. Путь от простого поисковика по своей базе до инструмента, с помощью которого можно облегчить себе жизнь при работе с конкурентами/поставщиками, да и в общем отслеживать свою товарную нишу. Меня зовут Евгений. Если вы читали мою первую статью , то знаете, как я, не написав ни строчки профессионального кода, создал с помощью Gemini ИИ-поисковик для нашего сложного ассортимента спецодежды. Это был первый опыт внедрения ИИ в реальные бизнес-процессы. Инструмент заработал, и я мог бы на этом остановиться. Но пытливый ум вел меня дальше. Хотя, в данном случае даже не пытливый ум, а скорее анализ «хотелок» в компании. Вот об этих хотелках и о том, что из этого вышло, я и расскажу. Эта статья — не о решении проблемы, а о расширении возможностей моего инструмента. Это рассказ о том, как мой внутренний инструмент планомерно эволюционировал в мини-платформу Market Intelligence (это название я узнал уже по факту реализации от того же Gemini). В моем случае это связка «Парсер + Подбор по сторонним данным + Анализ цен» . Я хочу не просто поделиться историей, но и на пальцах разобрать логику каждого модуля. Про код рассказывать не буду, так как я не программист, и это в моем случае неуместно. Моя цель — показать, как устроен инструмент, какие бизнес-задачи он решает, и как вы можете применить его в своей нише. В общем, это история о том, как не-программист, вооруженный современным ИИ, может реализовать нужный инструмент. Первая версия моего приложения эффективно решала задачу внутреннего поиска. Она позволяла быстро находить товары по сложным запросам (а иногда и по запросам, рожденным больной фантазией сотрудников), что значительно ускорило работу менеджеров и адаптацию новичков. Есть данные, есть каша в голове неопытного менеджера, нужен результат. Мой инструмент как раз и помогал с этим, работая как замкнутый контур исключительно с нашими внутренними данными.

    habr.com/ru/articles/970726/

    #ии #продажи #парсинг_контента #парсинг_сайтов

  23. Парсер, анализ цен и подбор товара с помощью ИИ

    Часть 2. Путь от простого поисковика по своей базе до инструмента, с помощью которого можно облегчить себе жизнь при работе с конкурентами/поставщиками, да и в общем отслеживать свою товарную нишу. Меня зовут Евгений. Если вы читали мою первую статью , то знаете, как я, не написав ни строчки профессионального кода, создал с помощью Gemini ИИ-поисковик для нашего сложного ассортимента спецодежды. Это был первый опыт внедрения ИИ в реальные бизнес-процессы. Инструмент заработал, и я мог бы на этом остановиться. Но пытливый ум вел меня дальше. Хотя, в данном случае даже не пытливый ум, а скорее анализ «хотелок» в компании. Вот об этих хотелках и о том, что из этого вышло, я и расскажу. Эта статья — не о решении проблемы, а о расширении возможностей моего инструмента. Это рассказ о том, как мой внутренний инструмент планомерно эволюционировал в мини-платформу Market Intelligence (это название я узнал уже по факту реализации от того же Gemini). В моем случае это связка «Парсер + Подбор по сторонним данным + Анализ цен» . Я хочу не просто поделиться историей, но и на пальцах разобрать логику каждого модуля. Про код рассказывать не буду, так как я не программист, и это в моем случае неуместно. Моя цель — показать, как устроен инструмент, какие бизнес-задачи он решает, и как вы можете применить его в своей нише. В общем, это история о том, как не-программист, вооруженный современным ИИ, может реализовать нужный инструмент. Первая версия моего приложения эффективно решала задачу внутреннего поиска. Она позволяла быстро находить товары по сложным запросам (а иногда и по запросам, рожденным больной фантазией сотрудников), что значительно ускорило работу менеджеров и адаптацию новичков. Есть данные, есть каша в голове неопытного менеджера, нужен результат. Мой инструмент как раз и помогал с этим, работая как замкнутый контур исключительно с нашими внутренними данными.

    habr.com/ru/articles/970726/

    #ии #продажи #парсинг_контента #парсинг_сайтов

  24. Топ веб‑парсеров и API-сервисов для сбора данных: сравнение скорости, масштабируемости и обхода защит

    Автоматический сбор данных (парсинг, или web scraping) стал неотъемлемой практикой для разработчиков, аналитиков и автоматизаторов. С его помощью получают массовую информацию с сайтов – от цен конкурентов и отзывов до контента соцсетей​. Для этого разработано множество “парсеров” – библиотек, фреймворков и облачных сервисов, которые позволяют извлекать веб-данные программно. Одни решения требуются для быстрого парсинга статичных страниц, другие – для обхода сложной JavaScript-навигации, третьи – для получения данных через API. В этой статье я рассмотрю топ инструментов для парсинга – как открытых (Open Source) библиотек, так и коммерческих SaaS/API-сервисов – и сравню их по ключевым метрикам:

    habr.com/ru/articles/893622/

    #парсинг #парсинг_контента #парсеры #парсинг_сайтов #парсинг_json #парсинг_данных #парсинг_html #парсер_сайтов #парсинг_сайта #парсер

  25. Топ веб‑парсеров и API-сервисов для сбора данных: сравнение скорости, масштабируемости и обхода защит

    Автоматический сбор данных (парсинг, или web scraping) стал неотъемлемой практикой для разработчиков, аналитиков и автоматизаторов. С его помощью получают массовую информацию с сайтов – от цен конкурентов и отзывов до контента соцсетей​. Для этого разработано множество “парсеров” – библиотек, фреймворков и облачных сервисов, которые позволяют извлекать веб-данные программно. Одни решения требуются для быстрого парсинга статичных страниц, другие – для обхода сложной JavaScript-навигации, третьи – для получения данных через API. В этой статье я рассмотрю топ инструментов для парсинга – как открытых (Open Source) библиотек, так и коммерческих SaaS/API-сервисов – и сравню их по ключевым метрикам:

    habr.com/ru/articles/893622/

    #парсинг #парсинг_контента #парсеры #парсинг_сайтов #парсинг_json #парсинг_данных #парсинг_html #парсер_сайтов #парсинг_сайта #парсер

  26. Топ веб‑парсеров и API-сервисов для сбора данных: сравнение скорости, масштабируемости и обхода защит

    Автоматический сбор данных (парсинг, или web scraping) стал неотъемлемой практикой для разработчиков, аналитиков и автоматизаторов. С его помощью получают массовую информацию с сайтов – от цен конкурентов и отзывов до контента соцсетей​. Для этого разработано множество “парсеров” – библиотек, фреймворков и облачных сервисов, которые позволяют извлекать веб-данные программно. Одни решения требуются для быстрого парсинга статичных страниц, другие – для обхода сложной JavaScript-навигации, третьи – для получения данных через API. В этой статье я рассмотрю топ инструментов для парсинга – как открытых (Open Source) библиотек, так и коммерческих SaaS/API-сервисов – и сравню их по ключевым метрикам:

    habr.com/ru/articles/893622/

    #парсинг #парсинг_контента #парсеры #парсинг_сайтов #парсинг_json #парсинг_данных #парсинг_html #парсер_сайтов #парсинг_сайта #парсер

  27. Настройка мониторинга и отслеживания изменений на сайтах

    Сложилось так, что в рамках рабочих и бытовых задач появился у меня заветный список ресурсов, которые приходится регулярно мониторить "руками": зашел на сайт, посмотрел изменилось ли то, закрыл. Думаю, многие сталкивались с подобной рутиной и задумывались об автоматизации действий в браузере. Вот и я решил найти удобный, и желательно бесплатный инструмент, способный выполнить все мои задачи.

    habr.com/ru/articles/836316/

    #автоматизация #автоматизация_действий_с_сайтами #мониторинг_изменений #парсинг_сайтов #парсинг_контента

  28. Настройка мониторинга и отслеживания изменений на сайтах

    Сложилось так, что в рамках рабочих и бытовых задач появился у меня заветный список ресурсов, которые приходится регулярно мониторить "руками": зашел на сайт, посмотрел изменилось ли то, закрыл. Думаю, многие сталкивались с подобной рутиной и задумывались об автоматизации действий в браузере. Вот и я решил найти удобный, и желательно бесплатный инструмент, способный выполнить все мои задачи.

    habr.com/ru/articles/836316/

    #автоматизация #автоматизация_действий_с_сайтами #мониторинг_изменений #парсинг_сайтов #парсинг_контента

  29. Кейс: как с помощью парсинга Авито и ЦИАН увеличить эффективность отдела развития крупной ритейл компании на ~27%

    Привет! В этом кейсе хочу описать процесс взаимодействие заказчика с поиском новых объявлений по определенным адресам (координатам) по всей России. Суть: необходимо мониторить объявления объектов коммерческой недвижимости (аренда) на Авито и ЦИАН по заданным критериям. Необычность задачи - поиск объявлений в определенном радиусе от изначальной точки координаты. Заказчик: крупнейшая сеть аптек (ввиду коммерческой тайны, раскрыть названия не могу), насчитывающая более 1000 оффлайн-точек по всей России. Для расширения своего присутствия на российском рынке в формате «на каждом шагу», заказчиком было принято решение занимать данный рынок через поиск объявлений об аренде коммерческой недвижимости. Сложность: на 4 менеджеров по развитию внутри компании - приходилось отслеживать более 7000 определенных адресов по всей РФ на наличие новых объектов аренды недвижимости в определенном радиусе (и это только на одном ресурсе). На подобный поиск новых объявлений могло уходить от 2х недель до 3х месяцев. Выходило трудозатратно и неудобно (ну а помимо этого, есть же еще и другие бизнес-процессы). При этом, очень крутые, вкусные объявления, улетали за считанные дни, которые даже могли не попасть в обозрение заказчиком. Читать кейс

    habr.com/ru/articles/812631/

    #парсинг_контента #парсинг_сайтов #парсинг_данных #парсинг

  30. Кейс: как с помощью парсинга Авито и ЦИАН увеличить эффективность отдела развития крупной ритейл компании на ~27%

    Привет! В этом кейсе хочу описать процесс взаимодействие заказчика с поиском новых объявлений по определенным адресам (координатам) по всей России. Суть: необходимо мониторить объявления объектов коммерческой недвижимости (аренда) на Авито и ЦИАН по заданным критериям. Необычность задачи - поиск объявлений в определенном радиусе от изначальной точки координаты. Заказчик: крупнейшая сеть аптек (ввиду коммерческой тайны, раскрыть названия не могу), насчитывающая более 1000 оффлайн-точек по всей России. Для расширения своего присутствия на российском рынке в формате «на каждом шагу», заказчиком было принято решение занимать данный рынок через поиск объявлений об аренде коммерческой недвижимости. Сложность: на 4 менеджеров по развитию внутри компании - приходилось отслеживать более 7000 определенных адресов по всей РФ на наличие новых объектов аренды недвижимости в определенном радиусе (и это только на одном ресурсе). На подобный поиск новых объявлений могло уходить от 2х недель до 3х месяцев. Выходило трудозатратно и неудобно (ну а помимо этого, есть же еще и другие бизнес-процессы). При этом, очень крутые, вкусные объявления, улетали за считанные дни, которые даже могли не попасть в обозрение заказчиком. Читать кейс

    habr.com/ru/articles/812631/

    #парсинг_контента #парсинг_сайтов #парсинг_данных #парсинг

  31. Кейс: как с помощью парсинга Авито и ЦИАН увеличить эффективность отдела развития крупной ритейл компании на ~27%

    Привет! В этом кейсе хочу описать процесс взаимодействие заказчика с поиском новых объявлений по определенным адресам (координатам) по всей России. Суть: необходимо мониторить объявления объектов коммерческой недвижимости (аренда) на Авито и ЦИАН по заданным критериям. Необычность задачи - поиск объявлений в определенном радиусе от изначальной точки координаты. Заказчик: крупнейшая сеть аптек (ввиду коммерческой тайны, раскрыть названия не могу), насчитывающая более 1000 оффлайн-точек по всей России. Для расширения своего присутствия на российском рынке в формате «на каждом шагу», заказчиком было принято решение занимать данный рынок через поиск объявлений об аренде коммерческой недвижимости. Сложность: на 4 менеджеров по развитию внутри компании - приходилось отслеживать более 7000 определенных адресов по всей РФ на наличие новых объектов аренды недвижимости в определенном радиусе (и это только на одном ресурсе). На подобный поиск новых объявлений могло уходить от 2х недель до 3х месяцев. Выходило трудозатратно и неудобно (ну а помимо этого, есть же еще и другие бизнес-процессы). При этом, очень крутые, вкусные объявления, улетали за считанные дни, которые даже могли не попасть в обозрение заказчиком. Читать кейс

    habr.com/ru/articles/812631/

    #парсинг_контента #парсинг_сайтов #парсинг_данных #парсинг

  32. Об одном способе веб-скрапинга сайтов, защищенных Cloudflare

    Сразу оговорюсь, что описанное ниже носит исключительно информационно-образовательный характер, и не имеет целью нанесение какого-либо ущерба компаниям, использующим защиту из заголовка статьи. По этим же причинам фокусировка статьи именно на том, как получить заветный html «как из браузера» в автоматизированном режиме, и здесь не будет идти речь о каких-то массовых распараллеливаниях через proxy и VPN, подкладываниях отпечатков (finger prints) браузеров и т. д. Узнать о способе обхода защиты Cloudflare

    habr.com/ru/articles/792868/

    #скрапинг #парсинг_сайтов #парсинг #парсинг_контента #cloudflare #net #c# #seleniumwebdriver #selenium #ozonru