#парсинг_контента — Public Fediverse posts on home.social

Habr @[email protected] · 2026-05-13 · 10:32 UTC

Сбор сведений из открытых источников: почему это рискованно, если выкачивается информация из чужих баз данных?

Собрать информацию о человеке или продукте с использованием высоких технологий стало делом техники. В прямом и переносном смысле слова. Однако такое выкачивание данных может стать поводом для судебного разбирательства. Почему это происходит — далее в материале.

https://habr.com/ru/companies/onlinepatent/articles/1034644/

#базы_данных #база_дынных #парсинг #парсинг_контента #парсинг_сайтов #парсинг_сайта #парсинг_данных #защита_данных #защита_данных_пользователей #законодательство

#законодательство #защита_данных_пользователей #защита_данных #парсинг_данных #парсинг_сайта #парсинг_сайтов

Habr @[email protected] · 2026-05-13 · 10:32 UTC

Сбор сведений из открытых источников: почему это рискованно, если выкачивается информация из чужих баз данных?

Собрать информацию о человеке или продукте с использованием высоких технологий стало делом техники. В прямом и переносном смысле слова. Однако такое выкачивание данных может стать поводом для судебного разбирательства. Почему это происходит — далее в материале.

https://habr.com/ru/companies/onlinepatent/articles/1034644/

#базы_данных #база_дынных #парсинг #парсинг_контента #парсинг_сайтов #парсинг_сайта #парсинг_данных #защита_данных #защита_данных_пользователей #законодательство

#законодательство #защита_данных_пользователей #защита_данных #парсинг_данных #парсинг_сайта #парсинг_сайтов

Habr @[email protected] · 2026-05-13 · 10:32 UTC

Сбор сведений из открытых источников: почему это рискованно, если выкачивается информация из чужих баз данных?

Собрать информацию о человеке или продукте с использованием высоких технологий стало делом техники. В прямом и переносном смысле слова. Однако такое выкачивание данных может стать поводом для судебного разбирательства. Почему это происходит — далее в материале.

https://habr.com/ru/companies/onlinepatent/articles/1034644/

#базы_данных #база_дынных #парсинг #парсинг_контента #парсинг_сайтов #парсинг_сайта #парсинг_данных #защита_данных #защита_данных_пользователей #законодательство

#законодательство #защита_данных_пользователей #защита_данных #парсинг_данных #парсинг_сайта #парсинг_сайтов

Habr @[email protected] · 2026-05-13 · 10:32 UTC

Сбор сведений из открытых источников: почему это рискованно, если выкачивается информация из чужих баз данных?

Собрать информацию о человеке или продукте с использованием высоких технологий стало делом техники. В прямом и переносном смысле слова. Однако такое выкачивание данных может стать поводом для судебного разбирательства. Почему это происходит — далее в материале.

https://habr.com/ru/companies/onlinepatent/articles/1034644/

#базы_данных #база_дынных #парсинг #парсинг_контента #парсинг_сайтов #парсинг_сайта #парсинг_данных #защита_данных #защита_данных_пользователей #законодательство

#базы_данных #база_дынных #парсинг #парсинг_контента #парсинг_сайтов #парсинг_сайта

Habr @[email protected] · 2026-02-14 · 08:12 UTC

Небольшой тест LLM‑модели qwen3‑coder‑next:q8_0

Тест LLM‑модели qwen3‑coder‑next:q8_0: модель успешно построила карту большого форума, собрала все сообщения в JSON и преобразовала их в готовый SQL‑дайджест, показав высокое качество генерации кода, но «залипла» при решении чисто логической задачи.

https://habr.com/ru/articles/996486/

#llm #llmмодели #llm_код #кодингагенты #парсинг_контента #парсинг_сайтов #парсинг_html

#парсинг_html #парсинг_сайтов #парсинг_контента #кодингагенты #llm_код #llmмодели

Habr @[email protected] · 2026-02-14 · 08:12 UTC

Небольшой тест LLM‑модели qwen3‑coder‑next:q8_0

Тест LLM‑модели qwen3‑coder‑next:q8_0: модель успешно построила карту большого форума, собрала все сообщения в JSON и преобразовала их в готовый SQL‑дайджест, показав высокое качество генерации кода, но «залипла» при решении чисто логической задачи.

https://habr.com/ru/articles/996486/

#llm #llmмодели #llm_код #кодингагенты #парсинг_контента #парсинг_сайтов #парсинг_html

#парсинг_html #парсинг_сайтов #парсинг_контента #кодингагенты #llm_код #llmмодели

Habr @[email protected] · 2026-02-14 · 08:12 UTC

Небольшой тест LLM‑модели qwen3‑coder‑next:q8_0

Тест LLM‑модели qwen3‑coder‑next:q8_0: модель успешно построила карту большого форума, собрала все сообщения в JSON и преобразовала их в готовый SQL‑дайджест, показав высокое качество генерации кода, но «залипла» при решении чисто логической задачи.

https://habr.com/ru/articles/996486/

#llm #llmмодели #llm_код #кодингагенты #парсинг_контента #парсинг_сайтов #парсинг_html

#парсинг_html #парсинг_сайтов #парсинг_контента #кодингагенты #llm_код #llmмодели

Habr @[email protected] · 2026-02-14 · 08:12 UTC

Небольшой тест LLM‑модели qwen3‑coder‑next:q8_0

Тест LLM‑модели qwen3‑coder‑next:q8_0: модель успешно построила карту большого форума, собрала все сообщения в JSON и преобразовала их в готовый SQL‑дайджест, показав высокое качество генерации кода, но «залипла» при решении чисто логической задачи.

https://habr.com/ru/articles/996486/

#llm #llmмодели #llm_код #кодингагенты #парсинг_контента #парсинг_сайтов #парсинг_html

#llm #llmмодели #llm_код #кодингагенты #парсинг_контента #парсинг_сайтов

Habr @[email protected] · 2026-01-26 · 10:22 UTC

Google против SerpApi: юридический фронт войны за обучающие выборки и «невидимая» защита SearchGuard

В декабре 2025 года Google подала иск против компании SerpApi, специализирующейся на сборе данных (парсинге) из результатов поиска. Google обвиняет ответчика в использовании сотен миллионов «поддельных» запросов для бесплатного доступа к лицензионному контенту. Для сообщества это дело интересно не только как очередной юридический спор, но и как глубокий разбор того, как Google защищает свой «ров» из данных в эпоху генеративного ИИ. Постепенно процесс обрастает деталями: от участия OpenAI в качестве клиента SerpApi до технических подробностей работы системы SearchGuard.

https://habr.com/ru/companies/finam_broker/articles/989006/

#google #open_ai #парсинг #парсинг_контента #парсинг_сайтов #антифрод #dmca #serpapi #судебный_процесс

#судебный_процесс #serpapi #dmca #антифрод #парсинг_сайтов #парсинг_контента

Habr @[email protected] · 2026-01-26 · 10:22 UTC

Google против SerpApi: юридический фронт войны за обучающие выборки и «невидимая» защита SearchGuard

В декабре 2025 года Google подала иск против компании SerpApi, специализирующейся на сборе данных (парсинге) из результатов поиска. Google обвиняет ответчика в использовании сотен миллионов «поддельных» запросов для бесплатного доступа к лицензионному контенту. Для сообщества это дело интересно не только как очередной юридический спор, но и как глубокий разбор того, как Google защищает свой «ров» из данных в эпоху генеративного ИИ. Постепенно процесс обрастает деталями: от участия OpenAI в качестве клиента SerpApi до технических подробностей работы системы SearchGuard.

https://habr.com/ru/companies/finam_broker/articles/989006/

#google #open_ai #парсинг #парсинг_контента #парсинг_сайтов #антифрод #dmca #serpapi #судебный_процесс

#судебный_процесс #serpapi #dmca #антифрод #парсинг_сайтов #парсинг_контента

Habr @[email protected] · 2026-01-26 · 10:22 UTC

Google против SerpApi: юридический фронт войны за обучающие выборки и «невидимая» защита SearchGuard

В декабре 2025 года Google подала иск против компании SerpApi, специализирующейся на сборе данных (парсинге) из результатов поиска. Google обвиняет ответчика в использовании сотен миллионов «поддельных» запросов для бесплатного доступа к лицензионному контенту. Для сообщества это дело интересно не только как очередной юридический спор, но и как глубокий разбор того, как Google защищает свой «ров» из данных в эпоху генеративного ИИ. Постепенно процесс обрастает деталями: от участия OpenAI в качестве клиента SerpApi до технических подробностей работы системы SearchGuard.

https://habr.com/ru/companies/finam_broker/articles/989006/

#google #open_ai #парсинг #парсинг_контента #парсинг_сайтов #антифрод #dmca #serpapi #судебный_процесс

#судебный_процесс #serpapi #dmca #антифрод #парсинг_сайтов #парсинг_контента

Habr @[email protected] · 2026-01-26 · 10:22 UTC

Google против SerpApi: юридический фронт войны за обучающие выборки и «невидимая» защита SearchGuard

В декабре 2025 года Google подала иск против компании SerpApi, специализирующейся на сборе данных (парсинге) из результатов поиска. Google обвиняет ответчика в использовании сотен миллионов «поддельных» запросов для бесплатного доступа к лицензионному контенту. Для сообщества это дело интересно не только как очередной юридический спор, но и как глубокий разбор того, как Google защищает свой «ров» из данных в эпоху генеративного ИИ. Постепенно процесс обрастает деталями: от участия OpenAI в качестве клиента SerpApi до технических подробностей работы системы SearchGuard.

https://habr.com/ru/companies/finam_broker/articles/989006/

#google #open_ai #парсинг #парсинг_контента #парсинг_сайтов #антифрод #dmca #serpapi #судебный_процесс

#google #open_ai #парсинг #парсинг_контента #парсинг_сайтов #антифрод

Habr @[email protected] · 2025-11-27 · 06:32 UTC

Парсер, анализ цен и подбор товара с помощью ИИ

Часть 2. Путь от простого поисковика по своей базе до инструмента, с помощью которого можно облегчить себе жизнь при работе с конкурентами/поставщиками, да и в общем отслеживать свою товарную нишу. Меня зовут Евгений. Если вы читали мою первую статью , то знаете, как я, не написав ни строчки профессионального кода, создал с помощью Gemini ИИ-поисковик для нашего сложного ассортимента спецодежды. Это был первый опыт внедрения ИИ в реальные бизнес-процессы. Инструмент заработал, и я мог бы на этом остановиться. Но пытливый ум вел меня дальше. Хотя, в данном случае даже не пытливый ум, а скорее анализ «хотелок» в компании. Вот об этих хотелках и о том, что из этого вышло, я и расскажу. Эта статья — не о решении проблемы, а о расширении возможностей моего инструмента. Это рассказ о том, как мой внутренний инструмент планомерно эволюционировал в мини-платформу Market Intelligence (это название я узнал уже по факту реализации от того же Gemini). В моем случае это связка «Парсер + Подбор по сторонним данным + Анализ цен» . Я хочу не просто поделиться историей, но и на пальцах разобрать логику каждого модуля. Про код рассказывать не буду, так как я не программист, и это в моем случае неуместно. Моя цель — показать, как устроен инструмент, какие бизнес-задачи он решает, и как вы можете применить его в своей нише. В общем, это история о том, как не-программист, вооруженный современным ИИ, может реализовать нужный инструмент. Первая версия моего приложения эффективно решала задачу внутреннего поиска. Она позволяла быстро находить товары по сложным запросам (а иногда и по запросам, рожденным больной фантазией сотрудников), что значительно ускорило работу менеджеров и адаптацию новичков. Есть данные, есть каша в голове неопытного менеджера, нужен результат. Мой инструмент как раз и помогал с этим, работая как замкнутый контур исключительно с нашими внутренними данными.

https://habr.com/ru/articles/970726/

#ии #продажи #парсинг_контента #парсинг_сайтов

Habr @[email protected] · 2025-10-09 · 10:12 UTC

[Перевод] Парсить XML при помощи регулярных выражений нельзя… но давайте попробуем

Парсинг HTML при помощи регулярных выражений — популярная ошибка и отличный пример использования неподходящего под задачу инструмента. Общепризнанно, что это плохая идея по множеству причин. Существует знаменитый ответ на Stack Overflow о том, почему этого ни в коем случае не следует делать. На самом деле, этот ответ стал настолько популярным, что в определённых кругах используется, как копипаста. Каждый раз, когда я натыкаюсь на него, то думаю что он во многом справедлив... но в то же время, не могу согласиться с ним полностью...

https://habr.com/ru/articles/954632/

#парсинг_xml #парсинг_контента #парсинг_html #regex

#regex #парсинг_html #парсинг_контента #парсинг_xml

Habr @[email protected] · 2025-06-26 · 13:52 UTC

Как не-программист спас дедлайн и защитил тайны компании: История Веры и GPT для проверки договоров

Привет, Хабр! Меня зовут Александр, я лидер команды DevSup (это как DevOps, только с функцией поддержки больших клиентов которым Saas не подходит) в IT-компании ПравоТех. Мы создаем решения (например, case.one для ведения дел и doc.one для документооборота), чтобы юристы, менеджеры и все кто рядом с юриспруденцией могли работать быстрее, умнее и спокойнее. Наша миссия – «Помогаем людям получать удовольствие от работы». Сейчас у нас активно внедряются ИИ-инструменты. Создаются боты для консультаций и опросов, часто обращаемся к большим моделям чтобы «обстучать» какую-то идею. В этой статье поделюсь историей о том, как эффективно и безопасно использовать ИИ, превратив рутину в решенную задачу. Итак, представьте: вам в руки попадает договор поставки ПО. Не просто договор, а целая книжечка на 50-70 страниц А4. Нужно срочно – за 2-3 дня! – проанализировать его вдоль и поперек: проверить сроки, штрафы, бонусы, риски для вашей компании. Знакомая ситуация для менеджеров, юристов, закупщиков? Дилемма: Выкроить время и вычитать всё дотошно, рискуя не успеть? Или пробежаться по диагонали, надеясь, что глаз «зацепит» опасную формулировку? Соблазн велик: закинуть текст в публичный ИИ-чат (типа ChatGPT или DeepSeek) и спросить: «Эй, ИИ, моя компания ООО «Рога и копыта» – найди всё, что нам невыгодно!» Цена такого «упрощения» может быть огромной. Давайте разберемся, почему это крайне опасно : 1. Конфиденциальность — прощай! Условия договора (а они почти всегда секретны!) отправляются владельцу ИИ-сервиса. Нарушение пункта о неразглашении – гарантировано.

https://habr.com/ru/articles/922132/

#Автоматизация #Анализ #парсинг_контента #ML #ai #legaltech

#автоматизация #анализ #парсинг_контента #ml #ai #legaltech

Habr @[email protected] · 2025-06-06 · 06:22 UTC

Парсим YouTube на Python как для взрослых: отказоустойчивый скрипт с ротацией ключей

Путь разработчика парсеров тернист и сложен, сперва ты пытаешься обойти официальные ограничения, потому что так проще, так нету квот и разных требований. Параллельно мучаясь с Selenium, в попытка угнаться за меняющейся версткой YouTube. Кто-то пишет простые скрипты на requests, которые падают при первой же ошибке. И куда вас все эти действия приводят? Снова ко мне - к официальному YouTube Data API v3 .

https://habr.com/ru/articles/916114/

#парсинг #парсинг_контента #парсинг_сайта #парсинг_данных #парсинг_youtube #youtube_api

#youtube_api #парсинг_youtube #парсинг_данных #парсинг_сайта #парсинг_контента #парсинг

Habr @[email protected] · 2025-03-23 · 18:52 UTC

Топ веб‑парсеров и API-сервисов для сбора данных: сравнение скорости, масштабируемости и обхода защит

Автоматический сбор данных (парсинг, или web scraping) стал неотъемлемой практикой для разработчиков, аналитиков и автоматизаторов. С его помощью получают массовую информацию с сайтов – от цен конкурентов и отзывов до контента соцсетей. Для этого разработано множество “парсеров” – библиотек, фреймворков и облачных сервисов, которые позволяют извлекать веб-данные программно. Одни решения требуются для быстрого парсинга статичных страниц, другие – для обхода сложной JavaScript-навигации, третьи – для получения данных через API. В этой статье я рассмотрю топ инструментов для парсинга – как открытых (Open Source) библиотек, так и коммерческих SaaS/API-сервисов – и сравню их по ключевым метрикам:

https://habr.com/ru/articles/893622/

#парсинг #парсинг_контента #парсеры #парсинг_сайтов #парсинг_json #парсинг_данных #парсинг_html #парсер_сайтов #парсинг_сайта #парсер

#парсер #парсинг_сайта #парсер_сайтов #парсинг_html #парсинг_данных #парсинг_json

Habr @[email protected] · 2024-08-15 · 14:52 UTC

Настройка мониторинга и отслеживания изменений на сайтах

Сложилось так, что в рамках рабочих и бытовых задач появился у меня заветный список ресурсов, которые приходится регулярно мониторить "руками": зашел на сайт, посмотрел изменилось ли то, закрыл. Думаю, многие сталкивались с подобной рутиной и задумывались об автоматизации действий в браузере. Вот и я решил найти удобный, и желательно бесплатный инструмент, способный выполнить все мои задачи.

https://habr.com/ru/articles/836316/

#автоматизация #автоматизация_действий_с_сайтами #мониторинг_изменений #парсинг_сайтов #парсинг_контента

#парсинг_контента #парсинг_сайтов #мониторинг_изменений #автоматизация_действий_с_сайтами #автоматизация

Habr @[email protected] · 2024-05-06 · 12:32 UTC

Кейс: как с помощью парсинга Авито и ЦИАН увеличить эффективность отдела развития крупной ритейл компании на ~27%

Привет! В этом кейсе хочу описать процесс взаимодействие заказчика с поиском новых объявлений по определенным адресам (координатам) по всей России. Суть: необходимо мониторить объявления объектов коммерческой недвижимости (аренда) на Авито и ЦИАН по заданным критериям. Необычность задачи - поиск объявлений в определенном радиусе от изначальной точки координаты. Заказчик: крупнейшая сеть аптек (ввиду коммерческой тайны, раскрыть названия не могу), насчитывающая более 1000 оффлайн-точек по всей России. Для расширения своего присутствия на российском рынке в формате «на каждом шагу», заказчиком было принято решение занимать данный рынок через поиск объявлений об аренде коммерческой недвижимости. Сложность: на 4 менеджеров по развитию внутри компании - приходилось отслеживать более 7000 определенных адресов по всей РФ на наличие новых объектов аренды недвижимости в определенном радиусе (и это только на одном ресурсе). На подобный поиск новых объявлений могло уходить от 2х недель до 3х месяцев. Выходило трудозатратно и неудобно (ну а помимо этого, есть же еще и другие бизнес-процессы). При этом, очень крутые, вкусные объявления, улетали за считанные дни, которые даже могли не попасть в обозрение заказчиком. Читать кейс

https://habr.com/ru/articles/812631/

#парсинг_контента #парсинг_сайтов #парсинг_данных #парсинг

#парсинг #парсинг_данных #парсинг_сайтов #парсинг_контента

Habr @[email protected] · 2024-02-11 · 06:32 UTC

Об одном способе веб-скрапинга сайтов, защищенных Cloudflare

Сразу оговорюсь, что описанное ниже носит исключительно информационно-образовательный характер, и не имеет целью нанесение какого-либо ущерба компаниям, использующим защиту из заголовка статьи. По этим же причинам фокусировка статьи именно на том, как получить заветный html «как из браузера» в автоматизированном режиме, и здесь не будет идти речь о каких-то массовых распараллеливаниях через proxy и VPN, подкладываниях отпечатков (finger prints) браузеров и т. д. Узнать о способе обхода защиты Cloudflare

https://habr.com/ru/articles/792868/

#скрапинг #парсинг_сайтов #парсинг #парсинг_контента #cloudflare #net #c# #seleniumwebdriver #selenium #ozonru

#ozonru #selenium #seleniumwebdriver #c #net #cloudflare

Habr @[email protected] · 2025-11-27 · 06:32 UTC

Парсер, анализ цен и подбор товара с помощью ИИ

Часть 2. Путь от простого поисковика по своей базе до инструмента, с помощью которого можно облегчить себе жизнь при работе с конкурентами/поставщиками, да и в общем отслеживать свою товарную нишу. Меня зовут Евгений. Если вы читали мою первую статью , то знаете, как я, не написав ни строчки профессионального кода, создал с помощью Gemini ИИ-поисковик для нашего сложного ассортимента спецодежды. Это был первый опыт внедрения ИИ в реальные бизнес-процессы. Инструмент заработал, и я мог бы на этом остановиться. Но пытливый ум вел меня дальше. Хотя, в данном случае даже не пытливый ум, а скорее анализ «хотелок» в компании. Вот об этих хотелках и о том, что из этого вышло, я и расскажу. Эта статья — не о решении проблемы, а о расширении возможностей моего инструмента. Это рассказ о том, как мой внутренний инструмент планомерно эволюционировал в мини-платформу Market Intelligence (это название я узнал уже по факту реализации от того же Gemini). В моем случае это связка «Парсер + Подбор по сторонним данным + Анализ цен» . Я хочу не просто поделиться историей, но и на пальцах разобрать логику каждого модуля. Про код рассказывать не буду, так как я не программист, и это в моем случае неуместно. Моя цель — показать, как устроен инструмент, какие бизнес-задачи он решает, и как вы можете применить его в своей нише. В общем, это история о том, как не-программист, вооруженный современным ИИ, может реализовать нужный инструмент. Первая версия моего приложения эффективно решала задачу внутреннего поиска. Она позволяла быстро находить товары по сложным запросам (а иногда и по запросам, рожденным больной фантазией сотрудников), что значительно ускорило работу менеджеров и адаптацию новичков. Есть данные, есть каша в голове неопытного менеджера, нужен результат. Мой инструмент как раз и помогал с этим, работая как замкнутый контур исключительно с нашими внутренними данными.

https://habr.com/ru/articles/970726/

#ии #продажи #парсинг_контента #парсинг_сайтов

Habr @[email protected] · 2025-11-27 · 06:32 UTC

Парсер, анализ цен и подбор товара с помощью ИИ

Часть 2. Путь от простого поисковика по своей базе до инструмента, с помощью которого можно облегчить себе жизнь при работе с конкурентами/поставщиками, да и в общем отслеживать свою товарную нишу. Меня зовут Евгений. Если вы читали мою первую статью , то знаете, как я, не написав ни строчки профессионального кода, создал с помощью Gemini ИИ-поисковик для нашего сложного ассортимента спецодежды. Это был первый опыт внедрения ИИ в реальные бизнес-процессы. Инструмент заработал, и я мог бы на этом остановиться. Но пытливый ум вел меня дальше. Хотя, в данном случае даже не пытливый ум, а скорее анализ «хотелок» в компании. Вот об этих хотелках и о том, что из этого вышло, я и расскажу. Эта статья — не о решении проблемы, а о расширении возможностей моего инструмента. Это рассказ о том, как мой внутренний инструмент планомерно эволюционировал в мини-платформу Market Intelligence (это название я узнал уже по факту реализации от того же Gemini). В моем случае это связка «Парсер + Подбор по сторонним данным + Анализ цен» . Я хочу не просто поделиться историей, но и на пальцах разобрать логику каждого модуля. Про код рассказывать не буду, так как я не программист, и это в моем случае неуместно. Моя цель — показать, как устроен инструмент, какие бизнес-задачи он решает, и как вы можете применить его в своей нише. В общем, это история о том, как не-программист, вооруженный современным ИИ, может реализовать нужный инструмент. Первая версия моего приложения эффективно решала задачу внутреннего поиска. Она позволяла быстро находить товары по сложным запросам (а иногда и по запросам, рожденным больной фантазией сотрудников), что значительно ускорило работу менеджеров и адаптацию новичков. Есть данные, есть каша в голове неопытного менеджера, нужен результат. Мой инструмент как раз и помогал с этим, работая как замкнутый контур исключительно с нашими внутренними данными.

https://habr.com/ru/articles/970726/

#ии #продажи #парсинг_контента #парсинг_сайтов

Habr @[email protected] · 2025-11-27 · 06:32 UTC

Парсер, анализ цен и подбор товара с помощью ИИ

Часть 2. Путь от простого поисковика по своей базе до инструмента, с помощью которого можно облегчить себе жизнь при работе с конкурентами/поставщиками, да и в общем отслеживать свою товарную нишу. Меня зовут Евгений. Если вы читали мою первую статью , то знаете, как я, не написав ни строчки профессионального кода, создал с помощью Gemini ИИ-поисковик для нашего сложного ассортимента спецодежды. Это был первый опыт внедрения ИИ в реальные бизнес-процессы. Инструмент заработал, и я мог бы на этом остановиться. Но пытливый ум вел меня дальше. Хотя, в данном случае даже не пытливый ум, а скорее анализ «хотелок» в компании. Вот об этих хотелках и о том, что из этого вышло, я и расскажу. Эта статья — не о решении проблемы, а о расширении возможностей моего инструмента. Это рассказ о том, как мой внутренний инструмент планомерно эволюционировал в мини-платформу Market Intelligence (это название я узнал уже по факту реализации от того же Gemini). В моем случае это связка «Парсер + Подбор по сторонним данным + Анализ цен» . Я хочу не просто поделиться историей, но и на пальцах разобрать логику каждого модуля. Про код рассказывать не буду, так как я не программист, и это в моем случае неуместно. Моя цель — показать, как устроен инструмент, какие бизнес-задачи он решает, и как вы можете применить его в своей нише. В общем, это история о том, как не-программист, вооруженный современным ИИ, может реализовать нужный инструмент. Первая версия моего приложения эффективно решала задачу внутреннего поиска. Она позволяла быстро находить товары по сложным запросам (а иногда и по запросам, рожденным больной фантазией сотрудников), что значительно ускорило работу менеджеров и адаптацию новичков. Есть данные, есть каша в голове неопытного менеджера, нужен результат. Мой инструмент как раз и помогал с этим, работая как замкнутый контур исключительно с нашими внутренними данными.

https://habr.com/ru/articles/970726/

#ии #продажи #парсинг_контента #парсинг_сайтов

#парсинг_сайтов #парсинг_контента #продажи #ии

Habr @[email protected] · 2025-03-23 · 18:52 UTC

Топ веб‑парсеров и API-сервисов для сбора данных: сравнение скорости, масштабируемости и обхода защит

Автоматический сбор данных (парсинг, или web scraping) стал неотъемлемой практикой для разработчиков, аналитиков и автоматизаторов. С его помощью получают массовую информацию с сайтов – от цен конкурентов и отзывов до контента соцсетей. Для этого разработано множество “парсеров” – библиотек, фреймворков и облачных сервисов, которые позволяют извлекать веб-данные программно. Одни решения требуются для быстрого парсинга статичных страниц, другие – для обхода сложной JavaScript-навигации, третьи – для получения данных через API. В этой статье я рассмотрю топ инструментов для парсинга – как открытых (Open Source) библиотек, так и коммерческих SaaS/API-сервисов – и сравню их по ключевым метрикам:

https://habr.com/ru/articles/893622/

#парсинг #парсинг_контента #парсеры #парсинг_сайтов #парсинг_json #парсинг_данных #парсинг_html #парсер_сайтов #парсинг_сайта #парсер

#парсер #парсинг_сайта #парсер_сайтов #парсинг_html #парсинг_данных #парсинг_json

Habr @[email protected] · 2025-03-23 · 18:52 UTC

Топ веб‑парсеров и API-сервисов для сбора данных: сравнение скорости, масштабируемости и обхода защит

Автоматический сбор данных (парсинг, или web scraping) стал неотъемлемой практикой для разработчиков, аналитиков и автоматизаторов. С его помощью получают массовую информацию с сайтов – от цен конкурентов и отзывов до контента соцсетей. Для этого разработано множество “парсеров” – библиотек, фреймворков и облачных сервисов, которые позволяют извлекать веб-данные программно. Одни решения требуются для быстрого парсинга статичных страниц, другие – для обхода сложной JavaScript-навигации, третьи – для получения данных через API. В этой статье я рассмотрю топ инструментов для парсинга – как открытых (Open Source) библиотек, так и коммерческих SaaS/API-сервисов – и сравню их по ключевым метрикам:

https://habr.com/ru/articles/893622/

#парсинг #парсинг_контента #парсеры #парсинг_сайтов #парсинг_json #парсинг_данных #парсинг_html #парсер_сайтов #парсинг_сайта #парсер

#парсер #парсинг_сайта #парсер_сайтов #парсинг_html #парсинг_данных #парсинг_json

Habr @[email protected] · 2025-03-23 · 18:52 UTC

Топ веб‑парсеров и API-сервисов для сбора данных: сравнение скорости, масштабируемости и обхода защит

Автоматический сбор данных (парсинг, или web scraping) стал неотъемлемой практикой для разработчиков, аналитиков и автоматизаторов. С его помощью получают массовую информацию с сайтов – от цен конкурентов и отзывов до контента соцсетей. Для этого разработано множество “парсеров” – библиотек, фреймворков и облачных сервисов, которые позволяют извлекать веб-данные программно. Одни решения требуются для быстрого парсинга статичных страниц, другие – для обхода сложной JavaScript-навигации, третьи – для получения данных через API. В этой статье я рассмотрю топ инструментов для парсинга – как открытых (Open Source) библиотек, так и коммерческих SaaS/API-сервисов – и сравню их по ключевым метрикам:

https://habr.com/ru/articles/893622/

#парсинг #парсинг_контента #парсеры #парсинг_сайтов #парсинг_json #парсинг_данных #парсинг_html #парсер_сайтов #парсинг_сайта #парсер

#парсинг #парсинг_контента #парсеры #парсинг_сайтов #парсинг_json #парсинг_данных

Habr @[email protected] · 2024-08-15 · 14:52 UTC

Настройка мониторинга и отслеживания изменений на сайтах

Сложилось так, что в рамках рабочих и бытовых задач появился у меня заветный список ресурсов, которые приходится регулярно мониторить "руками": зашел на сайт, посмотрел изменилось ли то, закрыл. Думаю, многие сталкивались с подобной рутиной и задумывались об автоматизации действий в браузере. Вот и я решил найти удобный, и желательно бесплатный инструмент, способный выполнить все мои задачи.

https://habr.com/ru/articles/836316/

#автоматизация #автоматизация_действий_с_сайтами #мониторинг_изменений #парсинг_сайтов #парсинг_контента

#парсинг_контента #парсинг_сайтов #мониторинг_изменений #автоматизация_действий_с_сайтами #автоматизация

Habr @[email protected] · 2024-08-15 · 14:52 UTC

Настройка мониторинга и отслеживания изменений на сайтах

Сложилось так, что в рамках рабочих и бытовых задач появился у меня заветный список ресурсов, которые приходится регулярно мониторить "руками": зашел на сайт, посмотрел изменилось ли то, закрыл. Думаю, многие сталкивались с подобной рутиной и задумывались об автоматизации действий в браузере. Вот и я решил найти удобный, и желательно бесплатный инструмент, способный выполнить все мои задачи.

https://habr.com/ru/articles/836316/

#автоматизация #автоматизация_действий_с_сайтами #мониторинг_изменений #парсинг_сайтов #парсинг_контента

Habr @[email protected] · 2024-05-06 · 12:32 UTC

Кейс: как с помощью парсинга Авито и ЦИАН увеличить эффективность отдела развития крупной ритейл компании на ~27%

Привет! В этом кейсе хочу описать процесс взаимодействие заказчика с поиском новых объявлений по определенным адресам (координатам) по всей России. Суть: необходимо мониторить объявления объектов коммерческой недвижимости (аренда) на Авито и ЦИАН по заданным критериям. Необычность задачи - поиск объявлений в определенном радиусе от изначальной точки координаты. Заказчик: крупнейшая сеть аптек (ввиду коммерческой тайны, раскрыть названия не могу), насчитывающая более 1000 оффлайн-точек по всей России. Для расширения своего присутствия на российском рынке в формате «на каждом шагу», заказчиком было принято решение занимать данный рынок через поиск объявлений об аренде коммерческой недвижимости. Сложность: на 4 менеджеров по развитию внутри компании - приходилось отслеживать более 7000 определенных адресов по всей РФ на наличие новых объектов аренды недвижимости в определенном радиусе (и это только на одном ресурсе). На подобный поиск новых объявлений могло уходить от 2х недель до 3х месяцев. Выходило трудозатратно и неудобно (ну а помимо этого, есть же еще и другие бизнес-процессы). При этом, очень крутые, вкусные объявления, улетали за считанные дни, которые даже могли не попасть в обозрение заказчиком. Читать кейс

https://habr.com/ru/articles/812631/

#парсинг_контента #парсинг_сайтов #парсинг_данных #парсинг

#парсинг #парсинг_данных #парсинг_сайтов #парсинг_контента

Habr @[email protected] · 2024-05-06 · 12:32 UTC

Кейс: как с помощью парсинга Авито и ЦИАН увеличить эффективность отдела развития крупной ритейл компании на ~27%

Привет! В этом кейсе хочу описать процесс взаимодействие заказчика с поиском новых объявлений по определенным адресам (координатам) по всей России. Суть: необходимо мониторить объявления объектов коммерческой недвижимости (аренда) на Авито и ЦИАН по заданным критериям. Необычность задачи - поиск объявлений в определенном радиусе от изначальной точки координаты. Заказчик: крупнейшая сеть аптек (ввиду коммерческой тайны, раскрыть названия не могу), насчитывающая более 1000 оффлайн-точек по всей России. Для расширения своего присутствия на российском рынке в формате «на каждом шагу», заказчиком было принято решение занимать данный рынок через поиск объявлений об аренде коммерческой недвижимости. Сложность: на 4 менеджеров по развитию внутри компании - приходилось отслеживать более 7000 определенных адресов по всей РФ на наличие новых объектов аренды недвижимости в определенном радиусе (и это только на одном ресурсе). На подобный поиск новых объявлений могло уходить от 2х недель до 3х месяцев. Выходило трудозатратно и неудобно (ну а помимо этого, есть же еще и другие бизнес-процессы). При этом, очень крутые, вкусные объявления, улетали за считанные дни, которые даже могли не попасть в обозрение заказчиком. Читать кейс

https://habr.com/ru/articles/812631/

#парсинг_контента #парсинг_сайтов #парсинг_данных #парсинг

#парсинг #парсинг_данных #парсинг_сайтов #парсинг_контента

Habr @[email protected] · 2024-05-06 · 12:32 UTC

Кейс: как с помощью парсинга Авито и ЦИАН увеличить эффективность отдела развития крупной ритейл компании на ~27%

Привет! В этом кейсе хочу описать процесс взаимодействие заказчика с поиском новых объявлений по определенным адресам (координатам) по всей России. Суть: необходимо мониторить объявления объектов коммерческой недвижимости (аренда) на Авито и ЦИАН по заданным критериям. Необычность задачи - поиск объявлений в определенном радиусе от изначальной точки координаты. Заказчик: крупнейшая сеть аптек (ввиду коммерческой тайны, раскрыть названия не могу), насчитывающая более 1000 оффлайн-точек по всей России. Для расширения своего присутствия на российском рынке в формате «на каждом шагу», заказчиком было принято решение занимать данный рынок через поиск объявлений об аренде коммерческой недвижимости. Сложность: на 4 менеджеров по развитию внутри компании - приходилось отслеживать более 7000 определенных адресов по всей РФ на наличие новых объектов аренды недвижимости в определенном радиусе (и это только на одном ресурсе). На подобный поиск новых объявлений могло уходить от 2х недель до 3х месяцев. Выходило трудозатратно и неудобно (ну а помимо этого, есть же еще и другие бизнес-процессы). При этом, очень крутые, вкусные объявления, улетали за считанные дни, которые даже могли не попасть в обозрение заказчиком. Читать кейс

https://habr.com/ru/articles/812631/

#парсинг_контента #парсинг_сайтов #парсинг_данных #парсинг

Habr @[email protected] · 2024-02-11 · 06:32 UTC

Об одном способе веб-скрапинга сайтов, защищенных Cloudflare

Сразу оговорюсь, что описанное ниже носит исключительно информационно-образовательный характер, и не имеет целью нанесение какого-либо ущерба компаниям, использующим защиту из заголовка статьи. По этим же причинам фокусировка статьи именно на том, как получить заветный html «как из браузера» в автоматизированном режиме, и здесь не будет идти речь о каких-то массовых распараллеливаниях через proxy и VPN, подкладываниях отпечатков (finger prints) браузеров и т. д. Узнать о способе обхода защиты Cloudflare

https://habr.com/ru/articles/792868/

#скрапинг #парсинг_сайтов #парсинг #парсинг_контента #cloudflare #net #c# #seleniumwebdriver #selenium #ozonru

#ozonru #selenium #seleniumwebdriver #c #net #cloudflare