#парсинг_сайтов — Public Fediverse posts on home.social

Habr @[email protected] · 2026-05-13 · 10:32 UTC

Сбор сведений из открытых источников: почему это рискованно, если выкачивается информация из чужих баз данных?

Собрать информацию о человеке или продукте с использованием высоких технологий стало делом техники. В прямом и переносном смысле слова. Однако такое выкачивание данных может стать поводом для судебного разбирательства. Почему это происходит — далее в материале.

https://habr.com/ru/companies/onlinepatent/articles/1034644/

#базы_данных #база_дынных #парсинг #парсинг_контента #парсинг_сайтов #парсинг_сайта #парсинг_данных #защита_данных #защита_данных_пользователей #законодательство

#законодательство #защита_данных_пользователей #защита_данных #парсинг_данных #парсинг_сайта #парсинг_сайтов

Habr @[email protected] · 2026-05-13 · 10:32 UTC

Сбор сведений из открытых источников: почему это рискованно, если выкачивается информация из чужих баз данных?

Собрать информацию о человеке или продукте с использованием высоких технологий стало делом техники. В прямом и переносном смысле слова. Однако такое выкачивание данных может стать поводом для судебного разбирательства. Почему это происходит — далее в материале.

https://habr.com/ru/companies/onlinepatent/articles/1034644/

#базы_данных #база_дынных #парсинг #парсинг_контента #парсинг_сайтов #парсинг_сайта #парсинг_данных #защита_данных #защита_данных_пользователей #законодательство

#законодательство #защита_данных_пользователей #защита_данных #парсинг_данных #парсинг_сайта #парсинг_сайтов

Habr @[email protected] · 2026-05-13 · 10:32 UTC

Сбор сведений из открытых источников: почему это рискованно, если выкачивается информация из чужих баз данных?

Собрать информацию о человеке или продукте с использованием высоких технологий стало делом техники. В прямом и переносном смысле слова. Однако такое выкачивание данных может стать поводом для судебного разбирательства. Почему это происходит — далее в материале.

https://habr.com/ru/companies/onlinepatent/articles/1034644/

#базы_данных #база_дынных #парсинг #парсинг_контента #парсинг_сайтов #парсинг_сайта #парсинг_данных #защита_данных #защита_данных_пользователей #законодательство

#законодательство #защита_данных_пользователей #защита_данных #парсинг_данных #парсинг_сайта #парсинг_сайтов

Habr @[email protected] · 2026-05-13 · 10:32 UTC

Сбор сведений из открытых источников: почему это рискованно, если выкачивается информация из чужих баз данных?

Собрать информацию о человеке или продукте с использованием высоких технологий стало делом техники. В прямом и переносном смысле слова. Однако такое выкачивание данных может стать поводом для судебного разбирательства. Почему это происходит — далее в материале.

https://habr.com/ru/companies/onlinepatent/articles/1034644/

#базы_данных #база_дынных #парсинг #парсинг_контента #парсинг_сайтов #парсинг_сайта #парсинг_данных #защита_данных #защита_данных_пользователей #законодательство

#базы_данных #база_дынных #парсинг #парсинг_контента #парсинг_сайтов #парсинг_сайта

Habr @[email protected] · 2026-05-07 · 06:52 UTC

Основы парсинга сайтов: от HTML до готового датасета для NLP

Даже сильная NLP‑модель быстро упирается в банальную проблему: ей нужны данные, причём не абстрактные «готовые датасеты», а тексты под конкретную задачу, домен и гипотезу. В статье разберём базовый путь от HTML‑страницы до пригодного корпуса: как получать данные через HTTP‑запросы, доставать нужные элементы с помощью BeautifulSoup, работать с CSS‑селекторами, подключать Playwright для динамических сайтов и очищать сырой веб‑текст так, чтобы его уже можно было использовать в NLP‑пайплайне.

https://habr.com/ru/companies/otus/articles/1029766/

#парсинг_сайтов #Python #HTML #BeautifulSoup #requests #Playwright #NLP #датасет #очистка_данных #языковые_модели

#языковые_модели #очистка_данных #датасет #nlp #playwright #requests

Habr @[email protected] · 2026-05-07 · 06:52 UTC

Основы парсинга сайтов: от HTML до готового датасета для NLP

Даже сильная NLP‑модель быстро упирается в банальную проблему: ей нужны данные, причём не абстрактные «готовые датасеты», а тексты под конкретную задачу, домен и гипотезу. В статье разберём базовый путь от HTML‑страницы до пригодного корпуса: как получать данные через HTTP‑запросы, доставать нужные элементы с помощью BeautifulSoup, работать с CSS‑селекторами, подключать Playwright для динамических сайтов и очищать сырой веб‑текст так, чтобы его уже можно было использовать в NLP‑пайплайне.

https://habr.com/ru/companies/otus/articles/1029766/

#парсинг_сайтов #Python #HTML #BeautifulSoup #requests #Playwright #NLP #датасет #очистка_данных #языковые_модели

#языковые_модели #очистка_данных #датасет #nlp #playwright #requests

Habr @[email protected] · 2026-05-07 · 06:52 UTC

Основы парсинга сайтов: от HTML до готового датасета для NLP

Даже сильная NLP‑модель быстро упирается в банальную проблему: ей нужны данные, причём не абстрактные «готовые датасеты», а тексты под конкретную задачу, домен и гипотезу. В статье разберём базовый путь от HTML‑страницы до пригодного корпуса: как получать данные через HTTP‑запросы, доставать нужные элементы с помощью BeautifulSoup, работать с CSS‑селекторами, подключать Playwright для динамических сайтов и очищать сырой веб‑текст так, чтобы его уже можно было использовать в NLP‑пайплайне.

https://habr.com/ru/companies/otus/articles/1029766/

#парсинг_сайтов #Python #HTML #BeautifulSoup #requests #Playwright #NLP #датасет #очистка_данных #языковые_модели

#языковые_модели #очистка_данных #датасет #nlp #playwright #requests

Habr @[email protected] · 2026-05-07 · 06:52 UTC

Основы парсинга сайтов: от HTML до готового датасета для NLP

Даже сильная NLP‑модель быстро упирается в банальную проблему: ей нужны данные, причём не абстрактные «готовые датасеты», а тексты под конкретную задачу, домен и гипотезу. В статье разберём базовый путь от HTML‑страницы до пригодного корпуса: как получать данные через HTTP‑запросы, доставать нужные элементы с помощью BeautifulSoup, работать с CSS‑селекторами, подключать Playwright для динамических сайтов и очищать сырой веб‑текст так, чтобы его уже можно было использовать в NLP‑пайплайне.

https://habr.com/ru/companies/otus/articles/1029766/

#парсинг_сайтов #Python #HTML #BeautifulSoup #requests #Playwright #NLP #датасет #очистка_данных #языковые_модели

#парсинг_сайтов #python #html #beautifulsoup #requests #playwright

Habr @[email protected] · 2026-03-13 · 17:32 UTC

Как обнаружить заказной негатив с помощью скриптов

По данным Data Insight 30% отказов от покупок связано с заказным негативом. Раньше ботов вычисляли по шаблонным фразам, но сейчас спамеры массово генерируют жалобы через LLM. Модерация геосервисов пропускает такой контент. Формально отзывы уникальны и не нарушают правила площадок. Ручная проверка тысяч комментариев требует десятков часов работы аналитика и не исключает человеческий фактор. Визуально отличить качественный фейк от мнения реального клиента стало невозможно. Противостоять генеративным сетям можно только программными методами. Автоматизировать поиск аномалий в поведении пользователей помогают скрипты на Python. Этот контур защиты включает парсинг данных с обходом лимитов API, вычисление временных выбросов через Z-оценку и семантический анализ текстов с учетом морфологии русского языка (через библиотеку Natasha ). Это базовый алгоритм, который позволяет перевести защиту репутации из ручной разметки в измеримый технический процесс.

https://habr.com/ru/articles/1010014/

#python #zscore #machine_learning #анализ_отзывов #боты #антифрод #репутация #фейковые_отзывы #геосервисы #парсинг_сайтов

#python #zscore #machine_learning #анализ_отзывов #боты #антифрод

Habr @[email protected] · 2026-03-13 · 17:32 UTC

Как обнаружить заказной негатив с помощью скриптов

По данным Data Insight 30% отказов от покупок связано с заказным негативом. Раньше ботов вычисляли по шаблонным фразам, но сейчас спамеры массово генерируют жалобы через LLM. Модерация геосервисов пропускает такой контент. Формально отзывы уникальны и не нарушают правила площадок. Ручная проверка тысяч комментариев требует десятков часов работы аналитика и не исключает человеческий фактор. Визуально отличить качественный фейк от мнения реального клиента стало невозможно. Противостоять генеративным сетям можно только программными методами. Автоматизировать поиск аномалий в поведении пользователей помогают скрипты на Python. Этот контур защиты включает парсинг данных с обходом лимитов API, вычисление временных выбросов через Z-оценку и семантический анализ текстов с учетом морфологии русского языка (через библиотеку Natasha ). Это базовый алгоритм, который позволяет перевести защиту репутации из ручной разметки в измеримый технический процесс.

https://habr.com/ru/articles/1010014/

#python #zscore #machine_learning #анализ_отзывов #боты #антифрод #репутация #фейковые_отзывы #геосервисы #парсинг_сайтов

#python #zscore #machine_learning #анализ_отзывов #боты #антифрод

Habr @[email protected] · 2026-03-13 · 17:32 UTC

Как обнаружить заказной негатив с помощью скриптов

По данным Data Insight 30% отказов от покупок связано с заказным негативом. Раньше ботов вычисляли по шаблонным фразам, но сейчас спамеры массово генерируют жалобы через LLM. Модерация геосервисов пропускает такой контент. Формально отзывы уникальны и не нарушают правила площадок. Ручная проверка тысяч комментариев требует десятков часов работы аналитика и не исключает человеческий фактор. Визуально отличить качественный фейк от мнения реального клиента стало невозможно. Противостоять генеративным сетям можно только программными методами. Автоматизировать поиск аномалий в поведении пользователей помогают скрипты на Python. Этот контур защиты включает парсинг данных с обходом лимитов API, вычисление временных выбросов через Z-оценку и семантический анализ текстов с учетом морфологии русского языка (через библиотеку Natasha ). Это базовый алгоритм, который позволяет перевести защиту репутации из ручной разметки в измеримый технический процесс.

https://habr.com/ru/articles/1010014/

#python #zscore #machine_learning #анализ_отзывов #боты #антифрод #репутация #фейковые_отзывы #геосервисы #парсинг_сайтов

#python #zscore #machine_learning #анализ_отзывов #боты #антифрод

Habr @[email protected] · 2026-03-13 · 17:32 UTC

Как обнаружить заказной негатив с помощью скриптов

По данным Data Insight 30% отказов от покупок связано с заказным негативом. Раньше ботов вычисляли по шаблонным фразам, но сейчас спамеры массово генерируют жалобы через LLM. Модерация геосервисов пропускает такой контент. Формально отзывы уникальны и не нарушают правила площадок. Ручная проверка тысяч комментариев требует десятков часов работы аналитика и не исключает человеческий фактор. Визуально отличить качественный фейк от мнения реального клиента стало невозможно. Противостоять генеративным сетям можно только программными методами. Автоматизировать поиск аномалий в поведении пользователей помогают скрипты на Python. Этот контур защиты включает парсинг данных с обходом лимитов API, вычисление временных выбросов через Z-оценку и семантический анализ текстов с учетом морфологии русского языка (через библиотеку Natasha ). Это базовый алгоритм, который позволяет перевести защиту репутации из ручной разметки в измеримый технический процесс.

https://habr.com/ru/articles/1010014/

#python #zscore #machine_learning #анализ_отзывов #боты #антифрод #репутация #фейковые_отзывы #геосервисы #парсинг_сайтов

#парсинг_сайтов #геосервисы #фейковые_отзывы #репутация #антифрод #боты

Habr @[email protected] · 2026-02-14 · 08:12 UTC

Небольшой тест LLM‑модели qwen3‑coder‑next:q8_0

Тест LLM‑модели qwen3‑coder‑next:q8_0: модель успешно построила карту большого форума, собрала все сообщения в JSON и преобразовала их в готовый SQL‑дайджест, показав высокое качество генерации кода, но «залипла» при решении чисто логической задачи.

https://habr.com/ru/articles/996486/

#llm #llmмодели #llm_код #кодингагенты #парсинг_контента #парсинг_сайтов #парсинг_html

#парсинг_html #парсинг_сайтов #парсинг_контента #кодингагенты #llm_код #llmмодели

Habr @[email protected] · 2026-02-14 · 08:12 UTC

Небольшой тест LLM‑модели qwen3‑coder‑next:q8_0

Тест LLM‑модели qwen3‑coder‑next:q8_0: модель успешно построила карту большого форума, собрала все сообщения в JSON и преобразовала их в готовый SQL‑дайджест, показав высокое качество генерации кода, но «залипла» при решении чисто логической задачи.

https://habr.com/ru/articles/996486/

#llm #llmмодели #llm_код #кодингагенты #парсинг_контента #парсинг_сайтов #парсинг_html

#парсинг_html #парсинг_сайтов #парсинг_контента #кодингагенты #llm_код #llmмодели

Habr @[email protected] · 2026-02-14 · 08:12 UTC

Небольшой тест LLM‑модели qwen3‑coder‑next:q8_0

Тест LLM‑модели qwen3‑coder‑next:q8_0: модель успешно построила карту большого форума, собрала все сообщения в JSON и преобразовала их в готовый SQL‑дайджест, показав высокое качество генерации кода, но «залипла» при решении чисто логической задачи.

https://habr.com/ru/articles/996486/

#llm #llmмодели #llm_код #кодингагенты #парсинг_контента #парсинг_сайтов #парсинг_html

#парсинг_html #парсинг_сайтов #парсинг_контента #кодингагенты #llm_код #llmмодели

Habr @[email protected] · 2026-02-14 · 08:12 UTC

Небольшой тест LLM‑модели qwen3‑coder‑next:q8_0

Тест LLM‑модели qwen3‑coder‑next:q8_0: модель успешно построила карту большого форума, собрала все сообщения в JSON и преобразовала их в готовый SQL‑дайджест, показав высокое качество генерации кода, но «залипла» при решении чисто логической задачи.

https://habr.com/ru/articles/996486/

#llm #llmмодели #llm_код #кодингагенты #парсинг_контента #парсинг_сайтов #парсинг_html

#llm #llmмодели #llm_код #кодингагенты #парсинг_контента #парсинг_сайтов

Habr @[email protected] · 2026-01-26 · 10:22 UTC

Google против SerpApi: юридический фронт войны за обучающие выборки и «невидимая» защита SearchGuard

В декабре 2025 года Google подала иск против компании SerpApi, специализирующейся на сборе данных (парсинге) из результатов поиска. Google обвиняет ответчика в использовании сотен миллионов «поддельных» запросов для бесплатного доступа к лицензионному контенту. Для сообщества это дело интересно не только как очередной юридический спор, но и как глубокий разбор того, как Google защищает свой «ров» из данных в эпоху генеративного ИИ. Постепенно процесс обрастает деталями: от участия OpenAI в качестве клиента SerpApi до технических подробностей работы системы SearchGuard.

https://habr.com/ru/companies/finam_broker/articles/989006/

#google #open_ai #парсинг #парсинг_контента #парсинг_сайтов #антифрод #dmca #serpapi #судебный_процесс

#судебный_процесс #serpapi #dmca #антифрод #парсинг_сайтов #парсинг_контента

Habr @[email protected] · 2026-01-26 · 10:22 UTC

Google против SerpApi: юридический фронт войны за обучающие выборки и «невидимая» защита SearchGuard

В декабре 2025 года Google подала иск против компании SerpApi, специализирующейся на сборе данных (парсинге) из результатов поиска. Google обвиняет ответчика в использовании сотен миллионов «поддельных» запросов для бесплатного доступа к лицензионному контенту. Для сообщества это дело интересно не только как очередной юридический спор, но и как глубокий разбор того, как Google защищает свой «ров» из данных в эпоху генеративного ИИ. Постепенно процесс обрастает деталями: от участия OpenAI в качестве клиента SerpApi до технических подробностей работы системы SearchGuard.

https://habr.com/ru/companies/finam_broker/articles/989006/

#google #open_ai #парсинг #парсинг_контента #парсинг_сайтов #антифрод #dmca #serpapi #судебный_процесс

#судебный_процесс #serpapi #dmca #антифрод #парсинг_сайтов #парсинг_контента

Habr @[email protected] · 2026-01-26 · 10:22 UTC

Google против SerpApi: юридический фронт войны за обучающие выборки и «невидимая» защита SearchGuard

В декабре 2025 года Google подала иск против компании SerpApi, специализирующейся на сборе данных (парсинге) из результатов поиска. Google обвиняет ответчика в использовании сотен миллионов «поддельных» запросов для бесплатного доступа к лицензионному контенту. Для сообщества это дело интересно не только как очередной юридический спор, но и как глубокий разбор того, как Google защищает свой «ров» из данных в эпоху генеративного ИИ. Постепенно процесс обрастает деталями: от участия OpenAI в качестве клиента SerpApi до технических подробностей работы системы SearchGuard.

https://habr.com/ru/companies/finam_broker/articles/989006/

#google #open_ai #парсинг #парсинг_контента #парсинг_сайтов #антифрод #dmca #serpapi #судебный_процесс

#судебный_процесс #serpapi #dmca #антифрод #парсинг_сайтов #парсинг_контента

Habr @[email protected] · 2026-01-26 · 10:22 UTC

Google против SerpApi: юридический фронт войны за обучающие выборки и «невидимая» защита SearchGuard

В декабре 2025 года Google подала иск против компании SerpApi, специализирующейся на сборе данных (парсинге) из результатов поиска. Google обвиняет ответчика в использовании сотен миллионов «поддельных» запросов для бесплатного доступа к лицензионному контенту. Для сообщества это дело интересно не только как очередной юридический спор, но и как глубокий разбор того, как Google защищает свой «ров» из данных в эпоху генеративного ИИ. Постепенно процесс обрастает деталями: от участия OpenAI в качестве клиента SerpApi до технических подробностей работы системы SearchGuard.

https://habr.com/ru/companies/finam_broker/articles/989006/

#google #open_ai #парсинг #парсинг_контента #парсинг_сайтов #антифрод #dmca #serpapi #судебный_процесс

#google #open_ai #парсинг #парсинг_контента #парсинг_сайтов #антифрод

Habr @[email protected] · 2025-11-27 · 06:32 UTC

Парсер, анализ цен и подбор товара с помощью ИИ

Часть 2. Путь от простого поисковика по своей базе до инструмента, с помощью которого можно облегчить себе жизнь при работе с конкурентами/поставщиками, да и в общем отслеживать свою товарную нишу. Меня зовут Евгений. Если вы читали мою первую статью , то знаете, как я, не написав ни строчки профессионального кода, создал с помощью Gemini ИИ-поисковик для нашего сложного ассортимента спецодежды. Это был первый опыт внедрения ИИ в реальные бизнес-процессы. Инструмент заработал, и я мог бы на этом остановиться. Но пытливый ум вел меня дальше. Хотя, в данном случае даже не пытливый ум, а скорее анализ «хотелок» в компании. Вот об этих хотелках и о том, что из этого вышло, я и расскажу. Эта статья — не о решении проблемы, а о расширении возможностей моего инструмента. Это рассказ о том, как мой внутренний инструмент планомерно эволюционировал в мини-платформу Market Intelligence (это название я узнал уже по факту реализации от того же Gemini). В моем случае это связка «Парсер + Подбор по сторонним данным + Анализ цен» . Я хочу не просто поделиться историей, но и на пальцах разобрать логику каждого модуля. Про код рассказывать не буду, так как я не программист, и это в моем случае неуместно. Моя цель — показать, как устроен инструмент, какие бизнес-задачи он решает, и как вы можете применить его в своей нише. В общем, это история о том, как не-программист, вооруженный современным ИИ, может реализовать нужный инструмент. Первая версия моего приложения эффективно решала задачу внутреннего поиска. Она позволяла быстро находить товары по сложным запросам (а иногда и по запросам, рожденным больной фантазией сотрудников), что значительно ускорило работу менеджеров и адаптацию новичков. Есть данные, есть каша в голове неопытного менеджера, нужен результат. Мой инструмент как раз и помогал с этим, работая как замкнутый контур исключительно с нашими внутренними данными.

https://habr.com/ru/articles/970726/

#ии #продажи #парсинг_контента #парсинг_сайтов

Habr @[email protected] · 2025-11-27 · 06:32 UTC

Парсер, анализ цен и подбор товара с помощью ИИ

Часть 2. Путь от простого поисковика по своей базе до инструмента, с помощью которого можно облегчить себе жизнь при работе с конкурентами/поставщиками, да и в общем отслеживать свою товарную нишу. Меня зовут Евгений. Если вы читали мою первую статью , то знаете, как я, не написав ни строчки профессионального кода, создал с помощью Gemini ИИ-поисковик для нашего сложного ассортимента спецодежды. Это был первый опыт внедрения ИИ в реальные бизнес-процессы. Инструмент заработал, и я мог бы на этом остановиться. Но пытливый ум вел меня дальше. Хотя, в данном случае даже не пытливый ум, а скорее анализ «хотелок» в компании. Вот об этих хотелках и о том, что из этого вышло, я и расскажу. Эта статья — не о решении проблемы, а о расширении возможностей моего инструмента. Это рассказ о том, как мой внутренний инструмент планомерно эволюционировал в мини-платформу Market Intelligence (это название я узнал уже по факту реализации от того же Gemini). В моем случае это связка «Парсер + Подбор по сторонним данным + Анализ цен» . Я хочу не просто поделиться историей, но и на пальцах разобрать логику каждого модуля. Про код рассказывать не буду, так как я не программист, и это в моем случае неуместно. Моя цель — показать, как устроен инструмент, какие бизнес-задачи он решает, и как вы можете применить его в своей нише. В общем, это история о том, как не-программист, вооруженный современным ИИ, может реализовать нужный инструмент. Первая версия моего приложения эффективно решала задачу внутреннего поиска. Она позволяла быстро находить товары по сложным запросам (а иногда и по запросам, рожденным больной фантазией сотрудников), что значительно ускорило работу менеджеров и адаптацию новичков. Есть данные, есть каша в голове неопытного менеджера, нужен результат. Мой инструмент как раз и помогал с этим, работая как замкнутый контур исключительно с нашими внутренними данными.

https://habr.com/ru/articles/970726/

#ии #продажи #парсинг_контента #парсинг_сайтов

Habr @[email protected] · 2025-11-27 · 06:32 UTC

Парсер, анализ цен и подбор товара с помощью ИИ

Часть 2. Путь от простого поисковика по своей базе до инструмента, с помощью которого можно облегчить себе жизнь при работе с конкурентами/поставщиками, да и в общем отслеживать свою товарную нишу. Меня зовут Евгений. Если вы читали мою первую статью , то знаете, как я, не написав ни строчки профессионального кода, создал с помощью Gemini ИИ-поисковик для нашего сложного ассортимента спецодежды. Это был первый опыт внедрения ИИ в реальные бизнес-процессы. Инструмент заработал, и я мог бы на этом остановиться. Но пытливый ум вел меня дальше. Хотя, в данном случае даже не пытливый ум, а скорее анализ «хотелок» в компании. Вот об этих хотелках и о том, что из этого вышло, я и расскажу. Эта статья — не о решении проблемы, а о расширении возможностей моего инструмента. Это рассказ о том, как мой внутренний инструмент планомерно эволюционировал в мини-платформу Market Intelligence (это название я узнал уже по факту реализации от того же Gemini). В моем случае это связка «Парсер + Подбор по сторонним данным + Анализ цен» . Я хочу не просто поделиться историей, но и на пальцах разобрать логику каждого модуля. Про код рассказывать не буду, так как я не программист, и это в моем случае неуместно. Моя цель — показать, как устроен инструмент, какие бизнес-задачи он решает, и как вы можете применить его в своей нише. В общем, это история о том, как не-программист, вооруженный современным ИИ, может реализовать нужный инструмент. Первая версия моего приложения эффективно решала задачу внутреннего поиска. Она позволяла быстро находить товары по сложным запросам (а иногда и по запросам, рожденным больной фантазией сотрудников), что значительно ускорило работу менеджеров и адаптацию новичков. Есть данные, есть каша в голове неопытного менеджера, нужен результат. Мой инструмент как раз и помогал с этим, работая как замкнутый контур исключительно с нашими внутренними данными.

https://habr.com/ru/articles/970726/

#ии #продажи #парсинг_контента #парсинг_сайтов

Habr @[email protected] · 2025-11-27 · 06:32 UTC

Парсер, анализ цен и подбор товара с помощью ИИ

Часть 2. Путь от простого поисковика по своей базе до инструмента, с помощью которого можно облегчить себе жизнь при работе с конкурентами/поставщиками, да и в общем отслеживать свою товарную нишу. Меня зовут Евгений. Если вы читали мою первую статью , то знаете, как я, не написав ни строчки профессионального кода, создал с помощью Gemini ИИ-поисковик для нашего сложного ассортимента спецодежды. Это был первый опыт внедрения ИИ в реальные бизнес-процессы. Инструмент заработал, и я мог бы на этом остановиться. Но пытливый ум вел меня дальше. Хотя, в данном случае даже не пытливый ум, а скорее анализ «хотелок» в компании. Вот об этих хотелках и о том, что из этого вышло, я и расскажу. Эта статья — не о решении проблемы, а о расширении возможностей моего инструмента. Это рассказ о том, как мой внутренний инструмент планомерно эволюционировал в мини-платформу Market Intelligence (это название я узнал уже по факту реализации от того же Gemini). В моем случае это связка «Парсер + Подбор по сторонним данным + Анализ цен» . Я хочу не просто поделиться историей, но и на пальцах разобрать логику каждого модуля. Про код рассказывать не буду, так как я не программист, и это в моем случае неуместно. Моя цель — показать, как устроен инструмент, какие бизнес-задачи он решает, и как вы можете применить его в своей нише. В общем, это история о том, как не-программист, вооруженный современным ИИ, может реализовать нужный инструмент. Первая версия моего приложения эффективно решала задачу внутреннего поиска. Она позволяла быстро находить товары по сложным запросам (а иногда и по запросам, рожденным больной фантазией сотрудников), что значительно ускорило работу менеджеров и адаптацию новичков. Есть данные, есть каша в голове неопытного менеджера, нужен результат. Мой инструмент как раз и помогал с этим, работая как замкнутый контур исключительно с нашими внутренними данными.

https://habr.com/ru/articles/970726/

#ии #продажи #парсинг_контента #парсинг_сайтов

#парсинг_сайтов #парсинг_контента #продажи #ии

Habr @[email protected] · 2025-08-26 · 05:42 UTC

Универсальный парсинг сайтов на Python: requests vs headless, токены, куки, прокси и ротация IP

Вы когда-нибудь радовались идеальному прототипу парсера, который у вас летал на демо-странице, а в проде внезапно начал ловить 403, 429, пустые HTML и «куда-то делись карточки»? Контент отрисовывается на JS, сервер требует токен, после смены IP, старая сессия перестаёт работать. В этой статье я подробно разберу, как собирать данные устойчиво и предсказуемо, без излишней магии и с упором на реальную эксплуатацию.

https://habr.com/ru/companies/amvera/articles/940688/

#прасинг #парсинг_сайтов_на_python #парсинг_сайтов #парсинг_данных_с_сайта #парсинг_сайтов_конкурентов #парсинг_данных #парсинг_конкурентов #веб_скрапинг #скрапинг_python #парсер_сайтов

#прасинг #парсинг_сайтов_на_python #парсинг_сайтов #парсинг_данных_с_сайта #парсинг_сайтов_конкурентов #парсинг_данных

Habr @[email protected] · 2025-08-26 · 05:42 UTC

Универсальный парсинг сайтов на Python: requests vs headless, токены, куки, прокси и ротация IP

Вы когда-нибудь радовались идеальному прототипу парсера, который у вас летал на демо-странице, а в проде внезапно начал ловить 403, 429, пустые HTML и «куда-то делись карточки»? Контент отрисовывается на JS, сервер требует токен, после смены IP, старая сессия перестаёт работать. В этой статье я подробно разберу, как собирать данные устойчиво и предсказуемо, без излишней магии и с упором на реальную эксплуатацию.

https://habr.com/ru/companies/amvera/articles/940688/

#прасинг #парсинг_сайтов_на_python #парсинг_сайтов #парсинг_данных_с_сайта #парсинг_сайтов_конкурентов #парсинг_данных #парсинг_конкурентов #веб_скрапинг #скрапинг_python #парсер_сайтов

#прасинг #парсинг_сайтов_на_python #парсинг_сайтов #парсинг_данных_с_сайта #парсинг_сайтов_конкурентов #парсинг_данных

Habr @[email protected] · 2025-08-26 · 05:42 UTC

Универсальный парсинг сайтов на Python: requests vs headless, токены, куки, прокси и ротация IP

Вы когда-нибудь радовались идеальному прототипу парсера, который у вас летал на демо-странице, а в проде внезапно начал ловить 403, 429, пустые HTML и «куда-то делись карточки»? Контент отрисовывается на JS, сервер требует токен, после смены IP, старая сессия перестаёт работать. В этой статье я подробно разберу, как собирать данные устойчиво и предсказуемо, без излишней магии и с упором на реальную эксплуатацию.

https://habr.com/ru/companies/amvera/articles/940688/

#прасинг #парсинг_сайтов_на_python #парсинг_сайтов #парсинг_данных_с_сайта #парсинг_сайтов_конкурентов #парсинг_данных #парсинг_конкурентов #веб_скрапинг #скрапинг_python #парсер_сайтов

#прасинг #парсинг_сайтов_на_python #парсинг_сайтов #парсинг_данных_с_сайта #парсинг_сайтов_конкурентов #парсинг_данных

Habr @[email protected] · 2025-08-26 · 05:42 UTC

Универсальный парсинг сайтов на Python: requests vs headless, токены, куки, прокси и ротация IP

Вы когда-нибудь радовались идеальному прототипу парсера, который у вас летал на демо-странице, а в проде внезапно начал ловить 403, 429, пустые HTML и «куда-то делись карточки»? Контент отрисовывается на JS, сервер требует токен, после смены IP, старая сессия перестаёт работать. В этой статье я подробно разберу, как собирать данные устойчиво и предсказуемо, без излишней магии и с упором на реальную эксплуатацию.

https://habr.com/ru/companies/amvera/articles/940688/

#прасинг #парсинг_сайтов_на_python #парсинг_сайтов #парсинг_данных_с_сайта #парсинг_сайтов_конкурентов #парсинг_данных #парсинг_конкурентов #веб_скрапинг #скрапинг_python #парсер_сайтов

#парсер_сайтов #скрапинг_python #веб_скрапинг #парсинг_конкурентов #парсинг_данных #парсинг_сайтов_конкурентов

Habr @[email protected] · 2025-03-23 · 18:52 UTC

Топ веб‑парсеров и API-сервисов для сбора данных: сравнение скорости, масштабируемости и обхода защит

Автоматический сбор данных (парсинг, или web scraping) стал неотъемлемой практикой для разработчиков, аналитиков и автоматизаторов. С его помощью получают массовую информацию с сайтов – от цен конкурентов и отзывов до контента соцсетей. Для этого разработано множество “парсеров” – библиотек, фреймворков и облачных сервисов, которые позволяют извлекать веб-данные программно. Одни решения требуются для быстрого парсинга статичных страниц, другие – для обхода сложной JavaScript-навигации, третьи – для получения данных через API. В этой статье я рассмотрю топ инструментов для парсинга – как открытых (Open Source) библиотек, так и коммерческих SaaS/API-сервисов – и сравню их по ключевым метрикам:

https://habr.com/ru/articles/893622/

#парсинг #парсинг_контента #парсеры #парсинг_сайтов #парсинг_json #парсинг_данных #парсинг_html #парсер_сайтов #парсинг_сайта #парсер

#парсер #парсинг_сайта #парсер_сайтов #парсинг_html #парсинг_данных #парсинг_json

Habr @[email protected] · 2025-03-23 · 18:52 UTC

Топ веб‑парсеров и API-сервисов для сбора данных: сравнение скорости, масштабируемости и обхода защит

Автоматический сбор данных (парсинг, или web scraping) стал неотъемлемой практикой для разработчиков, аналитиков и автоматизаторов. С его помощью получают массовую информацию с сайтов – от цен конкурентов и отзывов до контента соцсетей. Для этого разработано множество “парсеров” – библиотек, фреймворков и облачных сервисов, которые позволяют извлекать веб-данные программно. Одни решения требуются для быстрого парсинга статичных страниц, другие – для обхода сложной JavaScript-навигации, третьи – для получения данных через API. В этой статье я рассмотрю топ инструментов для парсинга – как открытых (Open Source) библиотек, так и коммерческих SaaS/API-сервисов – и сравню их по ключевым метрикам:

https://habr.com/ru/articles/893622/

#парсинг #парсинг_контента #парсеры #парсинг_сайтов #парсинг_json #парсинг_данных #парсинг_html #парсер_сайтов #парсинг_сайта #парсер

#парсер #парсинг_сайта #парсер_сайтов #парсинг_html #парсинг_данных #парсинг_json

Habr @[email protected] · 2025-03-23 · 18:52 UTC

Топ веб‑парсеров и API-сервисов для сбора данных: сравнение скорости, масштабируемости и обхода защит

Автоматический сбор данных (парсинг, или web scraping) стал неотъемлемой практикой для разработчиков, аналитиков и автоматизаторов. С его помощью получают массовую информацию с сайтов – от цен конкурентов и отзывов до контента соцсетей. Для этого разработано множество “парсеров” – библиотек, фреймворков и облачных сервисов, которые позволяют извлекать веб-данные программно. Одни решения требуются для быстрого парсинга статичных страниц, другие – для обхода сложной JavaScript-навигации, третьи – для получения данных через API. В этой статье я рассмотрю топ инструментов для парсинга – как открытых (Open Source) библиотек, так и коммерческих SaaS/API-сервисов – и сравню их по ключевым метрикам:

https://habr.com/ru/articles/893622/

#парсинг #парсинг_контента #парсеры #парсинг_сайтов #парсинг_json #парсинг_данных #парсинг_html #парсер_сайтов #парсинг_сайта #парсер

#парсер #парсинг_сайта #парсер_сайтов #парсинг_html #парсинг_данных #парсинг_json

Habr @[email protected] · 2025-03-23 · 18:52 UTC

Топ веб‑парсеров и API-сервисов для сбора данных: сравнение скорости, масштабируемости и обхода защит

Автоматический сбор данных (парсинг, или web scraping) стал неотъемлемой практикой для разработчиков, аналитиков и автоматизаторов. С его помощью получают массовую информацию с сайтов – от цен конкурентов и отзывов до контента соцсетей. Для этого разработано множество “парсеров” – библиотек, фреймворков и облачных сервисов, которые позволяют извлекать веб-данные программно. Одни решения требуются для быстрого парсинга статичных страниц, другие – для обхода сложной JavaScript-навигации, третьи – для получения данных через API. В этой статье я рассмотрю топ инструментов для парсинга – как открытых (Open Source) библиотек, так и коммерческих SaaS/API-сервисов – и сравню их по ключевым метрикам:

https://habr.com/ru/articles/893622/

#парсинг #парсинг_контента #парсеры #парсинг_сайтов #парсинг_json #парсинг_данных #парсинг_html #парсер_сайтов #парсинг_сайта #парсер

#парсинг #парсинг_контента #парсеры #парсинг_сайтов #парсинг_json #парсинг_данных

Habr @[email protected] · 2025-01-06 · 00:32 UTC

Как я научился оценивать популярность статей через парсинг показателей сайтов

Я уже давно пишу статьи про различные аспекты IT-технологий, инвестиции, автоматизацию и умные дома на разных площадках: Хабр, Т—Ж, СмартЛаб, Пикабу, VC.ru и других. За всё время накопилось примерно 250 статей, которые по итогу свёл в таблицу . Но вот задумываться о популярности статей и их реальном эффекте стал относительно недавно. Почему я решил собирать статистику публикаций? Главной целью всех этих публикаций было поделиться своим опытом и при этом попытаться понять насколько вообще это важно и актуально для читателей. Однако обратная связь была не всегда очевидной: где-то комментариев вообще не было, а иногда на Хабре статьи набирали большой рейтинг при малом количестве комментариев (но это редко). Однако очевидно одно - статистика заставляет посмотреть на материалы со стороны. Например статья про то, как я при помощи двух скриптов смог автоматически сгенерировать опись документов для 700 страниц на непрофильном Пикабу собрала три месяца назад почти 75 тысяч просмотров и 80 комментариев, а на Хабре эта же тема была не особо популярна. Или статья про то, что читали на Хабре в 2024 году: анализ статей с Node.js, Google Sheets и каплей ChatGPT - собрала на Хабре три недели назад рейтинг +68, но «всего» 7 тысяч просмотров. Зачем я написал Open Source скрипт? Извлечение просмотров, комментариев, закладок и рейтинга из каждой статьи вручную занимало бы много времени, поэтому я решил пойти путём автоматизации. Написал скрипт, который скачивает эти данные по статьям и помещает сразу в одну удобную таблицу, где я вижу, какие темы стоит развивать дальше и на каких ресурсах. Это Open Source скрипт, размещенный на Гитхабе, который состоит из Google Apps Script и Node.js частей и обе эти части работают с итоговой сводной Google Таблицей. Собираем показатели 🤖

https://habr.com/ru/articles/871234/

#парсинг #парсинг_сайтов #СмартЛаб #Хабр #Пикабу #ТЖ #smartlab

#парсинг #парсинг_сайтов #смартлаб #хабр #пикабу #тж

Habr @[email protected] · 2025-01-06 · 00:32 UTC

Как я научился оценивать популярность статей через парсинг показателей сайтов

Я уже давно пишу статьи про различные аспекты IT-технологий, инвестиции, автоматизацию и умные дома на разных площадках: Хабр, Т—Ж, СмартЛаб, Пикабу, VC.ru и других. За всё время накопилось примерно 250 статей, которые по итогу свёл в таблицу . Но вот задумываться о популярности статей и их реальном эффекте стал относительно недавно. Почему я решил собирать статистику публикаций? Главной целью всех этих публикаций было поделиться своим опытом и при этом попытаться понять насколько вообще это важно и актуально для читателей. Однако обратная связь была не всегда очевидной: где-то комментариев вообще не было, а иногда на Хабре статьи набирали большой рейтинг при малом количестве комментариев (но это редко). Однако очевидно одно - статистика заставляет посмотреть на материалы со стороны. Например статья про то, как я при помощи двух скриптов смог автоматически сгенерировать опись документов для 700 страниц на непрофильном Пикабу собрала три месяца назад почти 75 тысяч просмотров и 80 комментариев, а на Хабре эта же тема была не особо популярна. Или статья про то, что читали на Хабре в 2024 году: анализ статей с Node.js, Google Sheets и каплей ChatGPT - собрала на Хабре три недели назад рейтинг +68, но «всего» 7 тысяч просмотров. Зачем я написал Open Source скрипт? Извлечение просмотров, комментариев, закладок и рейтинга из каждой статьи вручную занимало бы много времени, поэтому я решил пойти путём автоматизации. Написал скрипт, который скачивает эти данные по статьям и помещает сразу в одну удобную таблицу, где я вижу, какие темы стоит развивать дальше и на каких ресурсах. Это Open Source скрипт, размещенный на Гитхабе, который состоит из Google Apps Script и Node.js частей и обе эти части работают с итоговой сводной Google Таблицей. Собираем показатели 🤖

https://habr.com/ru/articles/871234/

#парсинг #парсинг_сайтов #СмартЛаб #Хабр #Пикабу #ТЖ #smartlab

#парсинг #парсинг_сайтов #смартлаб #хабр #пикабу #тж

Habr @[email protected] · 2025-01-06 · 00:32 UTC

Как я научился оценивать популярность статей через парсинг показателей сайтов

Я уже давно пишу статьи про различные аспекты IT-технологий, инвестиции, автоматизацию и умные дома на разных площадках: Хабр, Т—Ж, СмартЛаб, Пикабу, VC.ru и других. За всё время накопилось примерно 250 статей, которые по итогу свёл в таблицу . Но вот задумываться о популярности статей и их реальном эффекте стал относительно недавно. Почему я решил собирать статистику публикаций? Главной целью всех этих публикаций было поделиться своим опытом и при этом попытаться понять насколько вообще это важно и актуально для читателей. Однако обратная связь была не всегда очевидной: где-то комментариев вообще не было, а иногда на Хабре статьи набирали большой рейтинг при малом количестве комментариев (но это редко). Однако очевидно одно - статистика заставляет посмотреть на материалы со стороны. Например статья про то, как я при помощи двух скриптов смог автоматически сгенерировать опись документов для 700 страниц на непрофильном Пикабу собрала три месяца назад почти 75 тысяч просмотров и 80 комментариев, а на Хабре эта же тема была не особо популярна. Или статья про то, что читали на Хабре в 2024 году: анализ статей с Node.js, Google Sheets и каплей ChatGPT - собрала на Хабре три недели назад рейтинг +68, но «всего» 7 тысяч просмотров. Зачем я написал Open Source скрипт? Извлечение просмотров, комментариев, закладок и рейтинга из каждой статьи вручную занимало бы много времени, поэтому я решил пойти путём автоматизации. Написал скрипт, который скачивает эти данные по статьям и помещает сразу в одну удобную таблицу, где я вижу, какие темы стоит развивать дальше и на каких ресурсах. Это Open Source скрипт, размещенный на Гитхабе, который состоит из Google Apps Script и Node.js частей и обе эти части работают с итоговой сводной Google Таблицей. Собираем показатели 🤖

https://habr.com/ru/articles/871234/

#парсинг #парсинг_сайтов #СмартЛаб #Хабр #Пикабу #ТЖ #smartlab

#парсинг #парсинг_сайтов #смартлаб #хабр #пикабу #тж

Habr @[email protected] · 2025-01-06 · 00:32 UTC

Как я научился оценивать популярность статей через парсинг показателей сайтов

Я уже давно пишу статьи про различные аспекты IT-технологий, инвестиции, автоматизацию и умные дома на разных площадках: Хабр, Т—Ж, СмартЛаб, Пикабу, VC.ru и других. За всё время накопилось примерно 250 статей, которые по итогу свёл в таблицу . Но вот задумываться о популярности статей и их реальном эффекте стал относительно недавно. Почему я решил собирать статистику публикаций? Главной целью всех этих публикаций было поделиться своим опытом и при этом попытаться понять насколько вообще это важно и актуально для читателей. Однако обратная связь была не всегда очевидной: где-то комментариев вообще не было, а иногда на Хабре статьи набирали большой рейтинг при малом количестве комментариев (но это редко). Однако очевидно одно - статистика заставляет посмотреть на материалы со стороны. Например статья про то, как я при помощи двух скриптов смог автоматически сгенерировать опись документов для 700 страниц на непрофильном Пикабу собрала три месяца назад почти 75 тысяч просмотров и 80 комментариев, а на Хабре эта же тема была не особо популярна. Или статья про то, что читали на Хабре в 2024 году: анализ статей с Node.js, Google Sheets и каплей ChatGPT - собрала на Хабре три недели назад рейтинг +68, но «всего» 7 тысяч просмотров. Зачем я написал Open Source скрипт? Извлечение просмотров, комментариев, закладок и рейтинга из каждой статьи вручную занимало бы много времени, поэтому я решил пойти путём автоматизации. Написал скрипт, который скачивает эти данные по статьям и помещает сразу в одну удобную таблицу, где я вижу, какие темы стоит развивать дальше и на каких ресурсах. Это Open Source скрипт, размещенный на Гитхабе, который состоит из Google Apps Script и Node.js частей и обе эти части работают с итоговой сводной Google Таблицей. Собираем показатели 🤖

https://habr.com/ru/articles/871234/

#парсинг #парсинг_сайтов #СмартЛаб #Хабр #Пикабу #ТЖ #smartlab

#smartlab #тж #пикабу #хабр #смартлаб #парсинг_сайтов

Habr @[email protected] · 2024-10-29 · 14:02 UTC

ParallelBeautifulSoup (BF4-hack)

Предлагаю протестировать скрипт написанный с помощью cloude 3.5 Sonnet с использованием специального промта. Мне было лень писать всё самому и я решил посмотреть какие варианты предложит мне нейронка. Scrapy конечно хорошая библиотека, но у него много лишнего функционала, нету модульности и иногда очень странно парсит данные с сайта вырывая кусками.

https://habr.com/ru/articles/854378/

#парсинг_сайтов #параллельные_алгоритмы

Habr @[email protected] · 2024-10-29 · 14:02 UTC

ParallelBeautifulSoup (BF4-hack)

Предлагаю протестировать скрипт написанный с помощью cloude 3.5 Sonnet с использованием специального промта. Мне было лень писать всё самому и я решил посмотреть какие варианты предложит мне нейронка. Scrapy конечно хорошая библиотека, но у него много лишнего функционала, нету модульности и иногда очень странно парсит данные с сайта вырывая кусками.

https://habr.com/ru/articles/854378/

#парсинг_сайтов #параллельные_алгоритмы

Habr @[email protected] · 2024-10-29 · 14:02 UTC

ParallelBeautifulSoup (BF4-hack)

Предлагаю протестировать скрипт написанный с помощью cloude 3.5 Sonnet с использованием специального промта. Мне было лень писать всё самому и я решил посмотреть какие варианты предложит мне нейронка. Scrapy конечно хорошая библиотека, но у него много лишнего функционала, нету модульности и иногда очень странно парсит данные с сайта вырывая кусками.

https://habr.com/ru/articles/854378/

#парсинг_сайтов #параллельные_алгоритмы

Habr @[email protected] · 2024-10-29 · 14:02 UTC

ParallelBeautifulSoup (BF4-hack)

Предлагаю протестировать скрипт написанный с помощью cloude 3.5 Sonnet с использованием специального промта. Мне было лень писать всё самому и я решил посмотреть какие варианты предложит мне нейронка. Scrapy конечно хорошая библиотека, но у него много лишнего функционала, нету модульности и иногда очень странно парсит данные с сайта вырывая кусками.

https://habr.com/ru/articles/854378/

#парсинг_сайтов #параллельные_алгоритмы

#параллельные_алгоритмы #парсинг_сайтов

Habr @[email protected] · 2024-08-27 · 17:32 UTC

Парсинг Амазона на easy без мам, пап и ипотек

Попался мне на глаза на просторах интернета скрипт, который позволяет парсить карточки товаров с Амазона. А мне как раз было необходимо решение подобной задачи. Я сломал себе голову в поисках того, как спарсить карточки товаров в Амазоне. Проблема в том, что у Амазона используется разные варианты дизайна под различную выдачу, в частности – если необходимо спарсить карточки по поисковому запросу «bags» - карточки будут расположены вертикально, как мне и нужно, а вот если взять, к примеру «t-shirts» - тут уже карточки расположены горизонтально, и с таким расположение скрипт выпадает в ошибку, он отрабатывает открытие страницы, но не хочет скроллить.

https://habr.com/ru/articles/839028/

#парсинг #парсер #парсинг_сайтов #амазон #python #парсер_цен_конкурентов

#парсер_цен_конкурентов #python #амазон #парсинг_сайтов #парсер #парсинг

Habr @[email protected] · 2024-08-27 · 17:32 UTC

Парсинг Амазона на easy без мам, пап и ипотек

Попался мне на глаза на просторах интернета скрипт, который позволяет парсить карточки товаров с Амазона. А мне как раз было необходимо решение подобной задачи. Я сломал себе голову в поисках того, как спарсить карточки товаров в Амазоне. Проблема в том, что у Амазона используется разные варианты дизайна под различную выдачу, в частности – если необходимо спарсить карточки по поисковому запросу «bags» - карточки будут расположены вертикально, как мне и нужно, а вот если взять, к примеру «t-shirts» - тут уже карточки расположены горизонтально, и с таким расположение скрипт выпадает в ошибку, он отрабатывает открытие страницы, но не хочет скроллить.

https://habr.com/ru/articles/839028/

#парсинг #парсер #парсинг_сайтов #амазон #python #парсер_цен_конкурентов

#парсер_цен_конкурентов #python #амазон #парсинг_сайтов #парсер #парсинг

Habr @[email protected] · 2024-08-27 · 17:32 UTC

Парсинг Амазона на easy без мам, пап и ипотек

Попался мне на глаза на просторах интернета скрипт, который позволяет парсить карточки товаров с Амазона. А мне как раз было необходимо решение подобной задачи. Я сломал себе голову в поисках того, как спарсить карточки товаров в Амазоне. Проблема в том, что у Амазона используется разные варианты дизайна под различную выдачу, в частности – если необходимо спарсить карточки по поисковому запросу «bags» - карточки будут расположены вертикально, как мне и нужно, а вот если взять, к примеру «t-shirts» - тут уже карточки расположены горизонтально, и с таким расположение скрипт выпадает в ошибку, он отрабатывает открытие страницы, но не хочет скроллить.

https://habr.com/ru/articles/839028/

#парсинг #парсер #парсинг_сайтов #амазон #python #парсер_цен_конкурентов

Habr @[email protected] · 2024-08-15 · 14:52 UTC

Настройка мониторинга и отслеживания изменений на сайтах

Сложилось так, что в рамках рабочих и бытовых задач появился у меня заветный список ресурсов, которые приходится регулярно мониторить "руками": зашел на сайт, посмотрел изменилось ли то, закрыл. Думаю, многие сталкивались с подобной рутиной и задумывались об автоматизации действий в браузере. Вот и я решил найти удобный, и желательно бесплатный инструмент, способный выполнить все мои задачи.

https://habr.com/ru/articles/836316/

#автоматизация #автоматизация_действий_с_сайтами #мониторинг_изменений #парсинг_сайтов #парсинг_контента

#парсинг_контента #парсинг_сайтов #мониторинг_изменений #автоматизация_действий_с_сайтами #автоматизация

Habr @[email protected] · 2024-08-15 · 14:52 UTC

Настройка мониторинга и отслеживания изменений на сайтах

Сложилось так, что в рамках рабочих и бытовых задач появился у меня заветный список ресурсов, которые приходится регулярно мониторить "руками": зашел на сайт, посмотрел изменилось ли то, закрыл. Думаю, многие сталкивались с подобной рутиной и задумывались об автоматизации действий в браузере. Вот и я решил найти удобный, и желательно бесплатный инструмент, способный выполнить все мои задачи.

https://habr.com/ru/articles/836316/

#автоматизация #автоматизация_действий_с_сайтами #мониторинг_изменений #парсинг_сайтов #парсинг_контента

#парсинг_контента #парсинг_сайтов #мониторинг_изменений #автоматизация_действий_с_сайтами #автоматизация

Habr @[email protected] · 2024-08-15 · 14:52 UTC

Настройка мониторинга и отслеживания изменений на сайтах

Сложилось так, что в рамках рабочих и бытовых задач появился у меня заветный список ресурсов, которые приходится регулярно мониторить "руками": зашел на сайт, посмотрел изменилось ли то, закрыл. Думаю, многие сталкивались с подобной рутиной и задумывались об автоматизации действий в браузере. Вот и я решил найти удобный, и желательно бесплатный инструмент, способный выполнить все мои задачи.

https://habr.com/ru/articles/836316/

#автоматизация #автоматизация_действий_с_сайтами #мониторинг_изменений #парсинг_сайтов #парсинг_контента

Habr @[email protected] · 2024-07-15 · 14:22 UTC

Анализ открытых данных на сайтах МedSwiss и МЕДСИ ч.1

Всем привет! Сегодня поговорим о парсинг данных с сайтов медицинских клиник. Мы выбрали это направление по двум причинам: 1. это высокодоходный бизнес; 2. все катаклизмы, которые происходят в мире не сильно "качают" эту сферу к знаку минус. Т.к. отказать себе в походе в ресторан, покупке новго айфона, даже осознать невозможность взять ипотеку. Но, если появились проблемы со здоровьем - то тут не до экономии. Особенно это качается жителей больших городов. Именно поэтому мы начали парсить данные клиник г. Москвы. Также надо отметить, что разделение труда в медицинской сфере продолжаеит расти. Появляются новые узкоспециализированные специалисты. И на них есть спрос. Я сам обладаю двумя полисами (ОМС и ДМС), но за последние два года пару раз столкнулся с ситуацией, когда нужного мне специалиста ни один полис не покрывал. И пришлось рассматривать варианты получения услуги либо в государственной больнице через направление (долго и бесплатно), либо за дополнительную плату в специализированной коммерческой клинике. И так мы взяли две топовые клиники г. Москвы, далее для простоты будем называть их Клиника_1 и Клиника_2. У Клиники_2 сеть состоит из 13 точек в Москве и 3 точки в Санкт-Петербурге. У Клиники2 очень широкая и разнообразная сеть, хоть и ограниченная одним регионом присутствия (Москвой): Ø 3 шт. клинико-диагностических центра; Ø 27 шт. детских клиник; Пару слов о нас. Мы команда из 2-х человек. Владелец продукта и разработчик. Опыт в ИТ в корпоративном сегменте за плечами довольно большой. Первые приложения писали еще в начале 2000-х (тогда они назывались программами). За последние несколько лет перепробовали много разных идей и гипотез, участвовали и побеждали в хакатонах, Цифровой прорыв и т.п. Оба работаем в двух крупных компаниях: топ1 в цифровом дизайне/маркетинге и топ2 в банковском секторе. Цель данного исследования - попробовать себя на рынке парсинга данных. И это далеко не первае наше упражнение на тему парсинга. Ранее мы уже парсили крупные порталы рунета, также в моей предущей статье можно найти опыт реального парсинга twitter. В этот раз Дидом переводит html в объект

https://habr.com/ru/articles/829012/

#парсинг_сайтов #парсинг #парсинг_данных

#парсинг_данных #парсинг #парсинг_сайтов

Habr @[email protected] · 2024-07-15 · 14:22 UTC

Анализ открытых данных на сайтах МedSwiss и МЕДСИ ч.1

Всем привет! Сегодня поговорим о парсинг данных с сайтов медицинских клиник. Мы выбрали это направление по двум причинам: 1. это высокодоходный бизнес; 2. все катаклизмы, которые происходят в мире не сильно "качают" эту сферу к знаку минус. Т.к. отказать себе в походе в ресторан, покупке новго айфона, даже осознать невозможность взять ипотеку. Но, если появились проблемы со здоровьем - то тут не до экономии. Особенно это качается жителей больших городов. Именно поэтому мы начали парсить данные клиник г. Москвы. Также надо отметить, что разделение труда в медицинской сфере продолжаеит расти. Появляются новые узкоспециализированные специалисты. И на них есть спрос. Я сам обладаю двумя полисами (ОМС и ДМС), но за последние два года пару раз столкнулся с ситуацией, когда нужного мне специалиста ни один полис не покрывал. И пришлось рассматривать варианты получения услуги либо в государственной больнице через направление (долго и бесплатно), либо за дополнительную плату в специализированной коммерческой клинике. И так мы взяли две топовые клиники г. Москвы, далее для простоты будем называть их Клиника_1 и Клиника_2. У Клиники_2 сеть состоит из 13 точек в Москве и 3 точки в Санкт-Петербурге. У Клиники2 очень широкая и разнообразная сеть, хоть и ограниченная одним регионом присутствия (Москвой): Ø 3 шт. клинико-диагностических центра; Ø 27 шт. детских клиник; Пару слов о нас. Мы команда из 2-х человек. Владелец продукта и разработчик. Опыт в ИТ в корпоративном сегменте за плечами довольно большой. Первые приложения писали еще в начале 2000-х (тогда они назывались программами). За последние несколько лет перепробовали много разных идей и гипотез, участвовали и побеждали в хакатонах, Цифровой прорыв и т.п. Оба работаем в двух крупных компаниях: топ1 в цифровом дизайне/маркетинге и топ2 в банковском секторе. Цель данного исследования - попробовать себя на рынке парсинга данных. И это далеко не первае наше упражнение на тему парсинга. Ранее мы уже парсили крупные порталы рунета, также в моей предущей статье можно найти опыт реального парсинга twitter. В этот раз Дидом переводит html в объект

https://habr.com/ru/articles/829012/

#парсинг_сайтов #парсинг #парсинг_данных

#парсинг_данных #парсинг #парсинг_сайтов

Habr @[email protected] · 2024-07-15 · 14:22 UTC

Анализ открытых данных на сайтах МedSwiss и МЕДСИ ч.1

Всем привет! Сегодня поговорим о парсинг данных с сайтов медицинских клиник. Мы выбрали это направление по двум причинам: 1. это высокодоходный бизнес; 2. все катаклизмы, которые происходят в мире не сильно "качают" эту сферу к знаку минус. Т.к. отказать себе в походе в ресторан, покупке новго айфона, даже осознать невозможность взять ипотеку. Но, если появились проблемы со здоровьем - то тут не до экономии. Особенно это качается жителей больших городов. Именно поэтому мы начали парсить данные клиник г. Москвы. Также надо отметить, что разделение труда в медицинской сфере продолжаеит расти. Появляются новые узкоспециализированные специалисты. И на них есть спрос. Я сам обладаю двумя полисами (ОМС и ДМС), но за последние два года пару раз столкнулся с ситуацией, когда нужного мне специалиста ни один полис не покрывал. И пришлось рассматривать варианты получения услуги либо в государственной больнице через направление (долго и бесплатно), либо за дополнительную плату в специализированной коммерческой клинике. И так мы взяли две топовые клиники г. Москвы, далее для простоты будем называть их Клиника_1 и Клиника_2. У Клиники_2 сеть состоит из 13 точек в Москве и 3 точки в Санкт-Петербурге. У Клиники2 очень широкая и разнообразная сеть, хоть и ограниченная одним регионом присутствия (Москвой): Ø 3 шт. клинико-диагностических центра; Ø 27 шт. детских клиник; Пару слов о нас. Мы команда из 2-х человек. Владелец продукта и разработчик. Опыт в ИТ в корпоративном сегменте за плечами довольно большой. Первые приложения писали еще в начале 2000-х (тогда они назывались программами). За последние несколько лет перепробовали много разных идей и гипотез, участвовали и побеждали в хакатонах, Цифровой прорыв и т.п. Оба работаем в двух крупных компаниях: топ1 в цифровом дизайне/маркетинге и топ2 в банковском секторе. Цель данного исследования - попробовать себя на рынке парсинга данных. И это далеко не первае наше упражнение на тему парсинга. Ранее мы уже парсили крупные порталы рунета, также в моей предущей статье можно найти опыт реального парсинга twitter. В этот раз Дидом переводит html в объект

https://habr.com/ru/articles/829012/

#парсинг_сайтов #парсинг #парсинг_данных

Habr @[email protected] · 2024-06-17 · 13:02 UTC

Github API + парсинг LinkedIn вместо HH: как я нашел к себе в команду senior разработчика

Всем привет! Я расскажу и покажу, как сервис для анализа Github и LinkedIn позволил нам отказаться от стандартного процесса “вакансия-резюме”. Недавно в моей компании функцию конкурентного анализа выделили в отдельную команду. Руководство этой командой поручили мне. А в команду нужны люди с профильным опытом. В первую очередь, я стал искать нескольких сильных senior разработчиков, которые могли бы внести значительный вклад в построение нашего сервиса для автоматизированного сбора данных. На эту роль был нужен "разработчик-аналитик", который умеет не только писать код, но и глубоко понимает анализ данных.

https://habr.com/ru/articles/822393/

#найм #парсинг #найм_разработчиков #найм_в_it #парсинг_сайтов #api #github #linkedin

#linkedin #github #api #парсинг_сайтов #найм_в_it #найм_разработчиков