#парсинг_данных — Public Fediverse posts on home.social

Habr @[email protected] · 2026-05-28 · 07:22 UTC

Как я спас продакшен (n8n 1.41+ и Python-парсеры) от сетевых аномалий в мае 2026 года

В этой статье я покажу, как обеспечить отказоустойчивость бизнес-процессов на стеке n8n (v1.41+) и Python в условиях жесткой деградации магистральных сетей. Мы разберем реальный кейс: как пофиксить внезапный отвал зашифрованных туннелей (Xray/VLESS) и асимметричный роутинг, не останавливая работу парсеров. На выходе — готовая архитектура резервирования маршрутов. Бизнес не потерял ни минуты аптайма, интеграции с CRM продолжили работать как часы, а потребление памяти сервером снизилось в 7 раз

https://habr.com/ru/articles/1040402/

#автоматизация_бизнеспроцессов #n8n #парсинг_данных #интеграция_сервисов #отказоустойчивость #оптимизация_процессов #python #telegramботы

#telegramботы #python #оптимизация_процессов #отказоустойчивость #интеграция_сервисов #парсинг_данных

Habr @[email protected] · 2026-05-26 · 22:02 UTC

Gamedev. Парсинг данных из Google Sheets и Excel в json без привлечения программистов

Вы когда-нибудь заполняли json-конфигов на 20 000 - 25 0000 строк вручную перед выпуском релиза? А боль в глазах геймдизайнеров от этого процесса видели? Вы TechLead/Менеджер и к вам часто подходят дизайнеры с просьбой написать парсер данных, а свободных рук нет? А после изменений в фиче приходится выделять человека для правок схемы парсинга под новую разметку? Возможно, пора начать использовать тулзу по экспорту данных, которую смогут настроить сами геймдизайнеры? Нам этот инструмент сократил время настройки игровых конфигов с 4 дней до 15 минут, после предварительной настройки. Привет! Меня зовут Игорь, я занимаюсь разработкой на Unity c 2018 года. В статье рассказываю о тулзе, с помощью которой можно выгружать данные из Google Sheets и Excel в json без привлечения программистов. P.S. в конце статьи есть видосик с процессом настройки и экспорта одной фичи.

https://habr.com/ru/articles/1039798/

#геймдизайн #excel #google_sheets #парсинг_данных #парсинг_json #оптимизация_процессов #управление_персоналом #игровой_баланс #tools #экспорт_данных

#экспорт_данных #tools #игровой_баланс #управление_персоналом #оптимизация_процессов #парсинг_json

Habr @[email protected] · 2026-05-26 · 22:02 UTC

Gamedev. Парсинг данных из Google Sheets и Excel в json без привлечения программистов

Вы когда-нибудь заполняли json-конфигов на 20 000 - 25 0000 строк вручную перед выпуском релиза? А боль в глазах геймдизайнеров от этого процесса видели? Вы TechLead/Менеджер и к вам часто подходят дизайнеры с просьбой написать парсер данных, а свободных рук нет? А после изменений в фиче приходится выделять человека для правок схемы парсинга под новую разметку? Возможно, пора начать использовать тулзу по экспорту данных, которую смогут настроить сами геймдизайнеры? Нам этот инструмент сократил время настройки игровых конфигов с 4 дней до 15 минут, после предварительной настройки. Привет! Меня зовут Игорь, я занимаюсь разработкой на Unity c 2018 года. В статье рассказываю о тулзе, с помощью которой можно выгружать данные из Google Sheets и Excel в json без привлечения программистов. P.S. в конце статьи есть видосик с процессом настройки и экспорта одной фичи.

https://habr.com/ru/articles/1039798/

#геймдизайн #excel #google_sheets #парсинг_данных #парсинг_json #оптимизация_процессов #управление_персоналом #игровой_баланс #tools #экспорт_данных

#экспорт_данных #tools #игровой_баланс #управление_персоналом #оптимизация_процессов #парсинг_json

Habr @[email protected] · 2026-05-26 · 22:02 UTC

Gamedev. Парсинг данных из Google Sheets и Excel в json без привлечения программистов

Вы когда-нибудь заполняли json-конфигов на 20 000 - 25 0000 строк вручную перед выпуском релиза? А боль в глазах геймдизайнеров от этого процесса видели? Вы TechLead/Менеджер и к вам часто подходят дизайнеры с просьбой написать парсер данных, а свободных рук нет? А после изменений в фиче приходится выделять человека для правок схемы парсинга под новую разметку? Возможно, пора начать использовать тулзу по экспорту данных, которую смогут настроить сами геймдизайнеры? Нам этот инструмент сократил время настройки игровых конфигов с 4 дней до 15 минут, после предварительной настройки. Привет! Меня зовут Игорь, я занимаюсь разработкой на Unity c 2018 года. В статье рассказываю о тулзе, с помощью которой можно выгружать данные из Google Sheets и Excel в json без привлечения программистов. P.S. в конце статьи есть видосик с процессом настройки и экспорта одной фичи.

https://habr.com/ru/articles/1039798/

#геймдизайн #excel #google_sheets #парсинг_данных #парсинг_json #оптимизация_процессов #управление_персоналом #игровой_баланс #tools #экспорт_данных

#геймдизайн #excel #google_sheets #парсинг_данных #парсинг_json #оптимизация_процессов

Habr @[email protected] · 2026-05-26 · 22:02 UTC

Gamedev. Парсинг данных из Google Sheets и Excel в json без привлечения программистов

Вы когда-нибудь заполняли json-конфигов на 20 000 - 25 0000 строк вручную перед выпуском релиза? А боль в глазах геймдизайнеров от этого процесса видели? Вы TechLead/Менеджер и к вам часто подходят дизайнеры с просьбой написать парсер данных, а свободных рук нет? А после изменений в фиче приходится выделять человека для правок схемы парсинга под новую разметку? Возможно, пора начать использовать тулзу по экспорту данных, которую смогут настроить сами геймдизайнеры? Нам этот инструмент сократил время настройки игровых конфигов с 4 дней до 15 минут, после предварительной настройки. Привет! Меня зовут Игорь, я занимаюсь разработкой на Unity c 2018 года. В статье рассказываю о тулзе, с помощью которой можно выгружать данные из Google Sheets и Excel в json без привлечения программистов. P.S. в конце статьи есть видосик с процессом настройки и экспорта одной фичи.

https://habr.com/ru/articles/1039798/

#геймдизайн #excel #google_sheets #парсинг_данных #парсинг_json #оптимизация_процессов #управление_персоналом #игровой_баланс #tools #экспорт_данных

#экспорт_данных #tools #игровой_баланс #управление_персоналом #оптимизация_процессов #парсинг_json

Habr @[email protected] · 2026-05-14 · 16:22 UTC

Как я сделал “Авиасейлз для логистики”: агрегатор заявок из 16+ источников

В логистике проблема часто не в том, что нет данных. Проблема в том, что данные разбросаны по разным местам. Одни заявки лежат во внутренней системе, другие — в закрытых кабинетах грузоотправителей, третьи — на тендерных площадках, четвёртые приходят через Excel-выгрузки, пятые доступны только через веб-интерфейс. Где-то есть нормальный HTTP-обмен, где-то данные спрятаны за фронтендом, где-то приходится читать DOM-таблицу, а где-то сначала кажется, что всё просто, пока не выясняется, что цена приходит в копейках, маршрут состоит из трёх точек, а тип кузова записан как “тент 20т, верхняя загрузка”. Для менеджера всё это выглядит не как единый рынок грузов, а как набор вкладок в браузере. Открыть один кабинет. Потом второй. Потом третий. Проверить направление. Сравнить цену. Посмотреть дату. Понять, где реф, где тент, где просто “20 тонн”. Не забыть про аукцион, у которого скоро истекает время. Потом всё равно перенести результат в таблицу или открыть внутреннюю панель. В какой-то момент стало понятно: нам нужен не ещё один парсер, а единая витрина. Так появился внутренний агрегатор заявок — условный “Авиасейлз для логистики”.

https://habr.com/ru/articles/1035316/

#логистика #автоматизация #парсинг_данных #агрегатор_заявок #ETL #PostgreSQL #Python #Google_Sheets #FastAPI

#fastapi #google_sheets #python #postgresql #etl #агрегатор_заявок

Habr @[email protected] · 2026-05-14 · 16:22 UTC

Как я сделал “Авиасейлз для логистики”: агрегатор заявок из 16+ источников

В логистике проблема часто не в том, что нет данных. Проблема в том, что данные разбросаны по разным местам. Одни заявки лежат во внутренней системе, другие — в закрытых кабинетах грузоотправителей, третьи — на тендерных площадках, четвёртые приходят через Excel-выгрузки, пятые доступны только через веб-интерфейс. Где-то есть нормальный HTTP-обмен, где-то данные спрятаны за фронтендом, где-то приходится читать DOM-таблицу, а где-то сначала кажется, что всё просто, пока не выясняется, что цена приходит в копейках, маршрут состоит из трёх точек, а тип кузова записан как “тент 20т, верхняя загрузка”. Для менеджера всё это выглядит не как единый рынок грузов, а как набор вкладок в браузере. Открыть один кабинет. Потом второй. Потом третий. Проверить направление. Сравнить цену. Посмотреть дату. Понять, где реф, где тент, где просто “20 тонн”. Не забыть про аукцион, у которого скоро истекает время. Потом всё равно перенести результат в таблицу или открыть внутреннюю панель. В какой-то момент стало понятно: нам нужен не ещё один парсер, а единая витрина. Так появился внутренний агрегатор заявок — условный “Авиасейлз для логистики”.

https://habr.com/ru/articles/1035316/

#логистика #автоматизация #парсинг_данных #агрегатор_заявок #ETL #PostgreSQL #Python #Google_Sheets #FastAPI

#fastapi #google_sheets #python #postgresql #etl #агрегатор_заявок

Habr @[email protected] · 2026-05-14 · 16:22 UTC

Как я сделал “Авиасейлз для логистики”: агрегатор заявок из 16+ источников

В логистике проблема часто не в том, что нет данных. Проблема в том, что данные разбросаны по разным местам. Одни заявки лежат во внутренней системе, другие — в закрытых кабинетах грузоотправителей, третьи — на тендерных площадках, четвёртые приходят через Excel-выгрузки, пятые доступны только через веб-интерфейс. Где-то есть нормальный HTTP-обмен, где-то данные спрятаны за фронтендом, где-то приходится читать DOM-таблицу, а где-то сначала кажется, что всё просто, пока не выясняется, что цена приходит в копейках, маршрут состоит из трёх точек, а тип кузова записан как “тент 20т, верхняя загрузка”. Для менеджера всё это выглядит не как единый рынок грузов, а как набор вкладок в браузере. Открыть один кабинет. Потом второй. Потом третий. Проверить направление. Сравнить цену. Посмотреть дату. Понять, где реф, где тент, где просто “20 тонн”. Не забыть про аукцион, у которого скоро истекает время. Потом всё равно перенести результат в таблицу или открыть внутреннюю панель. В какой-то момент стало понятно: нам нужен не ещё один парсер, а единая витрина. Так появился внутренний агрегатор заявок — условный “Авиасейлз для логистики”.

https://habr.com/ru/articles/1035316/

#логистика #автоматизация #парсинг_данных #агрегатор_заявок #ETL #PostgreSQL #Python #Google_Sheets #FastAPI

#fastapi #google_sheets #python #postgresql #etl #агрегатор_заявок

Habr @[email protected] · 2026-05-14 · 16:22 UTC

Как я сделал “Авиасейлз для логистики”: агрегатор заявок из 16+ источников

В логистике проблема часто не в том, что нет данных. Проблема в том, что данные разбросаны по разным местам. Одни заявки лежат во внутренней системе, другие — в закрытых кабинетах грузоотправителей, третьи — на тендерных площадках, четвёртые приходят через Excel-выгрузки, пятые доступны только через веб-интерфейс. Где-то есть нормальный HTTP-обмен, где-то данные спрятаны за фронтендом, где-то приходится читать DOM-таблицу, а где-то сначала кажется, что всё просто, пока не выясняется, что цена приходит в копейках, маршрут состоит из трёх точек, а тип кузова записан как “тент 20т, верхняя загрузка”. Для менеджера всё это выглядит не как единый рынок грузов, а как набор вкладок в браузере. Открыть один кабинет. Потом второй. Потом третий. Проверить направление. Сравнить цену. Посмотреть дату. Понять, где реф, где тент, где просто “20 тонн”. Не забыть про аукцион, у которого скоро истекает время. Потом всё равно перенести результат в таблицу или открыть внутреннюю панель. В какой-то момент стало понятно: нам нужен не ещё один парсер, а единая витрина. Так появился внутренний агрегатор заявок — условный “Авиасейлз для логистики”.

https://habr.com/ru/articles/1035316/

#логистика #автоматизация #парсинг_данных #агрегатор_заявок #ETL #PostgreSQL #Python #Google_Sheets #FastAPI

#логистика #автоматизация #парсинг_данных #агрегатор_заявок #etl #postgresql

Habr @[email protected] · 2026-05-13 · 10:32 UTC

Сбор сведений из открытых источников: почему это рискованно, если выкачивается информация из чужих баз данных?

Собрать информацию о человеке или продукте с использованием высоких технологий стало делом техники. В прямом и переносном смысле слова. Однако такое выкачивание данных может стать поводом для судебного разбирательства. Почему это происходит — далее в материале.

https://habr.com/ru/companies/onlinepatent/articles/1034644/

#базы_данных #база_дынных #парсинг #парсинг_контента #парсинг_сайтов #парсинг_сайта #парсинг_данных #защита_данных #защита_данных_пользователей #законодательство

#законодательство #защита_данных_пользователей #защита_данных #парсинг_данных #парсинг_сайта #парсинг_сайтов

Habr @[email protected] · 2026-05-13 · 10:32 UTC

Сбор сведений из открытых источников: почему это рискованно, если выкачивается информация из чужих баз данных?

Собрать информацию о человеке или продукте с использованием высоких технологий стало делом техники. В прямом и переносном смысле слова. Однако такое выкачивание данных может стать поводом для судебного разбирательства. Почему это происходит — далее в материале.

https://habr.com/ru/companies/onlinepatent/articles/1034644/

#базы_данных #база_дынных #парсинг #парсинг_контента #парсинг_сайтов #парсинг_сайта #парсинг_данных #защита_данных #защита_данных_пользователей #законодательство

#законодательство #защита_данных_пользователей #защита_данных #парсинг_данных #парсинг_сайта #парсинг_сайтов

Habr @[email protected] · 2026-05-13 · 10:32 UTC

Сбор сведений из открытых источников: почему это рискованно, если выкачивается информация из чужих баз данных?

Собрать информацию о человеке или продукте с использованием высоких технологий стало делом техники. В прямом и переносном смысле слова. Однако такое выкачивание данных может стать поводом для судебного разбирательства. Почему это происходит — далее в материале.

https://habr.com/ru/companies/onlinepatent/articles/1034644/

#базы_данных #база_дынных #парсинг #парсинг_контента #парсинг_сайтов #парсинг_сайта #парсинг_данных #защита_данных #защита_данных_пользователей #законодательство

#законодательство #защита_данных_пользователей #защита_данных #парсинг_данных #парсинг_сайта #парсинг_сайтов

Habr @[email protected] · 2026-05-13 · 10:32 UTC

Сбор сведений из открытых источников: почему это рискованно, если выкачивается информация из чужих баз данных?

Собрать информацию о человеке или продукте с использованием высоких технологий стало делом техники. В прямом и переносном смысле слова. Однако такое выкачивание данных может стать поводом для судебного разбирательства. Почему это происходит — далее в материале.

https://habr.com/ru/companies/onlinepatent/articles/1034644/

#базы_данных #база_дынных #парсинг #парсинг_контента #парсинг_сайтов #парсинг_сайта #парсинг_данных #защита_данных #защита_данных_пользователей #законодательство

#базы_данных #база_дынных #парсинг #парсинг_контента #парсинг_сайтов #парсинг_сайта

Habr @[email protected] · 2025-09-21 · 08:52 UTC

Парсинг цен и данных о товарах конкурентов на Wildberries

Всем привет! Ранее я уже писал про парсинг Wildberries, но та статья была довольно узконаправленной и не затрагивала более широкие возможности анализа. Да и с тех пор многое изменилось — тема стала ещё актуальнее, а у читателей накопилось больше вопросов. Поэтому в этой статье мы разберём тему заново, но уже с акцентом на практическую пользу.

https://habr.com/ru/companies/amvera/articles/948988/

#парсинг_цен #парсинг_данных #парсинг_конкурентов #парсинг_wildberries #парсинг_wb #парсер_цен #парсер_цен_конкурентов #парсер_wildberries #парсинг_на_python #парсинг_товаров

#парсинг_товаров #парсинг_на_python #парсер_wildberries #парсер_цен_конкурентов #парсер_цен #парсинг_wb

Habr @[email protected] · 2025-09-21 · 08:52 UTC

Парсинг цен и данных о товарах конкурентов на Wildberries

Всем привет! Ранее я уже писал про парсинг Wildberries, но та статья была довольно узконаправленной и не затрагивала более широкие возможности анализа. Да и с тех пор многое изменилось — тема стала ещё актуальнее, а у читателей накопилось больше вопросов. Поэтому в этой статье мы разберём тему заново, но уже с акцентом на практическую пользу.

https://habr.com/ru/companies/amvera/articles/948988/

#парсинг_цен #парсинг_данных #парсинг_конкурентов #парсинг_wildberries #парсинг_wb #парсер_цен #парсер_цен_конкурентов #парсер_wildberries #парсинг_на_python #парсинг_товаров

#парсинг_товаров #парсинг_на_python #парсер_wildberries #парсер_цен_конкурентов #парсер_цен #парсинг_wb

Habr @[email protected] · 2025-09-21 · 08:52 UTC

Парсинг цен и данных о товарах конкурентов на Wildberries

Всем привет! Ранее я уже писал про парсинг Wildberries, но та статья была довольно узконаправленной и не затрагивала более широкие возможности анализа. Да и с тех пор многое изменилось — тема стала ещё актуальнее, а у читателей накопилось больше вопросов. Поэтому в этой статье мы разберём тему заново, но уже с акцентом на практическую пользу.

https://habr.com/ru/companies/amvera/articles/948988/

#парсинг_цен #парсинг_данных #парсинг_конкурентов #парсинг_wildberries #парсинг_wb #парсер_цен #парсер_цен_конкурентов #парсер_wildberries #парсинг_на_python #парсинг_товаров

#парсинг_товаров #парсинг_на_python #парсер_wildberries #парсер_цен_конкурентов #парсер_цен #парсинг_wb

Habr @[email protected] · 2025-09-21 · 08:52 UTC

Парсинг цен и данных о товарах конкурентов на Wildberries

Всем привет! Ранее я уже писал про парсинг Wildberries, но та статья была довольно узконаправленной и не затрагивала более широкие возможности анализа. Да и с тех пор многое изменилось — тема стала ещё актуальнее, а у читателей накопилось больше вопросов. Поэтому в этой статье мы разберём тему заново, но уже с акцентом на практическую пользу.

https://habr.com/ru/companies/amvera/articles/948988/

#парсинг_цен #парсинг_данных #парсинг_конкурентов #парсинг_wildberries #парсинг_wb #парсер_цен #парсер_цен_конкурентов #парсер_wildberries #парсинг_на_python #парсинг_товаров

#парсинг_цен #парсинг_данных #парсинг_конкурентов #парсинг_wildberries #парсинг_wb #парсер_цен

Habr @[email protected] · 2025-08-30 · 16:12 UTC

Парсер Гугл Карт: обзор, инструкция и сценарии для многопоточного парсера — готовое решение для парсинга отзывов

Google Maps - крупнейших источник данных о различных местах, начиная от точек общепита и заканчивая офисами корпораций. В карточках организаций и мест собраны названия, адреса, контакты, рейтинги и конечно же отзывы. Для кого-то (маркетологи, SEO-специалисты, аналитики) эти данные - кладезь полезной информации: с их помощью собираются базы потенциальных клиентов, анализируются конкуренты, кто-то даже проводит исследования рынка. А вот для кого-то (разработчики парсеров) - это настоящая боль. Или дорого, или сложно или и дорого и сложно одновременно. Google, конечно понимает повышенный интерес к своей базе и предоставляет официальный API для парсинга (Google Places API), но у него есть существенные ограничения - во-первых, он платный, что на больших объемах существенно бъет по бюджету, а во-вторых, тут есть лимиты по частоте запросов. Эти ограничения и побуждают компании прибегать к альтернативному подходу - парсингу отзывов (как в моем случае) или парсингу данных (в широком смысле) непосредственно с веб-версии Google Maps, минуя официальный API. Собственно я прошел этот путь ровно также, как его проходит большинство специалистов, кому нужны данные из Гугл Карт. Сперва АПИ, считаем экономику - понимаем что она не сходится - перестраиваем экономику и вместо оплаты лимитов Гугла, сокращаем траты за счет использования прокси и многопоточного парсера. Собственно из затрат у меня реально были только прокси от Proxyma , я использовал самый простой тариф 5$ за 1 Гб трафика, но в целом, если взять сразу 30Гб то цена снижается уже до 3$ за Гб трафика, что уже интереснее.

https://habr.com/ru/articles/942374/

#парсинг_данных #парсер #парсеры #парсинг #google_maps

#google_maps #парсинг #парсеры #парсер #парсинг_данных

Habr @[email protected] · 2025-08-30 · 16:12 UTC

Парсер Гугл Карт: обзор, инструкция и сценарии для многопоточного парсера — готовое решение для парсинга отзывов

Google Maps - крупнейших источник данных о различных местах, начиная от точек общепита и заканчивая офисами корпораций. В карточках организаций и мест собраны названия, адреса, контакты, рейтинги и конечно же отзывы. Для кого-то (маркетологи, SEO-специалисты, аналитики) эти данные - кладезь полезной информации: с их помощью собираются базы потенциальных клиентов, анализируются конкуренты, кто-то даже проводит исследования рынка. А вот для кого-то (разработчики парсеров) - это настоящая боль. Или дорого, или сложно или и дорого и сложно одновременно. Google, конечно понимает повышенный интерес к своей базе и предоставляет официальный API для парсинга (Google Places API), но у него есть существенные ограничения - во-первых, он платный, что на больших объемах существенно бъет по бюджету, а во-вторых, тут есть лимиты по частоте запросов. Эти ограничения и побуждают компании прибегать к альтернативному подходу - парсингу отзывов (как в моем случае) или парсингу данных (в широком смысле) непосредственно с веб-версии Google Maps, минуя официальный API. Собственно я прошел этот путь ровно также, как его проходит большинство специалистов, кому нужны данные из Гугл Карт. Сперва АПИ, считаем экономику - понимаем что она не сходится - перестраиваем экономику и вместо оплаты лимитов Гугла, сокращаем траты за счет использования прокси и многопоточного парсера. Собственно из затрат у меня реально были только прокси от Proxyma , я использовал самый простой тариф 5$ за 1 Гб трафика, но в целом, если взять сразу 30Гб то цена снижается уже до 3$ за Гб трафика, что уже интереснее.

https://habr.com/ru/articles/942374/

#парсинг_данных #парсер #парсеры #парсинг #google_maps

#google_maps #парсинг #парсеры #парсер #парсинг_данных

Habr @[email protected] · 2025-08-30 · 16:12 UTC

Парсер Гугл Карт: обзор, инструкция и сценарии для многопоточного парсера — готовое решение для парсинга отзывов

Google Maps - крупнейших источник данных о различных местах, начиная от точек общепита и заканчивая офисами корпораций. В карточках организаций и мест собраны названия, адреса, контакты, рейтинги и конечно же отзывы. Для кого-то (маркетологи, SEO-специалисты, аналитики) эти данные - кладезь полезной информации: с их помощью собираются базы потенциальных клиентов, анализируются конкуренты, кто-то даже проводит исследования рынка. А вот для кого-то (разработчики парсеров) - это настоящая боль. Или дорого, или сложно или и дорого и сложно одновременно. Google, конечно понимает повышенный интерес к своей базе и предоставляет официальный API для парсинга (Google Places API), но у него есть существенные ограничения - во-первых, он платный, что на больших объемах существенно бъет по бюджету, а во-вторых, тут есть лимиты по частоте запросов. Эти ограничения и побуждают компании прибегать к альтернативному подходу - парсингу отзывов (как в моем случае) или парсингу данных (в широком смысле) непосредственно с веб-версии Google Maps, минуя официальный API. Собственно я прошел этот путь ровно также, как его проходит большинство специалистов, кому нужны данные из Гугл Карт. Сперва АПИ, считаем экономику - понимаем что она не сходится - перестраиваем экономику и вместо оплаты лимитов Гугла, сокращаем траты за счет использования прокси и многопоточного парсера. Собственно из затрат у меня реально были только прокси от Proxyma , я использовал самый простой тариф 5$ за 1 Гб трафика, но в целом, если взять сразу 30Гб то цена снижается уже до 3$ за Гб трафика, что уже интереснее.

https://habr.com/ru/articles/942374/

#парсинг_данных #парсер #парсеры #парсинг #google_maps

Habr @[email protected] · 2025-08-30 · 16:12 UTC

Парсер Гугл Карт: обзор, инструкция и сценарии для многопоточного парсера — готовое решение для парсинга отзывов

Google Maps - крупнейших источник данных о различных местах, начиная от точек общепита и заканчивая офисами корпораций. В карточках организаций и мест собраны названия, адреса, контакты, рейтинги и конечно же отзывы. Для кого-то (маркетологи, SEO-специалисты, аналитики) эти данные - кладезь полезной информации: с их помощью собираются базы потенциальных клиентов, анализируются конкуренты, кто-то даже проводит исследования рынка. А вот для кого-то (разработчики парсеров) - это настоящая боль. Или дорого, или сложно или и дорого и сложно одновременно. Google, конечно понимает повышенный интерес к своей базе и предоставляет официальный API для парсинга (Google Places API), но у него есть существенные ограничения - во-первых, он платный, что на больших объемах существенно бъет по бюджету, а во-вторых, тут есть лимиты по частоте запросов. Эти ограничения и побуждают компании прибегать к альтернативному подходу - парсингу отзывов (как в моем случае) или парсингу данных (в широком смысле) непосредственно с веб-версии Google Maps, минуя официальный API. Собственно я прошел этот путь ровно также, как его проходит большинство специалистов, кому нужны данные из Гугл Карт. Сперва АПИ, считаем экономику - понимаем что она не сходится - перестраиваем экономику и вместо оплаты лимитов Гугла, сокращаем траты за счет использования прокси и многопоточного парсера. Собственно из затрат у меня реально были только прокси от Proxyma , я использовал самый простой тариф 5$ за 1 Гб трафика, но в целом, если взять сразу 30Гб то цена снижается уже до 3$ за Гб трафика, что уже интереснее.

https://habr.com/ru/articles/942374/

#парсинг_данных #парсер #парсеры #парсинг #google_maps

#google_maps #парсинг #парсеры #парсер #парсинг_данных

Habr @[email protected] · 2025-08-26 · 05:42 UTC

Универсальный парсинг сайтов на Python: requests vs headless, токены, куки, прокси и ротация IP

Вы когда-нибудь радовались идеальному прототипу парсера, который у вас летал на демо-странице, а в проде внезапно начал ловить 403, 429, пустые HTML и «куда-то делись карточки»? Контент отрисовывается на JS, сервер требует токен, после смены IP, старая сессия перестаёт работать. В этой статье я подробно разберу, как собирать данные устойчиво и предсказуемо, без излишней магии и с упором на реальную эксплуатацию.

https://habr.com/ru/companies/amvera/articles/940688/

#прасинг #парсинг_сайтов_на_python #парсинг_сайтов #парсинг_данных_с_сайта #парсинг_сайтов_конкурентов #парсинг_данных #парсинг_конкурентов #веб_скрапинг #скрапинг_python #парсер_сайтов

#прасинг #парсинг_сайтов_на_python #парсинг_сайтов #парсинг_данных_с_сайта #парсинг_сайтов_конкурентов #парсинг_данных

Habr @[email protected] · 2025-08-26 · 05:42 UTC

Универсальный парсинг сайтов на Python: requests vs headless, токены, куки, прокси и ротация IP

Вы когда-нибудь радовались идеальному прототипу парсера, который у вас летал на демо-странице, а в проде внезапно начал ловить 403, 429, пустые HTML и «куда-то делись карточки»? Контент отрисовывается на JS, сервер требует токен, после смены IP, старая сессия перестаёт работать. В этой статье я подробно разберу, как собирать данные устойчиво и предсказуемо, без излишней магии и с упором на реальную эксплуатацию.

https://habr.com/ru/companies/amvera/articles/940688/

#прасинг #парсинг_сайтов_на_python #парсинг_сайтов #парсинг_данных_с_сайта #парсинг_сайтов_конкурентов #парсинг_данных #парсинг_конкурентов #веб_скрапинг #скрапинг_python #парсер_сайтов

#прасинг #парсинг_сайтов_на_python #парсинг_сайтов #парсинг_данных_с_сайта #парсинг_сайтов_конкурентов #парсинг_данных

Habr @[email protected] · 2025-08-26 · 05:42 UTC

Универсальный парсинг сайтов на Python: requests vs headless, токены, куки, прокси и ротация IP

Вы когда-нибудь радовались идеальному прототипу парсера, который у вас летал на демо-странице, а в проде внезапно начал ловить 403, 429, пустые HTML и «куда-то делись карточки»? Контент отрисовывается на JS, сервер требует токен, после смены IP, старая сессия перестаёт работать. В этой статье я подробно разберу, как собирать данные устойчиво и предсказуемо, без излишней магии и с упором на реальную эксплуатацию.

https://habr.com/ru/companies/amvera/articles/940688/

#прасинг #парсинг_сайтов_на_python #парсинг_сайтов #парсинг_данных_с_сайта #парсинг_сайтов_конкурентов #парсинг_данных #парсинг_конкурентов #веб_скрапинг #скрапинг_python #парсер_сайтов

#прасинг #парсинг_сайтов_на_python #парсинг_сайтов #парсинг_данных_с_сайта #парсинг_сайтов_конкурентов #парсинг_данных

Habr @[email protected] · 2025-08-26 · 05:42 UTC

Универсальный парсинг сайтов на Python: requests vs headless, токены, куки, прокси и ротация IP

Вы когда-нибудь радовались идеальному прототипу парсера, который у вас летал на демо-странице, а в проде внезапно начал ловить 403, 429, пустые HTML и «куда-то делись карточки»? Контент отрисовывается на JS, сервер требует токен, после смены IP, старая сессия перестаёт работать. В этой статье я подробно разберу, как собирать данные устойчиво и предсказуемо, без излишней магии и с упором на реальную эксплуатацию.

https://habr.com/ru/companies/amvera/articles/940688/

#прасинг #парсинг_сайтов_на_python #парсинг_сайтов #парсинг_данных_с_сайта #парсинг_сайтов_конкурентов #парсинг_данных #парсинг_конкурентов #веб_скрапинг #скрапинг_python #парсер_сайтов

#парсер_сайтов #скрапинг_python #веб_скрапинг #парсинг_конкурентов #парсинг_данных #парсинг_сайтов_конкурентов

Habr @[email protected] · 2025-07-24 · 14:52 UTC

Telegram как платформа для автоматизации бизнеса: боты, парсеры, прокси и защита

Telegram — не просто альтернатива WhatsApp или Slack. Это полноценная платформа с открытым API, богатой экосистемой и миллионами активных пользователей. За последние годы Telegram стал ключевым инструментом в сфере:

https://habr.com/ru/articles/930680/

#информационная_безопасность #devops #api #инструменты_разработчика #telegram #telegram_bot #автоматизация_процессов #парсинг_данных

#информационная_безопасность #devops #api #инструменты_разработчика #telegram #telegram_bot

Habr @[email protected] · 2025-07-24 · 14:52 UTC

Telegram как платформа для автоматизации бизнеса: боты, парсеры, прокси и защита

Telegram — не просто альтернатива WhatsApp или Slack. Это полноценная платформа с открытым API, богатой экосистемой и миллионами активных пользователей. За последние годы Telegram стал ключевым инструментом в сфере:

https://habr.com/ru/articles/930680/

#информационная_безопасность #devops #api #инструменты_разработчика #telegram #telegram_bot #автоматизация_процессов #парсинг_данных

#информационная_безопасность #devops #api #инструменты_разработчика #telegram #telegram_bot

Habr @[email protected] · 2025-07-24 · 14:52 UTC

Telegram как платформа для автоматизации бизнеса: боты, парсеры, прокси и защита

Telegram — не просто альтернатива WhatsApp или Slack. Это полноценная платформа с открытым API, богатой экосистемой и миллионами активных пользователей. За последние годы Telegram стал ключевым инструментом в сфере:

https://habr.com/ru/articles/930680/

#информационная_безопасность #devops #api #инструменты_разработчика #telegram #telegram_bot #автоматизация_процессов #парсинг_данных

#парсинг_данных #автоматизация_процессов #telegram_bot #telegram #инструменты_разработчика #api

Habr @[email protected] · 2025-07-24 · 14:52 UTC

Telegram как платформа для автоматизации бизнеса: боты, парсеры, прокси и защита

Telegram — не просто альтернатива WhatsApp или Slack. Это полноценная платформа с открытым API, богатой экосистемой и миллионами активных пользователей. За последние годы Telegram стал ключевым инструментом в сфере:

https://habr.com/ru/articles/930680/

#информационная_безопасность #devops #api #инструменты_разработчика #telegram #telegram_bot #автоматизация_процессов #парсинг_данных

#информационная_безопасность #devops #api #инструменты_разработчика #telegram #telegram_bot

Habr @[email protected] · 2024-11-21 · 05:22 UTC

FastAPI + APScheduler: Простой пошаговый гайд по созданию асинхронного API для мониторинга валют по расписанию на Python

Как создать асинхронный API для мониторинга курсов валют на Python? В этом практическом руководстве мы разработаем сервис на FastAPI с интеграцией APScheduler, который будет отслеживать курсы USD и EUR в банках России. Вы узнаете, как реализовать асинхронный парсинг данных, настроить планировщик задач и развернуть приложение в облаке. Проект включает систему аутентификации, фильтрацию данных и REST API — идеальный пример для изучения современной веб-разработки на Python.

https://habr.com/ru/companies/amvera/articles/859990/

#restapi #fastapi #python_api #sqlalchemy_20 #sqlite3 #aiosqlite #парсинг_данных #асинхронный_парсинг_данных #aiohttp #курс_валют_на_python

#курс_валют_на_python #aiohttp #асинхронный_парсинг_данных #парсинг_данных #aiosqlite #sqlite3

Habr @[email protected] · 2024-11-24 · 20:32 UTC

Парсинг сайта на Python для НСИ

Для проверки определенных типов данных я предлагаю парсинг сайтов, а автоматизация исправления уже на ваш вкус. Например, различные языки программирования. Лично я за весь свой опыт использовал: C#, Python, VBA для работы с Excel, в зависимости от ситуации. Также поделюсь полезным файлом, который можно использовать в автоматизации проверки номенклатурных позиций.

https://habr.com/ru/articles/860874/

#python #нси #erpсистемы #парсинг_данных

#парсинг_данных #erpсистемы #нси #python

Habr @[email protected] · 2025-04-02 · 12:02 UTC

Автоматизация сбора данных: как подтянуть курсы валютных пар ЦБ РФ

Во время расчёта доходности торговли валютными парами или акциями pre-IPO , для расчетов NPV и других финансовых показателей всегда нужны актуальные курсы валютных пар. Долгое время открывать сайт Центробанка РФ (ЦБ РФ) и копировать валютные курсы в Excel курсы ЦБ РФ становится лень – и тут на помощь приходят Excel и VBA. Наипростейшее решение – сделать в Excel выпадающий список с выбором валюты и написать макрос, который сам подтянет нужный курс с сайта ЦБ РФ . Тогда я смогу просто выбрать, например, USD или EUR , и таблица сама подставит актуальный курс в расчет. Звучит классно, пора делать.

https://habr.com/ru/articles/896756/

#api #vba #vbaмакросы #vba_excel #excel #парсинг #парсинг_данных #сбор_данных

#api #vba #vbaмакросы #vba_excel #excel #парсинг

Habr @[email protected] · 2025-07-03 · 17:02 UTC

200 000+ снимков мусора: что мы узнали о датасетах

В нашей работе хватает безумных задач. Мы создали первого в России цифрового PR-менеджера, разрабатывали виртуальную примерочную и делали много чего еще, о чем не всегда можно рассказать. Но когда мы взялись за создание ИИ-сортировщика мусора MARQUS, поняли — будет совсем жестко. Не так давно мы создали систему сортировки ТКО (Твердых коммунальных отходов) MARQUS, которая делит отходы на бумагу, металл, пластик, стекло и т.д. Система использует искусственный интеллект и специальные сенсоры, чтобы распознавать различные типы отходов прямо на конвейере и направлять их в соответствующие секции для переработки. В процессе разработки MARQUS мы столкнулись с задачей — найти или собрать подходящие датасеты, так как без них эффективность нейронной сети резко снижается, если вообще приближается к нулю. Мы перепробовали множество подходов, пересмотрели доступные датасеты с готовой разметкой и потратили достаточное количество времени и денег, чтобы честно признаться — на обучении нейронок сэкономить не получится, но обо всем по порядку.

https://habr.com/ru/articles/924696/

#управление_проектами #искусственный_интеллект #Машинное_обучение #открытые_данные #разметка_датасета #сбор_данных_для_ии #парсинг_данных #разметка_данных

#управление_проектами #искусственный_интеллект #машинное_обучение #открытые_данные #разметка_датасета #сбор_данных_для_ии

Habr @[email protected] · 2025-07-03 · 17:02 UTC

200 000+ снимков мусора: что мы узнали о датасетах

В нашей работе хватает безумных задач. Мы создали первого в России цифрового PR-менеджера, разрабатывали виртуальную примерочную и делали много чего еще, о чем не всегда можно рассказать. Но когда мы взялись за создание ИИ-сортировщика мусора MARQUS, поняли — будет совсем жестко. Не так давно мы создали систему сортировки ТКО (Твердых коммунальных отходов) MARQUS, которая делит отходы на бумагу, металл, пластик, стекло и т.д. Система использует искусственный интеллект и специальные сенсоры, чтобы распознавать различные типы отходов прямо на конвейере и направлять их в соответствующие секции для переработки. В процессе разработки MARQUS мы столкнулись с задачей — найти или собрать подходящие датасеты, так как без них эффективность нейронной сети резко снижается, если вообще приближается к нулю. Мы перепробовали множество подходов, пересмотрели доступные датасеты с готовой разметкой и потратили достаточное количество времени и денег, чтобы честно признаться — на обучении нейронок сэкономить не получится, но обо всем по порядку.

https://habr.com/ru/articles/924696/

#управление_проектами #искусственный_интеллект #Машинное_обучение #открытые_данные #разметка_датасета #сбор_данных_для_ии #парсинг_данных #разметка_данных

#управление_проектами #искусственный_интеллект #машинное_обучение #открытые_данные #разметка_датасета #сбор_данных_для_ии

Habr @[email protected] · 2025-07-03 · 17:02 UTC

200 000+ снимков мусора: что мы узнали о датасетах

В нашей работе хватает безумных задач. Мы создали первого в России цифрового PR-менеджера, разрабатывали виртуальную примерочную и делали много чего еще, о чем не всегда можно рассказать. Но когда мы взялись за создание ИИ-сортировщика мусора MARQUS, поняли — будет совсем жестко. Не так давно мы создали систему сортировки ТКО (Твердых коммунальных отходов) MARQUS, которая делит отходы на бумагу, металл, пластик, стекло и т.д. Система использует искусственный интеллект и специальные сенсоры, чтобы распознавать различные типы отходов прямо на конвейере и направлять их в соответствующие секции для переработки. В процессе разработки MARQUS мы столкнулись с задачей — найти или собрать подходящие датасеты, так как без них эффективность нейронной сети резко снижается, если вообще приближается к нулю. Мы перепробовали множество подходов, пересмотрели доступные датасеты с готовой разметкой и потратили достаточное количество времени и денег, чтобы честно признаться — на обучении нейронок сэкономить не получится, но обо всем по порядку.

https://habr.com/ru/articles/924696/

#управление_проектами #искусственный_интеллект #Машинное_обучение #открытые_данные #разметка_датасета #сбор_данных_для_ии #парсинг_данных #разметка_данных

#управление_проектами #искусственный_интеллект #машинное_обучение #открытые_данные #разметка_датасета #сбор_данных_для_ии

Habr @[email protected] · 2025-07-03 · 17:02 UTC

200 000+ снимков мусора: что мы узнали о датасетах

В нашей работе хватает безумных задач. Мы создали первого в России цифрового PR-менеджера, разрабатывали виртуальную примерочную и делали много чего еще, о чем не всегда можно рассказать. Но когда мы взялись за создание ИИ-сортировщика мусора MARQUS, поняли — будет совсем жестко. Не так давно мы создали систему сортировки ТКО (Твердых коммунальных отходов) MARQUS, которая делит отходы на бумагу, металл, пластик, стекло и т.д. Система использует искусственный интеллект и специальные сенсоры, чтобы распознавать различные типы отходов прямо на конвейере и направлять их в соответствующие секции для переработки. В процессе разработки MARQUS мы столкнулись с задачей — найти или собрать подходящие датасеты, так как без них эффективность нейронной сети резко снижается, если вообще приближается к нулю. Мы перепробовали множество подходов, пересмотрели доступные датасеты с готовой разметкой и потратили достаточное количество времени и денег, чтобы честно признаться — на обучении нейронок сэкономить не получится, но обо всем по порядку.

https://habr.com/ru/articles/924696/

#управление_проектами #искусственный_интеллект #Машинное_обучение #открытые_данные #разметка_датасета #сбор_данных_для_ии #парсинг_данных #разметка_данных

#разметка_данных #парсинг_данных #сбор_данных_для_ии #разметка_датасета #открытые_данные #машинное_обучение

Habr @[email protected] · 2025-07-02 · 15:02 UTC

Как мы научили нейросеть узнавать 10 000 лошадей «в лицо» и чуть не сошли с ума

В нашей работе хватает безумных задач. Мы собирали датасеты с уличными драками, где сами вживались в роль дебоширов перед камерами, и делали много чего еще, о чем не всегда можно рассказать. В общем, мы в своей работе привыкли к странным задачам. Но когда к нам пришли с просьбой научить искусственный интеллект узнавать «в лицо» 10 000 лошадей, мы поняли — будет интересно...

https://habr.com/ru/articles/924358/

#нейросети_для_табунов_и_конюшен #сбор_данных_для_ИИ #парсинг_данных #нейросети_для_агропрома #нейросети_для_ферм #разметка_данных #разметка_датасета

#разметка_датасета #разметка_данных #нейросети_для_ферм #нейросети_для_агропрома #парсинг_данных #сбор_данных_для_ии

Habr @[email protected] · 2025-07-02 · 15:02 UTC

Как мы научили нейросеть узнавать 10 000 лошадей «в лицо» и чуть не сошли с ума

В нашей работе хватает безумных задач. Мы собирали датасеты с уличными драками, где сами вживались в роль дебоширов перед камерами, и делали много чего еще, о чем не всегда можно рассказать. В общем, мы в своей работе привыкли к странным задачам. Но когда к нам пришли с просьбой научить искусственный интеллект узнавать «в лицо» 10 000 лошадей, мы поняли — будет интересно...

https://habr.com/ru/articles/924358/

#нейросети_для_табунов_и_конюшен #сбор_данных_для_ИИ #парсинг_данных #нейросети_для_агропрома #нейросети_для_ферм #разметка_данных #разметка_датасета

#разметка_датасета #разметка_данных #нейросети_для_ферм #нейросети_для_агропрома #парсинг_данных #сбор_данных_для_ии

Habr @[email protected] · 2025-07-02 · 15:02 UTC

Как мы научили нейросеть узнавать 10 000 лошадей «в лицо» и чуть не сошли с ума

В нашей работе хватает безумных задач. Мы собирали датасеты с уличными драками, где сами вживались в роль дебоширов перед камерами, и делали много чего еще, о чем не всегда можно рассказать. В общем, мы в своей работе привыкли к странным задачам. Но когда к нам пришли с просьбой научить искусственный интеллект узнавать «в лицо» 10 000 лошадей, мы поняли — будет интересно...

https://habr.com/ru/articles/924358/

#нейросети_для_табунов_и_конюшен #сбор_данных_для_ИИ #парсинг_данных #нейросети_для_агропрома #нейросети_для_ферм #разметка_данных #разметка_датасета

#разметка_датасета #разметка_данных #нейросети_для_ферм #нейросети_для_агропрома #парсинг_данных #сбор_данных_для_ии

Habr @[email protected] · 2025-07-02 · 15:02 UTC

Как мы научили нейросеть узнавать 10 000 лошадей «в лицо» и чуть не сошли с ума

В нашей работе хватает безумных задач. Мы собирали датасеты с уличными драками, где сами вживались в роль дебоширов перед камерами, и делали много чего еще, о чем не всегда можно рассказать. В общем, мы в своей работе привыкли к странным задачам. Но когда к нам пришли с просьбой научить искусственный интеллект узнавать «в лицо» 10 000 лошадей, мы поняли — будет интересно...

https://habr.com/ru/articles/924358/

#нейросети_для_табунов_и_конюшен #сбор_данных_для_ИИ #парсинг_данных #нейросети_для_агропрома #нейросети_для_ферм #разметка_данных #разметка_датасета

#нейросети_для_табунов_и_конюшен #сбор_данных_для_ии #парсинг_данных #нейросети_для_агропрома #нейросети_для_ферм #разметка_данных

Habr @[email protected] · 2024-11-21 · 05:22 UTC

FastAPI + APScheduler: Простой пошаговый гайд по созданию асинхронного API для мониторинга валют по расписанию на Python

Как создать асинхронный API для мониторинга курсов валют на Python? В этом практическом руководстве мы разработаем сервис на FastAPI с интеграцией APScheduler, который будет отслеживать курсы USD и EUR в банках России. Вы узнаете, как реализовать асинхронный парсинг данных, настроить планировщик задач и развернуть приложение в облаке. Проект включает систему аутентификации, фильтрацию данных и REST API — идеальный пример для изучения современной веб-разработки на Python.

https://habr.com/ru/companies/amvera/articles/859990/

#restapi #fastapi #python_api #sqlalchemy_20 #sqlite3 #aiosqlite #парсинг_данных #асинхронный_парсинг_данных #aiohttp #курс_валют_на_python

#курс_валют_на_python #aiohttp #асинхронный_парсинг_данных #парсинг_данных #aiosqlite #sqlite3

Habr @[email protected] · 2024-11-21 · 05:22 UTC

FastAPI + APScheduler: Простой пошаговый гайд по созданию асинхронного API для мониторинга валют по расписанию на Python

Как создать асинхронный API для мониторинга курсов валют на Python? В этом практическом руководстве мы разработаем сервис на FastAPI с интеграцией APScheduler, который будет отслеживать курсы USD и EUR в банках России. Вы узнаете, как реализовать асинхронный парсинг данных, настроить планировщик задач и развернуть приложение в облаке. Проект включает систему аутентификации, фильтрацию данных и REST API — идеальный пример для изучения современной веб-разработки на Python.

https://habr.com/ru/companies/amvera/articles/859990/

#restapi #fastapi #python_api #sqlalchemy_20 #sqlite3 #aiosqlite #парсинг_данных #асинхронный_парсинг_данных #aiohttp #курс_валют_на_python

#курс_валют_на_python #aiohttp #асинхронный_парсинг_данных #парсинг_данных #aiosqlite #sqlite3

Habr @[email protected] · 2024-11-21 · 05:22 UTC

FastAPI + APScheduler: Простой пошаговый гайд по созданию асинхронного API для мониторинга валют по расписанию на Python

Как создать асинхронный API для мониторинга курсов валют на Python? В этом практическом руководстве мы разработаем сервис на FastAPI с интеграцией APScheduler, который будет отслеживать курсы USD и EUR в банках России. Вы узнаете, как реализовать асинхронный парсинг данных, настроить планировщик задач и развернуть приложение в облаке. Проект включает систему аутентификации, фильтрацию данных и REST API — идеальный пример для изучения современной веб-разработки на Python.

https://habr.com/ru/companies/amvera/articles/859990/

#restapi #fastapi #python_api #sqlalchemy_20 #sqlite3 #aiosqlite #парсинг_данных #асинхронный_парсинг_данных #aiohttp #курс_валют_на_python

#restapi #fastapi #python_api #sqlalchemy_20 #sqlite3 #aiosqlite

Habr @[email protected] · 2025-06-06 · 06:22 UTC

Парсим YouTube на Python как для взрослых: отказоустойчивый скрипт с ротацией ключей

Путь разработчика парсеров тернист и сложен, сперва ты пытаешься обойти официальные ограничения, потому что так проще, так нету квот и разных требований. Параллельно мучаясь с Selenium, в попытка угнаться за меняющейся версткой YouTube. Кто-то пишет простые скрипты на requests, которые падают при первой же ошибке. И куда вас все эти действия приводят? Снова ко мне - к официальному YouTube Data API v3 .

https://habr.com/ru/articles/916114/

#парсинг #парсинг_контента #парсинг_сайта #парсинг_данных #парсинг_youtube #youtube_api

#youtube_api #парсинг_youtube #парсинг_данных #парсинг_сайта #парсинг_контента #парсинг

Habr @[email protected] · 2025-03-23 · 18:52 UTC

Топ веб‑парсеров и API-сервисов для сбора данных: сравнение скорости, масштабируемости и обхода защит

Автоматический сбор данных (парсинг, или web scraping) стал неотъемлемой практикой для разработчиков, аналитиков и автоматизаторов. С его помощью получают массовую информацию с сайтов – от цен конкурентов и отзывов до контента соцсетей. Для этого разработано множество “парсеров” – библиотек, фреймворков и облачных сервисов, которые позволяют извлекать веб-данные программно. Одни решения требуются для быстрого парсинга статичных страниц, другие – для обхода сложной JavaScript-навигации, третьи – для получения данных через API. В этой статье я рассмотрю топ инструментов для парсинга – как открытых (Open Source) библиотек, так и коммерческих SaaS/API-сервисов – и сравню их по ключевым метрикам:

https://habr.com/ru/articles/893622/

#парсинг #парсинг_контента #парсеры #парсинг_сайтов #парсинг_json #парсинг_данных #парсинг_html #парсер_сайтов #парсинг_сайта #парсер

#парсер #парсинг_сайта #парсер_сайтов #парсинг_html #парсинг_данных #парсинг_json

Habr @[email protected] · 2024-05-06 · 12:32 UTC

Кейс: как с помощью парсинга Авито и ЦИАН увеличить эффективность отдела развития крупной ритейл компании на ~27%

Привет! В этом кейсе хочу описать процесс взаимодействие заказчика с поиском новых объявлений по определенным адресам (координатам) по всей России. Суть: необходимо мониторить объявления объектов коммерческой недвижимости (аренда) на Авито и ЦИАН по заданным критериям. Необычность задачи - поиск объявлений в определенном радиусе от изначальной точки координаты. Заказчик: крупнейшая сеть аптек (ввиду коммерческой тайны, раскрыть названия не могу), насчитывающая более 1000 оффлайн-точек по всей России. Для расширения своего присутствия на российском рынке в формате «на каждом шагу», заказчиком было принято решение занимать данный рынок через поиск объявлений об аренде коммерческой недвижимости. Сложность: на 4 менеджеров по развитию внутри компании - приходилось отслеживать более 7000 определенных адресов по всей РФ на наличие новых объектов аренды недвижимости в определенном радиусе (и это только на одном ресурсе). На подобный поиск новых объявлений могло уходить от 2х недель до 3х месяцев. Выходило трудозатратно и неудобно (ну а помимо этого, есть же еще и другие бизнес-процессы). При этом, очень крутые, вкусные объявления, улетали за считанные дни, которые даже могли не попасть в обозрение заказчиком. Читать кейс

https://habr.com/ru/articles/812631/

#парсинг_контента #парсинг_сайтов #парсинг_данных #парсинг

#парсинг #парсинг_данных #парсинг_сайтов #парсинг_контента

Habr @[email protected] · 2024-11-24 · 20:32 UTC

Парсинг сайта на Python для НСИ

Для проверки определенных типов данных я предлагаю парсинг сайтов, а автоматизация исправления уже на ваш вкус. Например, различные языки программирования. Лично я за весь свой опыт использовал: C#, Python, VBA для работы с Excel, в зависимости от ситуации. Также поделюсь полезным файлом, который можно использовать в автоматизации проверки номенклатурных позиций.

https://habr.com/ru/articles/860874/

#python #нси #erpсистемы #парсинг_данных

#парсинг_данных #erpсистемы #нси #python

Habr @[email protected] · 2024-11-24 · 20:32 UTC

Парсинг сайта на Python для НСИ

Для проверки определенных типов данных я предлагаю парсинг сайтов, а автоматизация исправления уже на ваш вкус. Например, различные языки программирования. Лично я за весь свой опыт использовал: C#, Python, VBA для работы с Excel, в зависимости от ситуации. Также поделюсь полезным файлом, который можно использовать в автоматизации проверки номенклатурных позиций.

https://habr.com/ru/articles/860874/

#python #нси #erpсистемы #парсинг_данных

#парсинг_данных #erpсистемы #нси #python

Habr @[email protected] · 2024-11-24 · 20:32 UTC

Парсинг сайта на Python для НСИ

Для проверки определенных типов данных я предлагаю парсинг сайтов, а автоматизация исправления уже на ваш вкус. Например, различные языки программирования. Лично я за весь свой опыт использовал: C#, Python, VBA для работы с Excel, в зависимости от ситуации. Также поделюсь полезным файлом, который можно использовать в автоматизации проверки номенклатурных позиций.

https://habr.com/ru/articles/860874/

#python #нси #erpсистемы #парсинг_данных

Habr @[email protected] · 2023-12-30 · 08:07 UTC

[Перевод] Быстрый парсинг 8-битных целых чисел

Допустим, вам нужно быстро распарсить 8-битные целые числа (0, 1, 2, …, 254, 255) из строки ASCII/UTF-8. Задача взята из проекта simdzone под руководством Йероена Коеккоека (NLnet Labs). Дана строка и её длина: например, ’22’ и длина 2. Наивное решение на C может выглядеть так:

https://habr.com/ru/articles/784102/

#ascii #парсинг_данных #utf8 #работа_со_строками

#работа_со_строками #utf8 #парсинг_данных #ascii