home.social

#парсинг_данных — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #парсинг_данных, aggregated by home.social.

  1. Как я спас продакшен (n8n 1.41+ и Python-парсеры) от сетевых аномалий в мае 2026 года

    В этой статье я покажу, как обеспечить отказоустойчивость бизнес-процессов на стеке n8n (v1.41+) и Python в условиях жесткой деградации магистральных сетей. Мы разберем реальный кейс: как пофиксить внезапный отвал зашифрованных туннелей (Xray/VLESS) и асимметричный роутинг, не останавливая работу парсеров. На выходе — готовая архитектура резервирования маршрутов. Бизнес не потерял ни минуты аптайма, интеграции с CRM продолжили работать как часы, а потребление памяти сервером снизилось в 7 раз

    habr.com/ru/articles/1040402/

    #автоматизация_бизнеспроцессов #n8n #парсинг_данных #интеграция_сервисов #отказоустойчивость #оптимизация_процессов #python #telegramботы

  2. Gamedev. Парсинг данных из Google Sheets и Excel в json без привлечения программистов

    Вы когда-нибудь заполняли json-конфигов на 20 000 - 25 0000 строк вручную перед выпуском релиза? А боль в глазах геймдизайнеров от этого процесса видели? Вы TechLead/Менеджер и к вам часто подходят дизайнеры с просьбой написать парсер данных, а свободных рук нет? А после изменений в фиче приходится выделять человека для правок схемы парсинга под новую разметку? Возможно, пора начать использовать тулзу по экспорту данных, которую смогут настроить сами геймдизайнеры? Нам этот инструмент сократил время настройки игровых конфигов с 4 дней до 15 минут, после предварительной настройки. Привет! Меня зовут Игорь, я занимаюсь разработкой на Unity c 2018 года. В статье рассказываю о тулзе, с помощью которой можно выгружать данные из Google Sheets и Excel в json без привлечения программистов. P.S. в конце статьи есть видосик с процессом настройки и экспорта одной фичи.

    habr.com/ru/articles/1039798/

    #геймдизайн #excel #google_sheets #парсинг_данных #парсинг_json #оптимизация_процессов #управление_персоналом #игровой_баланс #tools #экспорт_данных

  3. Gamedev. Парсинг данных из Google Sheets и Excel в json без привлечения программистов

    Вы когда-нибудь заполняли json-конфигов на 20 000 - 25 0000 строк вручную перед выпуском релиза? А боль в глазах геймдизайнеров от этого процесса видели? Вы TechLead/Менеджер и к вам часто подходят дизайнеры с просьбой написать парсер данных, а свободных рук нет? А после изменений в фиче приходится выделять человека для правок схемы парсинга под новую разметку? Возможно, пора начать использовать тулзу по экспорту данных, которую смогут настроить сами геймдизайнеры? Нам этот инструмент сократил время настройки игровых конфигов с 4 дней до 15 минут, после предварительной настройки. Привет! Меня зовут Игорь, я занимаюсь разработкой на Unity c 2018 года. В статье рассказываю о тулзе, с помощью которой можно выгружать данные из Google Sheets и Excel в json без привлечения программистов. P.S. в конце статьи есть видосик с процессом настройки и экспорта одной фичи.

    habr.com/ru/articles/1039798/

    #геймдизайн #excel #google_sheets #парсинг_данных #парсинг_json #оптимизация_процессов #управление_персоналом #игровой_баланс #tools #экспорт_данных

  4. Gamedev. Парсинг данных из Google Sheets и Excel в json без привлечения программистов

    Вы когда-нибудь заполняли json-конфигов на 20 000 - 25 0000 строк вручную перед выпуском релиза? А боль в глазах геймдизайнеров от этого процесса видели? Вы TechLead/Менеджер и к вам часто подходят дизайнеры с просьбой написать парсер данных, а свободных рук нет? А после изменений в фиче приходится выделять человека для правок схемы парсинга под новую разметку? Возможно, пора начать использовать тулзу по экспорту данных, которую смогут настроить сами геймдизайнеры? Нам этот инструмент сократил время настройки игровых конфигов с 4 дней до 15 минут, после предварительной настройки. Привет! Меня зовут Игорь, я занимаюсь разработкой на Unity c 2018 года. В статье рассказываю о тулзе, с помощью которой можно выгружать данные из Google Sheets и Excel в json без привлечения программистов. P.S. в конце статьи есть видосик с процессом настройки и экспорта одной фичи.

    habr.com/ru/articles/1039798/

    #геймдизайн #excel #google_sheets #парсинг_данных #парсинг_json #оптимизация_процессов #управление_персоналом #игровой_баланс #tools #экспорт_данных

  5. Gamedev. Парсинг данных из Google Sheets и Excel в json без привлечения программистов

    Вы когда-нибудь заполняли json-конфигов на 20 000 - 25 0000 строк вручную перед выпуском релиза? А боль в глазах геймдизайнеров от этого процесса видели? Вы TechLead/Менеджер и к вам часто подходят дизайнеры с просьбой написать парсер данных, а свободных рук нет? А после изменений в фиче приходится выделять человека для правок схемы парсинга под новую разметку? Возможно, пора начать использовать тулзу по экспорту данных, которую смогут настроить сами геймдизайнеры? Нам этот инструмент сократил время настройки игровых конфигов с 4 дней до 15 минут, после предварительной настройки. Привет! Меня зовут Игорь, я занимаюсь разработкой на Unity c 2018 года. В статье рассказываю о тулзе, с помощью которой можно выгружать данные из Google Sheets и Excel в json без привлечения программистов. P.S. в конце статьи есть видосик с процессом настройки и экспорта одной фичи.

    habr.com/ru/articles/1039798/

    #геймдизайн #excel #google_sheets #парсинг_данных #парсинг_json #оптимизация_процессов #управление_персоналом #игровой_баланс #tools #экспорт_данных

  6. Как я сделал “Авиасейлз для логистики”: агрегатор заявок из 16+ источников

    В логистике проблема часто не в том, что нет данных. Проблема в том, что данные разбросаны по разным местам. Одни заявки лежат во внутренней системе, другие — в закрытых кабинетах грузоотправителей, третьи — на тендерных площадках, четвёртые приходят через Excel-выгрузки, пятые доступны только через веб-интерфейс. Где-то есть нормальный HTTP-обмен, где-то данные спрятаны за фронтендом, где-то приходится читать DOM-таблицу, а где-то сначала кажется, что всё просто, пока не выясняется, что цена приходит в копейках, маршрут состоит из трёх точек, а тип кузова записан как “тент 20т, верхняя загрузка”. Для менеджера всё это выглядит не как единый рынок грузов, а как набор вкладок в браузере. Открыть один кабинет. Потом второй. Потом третий. Проверить направление. Сравнить цену. Посмотреть дату. Понять, где реф, где тент, где просто “20 тонн”. Не забыть про аукцион, у которого скоро истекает время. Потом всё равно перенести результат в таблицу или открыть внутреннюю панель. В какой-то момент стало понятно: нам нужен не ещё один парсер, а единая витрина. Так появился внутренний агрегатор заявок — условный “Авиасейлз для логистики”.

    habr.com/ru/articles/1035316/

    #логистика #автоматизация #парсинг_данных #агрегатор_заявок #ETL #PostgreSQL #Python #Google_Sheets #FastAPI

  7. Как я сделал “Авиасейлз для логистики”: агрегатор заявок из 16+ источников

    В логистике проблема часто не в том, что нет данных. Проблема в том, что данные разбросаны по разным местам. Одни заявки лежат во внутренней системе, другие — в закрытых кабинетах грузоотправителей, третьи — на тендерных площадках, четвёртые приходят через Excel-выгрузки, пятые доступны только через веб-интерфейс. Где-то есть нормальный HTTP-обмен, где-то данные спрятаны за фронтендом, где-то приходится читать DOM-таблицу, а где-то сначала кажется, что всё просто, пока не выясняется, что цена приходит в копейках, маршрут состоит из трёх точек, а тип кузова записан как “тент 20т, верхняя загрузка”. Для менеджера всё это выглядит не как единый рынок грузов, а как набор вкладок в браузере. Открыть один кабинет. Потом второй. Потом третий. Проверить направление. Сравнить цену. Посмотреть дату. Понять, где реф, где тент, где просто “20 тонн”. Не забыть про аукцион, у которого скоро истекает время. Потом всё равно перенести результат в таблицу или открыть внутреннюю панель. В какой-то момент стало понятно: нам нужен не ещё один парсер, а единая витрина. Так появился внутренний агрегатор заявок — условный “Авиасейлз для логистики”.

    habr.com/ru/articles/1035316/

    #логистика #автоматизация #парсинг_данных #агрегатор_заявок #ETL #PostgreSQL #Python #Google_Sheets #FastAPI

  8. Как я сделал “Авиасейлз для логистики”: агрегатор заявок из 16+ источников

    В логистике проблема часто не в том, что нет данных. Проблема в том, что данные разбросаны по разным местам. Одни заявки лежат во внутренней системе, другие — в закрытых кабинетах грузоотправителей, третьи — на тендерных площадках, четвёртые приходят через Excel-выгрузки, пятые доступны только через веб-интерфейс. Где-то есть нормальный HTTP-обмен, где-то данные спрятаны за фронтендом, где-то приходится читать DOM-таблицу, а где-то сначала кажется, что всё просто, пока не выясняется, что цена приходит в копейках, маршрут состоит из трёх точек, а тип кузова записан как “тент 20т, верхняя загрузка”. Для менеджера всё это выглядит не как единый рынок грузов, а как набор вкладок в браузере. Открыть один кабинет. Потом второй. Потом третий. Проверить направление. Сравнить цену. Посмотреть дату. Понять, где реф, где тент, где просто “20 тонн”. Не забыть про аукцион, у которого скоро истекает время. Потом всё равно перенести результат в таблицу или открыть внутреннюю панель. В какой-то момент стало понятно: нам нужен не ещё один парсер, а единая витрина. Так появился внутренний агрегатор заявок — условный “Авиасейлз для логистики”.

    habr.com/ru/articles/1035316/

    #логистика #автоматизация #парсинг_данных #агрегатор_заявок #ETL #PostgreSQL #Python #Google_Sheets #FastAPI

  9. Как я сделал “Авиасейлз для логистики”: агрегатор заявок из 16+ источников

    В логистике проблема часто не в том, что нет данных. Проблема в том, что данные разбросаны по разным местам. Одни заявки лежат во внутренней системе, другие — в закрытых кабинетах грузоотправителей, третьи — на тендерных площадках, четвёртые приходят через Excel-выгрузки, пятые доступны только через веб-интерфейс. Где-то есть нормальный HTTP-обмен, где-то данные спрятаны за фронтендом, где-то приходится читать DOM-таблицу, а где-то сначала кажется, что всё просто, пока не выясняется, что цена приходит в копейках, маршрут состоит из трёх точек, а тип кузова записан как “тент 20т, верхняя загрузка”. Для менеджера всё это выглядит не как единый рынок грузов, а как набор вкладок в браузере. Открыть один кабинет. Потом второй. Потом третий. Проверить направление. Сравнить цену. Посмотреть дату. Понять, где реф, где тент, где просто “20 тонн”. Не забыть про аукцион, у которого скоро истекает время. Потом всё равно перенести результат в таблицу или открыть внутреннюю панель. В какой-то момент стало понятно: нам нужен не ещё один парсер, а единая витрина. Так появился внутренний агрегатор заявок — условный “Авиасейлз для логистики”.

    habr.com/ru/articles/1035316/

    #логистика #автоматизация #парсинг_данных #агрегатор_заявок #ETL #PostgreSQL #Python #Google_Sheets #FastAPI

  10. Сбор сведений из открытых источников: почему это рискованно, если выкачивается информация из чужих баз данных?

    Собрать информацию о человеке или продукте с использованием высоких технологий стало делом техники. В прямом и переносном смысле слова. Однако такое выкачивание данных может стать поводом для судебного разбирательства. Почему это происходит — далее в материале.

    habr.com/ru/companies/onlinepa

    #базы_данных #база_дынных #парсинг #парсинг_контента #парсинг_сайтов #парсинг_сайта #парсинг_данных #защита_данных #защита_данных_пользователей #законодательство

  11. Сбор сведений из открытых источников: почему это рискованно, если выкачивается информация из чужих баз данных?

    Собрать информацию о человеке или продукте с использованием высоких технологий стало делом техники. В прямом и переносном смысле слова. Однако такое выкачивание данных может стать поводом для судебного разбирательства. Почему это происходит — далее в материале.

    habr.com/ru/companies/onlinepa

    #базы_данных #база_дынных #парсинг #парсинг_контента #парсинг_сайтов #парсинг_сайта #парсинг_данных #защита_данных #защита_данных_пользователей #законодательство

  12. Сбор сведений из открытых источников: почему это рискованно, если выкачивается информация из чужих баз данных?

    Собрать информацию о человеке или продукте с использованием высоких технологий стало делом техники. В прямом и переносном смысле слова. Однако такое выкачивание данных может стать поводом для судебного разбирательства. Почему это происходит — далее в материале.

    habr.com/ru/companies/onlinepa

    #базы_данных #база_дынных #парсинг #парсинг_контента #парсинг_сайтов #парсинг_сайта #парсинг_данных #защита_данных #защита_данных_пользователей #законодательство

  13. Сбор сведений из открытых источников: почему это рискованно, если выкачивается информация из чужих баз данных?

    Собрать информацию о человеке или продукте с использованием высоких технологий стало делом техники. В прямом и переносном смысле слова. Однако такое выкачивание данных может стать поводом для судебного разбирательства. Почему это происходит — далее в материале.

    habr.com/ru/companies/onlinepa

    #базы_данных #база_дынных #парсинг #парсинг_контента #парсинг_сайтов #парсинг_сайта #парсинг_данных #защита_данных #защита_данных_пользователей #законодательство

  14. Парсинг цен и данных о товарах конкурентов на Wildberries

    Всем привет! Ранее я уже писал про парсинг Wildberries, но та статья была довольно узконаправленной и не затрагивала более широкие возможности анализа. Да и с тех пор многое изменилось — тема стала ещё актуальнее, а у читателей накопилось больше вопросов. Поэтому в этой статье мы разберём тему заново, но уже с акцентом на практическую пользу.

    habr.com/ru/companies/amvera/a

    #парсинг_цен #парсинг_данных #парсинг_конкурентов #парсинг_wildberries #парсинг_wb #парсер_цен #парсер_цен_конкурентов #парсер_wildberries #парсинг_на_python #парсинг_товаров

  15. Парсинг цен и данных о товарах конкурентов на Wildberries

    Всем привет! Ранее я уже писал про парсинг Wildberries, но та статья была довольно узконаправленной и не затрагивала более широкие возможности анализа. Да и с тех пор многое изменилось — тема стала ещё актуальнее, а у читателей накопилось больше вопросов. Поэтому в этой статье мы разберём тему заново, но уже с акцентом на практическую пользу.

    habr.com/ru/companies/amvera/a

    #парсинг_цен #парсинг_данных #парсинг_конкурентов #парсинг_wildberries #парсинг_wb #парсер_цен #парсер_цен_конкурентов #парсер_wildberries #парсинг_на_python #парсинг_товаров

  16. Парсинг цен и данных о товарах конкурентов на Wildberries

    Всем привет! Ранее я уже писал про парсинг Wildberries, но та статья была довольно узконаправленной и не затрагивала более широкие возможности анализа. Да и с тех пор многое изменилось — тема стала ещё актуальнее, а у читателей накопилось больше вопросов. Поэтому в этой статье мы разберём тему заново, но уже с акцентом на практическую пользу.

    habr.com/ru/companies/amvera/a

    #парсинг_цен #парсинг_данных #парсинг_конкурентов #парсинг_wildberries #парсинг_wb #парсер_цен #парсер_цен_конкурентов #парсер_wildberries #парсинг_на_python #парсинг_товаров

  17. Парсинг цен и данных о товарах конкурентов на Wildberries

    Всем привет! Ранее я уже писал про парсинг Wildberries, но та статья была довольно узконаправленной и не затрагивала более широкие возможности анализа. Да и с тех пор многое изменилось — тема стала ещё актуальнее, а у читателей накопилось больше вопросов. Поэтому в этой статье мы разберём тему заново, но уже с акцентом на практическую пользу.

    habr.com/ru/companies/amvera/a

    #парсинг_цен #парсинг_данных #парсинг_конкурентов #парсинг_wildberries #парсинг_wb #парсер_цен #парсер_цен_конкурентов #парсер_wildberries #парсинг_на_python #парсинг_товаров

  18. Парсер Гугл Карт: обзор, инструкция и сценарии для многопоточного парсера — готовое решение для парсинга отзывов

    Google Maps - крупнейших источник данных о различных местах, начиная от точек общепита и заканчивая офисами корпораций. В карточках организаций и мест собраны названия, адреса, контакты, рейтинги и конечно же отзывы. Для кого-то (маркетологи, SEO-специалисты, аналитики) эти данные - кладезь полезной информации: с их помощью собираются базы потенциальных клиентов, анализируются конкуренты, кто-то даже проводит исследования рынка. А вот для кого-то (разработчики парсеров) - это настоящая боль. Или дорого, или сложно или и дорого и сложно одновременно. Google, конечно понимает повышенный интерес к своей базе и предоставляет официальный API для парсинга (Google Places API), но у него есть существенные ограничения - во-первых, он платный, что на больших объемах существенно бъет по бюджету, а во-вторых, тут есть лимиты по частоте запросов. Эти ограничения и побуждают компании прибегать к альтернативному подходу - парсингу отзывов (как в моем случае) или парсингу данных (в широком смысле) непосредственно с веб-версии Google Maps, минуя официальный API. Собственно я прошел этот путь ровно также, как его проходит большинство специалистов, кому нужны данные из Гугл Карт. Сперва АПИ, считаем экономику - понимаем что она не сходится - перестраиваем экономику и вместо оплаты лимитов Гугла, сокращаем траты за счет использования прокси и многопоточного парсера. Собственно из затрат у меня реально были только прокси от Proxyma , я использовал самый простой тариф 5$ за 1 Гб трафика, но в целом, если взять сразу 30Гб то цена снижается уже до 3$ за Гб трафика, что уже интереснее.

    habr.com/ru/articles/942374/

    #парсинг_данных #парсер #парсеры #парсинг #google_maps

  19. Парсер Гугл Карт: обзор, инструкция и сценарии для многопоточного парсера — готовое решение для парсинга отзывов

    Google Maps - крупнейших источник данных о различных местах, начиная от точек общепита и заканчивая офисами корпораций. В карточках организаций и мест собраны названия, адреса, контакты, рейтинги и конечно же отзывы. Для кого-то (маркетологи, SEO-специалисты, аналитики) эти данные - кладезь полезной информации: с их помощью собираются базы потенциальных клиентов, анализируются конкуренты, кто-то даже проводит исследования рынка. А вот для кого-то (разработчики парсеров) - это настоящая боль. Или дорого, или сложно или и дорого и сложно одновременно. Google, конечно понимает повышенный интерес к своей базе и предоставляет официальный API для парсинга (Google Places API), но у него есть существенные ограничения - во-первых, он платный, что на больших объемах существенно бъет по бюджету, а во-вторых, тут есть лимиты по частоте запросов. Эти ограничения и побуждают компании прибегать к альтернативному подходу - парсингу отзывов (как в моем случае) или парсингу данных (в широком смысле) непосредственно с веб-версии Google Maps, минуя официальный API. Собственно я прошел этот путь ровно также, как его проходит большинство специалистов, кому нужны данные из Гугл Карт. Сперва АПИ, считаем экономику - понимаем что она не сходится - перестраиваем экономику и вместо оплаты лимитов Гугла, сокращаем траты за счет использования прокси и многопоточного парсера. Собственно из затрат у меня реально были только прокси от Proxyma , я использовал самый простой тариф 5$ за 1 Гб трафика, но в целом, если взять сразу 30Гб то цена снижается уже до 3$ за Гб трафика, что уже интереснее.

    habr.com/ru/articles/942374/

    #парсинг_данных #парсер #парсеры #парсинг #google_maps

  20. Парсер Гугл Карт: обзор, инструкция и сценарии для многопоточного парсера — готовое решение для парсинга отзывов

    Google Maps - крупнейших источник данных о различных местах, начиная от точек общепита и заканчивая офисами корпораций. В карточках организаций и мест собраны названия, адреса, контакты, рейтинги и конечно же отзывы. Для кого-то (маркетологи, SEO-специалисты, аналитики) эти данные - кладезь полезной информации: с их помощью собираются базы потенциальных клиентов, анализируются конкуренты, кто-то даже проводит исследования рынка. А вот для кого-то (разработчики парсеров) - это настоящая боль. Или дорого, или сложно или и дорого и сложно одновременно. Google, конечно понимает повышенный интерес к своей базе и предоставляет официальный API для парсинга (Google Places API), но у него есть существенные ограничения - во-первых, он платный, что на больших объемах существенно бъет по бюджету, а во-вторых, тут есть лимиты по частоте запросов. Эти ограничения и побуждают компании прибегать к альтернативному подходу - парсингу отзывов (как в моем случае) или парсингу данных (в широком смысле) непосредственно с веб-версии Google Maps, минуя официальный API. Собственно я прошел этот путь ровно также, как его проходит большинство специалистов, кому нужны данные из Гугл Карт. Сперва АПИ, считаем экономику - понимаем что она не сходится - перестраиваем экономику и вместо оплаты лимитов Гугла, сокращаем траты за счет использования прокси и многопоточного парсера. Собственно из затрат у меня реально были только прокси от Proxyma , я использовал самый простой тариф 5$ за 1 Гб трафика, но в целом, если взять сразу 30Гб то цена снижается уже до 3$ за Гб трафика, что уже интереснее.

    habr.com/ru/articles/942374/

    #парсинг_данных #парсер #парсеры #парсинг #google_maps

  21. Парсер Гугл Карт: обзор, инструкция и сценарии для многопоточного парсера — готовое решение для парсинга отзывов

    Google Maps - крупнейших источник данных о различных местах, начиная от точек общепита и заканчивая офисами корпораций. В карточках организаций и мест собраны названия, адреса, контакты, рейтинги и конечно же отзывы. Для кого-то (маркетологи, SEO-специалисты, аналитики) эти данные - кладезь полезной информации: с их помощью собираются базы потенциальных клиентов, анализируются конкуренты, кто-то даже проводит исследования рынка. А вот для кого-то (разработчики парсеров) - это настоящая боль. Или дорого, или сложно или и дорого и сложно одновременно. Google, конечно понимает повышенный интерес к своей базе и предоставляет официальный API для парсинга (Google Places API), но у него есть существенные ограничения - во-первых, он платный, что на больших объемах существенно бъет по бюджету, а во-вторых, тут есть лимиты по частоте запросов. Эти ограничения и побуждают компании прибегать к альтернативному подходу - парсингу отзывов (как в моем случае) или парсингу данных (в широком смысле) непосредственно с веб-версии Google Maps, минуя официальный API. Собственно я прошел этот путь ровно также, как его проходит большинство специалистов, кому нужны данные из Гугл Карт. Сперва АПИ, считаем экономику - понимаем что она не сходится - перестраиваем экономику и вместо оплаты лимитов Гугла, сокращаем траты за счет использования прокси и многопоточного парсера. Собственно из затрат у меня реально были только прокси от Proxyma , я использовал самый простой тариф 5$ за 1 Гб трафика, но в целом, если взять сразу 30Гб то цена снижается уже до 3$ за Гб трафика, что уже интереснее.

    habr.com/ru/articles/942374/

    #парсинг_данных #парсер #парсеры #парсинг #google_maps

  22. Универсальный парсинг сайтов на Python: requests vs headless, токены, куки, прокси и ротация IP

    Вы когда-нибудь радовались идеальному прототипу парсера, который у вас летал на демо-странице, а в проде внезапно начал ловить 403, 429, пустые HTML и «куда-то делись карточки»? Контент отрисовывается на JS, сервер требует токен, после смены IP, старая сессия перестаёт работать. В этой статье я подробно разберу, как собирать данные устойчиво и предсказуемо, без излишней магии и с упором на реальную эксплуатацию.

    habr.com/ru/companies/amvera/a

    #прасинг #парсинг_сайтов_на_python #парсинг_сайтов #парсинг_данных_с_сайта #парсинг_сайтов_конкурентов #парсинг_данных #парсинг_конкурентов #веб_скрапинг #скрапинг_python #парсер_сайтов

  23. Универсальный парсинг сайтов на Python: requests vs headless, токены, куки, прокси и ротация IP

    Вы когда-нибудь радовались идеальному прототипу парсера, который у вас летал на демо-странице, а в проде внезапно начал ловить 403, 429, пустые HTML и «куда-то делись карточки»? Контент отрисовывается на JS, сервер требует токен, после смены IP, старая сессия перестаёт работать. В этой статье я подробно разберу, как собирать данные устойчиво и предсказуемо, без излишней магии и с упором на реальную эксплуатацию.

    habr.com/ru/companies/amvera/a

    #прасинг #парсинг_сайтов_на_python #парсинг_сайтов #парсинг_данных_с_сайта #парсинг_сайтов_конкурентов #парсинг_данных #парсинг_конкурентов #веб_скрапинг #скрапинг_python #парсер_сайтов

  24. Универсальный парсинг сайтов на Python: requests vs headless, токены, куки, прокси и ротация IP

    Вы когда-нибудь радовались идеальному прототипу парсера, который у вас летал на демо-странице, а в проде внезапно начал ловить 403, 429, пустые HTML и «куда-то делись карточки»? Контент отрисовывается на JS, сервер требует токен, после смены IP, старая сессия перестаёт работать. В этой статье я подробно разберу, как собирать данные устойчиво и предсказуемо, без излишней магии и с упором на реальную эксплуатацию.

    habr.com/ru/companies/amvera/a

    #прасинг #парсинг_сайтов_на_python #парсинг_сайтов #парсинг_данных_с_сайта #парсинг_сайтов_конкурентов #парсинг_данных #парсинг_конкурентов #веб_скрапинг #скрапинг_python #парсер_сайтов

  25. Универсальный парсинг сайтов на Python: requests vs headless, токены, куки, прокси и ротация IP

    Вы когда-нибудь радовались идеальному прототипу парсера, который у вас летал на демо-странице, а в проде внезапно начал ловить 403, 429, пустые HTML и «куда-то делись карточки»? Контент отрисовывается на JS, сервер требует токен, после смены IP, старая сессия перестаёт работать. В этой статье я подробно разберу, как собирать данные устойчиво и предсказуемо, без излишней магии и с упором на реальную эксплуатацию.

    habr.com/ru/companies/amvera/a

    #прасинг #парсинг_сайтов_на_python #парсинг_сайтов #парсинг_данных_с_сайта #парсинг_сайтов_конкурентов #парсинг_данных #парсинг_конкурентов #веб_скрапинг #скрапинг_python #парсер_сайтов

  26. Telegram как платформа для автоматизации бизнеса: боты, парсеры, прокси и защита

    Telegram — не просто альтернатива WhatsApp или Slack. Это полноценная платформа с открытым API, богатой экосистемой и миллионами активных пользователей. За последние годы Telegram стал ключевым инструментом в сфере:

    habr.com/ru/articles/930680/

    #информационная_безопасность #devops #api #инструменты_разработчика #telegram #telegram_bot #автоматизация_процессов #парсинг_данных

  27. Telegram как платформа для автоматизации бизнеса: боты, парсеры, прокси и защита

    Telegram — не просто альтернатива WhatsApp или Slack. Это полноценная платформа с открытым API, богатой экосистемой и миллионами активных пользователей. За последние годы Telegram стал ключевым инструментом в сфере:

    habr.com/ru/articles/930680/

    #информационная_безопасность #devops #api #инструменты_разработчика #telegram #telegram_bot #автоматизация_процессов #парсинг_данных

  28. Telegram как платформа для автоматизации бизнеса: боты, парсеры, прокси и защита

    Telegram — не просто альтернатива WhatsApp или Slack. Это полноценная платформа с открытым API, богатой экосистемой и миллионами активных пользователей. За последние годы Telegram стал ключевым инструментом в сфере:

    habr.com/ru/articles/930680/

    #информационная_безопасность #devops #api #инструменты_разработчика #telegram #telegram_bot #автоматизация_процессов #парсинг_данных

  29. Telegram как платформа для автоматизации бизнеса: боты, парсеры, прокси и защита

    Telegram — не просто альтернатива WhatsApp или Slack. Это полноценная платформа с открытым API, богатой экосистемой и миллионами активных пользователей. За последние годы Telegram стал ключевым инструментом в сфере:

    habr.com/ru/articles/930680/

    #информационная_безопасность #devops #api #инструменты_разработчика #telegram #telegram_bot #автоматизация_процессов #парсинг_данных

  30. FastAPI + APScheduler: Простой пошаговый гайд по созданию асинхронного API для мониторинга валют по расписанию на Python

    Как создать асинхронный API для мониторинга курсов валют на Python? В этом практическом руководстве мы разработаем сервис на FastAPI с интеграцией APScheduler, который будет отслеживать курсы USD и EUR в банках России. Вы узнаете, как реализовать асинхронный парсинг данных, настроить планировщик задач и развернуть приложение в облаке. Проект включает систему аутентификации, фильтрацию данных и REST API — идеальный пример для изучения современной веб-разработки на Python.

    habr.com/ru/companies/amvera/a

    #restapi #fastapi #python_api #sqlalchemy_20 #sqlite3 #aiosqlite #парсинг_данных #асинхронный_парсинг_данных #aiohttp #курс_валют_на_python

  31. Парсинг сайта на Python для НСИ

    Для проверки определенных типов данных я предлагаю парсинг сайтов, а автоматизация исправления уже на ваш вкус. Например, различные языки программирования. Лично я за весь свой опыт использовал: C#, Python, VBA для работы с Excel, в зависимости от ситуации. Также поделюсь полезным файлом, который можно использовать в автоматизации проверки номенклатурных позиций.

    habr.com/ru/articles/860874/

    #python #нси #erpсистемы #парсинг_данных

  32. Автоматизация сбора данных: как подтянуть курсы валютных пар ЦБ РФ

    Во время расчёта доходности торговли валютными парами или акциями pre-IPO , для расчетов NPV и других финансовых показателей всегда нужны актуальные курсы валютных пар. Долгое время открывать сайт Центробанка РФ (ЦБ РФ) и копировать валютные курсы в Excel курсы ЦБ РФ становится лень – и тут на помощь приходят Excel и VBA. Наипростейшее решение – сделать в Excel выпадающий список с выбором валюты и написать макрос, который сам подтянет нужный курс с сайта ЦБ РФ . Тогда я смогу просто выбрать, например, USD или EUR , и таблица сама подставит актуальный курс в расчет. Звучит классно, пора делать.

    habr.com/ru/articles/896756/

    #api #vba #vbaмакросы #vba_excel #excel #парсинг #парсинг_данных #сбор_данных

  33. 200 000+ снимков мусора: что мы узнали о датасетах

    В нашей работе хватает безумных задач. Мы создали первого в России цифрового PR-менеджера, разрабатывали виртуальную примерочную и делали много чего еще, о чем не всегда можно рассказать. Но когда мы взялись за создание ИИ-сортировщика мусора MARQUS, поняли — будет совсем жестко. Не так давно мы создали систему сортировки ТКО (Твердых коммунальных отходов) MARQUS, которая делит отходы на бумагу, металл, пластик, стекло и т.д. Система использует искусственный интеллект и специальные сенсоры, чтобы распознавать различные типы отходов прямо на конвейере и направлять их в соответствующие секции для переработки. В процессе разработки MARQUS мы столкнулись с задачей — найти или собрать подходящие датасеты, так как без них эффективность нейронной сети резко снижается, если вообще приближается к нулю. Мы перепробовали множество подходов, пересмотрели доступные датасеты с готовой разметкой и потратили достаточное количество времени и денег, чтобы честно признаться — на обучении нейронок сэкономить не получится, но обо всем по порядку.

    habr.com/ru/articles/924696/

    #управление_проектами #искусственный_интеллект #Машинное_обучение #открытые_данные #разметка_датасета #сбор_данных_для_ии #парсинг_данных #разметка_данных

  34. 200 000+ снимков мусора: что мы узнали о датасетах

    В нашей работе хватает безумных задач. Мы создали первого в России цифрового PR-менеджера, разрабатывали виртуальную примерочную и делали много чего еще, о чем не всегда можно рассказать. Но когда мы взялись за создание ИИ-сортировщика мусора MARQUS, поняли — будет совсем жестко. Не так давно мы создали систему сортировки ТКО (Твердых коммунальных отходов) MARQUS, которая делит отходы на бумагу, металл, пластик, стекло и т.д. Система использует искусственный интеллект и специальные сенсоры, чтобы распознавать различные типы отходов прямо на конвейере и направлять их в соответствующие секции для переработки. В процессе разработки MARQUS мы столкнулись с задачей — найти или собрать подходящие датасеты, так как без них эффективность нейронной сети резко снижается, если вообще приближается к нулю. Мы перепробовали множество подходов, пересмотрели доступные датасеты с готовой разметкой и потратили достаточное количество времени и денег, чтобы честно признаться — на обучении нейронок сэкономить не получится, но обо всем по порядку.

    habr.com/ru/articles/924696/

    #управление_проектами #искусственный_интеллект #Машинное_обучение #открытые_данные #разметка_датасета #сбор_данных_для_ии #парсинг_данных #разметка_данных

  35. 200 000+ снимков мусора: что мы узнали о датасетах

    В нашей работе хватает безумных задач. Мы создали первого в России цифрового PR-менеджера, разрабатывали виртуальную примерочную и делали много чего еще, о чем не всегда можно рассказать. Но когда мы взялись за создание ИИ-сортировщика мусора MARQUS, поняли — будет совсем жестко. Не так давно мы создали систему сортировки ТКО (Твердых коммунальных отходов) MARQUS, которая делит отходы на бумагу, металл, пластик, стекло и т.д. Система использует искусственный интеллект и специальные сенсоры, чтобы распознавать различные типы отходов прямо на конвейере и направлять их в соответствующие секции для переработки. В процессе разработки MARQUS мы столкнулись с задачей — найти или собрать подходящие датасеты, так как без них эффективность нейронной сети резко снижается, если вообще приближается к нулю. Мы перепробовали множество подходов, пересмотрели доступные датасеты с готовой разметкой и потратили достаточное количество времени и денег, чтобы честно признаться — на обучении нейронок сэкономить не получится, но обо всем по порядку.

    habr.com/ru/articles/924696/

    #управление_проектами #искусственный_интеллект #Машинное_обучение #открытые_данные #разметка_датасета #сбор_данных_для_ии #парсинг_данных #разметка_данных

  36. 200 000+ снимков мусора: что мы узнали о датасетах

    В нашей работе хватает безумных задач. Мы создали первого в России цифрового PR-менеджера, разрабатывали виртуальную примерочную и делали много чего еще, о чем не всегда можно рассказать. Но когда мы взялись за создание ИИ-сортировщика мусора MARQUS, поняли — будет совсем жестко. Не так давно мы создали систему сортировки ТКО (Твердых коммунальных отходов) MARQUS, которая делит отходы на бумагу, металл, пластик, стекло и т.д. Система использует искусственный интеллект и специальные сенсоры, чтобы распознавать различные типы отходов прямо на конвейере и направлять их в соответствующие секции для переработки. В процессе разработки MARQUS мы столкнулись с задачей — найти или собрать подходящие датасеты, так как без них эффективность нейронной сети резко снижается, если вообще приближается к нулю. Мы перепробовали множество подходов, пересмотрели доступные датасеты с готовой разметкой и потратили достаточное количество времени и денег, чтобы честно признаться — на обучении нейронок сэкономить не получится, но обо всем по порядку.

    habr.com/ru/articles/924696/

    #управление_проектами #искусственный_интеллект #Машинное_обучение #открытые_данные #разметка_датасета #сбор_данных_для_ии #парсинг_данных #разметка_данных

  37. Как мы научили нейросеть узнавать 10 000 лошадей «в лицо» и чуть не сошли с ума

    В нашей работе хватает безумных задач. Мы собирали датасеты с уличными драками, где сами вживались в роль дебоширов перед камерами, и делали много чего еще, о чем не всегда можно рассказать. В общем, мы в своей работе привыкли к странным задачам. Но когда к нам пришли с просьбой научить искусственный интеллект узнавать «в лицо» 10 000 лошадей, мы поняли — будет интересно...

    habr.com/ru/articles/924358/

    #нейросети_для_табунов_и_конюшен #сбор_данных_для_ИИ #парсинг_данных #нейросети_для_агропрома #нейросети_для_ферм #разметка_данных #разметка_датасета

  38. Как мы научили нейросеть узнавать 10 000 лошадей «в лицо» и чуть не сошли с ума

    В нашей работе хватает безумных задач. Мы собирали датасеты с уличными драками, где сами вживались в роль дебоширов перед камерами, и делали много чего еще, о чем не всегда можно рассказать. В общем, мы в своей работе привыкли к странным задачам. Но когда к нам пришли с просьбой научить искусственный интеллект узнавать «в лицо» 10 000 лошадей, мы поняли — будет интересно...

    habr.com/ru/articles/924358/

    #нейросети_для_табунов_и_конюшен #сбор_данных_для_ИИ #парсинг_данных #нейросети_для_агропрома #нейросети_для_ферм #разметка_данных #разметка_датасета

  39. Как мы научили нейросеть узнавать 10 000 лошадей «в лицо» и чуть не сошли с ума

    В нашей работе хватает безумных задач. Мы собирали датасеты с уличными драками, где сами вживались в роль дебоширов перед камерами, и делали много чего еще, о чем не всегда можно рассказать. В общем, мы в своей работе привыкли к странным задачам. Но когда к нам пришли с просьбой научить искусственный интеллект узнавать «в лицо» 10 000 лошадей, мы поняли — будет интересно...

    habr.com/ru/articles/924358/

    #нейросети_для_табунов_и_конюшен #сбор_данных_для_ИИ #парсинг_данных #нейросети_для_агропрома #нейросети_для_ферм #разметка_данных #разметка_датасета

  40. Как мы научили нейросеть узнавать 10 000 лошадей «в лицо» и чуть не сошли с ума

    В нашей работе хватает безумных задач. Мы собирали датасеты с уличными драками, где сами вживались в роль дебоширов перед камерами, и делали много чего еще, о чем не всегда можно рассказать. В общем, мы в своей работе привыкли к странным задачам. Но когда к нам пришли с просьбой научить искусственный интеллект узнавать «в лицо» 10 000 лошадей, мы поняли — будет интересно...

    habr.com/ru/articles/924358/

    #нейросети_для_табунов_и_конюшен #сбор_данных_для_ИИ #парсинг_данных #нейросети_для_агропрома #нейросети_для_ферм #разметка_данных #разметка_датасета

  41. FastAPI + APScheduler: Простой пошаговый гайд по созданию асинхронного API для мониторинга валют по расписанию на Python

    Как создать асинхронный API для мониторинга курсов валют на Python? В этом практическом руководстве мы разработаем сервис на FastAPI с интеграцией APScheduler, который будет отслеживать курсы USD и EUR в банках России. Вы узнаете, как реализовать асинхронный парсинг данных, настроить планировщик задач и развернуть приложение в облаке. Проект включает систему аутентификации, фильтрацию данных и REST API — идеальный пример для изучения современной веб-разработки на Python.

    habr.com/ru/companies/amvera/a

    #restapi #fastapi #python_api #sqlalchemy_20 #sqlite3 #aiosqlite #парсинг_данных #асинхронный_парсинг_данных #aiohttp #курс_валют_на_python

  42. FastAPI + APScheduler: Простой пошаговый гайд по созданию асинхронного API для мониторинга валют по расписанию на Python

    Как создать асинхронный API для мониторинга курсов валют на Python? В этом практическом руководстве мы разработаем сервис на FastAPI с интеграцией APScheduler, который будет отслеживать курсы USD и EUR в банках России. Вы узнаете, как реализовать асинхронный парсинг данных, настроить планировщик задач и развернуть приложение в облаке. Проект включает систему аутентификации, фильтрацию данных и REST API — идеальный пример для изучения современной веб-разработки на Python.

    habr.com/ru/companies/amvera/a

    #restapi #fastapi #python_api #sqlalchemy_20 #sqlite3 #aiosqlite #парсинг_данных #асинхронный_парсинг_данных #aiohttp #курс_валют_на_python

  43. FastAPI + APScheduler: Простой пошаговый гайд по созданию асинхронного API для мониторинга валют по расписанию на Python

    Как создать асинхронный API для мониторинга курсов валют на Python? В этом практическом руководстве мы разработаем сервис на FastAPI с интеграцией APScheduler, который будет отслеживать курсы USD и EUR в банках России. Вы узнаете, как реализовать асинхронный парсинг данных, настроить планировщик задач и развернуть приложение в облаке. Проект включает систему аутентификации, фильтрацию данных и REST API — идеальный пример для изучения современной веб-разработки на Python.

    habr.com/ru/companies/amvera/a

    #restapi #fastapi #python_api #sqlalchemy_20 #sqlite3 #aiosqlite #парсинг_данных #асинхронный_парсинг_данных #aiohttp #курс_валют_на_python

  44. Парсим YouTube на Python как для взрослых: отказоустойчивый скрипт с ротацией ключей

    Путь разработчика парсеров тернист и сложен, сперва ты пытаешься обойти официальные ограничения, потому что так проще, так нету квот и разных требований. Параллельно мучаясь с Selenium, в попытка угнаться за меняющейся версткой YouTube. Кто-то пишет простые скрипты на requests, которые падают при первой же ошибке. И куда вас все эти действия приводят? Снова ко мне - к официальному YouTube Data API v3 .

    habr.com/ru/articles/916114/

    #парсинг #парсинг_контента #парсинг_сайта #парсинг_данных #парсинг_youtube #youtube_api

  45. Топ веб‑парсеров и API-сервисов для сбора данных: сравнение скорости, масштабируемости и обхода защит

    Автоматический сбор данных (парсинг, или web scraping) стал неотъемлемой практикой для разработчиков, аналитиков и автоматизаторов. С его помощью получают массовую информацию с сайтов – от цен конкурентов и отзывов до контента соцсетей​. Для этого разработано множество “парсеров” – библиотек, фреймворков и облачных сервисов, которые позволяют извлекать веб-данные программно. Одни решения требуются для быстрого парсинга статичных страниц, другие – для обхода сложной JavaScript-навигации, третьи – для получения данных через API. В этой статье я рассмотрю топ инструментов для парсинга – как открытых (Open Source) библиотек, так и коммерческих SaaS/API-сервисов – и сравню их по ключевым метрикам:

    habr.com/ru/articles/893622/

    #парсинг #парсинг_контента #парсеры #парсинг_сайтов #парсинг_json #парсинг_данных #парсинг_html #парсер_сайтов #парсинг_сайта #парсер

  46. Кейс: как с помощью парсинга Авито и ЦИАН увеличить эффективность отдела развития крупной ритейл компании на ~27%

    Привет! В этом кейсе хочу описать процесс взаимодействие заказчика с поиском новых объявлений по определенным адресам (координатам) по всей России. Суть: необходимо мониторить объявления объектов коммерческой недвижимости (аренда) на Авито и ЦИАН по заданным критериям. Необычность задачи - поиск объявлений в определенном радиусе от изначальной точки координаты. Заказчик: крупнейшая сеть аптек (ввиду коммерческой тайны, раскрыть названия не могу), насчитывающая более 1000 оффлайн-точек по всей России. Для расширения своего присутствия на российском рынке в формате «на каждом шагу», заказчиком было принято решение занимать данный рынок через поиск объявлений об аренде коммерческой недвижимости. Сложность: на 4 менеджеров по развитию внутри компании - приходилось отслеживать более 7000 определенных адресов по всей РФ на наличие новых объектов аренды недвижимости в определенном радиусе (и это только на одном ресурсе). На подобный поиск новых объявлений могло уходить от 2х недель до 3х месяцев. Выходило трудозатратно и неудобно (ну а помимо этого, есть же еще и другие бизнес-процессы). При этом, очень крутые, вкусные объявления, улетали за считанные дни, которые даже могли не попасть в обозрение заказчиком. Читать кейс

    habr.com/ru/articles/812631/

    #парсинг_контента #парсинг_сайтов #парсинг_данных #парсинг

  47. Парсинг сайта на Python для НСИ

    Для проверки определенных типов данных я предлагаю парсинг сайтов, а автоматизация исправления уже на ваш вкус. Например, различные языки программирования. Лично я за весь свой опыт использовал: C#, Python, VBA для работы с Excel, в зависимости от ситуации. Также поделюсь полезным файлом, который можно использовать в автоматизации проверки номенклатурных позиций.

    habr.com/ru/articles/860874/

    #python #нси #erpсистемы #парсинг_данных

  48. Парсинг сайта на Python для НСИ

    Для проверки определенных типов данных я предлагаю парсинг сайтов, а автоматизация исправления уже на ваш вкус. Например, различные языки программирования. Лично я за весь свой опыт использовал: C#, Python, VBA для работы с Excel, в зависимости от ситуации. Также поделюсь полезным файлом, который можно использовать в автоматизации проверки номенклатурных позиций.

    habr.com/ru/articles/860874/

    #python #нси #erpсистемы #парсинг_данных

  49. Парсинг сайта на Python для НСИ

    Для проверки определенных типов данных я предлагаю парсинг сайтов, а автоматизация исправления уже на ваш вкус. Например, различные языки программирования. Лично я за весь свой опыт использовал: C#, Python, VBA для работы с Excel, в зависимости от ситуации. Также поделюсь полезным файлом, который можно использовать в автоматизации проверки номенклатурных позиций.

    habr.com/ru/articles/860874/

    #python #нси #erpсистемы #парсинг_данных

  50. [Перевод] Быстрый парсинг 8-битных целых чисел

    Допустим, вам нужно быстро распарсить 8-битные целые числа (0, 1, 2, …, 254, 255) из строки ASCII/UTF-8. Задача взята из проекта simdzone под руководством Йероена Коеккоека (NLnet Labs). Дана строка и её длина: например, ’22’ и длина 2. Наивное решение на C может выглядеть так:

    habr.com/ru/articles/784102/

    #ascii #парсинг_данных #utf8 #работа_со_строками