#парсинг — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #парсинг, aggregated by home.social.
-
Я спарсил 62 000 Python-вакансий с hh.ru и узнал страшное
Привет, Хабр! (И тебе, HR, который ставит в вакансию «Python, SQL, Linux, Docker, K8s, Spark, Airflow, английский C1, опыт 1-3 года, зарплата 40-60К». Особенно тебе.) Сегодня будем препарировать рынок Python-разработки в России . По-настоящему. С графиками, цифрами и верой в светлое будущее. Здесь будет всё, зарплаты, актуальные стеки и то что уже никому не нужно, прогнозы, тренды, и многое другое, будет интересно... Поехали.
https://habr.com/ru/articles/1036500/
#python #hhru #анализ_данных #парсинг #рынок_труда #pandas #аналитика #зарплаты #sql #статистика
-
Я спарсил 62 000 Python-вакансий с hh.ru и узнал страшное
Привет, Хабр! (И тебе, HR, который ставит в вакансию «Python, SQL, Linux, Docker, K8s, Spark, Airflow, английский C1, опыт 1-3 года, зарплата 40-60К». Особенно тебе.) Сегодня будем препарировать рынок Python-разработки в России . По-настоящему. С графиками, цифрами и верой в светлое будущее. Здесь будет всё, зарплаты, актуальные стеки и то что уже никому не нужно, прогнозы, тренды, и многое другое, будет интересно... Поехали.
https://habr.com/ru/articles/1036500/
#python #hhru #анализ_данных #парсинг #рынок_труда #pandas #аналитика #зарплаты #sql #статистика
-
Я спарсил 62 000 Python-вакансий с hh.ru и узнал страшное
Привет, Хабр! (И тебе, HR, который ставит в вакансию «Python, SQL, Linux, Docker, K8s, Spark, Airflow, английский C1, опыт 1-3 года, зарплата 40-60К». Особенно тебе.) Сегодня будем препарировать рынок Python-разработки в России . По-настоящему. С графиками, цифрами и верой в светлое будущее. Здесь будет всё, зарплаты, актуальные стеки и то что уже никому не нужно, прогнозы, тренды, и многое другое, будет интересно... Поехали.
https://habr.com/ru/articles/1036500/
#python #hhru #анализ_данных #парсинг #рынок_труда #pandas #аналитика #зарплаты #sql #статистика
-
Я спарсил 62 000 Python-вакансий с hh.ru и узнал страшное
Привет, Хабр! (И тебе, HR, который ставит в вакансию «Python, SQL, Linux, Docker, K8s, Spark, Airflow, английский C1, опыт 1-3 года, зарплата 40-60К». Особенно тебе.) Сегодня будем препарировать рынок Python-разработки в России . По-настоящему. С графиками, цифрами и верой в светлое будущее. Здесь будет всё, зарплаты, актуальные стеки и то что уже никому не нужно, прогнозы, тренды, и многое другое, будет интересно... Поехали.
https://habr.com/ru/articles/1036500/
#python #hhru #анализ_данных #парсинг #рынок_труда #pandas #аналитика #зарплаты #sql #статистика
-
Сбор сведений из открытых источников: почему это рискованно, если выкачивается информация из чужих баз данных?
Собрать информацию о человеке или продукте с использованием высоких технологий стало делом техники. В прямом и переносном смысле слова. Однако такое выкачивание данных может стать поводом для судебного разбирательства. Почему это происходит — далее в материале.
https://habr.com/ru/companies/onlinepatent/articles/1034644/
#базы_данных #база_дынных #парсинг #парсинг_контента #парсинг_сайтов #парсинг_сайта #парсинг_данных #защита_данных #защита_данных_пользователей #законодательство
-
Сбор сведений из открытых источников: почему это рискованно, если выкачивается информация из чужих баз данных?
Собрать информацию о человеке или продукте с использованием высоких технологий стало делом техники. В прямом и переносном смысле слова. Однако такое выкачивание данных может стать поводом для судебного разбирательства. Почему это происходит — далее в материале.
https://habr.com/ru/companies/onlinepatent/articles/1034644/
#базы_данных #база_дынных #парсинг #парсинг_контента #парсинг_сайтов #парсинг_сайта #парсинг_данных #защита_данных #защита_данных_пользователей #законодательство
-
Сбор сведений из открытых источников: почему это рискованно, если выкачивается информация из чужих баз данных?
Собрать информацию о человеке или продукте с использованием высоких технологий стало делом техники. В прямом и переносном смысле слова. Однако такое выкачивание данных может стать поводом для судебного разбирательства. Почему это происходит — далее в материале.
https://habr.com/ru/companies/onlinepatent/articles/1034644/
#базы_данных #база_дынных #парсинг #парсинг_контента #парсинг_сайтов #парсинг_сайта #парсинг_данных #защита_данных #защита_данных_пользователей #законодательство
-
Сбор сведений из открытых источников: почему это рискованно, если выкачивается информация из чужих баз данных?
Собрать информацию о человеке или продукте с использованием высоких технологий стало делом техники. В прямом и переносном смысле слова. Однако такое выкачивание данных может стать поводом для судебного разбирательства. Почему это происходит — далее в материале.
https://habr.com/ru/companies/onlinepatent/articles/1034644/
#базы_данных #база_дынных #парсинг #парсинг_контента #парсинг_сайтов #парсинг_сайта #парсинг_данных #защита_данных #защита_данных_пользователей #законодательство
-
Как работает антибот в мобильном приложении Wildberries
Привет, Хабр! Меня зовут Денис Ульянов, я уже 12 лет в IT и последние полтора года руковожу командой Antibot в Wildberries. До работы в WB я три года был на тёмной стороне и занимался продуктами по сбору данных из открытых источников. Нейтрально намекаю на парсеры :) Должен признать, этот опыт помогает мне отстреливать ботов на ресурсах WB. Сегодня поделюсь, как моя команда сделала не только антибота, но и собственный парсер для атак на себя. Надеюсь, после публикации не произойдёт массовое нападение ботов!
-
Как работает антибот в мобильном приложении Wildberries
Привет, Хабр! Меня зовут Денис Ульянов, я уже 12 лет в IT и последние полтора года руковожу командой Antibot в Wildberries. До работы в WB я три года был на тёмной стороне и занимался продуктами по сбору данных из открытых источников. Нейтрально намекаю на парсеры :) Должен признать, этот опыт помогает мне отстреливать ботов на ресурсах WB. Сегодня поделюсь, как моя команда сделала не только антибота, но и собственный парсер для атак на себя. Надеюсь, после публикации не произойдёт массовое нападение ботов!
-
Как работает антибот в мобильном приложении Wildberries
Привет, Хабр! Меня зовут Денис Ульянов, я уже 12 лет в IT и последние полтора года руковожу командой Antibot в Wildberries. До работы в WB я три года был на тёмной стороне и занимался продуктами по сбору данных из открытых источников. Нейтрально намекаю на парсеры :) Должен признать, этот опыт помогает мне отстреливать ботов на ресурсах WB. Сегодня поделюсь, как моя команда сделала не только антибота, но и собственный парсер для атак на себя. Надеюсь, после публикации не произойдёт массовое нападение ботов!
-
Как работает антибот в мобильном приложении Wildberries
Привет, Хабр! Меня зовут Денис Ульянов, я уже 12 лет в IT и последние полтора года руковожу командой Antibot в Wildberries. До работы в WB я три года был на тёмной стороне и занимался продуктами по сбору данных из открытых источников. Нейтрально намекаю на парсеры :) Должен признать, этот опыт помогает мне отстреливать ботов на ресурсах WB. Сегодня поделюсь, как моя команда сделала не только антибота, но и собственный парсер для атак на себя. Надеюсь, после публикации не произойдёт массовое нападение ботов!
-
Парсинг данных: когда это законно, а когда нет — разбираю судебную практику
Парсинг используют тысячи компаний — для мониторинга цен, сбора контактов, агрегации данных. Большинство уверены: раз информация в открытом доступе, значит, брать её можно. Разбираю, почему это не так, на пяти правовых режимах и семи реальных судебных делах — от ВКонтакте против Double Data до Meta против Bright Data. Разобрать все пять рисков
https://habr.com/ru/articles/1032564/
#парсинг #скрапинг #вебскрапинг #авторское_право #ITправо #судебная_практика #персональные_данные #базы_данных #интеллектуальная_собственность #антимонопольное_право
-
Парсинг данных: когда это законно, а когда нет — разбираю судебную практику
Парсинг используют тысячи компаний — для мониторинга цен, сбора контактов, агрегации данных. Большинство уверены: раз информация в открытом доступе, значит, брать её можно. Разбираю, почему это не так, на пяти правовых режимах и семи реальных судебных делах — от ВКонтакте против Double Data до Meta против Bright Data. Разобрать все пять рисков
https://habr.com/ru/articles/1032564/
#парсинг #скрапинг #вебскрапинг #авторское_право #ITправо #судебная_практика #персональные_данные #базы_данных #интеллектуальная_собственность #антимонопольное_право
-
Парсинг данных: когда это законно, а когда нет — разбираю судебную практику
Парсинг используют тысячи компаний — для мониторинга цен, сбора контактов, агрегации данных. Большинство уверены: раз информация в открытом доступе, значит, брать её можно. Разбираю, почему это не так, на пяти правовых режимах и семи реальных судебных делах — от ВКонтакте против Double Data до Meta против Bright Data. Разобрать все пять рисков
https://habr.com/ru/articles/1032564/
#парсинг #скрапинг #вебскрапинг #авторское_право #ITправо #судебная_практика #персональные_данные #базы_данных #интеллектуальная_собственность #антимонопольное_право
-
Парсинг данных: когда это законно, а когда нет — разбираю судебную практику
Парсинг используют тысячи компаний — для мониторинга цен, сбора контактов, агрегации данных. Большинство уверены: раз информация в открытом доступе, значит, брать её можно. Разбираю, почему это не так, на пяти правовых режимах и семи реальных судебных делах — от ВКонтакте против Double Data до Meta против Bright Data. Разобрать все пять рисков
https://habr.com/ru/articles/1032564/
#парсинг #скрапинг #вебскрапинг #авторское_право #ITправо #судебная_практика #персональные_данные #базы_данных #интеллектуальная_собственность #антимонопольное_право
-
Как мы форкнули undetected-chromedriver и добавили SOCKS5, мультипроцессинг и модуль капчи
Устали от блокировок CloudFlare и капч? Показываю библиотеку rtfox-browser — готовое решение для автоматизации Chrome с прокси и решением капчи «из коробки». Установка, настройка, примеры кода и создание своих солверов.
https://habr.com/ru/articles/1030550/
#rtfoxbrowser #undetectedchromedriver #selenium #python #парсинг #web_scraping #обход_cloudflare #captcha_solving #socks5_proxy #chromedriver
-
Как мы форкнули undetected-chromedriver и добавили SOCKS5, мультипроцессинг и модуль капчи
Устали от блокировок CloudFlare и капч? Показываю библиотеку rtfox-browser — готовое решение для автоматизации Chrome с прокси и решением капчи «из коробки». Установка, настройка, примеры кода и создание своих солверов.
https://habr.com/ru/articles/1030550/
#rtfoxbrowser #undetectedchromedriver #selenium #python #парсинг #web_scraping #обход_cloudflare #captcha_solving #socks5_proxy #chromedriver
-
Как мы форкнули undetected-chromedriver и добавили SOCKS5, мультипроцессинг и модуль капчи
Устали от блокировок CloudFlare и капч? Показываю библиотеку rtfox-browser — готовое решение для автоматизации Chrome с прокси и решением капчи «из коробки». Установка, настройка, примеры кода и создание своих солверов.
https://habr.com/ru/articles/1030550/
#rtfoxbrowser #undetectedchromedriver #selenium #python #парсинг #web_scraping #обход_cloudflare #captcha_solving #socks5_proxy #chromedriver
-
Как мы форкнули undetected-chromedriver и добавили SOCKS5, мультипроцессинг и модуль капчи
Устали от блокировок CloudFlare и капч? Показываю библиотеку rtfox-browser — готовое решение для автоматизации Chrome с прокси и решением капчи «из коробки». Установка, настройка, примеры кода и создание своих солверов.
https://habr.com/ru/articles/1030550/
#rtfoxbrowser #undetectedchromedriver #selenium #python #парсинг #web_scraping #обход_cloudflare #captcha_solving #socks5_proxy #chromedriver
-
Список слов русского языка из Wiktionary и сравнение с pymorphy3 на примере Пушкина и Noize MC *
В задачах обработки естественного языка (NLP) часто требуется список слов русского языка. Такой список может использоваться как базовый фильтр для выявления неизвестных и потенциально некорректных слов. Одним из распространённых инструментов для работы с русским текстом является библиотека pymorphy (pymorphy2 / pymorphy3), основанная на корпусе русского языка OpenCorpora . Она предназначена для морфологического анализа текстов и, в том числе, позволяет проверять, известно ли слово встроенному словарю библиотеки. Однако словарь pymorphy ориентирован на нормативную лексику и морфологию. В нём отсутствует значительная часть имён собственных, топонимов, заимствований, разговорной и современной лексики. Поэтому при использовании pymorphy для фильтрации текста возникают ложные срабатывания, много редких и нестандартных слов определяются как неизвестные (что мы увидим ниже в разделе сравнения словарей). Для повышения полноты выявления неизвестных слов я решил собрать свой максимально широкий список слов русского языка для задач NLP. Такой список слов можно получить на основе данных сайта Wiktionary (Викисловарь) . Wiktionary - это открытый многоязычный словарь, в котором каждая словарная единица представлена в виде отдельной статьи. Викисловарь содержит информацию о словах различных языков, включая русский, а также сведения об их морфологических и синтаксических свойствах. * Признан минюстом РФ иностранным агентом.
https://habr.com/ru/articles/1027992/
#словарь_русского_языка #база_слов_русского_языка #список_русских_слов #Wiktionary #парсинг #дамп #nlp #извлечение_данных #pymorphy
-
Список слов русского языка из Wiktionary и сравнение с pymorphy3 на примере Пушкина и Noize MC *
В задачах обработки естественного языка (NLP) часто требуется список слов русского языка. Такой список может использоваться как базовый фильтр для выявления неизвестных и потенциально некорректных слов. Одним из распространённых инструментов для работы с русским текстом является библиотека pymorphy (pymorphy2 / pymorphy3), основанная на корпусе русского языка OpenCorpora . Она предназначена для морфологического анализа текстов и, в том числе, позволяет проверять, известно ли слово встроенному словарю библиотеки. Однако словарь pymorphy ориентирован на нормативную лексику и морфологию. В нём отсутствует значительная часть имён собственных, топонимов, заимствований, разговорной и современной лексики. Поэтому при использовании pymorphy для фильтрации текста возникают ложные срабатывания, много редких и нестандартных слов определяются как неизвестные (что мы увидим ниже в разделе сравнения словарей). Для повышения полноты выявления неизвестных слов я решил собрать свой максимально широкий список слов русского языка для задач NLP. Такой список слов можно получить на основе данных сайта Wiktionary (Викисловарь) . Wiktionary - это открытый многоязычный словарь, в котором каждая словарная единица представлена в виде отдельной статьи. Викисловарь содержит информацию о словах различных языков, включая русский, а также сведения об их морфологических и синтаксических свойствах. * Признан минюстом РФ иностранным агентом.
https://habr.com/ru/articles/1027992/
#словарь_русского_языка #база_слов_русского_языка #список_русских_слов #Wiktionary #парсинг #дамп #nlp #извлечение_данных #pymorphy
-
Список слов русского языка из Wiktionary и сравнение с pymorphy3 на примере Пушкина и Noize MC *
В задачах обработки естественного языка (NLP) часто требуется список слов русского языка. Такой список может использоваться как базовый фильтр для выявления неизвестных и потенциально некорректных слов. Одним из распространённых инструментов для работы с русским текстом является библиотека pymorphy (pymorphy2 / pymorphy3), основанная на корпусе русского языка OpenCorpora . Она предназначена для морфологического анализа текстов и, в том числе, позволяет проверять, известно ли слово встроенному словарю библиотеки. Однако словарь pymorphy ориентирован на нормативную лексику и морфологию. В нём отсутствует значительная часть имён собственных, топонимов, заимствований, разговорной и современной лексики. Поэтому при использовании pymorphy для фильтрации текста возникают ложные срабатывания, много редких и нестандартных слов определяются как неизвестные (что мы увидим ниже в разделе сравнения словарей). Для повышения полноты выявления неизвестных слов я решил собрать свой максимально широкий список слов русского языка для задач NLP. Такой список слов можно получить на основе данных сайта Wiktionary (Викисловарь) . Wiktionary - это открытый многоязычный словарь, в котором каждая словарная единица представлена в виде отдельной статьи. Викисловарь содержит информацию о словах различных языков, включая русский, а также сведения об их морфологических и синтаксических свойствах. * Признан минюстом РФ иностранным агентом.
https://habr.com/ru/articles/1027992/
#словарь_русского_языка #база_слов_русского_языка #список_русских_слов #Wiktionary #парсинг #дамп #nlp #извлечение_данных #pymorphy
-
Список слов русского языка из Wiktionary и сравнение с pymorphy3 на примере Пушкина и Noize MC *
В задачах обработки естественного языка (NLP) часто требуется список слов русского языка. Такой список может использоваться как базовый фильтр для выявления неизвестных и потенциально некорректных слов. Одним из распространённых инструментов для работы с русским текстом является библиотека pymorphy (pymorphy2 / pymorphy3), основанная на корпусе русского языка OpenCorpora . Она предназначена для морфологического анализа текстов и, в том числе, позволяет проверять, известно ли слово встроенному словарю библиотеки. Однако словарь pymorphy ориентирован на нормативную лексику и морфологию. В нём отсутствует значительная часть имён собственных, топонимов, заимствований, разговорной и современной лексики. Поэтому при использовании pymorphy для фильтрации текста возникают ложные срабатывания, много редких и нестандартных слов определяются как неизвестные (что мы увидим ниже в разделе сравнения словарей). Для повышения полноты выявления неизвестных слов я решил собрать свой максимально широкий список слов русского языка для задач NLP. Такой список слов можно получить на основе данных сайта Wiktionary (Викисловарь) . Wiktionary - это открытый многоязычный словарь, в котором каждая словарная единица представлена в виде отдельной статьи. Викисловарь содержит информацию о словах различных языков, включая русский, а также сведения об их морфологических и синтаксических свойствах. * Признан минюстом РФ иностранным агентом.
https://habr.com/ru/articles/1027992/
#словарь_русского_языка #база_слов_русского_языка #список_русских_слов #Wiktionary #парсинг #дамп #nlp #извлечение_данных #pymorphy
-
[Перевод] Структуры данных на практике. Глава 14: Обработка строк и эффективность использования кэша
«В Computer Science есть только две сложные вещи: инвалидация кэша и придумывание названий», — Фил Карлтон Разрыв в производительности Наш парсер логов обрабатывал 800 тысяч строк в секунду. Нам требовалось 3 миллиона строк в секунду. От нужного нам показателя мы отставали в 3,75 раза. Задача инструмента заключалась в парсинге строк логов в реальном времени, извлечении временных меток, уровней логов и сообщений из миллионов строк в секунду. Обработка миллиона строк логов в текущей реализации требовала 1,25 секунды — слишком долго для анализа в реальном времени. Профилировщик показывал 85 миллионов промахов кэша. Для обработки строк это казалось слишком большим показателем. В реализации использовались стандартные строковые функции C — простые, читаемые, но, очевидно, слишком медленные. Я переписал этот код, добавив обработку строк с учётом кэша. Результаты были такими: В 4,5 раза быстрее и в 7 раз меньше промахов кэша. В этой главе мы поговорим о том, как эффективно использовать кэш при обработке строк.
-
[Перевод] Структуры данных на практике. Глава 14: Обработка строк и эффективность использования кэша
«В Computer Science есть только две сложные вещи: инвалидация кэша и придумывание названий», — Фил Карлтон Разрыв в производительности Наш парсер логов обрабатывал 800 тысяч строк в секунду. Нам требовалось 3 миллиона строк в секунду. От нужного нам показателя мы отставали в 3,75 раза. Задача инструмента заключалась в парсинге строк логов в реальном времени, извлечении временных меток, уровней логов и сообщений из миллионов строк в секунду. Обработка миллиона строк логов в текущей реализации требовала 1,25 секунды — слишком долго для анализа в реальном времени. Профилировщик показывал 85 миллионов промахов кэша. Для обработки строк это казалось слишком большим показателем. В реализации использовались стандартные строковые функции C — простые, читаемые, но, очевидно, слишком медленные. Я переписал этот код, добавив обработку строк с учётом кэша. Результаты были такими: В 4,5 раза быстрее и в 7 раз меньше промахов кэша. В этой главе мы поговорим о том, как эффективно использовать кэш при обработке строк.
-
[Перевод] Структуры данных на практике. Глава 14: Обработка строк и эффективность использования кэша
«В Computer Science есть только две сложные вещи: инвалидация кэша и придумывание названий», — Фил Карлтон Разрыв в производительности Наш парсер логов обрабатывал 800 тысяч строк в секунду. Нам требовалось 3 миллиона строк в секунду. От нужного нам показателя мы отставали в 3,75 раза. Задача инструмента заключалась в парсинге строк логов в реальном времени, извлечении временных меток, уровней логов и сообщений из миллионов строк в секунду. Обработка миллиона строк логов в текущей реализации требовала 1,25 секунды — слишком долго для анализа в реальном времени. Профилировщик показывал 85 миллионов промахов кэша. Для обработки строк это казалось слишком большим показателем. В реализации использовались стандартные строковые функции C — простые, читаемые, но, очевидно, слишком медленные. Я переписал этот код, добавив обработку строк с учётом кэша. Результаты были такими: В 4,5 раза быстрее и в 7 раз меньше промахов кэша. В этой главе мы поговорим о том, как эффективно использовать кэш при обработке строк.
-
[Перевод] Структуры данных на практике. Глава 14: Обработка строк и эффективность использования кэша
«В Computer Science есть только две сложные вещи: инвалидация кэша и придумывание названий», — Фил Карлтон Разрыв в производительности Наш парсер логов обрабатывал 800 тысяч строк в секунду. Нам требовалось 3 миллиона строк в секунду. От нужного нам показателя мы отставали в 3,75 раза. Задача инструмента заключалась в парсинге строк логов в реальном времени, извлечении временных меток, уровней логов и сообщений из миллионов строк в секунду. Обработка миллиона строк логов в текущей реализации требовала 1,25 секунды — слишком долго для анализа в реальном времени. Профилировщик показывал 85 миллионов промахов кэша. Для обработки строк это казалось слишком большим показателем. В реализации использовались стандартные строковые функции C — простые, читаемые, но, очевидно, слишком медленные. Я переписал этот код, добавив обработку строк с учётом кэша. Результаты были такими: В 4,5 раза быстрее и в 7 раз меньше промахов кэша. В этой главе мы поговорим о том, как эффективно использовать кэш при обработке строк.
-
Империя наносит ответный удар: kad.arbitr.ru снова поддается парсингу (часть 1)
В статьях 2021 года можно встретить довольно пессимистичный вывод: «ресурс окончательно уничтожил возможность сбора информации с помощью Selenium». Но, как оказалось, это не совсем так. Сайт kad.arbitr.ru — предоставляет информацию о гражданских делах, в первую очередь данная информация интересна юристам. Также там можно найти информацию о начале\конце банкротства и много другой информации связанной с юридической составляющей нашей жизни как граждан данной страны. На практике часто возникает задача мониторинга состояния дел по заданному списку — допустим по ИНН или же по ФИО. Именно такая задача была поставлена предо мной, найти дело по ИНН (если оно существует) и открыть его карточку чтобы собрать информацию. При первом знакомстве сайт выглядит довольно устаревшим — как и многие государственные сайты, тем не менее, первое впечатление бывает обманчиво, ведь тут достаточно неплохая защита от тех кто хочет собрать много информации автоматически. Далее разбор будет строиться по следующей схеме: простой способ сбора информации → анализ, почему он работает или нет и так далее. Первое, что приходит в голову при решении задачи парсинга по конкретному полю — это использование API. Возможны три варианта.
-
Империя наносит ответный удар: kad.arbitr.ru снова поддается парсингу (часть 1)
В статьях 2021 года можно встретить довольно пессимистичный вывод: «ресурс окончательно уничтожил возможность сбора информации с помощью Selenium». Но, как оказалось, это не совсем так. Сайт kad.arbitr.ru — предоставляет информацию о гражданских делах, в первую очередь данная информация интересна юристам. Также там можно найти информацию о начале\конце банкротства и много другой информации связанной с юридической составляющей нашей жизни как граждан данной страны. На практике часто возникает задача мониторинга состояния дел по заданному списку — допустим по ИНН или же по ФИО. Именно такая задача была поставлена предо мной, найти дело по ИНН (если оно существует) и открыть его карточку чтобы собрать информацию. При первом знакомстве сайт выглядит довольно устаревшим — как и многие государственные сайты, тем не менее, первое впечатление бывает обманчиво, ведь тут достаточно неплохая защита от тех кто хочет собрать много информации автоматически. Далее разбор будет строиться по следующей схеме: простой способ сбора информации → анализ, почему он работает или нет и так далее. Первое, что приходит в голову при решении задачи парсинга по конкретному полю — это использование API. Возможны три варианта.
-
Империя наносит ответный удар: kad.arbitr.ru снова поддается парсингу (часть 1)
В статьях 2021 года можно встретить довольно пессимистичный вывод: «ресурс окончательно уничтожил возможность сбора информации с помощью Selenium». Но, как оказалось, это не совсем так. Сайт kad.arbitr.ru — предоставляет информацию о гражданских делах, в первую очередь данная информация интересна юристам. Также там можно найти информацию о начале\конце банкротства и много другой информации связанной с юридической составляющей нашей жизни как граждан данной страны. На практике часто возникает задача мониторинга состояния дел по заданному списку — допустим по ИНН или же по ФИО. Именно такая задача была поставлена предо мной, найти дело по ИНН (если оно существует) и открыть его карточку чтобы собрать информацию. При первом знакомстве сайт выглядит довольно устаревшим — как и многие государственные сайты, тем не менее, первое впечатление бывает обманчиво, ведь тут достаточно неплохая защита от тех кто хочет собрать много информации автоматически. Далее разбор будет строиться по следующей схеме: простой способ сбора информации → анализ, почему он работает или нет и так далее. Первое, что приходит в голову при решении задачи парсинга по конкретному полю — это использование API. Возможны три варианта.
-
Империя наносит ответный удар: kad.arbitr.ru снова поддается парсингу (часть 1)
В статьях 2021 года можно встретить довольно пессимистичный вывод: «ресурс окончательно уничтожил возможность сбора информации с помощью Selenium». Но, как оказалось, это не совсем так. Сайт kad.arbitr.ru — предоставляет информацию о гражданских делах, в первую очередь данная информация интересна юристам. Также там можно найти информацию о начале\конце банкротства и много другой информации связанной с юридической составляющей нашей жизни как граждан данной страны. На практике часто возникает задача мониторинга состояния дел по заданному списку — допустим по ИНН или же по ФИО. Именно такая задача была поставлена предо мной, найти дело по ИНН (если оно существует) и открыть его карточку чтобы собрать информацию. При первом знакомстве сайт выглядит довольно устаревшим — как и многие государственные сайты, тем не менее, первое впечатление бывает обманчиво, ведь тут достаточно неплохая защита от тех кто хочет собрать много информации автоматически. Далее разбор будет строиться по следующей схеме: простой способ сбора информации → анализ, почему он работает или нет и так далее. Первое, что приходит в голову при решении задачи парсинга по конкретному полю — это использование API. Возможны три варианта.
-
Тренд на деградацию: как я написал прокси-шакализатор на Next.js, чтобы помочь замедлить интернет
Современные проблемы требуют современных решений. Когда важные люди в высоких кабинетах планомерно замедляют привычные сервисы, режут трафик и заставляют глобальную сеть работать со скоростью уставшего почтового голубя, у любого нормального инженера рано или поздно сдают нервы. Смотреть на то, как твой вылизанный бандл грузится рывками из-за отваливающихся узлов связи, больше нет сил. Все эти бесконечные битвы за 100/100 в Google PageSpeed, микро-оптимизации LCP и внедрение Edge-кэширования теряют смысл, когда пакеты просто не доходят до адресата. И в какой-то момент я осознал простую истину: если ты не можешь остановить глобальную деградацию веба — возглавь её. Раз уж мы летим в прошлое, давайте лететь туда с ветерком. Под скрежет диалап-модема, с вырвиглазными GIF-баннерами, кислотными фонами и ломающейся вёрсткой. Встречайте: Шакализатор сайтов 3000 . Обшакалиться
https://habr.com/ru/articles/1027376/
#nextjs #cheerio #парсинг #web_10 #деградация #ретровэб #sharp
-
Тренд на деградацию: как я написал прокси-шакализатор на Next.js, чтобы помочь замедлить интернет
Современные проблемы требуют современных решений. Когда важные люди в высоких кабинетах планомерно замедляют привычные сервисы, режут трафик и заставляют глобальную сеть работать со скоростью уставшего почтового голубя, у любого нормального инженера рано или поздно сдают нервы. Смотреть на то, как твой вылизанный бандл грузится рывками из-за отваливающихся узлов связи, больше нет сил. Все эти бесконечные битвы за 100/100 в Google PageSpeed, микро-оптимизации LCP и внедрение Edge-кэширования теряют смысл, когда пакеты просто не доходят до адресата. И в какой-то момент я осознал простую истину: если ты не можешь остановить глобальную деградацию веба — возглавь её. Раз уж мы летим в прошлое, давайте лететь туда с ветерком. Под скрежет диалап-модема, с вырвиглазными GIF-баннерами, кислотными фонами и ломающейся вёрсткой. Встречайте: Шакализатор сайтов 3000 . Обшакалиться
https://habr.com/ru/articles/1027376/
#nextjs #cheerio #парсинг #web_10 #деградация #ретровэб #sharp
-
Тренд на деградацию: как я написал прокси-шакализатор на Next.js, чтобы помочь замедлить интернет
Современные проблемы требуют современных решений. Когда важные люди в высоких кабинетах планомерно замедляют привычные сервисы, режут трафик и заставляют глобальную сеть работать со скоростью уставшего почтового голубя, у любого нормального инженера рано или поздно сдают нервы. Смотреть на то, как твой вылизанный бандл грузится рывками из-за отваливающихся узлов связи, больше нет сил. Все эти бесконечные битвы за 100/100 в Google PageSpeed, микро-оптимизации LCP и внедрение Edge-кэширования теряют смысл, когда пакеты просто не доходят до адресата. И в какой-то момент я осознал простую истину: если ты не можешь остановить глобальную деградацию веба — возглавь её. Раз уж мы летим в прошлое, давайте лететь туда с ветерком. Под скрежет диалап-модема, с вырвиглазными GIF-баннерами, кислотными фонами и ломающейся вёрсткой. Встречайте: Шакализатор сайтов 3000 . Обшакалиться
https://habr.com/ru/articles/1027376/
#nextjs #cheerio #парсинг #web_10 #деградация #ретровэб #sharp
-
Тренд на деградацию: как я написал прокси-шакализатор на Next.js, чтобы помочь замедлить интернет
Современные проблемы требуют современных решений. Когда важные люди в высоких кабинетах планомерно замедляют привычные сервисы, режут трафик и заставляют глобальную сеть работать со скоростью уставшего почтового голубя, у любого нормального инженера рано или поздно сдают нервы. Смотреть на то, как твой вылизанный бандл грузится рывками из-за отваливающихся узлов связи, больше нет сил. Все эти бесконечные битвы за 100/100 в Google PageSpeed, микро-оптимизации LCP и внедрение Edge-кэширования теряют смысл, когда пакеты просто не доходят до адресата. И в какой-то момент я осознал простую истину: если ты не можешь остановить глобальную деградацию веба — возглавь её. Раз уж мы летим в прошлое, давайте лететь туда с ветерком. Под скрежет диалап-модема, с вырвиглазными GIF-баннерами, кислотными фонами и ломающейся вёрсткой. Встречайте: Шакализатор сайтов 3000 . Обшакалиться
https://habr.com/ru/articles/1027376/
#nextjs #cheerio #парсинг #web_10 #деградация #ретровэб #sharp
-
Как я парсил банковские платёжки всех российских банков на Python: история боли, костылей и XML-матрёшек
Привет, Хабр! (И тебе, случайный бухгалтер, который думает, что «выгрузить из банка» - это нажать одну кнопку. И тебе, 1С-разработчик, который слышит «парсинг PDF» и сразу уходит на больничный. И тебе, Python-разработчик, который уверен, что pip install magic_solution решит любую проблему.) Сегодня расскажу, как мне поставили задачу, от которой у SAP-а ушло, видимо, несколько команд и много времени, а мне дали на это… ну, скажем так, поменьше. Задача звучала элегантно, но всегда есть но, и не одно)) (Спойлер для тех, кому лень читать: я узнал, что Сбербанк формирует WORD-документы с такой XML-вложенностью, что в ней можно заблудиться, ВТБ зачем-то маскирует WORD под RTF, а файл на 10 000 платёжек из 37 мегабайт разворачивается в 1 гигабайт XML. И да, всё по итогу заработало.)
https://habr.com/ru/articles/1025626/
#python #flask #1с #парсинг #pdf #docx #rtf #банки #интеграции #оптимизация
-
Как я парсил банковские платёжки всех российских банков на Python: история боли, костылей и XML-матрёшек
Привет, Хабр! (И тебе, случайный бухгалтер, который думает, что «выгрузить из банка» - это нажать одну кнопку. И тебе, 1С-разработчик, который слышит «парсинг PDF» и сразу уходит на больничный. И тебе, Python-разработчик, который уверен, что pip install magic_solution решит любую проблему.) Сегодня расскажу, как мне поставили задачу, от которой у SAP-а ушло, видимо, несколько команд и много времени, а мне дали на это… ну, скажем так, поменьше. Задача звучала элегантно, но всегда есть но, и не одно)) (Спойлер для тех, кому лень читать: я узнал, что Сбербанк формирует WORD-документы с такой XML-вложенностью, что в ней можно заблудиться, ВТБ зачем-то маскирует WORD под RTF, а файл на 10 000 платёжек из 37 мегабайт разворачивается в 1 гигабайт XML. И да, всё по итогу заработало.)
https://habr.com/ru/articles/1025626/
#python #flask #1с #парсинг #pdf #docx #rtf #банки #интеграции #оптимизация
-
Как я парсил банковские платёжки всех российских банков на Python: история боли, костылей и XML-матрёшек
Привет, Хабр! (И тебе, случайный бухгалтер, который думает, что «выгрузить из банка» - это нажать одну кнопку. И тебе, 1С-разработчик, который слышит «парсинг PDF» и сразу уходит на больничный. И тебе, Python-разработчик, который уверен, что pip install magic_solution решит любую проблему.) Сегодня расскажу, как мне поставили задачу, от которой у SAP-а ушло, видимо, несколько команд и много времени, а мне дали на это… ну, скажем так, поменьше. Задача звучала элегантно, но всегда есть но, и не одно)) (Спойлер для тех, кому лень читать: я узнал, что Сбербанк формирует WORD-документы с такой XML-вложенностью, что в ней можно заблудиться, ВТБ зачем-то маскирует WORD под RTF, а файл на 10 000 платёжек из 37 мегабайт разворачивается в 1 гигабайт XML. И да, всё по итогу заработало.)
https://habr.com/ru/articles/1025626/
#python #flask #1с #парсинг #pdf #docx #rtf #банки #интеграции #оптимизация
-
Как я парсил банковские платёжки всех российских банков на Python: история боли, костылей и XML-матрёшек
Привет, Хабр! (И тебе, случайный бухгалтер, который думает, что «выгрузить из банка» - это нажать одну кнопку. И тебе, 1С-разработчик, который слышит «парсинг PDF» и сразу уходит на больничный. И тебе, Python-разработчик, который уверен, что pip install magic_solution решит любую проблему.) Сегодня расскажу, как мне поставили задачу, от которой у SAP-а ушло, видимо, несколько команд и много времени, а мне дали на это… ну, скажем так, поменьше. Задача звучала элегантно, но всегда есть но, и не одно)) (Спойлер для тех, кому лень читать: я узнал, что Сбербанк формирует WORD-документы с такой XML-вложенностью, что в ней можно заблудиться, ВТБ зачем-то маскирует WORD под RTF, а файл на 10 000 платёжек из 37 мегабайт разворачивается в 1 гигабайт XML. И да, всё по итогу заработало.)
https://habr.com/ru/articles/1025626/
#python #flask #1с #парсинг #pdf #docx #rtf #банки #интеграции #оптимизация
-
Как мы научили ИИ подбирать мебель по архитектурным чертежам
В мире строительства и дизайна интерьеров работу по подбору мебели из каталога, имея на руках чертеж, до сих пор делают вручную: специалисты часами листают каталоги, сверяют размеры и характеристики. Эта рутина отнимает десятки человеко-часов на каждый проект. Мы нашли, как автоматизировать подбор мебели по архитектурным чертежам. В этой статье мы рассказали, как построили AI-систему с несколькими моделями и Gemini во главе, а также семантическим поиском по каталогу. Расскажем, как нам удалось достичь точности рекомендаций в 87%.
https://habr.com/ru/articles/1025848/
#gemini_3 #gemini_25_pro #vllm #yolo #pdf #чертеж #каталог #парсинг #json
-
Как мы научили ИИ подбирать мебель по архитектурным чертежам
В мире строительства и дизайна интерьеров работу по подбору мебели из каталога, имея на руках чертеж, до сих пор делают вручную: специалисты часами листают каталоги, сверяют размеры и характеристики. Эта рутина отнимает десятки человеко-часов на каждый проект. Мы нашли, как автоматизировать подбор мебели по архитектурным чертежам. В этой статье мы рассказали, как построили AI-систему с несколькими моделями и Gemini во главе, а также семантическим поиском по каталогу. Расскажем, как нам удалось достичь точности рекомендаций в 87%.
https://habr.com/ru/articles/1025848/
#gemini_3 #gemini_25_pro #vllm #yolo #pdf #чертеж #каталог #парсинг #json
-
Как мы научили ИИ подбирать мебель по архитектурным чертежам
В мире строительства и дизайна интерьеров работу по подбору мебели из каталога, имея на руках чертеж, до сих пор делают вручную: специалисты часами листают каталоги, сверяют размеры и характеристики. Эта рутина отнимает десятки человеко-часов на каждый проект. Мы нашли, как автоматизировать подбор мебели по архитектурным чертежам. В этой статье мы рассказали, как построили AI-систему с несколькими моделями и Gemini во главе, а также семантическим поиском по каталогу. Расскажем, как нам удалось достичь точности рекомендаций в 87%.
https://habr.com/ru/articles/1025848/
#gemini_3 #gemini_25_pro #vllm #yolo #pdf #чертеж #каталог #парсинг #json
-
Как мы научили ИИ подбирать мебель по архитектурным чертежам
В мире строительства и дизайна интерьеров работу по подбору мебели из каталога, имея на руках чертеж, до сих пор делают вручную: специалисты часами листают каталоги, сверяют размеры и характеристики. Эта рутина отнимает десятки человеко-часов на каждый проект. Мы нашли, как автоматизировать подбор мебели по архитектурным чертежам. В этой статье мы рассказали, как построили AI-систему с несколькими моделями и Gemini во главе, а также семантическим поиском по каталогу. Расскажем, как нам удалось достичь точности рекомендаций в 87%.
https://habr.com/ru/articles/1025848/
#gemini_3 #gemini_25_pro #vllm #yolo #pdf #чертеж #каталог #парсинг #json
-
[Парсинг | Python] — ниша в которую легко вкатится и сложно продолжить
Привет Хабр! Сегодня я бы хотел написать об такой нише как парсинг , так-как я пристрастился к Python только благодаря тому что я люблю халяву свободные данные, а так-же и с пониманием того что данные в удобном формате это не просто куча структурированных данных это будущее. Что сейчас мы и видим в эру ИИ. Парсинг наше всё!
-
[Парсинг | Python] — ниша в которую легко вкатится и сложно продолжить
Привет Хабр! Сегодня я бы хотел написать об такой нише как парсинг , так-как я пристрастился к Python только благодаря тому что я люблю халяву свободные данные, а так-же и с пониманием того что данные в удобном формате это не просто куча структурированных данных это будущее. Что сейчас мы и видим в эру ИИ. Парсинг наше всё!
-
[Парсинг | Python] — ниша в которую легко вкатится и сложно продолжить
Привет Хабр! Сегодня я бы хотел написать об такой нише как парсинг , так-как я пристрастился к Python только благодаря тому что я люблю халяву свободные данные, а так-же и с пониманием того что данные в удобном формате это не просто куча структурированных данных это будущее. Что сейчас мы и видим в эру ИИ. Парсинг наше всё!
-
[Парсинг | Python] — ниша в которую легко вкатится и сложно продолжить
Привет Хабр! Сегодня я бы хотел написать об такой нише как парсинг , так-как я пристрастился к Python только благодаря тому что я люблю халяву свободные данные, а так-же и с пониманием того что данные в удобном формате это не просто куча структурированных данных это будущее. Что сейчас мы и видим в эру ИИ. Парсинг наше всё!
-
Иллюзия безопасности: как я научился обходить виртуальные очереди (и почему клиентская защита — это театр)
Как забавно, но с развитием прогресса мы получили немного старого доброго Советского Союза в интернете - речь про виртуальные очереди. Правда в интернете стоять в очереди не так утомительно, как в реальности, но тоже не очень приятно.
https://habr.com/ru/articles/1024416/
#информационная_безопасность #виртуальная_очередь #уязвимости #парсинг #боты #архитектура_вебприложений
-
Иллюзия безопасности: как я научился обходить виртуальные очереди (и почему клиентская защита — это театр)
Как забавно, но с развитием прогресса мы получили немного старого доброго Советского Союза в интернете - речь про виртуальные очереди. Правда в интернете стоять в очереди не так утомительно, как в реальности, но тоже не очень приятно.
https://habr.com/ru/articles/1024416/
#информационная_безопасность #виртуальная_очередь #уязвимости #парсинг #боты #архитектура_вебприложений