home.social

#парсинг — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #парсинг, aggregated by home.social.

  1. Я спарсил 62 000 Python-вакансий с hh.ru и узнал страшное

    Привет, Хабр! (И тебе, HR, который ставит в вакансию «Python, SQL, Linux, Docker, K8s, Spark, Airflow, английский C1, опыт 1-3 года, зарплата 40-60К». Особенно тебе.) Сегодня будем препарировать рынок Python-разработки в России . По-настоящему. С графиками, цифрами и верой в светлое будущее. Здесь будет всё, зарплаты, актуальные стеки и то что уже никому не нужно, прогнозы, тренды, и многое другое, будет интересно... Поехали.

    habr.com/ru/articles/1036500/

    #python #hhru #анализ_данных #парсинг #рынок_труда #pandas #аналитика #зарплаты #sql #статистика

  2. Я спарсил 62 000 Python-вакансий с hh.ru и узнал страшное

    Привет, Хабр! (И тебе, HR, который ставит в вакансию «Python, SQL, Linux, Docker, K8s, Spark, Airflow, английский C1, опыт 1-3 года, зарплата 40-60К». Особенно тебе.) Сегодня будем препарировать рынок Python-разработки в России . По-настоящему. С графиками, цифрами и верой в светлое будущее. Здесь будет всё, зарплаты, актуальные стеки и то что уже никому не нужно, прогнозы, тренды, и многое другое, будет интересно... Поехали.

    habr.com/ru/articles/1036500/

    #python #hhru #анализ_данных #парсинг #рынок_труда #pandas #аналитика #зарплаты #sql #статистика

  3. Я спарсил 62 000 Python-вакансий с hh.ru и узнал страшное

    Привет, Хабр! (И тебе, HR, который ставит в вакансию «Python, SQL, Linux, Docker, K8s, Spark, Airflow, английский C1, опыт 1-3 года, зарплата 40-60К». Особенно тебе.) Сегодня будем препарировать рынок Python-разработки в России . По-настоящему. С графиками, цифрами и верой в светлое будущее. Здесь будет всё, зарплаты, актуальные стеки и то что уже никому не нужно, прогнозы, тренды, и многое другое, будет интересно... Поехали.

    habr.com/ru/articles/1036500/

    #python #hhru #анализ_данных #парсинг #рынок_труда #pandas #аналитика #зарплаты #sql #статистика

  4. Я спарсил 62 000 Python-вакансий с hh.ru и узнал страшное

    Привет, Хабр! (И тебе, HR, который ставит в вакансию «Python, SQL, Linux, Docker, K8s, Spark, Airflow, английский C1, опыт 1-3 года, зарплата 40-60К». Особенно тебе.) Сегодня будем препарировать рынок Python-разработки в России . По-настоящему. С графиками, цифрами и верой в светлое будущее. Здесь будет всё, зарплаты, актуальные стеки и то что уже никому не нужно, прогнозы, тренды, и многое другое, будет интересно... Поехали.

    habr.com/ru/articles/1036500/

    #python #hhru #анализ_данных #парсинг #рынок_труда #pandas #аналитика #зарплаты #sql #статистика

  5. Сбор сведений из открытых источников: почему это рискованно, если выкачивается информация из чужих баз данных?

    Собрать информацию о человеке или продукте с использованием высоких технологий стало делом техники. В прямом и переносном смысле слова. Однако такое выкачивание данных может стать поводом для судебного разбирательства. Почему это происходит — далее в материале.

    habr.com/ru/companies/onlinepa

    #базы_данных #база_дынных #парсинг #парсинг_контента #парсинг_сайтов #парсинг_сайта #парсинг_данных #защита_данных #защита_данных_пользователей #законодательство

  6. Сбор сведений из открытых источников: почему это рискованно, если выкачивается информация из чужих баз данных?

    Собрать информацию о человеке или продукте с использованием высоких технологий стало делом техники. В прямом и переносном смысле слова. Однако такое выкачивание данных может стать поводом для судебного разбирательства. Почему это происходит — далее в материале.

    habr.com/ru/companies/onlinepa

    #базы_данных #база_дынных #парсинг #парсинг_контента #парсинг_сайтов #парсинг_сайта #парсинг_данных #защита_данных #защита_данных_пользователей #законодательство

  7. Сбор сведений из открытых источников: почему это рискованно, если выкачивается информация из чужих баз данных?

    Собрать информацию о человеке или продукте с использованием высоких технологий стало делом техники. В прямом и переносном смысле слова. Однако такое выкачивание данных может стать поводом для судебного разбирательства. Почему это происходит — далее в материале.

    habr.com/ru/companies/onlinepa

    #базы_данных #база_дынных #парсинг #парсинг_контента #парсинг_сайтов #парсинг_сайта #парсинг_данных #защита_данных #защита_данных_пользователей #законодательство

  8. Сбор сведений из открытых источников: почему это рискованно, если выкачивается информация из чужих баз данных?

    Собрать информацию о человеке или продукте с использованием высоких технологий стало делом техники. В прямом и переносном смысле слова. Однако такое выкачивание данных может стать поводом для судебного разбирательства. Почему это происходит — далее в материале.

    habr.com/ru/companies/onlinepa

    #базы_данных #база_дынных #парсинг #парсинг_контента #парсинг_сайтов #парсинг_сайта #парсинг_данных #защита_данных #защита_данных_пользователей #законодательство

  9. Как работает антибот в мобильном приложении Wildberries

    Привет, Хабр! Меня зовут Денис Ульянов, я уже 12 лет в IT и последние полтора года руковожу командой Antibot в Wildberries. До работы в WB я три года был на тёмной стороне и занимался продуктами по сбору данных из открытых источников. Нейтрально намекаю на парсеры :) Должен признать, этот опыт помогает мне отстреливать ботов на ресурсах WB. Сегодня поделюсь, как моя команда сделала не только антибота, но и собственный парсер для атак на себя. Надеюсь, после публикации не произойдёт массовое нападение ботов!

    habr.com/ru/companies/wildberr

    #антибот #ddosзащита #парсинг #информационная_безопасность

  10. Как работает антибот в мобильном приложении Wildberries

    Привет, Хабр! Меня зовут Денис Ульянов, я уже 12 лет в IT и последние полтора года руковожу командой Antibot в Wildberries. До работы в WB я три года был на тёмной стороне и занимался продуктами по сбору данных из открытых источников. Нейтрально намекаю на парсеры :) Должен признать, этот опыт помогает мне отстреливать ботов на ресурсах WB. Сегодня поделюсь, как моя команда сделала не только антибота, но и собственный парсер для атак на себя. Надеюсь, после публикации не произойдёт массовое нападение ботов!

    habr.com/ru/companies/wildberr

    #антибот #ddosзащита #парсинг #информационная_безопасность

  11. Как работает антибот в мобильном приложении Wildberries

    Привет, Хабр! Меня зовут Денис Ульянов, я уже 12 лет в IT и последние полтора года руковожу командой Antibot в Wildberries. До работы в WB я три года был на тёмной стороне и занимался продуктами по сбору данных из открытых источников. Нейтрально намекаю на парсеры :) Должен признать, этот опыт помогает мне отстреливать ботов на ресурсах WB. Сегодня поделюсь, как моя команда сделала не только антибота, но и собственный парсер для атак на себя. Надеюсь, после публикации не произойдёт массовое нападение ботов!

    habr.com/ru/companies/wildberr

    #антибот #ddosзащита #парсинг #информационная_безопасность

  12. Как работает антибот в мобильном приложении Wildberries

    Привет, Хабр! Меня зовут Денис Ульянов, я уже 12 лет в IT и последние полтора года руковожу командой Antibot в Wildberries. До работы в WB я три года был на тёмной стороне и занимался продуктами по сбору данных из открытых источников. Нейтрально намекаю на парсеры :) Должен признать, этот опыт помогает мне отстреливать ботов на ресурсах WB. Сегодня поделюсь, как моя команда сделала не только антибота, но и собственный парсер для атак на себя. Надеюсь, после публикации не произойдёт массовое нападение ботов!

    habr.com/ru/companies/wildberr

    #антибот #ddosзащита #парсинг #информационная_безопасность

  13. Парсинг данных: когда это законно, а когда нет — разбираю судебную практику

    Парсинг используют тысячи компаний — для мониторинга цен, сбора контактов, агрегации данных. Большинство уверены: раз информация в открытом доступе, значит, брать её можно. Разбираю, почему это не так, на пяти правовых режимах и семи реальных судебных делах — от ВКонтакте против Double Data до Meta против Bright Data. Разобрать все пять рисков

    habr.com/ru/articles/1032564/

    #парсинг #скрапинг #вебскрапинг #авторское_право #ITправо #судебная_практика #персональные_данные #базы_данных #интеллектуальная_собственность #антимонопольное_право

  14. Парсинг данных: когда это законно, а когда нет — разбираю судебную практику

    Парсинг используют тысячи компаний — для мониторинга цен, сбора контактов, агрегации данных. Большинство уверены: раз информация в открытом доступе, значит, брать её можно. Разбираю, почему это не так, на пяти правовых режимах и семи реальных судебных делах — от ВКонтакте против Double Data до Meta против Bright Data. Разобрать все пять рисков

    habr.com/ru/articles/1032564/

    #парсинг #скрапинг #вебскрапинг #авторское_право #ITправо #судебная_практика #персональные_данные #базы_данных #интеллектуальная_собственность #антимонопольное_право

  15. Парсинг данных: когда это законно, а когда нет — разбираю судебную практику

    Парсинг используют тысячи компаний — для мониторинга цен, сбора контактов, агрегации данных. Большинство уверены: раз информация в открытом доступе, значит, брать её можно. Разбираю, почему это не так, на пяти правовых режимах и семи реальных судебных делах — от ВКонтакте против Double Data до Meta против Bright Data. Разобрать все пять рисков

    habr.com/ru/articles/1032564/

    #парсинг #скрапинг #вебскрапинг #авторское_право #ITправо #судебная_практика #персональные_данные #базы_данных #интеллектуальная_собственность #антимонопольное_право

  16. Парсинг данных: когда это законно, а когда нет — разбираю судебную практику

    Парсинг используют тысячи компаний — для мониторинга цен, сбора контактов, агрегации данных. Большинство уверены: раз информация в открытом доступе, значит, брать её можно. Разбираю, почему это не так, на пяти правовых режимах и семи реальных судебных делах — от ВКонтакте против Double Data до Meta против Bright Data. Разобрать все пять рисков

    habr.com/ru/articles/1032564/

    #парсинг #скрапинг #вебскрапинг #авторское_право #ITправо #судебная_практика #персональные_данные #базы_данных #интеллектуальная_собственность #антимонопольное_право

  17. Как мы форкнули undetected-chromedriver и добавили SOCKS5, мультипроцессинг и модуль капчи

    Устали от блокировок CloudFlare и капч? Показываю библиотеку rtfox-browser — готовое решение для автоматизации Chrome с прокси и решением капчи «из коробки». Установка, настройка, примеры кода и создание своих солверов.

    habr.com/ru/articles/1030550/

    #rtfoxbrowser #undetectedchromedriver #selenium #python #парсинг #web_scraping #обход_cloudflare #captcha_solving #socks5_proxy #chromedriver

  18. Как мы форкнули undetected-chromedriver и добавили SOCKS5, мультипроцессинг и модуль капчи

    Устали от блокировок CloudFlare и капч? Показываю библиотеку rtfox-browser — готовое решение для автоматизации Chrome с прокси и решением капчи «из коробки». Установка, настройка, примеры кода и создание своих солверов.

    habr.com/ru/articles/1030550/

    #rtfoxbrowser #undetectedchromedriver #selenium #python #парсинг #web_scraping #обход_cloudflare #captcha_solving #socks5_proxy #chromedriver

  19. Как мы форкнули undetected-chromedriver и добавили SOCKS5, мультипроцессинг и модуль капчи

    Устали от блокировок CloudFlare и капч? Показываю библиотеку rtfox-browser — готовое решение для автоматизации Chrome с прокси и решением капчи «из коробки». Установка, настройка, примеры кода и создание своих солверов.

    habr.com/ru/articles/1030550/

    #rtfoxbrowser #undetectedchromedriver #selenium #python #парсинг #web_scraping #обход_cloudflare #captcha_solving #socks5_proxy #chromedriver

  20. Как мы форкнули undetected-chromedriver и добавили SOCKS5, мультипроцессинг и модуль капчи

    Устали от блокировок CloudFlare и капч? Показываю библиотеку rtfox-browser — готовое решение для автоматизации Chrome с прокси и решением капчи «из коробки». Установка, настройка, примеры кода и создание своих солверов.

    habr.com/ru/articles/1030550/

    #rtfoxbrowser #undetectedchromedriver #selenium #python #парсинг #web_scraping #обход_cloudflare #captcha_solving #socks5_proxy #chromedriver

  21. Список слов русского языка из Wiktionary и сравнение с pymorphy3 на примере Пушкина и Noize MC *

    В задачах обработки естественного языка (NLP) часто требуется список слов русского языка. Такой список может использоваться как базовый фильтр для выявления неизвестных и потенциально некорректных слов. Одним из распространённых инструментов для работы с русским текстом является библиотека pymorphy (pymorphy2 / pymorphy3), основанная на корпусе русского языка OpenCorpora . Она предназначена для морфологического анализа текстов и, в том числе, позволяет проверять, известно ли слово встроенному словарю библиотеки. Однако словарь pymorphy ориентирован на нормативную лексику и морфологию. В нём отсутствует значительная часть имён собственных, топонимов, заимствований, разговорной и современной лексики. Поэтому при использовании pymorphy для фильтрации текста возникают ложные срабатывания, много редких и нестандартных слов определяются как неизвестные (что мы увидим ниже в разделе сравнения словарей). Для повышения полноты выявления неизвестных слов я решил собрать свой максимально широкий список слов русского языка для задач NLP. Такой список слов можно получить на основе данных сайта Wiktionary (Викисловарь) . Wiktionary - это открытый многоязычный словарь, в котором каждая словарная единица представлена в виде отдельной статьи. Викисловарь содержит информацию о словах различных языков, включая русский, а также сведения об их морфологических и синтаксических свойствах. * Признан минюстом РФ иностранным агентом.

    habr.com/ru/articles/1027992/

    #словарь_русского_языка #база_слов_русского_языка #список_русских_слов #Wiktionary #парсинг #дамп #nlp #извлечение_данных #pymorphy

  22. Список слов русского языка из Wiktionary и сравнение с pymorphy3 на примере Пушкина и Noize MC *

    В задачах обработки естественного языка (NLP) часто требуется список слов русского языка. Такой список может использоваться как базовый фильтр для выявления неизвестных и потенциально некорректных слов. Одним из распространённых инструментов для работы с русским текстом является библиотека pymorphy (pymorphy2 / pymorphy3), основанная на корпусе русского языка OpenCorpora . Она предназначена для морфологического анализа текстов и, в том числе, позволяет проверять, известно ли слово встроенному словарю библиотеки. Однако словарь pymorphy ориентирован на нормативную лексику и морфологию. В нём отсутствует значительная часть имён собственных, топонимов, заимствований, разговорной и современной лексики. Поэтому при использовании pymorphy для фильтрации текста возникают ложные срабатывания, много редких и нестандартных слов определяются как неизвестные (что мы увидим ниже в разделе сравнения словарей). Для повышения полноты выявления неизвестных слов я решил собрать свой максимально широкий список слов русского языка для задач NLP. Такой список слов можно получить на основе данных сайта Wiktionary (Викисловарь) . Wiktionary - это открытый многоязычный словарь, в котором каждая словарная единица представлена в виде отдельной статьи. Викисловарь содержит информацию о словах различных языков, включая русский, а также сведения об их морфологических и синтаксических свойствах. * Признан минюстом РФ иностранным агентом.

    habr.com/ru/articles/1027992/

    #словарь_русского_языка #база_слов_русского_языка #список_русских_слов #Wiktionary #парсинг #дамп #nlp #извлечение_данных #pymorphy

  23. Список слов русского языка из Wiktionary и сравнение с pymorphy3 на примере Пушкина и Noize MC *

    В задачах обработки естественного языка (NLP) часто требуется список слов русского языка. Такой список может использоваться как базовый фильтр для выявления неизвестных и потенциально некорректных слов. Одним из распространённых инструментов для работы с русским текстом является библиотека pymorphy (pymorphy2 / pymorphy3), основанная на корпусе русского языка OpenCorpora . Она предназначена для морфологического анализа текстов и, в том числе, позволяет проверять, известно ли слово встроенному словарю библиотеки. Однако словарь pymorphy ориентирован на нормативную лексику и морфологию. В нём отсутствует значительная часть имён собственных, топонимов, заимствований, разговорной и современной лексики. Поэтому при использовании pymorphy для фильтрации текста возникают ложные срабатывания, много редких и нестандартных слов определяются как неизвестные (что мы увидим ниже в разделе сравнения словарей). Для повышения полноты выявления неизвестных слов я решил собрать свой максимально широкий список слов русского языка для задач NLP. Такой список слов можно получить на основе данных сайта Wiktionary (Викисловарь) . Wiktionary - это открытый многоязычный словарь, в котором каждая словарная единица представлена в виде отдельной статьи. Викисловарь содержит информацию о словах различных языков, включая русский, а также сведения об их морфологических и синтаксических свойствах. * Признан минюстом РФ иностранным агентом.

    habr.com/ru/articles/1027992/

    #словарь_русского_языка #база_слов_русского_языка #список_русских_слов #Wiktionary #парсинг #дамп #nlp #извлечение_данных #pymorphy

  24. Список слов русского языка из Wiktionary и сравнение с pymorphy3 на примере Пушкина и Noize MC *

    В задачах обработки естественного языка (NLP) часто требуется список слов русского языка. Такой список может использоваться как базовый фильтр для выявления неизвестных и потенциально некорректных слов. Одним из распространённых инструментов для работы с русским текстом является библиотека pymorphy (pymorphy2 / pymorphy3), основанная на корпусе русского языка OpenCorpora . Она предназначена для морфологического анализа текстов и, в том числе, позволяет проверять, известно ли слово встроенному словарю библиотеки. Однако словарь pymorphy ориентирован на нормативную лексику и морфологию. В нём отсутствует значительная часть имён собственных, топонимов, заимствований, разговорной и современной лексики. Поэтому при использовании pymorphy для фильтрации текста возникают ложные срабатывания, много редких и нестандартных слов определяются как неизвестные (что мы увидим ниже в разделе сравнения словарей). Для повышения полноты выявления неизвестных слов я решил собрать свой максимально широкий список слов русского языка для задач NLP. Такой список слов можно получить на основе данных сайта Wiktionary (Викисловарь) . Wiktionary - это открытый многоязычный словарь, в котором каждая словарная единица представлена в виде отдельной статьи. Викисловарь содержит информацию о словах различных языков, включая русский, а также сведения об их морфологических и синтаксических свойствах. * Признан минюстом РФ иностранным агентом.

    habr.com/ru/articles/1027992/

    #словарь_русского_языка #база_слов_русского_языка #список_русских_слов #Wiktionary #парсинг #дамп #nlp #извлечение_данных #pymorphy

  25. [Перевод] Структуры данных на практике. Глава 14: Обработка строк и эффективность использования кэша

    «В Computer Science есть только две сложные вещи: инвалидация кэша и придумывание названий», — Фил Карлтон Разрыв в производительности Наш парсер логов обрабатывал 800 тысяч строк в секунду. Нам требовалось 3 миллиона строк в секунду. От нужного нам показателя мы отставали в 3,75 раза. Задача инструмента заключалась в парсинге строк логов в реальном времени, извлечении временных меток, уровней логов и сообщений из миллионов строк в секунду. Обработка миллиона строк логов в текущей реализации требовала 1,25 секунды — слишком долго для анализа в реальном времени. Профилировщик показывал 85 миллионов промахов кэша. Для обработки строк это казалось слишком большим показателем. В реализации использовались стандартные строковые функции C — простые, читаемые, но, очевидно, слишком медленные. Я переписал этот код, добавив обработку строк с учётом кэша. Результаты были такими: В 4,5 раза быстрее и в 7 раз меньше промахов кэша. В этой главе мы поговорим о том, как эффективно использовать кэш при обработке строк.

    habr.com/ru/articles/1024570/

    #парсинг #работа_со_строками #кэш

  26. [Перевод] Структуры данных на практике. Глава 14: Обработка строк и эффективность использования кэша

    «В Computer Science есть только две сложные вещи: инвалидация кэша и придумывание названий», — Фил Карлтон Разрыв в производительности Наш парсер логов обрабатывал 800 тысяч строк в секунду. Нам требовалось 3 миллиона строк в секунду. От нужного нам показателя мы отставали в 3,75 раза. Задача инструмента заключалась в парсинге строк логов в реальном времени, извлечении временных меток, уровней логов и сообщений из миллионов строк в секунду. Обработка миллиона строк логов в текущей реализации требовала 1,25 секунды — слишком долго для анализа в реальном времени. Профилировщик показывал 85 миллионов промахов кэша. Для обработки строк это казалось слишком большим показателем. В реализации использовались стандартные строковые функции C — простые, читаемые, но, очевидно, слишком медленные. Я переписал этот код, добавив обработку строк с учётом кэша. Результаты были такими: В 4,5 раза быстрее и в 7 раз меньше промахов кэша. В этой главе мы поговорим о том, как эффективно использовать кэш при обработке строк.

    habr.com/ru/articles/1024570/

    #парсинг #работа_со_строками #кэш

  27. [Перевод] Структуры данных на практике. Глава 14: Обработка строк и эффективность использования кэша

    «В Computer Science есть только две сложные вещи: инвалидация кэша и придумывание названий», — Фил Карлтон Разрыв в производительности Наш парсер логов обрабатывал 800 тысяч строк в секунду. Нам требовалось 3 миллиона строк в секунду. От нужного нам показателя мы отставали в 3,75 раза. Задача инструмента заключалась в парсинге строк логов в реальном времени, извлечении временных меток, уровней логов и сообщений из миллионов строк в секунду. Обработка миллиона строк логов в текущей реализации требовала 1,25 секунды — слишком долго для анализа в реальном времени. Профилировщик показывал 85 миллионов промахов кэша. Для обработки строк это казалось слишком большим показателем. В реализации использовались стандартные строковые функции C — простые, читаемые, но, очевидно, слишком медленные. Я переписал этот код, добавив обработку строк с учётом кэша. Результаты были такими: В 4,5 раза быстрее и в 7 раз меньше промахов кэша. В этой главе мы поговорим о том, как эффективно использовать кэш при обработке строк.

    habr.com/ru/articles/1024570/

    #парсинг #работа_со_строками #кэш

  28. [Перевод] Структуры данных на практике. Глава 14: Обработка строк и эффективность использования кэша

    «В Computer Science есть только две сложные вещи: инвалидация кэша и придумывание названий», — Фил Карлтон Разрыв в производительности Наш парсер логов обрабатывал 800 тысяч строк в секунду. Нам требовалось 3 миллиона строк в секунду. От нужного нам показателя мы отставали в 3,75 раза. Задача инструмента заключалась в парсинге строк логов в реальном времени, извлечении временных меток, уровней логов и сообщений из миллионов строк в секунду. Обработка миллиона строк логов в текущей реализации требовала 1,25 секунды — слишком долго для анализа в реальном времени. Профилировщик показывал 85 миллионов промахов кэша. Для обработки строк это казалось слишком большим показателем. В реализации использовались стандартные строковые функции C — простые, читаемые, но, очевидно, слишком медленные. Я переписал этот код, добавив обработку строк с учётом кэша. Результаты были такими: В 4,5 раза быстрее и в 7 раз меньше промахов кэша. В этой главе мы поговорим о том, как эффективно использовать кэш при обработке строк.

    habr.com/ru/articles/1024570/

    #парсинг #работа_со_строками #кэш

  29. Империя наносит ответный удар: kad.arbitr.ru снова поддается парсингу (часть 1)

    В статьях 2021 года можно встретить довольно пессимистичный вывод: «ресурс окончательно уничтожил возможность сбора информации с помощью Selenium». Но, как оказалось, это не совсем так. Сайт kad.arbitr.ru — предоставляет информацию о гражданских делах, в первую очередь данная информация интересна юристам. Также там можно найти информацию о начале\конце банкротства и много другой информации связанной с юридической составляющей нашей жизни как граждан данной страны. На практике часто возникает задача мониторинга состояния дел по заданному списку — допустим по ИНН или же по ФИО. Именно такая задача была поставлена предо мной, найти дело по ИНН (если оно существует) и открыть его карточку чтобы собрать информацию. При первом знакомстве сайт выглядит довольно устаревшим — как и многие государственные сайты, тем не менее, первое впечатление бывает обманчиво, ведь тут достаточно неплохая защита от тех кто хочет собрать много информации автоматически. Далее разбор будет строиться по следующей схеме: простой способ сбора информации → анализ, почему он работает или нет и так далее. Первое, что приходит в голову при решении задачи парсинга по конкретному полю — это использование API. Возможны три варианта.

    habr.com/ru/articles/1029384/

    #парсинг #webassembly #reverseengineering

  30. Империя наносит ответный удар: kad.arbitr.ru снова поддается парсингу (часть 1)

    В статьях 2021 года можно встретить довольно пессимистичный вывод: «ресурс окончательно уничтожил возможность сбора информации с помощью Selenium». Но, как оказалось, это не совсем так. Сайт kad.arbitr.ru — предоставляет информацию о гражданских делах, в первую очередь данная информация интересна юристам. Также там можно найти информацию о начале\конце банкротства и много другой информации связанной с юридической составляющей нашей жизни как граждан данной страны. На практике часто возникает задача мониторинга состояния дел по заданному списку — допустим по ИНН или же по ФИО. Именно такая задача была поставлена предо мной, найти дело по ИНН (если оно существует) и открыть его карточку чтобы собрать информацию. При первом знакомстве сайт выглядит довольно устаревшим — как и многие государственные сайты, тем не менее, первое впечатление бывает обманчиво, ведь тут достаточно неплохая защита от тех кто хочет собрать много информации автоматически. Далее разбор будет строиться по следующей схеме: простой способ сбора информации → анализ, почему он работает или нет и так далее. Первое, что приходит в голову при решении задачи парсинга по конкретному полю — это использование API. Возможны три варианта.

    habr.com/ru/articles/1029384/

    #парсинг #webassembly #reverseengineering

  31. Империя наносит ответный удар: kad.arbitr.ru снова поддается парсингу (часть 1)

    В статьях 2021 года можно встретить довольно пессимистичный вывод: «ресурс окончательно уничтожил возможность сбора информации с помощью Selenium». Но, как оказалось, это не совсем так. Сайт kad.arbitr.ru — предоставляет информацию о гражданских делах, в первую очередь данная информация интересна юристам. Также там можно найти информацию о начале\конце банкротства и много другой информации связанной с юридической составляющей нашей жизни как граждан данной страны. На практике часто возникает задача мониторинга состояния дел по заданному списку — допустим по ИНН или же по ФИО. Именно такая задача была поставлена предо мной, найти дело по ИНН (если оно существует) и открыть его карточку чтобы собрать информацию. При первом знакомстве сайт выглядит довольно устаревшим — как и многие государственные сайты, тем не менее, первое впечатление бывает обманчиво, ведь тут достаточно неплохая защита от тех кто хочет собрать много информации автоматически. Далее разбор будет строиться по следующей схеме: простой способ сбора информации → анализ, почему он работает или нет и так далее. Первое, что приходит в голову при решении задачи парсинга по конкретному полю — это использование API. Возможны три варианта.

    habr.com/ru/articles/1029384/

    #парсинг #webassembly #reverseengineering

  32. Империя наносит ответный удар: kad.arbitr.ru снова поддается парсингу (часть 1)

    В статьях 2021 года можно встретить довольно пессимистичный вывод: «ресурс окончательно уничтожил возможность сбора информации с помощью Selenium». Но, как оказалось, это не совсем так. Сайт kad.arbitr.ru — предоставляет информацию о гражданских делах, в первую очередь данная информация интересна юристам. Также там можно найти информацию о начале\конце банкротства и много другой информации связанной с юридической составляющей нашей жизни как граждан данной страны. На практике часто возникает задача мониторинга состояния дел по заданному списку — допустим по ИНН или же по ФИО. Именно такая задача была поставлена предо мной, найти дело по ИНН (если оно существует) и открыть его карточку чтобы собрать информацию. При первом знакомстве сайт выглядит довольно устаревшим — как и многие государственные сайты, тем не менее, первое впечатление бывает обманчиво, ведь тут достаточно неплохая защита от тех кто хочет собрать много информации автоматически. Далее разбор будет строиться по следующей схеме: простой способ сбора информации → анализ, почему он работает или нет и так далее. Первое, что приходит в голову при решении задачи парсинга по конкретному полю — это использование API. Возможны три варианта.

    habr.com/ru/articles/1029384/

    #парсинг #webassembly #reverseengineering

  33. Тренд на деградацию: как я написал прокси-шакализатор на Next.js, чтобы помочь замедлить интернет

    Современные проблемы требуют современных решений. Когда важные люди в высоких кабинетах планомерно замедляют привычные сервисы, режут трафик и заставляют глобальную сеть работать со скоростью уставшего почтового голубя, у любого нормального инженера рано или поздно сдают нервы. Смотреть на то, как твой вылизанный бандл грузится рывками из-за отваливающихся узлов связи, больше нет сил. Все эти бесконечные битвы за 100/100 в Google PageSpeed, микро-оптимизации LCP и внедрение Edge-кэширования теряют смысл, когда пакеты просто не доходят до адресата. И в какой-то момент я осознал простую истину: если ты не можешь остановить глобальную деградацию веба — возглавь её. Раз уж мы летим в прошлое, давайте лететь туда с ветерком. Под скрежет диалап-модема, с вырвиглазными GIF-баннерами, кислотными фонами и ломающейся вёрсткой. Встречайте: Шакализатор сайтов 3000 . Обшакалиться

    habr.com/ru/articles/1027376/

    #nextjs #cheerio #парсинг #web_10 #деградация #ретровэб #sharp

  34. Тренд на деградацию: как я написал прокси-шакализатор на Next.js, чтобы помочь замедлить интернет

    Современные проблемы требуют современных решений. Когда важные люди в высоких кабинетах планомерно замедляют привычные сервисы, режут трафик и заставляют глобальную сеть работать со скоростью уставшего почтового голубя, у любого нормального инженера рано или поздно сдают нервы. Смотреть на то, как твой вылизанный бандл грузится рывками из-за отваливающихся узлов связи, больше нет сил. Все эти бесконечные битвы за 100/100 в Google PageSpeed, микро-оптимизации LCP и внедрение Edge-кэширования теряют смысл, когда пакеты просто не доходят до адресата. И в какой-то момент я осознал простую истину: если ты не можешь остановить глобальную деградацию веба — возглавь её. Раз уж мы летим в прошлое, давайте лететь туда с ветерком. Под скрежет диалап-модема, с вырвиглазными GIF-баннерами, кислотными фонами и ломающейся вёрсткой. Встречайте: Шакализатор сайтов 3000 . Обшакалиться

    habr.com/ru/articles/1027376/

    #nextjs #cheerio #парсинг #web_10 #деградация #ретровэб #sharp

  35. Тренд на деградацию: как я написал прокси-шакализатор на Next.js, чтобы помочь замедлить интернет

    Современные проблемы требуют современных решений. Когда важные люди в высоких кабинетах планомерно замедляют привычные сервисы, режут трафик и заставляют глобальную сеть работать со скоростью уставшего почтового голубя, у любого нормального инженера рано или поздно сдают нервы. Смотреть на то, как твой вылизанный бандл грузится рывками из-за отваливающихся узлов связи, больше нет сил. Все эти бесконечные битвы за 100/100 в Google PageSpeed, микро-оптимизации LCP и внедрение Edge-кэширования теряют смысл, когда пакеты просто не доходят до адресата. И в какой-то момент я осознал простую истину: если ты не можешь остановить глобальную деградацию веба — возглавь её. Раз уж мы летим в прошлое, давайте лететь туда с ветерком. Под скрежет диалап-модема, с вырвиглазными GIF-баннерами, кислотными фонами и ломающейся вёрсткой. Встречайте: Шакализатор сайтов 3000 . Обшакалиться

    habr.com/ru/articles/1027376/

    #nextjs #cheerio #парсинг #web_10 #деградация #ретровэб #sharp

  36. Тренд на деградацию: как я написал прокси-шакализатор на Next.js, чтобы помочь замедлить интернет

    Современные проблемы требуют современных решений. Когда важные люди в высоких кабинетах планомерно замедляют привычные сервисы, режут трафик и заставляют глобальную сеть работать со скоростью уставшего почтового голубя, у любого нормального инженера рано или поздно сдают нервы. Смотреть на то, как твой вылизанный бандл грузится рывками из-за отваливающихся узлов связи, больше нет сил. Все эти бесконечные битвы за 100/100 в Google PageSpeed, микро-оптимизации LCP и внедрение Edge-кэширования теряют смысл, когда пакеты просто не доходят до адресата. И в какой-то момент я осознал простую истину: если ты не можешь остановить глобальную деградацию веба — возглавь её. Раз уж мы летим в прошлое, давайте лететь туда с ветерком. Под скрежет диалап-модема, с вырвиглазными GIF-баннерами, кислотными фонами и ломающейся вёрсткой. Встречайте: Шакализатор сайтов 3000 . Обшакалиться

    habr.com/ru/articles/1027376/

    #nextjs #cheerio #парсинг #web_10 #деградация #ретровэб #sharp

  37. Как я парсил банковские платёжки всех российских банков на Python: история боли, костылей и XML-матрёшек

    Привет, Хабр! (И тебе, случайный бухгалтер, который думает, что «выгрузить из банка» - это нажать одну кнопку. И тебе, 1С-разработчик, который слышит «парсинг PDF» и сразу уходит на больничный. И тебе, Python-разработчик, который уверен, что pip install magic_solution решит любую проблему.) Сегодня расскажу, как мне поставили задачу, от которой у SAP-а ушло, видимо, несколько команд и много времени, а мне дали на это… ну, скажем так, поменьше. Задача звучала элегантно, но всегда есть но, и не одно)) (Спойлер для тех, кому лень читать: я узнал, что Сбербанк формирует WORD-документы с такой XML-вложенностью, что в ней можно заблудиться, ВТБ зачем-то маскирует WORD под RTF, а файл на 10 000 платёжек из 37 мегабайт разворачивается в 1 гигабайт XML. И да, всё по итогу заработало.)

    habr.com/ru/articles/1025626/

    #python #flask # #парсинг #pdf #docx #rtf #банки #интеграции #оптимизация

  38. Как я парсил банковские платёжки всех российских банков на Python: история боли, костылей и XML-матрёшек

    Привет, Хабр! (И тебе, случайный бухгалтер, который думает, что «выгрузить из банка» - это нажать одну кнопку. И тебе, 1С-разработчик, который слышит «парсинг PDF» и сразу уходит на больничный. И тебе, Python-разработчик, который уверен, что pip install magic_solution решит любую проблему.) Сегодня расскажу, как мне поставили задачу, от которой у SAP-а ушло, видимо, несколько команд и много времени, а мне дали на это… ну, скажем так, поменьше. Задача звучала элегантно, но всегда есть но, и не одно)) (Спойлер для тех, кому лень читать: я узнал, что Сбербанк формирует WORD-документы с такой XML-вложенностью, что в ней можно заблудиться, ВТБ зачем-то маскирует WORD под RTF, а файл на 10 000 платёжек из 37 мегабайт разворачивается в 1 гигабайт XML. И да, всё по итогу заработало.)

    habr.com/ru/articles/1025626/

    #python #flask # #парсинг #pdf #docx #rtf #банки #интеграции #оптимизация

  39. Как я парсил банковские платёжки всех российских банков на Python: история боли, костылей и XML-матрёшек

    Привет, Хабр! (И тебе, случайный бухгалтер, который думает, что «выгрузить из банка» - это нажать одну кнопку. И тебе, 1С-разработчик, который слышит «парсинг PDF» и сразу уходит на больничный. И тебе, Python-разработчик, который уверен, что pip install magic_solution решит любую проблему.) Сегодня расскажу, как мне поставили задачу, от которой у SAP-а ушло, видимо, несколько команд и много времени, а мне дали на это… ну, скажем так, поменьше. Задача звучала элегантно, но всегда есть но, и не одно)) (Спойлер для тех, кому лень читать: я узнал, что Сбербанк формирует WORD-документы с такой XML-вложенностью, что в ней можно заблудиться, ВТБ зачем-то маскирует WORD под RTF, а файл на 10 000 платёжек из 37 мегабайт разворачивается в 1 гигабайт XML. И да, всё по итогу заработало.)

    habr.com/ru/articles/1025626/

    #python #flask # #парсинг #pdf #docx #rtf #банки #интеграции #оптимизация

  40. Как я парсил банковские платёжки всех российских банков на Python: история боли, костылей и XML-матрёшек

    Привет, Хабр! (И тебе, случайный бухгалтер, который думает, что «выгрузить из банка» - это нажать одну кнопку. И тебе, 1С-разработчик, который слышит «парсинг PDF» и сразу уходит на больничный. И тебе, Python-разработчик, который уверен, что pip install magic_solution решит любую проблему.) Сегодня расскажу, как мне поставили задачу, от которой у SAP-а ушло, видимо, несколько команд и много времени, а мне дали на это… ну, скажем так, поменьше. Задача звучала элегантно, но всегда есть но, и не одно)) (Спойлер для тех, кому лень читать: я узнал, что Сбербанк формирует WORD-документы с такой XML-вложенностью, что в ней можно заблудиться, ВТБ зачем-то маскирует WORD под RTF, а файл на 10 000 платёжек из 37 мегабайт разворачивается в 1 гигабайт XML. И да, всё по итогу заработало.)

    habr.com/ru/articles/1025626/

    #python #flask # #парсинг #pdf #docx #rtf #банки #интеграции #оптимизация

  41. Как мы научили ИИ подбирать мебель по архитектурным чертежам

    В мире строительства и дизайна интерьеров работу по подбору мебели из каталога, имея на руках чертеж, до сих пор делают вручную: специалисты часами листают каталоги, сверяют размеры и характеристики. Эта рутина отнимает десятки человеко-часов на каждый проект. Мы нашли, как автоматизировать подбор мебели по архитектурным чертежам. В этой статье мы рассказали, как построили AI-систему с несколькими моделями и Gemini во главе, а также семантическим поиском по каталогу. Расскажем, как нам удалось достичь точности рекомендаций в 87%.

    habr.com/ru/articles/1025848/

    #gemini_3 #gemini_25_pro #vllm #yolo #pdf #чертеж #каталог #парсинг #json

  42. Как мы научили ИИ подбирать мебель по архитектурным чертежам

    В мире строительства и дизайна интерьеров работу по подбору мебели из каталога, имея на руках чертеж, до сих пор делают вручную: специалисты часами листают каталоги, сверяют размеры и характеристики. Эта рутина отнимает десятки человеко-часов на каждый проект. Мы нашли, как автоматизировать подбор мебели по архитектурным чертежам. В этой статье мы рассказали, как построили AI-систему с несколькими моделями и Gemini во главе, а также семантическим поиском по каталогу. Расскажем, как нам удалось достичь точности рекомендаций в 87%.

    habr.com/ru/articles/1025848/

    #gemini_3 #gemini_25_pro #vllm #yolo #pdf #чертеж #каталог #парсинг #json

  43. Как мы научили ИИ подбирать мебель по архитектурным чертежам

    В мире строительства и дизайна интерьеров работу по подбору мебели из каталога, имея на руках чертеж, до сих пор делают вручную: специалисты часами листают каталоги, сверяют размеры и характеристики. Эта рутина отнимает десятки человеко-часов на каждый проект. Мы нашли, как автоматизировать подбор мебели по архитектурным чертежам. В этой статье мы рассказали, как построили AI-систему с несколькими моделями и Gemini во главе, а также семантическим поиском по каталогу. Расскажем, как нам удалось достичь точности рекомендаций в 87%.

    habr.com/ru/articles/1025848/

    #gemini_3 #gemini_25_pro #vllm #yolo #pdf #чертеж #каталог #парсинг #json

  44. Как мы научили ИИ подбирать мебель по архитектурным чертежам

    В мире строительства и дизайна интерьеров работу по подбору мебели из каталога, имея на руках чертеж, до сих пор делают вручную: специалисты часами листают каталоги, сверяют размеры и характеристики. Эта рутина отнимает десятки человеко-часов на каждый проект. Мы нашли, как автоматизировать подбор мебели по архитектурным чертежам. В этой статье мы рассказали, как построили AI-систему с несколькими моделями и Gemini во главе, а также семантическим поиском по каталогу. Расскажем, как нам удалось достичь точности рекомендаций в 87%.

    habr.com/ru/articles/1025848/

    #gemini_3 #gemini_25_pro #vllm #yolo #pdf #чертеж #каталог #парсинг #json

  45. [Парсинг | Python] — ниша в которую легко вкатится и сложно продолжить

    Привет Хабр! Сегодня я бы хотел написать об такой нише как парсинг , так-как я пристрастился к Python только благодаря тому что я люблю халяву свободные данные, а так-же и с пониманием того что данные в удобном формате это не просто куча структурированных данных это будущее. Что сейчас мы и видим в эру ИИ. Парсинг наше всё!

    habr.com/ru/articles/1025760/

    #парсинг #python #python_для_начинающих

  46. [Парсинг | Python] — ниша в которую легко вкатится и сложно продолжить

    Привет Хабр! Сегодня я бы хотел написать об такой нише как парсинг , так-как я пристрастился к Python только благодаря тому что я люблю халяву свободные данные, а так-же и с пониманием того что данные в удобном формате это не просто куча структурированных данных это будущее. Что сейчас мы и видим в эру ИИ. Парсинг наше всё!

    habr.com/ru/articles/1025760/

    #парсинг #python #python_для_начинающих

  47. [Парсинг | Python] — ниша в которую легко вкатится и сложно продолжить

    Привет Хабр! Сегодня я бы хотел написать об такой нише как парсинг , так-как я пристрастился к Python только благодаря тому что я люблю халяву свободные данные, а так-же и с пониманием того что данные в удобном формате это не просто куча структурированных данных это будущее. Что сейчас мы и видим в эру ИИ. Парсинг наше всё!

    habr.com/ru/articles/1025760/

    #парсинг #python #python_для_начинающих

  48. [Парсинг | Python] — ниша в которую легко вкатится и сложно продолжить

    Привет Хабр! Сегодня я бы хотел написать об такой нише как парсинг , так-как я пристрастился к Python только благодаря тому что я люблю халяву свободные данные, а так-же и с пониманием того что данные в удобном формате это не просто куча структурированных данных это будущее. Что сейчас мы и видим в эру ИИ. Парсинг наше всё!

    habr.com/ru/articles/1025760/

    #парсинг #python #python_для_начинающих

  49. Иллюзия безопасности: как я научился обходить виртуальные очереди (и почему клиентская защита — это театр)

    Как забавно, но с развитием прогресса мы получили немного старого доброго Советского Союза в интернете - речь про виртуальные очереди. Правда в интернете стоять в очереди не так утомительно, как в реальности, но тоже не очень приятно.

    habr.com/ru/articles/1024416/

    #информационная_безопасность #виртуальная_очередь #уязвимости #парсинг #боты #архитектура_вебприложений

  50. Иллюзия безопасности: как я научился обходить виртуальные очереди (и почему клиентская защита — это театр)

    Как забавно, но с развитием прогресса мы получили немного старого доброго Советского Союза в интернете - речь про виртуальные очереди. Правда в интернете стоять в очереди не так утомительно, как в реальности, но тоже не очень приятно.

    habr.com/ru/articles/1024416/

    #информационная_безопасность #виртуальная_очередь #уязвимости #парсинг #боты #архитектура_вебприложений