#скрейпинг — Public Fediverse posts on home.social

Habr @[email protected] · 2026-05-04 · 10:32 UTC

180к MAU, 43% детей и „филькина грамота“: как я искал уязвимости, а нашёл бизнес-схему

Друг скидывает ссылку на очередной российский дейтинг-бот, ты решаешь пробежаться по DevTools “вспомнить старое”, и через 5 минут понимаешь, что попал в Матрицу: сервис, где создана иллюзия безопасности, а на самом деле — она мнимая и поддерживается документами, а не кодом. С минимальным тулкитом ты находишь 4 High уязвимости и полноценную утечку данных пользователей. Подробная история о том, как простой багхантинг превратился в масштабное расследование для проекта с 180 тысячами ежемесячных пользователей.

https://habr.com/ru/articles/1030936/

#IDOR #PHPSESSID #Mimolet_уязвимость #S3_публичный_бакет #скрейпинг #OWASP_API_Top_10 #Broken_Authentication #утечка_данных #недостатки_безопасности #приватность

#приватность #недостатки_безопасности #утечка_данных #broken_authentication #owasp_api_top_10 #скрейпинг

Habr @[email protected] · 2026-05-04 · 10:32 UTC

180к MAU, 43% детей и „филькина грамота“: как я искал уязвимости, а нашёл бизнес-схему

Друг скидывает ссылку на очередной российский дейтинг-бот, ты решаешь пробежаться по DevTools “вспомнить старое”, и через 5 минут понимаешь, что попал в Матрицу: сервис, где создана иллюзия безопасности, а на самом деле — она мнимая и поддерживается документами, а не кодом. С минимальным тулкитом ты находишь 4 High уязвимости и полноценную утечку данных пользователей. Подробная история о том, как простой багхантинг превратился в масштабное расследование для проекта с 180 тысячами ежемесячных пользователей.

https://habr.com/ru/articles/1030936/

#IDOR #PHPSESSID #Mimolet_уязвимость #S3_публичный_бакет #скрейпинг #OWASP_API_Top_10 #Broken_Authentication #утечка_данных #недостатки_безопасности #приватность

#приватность #недостатки_безопасности #утечка_данных #broken_authentication #owasp_api_top_10 #скрейпинг

Habr @[email protected] · 2026-05-04 · 10:32 UTC

180к MAU, 43% детей и „филькина грамота“: как я искал уязвимости, а нашёл бизнес-схему

Друг скидывает ссылку на очередной российский дейтинг-бот, ты решаешь пробежаться по DevTools “вспомнить старое”, и через 5 минут понимаешь, что попал в Матрицу: сервис, где создана иллюзия безопасности, а на самом деле — она мнимая и поддерживается документами, а не кодом. С минимальным тулкитом ты находишь 4 High уязвимости и полноценную утечку данных пользователей. Подробная история о том, как простой багхантинг превратился в масштабное расследование для проекта с 180 тысячами ежемесячных пользователей.

https://habr.com/ru/articles/1030936/

#IDOR #PHPSESSID #Mimolet_уязвимость #S3_публичный_бакет #скрейпинг #OWASP_API_Top_10 #Broken_Authentication #утечка_данных #недостатки_безопасности #приватность

#приватность #недостатки_безопасности #утечка_данных #broken_authentication #owasp_api_top_10 #скрейпинг

Habr @[email protected] · 2026-05-04 · 10:32 UTC

180к MAU, 43% детей и „филькина грамота“: как я искал уязвимости, а нашёл бизнес-схему

Друг скидывает ссылку на очередной российский дейтинг-бот, ты решаешь пробежаться по DevTools “вспомнить старое”, и через 5 минут понимаешь, что попал в Матрицу: сервис, где создана иллюзия безопасности, а на самом деле — она мнимая и поддерживается документами, а не кодом. С минимальным тулкитом ты находишь 4 High уязвимости и полноценную утечку данных пользователей. Подробная история о том, как простой багхантинг превратился в масштабное расследование для проекта с 180 тысячами ежемесячных пользователей.

https://habr.com/ru/articles/1030936/

#IDOR #PHPSESSID #Mimolet_уязвимость #S3_публичный_бакет #скрейпинг #OWASP_API_Top_10 #Broken_Authentication #утечка_данных #недостатки_безопасности #приватность

#idor #phpsessid #mimolet_уязвимость #s3_публичный_бакет #скрейпинг #owasp_api_top_10

Habr @[email protected] · 2026-02-25 · 10:12 UTC

[Перевод] Как за сутки обойти миллиард веб-страниц

TL;DR: 1,005 миллиарда веб-страниц 25,5 часа $462 По какой-то причине уже долгое время никто не писал о том, что требуется для краулинга большой части веба: последним обнаруженным мной источником был пост Майкла Нильсена за 2012 год[1]. Очевидно, что за это время много изменилось. Всё стало больше, лучше и быстрее: у CPU появилось намного больше ядер, на смену жёстким дискам пришли твердотельные накопители NVMe, скорости ввода-вывода которых сравнимы со скоростями RAM, существенно выросла ширина сетевых каналов, существенно расширился список типов инстансов EC2 и так далее. Но в чём-то ситуация и усложнилась: гораздо бóльшая часть веба стала динамической, а контент теперь более тяжёлый. Как поменялось состояние Интернета? Теперь узкие места стали другими, и для создания своего Google по-прежнему нужно около 41 тысячи долларов ? Мне захотелось это узнать, поэтому я собрал и выпустил собственный веб-краулер 1 в условиях похожих ограничений.

https://habr.com/ru/articles/1003120/

#вебкраулер #поисковые_движки #краулинг #скрейпинг #web_crawling #scraping

#scraping #web_crawling #скрейпинг #краулинг #поисковые_движки #вебкраулер

Habr @[email protected] · 2026-02-25 · 10:12 UTC

[Перевод] Как за сутки обойти миллиард веб-страниц

TL;DR: 1,005 миллиарда веб-страниц 25,5 часа $462 По какой-то причине уже долгое время никто не писал о том, что требуется для краулинга большой части веба: последним обнаруженным мной источником был пост Майкла Нильсена за 2012 год[1]. Очевидно, что за это время много изменилось. Всё стало больше, лучше и быстрее: у CPU появилось намного больше ядер, на смену жёстким дискам пришли твердотельные накопители NVMe, скорости ввода-вывода которых сравнимы со скоростями RAM, существенно выросла ширина сетевых каналов, существенно расширился список типов инстансов EC2 и так далее. Но в чём-то ситуация и усложнилась: гораздо бóльшая часть веба стала динамической, а контент теперь более тяжёлый. Как поменялось состояние Интернета? Теперь узкие места стали другими, и для создания своего Google по-прежнему нужно около 41 тысячи долларов ? Мне захотелось это узнать, поэтому я собрал и выпустил собственный веб-краулер 1 в условиях похожих ограничений.

https://habr.com/ru/articles/1003120/

#вебкраулер #поисковые_движки #краулинг #скрейпинг #web_crawling #scraping

#scraping #web_crawling #скрейпинг #краулинг #поисковые_движки #вебкраулер

Habr @[email protected] · 2026-02-25 · 10:12 UTC

[Перевод] Как за сутки обойти миллиард веб-страниц

TL;DR: 1,005 миллиарда веб-страниц 25,5 часа $462 По какой-то причине уже долгое время никто не писал о том, что требуется для краулинга большой части веба: последним обнаруженным мной источником был пост Майкла Нильсена за 2012 год[1]. Очевидно, что за это время много изменилось. Всё стало больше, лучше и быстрее: у CPU появилось намного больше ядер, на смену жёстким дискам пришли твердотельные накопители NVMe, скорости ввода-вывода которых сравнимы со скоростями RAM, существенно выросла ширина сетевых каналов, существенно расширился список типов инстансов EC2 и так далее. Но в чём-то ситуация и усложнилась: гораздо бóльшая часть веба стала динамической, а контент теперь более тяжёлый. Как поменялось состояние Интернета? Теперь узкие места стали другими, и для создания своего Google по-прежнему нужно около 41 тысячи долларов ? Мне захотелось это узнать, поэтому я собрал и выпустил собственный веб-краулер 1 в условиях похожих ограничений.

https://habr.com/ru/articles/1003120/

#вебкраулер #поисковые_движки #краулинг #скрейпинг #web_crawling #scraping

#scraping #web_crawling #скрейпинг #краулинг #поисковые_движки #вебкраулер

Habr @[email protected] · 2026-02-25 · 10:12 UTC

[Перевод] Как за сутки обойти миллиард веб-страниц

TL;DR: 1,005 миллиарда веб-страниц 25,5 часа $462 По какой-то причине уже долгое время никто не писал о том, что требуется для краулинга большой части веба: последним обнаруженным мной источником был пост Майкла Нильсена за 2012 год[1]. Очевидно, что за это время много изменилось. Всё стало больше, лучше и быстрее: у CPU появилось намного больше ядер, на смену жёстким дискам пришли твердотельные накопители NVMe, скорости ввода-вывода которых сравнимы со скоростями RAM, существенно выросла ширина сетевых каналов, существенно расширился список типов инстансов EC2 и так далее. Но в чём-то ситуация и усложнилась: гораздо бóльшая часть веба стала динамической, а контент теперь более тяжёлый. Как поменялось состояние Интернета? Теперь узкие места стали другими, и для создания своего Google по-прежнему нужно около 41 тысячи долларов ? Мне захотелось это узнать, поэтому я собрал и выпустил собственный веб-краулер 1 в условиях похожих ограничений.

https://habr.com/ru/articles/1003120/

#вебкраулер #поисковые_движки #краулинг #скрейпинг #web_crawling #scraping

Habr @[email protected] · 2024-02-28 · 13:32 UTC

[Перевод] Руководство по веб-скрейпингу на Python

В этом туториале мы создадим надёжные веб-краулеры с использованием таких библиотек, как BeautifulSoup, изучим техники, позволяющие преодолевать реальные трудности при скрейпинге, а также представим рекомендации по крупномасштабному скрейпингу. Вы получите навыки для скрейпинга сложных сайтов и решения проблем, которые касаются ограничений частоты запросов, блокировок и генерируемых при помощи JavaScript страниц.

https://habr.com/ru/companies/ruvds/articles/796885/

#ruvds_переводы #скрейпинг #вебскрейпинг #краулинг #краулеры #scraping #beautiful_soup

#beautiful_soup #scraping #краулеры #краулинг #вебскрейпинг #скрейпинг

Habr @[email protected] · 2025-12-19 · 10:52 UTC

[Перевод] Получаем красивый автомобильный номер при помощи TypeScript

Большинство людей не задумывается о случайном наборе букв и цифр, выдаваемых им Департаментом транспортных средств. Но я не такой. В Интернете я всегда стремлюсь получить понятный и запоминающийся цифровой идентификатор. Многие годы мне удавалось подбирать идентификаторы в виде моего имени + фамилии в Instagram* (@jlaf) и осмысленных слов на других платформах (@explain, @discontinue). Поэтому когда ДТС в третий раз прислал мне письмо с напоминанием о необходимости обновления номера, у меня сработал тот же инстинкт: почему я даже не задумался о том, чтобы получить номер с красивым сочетанием символов?

https://habr.com/ru/articles/978478/

#скрейпинг #автомобильные_номера #красивые_номера

#красивые_номера #автомобильные_номера #скрейпинг

Habr @[email protected] · 2025-04-30 · 06:32 UTC

[Перевод] Для защиты своего сервера я использую zip-бомбы

Основной объём трафика в вебе возникает из-за ботов. По большей части, эти боты используются для обнаружения нового контента. Это читалки RSS-фидов, поисковые движки, выполняющие краулинг вашего контента, а сегодня и боты ИИ, собирающие контент, чтобы скармливать его LLM. Но есть и зловредные боты. Их создают спамеры, скрейперы контента и хакеры. На моём прежнем месте работы бот обнаружил уязвимость Wordpress и встроил в наш сервер зловредный скрипт, а затем превратил машину в ботнет, используемый для DDOS. Один из моих первых веб-сайтов был полностью выдавлен из поиска Google из-за ботов, генерирующих спам. Мне нужно было найти способ защиты от этих ботов, поэтому я начал пользоваться zip-бомбами.

https://habr.com/ru/articles/905776/

#zip_bomb #zipбомба #краулеры #скрейпинг #спамеры #спамботы

#спамботы #спамеры #скрейпинг #краулеры #zipбомба #zip_bomb

Habr @[email protected] · 2025-04-30 · 06:32 UTC

[Перевод] Для защиты своего сервера я использую zip-бомбы

Основной объём трафика в вебе возникает из-за ботов. По большей части, эти боты используются для обнаружения нового контента. Это читалки RSS-фидов, поисковые движки, выполняющие краулинг вашего контента, а сегодня и боты ИИ, собирающие контент, чтобы скармливать его LLM. Но есть и зловредные боты. Их создают спамеры, скрейперы контента и хакеры. На моём прежнем месте работы бот обнаружил уязвимость Wordpress и встроил в наш сервер зловредный скрипт, а затем превратил машину в ботнет, используемый для DDOS. Один из моих первых веб-сайтов был полностью выдавлен из поиска Google из-за ботов, генерирующих спам. Мне нужно было найти способ защиты от этих ботов, поэтому я начал пользоваться zip-бомбами.

https://habr.com/ru/articles/905776/

#zip_bomb #zipбомба #краулеры #скрейпинг #спамеры #спамботы

#спамботы #спамеры #скрейпинг #краулеры #zipбомба #zip_bomb

Habr @[email protected] · 2025-04-30 · 06:32 UTC

[Перевод] Для защиты своего сервера я использую zip-бомбы

Основной объём трафика в вебе возникает из-за ботов. По большей части, эти боты используются для обнаружения нового контента. Это читалки RSS-фидов, поисковые движки, выполняющие краулинг вашего контента, а сегодня и боты ИИ, собирающие контент, чтобы скармливать его LLM. Но есть и зловредные боты. Их создают спамеры, скрейперы контента и хакеры. На моём прежнем месте работы бот обнаружил уязвимость Wordpress и встроил в наш сервер зловредный скрипт, а затем превратил машину в ботнет, используемый для DDOS. Один из моих первых веб-сайтов был полностью выдавлен из поиска Google из-за ботов, генерирующих спам. Мне нужно было найти способ защиты от этих ботов, поэтому я начал пользоваться zip-бомбами.

https://habr.com/ru/articles/905776/

#zip_bomb #zipбомба #краулеры #скрейпинг #спамеры #спамботы

#спамботы #спамеры #скрейпинг #краулеры #zipбомба #zip_bomb

Habr @[email protected] · 2025-04-30 · 06:32 UTC

[Перевод] Для защиты своего сервера я использую zip-бомбы

Основной объём трафика в вебе возникает из-за ботов. По большей части, эти боты используются для обнаружения нового контента. Это читалки RSS-фидов, поисковые движки, выполняющие краулинг вашего контента, а сегодня и боты ИИ, собирающие контент, чтобы скармливать его LLM. Но есть и зловредные боты. Их создают спамеры, скрейперы контента и хакеры. На моём прежнем месте работы бот обнаружил уязвимость Wordpress и встроил в наш сервер зловредный скрипт, а затем превратил машину в ботнет, используемый для DDOS. Один из моих первых веб-сайтов был полностью выдавлен из поиска Google из-за ботов, генерирующих спам. Мне нужно было найти способ защиты от этих ботов, поэтому я начал пользоваться zip-бомбами.

https://habr.com/ru/articles/905776/

#zip_bomb #zipбомба #краулеры #скрейпинг #спамеры #спамботы

Habr @[email protected] · 2024-02-28 · 13:32 UTC

[Перевод] Руководство по веб-скрейпингу на Python

В этом туториале мы создадим надёжные веб-краулеры с использованием таких библиотек, как BeautifulSoup, изучим техники, позволяющие преодолевать реальные трудности при скрейпинге, а также представим рекомендации по крупномасштабному скрейпингу. Вы получите навыки для скрейпинга сложных сайтов и решения проблем, которые касаются ограничений частоты запросов, блокировок и генерируемых при помощи JavaScript страниц.

https://habr.com/ru/companies/ruvds/articles/796885/

#ruvds_переводы #скрейпинг #вебскрейпинг #краулинг #краулеры #scraping #beautiful_soup

#beautiful_soup #scraping #краулеры #краулинг #вебскрейпинг #скрейпинг