#краулинг — Public Fediverse posts on home.social

Habr @[email protected] · 2026-02-25 · 10:12 UTC

[Перевод] Как за сутки обойти миллиард веб-страниц

TL;DR: 1,005 миллиарда веб-страниц 25,5 часа $462 По какой-то причине уже долгое время никто не писал о том, что требуется для краулинга большой части веба: последним обнаруженным мной источником был пост Майкла Нильсена за 2012 год[1]. Очевидно, что за это время много изменилось. Всё стало больше, лучше и быстрее: у CPU появилось намного больше ядер, на смену жёстким дискам пришли твердотельные накопители NVMe, скорости ввода-вывода которых сравнимы со скоростями RAM, существенно выросла ширина сетевых каналов, существенно расширился список типов инстансов EC2 и так далее. Но в чём-то ситуация и усложнилась: гораздо бóльшая часть веба стала динамической, а контент теперь более тяжёлый. Как поменялось состояние Интернета? Теперь узкие места стали другими, и для создания своего Google по-прежнему нужно около 41 тысячи долларов ? Мне захотелось это узнать, поэтому я собрал и выпустил собственный веб-краулер 1 в условиях похожих ограничений.

https://habr.com/ru/articles/1003120/

#вебкраулер #поисковые_движки #краулинг #скрейпинг #web_crawling #scraping

#scraping #web_crawling #скрейпинг #краулинг #поисковые_движки #вебкраулер

Habr @[email protected] · 2026-02-25 · 10:12 UTC

[Перевод] Как за сутки обойти миллиард веб-страниц

TL;DR: 1,005 миллиарда веб-страниц 25,5 часа $462 По какой-то причине уже долгое время никто не писал о том, что требуется для краулинга большой части веба: последним обнаруженным мной источником был пост Майкла Нильсена за 2012 год[1]. Очевидно, что за это время много изменилось. Всё стало больше, лучше и быстрее: у CPU появилось намного больше ядер, на смену жёстким дискам пришли твердотельные накопители NVMe, скорости ввода-вывода которых сравнимы со скоростями RAM, существенно выросла ширина сетевых каналов, существенно расширился список типов инстансов EC2 и так далее. Но в чём-то ситуация и усложнилась: гораздо бóльшая часть веба стала динамической, а контент теперь более тяжёлый. Как поменялось состояние Интернета? Теперь узкие места стали другими, и для создания своего Google по-прежнему нужно около 41 тысячи долларов ? Мне захотелось это узнать, поэтому я собрал и выпустил собственный веб-краулер 1 в условиях похожих ограничений.

https://habr.com/ru/articles/1003120/

#вебкраулер #поисковые_движки #краулинг #скрейпинг #web_crawling #scraping

#scraping #web_crawling #скрейпинг #краулинг #поисковые_движки #вебкраулер

Habr @[email protected] · 2026-02-25 · 10:12 UTC

[Перевод] Как за сутки обойти миллиард веб-страниц

TL;DR: 1,005 миллиарда веб-страниц 25,5 часа $462 По какой-то причине уже долгое время никто не писал о том, что требуется для краулинга большой части веба: последним обнаруженным мной источником был пост Майкла Нильсена за 2012 год[1]. Очевидно, что за это время много изменилось. Всё стало больше, лучше и быстрее: у CPU появилось намного больше ядер, на смену жёстким дискам пришли твердотельные накопители NVMe, скорости ввода-вывода которых сравнимы со скоростями RAM, существенно выросла ширина сетевых каналов, существенно расширился список типов инстансов EC2 и так далее. Но в чём-то ситуация и усложнилась: гораздо бóльшая часть веба стала динамической, а контент теперь более тяжёлый. Как поменялось состояние Интернета? Теперь узкие места стали другими, и для создания своего Google по-прежнему нужно около 41 тысячи долларов ? Мне захотелось это узнать, поэтому я собрал и выпустил собственный веб-краулер 1 в условиях похожих ограничений.

https://habr.com/ru/articles/1003120/

#вебкраулер #поисковые_движки #краулинг #скрейпинг #web_crawling #scraping

#scraping #web_crawling #скрейпинг #краулинг #поисковые_движки #вебкраулер

Habr @[email protected] · 2026-02-25 · 10:12 UTC

[Перевод] Как за сутки обойти миллиард веб-страниц

TL;DR: 1,005 миллиарда веб-страниц 25,5 часа $462 По какой-то причине уже долгое время никто не писал о том, что требуется для краулинга большой части веба: последним обнаруженным мной источником был пост Майкла Нильсена за 2012 год[1]. Очевидно, что за это время много изменилось. Всё стало больше, лучше и быстрее: у CPU появилось намного больше ядер, на смену жёстким дискам пришли твердотельные накопители NVMe, скорости ввода-вывода которых сравнимы со скоростями RAM, существенно выросла ширина сетевых каналов, существенно расширился список типов инстансов EC2 и так далее. Но в чём-то ситуация и усложнилась: гораздо бóльшая часть веба стала динамической, а контент теперь более тяжёлый. Как поменялось состояние Интернета? Теперь узкие места стали другими, и для создания своего Google по-прежнему нужно около 41 тысячи долларов ? Мне захотелось это узнать, поэтому я собрал и выпустил собственный веб-краулер 1 в условиях похожих ограничений.

https://habr.com/ru/articles/1003120/

#вебкраулер #поисковые_движки #краулинг #скрейпинг #web_crawling #scraping

Habr @[email protected] · 2025-02-03 · 11:32 UTC

Свой Google в локалке. Ищем иголку в стоге сена

В статье мы разработаем свой собственный Google, который можно будет запустить в любой локальной сети как атакующим, что ищут пароли, так и защитникам, которым небезразлична безопасность их родной локалки. И что примечательно, наш Google будет состоять на 99% из готовых компонентов, практически без дополнительного программирования. А внедрение такой системы потребует ввода всего пары команд.

https://habr.com/ru/companies/ussc/articles/878340/

#active_directory #google #smb #tesseract #vosk #csv #gnu #ftp #краулинг #dcap

#dcap #краулинг #ftp #gnu #csv #vosk

Habr @[email protected] · 2025-02-03 · 11:32 UTC

Свой Google в локалке. Ищем иголку в стоге сена

В статье мы разработаем свой собственный Google, который можно будет запустить в любой локальной сети как атакующим, что ищут пароли, так и защитникам, которым небезразлична безопасность их родной локалки. И что примечательно, наш Google будет состоять на 99% из готовых компонентов, практически без дополнительного программирования. А внедрение такой системы потребует ввода всего пары команд.

https://habr.com/ru/companies/ussc/articles/878340/

#active_directory #google #smb #tesseract #vosk #csv #gnu #ftp #краулинг #dcap

#dcap #краулинг #ftp #gnu #csv #vosk

Habr @[email protected] · 2025-02-03 · 11:32 UTC

Свой Google в локалке. Ищем иголку в стоге сена

В статье мы разработаем свой собственный Google, который можно будет запустить в любой локальной сети как атакующим, что ищут пароли, так и защитникам, которым небезразлична безопасность их родной локалки. И что примечательно, наш Google будет состоять на 99% из готовых компонентов, практически без дополнительного программирования. А внедрение такой системы потребует ввода всего пары команд.

https://habr.com/ru/companies/ussc/articles/878340/

#active_directory #google #smb #tesseract #vosk #csv #gnu #ftp #краулинг #dcap

#dcap #краулинг #ftp #gnu #csv #vosk

Habr @[email protected] · 2025-02-03 · 11:32 UTC

Свой Google в локалке. Ищем иголку в стоге сена

В статье мы разработаем свой собственный Google, который можно будет запустить в любой локальной сети как атакующим, что ищут пароли, так и защитникам, которым небезразлична безопасность их родной локалки. И что примечательно, наш Google будет состоять на 99% из готовых компонентов, практически без дополнительного программирования. А внедрение такой системы потребует ввода всего пары команд.

https://habr.com/ru/companies/ussc/articles/878340/

#active_directory #google #smb #tesseract #vosk #csv #gnu #ftp #краулинг #dcap

#active_directory #google #smb #tesseract #vosk #csv

Habr @[email protected] · 2024-02-28 · 13:32 UTC

[Перевод] Руководство по веб-скрейпингу на Python

В этом туториале мы создадим надёжные веб-краулеры с использованием таких библиотек, как BeautifulSoup, изучим техники, позволяющие преодолевать реальные трудности при скрейпинге, а также представим рекомендации по крупномасштабному скрейпингу. Вы получите навыки для скрейпинга сложных сайтов и решения проблем, которые касаются ограничений частоты запросов, блокировок и генерируемых при помощи JavaScript страниц.

https://habr.com/ru/companies/ruvds/articles/796885/

#ruvds_переводы #скрейпинг #вебскрейпинг #краулинг #краулеры #scraping #beautiful_soup

#beautiful_soup #scraping #краулеры #краулинг #вебскрейпинг #скрейпинг

Habr @[email protected] · 2024-02-28 · 13:32 UTC

[Перевод] Руководство по веб-скрейпингу на Python

В этом туториале мы создадим надёжные веб-краулеры с использованием таких библиотек, как BeautifulSoup, изучим техники, позволяющие преодолевать реальные трудности при скрейпинге, а также представим рекомендации по крупномасштабному скрейпингу. Вы получите навыки для скрейпинга сложных сайтов и решения проблем, которые касаются ограничений частоты запросов, блокировок и генерируемых при помощи JavaScript страниц.

https://habr.com/ru/companies/ruvds/articles/796885/

#ruvds_переводы #скрейпинг #вебскрейпинг #краулинг #краулеры #scraping #beautiful_soup

#beautiful_soup #scraping #краулеры #краулинг #вебскрейпинг #скрейпинг