#web_crawling — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #web_crawling, aggregated by home.social.
-
[Перевод] Как за сутки обойти миллиард веб-страниц
TL;DR: 1,005 миллиарда веб-страниц 25,5 часа $462 По какой-то причине уже долгое время никто не писал о том, что требуется для краулинга большой части веба: последним обнаруженным мной источником был пост Майкла Нильсена за 2012 год[1]. Очевидно, что за это время много изменилось. Всё стало больше, лучше и быстрее: у CPU появилось намного больше ядер, на смену жёстким дискам пришли твердотельные накопители NVMe, скорости ввода-вывода которых сравнимы со скоростями RAM, существенно выросла ширина сетевых каналов, существенно расширился список типов инстансов EC2 и так далее. Но в чём-то ситуация и усложнилась: гораздо бóльшая часть веба стала динамической, а контент теперь более тяжёлый. Как поменялось состояние Интернета? Теперь узкие места стали другими, и для создания своего Google по-прежнему нужно около 41 тысячи долларов ? Мне захотелось это узнать, поэтому я собрал и выпустил собственный веб-краулер 1 в условиях похожих ограничений.
https://habr.com/ru/articles/1003120/
#вебкраулер #поисковые_движки #краулинг #скрейпинг #web_crawling #scraping
-
[Перевод] Как за сутки обойти миллиард веб-страниц
TL;DR: 1,005 миллиарда веб-страниц 25,5 часа $462 По какой-то причине уже долгое время никто не писал о том, что требуется для краулинга большой части веба: последним обнаруженным мной источником был пост Майкла Нильсена за 2012 год[1]. Очевидно, что за это время много изменилось. Всё стало больше, лучше и быстрее: у CPU появилось намного больше ядер, на смену жёстким дискам пришли твердотельные накопители NVMe, скорости ввода-вывода которых сравнимы со скоростями RAM, существенно выросла ширина сетевых каналов, существенно расширился список типов инстансов EC2 и так далее. Но в чём-то ситуация и усложнилась: гораздо бóльшая часть веба стала динамической, а контент теперь более тяжёлый. Как поменялось состояние Интернета? Теперь узкие места стали другими, и для создания своего Google по-прежнему нужно около 41 тысячи долларов ? Мне захотелось это узнать, поэтому я собрал и выпустил собственный веб-краулер 1 в условиях похожих ограничений.
https://habr.com/ru/articles/1003120/
#вебкраулер #поисковые_движки #краулинг #скрейпинг #web_crawling #scraping
-
[Перевод] Как за сутки обойти миллиард веб-страниц
TL;DR: 1,005 миллиарда веб-страниц 25,5 часа $462 По какой-то причине уже долгое время никто не писал о том, что требуется для краулинга большой части веба: последним обнаруженным мной источником был пост Майкла Нильсена за 2012 год[1]. Очевидно, что за это время много изменилось. Всё стало больше, лучше и быстрее: у CPU появилось намного больше ядер, на смену жёстким дискам пришли твердотельные накопители NVMe, скорости ввода-вывода которых сравнимы со скоростями RAM, существенно выросла ширина сетевых каналов, существенно расширился список типов инстансов EC2 и так далее. Но в чём-то ситуация и усложнилась: гораздо бóльшая часть веба стала динамической, а контент теперь более тяжёлый. Как поменялось состояние Интернета? Теперь узкие места стали другими, и для создания своего Google по-прежнему нужно около 41 тысячи долларов ? Мне захотелось это узнать, поэтому я собрал и выпустил собственный веб-краулер 1 в условиях похожих ограничений.
https://habr.com/ru/articles/1003120/
#вебкраулер #поисковые_движки #краулинг #скрейпинг #web_crawling #scraping
-
[Перевод] Как за сутки обойти миллиард веб-страниц
TL;DR: 1,005 миллиарда веб-страниц 25,5 часа $462 По какой-то причине уже долгое время никто не писал о том, что требуется для краулинга большой части веба: последним обнаруженным мной источником был пост Майкла Нильсена за 2012 год[1]. Очевидно, что за это время много изменилось. Всё стало больше, лучше и быстрее: у CPU появилось намного больше ядер, на смену жёстким дискам пришли твердотельные накопители NVMe, скорости ввода-вывода которых сравнимы со скоростями RAM, существенно выросла ширина сетевых каналов, существенно расширился список типов инстансов EC2 и так далее. Но в чём-то ситуация и усложнилась: гораздо бóльшая часть веба стала динамической, а контент теперь более тяжёлый. Как поменялось состояние Интернета? Теперь узкие места стали другими, и для создания своего Google по-прежнему нужно около 41 тысячи долларов ? Мне захотелось это узнать, поэтому я собрал и выпустил собственный веб-краулер 1 в условиях похожих ограничений.
https://habr.com/ru/articles/1003120/
#вебкраулер #поисковые_движки #краулинг #скрейпинг #web_crawling #scraping