home.social

#поисковые_движки — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #поисковые_движки, aggregated by home.social.

  1. [Перевод] Как за сутки обойти миллиард веб-страниц

    TL;DR: 1,005 миллиарда веб-страниц 25,5 часа $462 По какой-то причине уже долгое время никто не писал о том, что требуется для краулинга большой части веба: последним обнаруженным мной источником был пост Майкла Нильсена за 2012 год[1]. Очевидно, что за это время много изменилось. Всё стало больше, лучше и быстрее: у CPU появилось намного больше ядер, на смену жёстким дискам пришли твердотельные накопители NVMe, скорости ввода-вывода которых сравнимы со скоростями RAM, существенно выросла ширина сетевых каналов, существенно расширился список типов инстансов EC2 и так далее. Но в чём-то ситуация и усложнилась: гораздо бóльшая часть веба стала динамической, а контент теперь более тяжёлый. Как поменялось состояние Интернета? Теперь узкие места стали другими, и для создания своего Google по-прежнему нужно около 41 тысячи долларов ? Мне захотелось это узнать, поэтому я собрал и выпустил собственный веб-краулер 1 в условиях похожих ограничений.

    habr.com/ru/articles/1003120/

    #вебкраулер #поисковые_движки #краулинг #скрейпинг #web_crawling #scraping

  2. [Перевод] Как за сутки обойти миллиард веб-страниц

    TL;DR: 1,005 миллиарда веб-страниц 25,5 часа $462 По какой-то причине уже долгое время никто не писал о том, что требуется для краулинга большой части веба: последним обнаруженным мной источником был пост Майкла Нильсена за 2012 год[1]. Очевидно, что за это время много изменилось. Всё стало больше, лучше и быстрее: у CPU появилось намного больше ядер, на смену жёстким дискам пришли твердотельные накопители NVMe, скорости ввода-вывода которых сравнимы со скоростями RAM, существенно выросла ширина сетевых каналов, существенно расширился список типов инстансов EC2 и так далее. Но в чём-то ситуация и усложнилась: гораздо бóльшая часть веба стала динамической, а контент теперь более тяжёлый. Как поменялось состояние Интернета? Теперь узкие места стали другими, и для создания своего Google по-прежнему нужно около 41 тысячи долларов ? Мне захотелось это узнать, поэтому я собрал и выпустил собственный веб-краулер 1 в условиях похожих ограничений.

    habr.com/ru/articles/1003120/

    #вебкраулер #поисковые_движки #краулинг #скрейпинг #web_crawling #scraping

  3. [Перевод] Как за сутки обойти миллиард веб-страниц

    TL;DR: 1,005 миллиарда веб-страниц 25,5 часа $462 По какой-то причине уже долгое время никто не писал о том, что требуется для краулинга большой части веба: последним обнаруженным мной источником был пост Майкла Нильсена за 2012 год[1]. Очевидно, что за это время много изменилось. Всё стало больше, лучше и быстрее: у CPU появилось намного больше ядер, на смену жёстким дискам пришли твердотельные накопители NVMe, скорости ввода-вывода которых сравнимы со скоростями RAM, существенно выросла ширина сетевых каналов, существенно расширился список типов инстансов EC2 и так далее. Но в чём-то ситуация и усложнилась: гораздо бóльшая часть веба стала динамической, а контент теперь более тяжёлый. Как поменялось состояние Интернета? Теперь узкие места стали другими, и для создания своего Google по-прежнему нужно около 41 тысячи долларов ? Мне захотелось это узнать, поэтому я собрал и выпустил собственный веб-краулер 1 в условиях похожих ограничений.

    habr.com/ru/articles/1003120/

    #вебкраулер #поисковые_движки #краулинг #скрейпинг #web_crawling #scraping

  4. [Перевод] Как за сутки обойти миллиард веб-страниц

    TL;DR: 1,005 миллиарда веб-страниц 25,5 часа $462 По какой-то причине уже долгое время никто не писал о том, что требуется для краулинга большой части веба: последним обнаруженным мной источником был пост Майкла Нильсена за 2012 год[1]. Очевидно, что за это время много изменилось. Всё стало больше, лучше и быстрее: у CPU появилось намного больше ядер, на смену жёстким дискам пришли твердотельные накопители NVMe, скорости ввода-вывода которых сравнимы со скоростями RAM, существенно выросла ширина сетевых каналов, существенно расширился список типов инстансов EC2 и так далее. Но в чём-то ситуация и усложнилась: гораздо бóльшая часть веба стала динамической, а контент теперь более тяжёлый. Как поменялось состояние Интернета? Теперь узкие места стали другими, и для создания своего Google по-прежнему нужно около 41 тысячи долларов ? Мне захотелось это узнать, поэтому я собрал и выпустил собственный веб-краулер 1 в условиях похожих ограничений.

    habr.com/ru/articles/1003120/

    #вебкраулер #поисковые_движки #краулинг #скрейпинг #web_crawling #scraping

  5. [Перевод] Я сделал поисковик хуже Elasticsearch

    В этой статье я хочу поделиться своим стыдом, вызванным попыткой создания библиотеки поиска. В этом стыде и вы можете прочувствовать смирение и осознание того, что реальный качественный поисковый движок, а не создаваемый как хобби-проект, должен делаться для того, чтобы лексический поиск был быстрым. BEIR — это бенчмарки поиска информации, ориентированные на сценарии использования в формате «вопрос-ответ». Мой хобби-проект SearchArray добавляет в Pandas полнотекстовый поиск. Поэтому естественно, чтобы ощутить трепет от моих потрясающих навыков разработчика, я решил использовать BEIR для сравнения SearchArray с Elasticsearch (с тем же запросом + токенизацией). Поэтому я потратил субботу на интеграцию SearchArray в BEIR и измерение релевантности и производительности с корпусом MSMarco Passage Retrieval (8 миллионов документов). Барабанная дробь...

    habr.com/ru/articles/917604/

    #поисковые_системы #поисковые_движки #elasticsearch #bm25

  6. [Перевод] Я сделал поисковик хуже Elasticsearch

    В этой статье я хочу поделиться своим стыдом, вызванным попыткой создания библиотеки поиска. В этом стыде и вы можете прочувствовать смирение и осознание того, что реальный качественный поисковый движок, а не создаваемый как хобби-проект, должен делаться для того, чтобы лексический поиск был быстрым. BEIR — это бенчмарки поиска информации, ориентированные на сценарии использования в формате «вопрос-ответ». Мой хобби-проект SearchArray добавляет в Pandas полнотекстовый поиск. Поэтому естественно, чтобы ощутить трепет от моих потрясающих навыков разработчика, я решил использовать BEIR для сравнения SearchArray с Elasticsearch (с тем же запросом + токенизацией). Поэтому я потратил субботу на интеграцию SearchArray в BEIR и измерение релевантности и производительности с корпусом MSMarco Passage Retrieval (8 миллионов документов). Барабанная дробь...

    habr.com/ru/articles/917604/

    #поисковые_системы #поисковые_движки #elasticsearch #bm25

  7. [Перевод] Я сделал поисковик хуже Elasticsearch

    В этой статье я хочу поделиться своим стыдом, вызванным попыткой создания библиотеки поиска. В этом стыде и вы можете прочувствовать смирение и осознание того, что реальный качественный поисковый движок, а не создаваемый как хобби-проект, должен делаться для того, чтобы лексический поиск был быстрым. BEIR — это бенчмарки поиска информации, ориентированные на сценарии использования в формате «вопрос-ответ». Мой хобби-проект SearchArray добавляет в Pandas полнотекстовый поиск. Поэтому естественно, чтобы ощутить трепет от моих потрясающих навыков разработчика, я решил использовать BEIR для сравнения SearchArray с Elasticsearch (с тем же запросом + токенизацией). Поэтому я потратил субботу на интеграцию SearchArray в BEIR и измерение релевантности и производительности с корпусом MSMarco Passage Retrieval (8 миллионов документов). Барабанная дробь...

    habr.com/ru/articles/917604/

    #поисковые_системы #поисковые_движки #elasticsearch #bm25

  8. [Перевод] Я сделал поисковик хуже Elasticsearch

    В этой статье я хочу поделиться своим стыдом, вызванным попыткой создания библиотеки поиска. В этом стыде и вы можете прочувствовать смирение и осознание того, что реальный качественный поисковый движок, а не создаваемый как хобби-проект, должен делаться для того, чтобы лексический поиск был быстрым. BEIR — это бенчмарки поиска информации, ориентированные на сценарии использования в формате «вопрос-ответ». Мой хобби-проект SearchArray добавляет в Pandas полнотекстовый поиск. Поэтому естественно, чтобы ощутить трепет от моих потрясающих навыков разработчика, я решил использовать BEIR для сравнения SearchArray с Elasticsearch (с тем же запросом + токенизацией). Поэтому я потратил субботу на интеграцию SearchArray в BEIR и измерение релевантности и производительности с корпусом MSMarco Passage Retrieval (8 миллионов документов). Барабанная дробь...

    habr.com/ru/articles/917604/

    #поисковые_системы #поисковые_движки #elasticsearch #bm25

  9. [Перевод] Поисковый движок в 80 строках Python

    В сентябре я устроился на должность поискового дата-саентиста и с тех пор часть моих обязанностей заключается в работе с Solr — опенсорсным поисковым движком на основе Lucene . Я знал основы работы поискового движка, но мне хотелось понять его ещё лучше. Поэтому я закатал рукава и решил создать его с нуля. Давайте поговорим о целях. Слышали когда-нибудь о «кризисе сложности обнаружения маленьких веб-сайтов»? Проблема в том. что маленькие веб-сайты наподобие моего невозможно найти при помощи Google или любого другого поискового движка. Какова же моя миссия? Сделать эти крошечные веб-сайты снова великими. Я верю в возвращение славы этих малышей вдали от SEO-безумия Google. В этом посте я подробно расскажу о процессе создания поискового движка с нуля на Python. Как обычно, весь написанный мной код можно найти в моём GitHub ( репозиторий microsearch ). Эта реализация не будет притворяться готовым к продакшену поисковым движком, это лишь полезный пример, демонстрирующий внутреннюю работу поискового движка. Кроме того, мне стоит признаться, что в заголовке поста я слегка преувеличил. Да, поисковый движок действительно реализован примерно в 80 строках Python, но я ещё и писал вспомогательный код (краулер данных, API, HTML-шаблоны и так далее), из-за которого весь проект становится немного больше. Однако я считаю, что интересная часть проекта находится в поисковом движке, который состоит из менее чем 80 строк. P.S. Написав этот пост и microsearch , я осознал, что пару лет назад нечто похожее написал Барт де Гёде. Моя реализация очень похожа на работу Барта, но я считаю что кое-что улучшил, в частности: (1) мой краулер асинхронный, что сильно ускоряет работу, (2) я реализовал пользовательский интерфейс, позволяющий взаимодействовать с поисковым движком.

    habr.com/ru/articles/792452/

    #поисковые_движки #поисковики #индексированный_поиск #индексация_документа