#selectolax — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #selectolax, aggregated by home.social.

Gea-Suan Lin @[email protected] · 2026-03-03 · 00:42 UTC

https://blog.gslin.org/archives/2026/03/03/12911/2025-%e5%b9%b4%e7%88%ac%e5%8d%81%e5%84%84%e5%80%8b%e9%a0%81%e9%9d%a2%e7%9a%84%e6%88%90%e6%9c%ac/
2025 年爬十億個頁面的成本
#amazon #aws #cloud #crawler #crawling #engine #html #https #javascript #js #library #lxml #performance #search #selectolax #service #speed #ssl #tls #web #webpage

#amazon #aws #cloud #crawler #crawling #engine
Gea-Suan Lin @[email protected] · 2026-03-03 · 00:42 UTC

https://blog.gslin.org/archives/2026/03/03/12911/2025-%e5%b9%b4%e7%88%ac%e5%8d%81%e5%84%84%e5%80%8b%e9%a0%81%e9%9d%a2%e7%9a%84%e6%88%90%e6%9c%ac/
2025 年爬十億個頁面的成本
#amazon #aws #cloud #crawler #crawling #engine #html #https #javascript #js #library #lxml #performance #search #selectolax #service #speed #ssl #tls #web #webpage

#amazon #aws #cloud #crawler #crawling #engine
Gea-Suan Lin @[email protected] · 2026-03-03 · 00:42 UTC

https://blog.gslin.org/archives/2026/03/03/12911/2025-%e5%b9%b4%e7%88%ac%e5%8d%81%e5%84%84%e5%80%8b%e9%a0%81%e9%9d%a2%e7%9a%84%e6%88%90%e6%9c%ac/
2025 年爬十億個頁面的成本
#amazon #aws #cloud #crawler #crawling #engine #html #https #javascript #js #library #lxml #performance #search #selectolax #service #speed #ssl #tls #web #webpage

#amazon #aws #cloud #crawler #crawling #engine
Gea-Suan Lin @[email protected] · 2026-03-03 · 00:42 UTC

https://blog.gslin.org/archives/2026/03/03/12911/2025-%e5%b9%b4%e7%88%ac%e5%8d%81%e5%84%84%e5%80%8b%e9%a0%81%e9%9d%a2%e7%9a%84%e6%88%90%e6%9c%ac/
2025 年爬十億個頁面的成本
#amazon #aws #cloud #crawler #crawling #engine #html #https #javascript #js #library #lxml #performance #search #selectolax #service #speed #ssl #tls #web #webpage

#webpage #web #tls #ssl #speed #service
Gea-Suan Lin @[email protected] · 2026-03-03 · 00:42 UTC

https://blog.gslin.org/archives/2026/03/03/12911/2025-%e5%b9%b4%e7%88%ac%e5%8d%81%e5%84%84%e5%80%8b%e9%a0%81%e9%9d%a2%e7%9a%84%e6%88%90%e6%9c%ac/
2025 年爬十億個頁面的成本
#amazon #aws #cloud #crawler #crawling #engine #html #https #javascript #js #library #lxml #performance #search #selectolax #service #speed #ssl #tls #web #webpage

#amazon #aws #cloud #crawler #crawling #engine
Habr @[email protected] · 2025-10-30 · 09:52 UTC

Selectolax: быстрая альтернатива Beautiful Soup
Если спросить у питониста: «Чем парсить сайт?», — в большинстве случаев он ответит Selenium или Beautiful Soup . И будет по-своему прав — это два главных направления в мире парсинга на Python. Selenium , со всем своим множеством форков, наследников и схожих по принципу библиотек, — инструмент мощный. Он отлично подходит для сложных сценариев, работы с динамическими сайтами и автоматизации действий пользователя в браузере. Но за это удобство приходится платить: Selenium требует немало системных ресурсов и работает заметно медленнее. Beautiful Soup (или просто «суп») — полная противоположность. Он лёгкий, быстрый и прекрасно справляется с «простыми» сайтами, где нет интерактивных элементов и сложного JavaScript. В этой статье я расскажу об альтернативе Beautiful Soup — библиотеке Selectolax , воплощающую в себе простоту использования и высокую скорость работы. Если вам интересны подобные материалы и проекты, подписывайтесь на Telegram-канал «Код на салфетке» — там я делюсь гайдами для новичков и полезными инструментами.
https://habr.com/ru/articles/961590/
#python #парсинг #beautifulsoup #selectolax

#selectolax #beautifulsoup #парсинг #python
Habr @[email protected] · 2025-10-30 · 09:52 UTC

Selectolax: быстрая альтернатива Beautiful Soup
Если спросить у питониста: «Чем парсить сайт?», — в большинстве случаев он ответит Selenium или Beautiful Soup . И будет по-своему прав — это два главных направления в мире парсинга на Python. Selenium , со всем своим множеством форков, наследников и схожих по принципу библиотек, — инструмент мощный. Он отлично подходит для сложных сценариев, работы с динамическими сайтами и автоматизации действий пользователя в браузере. Но за это удобство приходится платить: Selenium требует немало системных ресурсов и работает заметно медленнее. Beautiful Soup (или просто «суп») — полная противоположность. Он лёгкий, быстрый и прекрасно справляется с «простыми» сайтами, где нет интерактивных элементов и сложного JavaScript. В этой статье я расскажу об альтернативе Beautiful Soup — библиотеке Selectolax , воплощающую в себе простоту использования и высокую скорость работы. Если вам интересны подобные материалы и проекты, подписывайтесь на Telegram-канал «Код на салфетке» — там я делюсь гайдами для новичков и полезными инструментами.
https://habr.com/ru/articles/961590/
#python #парсинг #beautifulsoup #selectolax

#selectolax #beautifulsoup #парсинг #python
Habr @[email protected] · 2025-10-30 · 09:52 UTC

Selectolax: быстрая альтернатива Beautiful Soup
Если спросить у питониста: «Чем парсить сайт?», — в большинстве случаев он ответит Selenium или Beautiful Soup . И будет по-своему прав — это два главных направления в мире парсинга на Python. Selenium , со всем своим множеством форков, наследников и схожих по принципу библиотек, — инструмент мощный. Он отлично подходит для сложных сценариев, работы с динамическими сайтами и автоматизации действий пользователя в браузере. Но за это удобство приходится платить: Selenium требует немало системных ресурсов и работает заметно медленнее. Beautiful Soup (или просто «суп») — полная противоположность. Он лёгкий, быстрый и прекрасно справляется с «простыми» сайтами, где нет интерактивных элементов и сложного JavaScript. В этой статье я расскажу об альтернативе Beautiful Soup — библиотеке Selectolax , воплощающую в себе простоту использования и высокую скорость работы. Если вам интересны подобные материалы и проекты, подписывайтесь на Telegram-канал «Код на салфетке» — там я делюсь гайдами для новичков и полезными инструментами.
https://habr.com/ru/articles/961590/
#python #парсинг #beautifulsoup #selectolax

#selectolax #beautifulsoup #парсинг #python
Habr @[email protected] · 2025-10-30 · 09:52 UTC

Selectolax: быстрая альтернатива Beautiful Soup
Если спросить у питониста: «Чем парсить сайт?», — в большинстве случаев он ответит Selenium или Beautiful Soup . И будет по-своему прав — это два главных направления в мире парсинга на Python. Selenium , со всем своим множеством форков, наследников и схожих по принципу библиотек, — инструмент мощный. Он отлично подходит для сложных сценариев, работы с динамическими сайтами и автоматизации действий пользователя в браузере. Но за это удобство приходится платить: Selenium требует немало системных ресурсов и работает заметно медленнее. Beautiful Soup (или просто «суп») — полная противоположность. Он лёгкий, быстрый и прекрасно справляется с «простыми» сайтами, где нет интерактивных элементов и сложного JavaScript. В этой статье я расскажу об альтернативе Beautiful Soup — библиотеке Selectolax , воплощающую в себе простоту использования и высокую скорость работы. Если вам интересны подобные материалы и проекты, подписывайтесь на Telegram-канал «Код на салфетке» — там я делюсь гайдами для новичков и полезными инструментами.
https://habr.com/ru/articles/961590/
#python #парсинг #beautifulsoup #selectolax

#python #парсинг #beautifulsoup #selectolax
Habr @[email protected] · 2023-12-14 · 06:17 UTC

Бенчмарк HTML парсеров в Python: сравнение скорости
Привет, Хабр! Меня зовут Вадим Москаленко и я разработчик инновационных технологий Страхового Дома ВСК. В этой статье хочу поделиться с вами информацией по проведенному сравнению производительности нескольких популярных библиотек для простого HTML-парсинга. При необходимости сбора данных с HTML или XML, многим python-разработчикам сразу вспомнятся две популярные библиотеки «BeautifulSoup4» и «lxml» — они весьма удобны и стали широко применяемыми. Но что, если в нашем проекте важна скорость сбора данных? Возникает вопрос: кто из них быстрее и есть ли еще более быстрые библиотеки? При поиске данной информации на Хабре, я нашел подобные статьи, но им уже несколько лет. Так как прогресс не стоит на месте и появляются новые инструменты или те, о которых еще не слышали, мне было интересно провести личное исследование и поделиться информацией. Ремарка: выбор библиотеки зависит от конкретных требований проекта, также существует еще множество инструментов, которые не были освещены в данной статье, к примеру «Scrapy» — это мощный асинхронный фреймворк. В исследовании акцентируется внимание на более простой задаче, поэтому я не гарантирую что лидер бенчмарка подойдет именно вам. Помните о важности проведения собственных тестов и анализа требований вашего проекта перед принятием решения. В качестве задачи используем поисковик нашего любого habr.com , в который отправим запрос с ключевыми словами «html parsing python» и соберем следующие данные по каждой статье: имя автора, заголовок, дату создания статьи, количество просмотров и голоса (оценки).
https://habr.com/ru/companies/vsk_insurance/articles/780500/
#benchmark #бенчмарк #html #parsing #python #beautifulsoup4 #lxml #parsel #requestshtml #selectolax

#selectolax #requestshtml #parsel #lxml #beautifulsoup4 #python
Habr @[email protected] · 2023-12-14 · 06:17 UTC

Бенчмарк HTML парсеров в Python: сравнение скорости
Привет, Хабр! Меня зовут Вадим Москаленко и я разработчик инновационных технологий Страхового Дома ВСК. В этой статье хочу поделиться с вами информацией по проведенному сравнению производительности нескольких популярных библиотек для простого HTML-парсинга. При необходимости сбора данных с HTML или XML, многим python-разработчикам сразу вспомнятся две популярные библиотеки «BeautifulSoup4» и «lxml» — они весьма удобны и стали широко применяемыми. Но что, если в нашем проекте важна скорость сбора данных? Возникает вопрос: кто из них быстрее и есть ли еще более быстрые библиотеки? При поиске данной информации на Хабре, я нашел подобные статьи, но им уже несколько лет. Так как прогресс не стоит на месте и появляются новые инструменты или те, о которых еще не слышали, мне было интересно провести личное исследование и поделиться информацией. Ремарка: выбор библиотеки зависит от конкретных требований проекта, также существует еще множество инструментов, которые не были освещены в данной статье, к примеру «Scrapy» — это мощный асинхронный фреймворк. В исследовании акцентируется внимание на более простой задаче, поэтому я не гарантирую что лидер бенчмарка подойдет именно вам. Помните о важности проведения собственных тестов и анализа требований вашего проекта перед принятием решения. В качестве задачи используем поисковик нашего любого habr.com , в который отправим запрос с ключевыми словами «html parsing python» и соберем следующие данные по каждой статье: имя автора, заголовок, дату создания статьи, количество просмотров и голоса (оценки).
https://habr.com/ru/companies/vsk_insurance/articles/780500/
#benchmark #бенчмарк #html #parsing #python #beautifulsoup4 #lxml #parsel #requestshtml #selectolax

#selectolax #requestshtml #parsel #lxml #beautifulsoup4 #python