#beautifulsoup — Public Fediverse posts on home.social

🪑Jeffrey Sabarese ♫ @[email protected] · 2026-05-13 · 18:28 UTC

NO SOUP FOR YOU!

Playwright
+ Ollama
==TRANSLITERATE==
BEAUTIFUL DATA

Build a self-auditing data pipeline that keeps my MariaDB in perfect sync.

Full workflow: https://dufospy.com/artificial-intelligence/data-mining-web-scraping-playwright-ollama

#Beautifulsoup #Playwright #data #scraping

@playwrightweb

@JamieWitter

@ollama

#beautifulsoup #playwright #data #scraping

Habr @[email protected] · 2026-05-07 · 06:52 UTC

Основы парсинга сайтов: от HTML до готового датасета для NLP

Даже сильная NLP‑модель быстро упирается в банальную проблему: ей нужны данные, причём не абстрактные «готовые датасеты», а тексты под конкретную задачу, домен и гипотезу. В статье разберём базовый путь от HTML‑страницы до пригодного корпуса: как получать данные через HTTP‑запросы, доставать нужные элементы с помощью BeautifulSoup, работать с CSS‑селекторами, подключать Playwright для динамических сайтов и очищать сырой веб‑текст так, чтобы его уже можно было использовать в NLP‑пайплайне.

https://habr.com/ru/companies/otus/articles/1029766/

#парсинг_сайтов #Python #HTML #BeautifulSoup #requests #Playwright #NLP #датасет #очистка_данных #языковые_модели

#языковые_модели #очистка_данных #датасет #nlp #playwright #requests

Habr @[email protected] · 2026-03-31 · 17:12 UTC

Парсинг тарифов интернета и ТВ. Selenium + BeautifulSoup: трудности динамического контента и защиты от ботов

На этапе тестирования я отобрал 6 городов (Москва, Санкт-Петербург, Новосибирск, Екатеринбург, Казань, Красноярск) и двух крупнейших провайдеров России - Ростелеком и Дом.ру. В планах масштабирование на большее количество городов и операторов. Для парсинга тарифов у провайдеров применял связку Python + Selenium + BeautifulSoup, через хранимую процедуру складывал полученные данные в базу PostgreSQL.

https://habr.com/ru/articles/1017230/

#парсинг #Selenium #BeautifulSoup #PostgreSQL #динамические_сайты #защита_от_ботов #Python #тарифы

#тарифы #python #защита_от_ботов #динамические_сайты #postgresql #beautifulsoup

Habr @[email protected] · 2026-01-18 · 11:22 UTC

Парсинг сайтов на Python: изучаем BeautifulSoup

Библиотека bs4, а если точнее её класс BeautifulSoup используется для эффективного поиска элементов на html странице. Установка: pip install beautifulsoup4, lxml Для запросов установите библиотеку requests, если она у вас не установлена: pip install requests Тренироваться будем на «тренажёре». Получаем HTML-документ по HTTP и строим DOM-дерево с помощью BeautifulSoup

https://habr.com/ru/articles/986284/

#парсинг #scraping #beautifulsoup

#beautifulsoup #scraping #парсинг

Habr @[email protected] · 2025-10-30 · 09:52 UTC

Selectolax: быстрая альтернатива Beautiful Soup

Если спросить у питониста: «Чем парсить сайт?», — в большинстве случаев он ответит Selenium или Beautiful Soup . И будет по-своему прав — это два главных направления в мире парсинга на Python. Selenium , со всем своим множеством форков, наследников и схожих по принципу библиотек, — инструмент мощный. Он отлично подходит для сложных сценариев, работы с динамическими сайтами и автоматизации действий пользователя в браузере. Но за это удобство приходится платить: Selenium требует немало системных ресурсов и работает заметно медленнее. Beautiful Soup (или просто «суп») — полная противоположность. Он лёгкий, быстрый и прекрасно справляется с «простыми» сайтами, где нет интерактивных элементов и сложного JavaScript. В этой статье я расскажу об альтернативе Beautiful Soup — библиотеке Selectolax , воплощающую в себе простоту использования и высокую скорость работы. Если вам интересны подобные материалы и проекты, подписывайтесь на Telegram-канал «Код на салфетке» — там я делюсь гайдами для новичков и полезными инструментами.

https://habr.com/ru/articles/961590/

#python #парсинг #beautifulsoup #selectolax

#selectolax #beautifulsoup #парсинг #python

Habr @[email protected] · 2025-07-23 · 06:42 UTC

Парсинг российских СМИ

В эпоху больших языковых моделей полноценный сбор информации с сайтов все еще не самый очевидный сценарий, требующий учета многих мелких деталей, а также понимания принципов работы сайта и взаимодействия с ним. В этом случае единственный оптимальный метод сбора такой информации - это парсинг. В данной статье мы сфокусируемся на парсинге сайтов российских СМИ, в числе которых Meduza ,* как официально запрещенное в РФ и более государственно-подконтрольных RussiaToday и Коммерсанта . Разберемся какой это сделать наиболее эффективно и получим текст и метаданные статей. Как основные инструменты используем классические библиотеки в Python: requests, BeautifulSoup, Selenium .

https://habr.com/ru/articles/930188/

#парсинг #beautifulsoup #selenium #python #сбор_данных

Yendolosch @[email protected] · 2025-06-06 · 09:16 UTC

@BuschnicK

I found #BeautifulSoup for #Python really helpful for parsing web pages. But I guess you're set on C++...

#beautifulsoup #python

Sumana Harihareswara @[email protected] · 2025-05-14 · 21:09 UTC

I'm facilitating an Open Space at #PyConUS:

Beautiful Soup: Ask Me Anything
Sun. May 18th; 2-3pm

An open questions session with @leonardr, the maintainer of screen-scraping library #BeautifulSoup. If you've ever used or tried to use it, share your questions, confusions, stuff you've made, concerns, ideas, offers of help, etc. with Leonard in person. If we don't have a ton of questions, we might do some impromptu usability testing to check whether the new type hints help you use the library.

#pyconus #beautifulsoup

Sami @[email protected] · 2025-03-02 · 00:52 UTC

#VSCode #python #docx #pipinstall #conda #beautifulsoup #bs4

https://thingsitried.com/2025/03/01/little-bit-of-automation-for-my-leads/

#vscode #python #docx #pipinstall #conda #beautifulsoup

perry @[email protected] · 2025-02-19 · 06:14 UTC

WIP: #jobhunt with #beautifulsoup (i hate capitalism)

#beautifulsoup #jobhunt

Habr @[email protected] · 2025-02-18 · 15:52 UTC

Простые лайфхаки для автоматизации работы с помощью Python

Если какое-то действие приходится выполнять слишком часто — значит, пора его автоматизировать. Разбираю полезные скрипты — от работы с файлами до DevOps. В каждом разделе есть примеры для новичков и более опытных разработчиков. А в конце статьи — несколько простых правил, которые помогут писать удобный и надёжный код.

https://habr.com/ru/companies/netologyru/articles/881796/

#python #автоматизация #скрипты_для_автоматизации #json #shutil #autopep8 #вебскрапинг #excel #отправка_отчётов #beautifulsoup

#beautifulsoup #отправка_отчётов #excel #вебскрапинг #autopep8 #shutil