#beautifulsoup — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #beautifulsoup, aggregated by home.social.
-
NO SOUP FOR YOU!
Playwright
+ Ollama
==TRANSLITERATE==
BEAUTIFUL DATABuild a self-auditing data pipeline that keeps my MariaDB in perfect sync.
Full workflow: https://dufospy.com/artificial-intelligence/data-mining-web-scraping-playwright-ollama
-
Основы парсинга сайтов: от HTML до готового датасета для NLP
Даже сильная NLP‑модель быстро упирается в банальную проблему: ей нужны данные, причём не абстрактные «готовые датасеты», а тексты под конкретную задачу, домен и гипотезу. В статье разберём базовый путь от HTML‑страницы до пригодного корпуса: как получать данные через HTTP‑запросы, доставать нужные элементы с помощью BeautifulSoup, работать с CSS‑селекторами, подключать Playwright для динамических сайтов и очищать сырой веб‑текст так, чтобы его уже можно было использовать в NLP‑пайплайне.
https://habr.com/ru/companies/otus/articles/1029766/
#парсинг_сайтов #Python #HTML #BeautifulSoup #requests #Playwright #NLP #датасет #очистка_данных #языковые_модели
-
Парсинг тарифов интернета и ТВ. Selenium + BeautifulSoup: трудности динамического контента и защиты от ботов
На этапе тестирования я отобрал 6 городов (Москва, Санкт-Петербург, Новосибирск, Екатеринбург, Казань, Красноярск) и двух крупнейших провайдеров России - Ростелеком и Дом.ру. В планах масштабирование на большее количество городов и операторов. Для парсинга тарифов у провайдеров применял связку Python + Selenium + BeautifulSoup, через хранимую процедуру складывал полученные данные в базу PostgreSQL.
https://habr.com/ru/articles/1017230/
#парсинг #Selenium #BeautifulSoup #PostgreSQL #динамические_сайты #защита_от_ботов #Python #тарифы
-
Парсинг сайтов на Python: изучаем BeautifulSoup
Библиотека bs4, а если точнее её класс BeautifulSoup используется для эффективного поиска элементов на html странице. Установка: pip install beautifulsoup4, lxml Для запросов установите библиотеку requests, если она у вас не установлена: pip install requests Тренироваться будем на «тренажёре». Получаем HTML-документ по HTTP и строим DOM-дерево с помощью BeautifulSoup
-
Selectolax: быстрая альтернатива Beautiful Soup
Если спросить у питониста: «Чем парсить сайт?», — в большинстве случаев он ответит Selenium или Beautiful Soup . И будет по-своему прав — это два главных направления в мире парсинга на Python. Selenium , со всем своим множеством форков, наследников и схожих по принципу библиотек, — инструмент мощный. Он отлично подходит для сложных сценариев, работы с динамическими сайтами и автоматизации действий пользователя в браузере. Но за это удобство приходится платить: Selenium требует немало системных ресурсов и работает заметно медленнее. Beautiful Soup (или просто «суп») — полная противоположность. Он лёгкий, быстрый и прекрасно справляется с «простыми» сайтами, где нет интерактивных элементов и сложного JavaScript. В этой статье я расскажу об альтернативе Beautiful Soup — библиотеке Selectolax , воплощающую в себе простоту использования и высокую скорость работы. Если вам интересны подобные материалы и проекты, подписывайтесь на Telegram-канал «Код на салфетке» — там я делюсь гайдами для новичков и полезными инструментами.
-
Парсинг российских СМИ
В эпоху больших языковых моделей полноценный сбор информации с сайтов все еще не самый очевидный сценарий, требующий учета многих мелких деталей, а также понимания принципов работы сайта и взаимодействия с ним. В этом случае единственный оптимальный метод сбора такой информации - это парсинг. В данной статье мы сфокусируемся на парсинге сайтов российских СМИ, в числе которых Meduza ,* как официально запрещенное в РФ и более государственно-подконтрольных RussiaToday и Коммерсанта . Разберемся какой это сделать наиболее эффективно и получим текст и метаданные статей. Как основные инструменты используем классические библиотеки в Python: requests, BeautifulSoup, Selenium .
-
I found #BeautifulSoup for #Python really helpful for parsing web pages. But I guess you're set on C++...
-
I'm facilitating an Open Space at #PyConUS:
Beautiful Soup: Ask Me Anything
Sun. May 18th; 2-3pmAn open questions session with @leonardr, the maintainer of screen-scraping library #BeautifulSoup. If you've ever used or tried to use it, share your questions, confusions, stuff you've made, concerns, ideas, offers of help, etc. with Leonard in person. If we don't have a ton of questions, we might do some impromptu usability testing to check whether the new type hints help you use the library.
-
WIP: #jobhunt with #beautifulsoup (i hate capitalism) -
Простые лайфхаки для автоматизации работы с помощью Python
Если какое-то действие приходится выполнять слишком часто — значит, пора его автоматизировать. Разбираю полезные скрипты — от работы с файлами до DevOps. В каждом разделе есть примеры для новичков и более опытных разработчиков. А в конце статьи — несколько простых правил, которые помогут писать удобный и надёжный код.
https://habr.com/ru/companies/netologyru/articles/881796/
#python #автоматизация #скрипты_для_автоматизации #json #shutil #autopep8 #вебскрапинг #excel #отправка_отчётов #beautifulsoup
-
And now @leonardr has "released the biggest update to Beautiful Soup in many years." Upgrade to 4.13.1 to enjoy better warnings, type hints, generated API docs, and more.
https://wandering.shop/@leonardr/113935996322582259
#Python #civictech #opensource #FLOSS #BeautifulSoup #civicdata #datascience #scraping #webscraping #datahoarder
-
And now @leonardr has "released the biggest update to Beautiful Soup in many years." Upgrade to 4.13.1 to enjoy better warnings, type hints, generated API docs, and more.
https://wandering.shop/@leonardr/113935996322582259
#Python #civictech #opensource #FLOSS #BeautifulSoup #civicdata #datascience #scraping #webscraping #datahoarder
-
And now @leonardr has "released the biggest update to Beautiful Soup in many years." Upgrade to 4.13.1 to enjoy better warnings, type hints, generated API docs, and more.
https://wandering.shop/@leonardr/113935996322582259
#Python #civictech #opensource #FLOSS #BeautifulSoup #civicdata #datascience #scraping #webscraping #datahoarder
-
And now @leonardr has "released the biggest update to Beautiful Soup in many years." Upgrade to 4.13.1 to enjoy better warnings, type hints, generated API docs, and more.
https://wandering.shop/@leonardr/113935996322582259
#Python #civictech #opensource #FLOSS #BeautifulSoup #civicdata #datascience #scraping #webscraping #datahoarder
-
And now @leonardr has "released the biggest update to Beautiful Soup in many years." Upgrade to 4.13.1 to enjoy better warnings, type hints, generated API docs, and more.
https://wandering.shop/@leonardr/113935996322582259
#Python #civictech #opensource #FLOSS #BeautifulSoup #civicdata #datascience #scraping #webscraping #datahoarder
-
I made some changes to my Notes:
- Better HTML and plain text output support
- Only enforce plain text character count and only when publishing
- See the plain text character count live in the Admin UIhttps://orangegnome.com/posts/3343/changelog-updated-notes
#Javascript #Html #Django #WebDevelopment #Python #WebComponents #Markdown #Pandoc #Pypandoc #BeautifulSoup
-
Funny thing. A colleague asked me to help him write a script that fixes some old HTML content (around 8000 pages), to make it compatible with our flavor of richtext editor.
Turns out, it's less tiresome to ask llama3.3-70b #LLM to "pretty-please, fix this for me" than it is to write a #python #beautifulsoup script that covers all the cases.
-
primeros pasos con web #scraping #python con #beautifulsoup en #pixelfed
-
@aziz This is the offending code. You can see there's nothing there, it extracts one div. (200 files, each no more than 40k, takes six seconds. Has to be a bug?):
p = []
for html in glob('*.html'):
with open(html) as fp:
soup = BeautifulSoup(fp, features='html.parser')
pmap = soup.find('div', 'prod-contact')
p.append(pmap) -
#NextJS #React #Python #Leaflet #OpenStreetMap #Candidates #Election
#Programming #Code #JS #Client #App #BeautifulSoup #Scraping #PublicDataCandidates Brandenburg 2024 Election - FarRight politicians only NextJS app with leaflet open street map.
-
I've been working on a #python webscraping #data collection app using #beautifulsoup library and pulling out #mariadb data through a #metabase report for local non-permanent #housing in my state of #washington, specifically #graysharbor county.
I have a public report avail now over at https://reports.hogaboom.org/dashboard/2-grays-harbor-non-permanent-housing-trends
Code is on #github https://github.com/ralphhogaboom/chickadee
-
Kennt sich hier jemand mit WebScraping aus?
Ich will alle Urls von dieser Seite bekommen, dafür muss man ein paar mal den ›Weitere Ergebnisse laden‹-Button unten drücken. Ich versuche es mit #Python (cfscraper/requests und #BeautifulSoup), aber ich bekomme die richtige POST-Anfrage nicht hin, um alle die Seite mit allen Ergebnissen zu haben.
Jemand Ideen?
Hier ist die Seite: https://www.neubaukompass.de/neubau-immobilien/berlin-region/
Udpate: Hab das Problem gelöst, hab die POST-Anfrage aus Firefox übernommen.
-
Hey there! I did check this out, BTW. I recall, couple mnths ago or so, i was like: What in the heck is this? haha...
Needing to check that again!
What are you up-to over there besides bleeding the Red-&-White @Vivaldi
:DYou mess w/ #Flask ?
#BeautifulSoup and the like? -
I just wrote a #programming #library for fetching educational webinar info from the #FAA safety website using #python and #beautifulsoup. I'm going to use it to create a #lemmy #bot for posting events to my instance. #aviation #flying
-
[Перевод] Лучшие библиотеки Python для Data Science в 2024 году
Python — один из самых распространенных языков программирования в Data Science (третье место в опросе разработчиков StackOverflow). Популярность языка обусловлена наличием множества пакетов, которые можно использовать для решения различных задач в области науки о данных, включая машинное обучение, предварительную обработку данных, анализ данных и их визуализацию. Новичку в этой области может быть сложно понять, с чего начать, особенно при таком обилии ресурсов — в Python имеется более 100 000 встроенных библиотек, и выучить их все просто невозможно. Именно поэтому в этой статье мы рассмотрим 8 самых полезных библиотек Python для Data Science.
https://habr.com/ru/companies/productstar/articles/821847/
#python #data #data_science #библиотека #library #pandas #beautifulsoup #matplotlib #scikitlearn #tensorflow
-
tain c'est honteux que le service public soit pas foutu de sortir un jeu de données de résultats d'élections structuré qu'on ait pas besoin de scrapper pour chopper l'ensemble des infos.
remercions #beautifulsoup et consorts
-
Développé en Python, avec #BeautifulSoup pour analyser le HTML des sites Web.
#scrapingInterface utilisateur : le Web. Utilisation de #Flask pour faire le serveur HTTP. Avec notifications IRC.
-
Loved the shout out to #BeautifulSoup by @brainwane at the #PyConUS closing keynote.
-
one issue i encountered: the official #bluesky #api works, you can add hashtags, links, and create longer messages (threads)
however, the links are only clickable, no #thumbnail and other information are shown directly ⟶ which is done for you #automatically by #linkedin as an example
so the solution is, we need to fetch some data ourselves and then pass them to the link card. we might use #requests, #httpx, #BeautifulSoup, #selenium, or my current favorite #playwright
-
Real-Time #Stocks #Sentiment Analysis w/ #NLP Dynamic Web Scraping in #Python
#NLTK beautifulsoup4 4.12.2
TSLA NVDIA XOM
#FinancialReporting #Investing #Stocks #FinancialNews #Financial #WebScraping #Data #Python #BeautifulSoup #HTML #datasciencehttp://newdigitals.org/2023/12/24/real-time-stock-sentiment-analysis-w-nlp-web-scraping/
-
Using https://pytest-benchmark.readthedocs.io to compare #regex vs #HTMLParser vs lxml.html vs #BeautifulSoup with a typical @unicorn #HTML component fragment.
Still haven't figured out how to use parsel. And still scared to use #regex even though it would be way faster. 🥺
-
I have found you. Turns out if you access Beautiful Soup elements and don't call decompose on it, it will cause memory leaks.
-
I am the funniest person in all the land. There is no denying it. And my code is amazing. #webscraping #hilarious #datascience #selenium #seleniumwebdriver #beautifulsoup #fortunecookie
-
Es war ein bisschen still um uns in diesem Semester, aber wir können euch nun unseren ersten #Workshop am Mi 25.1. um 17.15 Uhr ankündigen! Anmeldung per PN oder mail an [email protected]
Im Augsburger Interim tauchen eine Vielzahl von Bibelstellen auf, die Kevin in unserem ersten InFoDiText+ Workshop mit Hilfe von beautifulSoup gemeinsam mit den Teilnehmer*innen erfassen wird.
#Textplus #InFoDiTex #Python #BeautifulSoup #Religionsfrieden #Eured #Wissenschaft