home.social

#beautifulsoup — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #beautifulsoup, aggregated by home.social.

  1. Основы парсинга сайтов: от HTML до готового датасета для NLP

    Даже сильная NLP‑модель быстро упирается в банальную проблему: ей нужны данные, причём не абстрактные «готовые датасеты», а тексты под конкретную задачу, домен и гипотезу. В статье разберём базовый путь от HTML‑страницы до пригодного корпуса: как получать данные через HTTP‑запросы, доставать нужные элементы с помощью BeautifulSoup, работать с CSS‑селекторами, подключать Playwright для динамических сайтов и очищать сырой веб‑текст так, чтобы его уже можно было использовать в NLP‑пайплайне.

    habr.com/ru/companies/otus/art

    #парсинг_сайтов #Python #HTML #BeautifulSoup #requests #Playwright #NLP #датасет #очистка_данных #языковые_модели

  2. Парсинг тарифов интернета и ТВ. Selenium + BeautifulSoup: трудности динамического контента и защиты от ботов

    На этапе тестирования я отобрал 6 городов (Москва, Санкт-Петербург, Новосибирск, Екатеринбург, Казань, Красноярск) и двух крупнейших провайдеров России - Ростелеком и Дом.ру. В планах масштабирование на большее количество городов и операторов. Для парсинга тарифов у провайдеров применял связку Python + Selenium + BeautifulSoup, через хранимую процедуру складывал полученные данные в базу PostgreSQL.

    habr.com/ru/articles/1017230/

    #парсинг #Selenium #BeautifulSoup #PostgreSQL #динамические_сайты #защита_от_ботов #Python #тарифы

  3. Парсинг сайтов на Python: изучаем BeautifulSoup

    Библиотека bs4, а если точнее её класс BeautifulSoup используется для эффективного поиска элементов на html странице. Установка: pip install beautifulsoup4, lxml Для запросов установите библиотеку requests, если она у вас не установлена: pip install requests Тренироваться будем на «тренажёре». Получаем HTML-документ по HTTP и строим DOM-дерево с помощью BeautifulSoup

    habr.com/ru/articles/986284/

    #парсинг #scraping #beautifulsoup

  4. Selectolax: быстрая альтернатива Beautiful Soup

    Если спросить у питониста: «Чем парсить сайт?», — в большинстве случаев он ответит Selenium или Beautiful Soup . И будет по-своему прав — это два главных направления в мире парсинга на Python. Selenium , со всем своим множеством форков, наследников и схожих по принципу библиотек, — инструмент мощный. Он отлично подходит для сложных сценариев, работы с динамическими сайтами и автоматизации действий пользователя в браузере. Но за это удобство приходится платить: Selenium требует немало системных ресурсов и работает заметно медленнее. Beautiful Soup (или просто «суп») — полная противоположность. Он лёгкий, быстрый и прекрасно справляется с «простыми» сайтами, где нет интерактивных элементов и сложного JavaScript. В этой статье я расскажу об альтернативе Beautiful Soup — библиотеке Selectolax , воплощающую в себе простоту использования и высокую скорость работы. Если вам интересны подобные материалы и проекты, подписывайтесь на Telegram-канал «Код на салфетке» — там я делюсь гайдами для новичков и полезными инструментами.

    habr.com/ru/articles/961590/

    #python #парсинг #beautifulsoup #selectolax

  5. Парсинг российских СМИ

    В эпоху больших языковых моделей полноценный сбор информации с сайтов все еще не самый очевидный сценарий, требующий учета многих мелких деталей, а также понимания принципов работы сайта и взаимодействия с ним. В этом случае единственный оптимальный метод сбора такой информации - это парсинг. В данной статье мы сфокусируемся на парсинге сайтов российских СМИ, в числе которых Meduza ,* как официально запрещенное в РФ и более государственно-подконтрольных RussiaToday и Коммерсанта . Разберемся какой это сделать наиболее эффективно и получим текст и метаданные статей. Как основные инструменты используем классические библиотеки в Python: requests, BeautifulSoup, Selenium .

    habr.com/ru/articles/930188/

    #парсинг #beautifulsoup #selenium #python #сбор_данных

  6. @BuschnicK

    I found #BeautifulSoup for #Python really helpful for parsing web pages. But I guess you're set on C++...

  7. I'm facilitating an Open Space at #PyConUS:

    Beautiful Soup: Ask Me Anything
    Sun. May 18th; 2-3pm

    An open questions session with @leonardr, the maintainer of screen-scraping library #BeautifulSoup. If you've ever used or tried to use it, share your questions, confusions, stuff you've made, concerns, ideas, offers of help, etc. with Leonard in person. If we don't have a ton of questions, we might do some impromptu usability testing to check whether the new type hints help you use the library.

  8. Простые лайфхаки для автоматизации работы с помощью Python

    Если какое-то действие приходится выполнять слишком часто — значит, пора его автоматизировать. Разбираю полезные скрипты — от работы с файлами до DevOps. В каждом разделе есть примеры для новичков и более опытных разработчиков. А в конце статьи — несколько простых правил, которые помогут писать удобный и надёжный код.

    habr.com/ru/companies/netology

    #python #автоматизация #скрипты_для_автоматизации #json #shutil #autopep8 #вебскрапинг #excel #отправка_отчётов #beautifulsoup

  9. I made some changes to my Notes:

    - Better HTML and plain text output support
    - Only enforce plain text character count and only when publishing
    - See the plain text character count live in the Admin UI

    orangegnome.com/posts/3343/cha

    #Javascript #Html #Django #WebDevelopment #Python #WebComponents #Markdown #Pandoc #Pypandoc #BeautifulSoup

  10. Funny thing. A colleague asked me to help him write a script that fixes some old HTML content (around 8000 pages), to make it compatible with our flavor of richtext editor.

    Turns out, it's less tiresome to ask llama3.3-70b to "pretty-please, fix this for me" than it is to write a script that covers all the cases.

  11. @aziz This is the offending code. You can see there's nothing there, it extracts one div. (200 files, each no more than 40k, takes six seconds. Has to be a bug?):

    p = []
    for html in glob('*.html'):
    with open(html) as fp:
    soup = BeautifulSoup(fp, features='html.parser')
    pmap = soup.find('div', 'prod-contact')
    p.append(pmap)

    #Python #BeautifulSoup

  12. I've been working on a #python webscraping #data collection app using #beautifulsoup library and pulling out #mariadb data through a #metabase report for local non-permanent #housing in my state of #washington, specifically #graysharbor county.

    I have a public report avail now over at reports.hogaboom.org/dashboard

    Code is on #github github.com/ralphhogaboom/chick

  13. Kennt sich hier jemand mit WebScraping aus?

    Ich will alle Urls von dieser Seite bekommen, dafür muss man ein paar mal den ›Weitere Ergebnisse laden‹-Button unten drücken. Ich versuche es mit #Python (cfscraper/requests und #BeautifulSoup), aber ich bekomme die richtige POST-Anfrage nicht hin, um alle die Seite mit allen Ergebnissen zu haben.

    Jemand Ideen?

    Hier ist die Seite: neubaukompass.de/neubau-immobi

    Udpate: Hab das Problem gelöst, hab die POST-Anfrage aus Firefox übernommen.

  14. @Catweazle

    Hey there! I did check this out, BTW. I recall, couple mnths ago or so, i was like: What in the heck is this? haha...

    Needing to check that again!

    What are you up-to over there besides bleeding the Red-&-White @Vivaldi
    :D

    You mess w/ #Flask ?
    #BeautifulSoup and the like?

  15. I just wrote a #programming #library for fetching educational webinar info from the #FAA safety website using #python and #beautifulsoup. I'm going to use it to create a #lemmy #bot for posting events to my instance. #aviation #flying

  16. [Перевод] Лучшие библиотеки Python для Data Science в 2024 году

    Python — один из самых распространенных языков программирования в Data Science (третье место в опросе разработчиков StackOverflow). Популярность языка обусловлена наличием множества пакетов, которые можно использовать для решения различных задач в области науки о данных, включая машинное обучение, предварительную обработку данных, анализ данных и их визуализацию. Новичку в этой области может быть сложно понять, с чего начать, особенно при таком обилии ресурсов — в Python имеется более 100 000 встроенных библиотек, и выучить их все просто невозможно. Именно поэтому в этой статье мы рассмотрим 8 самых полезных библиотек Python для Data Science.

    habr.com/ru/companies/products

    #python #data #data_science #библиотека #library #pandas #beautifulsoup #matplotlib #scikitlearn #tensorflow

  17. tain c'est honteux que le service public soit pas foutu de sortir un jeu de données de résultats d'élections structuré qu'on ait pas besoin de scrapper pour chopper l'ensemble des infos.

    remercions #beautifulsoup et consorts

  18. Développé en Python, avec #BeautifulSoup pour analyser le HTML des sites Web.
    #scraping

    Interface utilisateur : le Web. Utilisation de #Flask pour faire le serveur HTTP. Avec notifications IRC.

    #PSES

  19. one issue i encountered: the official #bluesky #api works, you can add hashtags, links, and create longer messages (threads)

    however, the links are only clickable, no #thumbnail and other information are shown directly ⟶ which is done for you #automatically by #linkedin as an example

    so the solution is, we need to fetch some data ourselves and then pass them to the link card. we might use #requests, #httpx, #BeautifulSoup, #selenium, or my current favorite #playwright

  20. Using pytest-benchmark.readthedocs.i to compare #regex vs #HTMLParser vs lxml.html vs #BeautifulSoup with a typical @unicorn #HTML component fragment.

    Still haven't figured out how to use parsel. And still scared to use #regex even though it would be way faster. 🥺

    #python #lxml #pytest #benchmark

  21. I have found you. Turns out if you access Beautiful Soup elements and don't call decompose on it, it will cause memory leaks.

    #python #beautifulsoup #Webscraper

  22. Es war ein bisschen still um uns in diesem Semester, aber wir können euch nun unseren ersten #Workshop am Mi 25.1. um 17.15 Uhr ankündigen! Anmeldung per PN oder mail an [email protected]

    Im Augsburger Interim tauchen eine Vielzahl von Bibelstellen auf, die Kevin in unserem ersten InFoDiText+ Workshop mit Hilfe von beautifulSoup gemeinsam mit den Teilnehmer*innen erfassen wird.

    #Textplus #InFoDiTex #Python #BeautifulSoup #Religionsfrieden #Eured #Wissenschaft