home.social

#requests — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #requests, aggregated by home.social.

  1. Основы парсинга сайтов: от HTML до готового датасета для NLP

    Даже сильная NLP‑модель быстро упирается в банальную проблему: ей нужны данные, причём не абстрактные «готовые датасеты», а тексты под конкретную задачу, домен и гипотезу. В статье разберём базовый путь от HTML‑страницы до пригодного корпуса: как получать данные через HTTP‑запросы, доставать нужные элементы с помощью BeautifulSoup, работать с CSS‑селекторами, подключать Playwright для динамических сайтов и очищать сырой веб‑текст так, чтобы его уже можно было использовать в NLP‑пайплайне.

    habr.com/ru/companies/otus/art

    #парсинг_сайтов #Python #HTML #BeautifulSoup #requests #Playwright #NLP #датасет #очистка_данных #языковые_модели

  2. Основы парсинга сайтов: от HTML до готового датасета для NLP

    Даже сильная NLP‑модель быстро упирается в банальную проблему: ей нужны данные, причём не абстрактные «готовые датасеты», а тексты под конкретную задачу, домен и гипотезу. В статье разберём базовый путь от HTML‑страницы до пригодного корпуса: как получать данные через HTTP‑запросы, доставать нужные элементы с помощью BeautifulSoup, работать с CSS‑селекторами, подключать Playwright для динамических сайтов и очищать сырой веб‑текст так, чтобы его уже можно было использовать в NLP‑пайплайне.

    habr.com/ru/companies/otus/art

    #парсинг_сайтов #Python #HTML #BeautifulSoup #requests #Playwright #NLP #датасет #очистка_данных #языковые_модели

  3. Основы парсинга сайтов: от HTML до готового датасета для NLP

    Даже сильная NLP‑модель быстро упирается в банальную проблему: ей нужны данные, причём не абстрактные «готовые датасеты», а тексты под конкретную задачу, домен и гипотезу. В статье разберём базовый путь от HTML‑страницы до пригодного корпуса: как получать данные через HTTP‑запросы, доставать нужные элементы с помощью BeautifulSoup, работать с CSS‑селекторами, подключать Playwright для динамических сайтов и очищать сырой веб‑текст так, чтобы его уже можно было использовать в NLP‑пайплайне.

    habr.com/ru/companies/otus/art

    #парсинг_сайтов #Python #HTML #BeautifulSoup #requests #Playwright #NLP #датасет #очистка_данных #языковые_модели

  4. Основы парсинга сайтов: от HTML до готового датасета для NLP

    Даже сильная NLP‑модель быстро упирается в банальную проблему: ей нужны данные, причём не абстрактные «готовые датасеты», а тексты под конкретную задачу, домен и гипотезу. В статье разберём базовый путь от HTML‑страницы до пригодного корпуса: как получать данные через HTTP‑запросы, доставать нужные элементы с помощью BeautifulSoup, работать с CSS‑селекторами, подключать Playwright для динамических сайтов и очищать сырой веб‑текст так, чтобы его уже можно было использовать в NLP‑пайплайне.

    habr.com/ru/companies/otus/art

    #парсинг_сайтов #Python #HTML #BeautifulSoup #requests #Playwright #NLP #датасет #очистка_данных #языковые_модели

  5. Netherlands requests European help to contain wildfires

    AMSTERDAM: Firefighters from Germany, Belgium and France have been deployed to the Netherlands on Friday to assist in…
    #Netherlands #Nederland #NL #Europe #Europa #EU #contain #european #help #requests #to #wildfires
    europesays.com/netherlands/773

  6. Oh joy, another tech bro savior has graced us with "CrabTrap," an #AI #babysitter for your poorly-trained agents. 🦀🔒 Watch in awe as it plays judge, jury, and executioner for your #HTTP #requests in a riveting 30-second setup! 🎬🚫 Because what could be more thrilling than entrusting your production #security to a crustacean-themed #LLM proxy? 🍿🤖
    brex.com/crabtrap #CrabTrap #TechBro #Proxy #HackerNews #ngated

  7. Open Source Gave Me Everything Until I Had Nothing Left to Give - Kenneth Reitz

    I was at a tech conference in Sweden when it started. I hadn’t slept in days. I was one of the most prolific open source developers in the Python ecosystem, maintaining the most downloaded HTTP library on Earth, keynoting conferences across the world, and I was losing my mind in a hotel room six thousand miles from home.

  8. Business Word of the Day - ASAP may mean to get the request done as soon as possible, but it's also vague and could mean anything. It is a key to success to provide clear timelines and not opinion based or arbitrary requests. #asap #business #requests #tasks #clear

  9. Business Word of the Day - ASAP may mean to get the request done as soon as possible, but it's also vague and could mean anything. It is a key to success to provide clear timelines and not opinion based or arbitrary requests. #asap #business #requests #tasks #clear

  10. Business Word of the Day - ASAP may mean to get the request done as soon as possible, but it's also vague and could mean anything. It is a key to success to provide clear timelines and not opinion based or arbitrary requests. #asap #business #requests #tasks #clear

  11. Business Word of the Day - ASAP may mean to get the request done as soon as possible, but it's also vague and could mean anything. It is a key to success to provide clear timelines and not opinion based or arbitrary requests. #asap #business #requests #tasks #clear

  12. On my request stream I had some cute OCs to doodle. Was fun to just stream and draw... tomorrow probably again! #digitalart #sketch #stream #requests

  13. I am pulling a stream...why? Insanity probably...
    Doing #requests live and if you dump some bits or whatever I'll make it extra fancy.
    www.twitch.tv/magicninjarobot

  14. Hype for the Future 106C: Available upon Public Request

    Introduction The Three Identities of novaTopFlex, geoTopFlex, and futoTopFlex are now officially available upon request by the general public and as appropriate. These three (3) identities span geography, technology, mathematics, and a number of related topics—all to serve the common goal of associating the community with the general public through topics of firmly public interest. Public Role Model The goal of the Three Identities is to eventually become a public source of information […]

    novatopflex.wordpress.com/2026

  15. Hype for the Future 106C: Available upon Public Request

    Introduction The Three Identities of novaTopFlex, geoTopFlex, and futoTopFlex are now officially available upon request by the general public and as appropriate. These three (3) identities span geography, technology, mathematics, and a number of related topics—all to serve the common goal of associating the community with the general public through topics of firmly public interest. Public Role Model The goal of the Three Identities is to eventually become a public source of information […]

    novatopflex.wordpress.com/2026

  16. Hype for the Future 106C: Available upon Public Request

    Introduction The Three Identities of novaTopFlex, geoTopFlex, and futoTopFlex are now officially available upon request by the general public and as appropriate. These three (3) identities span geography, technology, mathematics, and a number of related topics—all to serve the common goal of associating the community with the general public through topics of firmly public interest. Public Role Model The goal of the Three Identities is to eventually become a public source of information […]

    novatopflex.wordpress.com/2026

  17. Hype for the Future 106C: Available upon Public Request

    Introduction The Three Identities of novaTopFlex, geoTopFlex, and futoTopFlex are now officially available upon request by the general public and as appropriate. These three (3) identities span geography, technology, mathematics, and a number of related topics—all to serve the common goal of associating the community with the general public through topics of firmly public interest. Public Role Model The goal of the Three Identities is to eventually become a public source of information […]

    novatopflex.wordpress.com/2026

  18. Hype for the Future 106C: Available upon Public Request

    Introduction The Three Identities of novaTopFlex, geoTopFlex, and futoTopFlex are now officially available upon request by the general public and as appropriate. These three (3) identities span geography, technology, mathematics, and a number of related topics—all to serve the common goal of associating the community with the general public through topics of firmly public interest. Public Role Model The goal of the Three Identities is to eventually become a public source of information […]

    novatopflex.wordpress.com/2026

  19. Speaking of chunk size, if you happen to switch to using `stream=True` and `iter_content()` with the #requests Python module, be extra sure to look at the `iter_content()` constructor.

    If you miss the `chunk_size=None` hint in the doc, you end up with the default which is: `chunk_size=1`.

    Sure, you get progress reports. And you get to see how slow everything becomes…

    Plus busy CPU, extra heating, etc.

    Very strong `dd`/`bs` vibe…

  20. ثمّة مشروع إسمو
    #LLVM
    هو
    Open-source
    أما كيمة قرائنو، تجيه برشة
    #Pull #Requests
    من ال
    #AI
    و هاكة يضرّ بالمشروع الكلّو، هاكة علاه عمل
    #Policy
    للحكاية هاكي
    phoronix.com/news/LLVM-Human-I
    الخبر إلّي فات فيه نتيجة متوقّعة لل
    A.I
    معناها خفيفة شويّة، أما الخبر هاذا يمسّ الصّميم، حسب أخبار و مصادر، شركة
    Nvidia
    إستعملت كتب مقرصنة باش تدرّب ال
    A.I
    متاعها
    torrentfreak.com/nvidia-contac