home.social

#парсеры — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #парсеры, aggregated by home.social.

  1. Написание конечного автомата для разбора HTML

    Всем привет! В этой статье напишем простой конечный автомат для парсинга HTML. Уровень средний, требуется понимания побитовых операций.

    habr.com/ru/articles/1029372/

    #конечные_автоматы #конечный_автомат #парсер #парсер_сайтов #парсеры

  2. Написание конечного автомата для разбора HTML

    Всем привет! В этой статье напишем простой конечный автомат для парсинга HTML. Уровень средний, требуется понимания побитовых операций.

    habr.com/ru/articles/1029372/

    #конечные_автоматы #конечный_автомат #парсер #парсер_сайтов #парсеры

  3. Написание конечного автомата для разбора HTML

    Всем привет! В этой статье напишем простой конечный автомат для парсинга HTML. Уровень средний, требуется понимания побитовых операций.

    habr.com/ru/articles/1029372/

    #конечные_автоматы #конечный_автомат #парсер #парсер_сайтов #парсеры

  4. Написание конечного автомата для разбора HTML

    Всем привет! В этой статье напишем простой конечный автомат для парсинга HTML. Уровень средний, требуется понимания побитовых операций.

    habr.com/ru/articles/1029372/

    #конечные_автоматы #конечный_автомат #парсер #парсер_сайтов #парсеры

  5. Создаём DSL на C#

    Создаю собственный DSL на C#: рассказываю о том, как закладывается фундамент языка и как подойти к проекту подобного масштаба.

    habr.com/ru/articles/970332/

    #dsl #Краснозеленые_деревья #парсеры #синтаксические_деревья #компиляторы #roslyn

  6. Парсер Гугл Карт: обзор, инструкция и сценарии для многопоточного парсера — готовое решение для парсинга отзывов

    Google Maps - крупнейших источник данных о различных местах, начиная от точек общепита и заканчивая офисами корпораций. В карточках организаций и мест собраны названия, адреса, контакты, рейтинги и конечно же отзывы. Для кого-то (маркетологи, SEO-специалисты, аналитики) эти данные - кладезь полезной информации: с их помощью собираются базы потенциальных клиентов, анализируются конкуренты, кто-то даже проводит исследования рынка. А вот для кого-то (разработчики парсеров) - это настоящая боль. Или дорого, или сложно или и дорого и сложно одновременно. Google, конечно понимает повышенный интерес к своей базе и предоставляет официальный API для парсинга (Google Places API), но у него есть существенные ограничения - во-первых, он платный, что на больших объемах существенно бъет по бюджету, а во-вторых, тут есть лимиты по частоте запросов. Эти ограничения и побуждают компании прибегать к альтернативному подходу - парсингу отзывов (как в моем случае) или парсингу данных (в широком смысле) непосредственно с веб-версии Google Maps, минуя официальный API. Собственно я прошел этот путь ровно также, как его проходит большинство специалистов, кому нужны данные из Гугл Карт. Сперва АПИ, считаем экономику - понимаем что она не сходится - перестраиваем экономику и вместо оплаты лимитов Гугла, сокращаем траты за счет использования прокси и многопоточного парсера. Собственно из затрат у меня реально были только прокси от Proxyma , я использовал самый простой тариф 5$ за 1 Гб трафика, но в целом, если взять сразу 30Гб то цена снижается уже до 3$ за Гб трафика, что уже интереснее.

    habr.com/ru/articles/942374/

    #парсинг_данных #парсер #парсеры #парсинг #google_maps

  7. Парсер на Python для сбора данных с сайта партнерки, которая продает аренду автомобилей по всему миру

    Изначально, как оно всегда и бывает, была задача (не курица и не яйцо, а именно задача)! Задача вполне себе нетривиальная - подключиться к партнерской сети и начать продавать на сайте аренду автомобиле. Но у этой ниши есть одна особенность, в лоб, никто ничего не покупает, и нужна тонкая настройка с тонкой геопривязкой, вплоть до координат. Имеющиеся на рынке автопартнерки - либо сильно перемудренные, либо не имеют нормальной (читай простой) системы входа, а те которые упрощены - не имеют нормальной базы, ну или не хотят ее давать партнерам. Мне нужна была база городов и точек выдачи автомобилей и их координатная привязка.

    habr.com/ru/articles/921240/

    #парсер #парсеры #парсер_сайтов

  8. Топ веб‑парсеров и API-сервисов для сбора данных: сравнение скорости, масштабируемости и обхода защит

    Автоматический сбор данных (парсинг, или web scraping) стал неотъемлемой практикой для разработчиков, аналитиков и автоматизаторов. С его помощью получают массовую информацию с сайтов – от цен конкурентов и отзывов до контента соцсетей​. Для этого разработано множество “парсеров” – библиотек, фреймворков и облачных сервисов, которые позволяют извлекать веб-данные программно. Одни решения требуются для быстрого парсинга статичных страниц, другие – для обхода сложной JavaScript-навигации, третьи – для получения данных через API. В этой статье я рассмотрю топ инструментов для парсинга – как открытых (Open Source) библиотек, так и коммерческих SaaS/API-сервисов – и сравню их по ключевым метрикам:

    habr.com/ru/articles/893622/

    #парсинг #парсинг_контента #парсеры #парсинг_сайтов #парсинг_json #парсинг_данных #парсинг_html #парсер_сайтов #парсинг_сайта #парсер

  9. Коля Парсерков против всех: болезнь начинающего или симптомы жанра?

    elChem

    Так уж вышло, что я не застал эпоху расцвета парсерных игр, не проникся вовремя правильными ценностями и у меня не сводит олдскулы при виде подмигивающей строки ввода. Но некоторое время я испытывал какое-то безропотное почтение к этому жанру: это же классика, это же труъ, это же хардкор! Продолжалось это до тех пор, пока я не попробовал поиграть в них сам.

    «Наверное, просто игра неудачная» – подумал я после своего первого раза.
    «Это вы просто играть не умеете» – прочитал я где-то на форуме после очередного разочаровательного опыта.
    «Это болезнь начинающих» – сказал опытный человек при обсуждении игры «Коля Парсерков против Миши Менюшкина», не уточнив, однако, относится ли это к автору или к читателю. И я пообещал себе, что непременно разберусь с этим непростым вопросом и напишу вот эту заметку.

    Читать дальше: https://ifhub.club/2025/03/15/kolya-parserkov-protiv-vseh-bolezn-nachinayuschego-ili-simptomy-zhanra.html
    #intfiction #парсеры

  10. Полезные советы для парсинга данных веб-сайтов

    В одной из предыдущих статей мы узнали, что такое парсинг, и изучили примеры получения данных с HTML-страниц с помощью Python. В этой инструкции продолжаем продвигаться в этом направлении и предлагаем советы, использование которых поможет автоматизировано извлекать данные из большинства существующих сайтов. Предупреждаем, что получение данных автоматизированным путем может быть запрещено условиями использования сайтов. Мы не поощряем нарушения этих условий, правил, указанных в файле robots.txt или иных правовых норм. Используйте представленные методы только в рамках разрешенных сценариев, соблюдая политику владельцев ресурсов.

    habr.com/ru/companies/timeweb/

    #timeweb_статьи #парсеры #python #html #оптимизация #файлы #вебразработа #браузеры #windows #network

  11. Как написать свой небольшой парсер на Python?

    Всем привет. Я думаю, что некоторые задавались вопросом о том, как написать свой небольшой парсер на Python. В данной статье я хочу рассмотреть достаточно простой случай - это парсинг данных уже с готового датасета stackexchange.com . В дальнейшем уже можно будет работать с более сложными задачами. По факту, создание парсера можно разделить на два этапа: подготовка и кодинг.

    habr.com/ru/articles/848478/

    #парсер #парсеры #парсер_json #парсер_сайтов #парсер_форумов

  12. [Перевод] Вам следует написать новый (ужасный) язык программирования

    Каждый разработчик ПО использует язык программирования, и обычно даже несколько. Лишь немногие из нас создают языки программирования. Это логично, ведь работу, которую мы выполняем, чаще всего можно сделать при помощи уже существующих языков. И совершенствованием этих языков уже занимаются другие люди, а мы можем сосредоточиться на нашей непосредственной задаче. Но из-за этого мы теряем возможность научиться чему-то новому. Я нашла это новое, когда создала язык , руководствуясь глупым принципом: поток управления должен осуществляться через исключения и ничего больше . Я создала его как шутку, но неожиданно для себя в процессе разработки получила новые знания.

    habr.com/ru/companies/ruvds/ar

    #языки_программирования #парсеры #создание_языка_программирования #новые_языки_программирования #ruvds_перевод