home.social

#dataframe — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #dataframe, aggregated by home.social.

  1. Oh look, another "groundbreaking" #blog post about #DuckDB from a self-proclaimed data wizard. 🙄 Apparently, the limitations of basic text queries are just too much for our hero, who bravely delves into the wild world of Full-Text Search. 🌟 Spoiler alert: it's as thrilling as watching paint dry on a data frame. 🥱
    peterdohertys.website/blog-pos #DataWizard #FullTextSearch #DataFrame #HackerNews #ngated

  2. Polars — «убийца Pandas» на максималках

    Всем привет! Меня зовут Александр Андреев, я инженер данных. Сегодня я хочу рассказать вам о библиотеке Polars - потенциальной замене Pandas, любимой у большинства дата-инженеров и дата-саентистов библиотеки для работы с данными. В своей статье я последовательно пройдусь от истории библиотеки Polars до примеров кода, технических аспектов ее производительности и в конце дам ссылки на все бенчмарки, обучающие материалы и дополнительные статьи, которые использовались для написания данного обзора-туториала по этой замечательной библиотеке.

    habr.com/ru/articles/946788/

    #polars #pandas #data_engineering #data_science #data_analysis #dataframe #library #python #rust #dataset

  3. Computing travel time matrices in r⁵py from @geopandas #DataFrame is two lines of code:

    (1) create an r5py.TransportNetwork from @openstreetmap and #GTFS data

    (2) turn it into an r5py.TravelTimeMatrix()

    Try it out in #binder: r5py.readthedocs.io/stable/use

  4. Parsing CSV with units in the header · Issue #166 · hgrecco/pint-pandas

    github.com/hgrecco/pint-pandas

    Now we can read a file with a header like `time / s,mass / g` into and call `.pint.quantify()` to get a in which the columns have as in !

    Handy for CSV restricted to single-row headers, as in Confluence Databases and Microsoft Lists.

  5. Spark. План запросов на примерах

    Всем привет! В этой статье возьмем за основу пару таблиц и пройдемся по планам запросов по нарастающей: от обычного селекта до джойнов, оконок и репартиционирования. Посмотрим, чем отличаются виды планов друг от друга, что в них изменяется от запроса к запросу и разберем каждую строчку на примере партиционированной и непартиционированной таблицы.

    habr.com/ru/articles/807421/

    #apache_spark #pyspark #sql #python #bigdata #data_engineering #explain #execution_plan #план_запроса #dataframe