home.social

#data_processing — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #data_processing, aggregated by home.social.

  1. Автоматизация SEO для агросайта: от 134 страниц каталога до 358 SEO-страниц с ИИ. Технический разбор

    Claude AI + Python + pandas = экономия 85% времени. Полный разбор архитектуры, кода и подводных камней.

    habr.com/ru/articles/993412/

    #python #claude #seo #автоматизация #pandas #geo #агротех #data_processing #promptengineering

  2. Автоматизация SEO для агросайта: от 134 страниц каталога до 358 SEO-страниц с ИИ. Технический разбор

    Claude AI + Python + pandas = экономия 85% времени. Полный разбор архитектуры, кода и подводных камней.

    habr.com/ru/articles/993412/

    #python #claude #seo #автоматизация #pandas #geo #агротех #data_processing #promptengineering

  3. Автоматизация SEO для агросайта: от 134 страниц каталога до 358 SEO-страниц с ИИ. Технический разбор

    Claude AI + Python + pandas = экономия 85% времени. Полный разбор архитектуры, кода и подводных камней.

    habr.com/ru/articles/993412/

    #python #claude #seo #автоматизация #pandas #geo #агротех #data_processing #promptengineering

  4. Автоматизация SEO для агросайта: от 134 страниц каталога до 358 SEO-страниц с ИИ. Технический разбор

    Claude AI + Python + pandas = экономия 85% времени. Полный разбор архитектуры, кода и подводных камней.

    habr.com/ru/articles/993412/

    #python #claude #seo #автоматизация #pandas #geo #агротех #data_processing #promptengineering

  5. VRL — просто, подробно и понятно

    Vector Remap Language (VRL) — это мощный и гибкий инструмент, встроенный в Vector, для обработки и трансформации данных, который позволяет разработчикам эффективно манипулировать логами, метриками и событиями в реальном времени

    habr.com/ru/articles/933762/

    #vector #логи #data_processing

  6. VRL — просто, подробно и понятно

    Vector Remap Language (VRL) — это мощный и гибкий инструмент, встроенный в Vector, для обработки и трансформации данных, который позволяет разработчикам эффективно манипулировать логами, метриками и событиями в реальном времени

    habr.com/ru/articles/933762/

    #vector #логи #data_processing

  7. VRL — просто, подробно и понятно

    Vector Remap Language (VRL) — это мощный и гибкий инструмент, встроенный в Vector, для обработки и трансформации данных, который позволяет разработчикам эффективно манипулировать логами, метриками и событиями в реальном времени

    habr.com/ru/articles/933762/

    #vector #логи #data_processing

  8. VRL — просто, подробно и понятно

    Vector Remap Language (VRL) — это мощный и гибкий инструмент, встроенный в Vector, для обработки и трансформации данных, который позволяет разработчикам эффективно манипулировать логами, метриками и событиями в реальном времени

    habr.com/ru/articles/933762/

    #vector #логи #data_processing

  9. [Перевод] Выборочное удаление столбцов для повышения эффективности хранения в озерах данных

    По мере роста Uber объем обрабатываемых данных и количество обращений к ним многократно возросли. Такое быстрое увеличение объема привело к росту затрат на хранение и вычислительные ресурсы. В результате мы столкнулись с различными проблемами, такими как повышенные требования к железу, увеличившееся потребление ресурсов, а также проблемами с производительностью из-за ошибок наподобие OOM (out-of-memory) и длительных пауз на сборку мусора. Для решения проблем было реализовано несколько инициатив, такие как: внедрение TTL (Time to Live) политик для партиций, внедрение многослойного хранилища с стратегиями для перераспределения данных из “hot”/”warm” до “cold” уровней хранения, а также оптимизации форматов хранения данных. В данной статье фокус будет на последней оптимизации - как сократить размер данных в рамках формата Apache Parquet™ за счет удаления не использующихся колонок большого размера.

    habr.com/ru/articles/784372/

    #apache_parquet #data_lake #data_processing #storage

  10. [Перевод] Выборочное удаление столбцов для повышения эффективности хранения в озерах данных

    По мере роста Uber объем обрабатываемых данных и количество обращений к ним многократно возросли. Такое быстрое увеличение объема привело к росту затрат на хранение и вычислительные ресурсы. В результате мы столкнулись с различными проблемами, такими как повышенные требования к железу, увеличившееся потребление ресурсов, а также проблемами с производительностью из-за ошибок наподобие OOM (out-of-memory) и длительных пауз на сборку мусора. Для решения проблем было реализовано несколько инициатив, такие как: внедрение TTL (Time to Live) политик для партиций, внедрение многослойного хранилища с стратегиями для перераспределения данных из “hot”/”warm” до “cold” уровней хранения, а также оптимизации форматов хранения данных. В данной статье фокус будет на последней оптимизации - как сократить размер данных в рамках формата Apache Parquet™ за счет удаления не использующихся колонок большого размера.

    habr.com/ru/articles/784372/

    #apache_parquet #data_lake #data_processing #storage