home.social

#data_analysis — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #data_analysis, aggregated by home.social.

  1. Ускоряем и оптимизируем numpy, pandas, scipy и sklearn

    С момента публикации статьи на Хабре « Импортозамещаем numpy, pandas, scipy и sklearn » прошло почти три года. В течение этого времени я приостановил работу над проектом из-за нехватки времени, ресурсов и сил. К тому же, меня расстроило, что не смог выполнить просьбу пользователя @N-Cube , который активно интересовался моей библиотекой и хотел ускорить работу своего Jupyter Notebook. В самый критический момент на помощь пришел волшебный AI, который, хоть и иногда проявлял недостаток гибкости, с готовностью исполнял все пожелания своего хозяина. Благодаря этому проект начал продвигаться вперед. За это время в библиотеки были добавлены поддержка CUDA, множество ручных SIMD-оптимизаций с динамическим выбором SIMD, несколько реализаций линейной регрессии и многое другое. Давайте рассмотрим, что на сегодняшний день позволяет сделать моя библиотека. Я представлю несколько тестовых примеров в двух вариантах: с использованием AVX-2 на процессоре Intel® Core™ i7-4790K и AVX-512 на Intel® Xeon. Также покажу результаты замеров для каждого из них. Все тесты проводились без использования GPU, исключительно на процессоре. Это позволяет сравнивать производительность Python и моей библиотеки на равных условиях. Операционная система – Ubuntu 24.04, компилятор – GNU 13.3.0.

    habr.com/ru/articles/1039866/

    #C++ #numpy #pandas #scipy #sklearn #opensource #datascience #data_analysis

  2. Ускоряем и оптимизируем numpy, pandas, scipy и sklearn

    С момента публикации статьи на Хабре « Импортозамещаем numpy, pandas, scipy и sklearn » прошло почти три года. В течение этого времени я приостановил работу над проектом из-за нехватки времени, ресурсов и сил. К тому же, меня расстроило, что не смог выполнить просьбу пользователя @N-Cube , который активно интересовался моей библиотекой и хотел ускорить работу своего Jupyter Notebook. В самый критический момент на помощь пришел волшебный AI, который, хоть и иногда проявлял недостаток гибкости, с готовностью исполнял все пожелания своего хозяина. Благодаря этому проект начал продвигаться вперед. За это время в библиотеки были добавлены поддержка CUDA, множество ручных SIMD-оптимизаций с динамическим выбором SIMD, несколько реализаций линейной регрессии и многое другое. Давайте рассмотрим, что на сегодняшний день позволяет сделать моя библиотека. Я представлю несколько тестовых примеров в двух вариантах: с использованием AVX-2 на процессоре Intel® Core™ i7-4790K и AVX-512 на Intel® Xeon. Также покажу результаты замеров для каждого из них. Все тесты проводились без использования GPU, исключительно на процессоре. Это позволяет сравнивать производительность Python и моей библиотеки на равных условиях. Операционная система – Ubuntu 24.04, компилятор – GNU 13.3.0.

    habr.com/ru/articles/1039866/

    #C++ #numpy #pandas #scipy #sklearn #opensource #datascience #data_analysis

  3. Ускоряем и оптимизируем numpy, pandas, scipy и sklearn

    С момента публикации статьи на Хабре « Импортозамещаем numpy, pandas, scipy и sklearn » прошло почти три года. В течение этого времени я приостановил работу над проектом из-за нехватки времени, ресурсов и сил. К тому же, меня расстроило, что не смог выполнить просьбу пользователя @N-Cube , который активно интересовался моей библиотекой и хотел ускорить работу своего Jupyter Notebook. В самый критический момент на помощь пришел волшебный AI, который, хоть и иногда проявлял недостаток гибкости, с готовностью исполнял все пожелания своего хозяина. Благодаря этому проект начал продвигаться вперед. За это время в библиотеки были добавлены поддержка CUDA, множество ручных SIMD-оптимизаций с динамическим выбором SIMD, несколько реализаций линейной регрессии и многое другое. Давайте рассмотрим, что на сегодняшний день позволяет сделать моя библиотека. Я представлю несколько тестовых примеров в двух вариантах: с использованием AVX-2 на процессоре Intel® Core™ i7-4790K и AVX-512 на Intel® Xeon. Также покажу результаты замеров для каждого из них. Все тесты проводились без использования GPU, исключительно на процессоре. Это позволяет сравнивать производительность Python и моей библиотеки на равных условиях. Операционная система – Ubuntu 24.04, компилятор – GNU 13.3.0.

    habr.com/ru/articles/1039866/

    #C++ #numpy #pandas #scipy #sklearn #opensource #datascience #data_analysis

  4. Ускоряем и оптимизируем numpy, pandas, scipy и sklearn

    С момента публикации статьи на Хабре « Импортозамещаем numpy, pandas, scipy и sklearn » прошло почти три года. В течение этого времени я приостановил работу над проектом из-за нехватки времени, ресурсов и сил. К тому же, меня расстроило, что не смог выполнить просьбу пользователя @N-Cube , который активно интересовался моей библиотекой и хотел ускорить работу своего Jupyter Notebook. В самый критический момент на помощь пришел волшебный AI, который, хоть и иногда проявлял недостаток гибкости, с готовностью исполнял все пожелания своего хозяина. Благодаря этому проект начал продвигаться вперед. За это время в библиотеки были добавлены поддержка CUDA, множество ручных SIMD-оптимизаций с динамическим выбором SIMD, несколько реализаций линейной регрессии и многое другое. Давайте рассмотрим, что на сегодняшний день позволяет сделать моя библиотека. Я представлю несколько тестовых примеров в двух вариантах: с использованием AVX-2 на процессоре Intel® Core™ i7-4790K и AVX-512 на Intel® Xeon. Также покажу результаты замеров для каждого из них. Все тесты проводились без использования GPU, исключительно на процессоре. Это позволяет сравнивать производительность Python и моей библиотеки на равных условиях. Операционная система – Ubuntu 24.04, компилятор – GNU 13.3.0.

    habr.com/ru/articles/1039866/

    #C++ #numpy #pandas #scipy #sklearn #opensource #datascience #data_analysis

  5. Как и зачем мы писали семантический слой для ИИ аналитики – SLayer

    Казалось бы, что может быть проще: даёшь LLM доступ к БД и просишь написать тебе нужный SQL! Но на практике и ИИ, и человек быстро сталкиваются с одинаковыми проблемами – взрывом кардинальности при JOIN’ах, ошибками в гранулярности, сложными подзапросами и отсутствием понятного бизнес-контекста. Рассказываем, зачем и как мы проектировали семантический слой для детерминированной аналитики и адекватной работы ИИ-агентов с данными. Давайте разбираться!

    habr.com/ru/articles/1033144/

    #semantic_layer #python #analytics #data_analysis #mcp #claudecode #gpt #ai #ииагенты #базы_данных

  6. Как и зачем мы писали семантический слой для ИИ аналитики – SLayer

    Казалось бы, что может быть проще: даёшь LLM доступ к БД и просишь написать тебе нужный SQL! Но на практике и ИИ, и человек быстро сталкиваются с одинаковыми проблемами – взрывом кардинальности при JOIN’ах, ошибками в гранулярности, сложными подзапросами и отсутствием понятного бизнес-контекста. Рассказываем, зачем и как мы проектировали семантический слой для детерминированной аналитики и адекватной работы ИИ-агентов с данными. Давайте разбираться!

    habr.com/ru/articles/1033144/

    #semantic_layer #python #analytics #data_analysis #mcp #claudecode #gpt #ai #ииагенты #базы_данных

  7. Как и зачем мы писали семантический слой для ИИ аналитики – SLayer

    Казалось бы, что может быть проще: даёшь LLM доступ к БД и просишь написать тебе нужный SQL! Но на практике и ИИ, и человек быстро сталкиваются с одинаковыми проблемами – взрывом кардинальности при JOIN’ах, ошибками в гранулярности, сложными подзапросами и отсутствием понятного бизнес-контекста. Рассказываем, зачем и как мы проектировали семантический слой для детерминированной аналитики и адекватной работы ИИ-агентов с данными. Давайте разбираться!

    habr.com/ru/articles/1033144/

    #semantic_layer #python #analytics #data_analysis #mcp #claudecode #gpt #ai #ииагенты #базы_данных

  8. Как и зачем мы писали семантический слой для ИИ аналитики – SLayer

    Казалось бы, что может быть проще: даёшь LLM доступ к БД и просишь написать тебе нужный SQL! Но на практике и ИИ, и человек быстро сталкиваются с одинаковыми проблемами – взрывом кардинальности при JOIN’ах, ошибками в гранулярности, сложными подзапросами и отсутствием понятного бизнес-контекста. Рассказываем, зачем и как мы проектировали семантический слой для детерминированной аналитики и адекватной работы ИИ-агентов с данными. Давайте разбираться!

    habr.com/ru/articles/1033144/

    #semantic_layer #python #analytics #data_analysis #mcp #claudecode #gpt #ai #ииагенты #базы_данных

  9. NumPy с нуля: понятный гайд для тех, кто хочет в Data Science

    Стандартные списки в Python прекрасны своей гибкостью, но когда дело доходит до больших данных и математики, они превращаются в медленных черепах. 🐢 Подготовил для вас максимально практичный гайд: «NumPy с нуля до понимания за 1 статью». Никакой академической воды — только база для быстрого старта в Data Science и аналитике.

    habr.com/ru/articles/1029440/

    #numpy #numpy_datascience #python #python3 #python_для_начинающих #python_tutor #data_science #data_analysis

  10. NumPy с нуля: понятный гайд для тех, кто хочет в Data Science

    Стандартные списки в Python прекрасны своей гибкостью, но когда дело доходит до больших данных и математики, они превращаются в медленных черепах. 🐢 Подготовил для вас максимально практичный гайд: «NumPy с нуля до понимания за 1 статью». Никакой академической воды — только база для быстрого старта в Data Science и аналитике.

    habr.com/ru/articles/1029440/

    #numpy #numpy_datascience #python #python3 #python_для_начинающих #python_tutor #data_science #data_analysis

  11. NumPy с нуля: понятный гайд для тех, кто хочет в Data Science

    Стандартные списки в Python прекрасны своей гибкостью, но когда дело доходит до больших данных и математики, они превращаются в медленных черепах. 🐢 Подготовил для вас максимально практичный гайд: «NumPy с нуля до понимания за 1 статью». Никакой академической воды — только база для быстрого старта в Data Science и аналитике.

    habr.com/ru/articles/1029440/

    #numpy #numpy_datascience #python #python3 #python_для_начинающих #python_tutor #data_science #data_analysis

  12. NumPy с нуля: понятный гайд для тех, кто хочет в Data Science

    Стандартные списки в Python прекрасны своей гибкостью, но когда дело доходит до больших данных и математики, они превращаются в медленных черепах. 🐢 Подготовил для вас максимально практичный гайд: «NumPy с нуля до понимания за 1 статью». Никакой академической воды — только база для быстрого старта в Data Science и аналитике.

    habr.com/ru/articles/1029440/

    #numpy #numpy_datascience #python #python3 #python_для_начинающих #python_tutor #data_science #data_analysis

  13. Метрики упали в лужу

    Метрики могут «упасть» даже если вы ничего не меняли в модели. Разбираемся, как распознать distribution shift и что с ним делать в продакшене.

    habr.com/ru/articles/1024380/

    #eda #анализ_данных #мониторинг #статистика #предобработка_данных #pandas #data_science #machine_learning #data_analysis #production

  14. Метрики упали в лужу

    Метрики могут «упасть» даже если вы ничего не меняли в модели. Разбираемся, как распознать distribution shift и что с ним делать в продакшене.

    habr.com/ru/articles/1024380/

    #eda #анализ_данных #мониторинг #статистика #предобработка_данных #pandas #data_science #machine_learning #data_analysis #production

  15. Метрики упали в лужу

    Метрики могут «упасть» даже если вы ничего не меняли в модели. Разбираемся, как распознать distribution shift и что с ним делать в продакшене.

    habr.com/ru/articles/1024380/

    #eda #анализ_данных #мониторинг #статистика #предобработка_данных #pandas #data_science #machine_learning #data_analysis #production

  16. Метрики упали в лужу

    Метрики могут «упасть» даже если вы ничего не меняли в модели. Разбираемся, как распознать distribution shift и что с ним делать в продакшене.

    habr.com/ru/articles/1024380/

    #eda #анализ_данных #мониторинг #статистика #предобработка_данных #pandas #data_science #machine_learning #data_analysis #production

  17. Обзор книг для анализа данных

    Я аналитик данных и люблю бумажный формат книг (если есть сомнения, сначала пробую электронную версию, но если книга заходит всегда потом беру бумажную). В этой статье честный обзор, без рекламы, тех книг, которые я купила не так давно в бумажном формате.

    habr.com/ru/articles/1007024/

    #анализ_данных #алгоритмы #python #книги_для_аналитика #data_science #data_analysis #обзор_книг #грокаем #грокаем_алгоритмы #аналитика

  18. Обзор книг для анализа данных

    Я аналитик данных и люблю бумажный формат книг (если есть сомнения, сначала пробую электронную версию, но если книга заходит всегда потом беру бумажную). В этой статье честный обзор, без рекламы, тех книг, которые я купила не так давно в бумажном формате.

    habr.com/ru/articles/1007024/

    #анализ_данных #алгоритмы #python #книги_для_аналитика #data_science #data_analysis #обзор_книг #грокаем #грокаем_алгоритмы #аналитика

  19. Обзор книг для анализа данных

    Я аналитик данных и люблю бумажный формат книг (если есть сомнения, сначала пробую электронную версию, но если книга заходит всегда потом беру бумажную). В этой статье честный обзор, без рекламы, тех книг, которые я купила не так давно в бумажном формате.

    habr.com/ru/articles/1007024/

    #анализ_данных #алгоритмы #python #книги_для_аналитика #data_science #data_analysis #обзор_книг #грокаем #грокаем_алгоритмы #аналитика

  20. Обзор книг для анализа данных

    Я аналитик данных и люблю бумажный формат книг (если есть сомнения, сначала пробую электронную версию, но если книга заходит всегда потом беру бумажную). В этой статье честный обзор, без рекламы, тех книг, которые я купила не так давно в бумажном формате.

    habr.com/ru/articles/1007024/

    #анализ_данных #алгоритмы #python #книги_для_аналитика #data_science #data_analysis #обзор_книг #грокаем #грокаем_алгоритмы #аналитика

  21. Ускоряем pandas, не переписывая код. Мой опыт с FireDucks

    Привет! Меня зовут Егор Лукьянов, я старший аналитик данных в Ozon Tech. В своей работе я часто сталкиваюсь с проблемой масштабируемости в pandas . Код, который быстро работает на гигабайте данных, начинает невыносимо тормозить на десяти. Уверен, эта боль знакома многим. Сейчас есть быстрые альтернативы, например, Polars . Я сам пробовал переводить на него свои проекты. Скорость действительно впечатляет, но как в анекдоте есть нюанс: приходится переписывать чуть ли не весь код и привыкать к новому синтаксису. А это большая работа, на которую не всегда есть время. И вот здесь я наткнулся на FireDucks — библиотеку, которая обещает решить эту проблему, просто заменив одну строку импорта. Звучало слишком хорошо, чтобы быть правдой. После опыта с Polars я был уверен, что где-то должен быть подвох. Я решил проверить FireDucks на нескольких типичных задачах. В этой статье я хочу без лишнего хайпа поделиться тем, что у меня получилось. Мы посмотрим на реальные примеры кода, сравним скорость и разберёмся, где эта библиотека действительно хороша, а где могут быть проблемы.

    habr.com/ru/companies/ozontech

    #pandas #data_analysis #data_engineering #python

  22. Ускоряем pandas, не переписывая код. Мой опыт с FireDucks

    Привет! Меня зовут Егор Лукьянов, я старший аналитик данных в Ozon Tech. В своей работе я часто сталкиваюсь с проблемой масштабируемости в pandas . Код, который быстро работает на гигабайте данных, начинает невыносимо тормозить на десяти. Уверен, эта боль знакома многим. Сейчас есть быстрые альтернативы, например, Polars . Я сам пробовал переводить на него свои проекты. Скорость действительно впечатляет, но как в анекдоте есть нюанс: приходится переписывать чуть ли не весь код и привыкать к новому синтаксису. А это большая работа, на которую не всегда есть время. И вот здесь я наткнулся на FireDucks — библиотеку, которая обещает решить эту проблему, просто заменив одну строку импорта. Звучало слишком хорошо, чтобы быть правдой. После опыта с Polars я был уверен, что где-то должен быть подвох. Я решил проверить FireDucks на нескольких типичных задачах. В этой статье я хочу без лишнего хайпа поделиться тем, что у меня получилось. Мы посмотрим на реальные примеры кода, сравним скорость и разберёмся, где эта библиотека действительно хороша, а где могут быть проблемы.

    habr.com/ru/companies/ozontech

    #pandas #data_analysis #data_engineering #python

  23. Ускоряем pandas, не переписывая код. Мой опыт с FireDucks

    Привет! Меня зовут Егор Лукьянов, я старший аналитик данных в Ozon Tech. В своей работе я часто сталкиваюсь с проблемой масштабируемости в pandas . Код, который быстро работает на гигабайте данных, начинает невыносимо тормозить на десяти. Уверен, эта боль знакома многим. Сейчас есть быстрые альтернативы, например, Polars . Я сам пробовал переводить на него свои проекты. Скорость действительно впечатляет, но как в анекдоте есть нюанс: приходится переписывать чуть ли не весь код и привыкать к новому синтаксису. А это большая работа, на которую не всегда есть время. И вот здесь я наткнулся на FireDucks — библиотеку, которая обещает решить эту проблему, просто заменив одну строку импорта. Звучало слишком хорошо, чтобы быть правдой. После опыта с Polars я был уверен, что где-то должен быть подвох. Я решил проверить FireDucks на нескольких типичных задачах. В этой статье я хочу без лишнего хайпа поделиться тем, что у меня получилось. Мы посмотрим на реальные примеры кода, сравним скорость и разберёмся, где эта библиотека действительно хороша, а где могут быть проблемы.

    habr.com/ru/companies/ozontech

    #pandas #data_analysis #data_engineering #python

  24. Ускоряем pandas, не переписывая код. Мой опыт с FireDucks

    Привет! Меня зовут Егор Лукьянов, я старший аналитик данных в Ozon Tech. В своей работе я часто сталкиваюсь с проблемой масштабируемости в pandas . Код, который быстро работает на гигабайте данных, начинает невыносимо тормозить на десяти. Уверен, эта боль знакома многим. Сейчас есть быстрые альтернативы, например, Polars . Я сам пробовал переводить на него свои проекты. Скорость действительно впечатляет, но как в анекдоте есть нюанс: приходится переписывать чуть ли не весь код и привыкать к новому синтаксису. А это большая работа, на которую не всегда есть время. И вот здесь я наткнулся на FireDucks — библиотеку, которая обещает решить эту проблему, просто заменив одну строку импорта. Звучало слишком хорошо, чтобы быть правдой. После опыта с Polars я был уверен, что где-то должен быть подвох. Я решил проверить FireDucks на нескольких типичных задачах. В этой статье я хочу без лишнего хайпа поделиться тем, что у меня получилось. Мы посмотрим на реальные примеры кода, сравним скорость и разберёмся, где эта библиотека действительно хороша, а где могут быть проблемы.

    habr.com/ru/companies/ozontech

    #pandas #data_analysis #data_engineering #python

  25. BI-аналитик: стартовый пакет необходимых навыков

    Расскажу какие навыки потребуются, чтобы начать свой карьерный путь в качестве BI-аналитика, и поделюсь ресурсами, которые помогут прокачать эти навыки. Подборка из статьи будет полезна и начинающим специалистам, и профи - для увеличения кругозора.

    habr.com/ru/articles/1004298/

    #sql #redash #tableau #data #data_analysis #visualization #reporting #визуализация #видео #dashboard

  26. BI-аналитик: стартовый пакет необходимых навыков

    Расскажу какие навыки потребуются, чтобы начать свой карьерный путь в качестве BI-аналитика, и поделюсь ресурсами, которые помогут прокачать эти навыки. Подборка из статьи будет полезна и начинающим специалистам, и профи - для увеличения кругозора.

    habr.com/ru/articles/1004298/

    #sql #redash #tableau #data #data_analysis #visualization #reporting #визуализация #видео #dashboard

  27. BI-аналитик: стартовый пакет необходимых навыков

    Расскажу какие навыки потребуются, чтобы начать свой карьерный путь в качестве BI-аналитика, и поделюсь ресурсами, которые помогут прокачать эти навыки. Подборка из статьи будет полезна и начинающим специалистам, и профи - для увеличения кругозора.

    habr.com/ru/articles/1004298/

    #sql #redash #tableau #data #data_analysis #visualization #reporting #визуализация #видео #dashboard

  28. BI-аналитик: стартовый пакет необходимых навыков

    Расскажу какие навыки потребуются, чтобы начать свой карьерный путь в качестве BI-аналитика, и поделюсь ресурсами, которые помогут прокачать эти навыки. Подборка из статьи будет полезна и начинающим специалистам, и профи - для увеличения кругозора.

    habr.com/ru/articles/1004298/

    #sql #redash #tableau #data #data_analysis #visualization #reporting #визуализация #видео #dashboard

  29. Путь в аналитику данных: базовый минимум для старта

    📊 Хотите стать аналитиком данных, но не знаете, с какой стороны подойти? Я собрала чек-лист для старта в 2026 году, никакой воды - только то, что реально спросят на собеседовании: 🛠 Что учить: SQL (с оконными функциями), Python (Pandas), BI-системы. 🧠 Важный софт-скилл, о котором молчат курсы — управление ожиданиями заказчика. 🔮 Бонус: что нужно знать про DWH и ML, чтобы выделяться среди других джунов.

    habr.com/ru/articles/1003704/

    #анализ_данных #аналитик_данных #аналитик_данных_обучение #data_analysis #карьера_аналитика_данных #карьера_аналитика #sql #soft_skills #hard_skills #карьера_итспециалиста

  30. Путь в аналитику данных: базовый минимум для старта

    📊 Хотите стать аналитиком данных, но не знаете, с какой стороны подойти? Я собрала чек-лист для старта в 2026 году, никакой воды - только то, что реально спросят на собеседовании: 🛠 Что учить: SQL (с оконными функциями), Python (Pandas), BI-системы. 🧠 Важный софт-скилл, о котором молчат курсы — управление ожиданиями заказчика. 🔮 Бонус: что нужно знать про DWH и ML, чтобы выделяться среди других джунов.

    habr.com/ru/articles/1003704/

    #анализ_данных #аналитик_данных #аналитик_данных_обучение #data_analysis #карьера_аналитика_данных #карьера_аналитика #sql #soft_skills #hard_skills #карьера_итспециалиста

  31. Путь в аналитику данных: базовый минимум для старта

    📊 Хотите стать аналитиком данных, но не знаете, с какой стороны подойти? Я собрала чек-лист для старта в 2026 году, никакой воды - только то, что реально спросят на собеседовании: 🛠 Что учить: SQL (с оконными функциями), Python (Pandas), BI-системы. 🧠 Важный софт-скилл, о котором молчат курсы — управление ожиданиями заказчика. 🔮 Бонус: что нужно знать про DWH и ML, чтобы выделяться среди других джунов.

    habr.com/ru/articles/1003704/

    #анализ_данных #аналитик_данных #аналитик_данных_обучение #data_analysis #карьера_аналитика_данных #карьера_аналитика #sql #soft_skills #hard_skills #карьера_итспециалиста

  32. Путь в аналитику данных: базовый минимум для старта

    📊 Хотите стать аналитиком данных, но не знаете, с какой стороны подойти? Я собрала чек-лист для старта в 2026 году, никакой воды - только то, что реально спросят на собеседовании: 🛠 Что учить: SQL (с оконными функциями), Python (Pandas), BI-системы. 🧠 Важный софт-скилл, о котором молчат курсы — управление ожиданиями заказчика. 🔮 Бонус: что нужно знать про DWH и ML, чтобы выделяться среди других джунов.

    habr.com/ru/articles/1003704/

    #анализ_данных #аналитик_данных #аналитик_данных_обучение #data_analysis #карьера_аналитика_данных #карьера_аналитика #sql #soft_skills #hard_skills #карьера_итспециалиста

  33. [Перевод] Как Uber масштабировал репликацию данных, чтобы ежедневно перемещать петабайты

    Uber держит огромные объёмы данных сразу в своих дата-центрах и в облаке, поэтому их нужно постоянно и быстро копировать между регионами для аналитики и аварийного восстановления. Когда объём таких копирований вырос до петабайта в день, оказалось, что система тормозит не на самой передаче данных, а на подготовке задач и служебных накладных расходах. Команда переработала процесс так, чтобы тяжелая подготовительная рутина выполнялась ближе к месту запуска задач, а ключевые этапы шли параллельно. Для маленьких копирований они убрали лишние запуски отдельных процессов/контейнеров, чтобы не тратить время на старт пустой работы. В итоге пропускная способность репликации выросла примерно в 5 раз и стала стабильнее, а перенос данных в облако пошёл заметно быстрее

    habr.com/ru/articles/996726/

    #uber #system_design #it #data #data_analysis #high_performance #performance

  34. [Перевод] Как Uber масштабировал репликацию данных, чтобы ежедневно перемещать петабайты

    Uber держит огромные объёмы данных сразу в своих дата-центрах и в облаке, поэтому их нужно постоянно и быстро копировать между регионами для аналитики и аварийного восстановления. Когда объём таких копирований вырос до петабайта в день, оказалось, что система тормозит не на самой передаче данных, а на подготовке задач и служебных накладных расходах. Команда переработала процесс так, чтобы тяжелая подготовительная рутина выполнялась ближе к месту запуска задач, а ключевые этапы шли параллельно. Для маленьких копирований они убрали лишние запуски отдельных процессов/контейнеров, чтобы не тратить время на старт пустой работы. В итоге пропускная способность репликации выросла примерно в 5 раз и стала стабильнее, а перенос данных в облако пошёл заметно быстрее

    habr.com/ru/articles/996726/

    #uber #system_design #it #data #data_analysis #high_performance #performance

  35. [Перевод] Как Uber масштабировал репликацию данных, чтобы ежедневно перемещать петабайты

    Uber держит огромные объёмы данных сразу в своих дата-центрах и в облаке, поэтому их нужно постоянно и быстро копировать между регионами для аналитики и аварийного восстановления. Когда объём таких копирований вырос до петабайта в день, оказалось, что система тормозит не на самой передаче данных, а на подготовке задач и служебных накладных расходах. Команда переработала процесс так, чтобы тяжелая подготовительная рутина выполнялась ближе к месту запуска задач, а ключевые этапы шли параллельно. Для маленьких копирований они убрали лишние запуски отдельных процессов/контейнеров, чтобы не тратить время на старт пустой работы. В итоге пропускная способность репликации выросла примерно в 5 раз и стала стабильнее, а перенос данных в облако пошёл заметно быстрее

    habr.com/ru/articles/996726/

    #uber #system_design #it #data #data_analysis #high_performance #performance

  36. [Перевод] Как Uber масштабировал репликацию данных, чтобы ежедневно перемещать петабайты

    Uber держит огромные объёмы данных сразу в своих дата-центрах и в облаке, поэтому их нужно постоянно и быстро копировать между регионами для аналитики и аварийного восстановления. Когда объём таких копирований вырос до петабайта в день, оказалось, что система тормозит не на самой передаче данных, а на подготовке задач и служебных накладных расходах. Команда переработала процесс так, чтобы тяжелая подготовительная рутина выполнялась ближе к месту запуска задач, а ключевые этапы шли параллельно. Для маленьких копирований они убрали лишние запуски отдельных процессов/контейнеров, чтобы не тратить время на старт пустой работы. В итоге пропускная способность репликации выросла примерно в 5 раз и стала стабильнее, а перенос данных в облако пошёл заметно быстрее

    habr.com/ru/articles/996726/

    #uber #system_design #it #data #data_analysis #high_performance #performance

  37. MDM: как навести порядок в НСИ и перестать чинить интеграции

    В любой компании справочники НСИ сначала выглядят как “ну это же просто таблицы”. Контрагенты, номенклатура, адреса, подразделения, единицы измерения, статусы. Пока людей и систем мало - всё держится на внимательности пары сотрудников и привычке “если что, поправим руками”.

    habr.com/ru/articles/993368/

    #НСИ #мдм #mdm #mdmсистема #нси_и_интеграция #data #data_analysis #data_structures #базы_данных #data_science

  38. Monq 9.0 — all-in-one платформа наблюдаемости, мониторинга и автоматизации

    Ещё пару лет назад на одной из офлайн-встреч мы решили: как только появится возможность, проведём корпоратив в горах. Хотели подниматься на вершины, встречать рассветы в палатках и ловить падающие звёзды где-то над Кавказом. Возможность всё не наступала — проекты, релизы, клиенты, ставка… — но мечта жила. И вот в начале сентября Олег и Никита, наши руководители клиентского сервиса и продаж, просто взяли билеты на Камчатку, собрались в поход и ушли на неделю по Толбачинскому массиву. Без лишних слов, без анонсов. А потом — прислали фото: флаг Monq 9 на фоне вулкана, облака под ногами и подпись «Мы готовы». Подняв этот флаг они даже опередили команду разработки 😀 Мы долго ждали этого релиза и наконец-то мы готовы представить Monq 9.0 , новую версию all-in-one платформы наблюдаемости (observability), ИТ-мониторинга и low-code/no-code автоматизации с AIOps функционалом на борту. Monq эволюционировал из событийного «зонтичного» мониторинга, который собирает данные из других систем, в “observability-зонтик”, который с большой производительностью умеет собирать любые данные сам. В этой статье расскажем, что нового появилось в версии 9.0, как устроена платформа и главное – зачем всё это нужно DevOps-инженерам, архитекторам и тимлидам. Поехали!

    habr.com/ru/companies/monq/art

    #monq #монк #мониторинг #observability #sre #devops #поддержка_клиентов #lowcode #nocode #data_analysis

  39. Как анализировать тысячи отзывов с ChatGPT? Частые ошибки и пример на реальных данных

    В этой статье я расскажу про свой опыт решения рабочей задачи — анализ отзывов о компании от пользователей. Мы разберем возможные ошибки и посмотрим на пример кода и реальных данных. Гайд будет полезен всем, у кого нет большого опыта в анализе данных или работе с LLM через API.

    habr.com/ru/articles/821287/

    #llm #gpt #chatgpt #python #clustering #kmeans #tsne #visualization #summarization #data_analysis

  40. Проблемы БД или почему большой продакшн спасут только массовые расстрелы запросов

    За счёт правильных, даже необязательно новых, а просто верно выбранных архитектурных подходов можно заставить работать не один конкретный запрос, а тысячу или даже миллион. Это становится краеугольным камнем, потому что объёмы данных растут с такой скоростью, которую мы даже представить себе не могли ещё пять лет назад. Привет, Хабр! Именно так считает наш сегодняшний гость – Дмитрий Немчин, руководитель направления эксплуатации инфраструктуры данных в Т-банке и по совместительству член программного комитета Data Internals , профессиональной конференции
по инженерии, базам и системам хранения и обработки данных. В беседе Дмитрий рассказал о своём пути в данные и программный комитет конференции, поделился интересными кейсами и проблемами, связанными с ростом объёмов данных и необходимостью управления ресурсами. А также объяснил, как дата-инженеру остаться востребованным в будущем, где ИИ может проникнуть абсолютно во все сферы жизни.

    habr.com/ru/companies/oleg-bun

    #интервью #greenplum #data_engineering #data_analysis #infrastructure #python #data_bases #data_internals #big_data #big_data_analytics

  41. Оптимизация производительности запросов: мощный тандем StarRocks и Apache Iceberg

    Apache Iceberg — табличный формат для озёр данных с поддержкой ACID, Schema Evolution, Hidden Partition и версионирования, но при больших метаданных и работе через S3 страдает планирование запросов и латентность. В связке со StarRocks мы показываем, как распределённый Job Plan, Manifest Cache, CBO с гистограммами, Data Cache и материализованные представления выводят lakehouse‑аналитику на уровень DWH: снижают накладные расходы на метаданные, ускоряют планы и выполнение, а запись обратно в Iceberg сохраняет единый источник истины. Разбираем архитектуру Iceberg, типовые узкие места и практики оптимизации на StarRocks 3.2–3.3, включая кейс WeChat/Tencent.

    habr.com/ru/articles/963410/

    #apache_iceberg #starrocks #lakehouse #data_analysis #data_lake #parquet #manifest #materialized_views

  42. Ред флаги, но не в тиндере: что важно понять data-специалисту ещё до офера

    Пятничный вечер, бар, шумные разговоры. Мы - компания из нескольких ML-инженеров, DE и DA из Сбера, Магнита, Озона и Альфа-Банка собрались не ради обсуждения задачек в JIRA. Разговор зашел о наболевшем: как найти своих людей и команду мечты? Обсудили зарплату и плюшки, удалёнку и офис, стартапы и зрелые продукты, переработки, карьерный рост и рабочую культуру. В статье - цитаты из обсуждения и обобщённые выводы. А в конце - список вопросов, которые стоит задать на собеседовании, чтобы не ошибиться с выбором и найти тех людей, с кем не страшно будет выкатить релиз в пятницу вечером.

    habr.com/ru/articles/988680/

    #собеседование #вакансия #редфлаги #ml #data_science #data_analysis #переработки #команда_мечты #команда #плюшки

  43. Система мониторинга ML-моделей: превращаем данные в полезный инструмент

    В прошлой статье мы разобрали, из каких компонентов собирается система мониторинга, и составили инструкции, чтобы указывать на действительно важные проблемы. Пришло время выстроить их в единую систему. Она должна масштабироваться и давать ясную картину происходящего, чтобы наш мониторинг не был бесполезным потребителем ресурсов. В статье расскажу, как превратить разрозненные компоненты в систему мониторинга, и как она помогла нам сохранить работоспособность моделей.

    habr.com/ru/companies/tochka/a

    #monitoring #модель #ml #data_analysis #drift #визуализация_данных #pbi

  44. Автоэнкодер: как нейросеть учится понимать норму

    Непосвящённому человеку кажется, что нейронная сеть может всё. Средства массовой информации этот миф только подпитывают, а где-то в недрах Голливуда Джеймс Камерон шепчет: «Я не режиссёр — я пророк». В реальной же повседневной работе от нейронной сети мне нужна одна простая и приземлённая вещь — поиск аномалий в данных . И вот с этим нейросети действительно справляются. Более того, для этого у них есть специальный инструмент — автоэнкодер . В этом небольшом опусе я попробую быстро, просто и без магии объяснить, что такое автоэнкодер, как он работает и почему он вообще способен находить аномалии .

    habr.com/ru/articles/976480/

    #автоэнкодер #ии #python #data_science #data_analysis

  45. Система мониторинга ML-моделей: что важно контролировать и почему

    «Обучил, запустил и забыл» — плохая стратегия работы с ML‑моделями, но она часто встречается после удачного тестирования. Качество моделей может незаметно снижаться, и если пропустить этот момент — последствия могут дорого стоить. Когда мы начали задумываться о системе мониторинга, одна из наших моделей начала выдавать предсказания, которые требовали незамедлительного вмешательства в выстроенную работу. Но разум подсказывал, что проблема не в процессе, а в модели. О том, каким трудоемким оказалось наше расследование, и как мы восстанавливали и изучали каждую составляющую процесса почти вслепую, читайте по ссылке . Быть детективами нам понравилось, но вкладывать столько усилий в каждый подобный случай не хочется. Мы поняли, что нужно научиться контролировать работу модели так, чтобы своевременно находить проблему и чинить ее, используя минимальное количество ресурсов. В серии из двух статей расскажу, как мы построили систему мониторинга ML‑моделей силами одного человека за несколько месяцев.

    habr.com/ru/companies/tochka/a

    #ml #monitoring #drift #data_analysis #модель

  46. Куда исчезают пользователи: современные фреймворки аналитики retention в 2025 году

    В 2025 году retention снова стал главной метрикой рынка. Трафик дорожает, конкуренция растет, AI-продукты выходят быстрее, чем я успеваю их тестировать, — и единственный способ выжить в этой гонке: удерживать пользователей, а не просто радоваться скачкам трафика по праздникам. Но есть проблема: большинство команд все еще думают, что retention — это «график, на который мы будем смотреть, пока CFO грустит».

    habr.com/ru/articles/973922/

    #retention #product_analytics #user_behavior #cohort_analysis #ai #data_analysis #llm #customer_journey_map #metrics #product