#data_analysis — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #data_analysis, aggregated by home.social.
-
Ускоряем и оптимизируем numpy, pandas, scipy и sklearn
С момента публикации статьи на Хабре « Импортозамещаем numpy, pandas, scipy и sklearn » прошло почти три года. В течение этого времени я приостановил работу над проектом из-за нехватки времени, ресурсов и сил. К тому же, меня расстроило, что не смог выполнить просьбу пользователя @N-Cube , который активно интересовался моей библиотекой и хотел ускорить работу своего Jupyter Notebook. В самый критический момент на помощь пришел волшебный AI, который, хоть и иногда проявлял недостаток гибкости, с готовностью исполнял все пожелания своего хозяина. Благодаря этому проект начал продвигаться вперед. За это время в библиотеки были добавлены поддержка CUDA, множество ручных SIMD-оптимизаций с динамическим выбором SIMD, несколько реализаций линейной регрессии и многое другое. Давайте рассмотрим, что на сегодняшний день позволяет сделать моя библиотека. Я представлю несколько тестовых примеров в двух вариантах: с использованием AVX-2 на процессоре Intel® Core™ i7-4790K и AVX-512 на Intel® Xeon. Также покажу результаты замеров для каждого из них. Все тесты проводились без использования GPU, исключительно на процессоре. Это позволяет сравнивать производительность Python и моей библиотеки на равных условиях. Операционная система – Ubuntu 24.04, компилятор – GNU 13.3.0.
https://habr.com/ru/articles/1039866/
#C++ #numpy #pandas #scipy #sklearn #opensource #datascience #data_analysis
-
Ускоряем и оптимизируем numpy, pandas, scipy и sklearn
С момента публикации статьи на Хабре « Импортозамещаем numpy, pandas, scipy и sklearn » прошло почти три года. В течение этого времени я приостановил работу над проектом из-за нехватки времени, ресурсов и сил. К тому же, меня расстроило, что не смог выполнить просьбу пользователя @N-Cube , который активно интересовался моей библиотекой и хотел ускорить работу своего Jupyter Notebook. В самый критический момент на помощь пришел волшебный AI, который, хоть и иногда проявлял недостаток гибкости, с готовностью исполнял все пожелания своего хозяина. Благодаря этому проект начал продвигаться вперед. За это время в библиотеки были добавлены поддержка CUDA, множество ручных SIMD-оптимизаций с динамическим выбором SIMD, несколько реализаций линейной регрессии и многое другое. Давайте рассмотрим, что на сегодняшний день позволяет сделать моя библиотека. Я представлю несколько тестовых примеров в двух вариантах: с использованием AVX-2 на процессоре Intel® Core™ i7-4790K и AVX-512 на Intel® Xeon. Также покажу результаты замеров для каждого из них. Все тесты проводились без использования GPU, исключительно на процессоре. Это позволяет сравнивать производительность Python и моей библиотеки на равных условиях. Операционная система – Ubuntu 24.04, компилятор – GNU 13.3.0.
https://habr.com/ru/articles/1039866/
#C++ #numpy #pandas #scipy #sklearn #opensource #datascience #data_analysis
-
Ускоряем и оптимизируем numpy, pandas, scipy и sklearn
С момента публикации статьи на Хабре « Импортозамещаем numpy, pandas, scipy и sklearn » прошло почти три года. В течение этого времени я приостановил работу над проектом из-за нехватки времени, ресурсов и сил. К тому же, меня расстроило, что не смог выполнить просьбу пользователя @N-Cube , который активно интересовался моей библиотекой и хотел ускорить работу своего Jupyter Notebook. В самый критический момент на помощь пришел волшебный AI, который, хоть и иногда проявлял недостаток гибкости, с готовностью исполнял все пожелания своего хозяина. Благодаря этому проект начал продвигаться вперед. За это время в библиотеки были добавлены поддержка CUDA, множество ручных SIMD-оптимизаций с динамическим выбором SIMD, несколько реализаций линейной регрессии и многое другое. Давайте рассмотрим, что на сегодняшний день позволяет сделать моя библиотека. Я представлю несколько тестовых примеров в двух вариантах: с использованием AVX-2 на процессоре Intel® Core™ i7-4790K и AVX-512 на Intel® Xeon. Также покажу результаты замеров для каждого из них. Все тесты проводились без использования GPU, исключительно на процессоре. Это позволяет сравнивать производительность Python и моей библиотеки на равных условиях. Операционная система – Ubuntu 24.04, компилятор – GNU 13.3.0.
https://habr.com/ru/articles/1039866/
#C++ #numpy #pandas #scipy #sklearn #opensource #datascience #data_analysis
-
Ускоряем и оптимизируем numpy, pandas, scipy и sklearn
С момента публикации статьи на Хабре « Импортозамещаем numpy, pandas, scipy и sklearn » прошло почти три года. В течение этого времени я приостановил работу над проектом из-за нехватки времени, ресурсов и сил. К тому же, меня расстроило, что не смог выполнить просьбу пользователя @N-Cube , который активно интересовался моей библиотекой и хотел ускорить работу своего Jupyter Notebook. В самый критический момент на помощь пришел волшебный AI, который, хоть и иногда проявлял недостаток гибкости, с готовностью исполнял все пожелания своего хозяина. Благодаря этому проект начал продвигаться вперед. За это время в библиотеки были добавлены поддержка CUDA, множество ручных SIMD-оптимизаций с динамическим выбором SIMD, несколько реализаций линейной регрессии и многое другое. Давайте рассмотрим, что на сегодняшний день позволяет сделать моя библиотека. Я представлю несколько тестовых примеров в двух вариантах: с использованием AVX-2 на процессоре Intel® Core™ i7-4790K и AVX-512 на Intel® Xeon. Также покажу результаты замеров для каждого из них. Все тесты проводились без использования GPU, исключительно на процессоре. Это позволяет сравнивать производительность Python и моей библиотеки на равных условиях. Операционная система – Ubuntu 24.04, компилятор – GNU 13.3.0.
https://habr.com/ru/articles/1039866/
#C++ #numpy #pandas #scipy #sklearn #opensource #datascience #data_analysis
-
Как и зачем мы писали семантический слой для ИИ аналитики – SLayer
Казалось бы, что может быть проще: даёшь LLM доступ к БД и просишь написать тебе нужный SQL! Но на практике и ИИ, и человек быстро сталкиваются с одинаковыми проблемами – взрывом кардинальности при JOIN’ах, ошибками в гранулярности, сложными подзапросами и отсутствием понятного бизнес-контекста. Рассказываем, зачем и как мы проектировали семантический слой для детерминированной аналитики и адекватной работы ИИ-агентов с данными. Давайте разбираться!
https://habr.com/ru/articles/1033144/
#semantic_layer #python #analytics #data_analysis #mcp #claudecode #gpt #ai #ииагенты #базы_данных
-
Как и зачем мы писали семантический слой для ИИ аналитики – SLayer
Казалось бы, что может быть проще: даёшь LLM доступ к БД и просишь написать тебе нужный SQL! Но на практике и ИИ, и человек быстро сталкиваются с одинаковыми проблемами – взрывом кардинальности при JOIN’ах, ошибками в гранулярности, сложными подзапросами и отсутствием понятного бизнес-контекста. Рассказываем, зачем и как мы проектировали семантический слой для детерминированной аналитики и адекватной работы ИИ-агентов с данными. Давайте разбираться!
https://habr.com/ru/articles/1033144/
#semantic_layer #python #analytics #data_analysis #mcp #claudecode #gpt #ai #ииагенты #базы_данных
-
Как и зачем мы писали семантический слой для ИИ аналитики – SLayer
Казалось бы, что может быть проще: даёшь LLM доступ к БД и просишь написать тебе нужный SQL! Но на практике и ИИ, и человек быстро сталкиваются с одинаковыми проблемами – взрывом кардинальности при JOIN’ах, ошибками в гранулярности, сложными подзапросами и отсутствием понятного бизнес-контекста. Рассказываем, зачем и как мы проектировали семантический слой для детерминированной аналитики и адекватной работы ИИ-агентов с данными. Давайте разбираться!
https://habr.com/ru/articles/1033144/
#semantic_layer #python #analytics #data_analysis #mcp #claudecode #gpt #ai #ииагенты #базы_данных
-
Как и зачем мы писали семантический слой для ИИ аналитики – SLayer
Казалось бы, что может быть проще: даёшь LLM доступ к БД и просишь написать тебе нужный SQL! Но на практике и ИИ, и человек быстро сталкиваются с одинаковыми проблемами – взрывом кардинальности при JOIN’ах, ошибками в гранулярности, сложными подзапросами и отсутствием понятного бизнес-контекста. Рассказываем, зачем и как мы проектировали семантический слой для детерминированной аналитики и адекватной работы ИИ-агентов с данными. Давайте разбираться!
https://habr.com/ru/articles/1033144/
#semantic_layer #python #analytics #data_analysis #mcp #claudecode #gpt #ai #ииагенты #базы_данных
-
NumPy с нуля: понятный гайд для тех, кто хочет в Data Science
Стандартные списки в Python прекрасны своей гибкостью, но когда дело доходит до больших данных и математики, они превращаются в медленных черепах. 🐢 Подготовил для вас максимально практичный гайд: «NumPy с нуля до понимания за 1 статью». Никакой академической воды — только база для быстрого старта в Data Science и аналитике.
https://habr.com/ru/articles/1029440/
#numpy #numpy_datascience #python #python3 #python_для_начинающих #python_tutor #data_science #data_analysis
-
NumPy с нуля: понятный гайд для тех, кто хочет в Data Science
Стандартные списки в Python прекрасны своей гибкостью, но когда дело доходит до больших данных и математики, они превращаются в медленных черепах. 🐢 Подготовил для вас максимально практичный гайд: «NumPy с нуля до понимания за 1 статью». Никакой академической воды — только база для быстрого старта в Data Science и аналитике.
https://habr.com/ru/articles/1029440/
#numpy #numpy_datascience #python #python3 #python_для_начинающих #python_tutor #data_science #data_analysis
-
NumPy с нуля: понятный гайд для тех, кто хочет в Data Science
Стандартные списки в Python прекрасны своей гибкостью, но когда дело доходит до больших данных и математики, они превращаются в медленных черепах. 🐢 Подготовил для вас максимально практичный гайд: «NumPy с нуля до понимания за 1 статью». Никакой академической воды — только база для быстрого старта в Data Science и аналитике.
https://habr.com/ru/articles/1029440/
#numpy #numpy_datascience #python #python3 #python_для_начинающих #python_tutor #data_science #data_analysis
-
NumPy с нуля: понятный гайд для тех, кто хочет в Data Science
Стандартные списки в Python прекрасны своей гибкостью, но когда дело доходит до больших данных и математики, они превращаются в медленных черепах. 🐢 Подготовил для вас максимально практичный гайд: «NumPy с нуля до понимания за 1 статью». Никакой академической воды — только база для быстрого старта в Data Science и аналитике.
https://habr.com/ru/articles/1029440/
#numpy #numpy_datascience #python #python3 #python_для_начинающих #python_tutor #data_science #data_analysis
-
Метрики упали в лужу
Метрики могут «упасть» даже если вы ничего не меняли в модели. Разбираемся, как распознать distribution shift и что с ним делать в продакшене.
https://habr.com/ru/articles/1024380/
#eda #анализ_данных #мониторинг #статистика #предобработка_данных #pandas #data_science #machine_learning #data_analysis #production
-
Метрики упали в лужу
Метрики могут «упасть» даже если вы ничего не меняли в модели. Разбираемся, как распознать distribution shift и что с ним делать в продакшене.
https://habr.com/ru/articles/1024380/
#eda #анализ_данных #мониторинг #статистика #предобработка_данных #pandas #data_science #machine_learning #data_analysis #production
-
Метрики упали в лужу
Метрики могут «упасть» даже если вы ничего не меняли в модели. Разбираемся, как распознать distribution shift и что с ним делать в продакшене.
https://habr.com/ru/articles/1024380/
#eda #анализ_данных #мониторинг #статистика #предобработка_данных #pandas #data_science #machine_learning #data_analysis #production
-
Метрики упали в лужу
Метрики могут «упасть» даже если вы ничего не меняли в модели. Разбираемся, как распознать distribution shift и что с ним делать в продакшене.
https://habr.com/ru/articles/1024380/
#eda #анализ_данных #мониторинг #статистика #предобработка_данных #pandas #data_science #machine_learning #data_analysis #production
-
Обзор книг для анализа данных
Я аналитик данных и люблю бумажный формат книг (если есть сомнения, сначала пробую электронную версию, но если книга заходит всегда потом беру бумажную). В этой статье честный обзор, без рекламы, тех книг, которые я купила не так давно в бумажном формате.
https://habr.com/ru/articles/1007024/
#анализ_данных #алгоритмы #python #книги_для_аналитика #data_science #data_analysis #обзор_книг #грокаем #грокаем_алгоритмы #аналитика
-
Обзор книг для анализа данных
Я аналитик данных и люблю бумажный формат книг (если есть сомнения, сначала пробую электронную версию, но если книга заходит всегда потом беру бумажную). В этой статье честный обзор, без рекламы, тех книг, которые я купила не так давно в бумажном формате.
https://habr.com/ru/articles/1007024/
#анализ_данных #алгоритмы #python #книги_для_аналитика #data_science #data_analysis #обзор_книг #грокаем #грокаем_алгоритмы #аналитика
-
Обзор книг для анализа данных
Я аналитик данных и люблю бумажный формат книг (если есть сомнения, сначала пробую электронную версию, но если книга заходит всегда потом беру бумажную). В этой статье честный обзор, без рекламы, тех книг, которые я купила не так давно в бумажном формате.
https://habr.com/ru/articles/1007024/
#анализ_данных #алгоритмы #python #книги_для_аналитика #data_science #data_analysis #обзор_книг #грокаем #грокаем_алгоритмы #аналитика
-
Обзор книг для анализа данных
Я аналитик данных и люблю бумажный формат книг (если есть сомнения, сначала пробую электронную версию, но если книга заходит всегда потом беру бумажную). В этой статье честный обзор, без рекламы, тех книг, которые я купила не так давно в бумажном формате.
https://habr.com/ru/articles/1007024/
#анализ_данных #алгоритмы #python #книги_для_аналитика #data_science #data_analysis #обзор_книг #грокаем #грокаем_алгоритмы #аналитика
-
Ускоряем pandas, не переписывая код. Мой опыт с FireDucks
Привет! Меня зовут Егор Лукьянов, я старший аналитик данных в Ozon Tech. В своей работе я часто сталкиваюсь с проблемой масштабируемости в pandas . Код, который быстро работает на гигабайте данных, начинает невыносимо тормозить на десяти. Уверен, эта боль знакома многим. Сейчас есть быстрые альтернативы, например, Polars . Я сам пробовал переводить на него свои проекты. Скорость действительно впечатляет, но как в анекдоте есть нюанс: приходится переписывать чуть ли не весь код и привыкать к новому синтаксису. А это большая работа, на которую не всегда есть время. И вот здесь я наткнулся на FireDucks — библиотеку, которая обещает решить эту проблему, просто заменив одну строку импорта. Звучало слишком хорошо, чтобы быть правдой. После опыта с Polars я был уверен, что где-то должен быть подвох. Я решил проверить FireDucks на нескольких типичных задачах. В этой статье я хочу без лишнего хайпа поделиться тем, что у меня получилось. Мы посмотрим на реальные примеры кода, сравним скорость и разберёмся, где эта библиотека действительно хороша, а где могут быть проблемы.
-
Ускоряем pandas, не переписывая код. Мой опыт с FireDucks
Привет! Меня зовут Егор Лукьянов, я старший аналитик данных в Ozon Tech. В своей работе я часто сталкиваюсь с проблемой масштабируемости в pandas . Код, который быстро работает на гигабайте данных, начинает невыносимо тормозить на десяти. Уверен, эта боль знакома многим. Сейчас есть быстрые альтернативы, например, Polars . Я сам пробовал переводить на него свои проекты. Скорость действительно впечатляет, но как в анекдоте есть нюанс: приходится переписывать чуть ли не весь код и привыкать к новому синтаксису. А это большая работа, на которую не всегда есть время. И вот здесь я наткнулся на FireDucks — библиотеку, которая обещает решить эту проблему, просто заменив одну строку импорта. Звучало слишком хорошо, чтобы быть правдой. После опыта с Polars я был уверен, что где-то должен быть подвох. Я решил проверить FireDucks на нескольких типичных задачах. В этой статье я хочу без лишнего хайпа поделиться тем, что у меня получилось. Мы посмотрим на реальные примеры кода, сравним скорость и разберёмся, где эта библиотека действительно хороша, а где могут быть проблемы.
-
Ускоряем pandas, не переписывая код. Мой опыт с FireDucks
Привет! Меня зовут Егор Лукьянов, я старший аналитик данных в Ozon Tech. В своей работе я часто сталкиваюсь с проблемой масштабируемости в pandas . Код, который быстро работает на гигабайте данных, начинает невыносимо тормозить на десяти. Уверен, эта боль знакома многим. Сейчас есть быстрые альтернативы, например, Polars . Я сам пробовал переводить на него свои проекты. Скорость действительно впечатляет, но как в анекдоте есть нюанс: приходится переписывать чуть ли не весь код и привыкать к новому синтаксису. А это большая работа, на которую не всегда есть время. И вот здесь я наткнулся на FireDucks — библиотеку, которая обещает решить эту проблему, просто заменив одну строку импорта. Звучало слишком хорошо, чтобы быть правдой. После опыта с Polars я был уверен, что где-то должен быть подвох. Я решил проверить FireDucks на нескольких типичных задачах. В этой статье я хочу без лишнего хайпа поделиться тем, что у меня получилось. Мы посмотрим на реальные примеры кода, сравним скорость и разберёмся, где эта библиотека действительно хороша, а где могут быть проблемы.
-
Ускоряем pandas, не переписывая код. Мой опыт с FireDucks
Привет! Меня зовут Егор Лукьянов, я старший аналитик данных в Ozon Tech. В своей работе я часто сталкиваюсь с проблемой масштабируемости в pandas . Код, который быстро работает на гигабайте данных, начинает невыносимо тормозить на десяти. Уверен, эта боль знакома многим. Сейчас есть быстрые альтернативы, например, Polars . Я сам пробовал переводить на него свои проекты. Скорость действительно впечатляет, но как в анекдоте есть нюанс: приходится переписывать чуть ли не весь код и привыкать к новому синтаксису. А это большая работа, на которую не всегда есть время. И вот здесь я наткнулся на FireDucks — библиотеку, которая обещает решить эту проблему, просто заменив одну строку импорта. Звучало слишком хорошо, чтобы быть правдой. После опыта с Polars я был уверен, что где-то должен быть подвох. Я решил проверить FireDucks на нескольких типичных задачах. В этой статье я хочу без лишнего хайпа поделиться тем, что у меня получилось. Мы посмотрим на реальные примеры кода, сравним скорость и разберёмся, где эта библиотека действительно хороша, а где могут быть проблемы.
-
BI-аналитик: стартовый пакет необходимых навыков
Расскажу какие навыки потребуются, чтобы начать свой карьерный путь в качестве BI-аналитика, и поделюсь ресурсами, которые помогут прокачать эти навыки. Подборка из статьи будет полезна и начинающим специалистам, и профи - для увеличения кругозора.
https://habr.com/ru/articles/1004298/
#sql #redash #tableau #data #data_analysis #visualization #reporting #визуализация #видео #dashboard
-
BI-аналитик: стартовый пакет необходимых навыков
Расскажу какие навыки потребуются, чтобы начать свой карьерный путь в качестве BI-аналитика, и поделюсь ресурсами, которые помогут прокачать эти навыки. Подборка из статьи будет полезна и начинающим специалистам, и профи - для увеличения кругозора.
https://habr.com/ru/articles/1004298/
#sql #redash #tableau #data #data_analysis #visualization #reporting #визуализация #видео #dashboard
-
BI-аналитик: стартовый пакет необходимых навыков
Расскажу какие навыки потребуются, чтобы начать свой карьерный путь в качестве BI-аналитика, и поделюсь ресурсами, которые помогут прокачать эти навыки. Подборка из статьи будет полезна и начинающим специалистам, и профи - для увеличения кругозора.
https://habr.com/ru/articles/1004298/
#sql #redash #tableau #data #data_analysis #visualization #reporting #визуализация #видео #dashboard
-
BI-аналитик: стартовый пакет необходимых навыков
Расскажу какие навыки потребуются, чтобы начать свой карьерный путь в качестве BI-аналитика, и поделюсь ресурсами, которые помогут прокачать эти навыки. Подборка из статьи будет полезна и начинающим специалистам, и профи - для увеличения кругозора.
https://habr.com/ru/articles/1004298/
#sql #redash #tableau #data #data_analysis #visualization #reporting #визуализация #видео #dashboard
-
Путь в аналитику данных: базовый минимум для старта
📊 Хотите стать аналитиком данных, но не знаете, с какой стороны подойти? Я собрала чек-лист для старта в 2026 году, никакой воды - только то, что реально спросят на собеседовании: 🛠 Что учить: SQL (с оконными функциями), Python (Pandas), BI-системы. 🧠 Важный софт-скилл, о котором молчат курсы — управление ожиданиями заказчика. 🔮 Бонус: что нужно знать про DWH и ML, чтобы выделяться среди других джунов.
https://habr.com/ru/articles/1003704/
#анализ_данных #аналитик_данных #аналитик_данных_обучение #data_analysis #карьера_аналитика_данных #карьера_аналитика #sql #soft_skills #hard_skills #карьера_итспециалиста
-
Путь в аналитику данных: базовый минимум для старта
📊 Хотите стать аналитиком данных, но не знаете, с какой стороны подойти? Я собрала чек-лист для старта в 2026 году, никакой воды - только то, что реально спросят на собеседовании: 🛠 Что учить: SQL (с оконными функциями), Python (Pandas), BI-системы. 🧠 Важный софт-скилл, о котором молчат курсы — управление ожиданиями заказчика. 🔮 Бонус: что нужно знать про DWH и ML, чтобы выделяться среди других джунов.
https://habr.com/ru/articles/1003704/
#анализ_данных #аналитик_данных #аналитик_данных_обучение #data_analysis #карьера_аналитика_данных #карьера_аналитика #sql #soft_skills #hard_skills #карьера_итспециалиста
-
Путь в аналитику данных: базовый минимум для старта
📊 Хотите стать аналитиком данных, но не знаете, с какой стороны подойти? Я собрала чек-лист для старта в 2026 году, никакой воды - только то, что реально спросят на собеседовании: 🛠 Что учить: SQL (с оконными функциями), Python (Pandas), BI-системы. 🧠 Важный софт-скилл, о котором молчат курсы — управление ожиданиями заказчика. 🔮 Бонус: что нужно знать про DWH и ML, чтобы выделяться среди других джунов.
https://habr.com/ru/articles/1003704/
#анализ_данных #аналитик_данных #аналитик_данных_обучение #data_analysis #карьера_аналитика_данных #карьера_аналитика #sql #soft_skills #hard_skills #карьера_итспециалиста
-
Путь в аналитику данных: базовый минимум для старта
📊 Хотите стать аналитиком данных, но не знаете, с какой стороны подойти? Я собрала чек-лист для старта в 2026 году, никакой воды - только то, что реально спросят на собеседовании: 🛠 Что учить: SQL (с оконными функциями), Python (Pandas), BI-системы. 🧠 Важный софт-скилл, о котором молчат курсы — управление ожиданиями заказчика. 🔮 Бонус: что нужно знать про DWH и ML, чтобы выделяться среди других джунов.
https://habr.com/ru/articles/1003704/
#анализ_данных #аналитик_данных #аналитик_данных_обучение #data_analysis #карьера_аналитика_данных #карьера_аналитика #sql #soft_skills #hard_skills #карьера_итспециалиста
-
[Перевод] Как Uber масштабировал репликацию данных, чтобы ежедневно перемещать петабайты
Uber держит огромные объёмы данных сразу в своих дата-центрах и в облаке, поэтому их нужно постоянно и быстро копировать между регионами для аналитики и аварийного восстановления. Когда объём таких копирований вырос до петабайта в день, оказалось, что система тормозит не на самой передаче данных, а на подготовке задач и служебных накладных расходах. Команда переработала процесс так, чтобы тяжелая подготовительная рутина выполнялась ближе к месту запуска задач, а ключевые этапы шли параллельно. Для маленьких копирований они убрали лишние запуски отдельных процессов/контейнеров, чтобы не тратить время на старт пустой работы. В итоге пропускная способность репликации выросла примерно в 5 раз и стала стабильнее, а перенос данных в облако пошёл заметно быстрее
https://habr.com/ru/articles/996726/
#uber #system_design #it #data #data_analysis #high_performance #performance
-
[Перевод] Как Uber масштабировал репликацию данных, чтобы ежедневно перемещать петабайты
Uber держит огромные объёмы данных сразу в своих дата-центрах и в облаке, поэтому их нужно постоянно и быстро копировать между регионами для аналитики и аварийного восстановления. Когда объём таких копирований вырос до петабайта в день, оказалось, что система тормозит не на самой передаче данных, а на подготовке задач и служебных накладных расходах. Команда переработала процесс так, чтобы тяжелая подготовительная рутина выполнялась ближе к месту запуска задач, а ключевые этапы шли параллельно. Для маленьких копирований они убрали лишние запуски отдельных процессов/контейнеров, чтобы не тратить время на старт пустой работы. В итоге пропускная способность репликации выросла примерно в 5 раз и стала стабильнее, а перенос данных в облако пошёл заметно быстрее
https://habr.com/ru/articles/996726/
#uber #system_design #it #data #data_analysis #high_performance #performance
-
[Перевод] Как Uber масштабировал репликацию данных, чтобы ежедневно перемещать петабайты
Uber держит огромные объёмы данных сразу в своих дата-центрах и в облаке, поэтому их нужно постоянно и быстро копировать между регионами для аналитики и аварийного восстановления. Когда объём таких копирований вырос до петабайта в день, оказалось, что система тормозит не на самой передаче данных, а на подготовке задач и служебных накладных расходах. Команда переработала процесс так, чтобы тяжелая подготовительная рутина выполнялась ближе к месту запуска задач, а ключевые этапы шли параллельно. Для маленьких копирований они убрали лишние запуски отдельных процессов/контейнеров, чтобы не тратить время на старт пустой работы. В итоге пропускная способность репликации выросла примерно в 5 раз и стала стабильнее, а перенос данных в облако пошёл заметно быстрее
https://habr.com/ru/articles/996726/
#uber #system_design #it #data #data_analysis #high_performance #performance
-
[Перевод] Как Uber масштабировал репликацию данных, чтобы ежедневно перемещать петабайты
Uber держит огромные объёмы данных сразу в своих дата-центрах и в облаке, поэтому их нужно постоянно и быстро копировать между регионами для аналитики и аварийного восстановления. Когда объём таких копирований вырос до петабайта в день, оказалось, что система тормозит не на самой передаче данных, а на подготовке задач и служебных накладных расходах. Команда переработала процесс так, чтобы тяжелая подготовительная рутина выполнялась ближе к месту запуска задач, а ключевые этапы шли параллельно. Для маленьких копирований они убрали лишние запуски отдельных процессов/контейнеров, чтобы не тратить время на старт пустой работы. В итоге пропускная способность репликации выросла примерно в 5 раз и стала стабильнее, а перенос данных в облако пошёл заметно быстрее
https://habr.com/ru/articles/996726/
#uber #system_design #it #data #data_analysis #high_performance #performance
-
MDM: как навести порядок в НСИ и перестать чинить интеграции
В любой компании справочники НСИ сначала выглядят как “ну это же просто таблицы”. Контрагенты, номенклатура, адреса, подразделения, единицы измерения, статусы. Пока людей и систем мало - всё держится на внимательности пары сотрудников и привычке “если что, поправим руками”.
https://habr.com/ru/articles/993368/
#НСИ #мдм #mdm #mdmсистема #нси_и_интеграция #data #data_analysis #data_structures #базы_данных #data_science
-
Show HN: Erdos – open-source, AI data science IDE
https://www.lotas.ai/erdos
#ycombinator #Data_Science #AI_for_Data_Science #VSCode #RStudio #code_editor #Rprogramming #data_analysis #Rao #Erdos #Python #SQL #IDE #Coding_Agent #Data_Analysis -
Show HN: Erdos – open-source, AI data science IDE
https://www.lotas.ai/erdos
#ycombinator #Data_Science #AI_for_Data_Science #VSCode #RStudio #code_editor #Rprogramming #data_analysis #Rao #Erdos #Python #SQL #IDE #Coding_Agent #Data_Analysis -
Show HN: Erdos – open-source, AI data science IDE
https://www.lotas.ai/erdos
#ycombinator #Data_Science #AI_for_Data_Science #VSCode #RStudio #code_editor #Rprogramming #data_analysis #Rao #Erdos #Python #SQL #IDE #Coding_Agent #Data_Analysis -
Show HN: Erdos – open-source, AI data science IDE
https://www.lotas.ai/erdos
#ycombinator #Data_Science #AI_for_Data_Science #VSCode #RStudio #code_editor #Rprogramming #data_analysis #Rao #Erdos #Python #SQL #IDE #Coding_Agent #Data_Analysis -
Monq 9.0 — all-in-one платформа наблюдаемости, мониторинга и автоматизации
Ещё пару лет назад на одной из офлайн-встреч мы решили: как только появится возможность, проведём корпоратив в горах. Хотели подниматься на вершины, встречать рассветы в палатках и ловить падающие звёзды где-то над Кавказом. Возможность всё не наступала — проекты, релизы, клиенты, ставка… — но мечта жила. И вот в начале сентября Олег и Никита, наши руководители клиентского сервиса и продаж, просто взяли билеты на Камчатку, собрались в поход и ушли на неделю по Толбачинскому массиву. Без лишних слов, без анонсов. А потом — прислали фото: флаг Monq 9 на фоне вулкана, облака под ногами и подпись «Мы готовы». Подняв этот флаг они даже опередили команду разработки 😀 Мы долго ждали этого релиза и наконец-то мы готовы представить Monq 9.0 , новую версию all-in-one платформы наблюдаемости (observability), ИТ-мониторинга и low-code/no-code автоматизации с AIOps функционалом на борту. Monq эволюционировал из событийного «зонтичного» мониторинга, который собирает данные из других систем, в “observability-зонтик”, который с большой производительностью умеет собирать любые данные сам. В этой статье расскажем, что нового появилось в версии 9.0, как устроена платформа и главное – зачем всё это нужно DevOps-инженерам, архитекторам и тимлидам. Поехали!
https://habr.com/ru/companies/monq/articles/955812/
#monq #монк #мониторинг #observability #sre #devops #поддержка_клиентов #lowcode #nocode #data_analysis
-
Как анализировать тысячи отзывов с ChatGPT? Частые ошибки и пример на реальных данных
В этой статье я расскажу про свой опыт решения рабочей задачи — анализ отзывов о компании от пользователей. Мы разберем возможные ошибки и посмотрим на пример кода и реальных данных. Гайд будет полезен всем, у кого нет большого опыта в анализе данных или работе с LLM через API.
https://habr.com/ru/articles/821287/
#llm #gpt #chatgpt #python #clustering #kmeans #tsne #visualization #summarization #data_analysis
-
Проблемы БД или почему большой продакшн спасут только массовые расстрелы запросов
За счёт правильных, даже необязательно новых, а просто верно выбранных архитектурных подходов можно заставить работать не один конкретный запрос, а тысячу или даже миллион. Это становится краеугольным камнем, потому что объёмы данных растут с такой скоростью, которую мы даже представить себе не могли ещё пять лет назад. Привет, Хабр! Именно так считает наш сегодняшний гость – Дмитрий Немчин, руководитель направления эксплуатации инфраструктуры данных в Т-банке и по совместительству член программного комитета Data Internals , профессиональной конференции по инженерии, базам и системам хранения и обработки данных. В беседе Дмитрий рассказал о своём пути в данные и программный комитет конференции, поделился интересными кейсами и проблемами, связанными с ростом объёмов данных и необходимостью управления ресурсами. А также объяснил, как дата-инженеру остаться востребованным в будущем, где ИИ может проникнуть абсолютно во все сферы жизни.
https://habr.com/ru/companies/oleg-bunin/articles/915332/
#интервью #greenplum #data_engineering #data_analysis #infrastructure #python #data_bases #data_internals #big_data #big_data_analytics
-
Оптимизация производительности запросов: мощный тандем StarRocks и Apache Iceberg
Apache Iceberg — табличный формат для озёр данных с поддержкой ACID, Schema Evolution, Hidden Partition и версионирования, но при больших метаданных и работе через S3 страдает планирование запросов и латентность. В связке со StarRocks мы показываем, как распределённый Job Plan, Manifest Cache, CBO с гистограммами, Data Cache и материализованные представления выводят lakehouse‑аналитику на уровень DWH: снижают накладные расходы на метаданные, ускоряют планы и выполнение, а запись обратно в Iceberg сохраняет единый источник истины. Разбираем архитектуру Iceberg, типовые узкие места и практики оптимизации на StarRocks 3.2–3.3, включая кейс WeChat/Tencent.
https://habr.com/ru/articles/963410/
#apache_iceberg #starrocks #lakehouse #data_analysis #data_lake #parquet #manifest #materialized_views
-
Ред флаги, но не в тиндере: что важно понять data-специалисту ещё до офера
Пятничный вечер, бар, шумные разговоры. Мы - компания из нескольких ML-инженеров, DE и DA из Сбера, Магнита, Озона и Альфа-Банка собрались не ради обсуждения задачек в JIRA. Разговор зашел о наболевшем: как найти своих людей и команду мечты? Обсудили зарплату и плюшки, удалёнку и офис, стартапы и зрелые продукты, переработки, карьерный рост и рабочую культуру. В статье - цитаты из обсуждения и обобщённые выводы. А в конце - список вопросов, которые стоит задать на собеседовании, чтобы не ошибиться с выбором и найти тех людей, с кем не страшно будет выкатить релиз в пятницу вечером.
https://habr.com/ru/articles/988680/
#собеседование #вакансия #редфлаги #ml #data_science #data_analysis #переработки #команда_мечты #команда #плюшки
-
Система мониторинга ML-моделей: превращаем данные в полезный инструмент
В прошлой статье мы разобрали, из каких компонентов собирается система мониторинга, и составили инструкции, чтобы указывать на действительно важные проблемы. Пришло время выстроить их в единую систему. Она должна масштабироваться и давать ясную картину происходящего, чтобы наш мониторинг не был бесполезным потребителем ресурсов. В статье расскажу, как превратить разрозненные компоненты в систему мониторинга, и как она помогла нам сохранить работоспособность моделей.
https://habr.com/ru/companies/tochka/articles/976892/
#monitoring #модель #ml #data_analysis #drift #визуализация_данных #pbi
-
Автоэнкодер: как нейросеть учится понимать норму
Непосвящённому человеку кажется, что нейронная сеть может всё. Средства массовой информации этот миф только подпитывают, а где-то в недрах Голливуда Джеймс Камерон шепчет: «Я не режиссёр — я пророк». В реальной же повседневной работе от нейронной сети мне нужна одна простая и приземлённая вещь — поиск аномалий в данных . И вот с этим нейросети действительно справляются. Более того, для этого у них есть специальный инструмент — автоэнкодер . В этом небольшом опусе я попробую быстро, просто и без магии объяснить, что такое автоэнкодер, как он работает и почему он вообще способен находить аномалии .
-
Система мониторинга ML-моделей: что важно контролировать и почему
«Обучил, запустил и забыл» — плохая стратегия работы с ML‑моделями, но она часто встречается после удачного тестирования. Качество моделей может незаметно снижаться, и если пропустить этот момент — последствия могут дорого стоить. Когда мы начали задумываться о системе мониторинга, одна из наших моделей начала выдавать предсказания, которые требовали незамедлительного вмешательства в выстроенную работу. Но разум подсказывал, что проблема не в процессе, а в модели. О том, каким трудоемким оказалось наше расследование, и как мы восстанавливали и изучали каждую составляющую процесса почти вслепую, читайте по ссылке . Быть детективами нам понравилось, но вкладывать столько усилий в каждый подобный случай не хочется. Мы поняли, что нужно научиться контролировать работу модели так, чтобы своевременно находить проблему и чинить ее, используя минимальное количество ресурсов. В серии из двух статей расскажу, как мы построили систему мониторинга ML‑моделей силами одного человека за несколько месяцев.
-
Куда исчезают пользователи: современные фреймворки аналитики retention в 2025 году
В 2025 году retention снова стал главной метрикой рынка. Трафик дорожает, конкуренция растет, AI-продукты выходят быстрее, чем я успеваю их тестировать, — и единственный способ выжить в этой гонке: удерживать пользователей, а не просто радоваться скачкам трафика по праздникам. Но есть проблема: большинство команд все еще думают, что retention — это «график, на который мы будем смотреть, пока CFO грустит».
https://habr.com/ru/articles/973922/
#retention #product_analytics #user_behavior #cohort_analysis #ai #data_analysis #llm #customer_journey_map #metrics #product