#data_analysis — Public Fediverse posts on home.social

Habr @[email protected] · 2026-05-27 · 03:52 UTC

Ускоряем и оптимизируем numpy, pandas, scipy и sklearn

С момента публикации статьи на Хабре « Импортозамещаем numpy, pandas, scipy и sklearn » прошло почти три года. В течение этого времени я приостановил работу над проектом из-за нехватки времени, ресурсов и сил. К тому же, меня расстроило, что не смог выполнить просьбу пользователя @N-Cube , который активно интересовался моей библиотекой и хотел ускорить работу своего Jupyter Notebook. В самый критический момент на помощь пришел волшебный AI, который, хоть и иногда проявлял недостаток гибкости, с готовностью исполнял все пожелания своего хозяина. Благодаря этому проект начал продвигаться вперед. За это время в библиотеки были добавлены поддержка CUDA, множество ручных SIMD-оптимизаций с динамическим выбором SIMD, несколько реализаций линейной регрессии и многое другое. Давайте рассмотрим, что на сегодняшний день позволяет сделать моя библиотека. Я представлю несколько тестовых примеров в двух вариантах: с использованием AVX-2 на процессоре Intel® Core™ i7-4790K и AVX-512 на Intel® Xeon. Также покажу результаты замеров для каждого из них. Все тесты проводились без использования GPU, исключительно на процессоре. Это позволяет сравнивать производительность Python и моей библиотеки на равных условиях. Операционная система – Ubuntu 24.04, компилятор – GNU 13.3.0.

https://habr.com/ru/articles/1039866/

#C++ #numpy #pandas #scipy #sklearn #opensource #datascience #data_analysis

#data_analysis #datascience #opensource #sklearn #scipy #pandas

Habr @[email protected] · 2026-05-27 · 03:52 UTC

Ускоряем и оптимизируем numpy, pandas, scipy и sklearn

С момента публикации статьи на Хабре « Импортозамещаем numpy, pandas, scipy и sklearn » прошло почти три года. В течение этого времени я приостановил работу над проектом из-за нехватки времени, ресурсов и сил. К тому же, меня расстроило, что не смог выполнить просьбу пользователя @N-Cube , который активно интересовался моей библиотекой и хотел ускорить работу своего Jupyter Notebook. В самый критический момент на помощь пришел волшебный AI, который, хоть и иногда проявлял недостаток гибкости, с готовностью исполнял все пожелания своего хозяина. Благодаря этому проект начал продвигаться вперед. За это время в библиотеки были добавлены поддержка CUDA, множество ручных SIMD-оптимизаций с динамическим выбором SIMD, несколько реализаций линейной регрессии и многое другое. Давайте рассмотрим, что на сегодняшний день позволяет сделать моя библиотека. Я представлю несколько тестовых примеров в двух вариантах: с использованием AVX-2 на процессоре Intel® Core™ i7-4790K и AVX-512 на Intel® Xeon. Также покажу результаты замеров для каждого из них. Все тесты проводились без использования GPU, исключительно на процессоре. Это позволяет сравнивать производительность Python и моей библиотеки на равных условиях. Операционная система – Ubuntu 24.04, компилятор – GNU 13.3.0.

https://habr.com/ru/articles/1039866/

#C++ #numpy #pandas #scipy #sklearn #opensource #datascience #data_analysis

#data_analysis #datascience #opensource #sklearn #scipy #pandas

Habr @[email protected] · 2026-05-27 · 03:52 UTC

Ускоряем и оптимизируем numpy, pandas, scipy и sklearn

С момента публикации статьи на Хабре « Импортозамещаем numpy, pandas, scipy и sklearn » прошло почти три года. В течение этого времени я приостановил работу над проектом из-за нехватки времени, ресурсов и сил. К тому же, меня расстроило, что не смог выполнить просьбу пользователя @N-Cube , который активно интересовался моей библиотекой и хотел ускорить работу своего Jupyter Notebook. В самый критический момент на помощь пришел волшебный AI, который, хоть и иногда проявлял недостаток гибкости, с готовностью исполнял все пожелания своего хозяина. Благодаря этому проект начал продвигаться вперед. За это время в библиотеки были добавлены поддержка CUDA, множество ручных SIMD-оптимизаций с динамическим выбором SIMD, несколько реализаций линейной регрессии и многое другое. Давайте рассмотрим, что на сегодняшний день позволяет сделать моя библиотека. Я представлю несколько тестовых примеров в двух вариантах: с использованием AVX-2 на процессоре Intel® Core™ i7-4790K и AVX-512 на Intel® Xeon. Также покажу результаты замеров для каждого из них. Все тесты проводились без использования GPU, исключительно на процессоре. Это позволяет сравнивать производительность Python и моей библиотеки на равных условиях. Операционная система – Ubuntu 24.04, компилятор – GNU 13.3.0.

https://habr.com/ru/articles/1039866/

#C++ #numpy #pandas #scipy #sklearn #opensource #datascience #data_analysis

#data_analysis #datascience #opensource #sklearn #scipy #pandas

Habr @[email protected] · 2026-05-27 · 03:52 UTC

Ускоряем и оптимизируем numpy, pandas, scipy и sklearn

С момента публикации статьи на Хабре « Импортозамещаем numpy, pandas, scipy и sklearn » прошло почти три года. В течение этого времени я приостановил работу над проектом из-за нехватки времени, ресурсов и сил. К тому же, меня расстроило, что не смог выполнить просьбу пользователя @N-Cube , который активно интересовался моей библиотекой и хотел ускорить работу своего Jupyter Notebook. В самый критический момент на помощь пришел волшебный AI, который, хоть и иногда проявлял недостаток гибкости, с готовностью исполнял все пожелания своего хозяина. Благодаря этому проект начал продвигаться вперед. За это время в библиотеки были добавлены поддержка CUDA, множество ручных SIMD-оптимизаций с динамическим выбором SIMD, несколько реализаций линейной регрессии и многое другое. Давайте рассмотрим, что на сегодняшний день позволяет сделать моя библиотека. Я представлю несколько тестовых примеров в двух вариантах: с использованием AVX-2 на процессоре Intel® Core™ i7-4790K и AVX-512 на Intel® Xeon. Также покажу результаты замеров для каждого из них. Все тесты проводились без использования GPU, исключительно на процессоре. Это позволяет сравнивать производительность Python и моей библиотеки на равных условиях. Операционная система – Ubuntu 24.04, компилятор – GNU 13.3.0.

https://habr.com/ru/articles/1039866/

#C++ #numpy #pandas #scipy #sklearn #opensource #datascience #data_analysis

#c #numpy #pandas #scipy #sklearn #opensource

Habr @[email protected] · 2026-05-26 · 09:02 UTC

Как и зачем мы писали семантический слой для ИИ аналитики – SLayer

Казалось бы, что может быть проще: даёшь LLM доступ к БД и просишь написать тебе нужный SQL! Но на практике и ИИ, и человек быстро сталкиваются с одинаковыми проблемами – взрывом кардинальности при JOIN’ах, ошибками в гранулярности, сложными подзапросами и отсутствием понятного бизнес-контекста. Рассказываем, зачем и как мы проектировали семантический слой для детерминированной аналитики и адекватной работы ИИ-агентов с данными. Давайте разбираться!

https://habr.com/ru/articles/1033144/

#semantic_layer #python #analytics #data_analysis #mcp #claudecode #gpt #ai #ииагенты #базы_данных

#базы_данных #ииагенты #ai #gpt #claudecode #mcp

Habr @[email protected] · 2026-05-26 · 09:02 UTC

Как и зачем мы писали семантический слой для ИИ аналитики – SLayer

Казалось бы, что может быть проще: даёшь LLM доступ к БД и просишь написать тебе нужный SQL! Но на практике и ИИ, и человек быстро сталкиваются с одинаковыми проблемами – взрывом кардинальности при JOIN’ах, ошибками в гранулярности, сложными подзапросами и отсутствием понятного бизнес-контекста. Рассказываем, зачем и как мы проектировали семантический слой для детерминированной аналитики и адекватной работы ИИ-агентов с данными. Давайте разбираться!

https://habr.com/ru/articles/1033144/

#semantic_layer #python #analytics #data_analysis #mcp #claudecode #gpt #ai #ииагенты #базы_данных

#базы_данных #ииагенты #ai #gpt #claudecode #mcp

Habr @[email protected] · 2026-05-26 · 09:02 UTC

Как и зачем мы писали семантический слой для ИИ аналитики – SLayer

Казалось бы, что может быть проще: даёшь LLM доступ к БД и просишь написать тебе нужный SQL! Но на практике и ИИ, и человек быстро сталкиваются с одинаковыми проблемами – взрывом кардинальности при JOIN’ах, ошибками в гранулярности, сложными подзапросами и отсутствием понятного бизнес-контекста. Рассказываем, зачем и как мы проектировали семантический слой для детерминированной аналитики и адекватной работы ИИ-агентов с данными. Давайте разбираться!

https://habr.com/ru/articles/1033144/

#semantic_layer #python #analytics #data_analysis #mcp #claudecode #gpt #ai #ииагенты #базы_данных

#базы_данных #ииагенты #ai #gpt #claudecode #mcp

Habr @[email protected] · 2026-05-26 · 09:02 UTC

Как и зачем мы писали семантический слой для ИИ аналитики – SLayer

Казалось бы, что может быть проще: даёшь LLM доступ к БД и просишь написать тебе нужный SQL! Но на практике и ИИ, и человек быстро сталкиваются с одинаковыми проблемами – взрывом кардинальности при JOIN’ах, ошибками в гранулярности, сложными подзапросами и отсутствием понятного бизнес-контекста. Рассказываем, зачем и как мы проектировали семантический слой для детерминированной аналитики и адекватной работы ИИ-агентов с данными. Давайте разбираться!

https://habr.com/ru/articles/1033144/

#semantic_layer #python #analytics #data_analysis #mcp #claudecode #gpt #ai #ииагенты #базы_данных

#semantic_layer #python #analytics #data_analysis #mcp #claudecode

Habr @[email protected] · 2026-04-29 · 07:42 UTC

NumPy с нуля: понятный гайд для тех, кто хочет в Data Science

Стандартные списки в Python прекрасны своей гибкостью, но когда дело доходит до больших данных и математики, они превращаются в медленных черепах. 🐢 Подготовил для вас максимально практичный гайд: «NumPy с нуля до понимания за 1 статью». Никакой академической воды — только база для быстрого старта в Data Science и аналитике.

https://habr.com/ru/articles/1029440/

#numpy #numpy_datascience #python #python3 #python_для_начинающих #python_tutor #data_science #data_analysis

#data_analysis #data_science #python_tutor #python_для_начинающих #python3 #python

Habr @[email protected] · 2026-04-29 · 07:42 UTC

NumPy с нуля: понятный гайд для тех, кто хочет в Data Science

Стандартные списки в Python прекрасны своей гибкостью, но когда дело доходит до больших данных и математики, они превращаются в медленных черепах. 🐢 Подготовил для вас максимально практичный гайд: «NumPy с нуля до понимания за 1 статью». Никакой академической воды — только база для быстрого старта в Data Science и аналитике.

https://habr.com/ru/articles/1029440/

#numpy #numpy_datascience #python #python3 #python_для_начинающих #python_tutor #data_science #data_analysis

#data_analysis #data_science #python_tutor #python_для_начинающих #python3 #python

Habr @[email protected] · 2026-04-29 · 07:42 UTC

NumPy с нуля: понятный гайд для тех, кто хочет в Data Science

Стандартные списки в Python прекрасны своей гибкостью, но когда дело доходит до больших данных и математики, они превращаются в медленных черепах. 🐢 Подготовил для вас максимально практичный гайд: «NumPy с нуля до понимания за 1 статью». Никакой академической воды — только база для быстрого старта в Data Science и аналитике.

https://habr.com/ru/articles/1029440/

#numpy #numpy_datascience #python #python3 #python_для_начинающих #python_tutor #data_science #data_analysis

#data_analysis #data_science #python_tutor #python_для_начинающих #python3 #python

Habr @[email protected] · 2026-04-29 · 07:42 UTC

NumPy с нуля: понятный гайд для тех, кто хочет в Data Science

Стандартные списки в Python прекрасны своей гибкостью, но когда дело доходит до больших данных и математики, они превращаются в медленных черепах. 🐢 Подготовил для вас максимально практичный гайд: «NumPy с нуля до понимания за 1 статью». Никакой академической воды — только база для быстрого старта в Data Science и аналитике.

https://habr.com/ru/articles/1029440/

#numpy #numpy_datascience #python #python3 #python_для_начинающих #python_tutor #data_science #data_analysis

#numpy #numpy_datascience #python #python3 #python_для_начинающих #python_tutor

Habr @[email protected] · 2026-04-17 · 11:12 UTC

Метрики упали в лужу

Метрики могут «упасть» даже если вы ничего не меняли в модели. Разбираемся, как распознать distribution shift и что с ним делать в продакшене.

https://habr.com/ru/articles/1024380/

#eda #анализ_данных #мониторинг #статистика #предобработка_данных #pandas #data_science #machine_learning #data_analysis #production

#production #data_analysis #machine_learning #data_science #pandas #предобработка_данных

Habr @[email protected] · 2026-04-17 · 11:12 UTC

Метрики упали в лужу

Метрики могут «упасть» даже если вы ничего не меняли в модели. Разбираемся, как распознать distribution shift и что с ним делать в продакшене.

https://habr.com/ru/articles/1024380/

#eda #анализ_данных #мониторинг #статистика #предобработка_данных #pandas #data_science #machine_learning #data_analysis #production

#production #data_analysis #machine_learning #data_science #pandas #предобработка_данных

Habr @[email protected] · 2026-04-17 · 11:12 UTC

Метрики упали в лужу

Метрики могут «упасть» даже если вы ничего не меняли в модели. Разбираемся, как распознать distribution shift и что с ним делать в продакшене.

https://habr.com/ru/articles/1024380/

#eda #анализ_данных #мониторинг #статистика #предобработка_данных #pandas #data_science #machine_learning #data_analysis #production

#production #data_analysis #machine_learning #data_science #pandas #предобработка_данных

Habr @[email protected] · 2026-04-17 · 11:12 UTC

Метрики упали в лужу

Метрики могут «упасть» даже если вы ничего не меняли в модели. Разбираемся, как распознать distribution shift и что с ним делать в продакшене.

https://habr.com/ru/articles/1024380/

#eda #анализ_данных #мониторинг #статистика #предобработка_данных #pandas #data_science #machine_learning #data_analysis #production

#eda #анализ_данных #мониторинг #статистика #предобработка_данных #pandas

Habr @[email protected] · 2026-03-05 · 14:42 UTC

Обзор книг для анализа данных

Я аналитик данных и люблю бумажный формат книг (если есть сомнения, сначала пробую электронную версию, но если книга заходит всегда потом беру бумажную). В этой статье честный обзор, без рекламы, тех книг, которые я купила не так давно в бумажном формате.

https://habr.com/ru/articles/1007024/

#анализ_данных #алгоритмы #python #книги_для_аналитика #data_science #data_analysis #обзор_книг #грокаем #грокаем_алгоритмы #аналитика

#аналитика #грокаем_алгоритмы #грокаем #обзор_книг #data_analysis #data_science

Habr @[email protected] · 2026-03-05 · 14:42 UTC

Обзор книг для анализа данных

Я аналитик данных и люблю бумажный формат книг (если есть сомнения, сначала пробую электронную версию, но если книга заходит всегда потом беру бумажную). В этой статье честный обзор, без рекламы, тех книг, которые я купила не так давно в бумажном формате.

https://habr.com/ru/articles/1007024/

#анализ_данных #алгоритмы #python #книги_для_аналитика #data_science #data_analysis #обзор_книг #грокаем #грокаем_алгоритмы #аналитика

#аналитика #грокаем_алгоритмы #грокаем #обзор_книг #data_analysis #data_science

Habr @[email protected] · 2026-03-05 · 14:42 UTC

Обзор книг для анализа данных

Я аналитик данных и люблю бумажный формат книг (если есть сомнения, сначала пробую электронную версию, но если книга заходит всегда потом беру бумажную). В этой статье честный обзор, без рекламы, тех книг, которые я купила не так давно в бумажном формате.

https://habr.com/ru/articles/1007024/

#анализ_данных #алгоритмы #python #книги_для_аналитика #data_science #data_analysis #обзор_книг #грокаем #грокаем_алгоритмы #аналитика

#аналитика #грокаем_алгоритмы #грокаем #обзор_книг #data_analysis #data_science

Habr @[email protected] · 2026-03-05 · 14:42 UTC

Обзор книг для анализа данных

Я аналитик данных и люблю бумажный формат книг (если есть сомнения, сначала пробую электронную версию, но если книга заходит всегда потом беру бумажную). В этой статье честный обзор, без рекламы, тех книг, которые я купила не так давно в бумажном формате.

https://habr.com/ru/articles/1007024/

#анализ_данных #алгоритмы #python #книги_для_аналитика #data_science #data_analysis #обзор_книг #грокаем #грокаем_алгоритмы #аналитика

#анализ_данных #алгоритмы #python #книги_для_аналитика #data_science #data_analysis

Habr @[email protected] · 2026-03-04 · 10:12 UTC

Ускоряем pandas, не переписывая код. Мой опыт с FireDucks

Привет! Меня зовут Егор Лукьянов, я старший аналитик данных в Ozon Tech. В своей работе я часто сталкиваюсь с проблемой масштабируемости в pandas . Код, который быстро работает на гигабайте данных, начинает невыносимо тормозить на десяти. Уверен, эта боль знакома многим. Сейчас есть быстрые альтернативы, например, Polars . Я сам пробовал переводить на него свои проекты. Скорость действительно впечатляет, но как в анекдоте есть нюанс: приходится переписывать чуть ли не весь код и привыкать к новому синтаксису. А это большая работа, на которую не всегда есть время. И вот здесь я наткнулся на FireDucks — библиотеку, которая обещает решить эту проблему, просто заменив одну строку импорта. Звучало слишком хорошо, чтобы быть правдой. После опыта с Polars я был уверен, что где-то должен быть подвох. Я решил проверить FireDucks на нескольких типичных задачах. В этой статье я хочу без лишнего хайпа поделиться тем, что у меня получилось. Мы посмотрим на реальные примеры кода, сравним скорость и разберёмся, где эта библиотека действительно хороша, а где могут быть проблемы.

https://habr.com/ru/companies/ozontech/articles/1005590/

#pandas #data_analysis #data_engineering #python

#python #data_engineering #data_analysis #pandas

Habr @[email protected] · 2026-03-04 · 10:12 UTC

Ускоряем pandas, не переписывая код. Мой опыт с FireDucks

Привет! Меня зовут Егор Лукьянов, я старший аналитик данных в Ozon Tech. В своей работе я часто сталкиваюсь с проблемой масштабируемости в pandas . Код, который быстро работает на гигабайте данных, начинает невыносимо тормозить на десяти. Уверен, эта боль знакома многим. Сейчас есть быстрые альтернативы, например, Polars . Я сам пробовал переводить на него свои проекты. Скорость действительно впечатляет, но как в анекдоте есть нюанс: приходится переписывать чуть ли не весь код и привыкать к новому синтаксису. А это большая работа, на которую не всегда есть время. И вот здесь я наткнулся на FireDucks — библиотеку, которая обещает решить эту проблему, просто заменив одну строку импорта. Звучало слишком хорошо, чтобы быть правдой. После опыта с Polars я был уверен, что где-то должен быть подвох. Я решил проверить FireDucks на нескольких типичных задачах. В этой статье я хочу без лишнего хайпа поделиться тем, что у меня получилось. Мы посмотрим на реальные примеры кода, сравним скорость и разберёмся, где эта библиотека действительно хороша, а где могут быть проблемы.

https://habr.com/ru/companies/ozontech/articles/1005590/

#pandas #data_analysis #data_engineering #python

#python #data_engineering #data_analysis #pandas

Habr @[email protected] · 2026-03-04 · 10:12 UTC

Ускоряем pandas, не переписывая код. Мой опыт с FireDucks

Привет! Меня зовут Егор Лукьянов, я старший аналитик данных в Ozon Tech. В своей работе я часто сталкиваюсь с проблемой масштабируемости в pandas . Код, который быстро работает на гигабайте данных, начинает невыносимо тормозить на десяти. Уверен, эта боль знакома многим. Сейчас есть быстрые альтернативы, например, Polars . Я сам пробовал переводить на него свои проекты. Скорость действительно впечатляет, но как в анекдоте есть нюанс: приходится переписывать чуть ли не весь код и привыкать к новому синтаксису. А это большая работа, на которую не всегда есть время. И вот здесь я наткнулся на FireDucks — библиотеку, которая обещает решить эту проблему, просто заменив одну строку импорта. Звучало слишком хорошо, чтобы быть правдой. После опыта с Polars я был уверен, что где-то должен быть подвох. Я решил проверить FireDucks на нескольких типичных задачах. В этой статье я хочу без лишнего хайпа поделиться тем, что у меня получилось. Мы посмотрим на реальные примеры кода, сравним скорость и разберёмся, где эта библиотека действительно хороша, а где могут быть проблемы.

https://habr.com/ru/companies/ozontech/articles/1005590/

#pandas #data_analysis #data_engineering #python

#python #data_engineering #data_analysis #pandas

Habr @[email protected] · 2026-03-04 · 10:12 UTC

Ускоряем pandas, не переписывая код. Мой опыт с FireDucks

Привет! Меня зовут Егор Лукьянов, я старший аналитик данных в Ozon Tech. В своей работе я часто сталкиваюсь с проблемой масштабируемости в pandas . Код, который быстро работает на гигабайте данных, начинает невыносимо тормозить на десяти. Уверен, эта боль знакома многим. Сейчас есть быстрые альтернативы, например, Polars . Я сам пробовал переводить на него свои проекты. Скорость действительно впечатляет, но как в анекдоте есть нюанс: приходится переписывать чуть ли не весь код и привыкать к новому синтаксису. А это большая работа, на которую не всегда есть время. И вот здесь я наткнулся на FireDucks — библиотеку, которая обещает решить эту проблему, просто заменив одну строку импорта. Звучало слишком хорошо, чтобы быть правдой. После опыта с Polars я был уверен, что где-то должен быть подвох. Я решил проверить FireDucks на нескольких типичных задачах. В этой статье я хочу без лишнего хайпа поделиться тем, что у меня получилось. Мы посмотрим на реальные примеры кода, сравним скорость и разберёмся, где эта библиотека действительно хороша, а где могут быть проблемы.

https://habr.com/ru/companies/ozontech/articles/1005590/

#pandas #data_analysis #data_engineering #python

Habr @[email protected] · 2026-02-27 · 06:22 UTC

BI-аналитик: стартовый пакет необходимых навыков

Расскажу какие навыки потребуются, чтобы начать свой карьерный путь в качестве BI-аналитика, и поделюсь ресурсами, которые помогут прокачать эти навыки. Подборка из статьи будет полезна и начинающим специалистам, и профи - для увеличения кругозора.

https://habr.com/ru/articles/1004298/

#sql #redash #tableau #data #data_analysis #visualization #reporting #визуализация #видео #dashboard

#dashboard #видео #визуализация #reporting #visualization #data_analysis

Habr @[email protected] · 2026-02-27 · 06:22 UTC

BI-аналитик: стартовый пакет необходимых навыков

Расскажу какие навыки потребуются, чтобы начать свой карьерный путь в качестве BI-аналитика, и поделюсь ресурсами, которые помогут прокачать эти навыки. Подборка из статьи будет полезна и начинающим специалистам, и профи - для увеличения кругозора.

https://habr.com/ru/articles/1004298/

#sql #redash #tableau #data #data_analysis #visualization #reporting #визуализация #видео #dashboard

#dashboard #видео #визуализация #reporting #visualization #data_analysis

Habr @[email protected] · 2026-02-27 · 06:22 UTC

BI-аналитик: стартовый пакет необходимых навыков

Расскажу какие навыки потребуются, чтобы начать свой карьерный путь в качестве BI-аналитика, и поделюсь ресурсами, которые помогут прокачать эти навыки. Подборка из статьи будет полезна и начинающим специалистам, и профи - для увеличения кругозора.

https://habr.com/ru/articles/1004298/

#sql #redash #tableau #data #data_analysis #visualization #reporting #визуализация #видео #dashboard

#dashboard #видео #визуализация #reporting #visualization #data_analysis

Habr @[email protected] · 2026-02-27 · 06:22 UTC

BI-аналитик: стартовый пакет необходимых навыков

Расскажу какие навыки потребуются, чтобы начать свой карьерный путь в качестве BI-аналитика, и поделюсь ресурсами, которые помогут прокачать эти навыки. Подборка из статьи будет полезна и начинающим специалистам, и профи - для увеличения кругозора.

https://habr.com/ru/articles/1004298/

#sql #redash #tableau #data #data_analysis #visualization #reporting #визуализация #видео #dashboard

#sql #redash #tableau #data #data_analysis #visualization

Habr @[email protected] · 2026-02-25 · 19:22 UTC

Путь в аналитику данных: базовый минимум для старта

📊 Хотите стать аналитиком данных, но не знаете, с какой стороны подойти? Я собрала чек-лист для старта в 2026 году, никакой воды - только то, что реально спросят на собеседовании: 🛠 Что учить: SQL (с оконными функциями), Python (Pandas), BI-системы. 🧠 Важный софт-скилл, о котором молчат курсы — управление ожиданиями заказчика. 🔮 Бонус: что нужно знать про DWH и ML, чтобы выделяться среди других джунов.

https://habr.com/ru/articles/1003704/

#анализ_данных #аналитик_данных #аналитик_данных_обучение #data_analysis #карьера_аналитика_данных #карьера_аналитика #sql #soft_skills #hard_skills #карьера_итспециалиста

#карьера_итспециалиста #hard_skills #soft_skills #sql #карьера_аналитика #карьера_аналитика_данных

Habr @[email protected] · 2026-02-25 · 19:22 UTC

Путь в аналитику данных: базовый минимум для старта

📊 Хотите стать аналитиком данных, но не знаете, с какой стороны подойти? Я собрала чек-лист для старта в 2026 году, никакой воды - только то, что реально спросят на собеседовании: 🛠 Что учить: SQL (с оконными функциями), Python (Pandas), BI-системы. 🧠 Важный софт-скилл, о котором молчат курсы — управление ожиданиями заказчика. 🔮 Бонус: что нужно знать про DWH и ML, чтобы выделяться среди других джунов.

https://habr.com/ru/articles/1003704/

#анализ_данных #аналитик_данных #аналитик_данных_обучение #data_analysis #карьера_аналитика_данных #карьера_аналитика #sql #soft_skills #hard_skills #карьера_итспециалиста

#карьера_итспециалиста #hard_skills #soft_skills #sql #карьера_аналитика #карьера_аналитика_данных

Habr @[email protected] · 2026-02-25 · 19:22 UTC

Путь в аналитику данных: базовый минимум для старта

📊 Хотите стать аналитиком данных, но не знаете, с какой стороны подойти? Я собрала чек-лист для старта в 2026 году, никакой воды - только то, что реально спросят на собеседовании: 🛠 Что учить: SQL (с оконными функциями), Python (Pandas), BI-системы. 🧠 Важный софт-скилл, о котором молчат курсы — управление ожиданиями заказчика. 🔮 Бонус: что нужно знать про DWH и ML, чтобы выделяться среди других джунов.

https://habr.com/ru/articles/1003704/

#анализ_данных #аналитик_данных #аналитик_данных_обучение #data_analysis #карьера_аналитика_данных #карьера_аналитика #sql #soft_skills #hard_skills #карьера_итспециалиста

#карьера_итспециалиста #hard_skills #soft_skills #sql #карьера_аналитика #карьера_аналитика_данных

Habr @[email protected] · 2026-02-25 · 19:22 UTC

Путь в аналитику данных: базовый минимум для старта

📊 Хотите стать аналитиком данных, но не знаете, с какой стороны подойти? Я собрала чек-лист для старта в 2026 году, никакой воды - только то, что реально спросят на собеседовании: 🛠 Что учить: SQL (с оконными функциями), Python (Pandas), BI-системы. 🧠 Важный софт-скилл, о котором молчат курсы — управление ожиданиями заказчика. 🔮 Бонус: что нужно знать про DWH и ML, чтобы выделяться среди других джунов.

https://habr.com/ru/articles/1003704/

#анализ_данных #аналитик_данных #аналитик_данных_обучение #data_analysis #карьера_аналитика_данных #карьера_аналитика #sql #soft_skills #hard_skills #карьера_итспециалиста

#анализ_данных #аналитик_данных #аналитик_данных_обучение #data_analysis #карьера_аналитика_данных #карьера_аналитика

Habr @[email protected] · 2026-02-15 · 13:02 UTC

[Перевод] Как Uber масштабировал репликацию данных, чтобы ежедневно перемещать петабайты

Uber держит огромные объёмы данных сразу в своих дата-центрах и в облаке, поэтому их нужно постоянно и быстро копировать между регионами для аналитики и аварийного восстановления. Когда объём таких копирований вырос до петабайта в день, оказалось, что система тормозит не на самой передаче данных, а на подготовке задач и служебных накладных расходах. Команда переработала процесс так, чтобы тяжелая подготовительная рутина выполнялась ближе к месту запуска задач, а ключевые этапы шли параллельно. Для маленьких копирований они убрали лишние запуски отдельных процессов/контейнеров, чтобы не тратить время на старт пустой работы. В итоге пропускная способность репликации выросла примерно в 5 раз и стала стабильнее, а перенос данных в облако пошёл заметно быстрее

https://habr.com/ru/articles/996726/

#uber #system_design #it #data #data_analysis #high_performance #performance

#performance #high_performance #data_analysis #data #it #system_design

Habr @[email protected] · 2026-02-15 · 13:02 UTC

[Перевод] Как Uber масштабировал репликацию данных, чтобы ежедневно перемещать петабайты

Uber держит огромные объёмы данных сразу в своих дата-центрах и в облаке, поэтому их нужно постоянно и быстро копировать между регионами для аналитики и аварийного восстановления. Когда объём таких копирований вырос до петабайта в день, оказалось, что система тормозит не на самой передаче данных, а на подготовке задач и служебных накладных расходах. Команда переработала процесс так, чтобы тяжелая подготовительная рутина выполнялась ближе к месту запуска задач, а ключевые этапы шли параллельно. Для маленьких копирований они убрали лишние запуски отдельных процессов/контейнеров, чтобы не тратить время на старт пустой работы. В итоге пропускная способность репликации выросла примерно в 5 раз и стала стабильнее, а перенос данных в облако пошёл заметно быстрее

https://habr.com/ru/articles/996726/

#uber #system_design #it #data #data_analysis #high_performance #performance

#performance #high_performance #data_analysis #data #it #system_design

Habr @[email protected] · 2026-02-15 · 13:02 UTC

[Перевод] Как Uber масштабировал репликацию данных, чтобы ежедневно перемещать петабайты

Uber держит огромные объёмы данных сразу в своих дата-центрах и в облаке, поэтому их нужно постоянно и быстро копировать между регионами для аналитики и аварийного восстановления. Когда объём таких копирований вырос до петабайта в день, оказалось, что система тормозит не на самой передаче данных, а на подготовке задач и служебных накладных расходах. Команда переработала процесс так, чтобы тяжелая подготовительная рутина выполнялась ближе к месту запуска задач, а ключевые этапы шли параллельно. Для маленьких копирований они убрали лишние запуски отдельных процессов/контейнеров, чтобы не тратить время на старт пустой работы. В итоге пропускная способность репликации выросла примерно в 5 раз и стала стабильнее, а перенос данных в облако пошёл заметно быстрее

https://habr.com/ru/articles/996726/

#uber #system_design #it #data #data_analysis #high_performance #performance

#performance #high_performance #data_analysis #data #it #system_design

Habr @[email protected] · 2026-02-15 · 13:02 UTC

[Перевод] Как Uber масштабировал репликацию данных, чтобы ежедневно перемещать петабайты

Uber держит огромные объёмы данных сразу в своих дата-центрах и в облаке, поэтому их нужно постоянно и быстро копировать между регионами для аналитики и аварийного восстановления. Когда объём таких копирований вырос до петабайта в день, оказалось, что система тормозит не на самой передаче данных, а на подготовке задач и служебных накладных расходах. Команда переработала процесс так, чтобы тяжелая подготовительная рутина выполнялась ближе к месту запуска задач, а ключевые этапы шли параллельно. Для маленьких копирований они убрали лишние запуски отдельных процессов/контейнеров, чтобы не тратить время на старт пустой работы. В итоге пропускная способность репликации выросла примерно в 5 раз и стала стабильнее, а перенос данных в облако пошёл заметно быстрее

https://habr.com/ru/articles/996726/

#uber #system_design #it #data #data_analysis #high_performance #performance

#uber #system_design #it #data #data_analysis #high_performance

Habr @[email protected] · 2026-02-05 · 21:32 UTC

MDM: как навести порядок в НСИ и перестать чинить интеграции

В любой компании справочники НСИ сначала выглядят как “ну это же просто таблицы”. Контрагенты, номенклатура, адреса, подразделения, единицы измерения, статусы. Пока людей и систем мало - всё держится на внимательности пары сотрудников и привычке “если что, поправим руками”.

https://habr.com/ru/articles/993368/

#НСИ #мдм #mdm #mdmсистема #нси_и_интеграция #data #data_analysis #data_structures #базы_данных #data_science

#data_science #базы_данных #data_structures #data_analysis #data #нси_и_интеграция

:rss: Hacker News @[email protected] · 2025-10-27 · 17:26 UTC

Show HN: Erdos – open-source, AI data science IDE
https://www.lotas.ai/erdos
#ycombinator #Data_Science #AI_for_Data_Science #VSCode #RStudio #code_editor #Rprogramming #data_analysis #Rao #Erdos #Python #SQL #IDE #Coding_Agent #Data_Analysis

#ycombinator #data_science #ai_for_data_science #vscode #rstudio #code_editor

:rss: Hacker News @[email protected] · 2025-10-27 · 17:26 UTC

Show HN: Erdos – open-source, AI data science IDE
https://www.lotas.ai/erdos
#ycombinator #Data_Science #AI_for_Data_Science #VSCode #RStudio #code_editor #Rprogramming #data_analysis #Rao #Erdos #Python #SQL #IDE #Coding_Agent #Data_Analysis

#ycombinator #data_science #ai_for_data_science #vscode #rstudio #code_editor

:rss: Hacker News @[email protected] · 2025-10-27 · 17:26 UTC

Show HN: Erdos – open-source, AI data science IDE
https://www.lotas.ai/erdos
#ycombinator #Data_Science #AI_for_Data_Science #VSCode #RStudio #code_editor #Rprogramming #data_analysis #Rao #Erdos #Python #SQL #IDE #Coding_Agent #Data_Analysis

#coding_agent #ide #sql #python #erdos #rao

:rss: Hacker News @[email protected] · 2025-10-27 · 17:26 UTC

Show HN: Erdos – open-source, AI data science IDE
https://www.lotas.ai/erdos
#ycombinator #Data_Science #AI_for_Data_Science #VSCode #RStudio #code_editor #Rprogramming #data_analysis #Rao #Erdos #Python #SQL #IDE #Coding_Agent #Data_Analysis

#ycombinator #data_science #ai_for_data_science #vscode #rstudio #code_editor

Habr @[email protected] · 2025-10-13 · 05:22 UTC

Monq 9.0 — all-in-one платформа наблюдаемости, мониторинга и автоматизации

Ещё пару лет назад на одной из офлайн-встреч мы решили: как только появится возможность, проведём корпоратив в горах. Хотели подниматься на вершины, встречать рассветы в палатках и ловить падающие звёзды где-то над Кавказом. Возможность всё не наступала — проекты, релизы, клиенты, ставка… — но мечта жила. И вот в начале сентября Олег и Никита, наши руководители клиентского сервиса и продаж, просто взяли билеты на Камчатку, собрались в поход и ушли на неделю по Толбачинскому массиву. Без лишних слов, без анонсов. А потом — прислали фото: флаг Monq 9 на фоне вулкана, облака под ногами и подпись «Мы готовы». Подняв этот флаг они даже опередили команду разработки 😀 Мы долго ждали этого релиза и наконец-то мы готовы представить Monq 9.0 , новую версию all-in-one платформы наблюдаемости (observability), ИТ-мониторинга и low-code/no-code автоматизации с AIOps функционалом на борту. Monq эволюционировал из событийного «зонтичного» мониторинга, который собирает данные из других систем, в “observability-зонтик”, который с большой производительностью умеет собирать любые данные сам. В этой статье расскажем, что нового появилось в версии 9.0, как устроена платформа и главное – зачем всё это нужно DevOps-инженерам, архитекторам и тимлидам. Поехали!

https://habr.com/ru/companies/monq/articles/955812/

#monq #монк #мониторинг #observability #sre #devops #поддержка_клиентов #lowcode #nocode #data_analysis

#data_analysis #nocode #lowcode #поддержка_клиентов #devops #sre

Habr @[email protected] · 2024-06-12 · 12:52 UTC

Как анализировать тысячи отзывов с ChatGPT? Частые ошибки и пример на реальных данных

В этой статье я расскажу про свой опыт решения рабочей задачи — анализ отзывов о компании от пользователей. Мы разберем возможные ошибки и посмотрим на пример кода и реальных данных. Гайд будет полезен всем, у кого нет большого опыта в анализе данных или работе с LLM через API.

https://habr.com/ru/articles/821287/

#llm #gpt #chatgpt #python #clustering #kmeans #tsne #visualization #summarization #data_analysis

#data_analysis #summarization #visualization #tsne #kmeans #clustering

Habr @[email protected] · 2025-06-05 · 12:32 UTC

Проблемы БД или почему большой продакшн спасут только массовые расстрелы запросов

За счёт правильных, даже необязательно новых, а просто верно выбранных архитектурных подходов можно заставить работать не один конкретный запрос, а тысячу или даже миллион. Это становится краеугольным камнем, потому что объёмы данных растут с такой скоростью, которую мы даже представить себе не могли ещё пять лет назад. Привет, Хабр! Именно так считает наш сегодняшний гость – Дмитрий Немчин, руководитель направления эксплуатации инфраструктуры данных в Т-банке и по совместительству член программного комитета Data Internals , профессиональной конференции по инженерии, базам и системам хранения и обработки данных. В беседе Дмитрий рассказал о своём пути в данные и программный комитет конференции, поделился интересными кейсами и проблемами, связанными с ростом объёмов данных и необходимостью управления ресурсами. А также объяснил, как дата-инженеру остаться востребованным в будущем, где ИИ может проникнуть абсолютно во все сферы жизни.

https://habr.com/ru/companies/oleg-bunin/articles/915332/

#интервью #greenplum #data_engineering #data_analysis #infrastructure #python #data_bases #data_internals #big_data #big_data_analytics

#big_data_analytics #big_data #data_internals #data_bases #python #infrastructure

Habr @[email protected] · 2025-11-05 · 16:02 UTC

Оптимизация производительности запросов: мощный тандем StarRocks и Apache Iceberg

Apache Iceberg — табличный формат для озёр данных с поддержкой ACID, Schema Evolution, Hidden Partition и версионирования, но при больших метаданных и работе через S3 страдает планирование запросов и латентность. В связке со StarRocks мы показываем, как распределённый Job Plan, Manifest Cache, CBO с гистограммами, Data Cache и материализованные представления выводят lakehouse‑аналитику на уровень DWH: снижают накладные расходы на метаданные, ускоряют планы и выполнение, а запись обратно в Iceberg сохраняет единый источник истины. Разбираем архитектуру Iceberg, типовые узкие места и практики оптимизации на StarRocks 3.2–3.3, включая кейс WeChat/Tencent.

https://habr.com/ru/articles/963410/

#apache_iceberg #starrocks #lakehouse #data_analysis #data_lake #parquet #manifest #materialized_views

#apache_iceberg #starrocks #lakehouse #data_analysis #data_lake #parquet

Habr @[email protected] · 2026-01-25 · 08:42 UTC

Ред флаги, но не в тиндере: что важно понять data-специалисту ещё до офера

Пятничный вечер, бар, шумные разговоры. Мы - компания из нескольких ML-инженеров, DE и DA из Сбера, Магнита, Озона и Альфа-Банка собрались не ради обсуждения задачек в JIRA. Разговор зашел о наболевшем: как найти своих людей и команду мечты? Обсудили зарплату и плюшки, удалёнку и офис, стартапы и зрелые продукты, переработки, карьерный рост и рабочую культуру. В статье - цитаты из обсуждения и обобщённые выводы. А в конце - список вопросов, которые стоит задать на собеседовании, чтобы не ошибиться с выбором и найти тех людей, с кем не страшно будет выкатить релиз в пятницу вечером.

https://habr.com/ru/articles/988680/

#собеседование #вакансия #редфлаги #ml #data_science #data_analysis #переработки #команда_мечты #команда #плюшки

#плюшки #команда #команда_мечты #переработки #data_analysis #data_science

Habr @[email protected] · 2025-12-22 · 10:52 UTC

Система мониторинга ML-моделей: превращаем данные в полезный инструмент

В прошлой статье мы разобрали, из каких компонентов собирается система мониторинга, и составили инструкции, чтобы указывать на действительно важные проблемы. Пришло время выстроить их в единую систему. Она должна масштабироваться и давать ясную картину происходящего, чтобы наш мониторинг не был бесполезным потребителем ресурсов. В статье расскажу, как превратить разрозненные компоненты в систему мониторинга, и как она помогла нам сохранить работоспособность моделей.

https://habr.com/ru/companies/tochka/articles/976892/

#monitoring #модель #ml #data_analysis #drift #визуализация_данных #pbi

#pbi #визуализация_данных #drift #data_analysis #ml #модель

Habr @[email protected] · 2025-12-14 · 09:02 UTC

Автоэнкодер: как нейросеть учится понимать норму

Непосвящённому человеку кажется, что нейронная сеть может всё. Средства массовой информации этот миф только подпитывают, а где-то в недрах Голливуда Джеймс Камерон шепчет: «Я не режиссёр — я пророк». В реальной же повседневной работе от нейронной сети мне нужна одна простая и приземлённая вещь — поиск аномалий в данных . И вот с этим нейросети действительно справляются. Более того, для этого у них есть специальный инструмент — автоэнкодер . В этом небольшом опусе я попробую быстро, просто и без магии объяснить, что такое автоэнкодер, как он работает и почему он вообще способен находить аномалии .

https://habr.com/ru/articles/976480/

#автоэнкодер #ии #python #data_science #data_analysis

#data_analysis #data_science #python #ии #автоэнкодер

Habr @[email protected] · 2025-12-10 · 11:32 UTC

Система мониторинга ML-моделей: что важно контролировать и почему

«Обучил, запустил и забыл» — плохая стратегия работы с ML‑моделями, но она часто встречается после удачного тестирования. Качество моделей может незаметно снижаться, и если пропустить этот момент — последствия могут дорого стоить. Когда мы начали задумываться о системе мониторинга, одна из наших моделей начала выдавать предсказания, которые требовали незамедлительного вмешательства в выстроенную работу. Но разум подсказывал, что проблема не в процессе, а в модели. О том, каким трудоемким оказалось наше расследование, и как мы восстанавливали и изучали каждую составляющую процесса почти вслепую, читайте по ссылке . Быть детективами нам понравилось, но вкладывать столько усилий в каждый подобный случай не хочется. Мы поняли, что нужно научиться контролировать работу модели так, чтобы своевременно находить проблему и чинить ее, используя минимальное количество ресурсов. В серии из двух статей расскажу, как мы построили систему мониторинга ML‑моделей силами одного человека за несколько месяцев.

https://habr.com/ru/companies/tochka/articles/973290/

#ml #monitoring #drift #data_analysis #модель

#модель #data_analysis #drift #monitoring #ml

Habr @[email protected] · 2025-12-06 · 09:22 UTC

Куда исчезают пользователи: современные фреймворки аналитики retention в 2025 году

В 2025 году retention снова стал главной метрикой рынка. Трафик дорожает, конкуренция растет, AI-продукты выходят быстрее, чем я успеваю их тестировать, — и единственный способ выжить в этой гонке: удерживать пользователей, а не просто радоваться скачкам трафика по праздникам. Но есть проблема: большинство команд все еще думают, что retention — это «график, на который мы будем смотреть, пока CFO грустит».

https://habr.com/ru/articles/973922/

#retention #product_analytics #user_behavior #cohort_analysis #ai #data_analysis #llm #customer_journey_map #metrics #product

#retention #product_analytics #user_behavior #cohort_analysis #ai #data_analysis