#sklearn — Public Fediverse posts on home.social

Habr @[email protected] · 2026-05-27 · 03:52 UTC

Ускоряем и оптимизируем numpy, pandas, scipy и sklearn

С момента публикации статьи на Хабре « Импортозамещаем numpy, pandas, scipy и sklearn » прошло почти три года. В течение этого времени я приостановил работу над проектом из-за нехватки времени, ресурсов и сил. К тому же, меня расстроило, что не смог выполнить просьбу пользователя @N-Cube , который активно интересовался моей библиотекой и хотел ускорить работу своего Jupyter Notebook. В самый критический момент на помощь пришел волшебный AI, который, хоть и иногда проявлял недостаток гибкости, с готовностью исполнял все пожелания своего хозяина. Благодаря этому проект начал продвигаться вперед. За это время в библиотеки были добавлены поддержка CUDA, множество ручных SIMD-оптимизаций с динамическим выбором SIMD, несколько реализаций линейной регрессии и многое другое. Давайте рассмотрим, что на сегодняшний день позволяет сделать моя библиотека. Я представлю несколько тестовых примеров в двух вариантах: с использованием AVX-2 на процессоре Intel® Core™ i7-4790K и AVX-512 на Intel® Xeon. Также покажу результаты замеров для каждого из них. Все тесты проводились без использования GPU, исключительно на процессоре. Это позволяет сравнивать производительность Python и моей библиотеки на равных условиях. Операционная система – Ubuntu 24.04, компилятор – GNU 13.3.0.

https://habr.com/ru/articles/1039866/

#C++ #numpy #pandas #scipy #sklearn #opensource #datascience #data_analysis

#data_analysis #datascience #opensource #sklearn #scipy #pandas

Habr @[email protected] · 2026-05-27 · 03:52 UTC

Ускоряем и оптимизируем numpy, pandas, scipy и sklearn

С момента публикации статьи на Хабре « Импортозамещаем numpy, pandas, scipy и sklearn » прошло почти три года. В течение этого времени я приостановил работу над проектом из-за нехватки времени, ресурсов и сил. К тому же, меня расстроило, что не смог выполнить просьбу пользователя @N-Cube , который активно интересовался моей библиотекой и хотел ускорить работу своего Jupyter Notebook. В самый критический момент на помощь пришел волшебный AI, который, хоть и иногда проявлял недостаток гибкости, с готовностью исполнял все пожелания своего хозяина. Благодаря этому проект начал продвигаться вперед. За это время в библиотеки были добавлены поддержка CUDA, множество ручных SIMD-оптимизаций с динамическим выбором SIMD, несколько реализаций линейной регрессии и многое другое. Давайте рассмотрим, что на сегодняшний день позволяет сделать моя библиотека. Я представлю несколько тестовых примеров в двух вариантах: с использованием AVX-2 на процессоре Intel® Core™ i7-4790K и AVX-512 на Intel® Xeon. Также покажу результаты замеров для каждого из них. Все тесты проводились без использования GPU, исключительно на процессоре. Это позволяет сравнивать производительность Python и моей библиотеки на равных условиях. Операционная система – Ubuntu 24.04, компилятор – GNU 13.3.0.

https://habr.com/ru/articles/1039866/

#C++ #numpy #pandas #scipy #sklearn #opensource #datascience #data_analysis

#data_analysis #datascience #opensource #sklearn #scipy #pandas

Habr @[email protected] · 2026-05-27 · 03:52 UTC

Ускоряем и оптимизируем numpy, pandas, scipy и sklearn

С момента публикации статьи на Хабре « Импортозамещаем numpy, pandas, scipy и sklearn » прошло почти три года. В течение этого времени я приостановил работу над проектом из-за нехватки времени, ресурсов и сил. К тому же, меня расстроило, что не смог выполнить просьбу пользователя @N-Cube , который активно интересовался моей библиотекой и хотел ускорить работу своего Jupyter Notebook. В самый критический момент на помощь пришел волшебный AI, который, хоть и иногда проявлял недостаток гибкости, с готовностью исполнял все пожелания своего хозяина. Благодаря этому проект начал продвигаться вперед. За это время в библиотеки были добавлены поддержка CUDA, множество ручных SIMD-оптимизаций с динамическим выбором SIMD, несколько реализаций линейной регрессии и многое другое. Давайте рассмотрим, что на сегодняшний день позволяет сделать моя библиотека. Я представлю несколько тестовых примеров в двух вариантах: с использованием AVX-2 на процессоре Intel® Core™ i7-4790K и AVX-512 на Intel® Xeon. Также покажу результаты замеров для каждого из них. Все тесты проводились без использования GPU, исключительно на процессоре. Это позволяет сравнивать производительность Python и моей библиотеки на равных условиях. Операционная система – Ubuntu 24.04, компилятор – GNU 13.3.0.

https://habr.com/ru/articles/1039866/

#C++ #numpy #pandas #scipy #sklearn #opensource #datascience #data_analysis

#data_analysis #datascience #opensource #sklearn #scipy #pandas

Habr @[email protected] · 2026-05-27 · 03:52 UTC

Ускоряем и оптимизируем numpy, pandas, scipy и sklearn

С момента публикации статьи на Хабре « Импортозамещаем numpy, pandas, scipy и sklearn » прошло почти три года. В течение этого времени я приостановил работу над проектом из-за нехватки времени, ресурсов и сил. К тому же, меня расстроило, что не смог выполнить просьбу пользователя @N-Cube , который активно интересовался моей библиотекой и хотел ускорить работу своего Jupyter Notebook. В самый критический момент на помощь пришел волшебный AI, который, хоть и иногда проявлял недостаток гибкости, с готовностью исполнял все пожелания своего хозяина. Благодаря этому проект начал продвигаться вперед. За это время в библиотеки были добавлены поддержка CUDA, множество ручных SIMD-оптимизаций с динамическим выбором SIMD, несколько реализаций линейной регрессии и многое другое. Давайте рассмотрим, что на сегодняшний день позволяет сделать моя библиотека. Я представлю несколько тестовых примеров в двух вариантах: с использованием AVX-2 на процессоре Intel® Core™ i7-4790K и AVX-512 на Intel® Xeon. Также покажу результаты замеров для каждого из них. Все тесты проводились без использования GPU, исключительно на процессоре. Это позволяет сравнивать производительность Python и моей библиотеки на равных условиях. Операционная система – Ubuntu 24.04, компилятор – GNU 13.3.0.

https://habr.com/ru/articles/1039866/

#C++ #numpy #pandas #scipy #sklearn #opensource #datascience #data_analysis

#c #numpy #pandas #scipy #sklearn #opensource

Habr @[email protected] · 2026-03-25 · 21:42 UTC

Множественная регрессия: Расширяем горизонты прогнозирования

Хотите научиться предсказывать продажи, цены на недвижимость или спрос на товары, учитывая сразу несколько факторов? Вам поможет множественная регрессия. В этой статье вы узнаете: - Математическую основу множественной линейной регрессии – от уравнения гиперплоскости до метода наименьших квадратов; - Разбор полного кода на Python с использованием scikit-learn на реальном датасете Advertising (200 наблюдений); - Как интерпретировать коэффициенты модели; - Сравнение с простой линейной регрессией – насколько лучше работает множественная модель; - Расширение до полиномиальной регрессии, когда линейности недостаточно.

https://habr.com/ru/articles/1015102/

#python #python_для_начинающих #аналитика #анализ_данных #аналитика_данных #регрессия #множественная_регрессия #карьера_в_it #машинное_обучение_python #sklearn

#sklearn #машинное_обучение_python #карьера_в_it #множественная_регрессия #регрессия #аналитика_данных

Habr @[email protected] · 2026-03-25 · 21:42 UTC

Множественная регрессия: Расширяем горизонты прогнозирования

Хотите научиться предсказывать продажи, цены на недвижимость или спрос на товары, учитывая сразу несколько факторов? Вам поможет множественная регрессия. В этой статье вы узнаете: - Математическую основу множественной линейной регрессии – от уравнения гиперплоскости до метода наименьших квадратов; - Разбор полного кода на Python с использованием scikit-learn на реальном датасете Advertising (200 наблюдений); - Как интерпретировать коэффициенты модели; - Сравнение с простой линейной регрессией – насколько лучше работает множественная модель; - Расширение до полиномиальной регрессии, когда линейности недостаточно.

https://habr.com/ru/articles/1015102/

#python #python_для_начинающих #аналитика #анализ_данных #аналитика_данных #регрессия #множественная_регрессия #карьера_в_it #машинное_обучение_python #sklearn

#sklearn #машинное_обучение_python #карьера_в_it #множественная_регрессия #регрессия #аналитика_данных

Habr @[email protected] · 2026-03-25 · 21:42 UTC

Множественная регрессия: Расширяем горизонты прогнозирования

Хотите научиться предсказывать продажи, цены на недвижимость или спрос на товары, учитывая сразу несколько факторов? Вам поможет множественная регрессия. В этой статье вы узнаете: - Математическую основу множественной линейной регрессии – от уравнения гиперплоскости до метода наименьших квадратов; - Разбор полного кода на Python с использованием scikit-learn на реальном датасете Advertising (200 наблюдений); - Как интерпретировать коэффициенты модели; - Сравнение с простой линейной регрессией – насколько лучше работает множественная модель; - Расширение до полиномиальной регрессии, когда линейности недостаточно.

https://habr.com/ru/articles/1015102/

#python #python_для_начинающих #аналитика #анализ_данных #аналитика_данных #регрессия #множественная_регрессия #карьера_в_it #машинное_обучение_python #sklearn

#sklearn #машинное_обучение_python #карьера_в_it #множественная_регрессия #регрессия #аналитика_данных

Habr @[email protected] · 2026-03-25 · 21:42 UTC

Множественная регрессия: Расширяем горизонты прогнозирования

Хотите научиться предсказывать продажи, цены на недвижимость или спрос на товары, учитывая сразу несколько факторов? Вам поможет множественная регрессия. В этой статье вы узнаете: - Математическую основу множественной линейной регрессии – от уравнения гиперплоскости до метода наименьших квадратов; - Разбор полного кода на Python с использованием scikit-learn на реальном датасете Advertising (200 наблюдений); - Как интерпретировать коэффициенты модели; - Сравнение с простой линейной регрессией – насколько лучше работает множественная модель; - Расширение до полиномиальной регрессии, когда линейности недостаточно.

https://habr.com/ru/articles/1015102/

#python #python_для_начинающих #аналитика #анализ_данных #аналитика_данных #регрессия #множественная_регрессия #карьера_в_it #машинное_обучение_python #sklearn

#python #python_для_начинающих #аналитика #анализ_данных #аналитика_данных #регрессия

Habr @[email protected] · 2026-03-15 · 18:22 UTC

Мета-модель для диагностики обучения нейросетей

Когда мы обучаем модели машинного обучения, почти всегда возникает один и тот же вопрос: Что именно происходит во время обучения? Обычно мы смотрим на графики метрик и пытаемся вручную интерпретировать происходящее. Можно посмотреть на learning curves и понять, что происходит: Но этот анализ почти всегда выполняется вручную или с помощью простейших эвристических правил. А ведь сколько времени, сил и нервов можно было бы сэкономить, если обучить до 100 эпохи а не до 500 (см картинка выше) :-( Но можно задать интересный вопрос: А можно ли автоматически определить состояние обучения модели?

https://habr.com/ru/articles/1010556/

#ml #mlops #mlинженер #python #sklearn #random_forest

Habr @[email protected] · 2026-03-15 · 18:22 UTC

Мета-модель для диагностики обучения нейросетей

Когда мы обучаем модели машинного обучения, почти всегда возникает один и тот же вопрос: Что именно происходит во время обучения? Обычно мы смотрим на графики метрик и пытаемся вручную интерпретировать происходящее. Можно посмотреть на learning curves и понять, что происходит: Но этот анализ почти всегда выполняется вручную или с помощью простейших эвристических правил. А ведь сколько времени, сил и нервов можно было бы сэкономить, если обучить до 100 эпохи а не до 500 (см картинка выше) :-( Но можно задать интересный вопрос: А можно ли автоматически определить состояние обучения модели?

https://habr.com/ru/articles/1010556/

#ml #mlops #mlинженер #python #sklearn #random_forest

Habr @[email protected] · 2026-03-15 · 18:22 UTC

Мета-модель для диагностики обучения нейросетей

Когда мы обучаем модели машинного обучения, почти всегда возникает один и тот же вопрос: Что именно происходит во время обучения? Обычно мы смотрим на графики метрик и пытаемся вручную интерпретировать происходящее. Можно посмотреть на learning curves и понять, что происходит: Но этот анализ почти всегда выполняется вручную или с помощью простейших эвристических правил. А ведь сколько времени, сил и нервов можно было бы сэкономить, если обучить до 100 эпохи а не до 500 (см картинка выше) :-( Но можно задать интересный вопрос: А можно ли автоматически определить состояние обучения модели?

https://habr.com/ru/articles/1010556/

#ml #mlops #mlинженер #python #sklearn #random_forest

Habr @[email protected] · 2026-03-15 · 18:22 UTC

Мета-модель для диагностики обучения нейросетей

Когда мы обучаем модели машинного обучения, почти всегда возникает один и тот же вопрос: Что именно происходит во время обучения? Обычно мы смотрим на графики метрик и пытаемся вручную интерпретировать происходящее. Можно посмотреть на learning curves и понять, что происходит: Но этот анализ почти всегда выполняется вручную или с помощью простейших эвристических правил. А ведь сколько времени, сил и нервов можно было бы сэкономить, если обучить до 100 эпохи а не до 500 (см картинка выше) :-( Но можно задать интересный вопрос: А можно ли автоматически определить состояние обучения модели?

https://habr.com/ru/articles/1010556/

#ml #mlops #mlинженер #python #sklearn #random_forest

#random_forest #sklearn #python #mlинженер #mlops #ml

Habr @[email protected] · 2026-01-25 · 11:32 UTC

Компрессор для данных или как я написал свой первый custom transformer

Эта статья будет полезна DS специалистам, и тем, кто хоть когда-нибудь сталкивался с такой проблемой, как выбросы в данных или OOD (out of distribution), и ищет пути решения проблем, возникающих из-за них.

https://habr.com/ru/articles/988736/

#выбросы #анализ_данных #data_science #preprocessing #compression #outliner #custom_transformer #transformer #sklearn

#sklearn #transformer #custom_transformer #outliner #compression #preprocessing

Habr @[email protected] · 2026-01-25 · 11:32 UTC

Компрессор для данных или как я написал свой первый custom transformer

Эта статья будет полезна DS специалистам, и тем, кто хоть когда-нибудь сталкивался с такой проблемой, как выбросы в данных или OOD (out of distribution), и ищет пути решения проблем, возникающих из-за них.

https://habr.com/ru/articles/988736/

#выбросы #анализ_данных #data_science #preprocessing #compression #outliner #custom_transformer #transformer #sklearn

#sklearn #transformer #custom_transformer #outliner #compression #preprocessing

Habr @[email protected] · 2026-01-25 · 11:32 UTC

Компрессор для данных или как я написал свой первый custom transformer

Эта статья будет полезна DS специалистам, и тем, кто хоть когда-нибудь сталкивался с такой проблемой, как выбросы в данных или OOD (out of distribution), и ищет пути решения проблем, возникающих из-за них.

https://habr.com/ru/articles/988736/

#выбросы #анализ_данных #data_science #preprocessing #compression #outliner #custom_transformer #transformer #sklearn

#sklearn #transformer #custom_transformer #outliner #compression #preprocessing

Habr @[email protected] · 2026-01-25 · 11:32 UTC

Компрессор для данных или как я написал свой первый custom transformer

Эта статья будет полезна DS специалистам, и тем, кто хоть когда-нибудь сталкивался с такой проблемой, как выбросы в данных или OOD (out of distribution), и ищет пути решения проблем, возникающих из-за них.

https://habr.com/ru/articles/988736/

#выбросы #анализ_данных #data_science #preprocessing #compression #outliner #custom_transformer #transformer #sklearn

#выбросы #анализ_данных #data_science #preprocessing #compression #outliner

Habr @[email protected] · 2025-12-09 · 21:42 UTC

От «обезьяньей» работы к Smart-анализу: как выполнить предобработку данных для моделей

От «обезьяньей» работы к Smart-анализу: как правильно готовить данные для моделей. Что такое Exploratory Data Analysis и как избежать основных ошибок при его выполнении.

https://habr.com/ru/articles/975082/

#pandas #sklearn #data_science #exploratory_data_analysis #machine_learning #numpy #statistics #feature_engineering

#pandas #sklearn #data_science #exploratory_data_analysis #machine_learning #numpy

Habr @[email protected] · 2025-05-21 · 12:42 UTC

Scikit-learn теперь умеет в пайплайны: что изменилось и как работать с библиотекой в 2025 году

Scikit-learn — это одна из основных Python-библиотек для машинного обучения. Её подключают в прикладных проектах, AutoML-системах и учебных курсах — как базовый инструмент для работы с моделями. Даже если вы давно пишете на PyTorch или CatBoost, в задачах с табличными данными, скорее всего, всё ещё вызываете fit , predict , score — через sklearn. В 2025 году в библиотеку добавили несколько важных обновлений: доработали работу с пайплайнами, подключили полную поддержку pandas API, упростили контроль за экспериментами. Мы подготовили гайд, как работать со scikit-learn в 2025 году. Новичкам он поможет собрать первую ML-задачу — с данными, моделью и метриками. А тем, кто уже использует библиотеку, — освежить знания и понять, что изменилось в новых версиях. Почитать гайд →

https://habr.com/ru/companies/netologyru/articles/911216/

#scikitlearn #sklearn #пайплайн #python #pandas #машинное_обучение #machine_learning #ml #классификация #регрессия

#регрессия #классификация #ml #machine_learning #машинное_обучение #pandas

Eric Maugendre about data @[email protected] · 2024-12-30 · 20:04 UTC

@data @datadon 🧵

Redressing #Bias: "Correlation Constraints for Regression Models":
Treder et al (2021) https://doi.org/10.3389/fpsyt.2021.615754

#dataDev #linearRegression #modeling #probability #probabilities #statistics #stats #modelling #regression #correctionRatio #skLearn #scikitLearn #python #AIDev

#bias #datadev #linearregression #modeling #probability #probabilities

Eric Maugendre about data @[email protected] · 2024-12-30 · 20:04 UTC

@data @datadon 🧵

Redressing #Bias: "Correlation Constraints for Regression Models":
Treder et al (2021) https://doi.org/10.3389/fpsyt.2021.615754

#dataDev #linearRegression #modeling #probability #probabilities #statistics #stats #modelling #regression #correctionRatio #skLearn #scikitLearn #python #AIDev

#bias #datadev #linearregression #modeling #probability #probabilities

Eric Maugendre about data @maugendre · 2024-12-30 · 20:04 UTC

@[email protected] @[email protected] 🧵

Redressing #Bias: "Correlation Constraints for Regression Models":
Treder et al (2021) https://doi.org/10.3389/fpsyt.2021.615754

#dataDev #linearRegression #modeling #probability #probabilities #statistics #stats #modelling #regression #correctionRatio #skLearn #scikitLearn #python #AIDev

#bias #datadev #linearregression #modeling #probability #probabilities

Eric Maugendre about data @[email protected] · 2024-12-30 · 20:04 UTC

@data @datadon 🧵

Redressing #Bias: "Correlation Constraints for Regression Models":
Treder et al (2021) https://doi.org/10.3389/fpsyt.2021.615754

#dataDev #linearRegression #modeling #probability #probabilities #statistics #stats #modelling #regression #correctionRatio #skLearn #scikitLearn #python #AIDev

#aidev #python #scikitlearn #sklearn #correctionratio #regression

Eric Maugendre about data @[email protected] · 2024-12-30 · 20:04 UTC

@data @datadon 🧵

Redressing #Bias: "Correlation Constraints for Regression Models":
Treder et al (2021) https://doi.org/10.3389/fpsyt.2021.615754

#dataDev #linearRegression #modeling #probability #probabilities #statistics #stats #modelling #regression #correctionRatio #skLearn #scikitLearn #python #AIDev

#bias #datadev #linearregression #modeling #probability #probabilities

Eric Maugendre about data @[email protected] · 2024-10-25 · 10:31 UTC