#feature_engineering — Public Fediverse posts on home.social

Habr @[email protected] · 2026-04-09 · 06:22 UTC

Target Encoding: кодирование категориальных признаков без утечки данных

Target encoding кажется удобным способом «сжать» категориальные признаки и добавить модели сигнал, но вместе с этим он легко приводит к утечке таргета и завышенным метрикам, которые не переживают прод. В статье разбирается, где именно возникает leakage, почему наивная реализация ломает модель и как правильно считать признаки через LOO и K-Fold, чтобы получать честный результат, а не иллюзию качества.

https://habr.com/ru/companies/otus/articles/1017046/

#python #ml #target_encoding #категориальные_данные #утечка_данных #feature_engineering #кодирование_признаков

#кодирование_признаков #feature_engineering #утечка_данных #категориальные_данные #target_encoding #ml

Habr @[email protected] · 2026-04-09 · 06:22 UTC

Target Encoding: кодирование категориальных признаков без утечки данных

Target encoding кажется удобным способом «сжать» категориальные признаки и добавить модели сигнал, но вместе с этим он легко приводит к утечке таргета и завышенным метрикам, которые не переживают прод. В статье разбирается, где именно возникает leakage, почему наивная реализация ломает модель и как правильно считать признаки через LOO и K-Fold, чтобы получать честный результат, а не иллюзию качества.

https://habr.com/ru/companies/otus/articles/1017046/

#python #ml #target_encoding #категориальные_данные #утечка_данных #feature_engineering #кодирование_признаков

#кодирование_признаков #feature_engineering #утечка_данных #категориальные_данные #target_encoding #ml

Habr @[email protected] · 2026-04-09 · 06:22 UTC

Target Encoding: кодирование категориальных признаков без утечки данных

Target encoding кажется удобным способом «сжать» категориальные признаки и добавить модели сигнал, но вместе с этим он легко приводит к утечке таргета и завышенным метрикам, которые не переживают прод. В статье разбирается, где именно возникает leakage, почему наивная реализация ломает модель и как правильно считать признаки через LOO и K-Fold, чтобы получать честный результат, а не иллюзию качества.

https://habr.com/ru/companies/otus/articles/1017046/

#python #ml #target_encoding #категориальные_данные #утечка_данных #feature_engineering #кодирование_признаков

#кодирование_признаков #feature_engineering #утечка_данных #категориальные_данные #target_encoding #ml

Habr @[email protected] · 2026-04-09 · 06:22 UTC

Target Encoding: кодирование категориальных признаков без утечки данных

Target encoding кажется удобным способом «сжать» категориальные признаки и добавить модели сигнал, но вместе с этим он легко приводит к утечке таргета и завышенным метрикам, которые не переживают прод. В статье разбирается, где именно возникает leakage, почему наивная реализация ломает модель и как правильно считать признаки через LOO и K-Fold, чтобы получать честный результат, а не иллюзию качества.

https://habr.com/ru/companies/otus/articles/1017046/

#python #ml #target_encoding #категориальные_данные #утечка_данных #feature_engineering #кодирование_признаков

#python #ml #target_encoding #категориальные_данные #утечка_данных #feature_engineering

Habr @[email protected] · 2026-02-02 · 11:22 UTC

NEWAVE. Делаем интеллектуальный ретривал музыки

Двуэнкодерные нейросети, контрастивное обучение, десять датасетов и late fusion. Как мы строили ML-систему ретривала, понимающую человеческий язык вместо фильтров Ну и как же?

https://habr.com/ru/articles/989756/

#CLAP #biencoder #contrastive_learning #retrieval #feature_engineering #ML #DL #machine_learning #project #deep_learning

#deep_learning #project #machine_learning #dl #ml #feature_engineering

Habr @[email protected] · 2026-02-02 · 11:22 UTC

NEWAVE. Делаем интеллектуальный ретривал музыки

Двуэнкодерные нейросети, контрастивное обучение, десять датасетов и late fusion. Как мы строили ML-систему ретривала, понимающую человеческий язык вместо фильтров Ну и как же?

https://habr.com/ru/articles/989756/

#CLAP #biencoder #contrastive_learning #retrieval #feature_engineering #ML #DL #machine_learning #project #deep_learning

#deep_learning #project #machine_learning #dl #ml #feature_engineering

Habr @[email protected] · 2026-02-02 · 11:22 UTC

NEWAVE. Делаем интеллектуальный ретривал музыки

Двуэнкодерные нейросети, контрастивное обучение, десять датасетов и late fusion. Как мы строили ML-систему ретривала, понимающую человеческий язык вместо фильтров Ну и как же?

https://habr.com/ru/articles/989756/

#CLAP #biencoder #contrastive_learning #retrieval #feature_engineering #ML #DL #machine_learning #project #deep_learning

#deep_learning #project #machine_learning #dl #ml #feature_engineering

Habr @[email protected] · 2026-02-02 · 11:22 UTC

NEWAVE. Делаем интеллектуальный ретривал музыки

Двуэнкодерные нейросети, контрастивное обучение, десять датасетов и late fusion. Как мы строили ML-систему ретривала, понимающую человеческий язык вместо фильтров Ну и как же?

https://habr.com/ru/articles/989756/

#CLAP #biencoder #contrastive_learning #retrieval #feature_engineering #ML #DL #machine_learning #project #deep_learning

#clap #biencoder #contrastive_learning #retrieval #feature_engineering #ml

Habr @[email protected] · 2026-01-27 · 19:22 UTC

Линейная регрессия, встряска рейтинга и первое место. Часть 1: Ёлочка, живи

Сказ о том, как после долгого перерыва я "взял в руки шашки" (поучаствовал в ML-соревновании) и дотащил задачу на "таблички" до первого места на финальном "приватном" лидерборде с помощью простейшей подготовки фич и классической линейной регрессии с регуляризацией, внезапно обогнав при этом всех модных катбустеров, банально переобучившихся на "паблике". В задаче нужно было предсказать, "доживёт" ли ёлка до определённой даты, учитывая время рубки, наличие дома кота, вес гирлянды, далеко ли от ёлки стоит обогреватель (и есть ли он вообще) и прочие важные и не очень сведения. Узнать, что влияет на "выживаемость" ёлки

https://habr.com/ru/articles/987310/

#ml #ds #python #feature_engineering #feature_selection #data_visualization

#data_visualization #feature_selection #feature_engineering #python #ds #ml

Habr @[email protected] · 2025-12-09 · 21:42 UTC

От «обезьяньей» работы к Smart-анализу: как выполнить предобработку данных для моделей

От «обезьяньей» работы к Smart-анализу: как правильно готовить данные для моделей. Что такое Exploratory Data Analysis и как избежать основных ошибок при его выполнении.

https://habr.com/ru/articles/975082/

#pandas #sklearn #data_science #exploratory_data_analysis #machine_learning #numpy #statistics #feature_engineering

#pandas #sklearn #data_science #exploratory_data_analysis #machine_learning #numpy

Habr @[email protected] · 2025-04-23 · 07:32 UTC

Обработка геоданных для ML-задач. Часть 3: агрегирование данных и оценка пространственных шаблонов

Пространственное агрегирование помогает контролировать степень детализации данных в зависимости от пространственных характеристик отдельных записей. Эта операция может быть полезна, если вы хотите сравнить разные регионы по конкретному параметру, (например, плотность населения или динамика продаж), оценить значение признака на единицу площади (скажем, среднюю выручку магазинов на квадратный километр) или преобразовать набор точек в растровые пространственные данные. Важно учитывать, что агрегирование упрощает анализ , но «схлопывает» внутреннюю вариативность данных, типа как усреднённая температура по больнице может скрывать локальные перегретые серверные. Существует, по крайней мере, три метода пространственного агрегирования ...

https://habr.com/ru/companies/cinimex/articles/900738/

#геоданные #feature_engineering #python #postgresql #postgis #data_science #анализ_данных #машинное_обучение #машинное+обучение #машинное_обучениe

#геоданные #feature_engineering #python #postgresql #postgis #data_science

Habr @[email protected] · 2025-04-16 · 09:22 UTC

Обработка геоданных для ML-задач. Часть 2: пространственные объединения и расстояния

Статья продолжает обсуждение пространственных признаков в Python. Здесь мы рассматриваем пространственные объединения — аналог обычного объединения в мире геоданных, основанный на топологических отношениях между объектами, таких как пересечение, вложение или касание. Также мы узнаем, как правильно рассчитывать различные типы расстояний (и иногда это не просто евклидово расстояние между двумя точками). Например, геодезическое расстояние учитывает кривизну Земли, что особенно важно для анализа данных на больших территориях; расстояние маршрута учитывает направление: оптимальный маршрут от A до B не всегда равен маршруту от B до A.

https://habr.com/ru/companies/cinimex/articles/900734/

#геоданные #feature_engineering #python #postgresql #postgis #data_science #анализ_данных

#геоданные #feature_engineering #python #postgresql #postgis #data_science

Habr @[email protected] · 2025-04-07 · 12:22 UTC

Геопространственная обработка признаков

Привет, я Александр Мещеряков, более 3-х лет работаю в компании «Синимекс» специалистом по анализу данных. Мне удалось поработать с различными ML-проектами, и больше всего меня увлекла работа с геоданными. Для многих эта тема кажется немного «магией» и я хотел бы на страницах Хабра пролить на нее немного света. Эта статья — как шпаргалка для шеф-повара: берите готовые рецепты под ваши задачи. Здесь вы найдёте ключевые библиотеки (geopandas, h3-py) и принципы работы с геоданными — от парсинга OpenStreetMap до агрегации по шестиугольникам.

https://habr.com/ru/companies/cinimex/articles/896546/

#геоданные #feature_engineering #python #postgresql #postgis #data_science #анализ_данных

#геоданные #feature_engineering #python #postgresql #postgis #data_science

Habr @[email protected] · 2026-01-27 · 19:22 UTC

Линейная регрессия, встряска рейтинга и первое место. Часть 1: Ёлочка, живи

Сказ о том, как после долгого перерыва я "взял в руки шашки" (поучаствовал в ML-соревновании) и дотащил задачу на "таблички" до первого места на финальном "приватном" лидерборде с помощью простейшей подготовки фич и классической линейной регрессии с регуляризацией, внезапно обогнав при этом всех модных катбустеров, банально переобучившихся на "паблике". В задаче нужно было предсказать, "доживёт" ли ёлка до определённой даты, учитывая время рубки, наличие дома кота, вес гирлянды, далеко ли от ёлки стоит обогреватель (и есть ли он вообще) и прочие важные и не очень сведения. Узнать, что влияет на "выживаемость" ёлки

https://habr.com/ru/articles/987310/

#ml #ds #python #feature_engineering #feature_selection #data_visualization

#data_visualization #feature_selection #feature_engineering #python #ds #ml

Habr @[email protected] · 2026-01-27 · 19:22 UTC

Линейная регрессия, встряска рейтинга и первое место. Часть 1: Ёлочка, живи

Сказ о том, как после долгого перерыва я "взял в руки шашки" (поучаствовал в ML-соревновании) и дотащил задачу на "таблички" до первого места на финальном "приватном" лидерборде с помощью простейшей подготовки фич и классической линейной регрессии с регуляризацией, внезапно обогнав при этом всех модных катбустеров, банально переобучившихся на "паблике". В задаче нужно было предсказать, "доживёт" ли ёлка до определённой даты, учитывая время рубки, наличие дома кота, вес гирлянды, далеко ли от ёлки стоит обогреватель (и есть ли он вообще) и прочие важные и не очень сведения. Узнать, что влияет на "выживаемость" ёлки

https://habr.com/ru/articles/987310/

#ml #ds #python #feature_engineering #feature_selection #data_visualization

#data_visualization #feature_selection #feature_engineering #python #ds #ml

Habr @[email protected] · 2026-01-27 · 19:22 UTC

Линейная регрессия, встряска рейтинга и первое место. Часть 1: Ёлочка, живи

Сказ о том, как после долгого перерыва я "взял в руки шашки" (поучаствовал в ML-соревновании) и дотащил задачу на "таблички" до первого места на финальном "приватном" лидерборде с помощью простейшей подготовки фич и классической линейной регрессии с регуляризацией, внезапно обогнав при этом всех модных катбустеров, банально переобучившихся на "паблике". В задаче нужно было предсказать, "доживёт" ли ёлка до определённой даты, учитывая время рубки, наличие дома кота, вес гирлянды, далеко ли от ёлки стоит обогреватель (и есть ли он вообще) и прочие важные и не очень сведения. Узнать, что влияет на "выживаемость" ёлки

https://habr.com/ru/articles/987310/

#ml #ds #python #feature_engineering #feature_selection #data_visualization