home.social

#catboost — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #catboost, aggregated by home.social.

  1. FlakyDetector 2.0: Как я превратил сырое исследование в продакшен-инструмент с AST, ML и красивым дашбордом…

    Представь: пятница, вечер. Ты запускаешь CI для последнего пулл-реквеста, идёшь наливать кофе, возвращаешься… а билд упал. Один тест. Ты перезапускаешь проходит. «Флаки», — вздыхаешь ты и ставишь лейбл flaky . На следующей неделе история повторяется. Потом ещё раз. Мы привыкли, что нестабильные тесты — это неизбежное зло . Их ловят повторными прогонами, а если повезёт вырезают. Но знаешь, что реально бесит? В 80% случаев корень проблемы можно найти, просто посмотрев на код теста. Я написал инструмент, который это делает автоматически. Без логов CI, без истории прогонов — только AST и машинное обучение. Назвал его FlakyDetector . Первая версия была исследовательским прототипом (про него у меня выходила статья на Хабре ). А теперь — это полноценный продукт: CLI, веб-дашборд, CI-интеграция и даже React-фронтенд. И да, он open source. Давай разберёмся, как это устроено .

    habr.com/ru/articles/1035782/

    #python #ast #catboost #flaky_tests #тестирование #machine_learning #test_smells #fastapi #static_analysis

  2. FlakyDetector 2.0: Как я превратил сырое исследование в продакшен-инструмент с AST, ML и красивым дашбордом…

    Представь: пятница, вечер. Ты запускаешь CI для последнего пулл-реквеста, идёшь наливать кофе, возвращаешься… а билд упал. Один тест. Ты перезапускаешь проходит. «Флаки», — вздыхаешь ты и ставишь лейбл flaky . На следующей неделе история повторяется. Потом ещё раз. Мы привыкли, что нестабильные тесты — это неизбежное зло . Их ловят повторными прогонами, а если повезёт вырезают. Но знаешь, что реально бесит? В 80% случаев корень проблемы можно найти, просто посмотрев на код теста. Я написал инструмент, который это делает автоматически. Без логов CI, без истории прогонов — только AST и машинное обучение. Назвал его FlakyDetector . Первая версия была исследовательским прототипом (про него у меня выходила статья на Хабре ). А теперь — это полноценный продукт: CLI, веб-дашборд, CI-интеграция и даже React-фронтенд. И да, он open source. Давай разберёмся, как это устроено .

    habr.com/ru/articles/1035782/

    #python #ast #catboost #flaky_tests #тестирование #machine_learning #test_smells #fastapi #static_analysis

  3. FlakyDetector 2.0: Как я превратил сырое исследование в продакшен-инструмент с AST, ML и красивым дашбордом…

    Представь: пятница, вечер. Ты запускаешь CI для последнего пулл-реквеста, идёшь наливать кофе, возвращаешься… а билд упал. Один тест. Ты перезапускаешь проходит. «Флаки», — вздыхаешь ты и ставишь лейбл flaky . На следующей неделе история повторяется. Потом ещё раз. Мы привыкли, что нестабильные тесты — это неизбежное зло . Их ловят повторными прогонами, а если повезёт вырезают. Но знаешь, что реально бесит? В 80% случаев корень проблемы можно найти, просто посмотрев на код теста. Я написал инструмент, который это делает автоматически. Без логов CI, без истории прогонов — только AST и машинное обучение. Назвал его FlakyDetector . Первая версия была исследовательским прототипом (про него у меня выходила статья на Хабре ). А теперь — это полноценный продукт: CLI, веб-дашборд, CI-интеграция и даже React-фронтенд. И да, он open source. Давай разберёмся, как это устроено .

    habr.com/ru/articles/1035782/

    #python #ast #catboost #flaky_tests #тестирование #machine_learning #test_smells #fastapi #static_analysis

  4. FlakyDetector 2.0: Как я превратил сырое исследование в продакшен-инструмент с AST, ML и красивым дашбордом…

    Представь: пятница, вечер. Ты запускаешь CI для последнего пулл-реквеста, идёшь наливать кофе, возвращаешься… а билд упал. Один тест. Ты перезапускаешь проходит. «Флаки», — вздыхаешь ты и ставишь лейбл flaky . На следующей неделе история повторяется. Потом ещё раз. Мы привыкли, что нестабильные тесты — это неизбежное зло . Их ловят повторными прогонами, а если повезёт вырезают. Но знаешь, что реально бесит? В 80% случаев корень проблемы можно найти, просто посмотрев на код теста. Я написал инструмент, который это делает автоматически. Без логов CI, без истории прогонов — только AST и машинное обучение. Назвал его FlakyDetector . Первая версия была исследовательским прототипом (про него у меня выходила статья на Хабре ). А теперь — это полноценный продукт: CLI, веб-дашборд, CI-интеграция и даже React-фронтенд. И да, он open source. Давай разберёмся, как это устроено .

    habr.com/ru/articles/1035782/

    #python #ast #catboost #flaky_tests #тестирование #machine_learning #test_smells #fastapi #static_analysis

  5. Как закешировать интеллект: LLM Cache в поиске Яндекс Лавки

    Меня зовут Алексей Щекалёв, я работаю в команде машинного обучения Яндекс Лавки. Как думаете, что общего между пакетом молока, айфоном, дрелью и лабубу? Похоже на начало анекдота, но для нас это серьёзный технический вопрос. Ответ на него определяет, найдут ли пользователи то, что ищут, или разочарованно закроют приложение. Мы столкнулись с этим вопросом в 2025 году, когда наш отлаженный поиск по продуктовому каталогу сломался о новую модель продаж. Тяжёлые модели понимали новые товары, но работали слишком медленно для рантайма, а быстрые не справлялись. Переобучать весь стек на каждый новый ассортимент было бы слишком дорого и долго. Казалось, что компромисс «качество vs скорость» неразрешим, но мы нашли третий путь.

    habr.com/ru/companies/yandex/a

    #машинное_обучение #llm #llmархитектура #доставка #catboost

  6. Как закешировать интеллект: LLM Cache в поиске Яндекс Лавки

    Меня зовут Алексей Щекалёв, я работаю в команде машинного обучения Яндекс Лавки. Как думаете, что общего между пакетом молока, айфоном, дрелью и лабубу? Похоже на начало анекдота, но для нас это серьёзный технический вопрос. Ответ на него определяет, найдут ли пользователи то, что ищут, или разочарованно закроют приложение. Мы столкнулись с этим вопросом в 2025 году, когда наш отлаженный поиск по продуктовому каталогу сломался о новую модель продаж. Тяжёлые модели понимали новые товары, но работали слишком медленно для рантайма, а быстрые не справлялись. Переобучать весь стек на каждый новый ассортимент было бы слишком дорого и долго. Казалось, что компромисс «качество vs скорость» неразрешим, но мы нашли третий путь.

    habr.com/ru/companies/yandex/a

    #машинное_обучение #llm #llmархитектура #доставка #catboost

  7. Как закешировать интеллект: LLM Cache в поиске Яндекс Лавки

    Меня зовут Алексей Щекалёв, я работаю в команде машинного обучения Яндекс Лавки. Как думаете, что общего между пакетом молока, айфоном, дрелью и лабубу? Похоже на начало анекдота, но для нас это серьёзный технический вопрос. Ответ на него определяет, найдут ли пользователи то, что ищут, или разочарованно закроют приложение. Мы столкнулись с этим вопросом в 2025 году, когда наш отлаженный поиск по продуктовому каталогу сломался о новую модель продаж. Тяжёлые модели понимали новые товары, но работали слишком медленно для рантайма, а быстрые не справлялись. Переобучать весь стек на каждый новый ассортимент было бы слишком дорого и долго. Казалось, что компромисс «качество vs скорость» неразрешим, но мы нашли третий путь.

    habr.com/ru/companies/yandex/a

    #машинное_обучение #llm #llmархитектура #доставка #catboost

  8. Как закешировать интеллект: LLM Cache в поиске Яндекс Лавки

    Меня зовут Алексей Щекалёв, я работаю в команде машинного обучения Яндекс Лавки. Как думаете, что общего между пакетом молока, айфоном, дрелью и лабубу? Похоже на начало анекдота, но для нас это серьёзный технический вопрос. Ответ на него определяет, найдут ли пользователи то, что ищут, или разочарованно закроют приложение. Мы столкнулись с этим вопросом в 2025 году, когда наш отлаженный поиск по продуктовому каталогу сломался о новую модель продаж. Тяжёлые модели понимали новые товары, но работали слишком медленно для рантайма, а быстрые не справлялись. Переобучать весь стек на каждый новый ассортимент было бы слишком дорого и долго. Казалось, что компромисс «качество vs скорость» неразрешим, но мы нашли третий путь.

    habr.com/ru/companies/yandex/a

    #машинное_обучение #llm #llmархитектура #доставка #catboost

  9. Как мы научили CatBoost находить борщевик на спутниковых снимках

    С 1 марта 2026 года владельцы участков обязаны контролировать распространение борщевика Сосновского на законодательном уровне. Основным инструментом мониторинга стали спутниковые снимки, поскольку на них можно быстро обнаруживать очаги распространения борщевика на больших площадях. Однако ручное картографирование огромных территорий по снимкам с воздуха — процесс дорогой и плохо масштабируемый. Меня зовут Сергей Кукуруз, я руковожу ML‑проектами в центре технологий для общества Yandex Cloud. В этой статье расскажу, как мы совместно со студентами Школы анализа данных (ШАД), а также с движением добровольцев «СтопБорщевик» автоматизировали этот процесс с помощью машинного обучения. Мы подробно разберём технический пайплайн: от нормализации GeoTIFF‑файлов и извлечения признаков (индекс CIVE) до обучения модели в CatBoost. Я расскажу, почему для классификации объектов на спутниковых снимках градиентный бустинг зачастую эффективнее нейросетей, и как применить этот стек для поиска любых объектов — от лесных вырубок до руин крепостей. Собственный дата‑центр не потребуется, это можно сделать в домашних условиях — главное, чтобы у вас было достаточно спутниковых снимков для разметки данных:) Кому любопытно — добро пожаловать под кат!

    habr.com/ru/companies/yandex/a

    #computer_vision #data_science #экология #борщевик #ml #ai #ии #catboost

  10. Как мы научили CatBoost находить борщевик на спутниковых снимках

    С 1 марта 2026 года владельцы участков обязаны контролировать распространение борщевика Сосновского на законодательном уровне. Основным инструментом мониторинга стали спутниковые снимки, поскольку на них можно быстро обнаруживать очаги распространения борщевика на больших площадях. Однако ручное картографирование огромных территорий по снимкам с воздуха — процесс дорогой и плохо масштабируемый. Меня зовут Сергей Кукуруз, я руковожу ML‑проектами в центре технологий для общества Yandex Cloud. В этой статье расскажу, как мы совместно со студентами Школы анализа данных (ШАД), а также с движением добровольцев «СтопБорщевик» автоматизировали этот процесс с помощью машинного обучения. Мы подробно разберём технический пайплайн: от нормализации GeoTIFF‑файлов и извлечения признаков (индекс CIVE) до обучения модели в CatBoost. Я расскажу, почему для классификации объектов на спутниковых снимках градиентный бустинг зачастую эффективнее нейросетей, и как применить этот стек для поиска любых объектов — от лесных вырубок до руин крепостей. Собственный дата‑центр не потребуется, это можно сделать в домашних условиях — главное, чтобы у вас было достаточно спутниковых снимков для разметки данных:) Кому любопытно — добро пожаловать под кат!

    habr.com/ru/companies/yandex/a

    #computer_vision #data_science #экология #борщевик #ml #ai #ии #catboost

  11. Как мы научили CatBoost находить борщевик на спутниковых снимках

    С 1 марта 2026 года владельцы участков обязаны контролировать распространение борщевика Сосновского на законодательном уровне. Основным инструментом мониторинга стали спутниковые снимки, поскольку на них можно быстро обнаруживать очаги распространения борщевика на больших площадях. Однако ручное картографирование огромных территорий по снимкам с воздуха — процесс дорогой и плохо масштабируемый. Меня зовут Сергей Кукуруз, я руковожу ML‑проектами в центре технологий для общества Yandex Cloud. В этой статье расскажу, как мы совместно со студентами Школы анализа данных (ШАД), а также с движением добровольцев «СтопБорщевик» автоматизировали этот процесс с помощью машинного обучения. Мы подробно разберём технический пайплайн: от нормализации GeoTIFF‑файлов и извлечения признаков (индекс CIVE) до обучения модели в CatBoost. Я расскажу, почему для классификации объектов на спутниковых снимках градиентный бустинг зачастую эффективнее нейросетей, и как применить этот стек для поиска любых объектов — от лесных вырубок до руин крепостей. Собственный дата‑центр не потребуется, это можно сделать в домашних условиях — главное, чтобы у вас было достаточно спутниковых снимков для разметки данных:) Кому любопытно — добро пожаловать под кат!

    habr.com/ru/companies/yandex/a

    #computer_vision #data_science #экология #борщевик #ml #ai #ии #catboost

  12. Как мы научили CatBoost находить борщевик на спутниковых снимках

    С 1 марта 2026 года владельцы участков обязаны контролировать распространение борщевика Сосновского на законодательном уровне. Основным инструментом мониторинга стали спутниковые снимки, поскольку на них можно быстро обнаруживать очаги распространения борщевика на больших площадях. Однако ручное картографирование огромных территорий по снимкам с воздуха — процесс дорогой и плохо масштабируемый. Меня зовут Сергей Кукуруз, я руковожу ML‑проектами в центре технологий для общества Yandex Cloud. В этой статье расскажу, как мы совместно со студентами Школы анализа данных (ШАД), а также с движением добровольцев «СтопБорщевик» автоматизировали этот процесс с помощью машинного обучения. Мы подробно разберём технический пайплайн: от нормализации GeoTIFF‑файлов и извлечения признаков (индекс CIVE) до обучения модели в CatBoost. Я расскажу, почему для классификации объектов на спутниковых снимках градиентный бустинг зачастую эффективнее нейросетей, и как применить этот стек для поиска любых объектов — от лесных вырубок до руин крепостей. Собственный дата‑центр не потребуется, это можно сделать в домашних условиях — главное, чтобы у вас было достаточно спутниковых снимков для разметки данных:) Кому любопытно — добро пожаловать под кат!

    habr.com/ru/companies/yandex/a

    #computer_vision #data_science #экология #борщевик #ml #ai #ии #catboost

  13. ML и инфобез: три подхода для поиска аномалий во временных рядах

    Представьте себе инфраструктуру крупной компании, где хранятся миллионы файлов, и сотрудники не только постоянно взаимодействуют с ними, но и создают новые. В этом бесконечном потоке событий крайне сложно вручную заметить признаки надвигающейся угрозы: будь то инсайдер, копирующий данные, или вирус, массово шифрующий файлы. Использование машинного обучения — один из эффективных способов автоматизации поиска таких угроз. В этой статье мы рассмотрим, как одну и ту же задачу можно решать разными ML алгоритмами: Isolation Forest, Catboost, Autoncoder. В чём особенности, преимущества и ограничения каждого подхода?

    habr.com/ru/articles/1018204/

    #ML #anomaly_detection #isolation_forest #catboost #autoencoder

  14. ML и инфобез: три подхода для поиска аномалий во временных рядах

    Представьте себе инфраструктуру крупной компании, где хранятся миллионы файлов, и сотрудники не только постоянно взаимодействуют с ними, но и создают новые. В этом бесконечном потоке событий крайне сложно вручную заметить признаки надвигающейся угрозы: будь то инсайдер, копирующий данные, или вирус, массово шифрующий файлы. Использование машинного обучения — один из эффективных способов автоматизации поиска таких угроз. В этой статье мы рассмотрим, как одну и ту же задачу можно решать разными ML алгоритмами: Isolation Forest, Catboost, Autoncoder. В чём особенности, преимущества и ограничения каждого подхода?

    habr.com/ru/articles/1018204/

    #ML #anomaly_detection #isolation_forest #catboost #autoencoder

  15. ML и инфобез: три подхода для поиска аномалий во временных рядах

    Представьте себе инфраструктуру крупной компании, где хранятся миллионы файлов, и сотрудники не только постоянно взаимодействуют с ними, но и создают новые. В этом бесконечном потоке событий крайне сложно вручную заметить признаки надвигающейся угрозы: будь то инсайдер, копирующий данные, или вирус, массово шифрующий файлы. Использование машинного обучения — один из эффективных способов автоматизации поиска таких угроз. В этой статье мы рассмотрим, как одну и ту же задачу можно решать разными ML алгоритмами: Isolation Forest, Catboost, Autoncoder. В чём особенности, преимущества и ограничения каждого подхода?

    habr.com/ru/articles/1018204/

    #ML #anomaly_detection #isolation_forest #catboost #autoencoder

  16. ML и инфобез: три подхода для поиска аномалий во временных рядах

    Представьте себе инфраструктуру крупной компании, где хранятся миллионы файлов, и сотрудники не только постоянно взаимодействуют с ними, но и создают новые. В этом бесконечном потоке событий крайне сложно вручную заметить признаки надвигающейся угрозы: будь то инсайдер, копирующий данные, или вирус, массово шифрующий файлы. Использование машинного обучения — один из эффективных способов автоматизации поиска таких угроз. В этой статье мы рассмотрим, как одну и ту же задачу можно решать разными ML алгоритмами: Isolation Forest, Catboost, Autoncoder. В чём особенности, преимущества и ограничения каждого подхода?

    habr.com/ru/articles/1018204/

    #ML #anomaly_detection #isolation_forest #catboost #autoencoder

  17. Отказ от ответа в табличной классификации: max-prob, entropy и conformal sets на CatBoost

    Модель не обязана отвечать всегда. На мультиклассовой табличке ( letter ) я сравнил 3 способа отказа для CatBoost: maxprob, entropy/margin и conformal APS. Результаты — в risk–coverage кривых и таблице «coverage → ошибка», чтобы быстро понять, какой метод лучше “отбрасывает” ошибки отказами.

    habr.com/ru/articles/1007870/

    #selective_classification #abstention #отказ_от_ответа #conformal_prediction #conformal_sets #APS #CatBoost #табличные_данные #riskcoverage #uncertainty

  18. Отказ от ответа в табличной классификации: max-prob, entropy и conformal sets на CatBoost

    Модель не обязана отвечать всегда. На мультиклассовой табличке ( letter ) я сравнил 3 способа отказа для CatBoost: maxprob, entropy/margin и conformal APS. Результаты — в risk–coverage кривых и таблице «coverage → ошибка», чтобы быстро понять, какой метод лучше “отбрасывает” ошибки отказами.

    habr.com/ru/articles/1007870/

    #selective_classification #abstention #отказ_от_ответа #conformal_prediction #conformal_sets #APS #CatBoost #табличные_данные #riskcoverage #uncertainty

  19. Отказ от ответа в табличной классификации: max-prob, entropy и conformal sets на CatBoost

    Модель не обязана отвечать всегда. На мультиклассовой табличке ( letter ) я сравнил 3 способа отказа для CatBoost: maxprob, entropy/margin и conformal APS. Результаты — в risk–coverage кривых и таблице «coverage → ошибка», чтобы быстро понять, какой метод лучше “отбрасывает” ошибки отказами.

    habr.com/ru/articles/1007870/

    #selective_classification #abstention #отказ_от_ответа #conformal_prediction #conformal_sets #APS #CatBoost #табличные_данные #riskcoverage #uncertainty

  20. Отказ от ответа в табличной классификации: max-prob, entropy и conformal sets на CatBoost

    Модель не обязана отвечать всегда. На мультиклассовой табличке ( letter ) я сравнил 3 способа отказа для CatBoost: maxprob, entropy/margin и conformal APS. Результаты — в risk–coverage кривых и таблице «coverage → ошибка», чтобы быстро понять, какой метод лучше “отбрасывает” ошибки отказами.

    habr.com/ru/articles/1007870/

    #selective_classification #abstention #отказ_от_ответа #conformal_prediction #conformal_sets #APS #CatBoost #табличные_данные #riskcoverage #uncertainty

  21. Как мы научились честно считать эффект промокодов: Causal Inference в онлайн-доставке X5 Digital

    Сегодня расскажу о модели, которую мы построили для оценки реального эффекта промокодов. Главные вопросы: кому, какой, и зачем мы выдаем промокод. Спойлер: ответ нас удивил. И именно этот ответ стал главной причиной, по которой эту модель вообще стоило строить. Представьте стандартный отчёт по промокампании: «Пользователи, применившие промокод, потратили на 800 рублей больше среднего». Бизнес доволен, маркетинг рапортует об успехе. Но подождите, а сколько из них потратили бы эти деньги и без промокода? Это не риторический вопрос. Это принципиальная проблема, которая называется selection bias — систематическая ошибка отбора.

    habr.com/ru/companies/X5Tech/a

    #causal_inference #differenceindifference #propensity_score_matching #uplift_modeling #a_b_testing #counterfactual_learning #catboost #machine_learning #data_science #python

  22. Как мы научились честно считать эффект промокодов: Causal Inference в онлайн-доставке X5 Digital

    Сегодня расскажу о модели, которую мы построили для оценки реального эффекта промокодов. Главные вопросы: кому, какой, и зачем мы выдаем промокод. Спойлер: ответ нас удивил. И именно этот ответ стал главной причиной, по которой эту модель вообще стоило строить. Представьте стандартный отчёт по промокампании: «Пользователи, применившие промокод, потратили на 800 рублей больше среднего». Бизнес доволен, маркетинг рапортует об успехе. Но подождите, а сколько из них потратили бы эти деньги и без промокода? Это не риторический вопрос. Это принципиальная проблема, которая называется selection bias — систематическая ошибка отбора.

    habr.com/ru/companies/X5Tech/a

    #causal_inference #differenceindifference #propensity_score_matching #uplift_modeling #a_b_testing #counterfactual_learning #catboost #machine_learning #data_science #python

  23. Как мы научились честно считать эффект промокодов: Causal Inference в онлайн-доставке X5 Digital

    Сегодня расскажу о модели, которую мы построили для оценки реального эффекта промокодов. Главные вопросы: кому, какой, и зачем мы выдаем промокод. Спойлер: ответ нас удивил. И именно этот ответ стал главной причиной, по которой эту модель вообще стоило строить. Представьте стандартный отчёт по промокампании: «Пользователи, применившие промокод, потратили на 800 рублей больше среднего». Бизнес доволен, маркетинг рапортует об успехе. Но подождите, а сколько из них потратили бы эти деньги и без промокода? Это не риторический вопрос. Это принципиальная проблема, которая называется selection bias — систематическая ошибка отбора.

    habr.com/ru/companies/X5Tech/a

    #causal_inference #differenceindifference #propensity_score_matching #uplift_modeling #a_b_testing #counterfactual_learning #catboost #machine_learning #data_science #python

  24. Как мы научились честно считать эффект промокодов: Causal Inference в онлайн-доставке X5 Digital

    Сегодня расскажу о модели, которую мы построили для оценки реального эффекта промокодов. Главные вопросы: кому, какой, и зачем мы выдаем промокод. Спойлер: ответ нас удивил. И именно этот ответ стал главной причиной, по которой эту модель вообще стоило строить. Представьте стандартный отчёт по промокампании: «Пользователи, применившие промокод, потратили на 800 рублей больше среднего». Бизнес доволен, маркетинг рапортует об успехе. Но подождите, а сколько из них потратили бы эти деньги и без промокода? Это не риторический вопрос. Это принципиальная проблема, которая называется selection bias — систематическая ошибка отбора.

    habr.com/ru/companies/X5Tech/a

    #causal_inference #differenceindifference #propensity_score_matching #uplift_modeling #a_b_testing #counterfactual_learning #catboost #machine_learning #data_science #python

  25. Борьба с дисбалансом классов. Ансамблевые и комбинированные методы

    Привет, Хабр! На связи KozhinDev и ml-разработчик Приходько Александр. Это четвертая часть цикла о борьбе с дисбалансом классов. Предыдущие статьи: - В первой статье мы рассказали про суть проблемы дисбаланса классов и стандартные методы борьбы с ним; - Во второй статье обсуждались методы undersampling - удаление данных из распространенного класса; - В третьей статье рассматривались методы oversampling - генерация примеров редкого класса. В данной части мы рассмотрим комбинированные и ансамблевые методы библиотеки Imbalanced Learn .

    habr.com/ru/companies/kozhinde

    #машинное_обучение #logistic_regression #xgboost #lightgbm #catboost #oversampling #баланс_классов

  26. Борьба с дисбалансом классов. Ансамблевые и комбинированные методы

    Привет, Хабр! На связи KozhinDev и ml-разработчик Приходько Александр. Это четвертая часть цикла о борьбе с дисбалансом классов. Предыдущие статьи: - В первой статье мы рассказали про суть проблемы дисбаланса классов и стандартные методы борьбы с ним; - Во второй статье обсуждались методы undersampling - удаление данных из распространенного класса; - В третьей статье рассматривались методы oversampling - генерация примеров редкого класса. В данной части мы рассмотрим комбинированные и ансамблевые методы библиотеки Imbalanced Learn .

    habr.com/ru/companies/kozhinde

    #машинное_обучение #logistic_regression #xgboost #lightgbm #catboost #oversampling #баланс_классов

  27. Борьба с дисбалансом классов. Ансамблевые и комбинированные методы

    Привет, Хабр! На связи KozhinDev и ml-разработчик Приходько Александр. Это четвертая часть цикла о борьбе с дисбалансом классов. Предыдущие статьи: - В первой статье мы рассказали про суть проблемы дисбаланса классов и стандартные методы борьбы с ним; - Во второй статье обсуждались методы undersampling - удаление данных из распространенного класса; - В третьей статье рассматривались методы oversampling - генерация примеров редкого класса. В данной части мы рассмотрим комбинированные и ансамблевые методы библиотеки Imbalanced Learn .

    habr.com/ru/companies/kozhinde

    #машинное_обучение #logistic_regression #xgboost #lightgbm #catboost #oversampling #баланс_классов

  28. Борьба с дисбалансом классов. Ансамблевые и комбинированные методы

    Привет, Хабр! На связи KozhinDev и ml-разработчик Приходько Александр. Это четвертая часть цикла о борьбе с дисбалансом классов. Предыдущие статьи: - В первой статье мы рассказали про суть проблемы дисбаланса классов и стандартные методы борьбы с ним; - Во второй статье обсуждались методы undersampling - удаление данных из распространенного класса; - В третьей статье рассматривались методы oversampling - генерация примеров редкого класса. В данной части мы рассмотрим комбинированные и ансамблевые методы библиотеки Imbalanced Learn .

    habr.com/ru/companies/kozhinde

    #машинное_обучение #logistic_regression #xgboost #lightgbm #catboost #oversampling #баланс_классов

  29. Борьба с дисбалансом классов. Oversampling

    Привет, Хабр! На связи KozhinDev и ml-разработчик Приходько Александр. Это третья статья в цикле публикаций по теме борьбы с проблемой дисбаланса классов в машинном обучении. В первой статье мы обсудили актуальность данной проблемы в машинном обучении, а также сравнили методы борьбы с ним, без внесения изменений в сами данные: изменение весов классов и порога принятия решения моделью. Во второй статье мы сравнивали undersampling-методы, которые удаляли представителей частого класса. В данной части мы протестируем методы балансировки данных методом oversampling из библиотеки imblearn . Суть данного метода заключается в том, что мы пытаемся бороться с дисбалансом классов генерируя данные для редкого класса. Мы рассмотрим разные способы генерации таких данных и протестируем их на синтетических данных.

    habr.com/ru/companies/kozhinde

    #машинное_обучение #logistic_regression #xgboost #lightgbm #catboost #oversampling #баланс_классов

  30. Борьба с дисбалансом классов. Oversampling

    Привет, Хабр! На связи KozhinDev и ml-разработчик Приходько Александр. Это третья статья в цикле публикаций по теме борьбы с проблемой дисбаланса классов в машинном обучении. В первой статье мы обсудили актуальность данной проблемы в машинном обучении, а также сравнили методы борьбы с ним, без внесения изменений в сами данные: изменение весов классов и порога принятия решения моделью. Во второй статье мы сравнивали undersampling-методы, которые удаляли представителей частого класса. В данной части мы протестируем методы балансировки данных методом oversampling из библиотеки imblearn . Суть данного метода заключается в том, что мы пытаемся бороться с дисбалансом классов генерируя данные для редкого класса. Мы рассмотрим разные способы генерации таких данных и протестируем их на синтетических данных.

    habr.com/ru/companies/kozhinde

    #машинное_обучение #logistic_regression #xgboost #lightgbm #catboost #oversampling #баланс_классов

  31. Борьба с дисбалансом классов. Oversampling

    Привет, Хабр! На связи KozhinDev и ml-разработчик Приходько Александр. Это третья статья в цикле публикаций по теме борьбы с проблемой дисбаланса классов в машинном обучении. В первой статье мы обсудили актуальность данной проблемы в машинном обучении, а также сравнили методы борьбы с ним, без внесения изменений в сами данные: изменение весов классов и порога принятия решения моделью. Во второй статье мы сравнивали undersampling-методы, которые удаляли представителей частого класса. В данной части мы протестируем методы балансировки данных методом oversampling из библиотеки imblearn . Суть данного метода заключается в том, что мы пытаемся бороться с дисбалансом классов генерируя данные для редкого класса. Мы рассмотрим разные способы генерации таких данных и протестируем их на синтетических данных.

    habr.com/ru/companies/kozhinde

    #машинное_обучение #logistic_regression #xgboost #lightgbm #catboost #oversampling #баланс_классов

  32. Борьба с дисбалансом классов. Oversampling

    Привет, Хабр! На связи KozhinDev и ml-разработчик Приходько Александр. Это третья статья в цикле публикаций по теме борьбы с проблемой дисбаланса классов в машинном обучении. В первой статье мы обсудили актуальность данной проблемы в машинном обучении, а также сравнили методы борьбы с ним, без внесения изменений в сами данные: изменение весов классов и порога принятия решения моделью. Во второй статье мы сравнивали undersampling-методы, которые удаляли представителей частого класса. В данной части мы протестируем методы балансировки данных методом oversampling из библиотеки imblearn . Суть данного метода заключается в том, что мы пытаемся бороться с дисбалансом классов генерируя данные для редкого класса. Мы рассмотрим разные способы генерации таких данных и протестируем их на синтетических данных.

    habr.com/ru/companies/kozhinde

    #машинное_обучение #logistic_regression #xgboost #lightgbm #catboost #oversampling #баланс_классов

  33. Осваиваем ML WAF: от текстовых правил к машинному обучению

    Всем привет, меня зовут Семён. Я пишу на С++ и работаю в группе Антиробота. Антиробот — это сервис, который на уровне L7 защищает нас от парсеров и DDoS-атак. Разрабатывать его начали более 10 лет назад — сначала он предназначался только для защиты Поиска, затем был внутренним инструментом, который в онлайн‑режиме анализирует запросы к сервисам Яндекса. Постепенно Антиробот вырос в настоящий highload. Сейчас это часть облачного сервиса Smart Web Security (SWS). В этой статье я расскажу, как с нашим сервисом мы прошли путь от текстовых правил до машинного обучения. Вы узнаете, зачем вообще нужен Web Application Firewall (WAF) — межсетевой экран для веб-приложений — и разберётесь, как он устроен. А ещё — как работают рулсеты, почему у нас их целых три и какие существуют метрики для оценки качества и быстродействия сервиса.

    habr.com/ru/companies/yandex_c

    #firewall #security #highload #c++ #catboost #ml

  34. Осваиваем ML WAF: от текстовых правил к машинному обучению

    Всем привет, меня зовут Семён. Я пишу на С++ и работаю в группе Антиробота. Антиробот — это сервис, который на уровне L7 защищает нас от парсеров и DDoS-атак. Разрабатывать его начали более 10 лет назад — сначала он предназначался только для защиты Поиска, затем был внутренним инструментом, который в онлайн‑режиме анализирует запросы к сервисам Яндекса. Постепенно Антиробот вырос в настоящий highload. Сейчас это часть облачного сервиса Smart Web Security (SWS). В этой статье я расскажу, как с нашим сервисом мы прошли путь от текстовых правил до машинного обучения. Вы узнаете, зачем вообще нужен Web Application Firewall (WAF) — межсетевой экран для веб-приложений — и разберётесь, как он устроен. А ещё — как работают рулсеты, почему у нас их целых три и какие существуют метрики для оценки качества и быстродействия сервиса.

    habr.com/ru/companies/yandex_c

    #firewall #security #highload #c++ #catboost #ml

  35. Осваиваем ML WAF: от текстовых правил к машинному обучению

    Всем привет, меня зовут Семён. Я пишу на С++ и работаю в группе Антиробота. Антиробот — это сервис, который на уровне L7 защищает нас от парсеров и DDoS-атак. Разрабатывать его начали более 10 лет назад — сначала он предназначался только для защиты Поиска, затем был внутренним инструментом, который в онлайн‑режиме анализирует запросы к сервисам Яндекса. Постепенно Антиробот вырос в настоящий highload. Сейчас это часть облачного сервиса Smart Web Security (SWS). В этой статье я расскажу, как с нашим сервисом мы прошли путь от текстовых правил до машинного обучения. Вы узнаете, зачем вообще нужен Web Application Firewall (WAF) — межсетевой экран для веб-приложений — и разберётесь, как он устроен. А ещё — как работают рулсеты, почему у нас их целых три и какие существуют метрики для оценки качества и быстродействия сервиса.

    habr.com/ru/companies/yandex_c

    #firewall #security #highload #c++ #catboost #ml

  36. Осваиваем ML WAF: от текстовых правил к машинному обучению

    Всем привет, меня зовут Семён. Я пишу на С++ и работаю в группе Антиробота. Антиробот — это сервис, который на уровне L7 защищает нас от парсеров и DDoS-атак. Разрабатывать его начали более 10 лет назад — сначала он предназначался только для защиты Поиска, затем был внутренним инструментом, который в онлайн‑режиме анализирует запросы к сервисам Яндекса. Постепенно Антиробот вырос в настоящий highload. Сейчас это часть облачного сервиса Smart Web Security (SWS). В этой статье я расскажу, как с нашим сервисом мы прошли путь от текстовых правил до машинного обучения. Вы узнаете, зачем вообще нужен Web Application Firewall (WAF) — межсетевой экран для веб-приложений — и разберётесь, как он устроен. А ещё — как работают рулсеты, почему у нас их целых три и какие существуют метрики для оценки качества и быстродействия сервиса.

    habr.com/ru/companies/yandex_c

    #firewall #security #highload #c++ #catboost #ml

  37. XGBoost альтернатива CatBoost для работы с категориальными данными???

    Новый категориальный ре-кодер в XGBoost обещает избавить нас от рутины ручного кодирования и опередит CatBoost по качеству работы с категориальными данными?

    habr.com/ru/articles/965382/

    #xgboost #catboost #boosting #категориальные_данные #категориальные_признаки #сырые_данные

  38. XGBoost альтернатива CatBoost для работы с категориальными данными???

    Новый категориальный ре-кодер в XGBoost обещает избавить нас от рутины ручного кодирования и опередит CatBoost по качеству работы с категориальными данными?

    habr.com/ru/articles/965382/

    #xgboost #catboost #boosting #категориальные_данные #категориальные_признаки #сырые_данные

  39. XGBoost альтернатива CatBoost для работы с категориальными данными???

    Новый категориальный ре-кодер в XGBoost обещает избавить нас от рутины ручного кодирования и опередит CatBoost по качеству работы с категориальными данными?

    habr.com/ru/articles/965382/

    #xgboost #catboost #boosting #категориальные_данные #категориальные_признаки #сырые_данные

  40. XGBoost альтернатива CatBoost для работы с категориальными данными???

    Новый категориальный ре-кодер в XGBoost обещает избавить нас от рутины ручного кодирования и опередит CatBoost по качеству работы с категориальными данными?

    habr.com/ru/articles/965382/

    #xgboost #catboost #boosting #категориальные_данные #категориальные_признаки #сырые_данные

  41. Борьба с дисбалансом классов. Undersampling

    Привет, Хабр! На связи KozhinDev и ml-разработчик Приходько Александр. Это вторая статья в цикле публикаций по теме борьбы с дисбалансом классов в машинном обучении. В предыдущей статье мы рассмотрели актуальность данной проблемы и сравнили методы борьбы без внесения изменений в данные: балансировка весов классов и изменение порога принятия решения моделью. В данной части будем тестировать балансировку данных методом undersampling из библиотеки imblearn.

    habr.com/ru/companies/kozhinde

    #машинное_обучение #logistic_regression #xgboost #lightgbm #catboost #баланс_классов #undersampling

  42. Борьба с дисбалансом классов. Undersampling

    Привет, Хабр! На связи KozhinDev и ml-разработчик Приходько Александр. Это вторая статья в цикле публикаций по теме борьбы с дисбалансом классов в машинном обучении. В предыдущей статье мы рассмотрели актуальность данной проблемы и сравнили методы борьбы без внесения изменений в данные: балансировка весов классов и изменение порога принятия решения моделью. В данной части будем тестировать балансировку данных методом undersampling из библиотеки imblearn.

    habr.com/ru/companies/kozhinde

    #машинное_обучение #logistic_regression #xgboost #lightgbm #catboost #баланс_классов #undersampling

  43. Борьба с дисбалансом классов. Undersampling

    Привет, Хабр! На связи KozhinDev и ml-разработчик Приходько Александр. Это вторая статья в цикле публикаций по теме борьбы с дисбалансом классов в машинном обучении. В предыдущей статье мы рассмотрели актуальность данной проблемы и сравнили методы борьбы без внесения изменений в данные: балансировка весов классов и изменение порога принятия решения моделью. В данной части будем тестировать балансировку данных методом undersampling из библиотеки imblearn.

    habr.com/ru/companies/kozhinde

    #машинное_обучение #logistic_regression #xgboost #lightgbm #catboost #баланс_классов #undersampling

  44. Борьба с дисбалансом классов. Undersampling

    Привет, Хабр! На связи KozhinDev и ml-разработчик Приходько Александр. Это вторая статья в цикле публикаций по теме борьбы с дисбалансом классов в машинном обучении. В предыдущей статье мы рассмотрели актуальность данной проблемы и сравнили методы борьбы без внесения изменений в данные: балансировка весов классов и изменение порога принятия решения моделью. В данной части будем тестировать балансировку данных методом undersampling из библиотеки imblearn.

    habr.com/ru/companies/kozhinde

    #машинное_обучение #logistic_regression #xgboost #lightgbm #catboost #баланс_классов #undersampling

  45. Лучшие фреймворки для машинного обучения в 2025 году

    Сегодня ни один крупный проект в области машинного обучения (ML) не обходится без фреймворков — готовых наборов библиотек, в которых базовые алгоритмы уже оптимизированы для различных архитектур. Выбор правильного фреймворка не только упрощает разработку, но и определяет успех проектов по внедрению искусственного интеллекта. В этой статье эксперты лаборатории искусственного интеллекта российской ИТ-компании «Криптонит» рассматривают самые актуальные фреймворки для машинного обучения, анализируют причины их популярности, ключевые области применения и тенденции развития. Аналитика строится как на собственном опыте, так и на данных специализированных источников, таких как GeeksforGeeks, Upgrad, Octal Software и других, чтобы предоставить аргументированный и непредвзятый обзор. Мы разделили обзор на две части. В первой рассматриваются фреймворки для глубокого обучения. Они ориентированы на построение и обучение нейронных сетей, в том числе сложных архитектур, таких как свёрточные модели и трансформеры. Вторая часть посвящена фреймворкам для классического машинного обучения. Они используются для работы с моделями, основанными на регрессии, решающих деревьях, методах ансамблирования (например, бустинг) и других алгоритмах без использования глубоких нейросетей.

    habr.com/ru/companies/kryptoni

    #машинное+обучение #фреймворки #ML #pytorch #tensorflow #scikitlearn #xgboost #catboost #lightgbm #jax

  46. Лучшие фреймворки для машинного обучения в 2025 году

    Сегодня ни один крупный проект в области машинного обучения (ML) не обходится без фреймворков — готовых наборов библиотек, в которых базовые алгоритмы уже оптимизированы для различных архитектур. Выбор правильного фреймворка не только упрощает разработку, но и определяет успех проектов по внедрению искусственного интеллекта. В этой статье эксперты лаборатории искусственного интеллекта российской ИТ-компании «Криптонит» рассматривают самые актуальные фреймворки для машинного обучения, анализируют причины их популярности, ключевые области применения и тенденции развития. Аналитика строится как на собственном опыте, так и на данных специализированных источников, таких как GeeksforGeeks, Upgrad, Octal Software и других, чтобы предоставить аргументированный и непредвзятый обзор. Мы разделили обзор на две части. В первой рассматриваются фреймворки для глубокого обучения. Они ориентированы на построение и обучение нейронных сетей, в том числе сложных архитектур, таких как свёрточные модели и трансформеры. Вторая часть посвящена фреймворкам для классического машинного обучения. Они используются для работы с моделями, основанными на регрессии, решающих деревьях, методах ансамблирования (например, бустинг) и других алгоритмах без использования глубоких нейросетей.

    habr.com/ru/companies/kryptoni

    #машинное+обучение #фреймворки #ML #pytorch #tensorflow #scikitlearn #xgboost #catboost #lightgbm #jax

  47. Лучшие фреймворки для машинного обучения в 2025 году

    Сегодня ни один крупный проект в области машинного обучения (ML) не обходится без фреймворков — готовых наборов библиотек, в которых базовые алгоритмы уже оптимизированы для различных архитектур. Выбор правильного фреймворка не только упрощает разработку, но и определяет успех проектов по внедрению искусственного интеллекта. В этой статье эксперты лаборатории искусственного интеллекта российской ИТ-компании «Криптонит» рассматривают самые актуальные фреймворки для машинного обучения, анализируют причины их популярности, ключевые области применения и тенденции развития. Аналитика строится как на собственном опыте, так и на данных специализированных источников, таких как GeeksforGeeks, Upgrad, Octal Software и других, чтобы предоставить аргументированный и непредвзятый обзор. Мы разделили обзор на две части. В первой рассматриваются фреймворки для глубокого обучения. Они ориентированы на построение и обучение нейронных сетей, в том числе сложных архитектур, таких как свёрточные модели и трансформеры. Вторая часть посвящена фреймворкам для классического машинного обучения. Они используются для работы с моделями, основанными на регрессии, решающих деревьях, методах ансамблирования (например, бустинг) и других алгоритмах без использования глубоких нейросетей.

    habr.com/ru/companies/kryptoni

    #машинное+обучение #фреймворки #ML #pytorch #tensorflow #scikitlearn #xgboost #catboost #lightgbm #jax

  48. Лучшие фреймворки для машинного обучения в 2025 году

    Сегодня ни один крупный проект в области машинного обучения (ML) не обходится без фреймворков — готовых наборов библиотек, в которых базовые алгоритмы уже оптимизированы для различных архитектур. Выбор правильного фреймворка не только упрощает разработку, но и определяет успех проектов по внедрению искусственного интеллекта. В этой статье эксперты лаборатории искусственного интеллекта российской ИТ-компании «Криптонит» рассматривают самые актуальные фреймворки для машинного обучения, анализируют причины их популярности, ключевые области применения и тенденции развития. Аналитика строится как на собственном опыте, так и на данных специализированных источников, таких как GeeksforGeeks, Upgrad, Octal Software и других, чтобы предоставить аргументированный и непредвзятый обзор. Мы разделили обзор на две части. В первой рассматриваются фреймворки для глубокого обучения. Они ориентированы на построение и обучение нейронных сетей, в том числе сложных архитектур, таких как свёрточные модели и трансформеры. Вторая часть посвящена фреймворкам для классического машинного обучения. Они используются для работы с моделями, основанными на регрессии, решающих деревьях, методах ансамблирования (например, бустинг) и других алгоритмах без использования глубоких нейросетей.

    habr.com/ru/companies/kryptoni

    #машинное+обучение #фреймворки #ML #pytorch #tensorflow #scikitlearn #xgboost #catboost #lightgbm #jax

  49. New pre-proof in Journal of Molecular Liquids: ML predicts NMR chemical shifts for metal complexes (45Sc, 49Ti, 89Y, 91Zr, 139La). CatBoost+RDKit ≈7% RMSE for Sc/Y/La; 9% Ti; 13% Zr. SHAP highlights cyclic motifs & electrostatics. Read: doi.org/10.1016/j.molliq.2025. #NMR #MachineLearning #MaterialsScience #TransitionMetals #RDKit #CatBoost #SHAP

  50. Shap-графики: как наглядно объяснить заказчику логику работы модели

    Всем привет. Я Андрей Бояренков, лидер кластера бизнес-моделей стрима "Разработка моделей КИБ и СМБ" банка ВТБ. В этой статье расскажу о том, какие на мой взгляд типы графиков необходимо построить, чтобы наиболее оптимальным образом показать заказчику логику работы фичей в моделях.

    habr.com/ru/companies/vtb/arti

    #shap #machine_learning #catboost #data_science #python #моделирование