#catboost — Public Fediverse posts on home.social

Habr @[email protected] · 2026-05-15 · 19:22 UTC

FlakyDetector 2.0: Как я превратил сырое исследование в продакшен-инструмент с AST, ML и красивым дашбордом…

Представь: пятница, вечер. Ты запускаешь CI для последнего пулл-реквеста, идёшь наливать кофе, возвращаешься… а билд упал. Один тест. Ты перезапускаешь проходит. «Флаки», — вздыхаешь ты и ставишь лейбл flaky . На следующей неделе история повторяется. Потом ещё раз. Мы привыкли, что нестабильные тесты — это неизбежное зло . Их ловят повторными прогонами, а если повезёт вырезают. Но знаешь, что реально бесит? В 80% случаев корень проблемы можно найти, просто посмотрев на код теста. Я написал инструмент, который это делает автоматически. Без логов CI, без истории прогонов — только AST и машинное обучение. Назвал его FlakyDetector . Первая версия была исследовательским прототипом (про него у меня выходила статья на Хабре ). А теперь — это полноценный продукт: CLI, веб-дашборд, CI-интеграция и даже React-фронтенд. И да, он open source. Давай разберёмся, как это устроено .

https://habr.com/ru/articles/1035782/

#python #ast #catboost #flaky_tests #тестирование #machine_learning #test_smells #fastapi #static_analysis

#static_analysis #fastapi #test_smells #machine_learning #тестирование #flaky_tests

Habr @[email protected] · 2026-05-15 · 19:22 UTC

FlakyDetector 2.0: Как я превратил сырое исследование в продакшен-инструмент с AST, ML и красивым дашбордом…

Представь: пятница, вечер. Ты запускаешь CI для последнего пулл-реквеста, идёшь наливать кофе, возвращаешься… а билд упал. Один тест. Ты перезапускаешь проходит. «Флаки», — вздыхаешь ты и ставишь лейбл flaky . На следующей неделе история повторяется. Потом ещё раз. Мы привыкли, что нестабильные тесты — это неизбежное зло . Их ловят повторными прогонами, а если повезёт вырезают. Но знаешь, что реально бесит? В 80% случаев корень проблемы можно найти, просто посмотрев на код теста. Я написал инструмент, который это делает автоматически. Без логов CI, без истории прогонов — только AST и машинное обучение. Назвал его FlakyDetector . Первая версия была исследовательским прототипом (про него у меня выходила статья на Хабре ). А теперь — это полноценный продукт: CLI, веб-дашборд, CI-интеграция и даже React-фронтенд. И да, он open source. Давай разберёмся, как это устроено .

https://habr.com/ru/articles/1035782/

#python #ast #catboost #flaky_tests #тестирование #machine_learning #test_smells #fastapi #static_analysis

#static_analysis #fastapi #test_smells #machine_learning #тестирование #flaky_tests

Habr @[email protected] · 2026-05-15 · 19:22 UTC

FlakyDetector 2.0: Как я превратил сырое исследование в продакшен-инструмент с AST, ML и красивым дашбордом…

Представь: пятница, вечер. Ты запускаешь CI для последнего пулл-реквеста, идёшь наливать кофе, возвращаешься… а билд упал. Один тест. Ты перезапускаешь проходит. «Флаки», — вздыхаешь ты и ставишь лейбл flaky . На следующей неделе история повторяется. Потом ещё раз. Мы привыкли, что нестабильные тесты — это неизбежное зло . Их ловят повторными прогонами, а если повезёт вырезают. Но знаешь, что реально бесит? В 80% случаев корень проблемы можно найти, просто посмотрев на код теста. Я написал инструмент, который это делает автоматически. Без логов CI, без истории прогонов — только AST и машинное обучение. Назвал его FlakyDetector . Первая версия была исследовательским прототипом (про него у меня выходила статья на Хабре ). А теперь — это полноценный продукт: CLI, веб-дашборд, CI-интеграция и даже React-фронтенд. И да, он open source. Давай разберёмся, как это устроено .

https://habr.com/ru/articles/1035782/

#python #ast #catboost #flaky_tests #тестирование #machine_learning #test_smells #fastapi #static_analysis

#static_analysis #fastapi #test_smells #machine_learning #тестирование #flaky_tests

Habr @[email protected] · 2026-05-15 · 19:22 UTC

FlakyDetector 2.0: Как я превратил сырое исследование в продакшен-инструмент с AST, ML и красивым дашбордом…

Представь: пятница, вечер. Ты запускаешь CI для последнего пулл-реквеста, идёшь наливать кофе, возвращаешься… а билд упал. Один тест. Ты перезапускаешь проходит. «Флаки», — вздыхаешь ты и ставишь лейбл flaky . На следующей неделе история повторяется. Потом ещё раз. Мы привыкли, что нестабильные тесты — это неизбежное зло . Их ловят повторными прогонами, а если повезёт вырезают. Но знаешь, что реально бесит? В 80% случаев корень проблемы можно найти, просто посмотрев на код теста. Я написал инструмент, который это делает автоматически. Без логов CI, без истории прогонов — только AST и машинное обучение. Назвал его FlakyDetector . Первая версия была исследовательским прототипом (про него у меня выходила статья на Хабре ). А теперь — это полноценный продукт: CLI, веб-дашборд, CI-интеграция и даже React-фронтенд. И да, он open source. Давай разберёмся, как это устроено .

https://habr.com/ru/articles/1035782/

#python #ast #catboost #flaky_tests #тестирование #machine_learning #test_smells #fastapi #static_analysis

#python #ast #catboost #flaky_tests #тестирование #machine_learning

Habr @[email protected] · 2026-04-30 · 08:02 UTC

Как закешировать интеллект: LLM Cache в поиске Яндекс Лавки

Меня зовут Алексей Щекалёв, я работаю в команде машинного обучения Яндекс Лавки. Как думаете, что общего между пакетом молока, айфоном, дрелью и лабубу? Похоже на начало анекдота, но для нас это серьёзный технический вопрос. Ответ на него определяет, найдут ли пользователи то, что ищут, или разочарованно закроют приложение. Мы столкнулись с этим вопросом в 2025 году, когда наш отлаженный поиск по продуктовому каталогу сломался о новую модель продаж. Тяжёлые модели понимали новые товары, но работали слишком медленно для рантайма, а быстрые не справлялись. Переобучать весь стек на каждый новый ассортимент было бы слишком дорого и долго. Казалось, что компромисс «качество vs скорость» неразрешим, но мы нашли третий путь.

https://habr.com/ru/companies/yandex/articles/1029142/

#машинное_обучение #llm #llmархитектура #доставка #catboost

#catboost #доставка #llmархитектура #llm #машинное_обучение

Habr @[email protected] · 2026-04-30 · 08:02 UTC

Как закешировать интеллект: LLM Cache в поиске Яндекс Лавки

Меня зовут Алексей Щекалёв, я работаю в команде машинного обучения Яндекс Лавки. Как думаете, что общего между пакетом молока, айфоном, дрелью и лабубу? Похоже на начало анекдота, но для нас это серьёзный технический вопрос. Ответ на него определяет, найдут ли пользователи то, что ищут, или разочарованно закроют приложение. Мы столкнулись с этим вопросом в 2025 году, когда наш отлаженный поиск по продуктовому каталогу сломался о новую модель продаж. Тяжёлые модели понимали новые товары, но работали слишком медленно для рантайма, а быстрые не справлялись. Переобучать весь стек на каждый новый ассортимент было бы слишком дорого и долго. Казалось, что компромисс «качество vs скорость» неразрешим, но мы нашли третий путь.

https://habr.com/ru/companies/yandex/articles/1029142/

#машинное_обучение #llm #llmархитектура #доставка #catboost

#catboost #доставка #llmархитектура #llm #машинное_обучение

Habr @[email protected] · 2026-04-30 · 08:02 UTC

Как закешировать интеллект: LLM Cache в поиске Яндекс Лавки

Меня зовут Алексей Щекалёв, я работаю в команде машинного обучения Яндекс Лавки. Как думаете, что общего между пакетом молока, айфоном, дрелью и лабубу? Похоже на начало анекдота, но для нас это серьёзный технический вопрос. Ответ на него определяет, найдут ли пользователи то, что ищут, или разочарованно закроют приложение. Мы столкнулись с этим вопросом в 2025 году, когда наш отлаженный поиск по продуктовому каталогу сломался о новую модель продаж. Тяжёлые модели понимали новые товары, но работали слишком медленно для рантайма, а быстрые не справлялись. Переобучать весь стек на каждый новый ассортимент было бы слишком дорого и долго. Казалось, что компромисс «качество vs скорость» неразрешим, но мы нашли третий путь.

https://habr.com/ru/companies/yandex/articles/1029142/

#машинное_обучение #llm #llmархитектура #доставка #catboost

#catboost #доставка #llmархитектура #llm #машинное_обучение

Habr @[email protected] · 2026-04-30 · 08:02 UTC

Как закешировать интеллект: LLM Cache в поиске Яндекс Лавки

Меня зовут Алексей Щекалёв, я работаю в команде машинного обучения Яндекс Лавки. Как думаете, что общего между пакетом молока, айфоном, дрелью и лабубу? Похоже на начало анекдота, но для нас это серьёзный технический вопрос. Ответ на него определяет, найдут ли пользователи то, что ищут, или разочарованно закроют приложение. Мы столкнулись с этим вопросом в 2025 году, когда наш отлаженный поиск по продуктовому каталогу сломался о новую модель продаж. Тяжёлые модели понимали новые товары, но работали слишком медленно для рантайма, а быстрые не справлялись. Переобучать весь стек на каждый новый ассортимент было бы слишком дорого и долго. Казалось, что компромисс «качество vs скорость» неразрешим, но мы нашли третий путь.

https://habr.com/ru/companies/yandex/articles/1029142/

#машинное_обучение #llm #llmархитектура #доставка #catboost

Habr @[email protected] · 2026-04-02 · 07:02 UTC

Как мы научили CatBoost находить борщевик на спутниковых снимках

С 1 марта 2026 года владельцы участков обязаны контролировать распространение борщевика Сосновского на законодательном уровне. Основным инструментом мониторинга стали спутниковые снимки, поскольку на них можно быстро обнаруживать очаги распространения борщевика на больших площадях. Однако ручное картографирование огромных территорий по снимкам с воздуха — процесс дорогой и плохо масштабируемый. Меня зовут Сергей Кукуруз, я руковожу ML‑проектами в центре технологий для общества Yandex Cloud. В этой статье расскажу, как мы совместно со студентами Школы анализа данных (ШАД), а также с движением добровольцев «СтопБорщевик» автоматизировали этот процесс с помощью машинного обучения. Мы подробно разберём технический пайплайн: от нормализации GeoTIFF‑файлов и извлечения признаков (индекс CIVE) до обучения модели в CatBoost. Я расскажу, почему для классификации объектов на спутниковых снимках градиентный бустинг зачастую эффективнее нейросетей, и как применить этот стек для поиска любых объектов — от лесных вырубок до руин крепостей. Собственный дата‑центр не потребуется, это можно сделать в домашних условиях — главное, чтобы у вас было достаточно спутниковых снимков для разметки данных:) Кому любопытно — добро пожаловать под кат!

https://habr.com/ru/companies/yandex/articles/1017876/

#computer_vision #data_science #экология #борщевик #ml #ai #ии #catboost

#catboost #ии #ai #ml #борщевик #экология

Habr @[email protected] · 2026-04-02 · 07:02 UTC

Как мы научили CatBoost находить борщевик на спутниковых снимках

С 1 марта 2026 года владельцы участков обязаны контролировать распространение борщевика Сосновского на законодательном уровне. Основным инструментом мониторинга стали спутниковые снимки, поскольку на них можно быстро обнаруживать очаги распространения борщевика на больших площадях. Однако ручное картографирование огромных территорий по снимкам с воздуха — процесс дорогой и плохо масштабируемый. Меня зовут Сергей Кукуруз, я руковожу ML‑проектами в центре технологий для общества Yandex Cloud. В этой статье расскажу, как мы совместно со студентами Школы анализа данных (ШАД), а также с движением добровольцев «СтопБорщевик» автоматизировали этот процесс с помощью машинного обучения. Мы подробно разберём технический пайплайн: от нормализации GeoTIFF‑файлов и извлечения признаков (индекс CIVE) до обучения модели в CatBoost. Я расскажу, почему для классификации объектов на спутниковых снимках градиентный бустинг зачастую эффективнее нейросетей, и как применить этот стек для поиска любых объектов — от лесных вырубок до руин крепостей. Собственный дата‑центр не потребуется, это можно сделать в домашних условиях — главное, чтобы у вас было достаточно спутниковых снимков для разметки данных:) Кому любопытно — добро пожаловать под кат!

https://habr.com/ru/companies/yandex/articles/1017876/

#computer_vision #data_science #экология #борщевик #ml #ai #ии #catboost

#catboost #ии #ai #ml #борщевик #экология

Habr @[email protected] · 2026-04-02 · 07:02 UTC

Как мы научили CatBoost находить борщевик на спутниковых снимках

С 1 марта 2026 года владельцы участков обязаны контролировать распространение борщевика Сосновского на законодательном уровне. Основным инструментом мониторинга стали спутниковые снимки, поскольку на них можно быстро обнаруживать очаги распространения борщевика на больших площадях. Однако ручное картографирование огромных территорий по снимкам с воздуха — процесс дорогой и плохо масштабируемый. Меня зовут Сергей Кукуруз, я руковожу ML‑проектами в центре технологий для общества Yandex Cloud. В этой статье расскажу, как мы совместно со студентами Школы анализа данных (ШАД), а также с движением добровольцев «СтопБорщевик» автоматизировали этот процесс с помощью машинного обучения. Мы подробно разберём технический пайплайн: от нормализации GeoTIFF‑файлов и извлечения признаков (индекс CIVE) до обучения модели в CatBoost. Я расскажу, почему для классификации объектов на спутниковых снимках градиентный бустинг зачастую эффективнее нейросетей, и как применить этот стек для поиска любых объектов — от лесных вырубок до руин крепостей. Собственный дата‑центр не потребуется, это можно сделать в домашних условиях — главное, чтобы у вас было достаточно спутниковых снимков для разметки данных:) Кому любопытно — добро пожаловать под кат!

https://habr.com/ru/companies/yandex/articles/1017876/

#computer_vision #data_science #экология #борщевик #ml #ai #ии #catboost

#catboost #ии #ai #ml #борщевик #экология

Habr @[email protected] · 2026-04-02 · 07:02 UTC

Как мы научили CatBoost находить борщевик на спутниковых снимках

С 1 марта 2026 года владельцы участков обязаны контролировать распространение борщевика Сосновского на законодательном уровне. Основным инструментом мониторинга стали спутниковые снимки, поскольку на них можно быстро обнаруживать очаги распространения борщевика на больших площадях. Однако ручное картографирование огромных территорий по снимкам с воздуха — процесс дорогой и плохо масштабируемый. Меня зовут Сергей Кукуруз, я руковожу ML‑проектами в центре технологий для общества Yandex Cloud. В этой статье расскажу, как мы совместно со студентами Школы анализа данных (ШАД), а также с движением добровольцев «СтопБорщевик» автоматизировали этот процесс с помощью машинного обучения. Мы подробно разберём технический пайплайн: от нормализации GeoTIFF‑файлов и извлечения признаков (индекс CIVE) до обучения модели в CatBoost. Я расскажу, почему для классификации объектов на спутниковых снимках градиентный бустинг зачастую эффективнее нейросетей, и как применить этот стек для поиска любых объектов — от лесных вырубок до руин крепостей. Собственный дата‑центр не потребуется, это можно сделать в домашних условиях — главное, чтобы у вас было достаточно спутниковых снимков для разметки данных:) Кому любопытно — добро пожаловать под кат!

https://habr.com/ru/companies/yandex/articles/1017876/

#computer_vision #data_science #экология #борщевик #ml #ai #ии #catboost

#computer_vision #data_science #экология #борщевик #ml #ai

Habr @[email protected] · 2026-04-01 · 19:02 UTC

ML и инфобез: три подхода для поиска аномалий во временных рядах

Представьте себе инфраструктуру крупной компании, где хранятся миллионы файлов, и сотрудники не только постоянно взаимодействуют с ними, но и создают новые. В этом бесконечном потоке событий крайне сложно вручную заметить признаки надвигающейся угрозы: будь то инсайдер, копирующий данные, или вирус, массово шифрующий файлы. Использование машинного обучения — один из эффективных способов автоматизации поиска таких угроз. В этой статье мы рассмотрим, как одну и ту же задачу можно решать разными ML алгоритмами: Isolation Forest, Catboost, Autoncoder. В чём особенности, преимущества и ограничения каждого подхода?

https://habr.com/ru/articles/1018204/

#ML #anomaly_detection #isolation_forest #catboost #autoencoder

#autoencoder #catboost #isolation_forest #anomaly_detection #ml

Habr @[email protected] · 2026-04-01 · 19:02 UTC

ML и инфобез: три подхода для поиска аномалий во временных рядах

Представьте себе инфраструктуру крупной компании, где хранятся миллионы файлов, и сотрудники не только постоянно взаимодействуют с ними, но и создают новые. В этом бесконечном потоке событий крайне сложно вручную заметить признаки надвигающейся угрозы: будь то инсайдер, копирующий данные, или вирус, массово шифрующий файлы. Использование машинного обучения — один из эффективных способов автоматизации поиска таких угроз. В этой статье мы рассмотрим, как одну и ту же задачу можно решать разными ML алгоритмами: Isolation Forest, Catboost, Autoncoder. В чём особенности, преимущества и ограничения каждого подхода?

https://habr.com/ru/articles/1018204/

#ML #anomaly_detection #isolation_forest #catboost #autoencoder

#autoencoder #catboost #isolation_forest #anomaly_detection #ml

Habr @[email protected] · 2026-04-01 · 19:02 UTC

ML и инфобез: три подхода для поиска аномалий во временных рядах

Представьте себе инфраструктуру крупной компании, где хранятся миллионы файлов, и сотрудники не только постоянно взаимодействуют с ними, но и создают новые. В этом бесконечном потоке событий крайне сложно вручную заметить признаки надвигающейся угрозы: будь то инсайдер, копирующий данные, или вирус, массово шифрующий файлы. Использование машинного обучения — один из эффективных способов автоматизации поиска таких угроз. В этой статье мы рассмотрим, как одну и ту же задачу можно решать разными ML алгоритмами: Isolation Forest, Catboost, Autoncoder. В чём особенности, преимущества и ограничения каждого подхода?

https://habr.com/ru/articles/1018204/

#ML #anomaly_detection #isolation_forest #catboost #autoencoder

#autoencoder #catboost #isolation_forest #anomaly_detection #ml

Habr @[email protected] · 2026-04-01 · 19:02 UTC

ML и инфобез: три подхода для поиска аномалий во временных рядах

Представьте себе инфраструктуру крупной компании, где хранятся миллионы файлов, и сотрудники не только постоянно взаимодействуют с ними, но и создают новые. В этом бесконечном потоке событий крайне сложно вручную заметить признаки надвигающейся угрозы: будь то инсайдер, копирующий данные, или вирус, массово шифрующий файлы. Использование машинного обучения — один из эффективных способов автоматизации поиска таких угроз. В этой статье мы рассмотрим, как одну и ту же задачу можно решать разными ML алгоритмами: Isolation Forest, Catboost, Autoncoder. В чём особенности, преимущества и ограничения каждого подхода?

https://habr.com/ru/articles/1018204/

#ML #anomaly_detection #isolation_forest #catboost #autoencoder

#ml #anomaly_detection #isolation_forest #catboost #autoencoder

Habr @[email protected] · 2026-03-08 · 10:22 UTC

Отказ от ответа в табличной классификации: max-prob, entropy и conformal sets на CatBoost

Модель не обязана отвечать всегда. На мультиклассовой табличке ( letter ) я сравнил 3 способа отказа для CatBoost: maxprob, entropy/margin и conformal APS. Результаты — в risk–coverage кривых и таблице «coverage → ошибка», чтобы быстро понять, какой метод лучше “отбрасывает” ошибки отказами.

https://habr.com/ru/articles/1007870/

#selective_classification #abstention #отказ_от_ответа #conformal_prediction #conformal_sets #APS #CatBoost #табличные_данные #riskcoverage #uncertainty

#uncertainty #riskcoverage #табличные_данные #catboost #aps #conformal_sets

Habr @[email protected] · 2026-03-08 · 10:22 UTC

Отказ от ответа в табличной классификации: max-prob, entropy и conformal sets на CatBoost

Модель не обязана отвечать всегда. На мультиклассовой табличке ( letter ) я сравнил 3 способа отказа для CatBoost: maxprob, entropy/margin и conformal APS. Результаты — в risk–coverage кривых и таблице «coverage → ошибка», чтобы быстро понять, какой метод лучше “отбрасывает” ошибки отказами.

https://habr.com/ru/articles/1007870/

#selective_classification #abstention #отказ_от_ответа #conformal_prediction #conformal_sets #APS #CatBoost #табличные_данные #riskcoverage #uncertainty

#uncertainty #riskcoverage #табличные_данные #catboost #aps #conformal_sets

Habr @[email protected] · 2026-03-08 · 10:22 UTC

Отказ от ответа в табличной классификации: max-prob, entropy и conformal sets на CatBoost

Модель не обязана отвечать всегда. На мультиклассовой табличке ( letter ) я сравнил 3 способа отказа для CatBoost: maxprob, entropy/margin и conformal APS. Результаты — в risk–coverage кривых и таблице «coverage → ошибка», чтобы быстро понять, какой метод лучше “отбрасывает” ошибки отказами.

https://habr.com/ru/articles/1007870/

#selective_classification #abstention #отказ_от_ответа #conformal_prediction #conformal_sets #APS #CatBoost #табличные_данные #riskcoverage #uncertainty

#catboost #aps #conformal_sets #conformal_prediction #отказ_от_ответа #abstention

Habr @[email protected] · 2026-03-08 · 10:22 UTC

Отказ от ответа в табличной классификации: max-prob, entropy и conformal sets на CatBoost

Модель не обязана отвечать всегда. На мультиклассовой табличке ( letter ) я сравнил 3 способа отказа для CatBoost: maxprob, entropy/margin и conformal APS. Результаты — в risk–coverage кривых и таблице «coverage → ошибка», чтобы быстро понять, какой метод лучше “отбрасывает” ошибки отказами.

https://habr.com/ru/articles/1007870/

#selective_classification #abstention #отказ_от_ответа #conformal_prediction #conformal_sets #APS #CatBoost #табличные_данные #riskcoverage #uncertainty

#selective_classification #abstention #отказ_от_ответа #conformal_prediction #conformal_sets #aps

Habr @[email protected] · 2026-03-05 · 09:02 UTC

Как мы научились честно считать эффект промокодов: Causal Inference в онлайн-доставке X5 Digital

Сегодня расскажу о модели, которую мы построили для оценки реального эффекта промокодов. Главные вопросы: кому, какой, и зачем мы выдаем промокод. Спойлер: ответ нас удивил. И именно этот ответ стал главной причиной, по которой эту модель вообще стоило строить. Представьте стандартный отчёт по промокампании: «Пользователи, применившие промокод, потратили на 800 рублей больше среднего». Бизнес доволен, маркетинг рапортует об успехе. Но подождите, а сколько из них потратили бы эти деньги и без промокода? Это не риторический вопрос. Это принципиальная проблема, которая называется selection bias — систематическая ошибка отбора.

https://habr.com/ru/companies/X5Tech/articles/1005410/

#causal_inference #differenceindifference #propensity_score_matching #uplift_modeling #a_b_testing #counterfactual_learning #catboost #machine_learning #data_science #python

#python #data_science #machine_learning #catboost #counterfactual_learning #a_b_testing

Habr @[email protected] · 2026-03-05 · 09:02 UTC

Как мы научились честно считать эффект промокодов: Causal Inference в онлайн-доставке X5 Digital

Сегодня расскажу о модели, которую мы построили для оценки реального эффекта промокодов. Главные вопросы: кому, какой, и зачем мы выдаем промокод. Спойлер: ответ нас удивил. И именно этот ответ стал главной причиной, по которой эту модель вообще стоило строить. Представьте стандартный отчёт по промокампании: «Пользователи, применившие промокод, потратили на 800 рублей больше среднего». Бизнес доволен, маркетинг рапортует об успехе. Но подождите, а сколько из них потратили бы эти деньги и без промокода? Это не риторический вопрос. Это принципиальная проблема, которая называется selection bias — систематическая ошибка отбора.

https://habr.com/ru/companies/X5Tech/articles/1005410/

#causal_inference #differenceindifference #propensity_score_matching #uplift_modeling #a_b_testing #counterfactual_learning #catboost #machine_learning #data_science #python

#python #data_science #machine_learning #catboost #counterfactual_learning #a_b_testing

Habr @[email protected] · 2026-03-05 · 09:02 UTC

Как мы научились честно считать эффект промокодов: Causal Inference в онлайн-доставке X5 Digital

Сегодня расскажу о модели, которую мы построили для оценки реального эффекта промокодов. Главные вопросы: кому, какой, и зачем мы выдаем промокод. Спойлер: ответ нас удивил. И именно этот ответ стал главной причиной, по которой эту модель вообще стоило строить. Представьте стандартный отчёт по промокампании: «Пользователи, применившие промокод, потратили на 800 рублей больше среднего». Бизнес доволен, маркетинг рапортует об успехе. Но подождите, а сколько из них потратили бы эти деньги и без промокода? Это не риторический вопрос. Это принципиальная проблема, которая называется selection bias — систематическая ошибка отбора.

https://habr.com/ru/companies/X5Tech/articles/1005410/

#causal_inference #differenceindifference #propensity_score_matching #uplift_modeling #a_b_testing #counterfactual_learning #catboost #machine_learning #data_science #python

#python #data_science #machine_learning #catboost #counterfactual_learning #a_b_testing

Habr @[email protected] · 2026-03-05 · 09:02 UTC

Как мы научились честно считать эффект промокодов: Causal Inference в онлайн-доставке X5 Digital

Сегодня расскажу о модели, которую мы построили для оценки реального эффекта промокодов. Главные вопросы: кому, какой, и зачем мы выдаем промокод. Спойлер: ответ нас удивил. И именно этот ответ стал главной причиной, по которой эту модель вообще стоило строить. Представьте стандартный отчёт по промокампании: «Пользователи, применившие промокод, потратили на 800 рублей больше среднего». Бизнес доволен, маркетинг рапортует об успехе. Но подождите, а сколько из них потратили бы эти деньги и без промокода? Это не риторический вопрос. Это принципиальная проблема, которая называется selection bias — систематическая ошибка отбора.

https://habr.com/ru/companies/X5Tech/articles/1005410/

#causal_inference #differenceindifference #propensity_score_matching #uplift_modeling #a_b_testing #counterfactual_learning #catboost #machine_learning #data_science #python

#causal_inference #differenceindifference #propensity_score_matching #uplift_modeling #a_b_testing #counterfactual_learning

Habr @[email protected] · 2025-12-16 · 10:12 UTC

Борьба с дисбалансом классов. Ансамблевые и комбинированные методы

Привет, Хабр! На связи KozhinDev и ml-разработчик Приходько Александр. Это четвертая часть цикла о борьбе с дисбалансом классов. Предыдущие статьи: - В первой статье мы рассказали про суть проблемы дисбаланса классов и стандартные методы борьбы с ним; - Во второй статье обсуждались методы undersampling - удаление данных из распространенного класса; - В третьей статье рассматривались методы oversampling - генерация примеров редкого класса. В данной части мы рассмотрим комбинированные и ансамблевые методы библиотеки Imbalanced Learn .

https://habr.com/ru/companies/kozhindev/articles/975626/

#машинное_обучение #logistic_regression #xgboost #lightgbm #catboost #oversampling #баланс_классов

#баланс_классов #oversampling #catboost #lightgbm #xgboost #logistic_regression

Habr @[email protected] · 2025-12-16 · 10:12 UTC

Борьба с дисбалансом классов. Ансамблевые и комбинированные методы

Привет, Хабр! На связи KozhinDev и ml-разработчик Приходько Александр. Это четвертая часть цикла о борьбе с дисбалансом классов. Предыдущие статьи: - В первой статье мы рассказали про суть проблемы дисбаланса классов и стандартные методы борьбы с ним; - Во второй статье обсуждались методы undersampling - удаление данных из распространенного класса; - В третьей статье рассматривались методы oversampling - генерация примеров редкого класса. В данной части мы рассмотрим комбинированные и ансамблевые методы библиотеки Imbalanced Learn .

https://habr.com/ru/companies/kozhindev/articles/975626/

#машинное_обучение #logistic_regression #xgboost #lightgbm #catboost #oversampling #баланс_классов

#баланс_классов #oversampling #catboost #lightgbm #xgboost #logistic_regression

Habr @[email protected] · 2025-12-16 · 10:12 UTC

Борьба с дисбалансом классов. Ансамблевые и комбинированные методы

Привет, Хабр! На связи KozhinDev и ml-разработчик Приходько Александр. Это четвертая часть цикла о борьбе с дисбалансом классов. Предыдущие статьи: - В первой статье мы рассказали про суть проблемы дисбаланса классов и стандартные методы борьбы с ним; - Во второй статье обсуждались методы undersampling - удаление данных из распространенного класса; - В третьей статье рассматривались методы oversampling - генерация примеров редкого класса. В данной части мы рассмотрим комбинированные и ансамблевые методы библиотеки Imbalanced Learn .

https://habr.com/ru/companies/kozhindev/articles/975626/

#машинное_обучение #logistic_regression #xgboost #lightgbm #catboost #oversampling #баланс_классов

#баланс_классов #oversampling #catboost #lightgbm #xgboost #logistic_regression

Habr @[email protected] · 2025-12-16 · 10:12 UTC

Борьба с дисбалансом классов. Ансамблевые и комбинированные методы

Привет, Хабр! На связи KozhinDev и ml-разработчик Приходько Александр. Это четвертая часть цикла о борьбе с дисбалансом классов. Предыдущие статьи: - В первой статье мы рассказали про суть проблемы дисбаланса классов и стандартные методы борьбы с ним; - Во второй статье обсуждались методы undersampling - удаление данных из распространенного класса; - В третьей статье рассматривались методы oversampling - генерация примеров редкого класса. В данной части мы рассмотрим комбинированные и ансамблевые методы библиотеки Imbalanced Learn .

https://habr.com/ru/companies/kozhindev/articles/975626/

#машинное_обучение #logistic_regression #xgboost #lightgbm #catboost #oversampling #баланс_классов

#машинное_обучение #logistic_regression #xgboost #lightgbm #catboost #oversampling

Habr @[email protected] · 2025-11-25 · 10:12 UTC

Борьба с дисбалансом классов. Oversampling

Привет, Хабр! На связи KozhinDev и ml-разработчик Приходько Александр. Это третья статья в цикле публикаций по теме борьбы с проблемой дисбаланса классов в машинном обучении. В первой статье мы обсудили актуальность данной проблемы в машинном обучении, а также сравнили методы борьбы с ним, без внесения изменений в сами данные: изменение весов классов и порога принятия решения моделью. Во второй статье мы сравнивали undersampling-методы, которые удаляли представителей частого класса. В данной части мы протестируем методы балансировки данных методом oversampling из библиотеки imblearn . Суть данного метода заключается в том, что мы пытаемся бороться с дисбалансом классов генерируя данные для редкого класса. Мы рассмотрим разные способы генерации таких данных и протестируем их на синтетических данных.

https://habr.com/ru/companies/kozhindev/articles/968714/

#машинное_обучение #logistic_regression #xgboost #lightgbm #catboost #oversampling #баланс_классов

#машинное_обучение #logistic_regression #xgboost #lightgbm #catboost #oversampling

Habr @[email protected] · 2025-11-25 · 10:12 UTC

Борьба с дисбалансом классов. Oversampling

Привет, Хабр! На связи KozhinDev и ml-разработчик Приходько Александр. Это третья статья в цикле публикаций по теме борьбы с проблемой дисбаланса классов в машинном обучении. В первой статье мы обсудили актуальность данной проблемы в машинном обучении, а также сравнили методы борьбы с ним, без внесения изменений в сами данные: изменение весов классов и порога принятия решения моделью. Во второй статье мы сравнивали undersampling-методы, которые удаляли представителей частого класса. В данной части мы протестируем методы балансировки данных методом oversampling из библиотеки imblearn . Суть данного метода заключается в том, что мы пытаемся бороться с дисбалансом классов генерируя данные для редкого класса. Мы рассмотрим разные способы генерации таких данных и протестируем их на синтетических данных.

https://habr.com/ru/companies/kozhindev/articles/968714/

#машинное_обучение #logistic_regression #xgboost #lightgbm #catboost #oversampling #баланс_классов

#машинное_обучение #logistic_regression #xgboost #lightgbm #catboost #oversampling

Habr @[email protected] · 2025-11-25 · 10:12 UTC

Борьба с дисбалансом классов. Oversampling

Привет, Хабр! На связи KozhinDev и ml-разработчик Приходько Александр. Это третья статья в цикле публикаций по теме борьбы с проблемой дисбаланса классов в машинном обучении. В первой статье мы обсудили актуальность данной проблемы в машинном обучении, а также сравнили методы борьбы с ним, без внесения изменений в сами данные: изменение весов классов и порога принятия решения моделью. Во второй статье мы сравнивали undersampling-методы, которые удаляли представителей частого класса. В данной части мы протестируем методы балансировки данных методом oversampling из библиотеки imblearn . Суть данного метода заключается в том, что мы пытаемся бороться с дисбалансом классов генерируя данные для редкого класса. Мы рассмотрим разные способы генерации таких данных и протестируем их на синтетических данных.

https://habr.com/ru/companies/kozhindev/articles/968714/

#машинное_обучение #logistic_regression #xgboost #lightgbm #catboost #oversampling #баланс_классов

#машинное_обучение #logistic_regression #xgboost #lightgbm #catboost #oversampling

Habr @[email protected] · 2025-11-25 · 10:12 UTC

Борьба с дисбалансом классов. Oversampling

Привет, Хабр! На связи KozhinDev и ml-разработчик Приходько Александр. Это третья статья в цикле публикаций по теме борьбы с проблемой дисбаланса классов в машинном обучении. В первой статье мы обсудили актуальность данной проблемы в машинном обучении, а также сравнили методы борьбы с ним, без внесения изменений в сами данные: изменение весов классов и порога принятия решения моделью. Во второй статье мы сравнивали undersampling-методы, которые удаляли представителей частого класса. В данной части мы протестируем методы балансировки данных методом oversampling из библиотеки imblearn . Суть данного метода заключается в том, что мы пытаемся бороться с дисбалансом классов генерируя данные для редкого класса. Мы рассмотрим разные способы генерации таких данных и протестируем их на синтетических данных.

https://habr.com/ru/companies/kozhindev/articles/968714/

#машинное_обучение #logistic_regression #xgboost #lightgbm #catboost #oversampling #баланс_классов

#баланс_классов #oversampling #catboost #lightgbm #xgboost #logistic_regression

Habr @[email protected] · 2025-11-21 · 07:52 UTC

Осваиваем ML WAF: от текстовых правил к машинному обучению

Всем привет, меня зовут Семён. Я пишу на С++ и работаю в группе Антиробота. Антиробот — это сервис, который на уровне L7 защищает нас от парсеров и DDoS-атак. Разрабатывать его начали более 10 лет назад — сначала он предназначался только для защиты Поиска, затем был внутренним инструментом, который в онлайн‑режиме анализирует запросы к сервисам Яндекса. Постепенно Антиробот вырос в настоящий highload. Сейчас это часть облачного сервиса Smart Web Security (SWS). В этой статье я расскажу, как с нашим сервисом мы прошли путь от текстовых правил до машинного обучения. Вы узнаете, зачем вообще нужен Web Application Firewall (WAF) — межсетевой экран для веб-приложений — и разберётесь, как он устроен. А ещё — как работают рулсеты, почему у нас их целых три и какие существуют метрики для оценки качества и быстродействия сервиса.

https://habr.com/ru/companies/yandex_cloud_and_infra/articles/968678/

#firewall #security #highload #c++ #catboost #ml

#firewall #security #highload #c #catboost #ml

Habr @[email protected] · 2025-11-21 · 07:52 UTC

Осваиваем ML WAF: от текстовых правил к машинному обучению

Всем привет, меня зовут Семён. Я пишу на С++ и работаю в группе Антиробота. Антиробот — это сервис, который на уровне L7 защищает нас от парсеров и DDoS-атак. Разрабатывать его начали более 10 лет назад — сначала он предназначался только для защиты Поиска, затем был внутренним инструментом, который в онлайн‑режиме анализирует запросы к сервисам Яндекса. Постепенно Антиробот вырос в настоящий highload. Сейчас это часть облачного сервиса Smart Web Security (SWS). В этой статье я расскажу, как с нашим сервисом мы прошли путь от текстовых правил до машинного обучения. Вы узнаете, зачем вообще нужен Web Application Firewall (WAF) — межсетевой экран для веб-приложений — и разберётесь, как он устроен. А ещё — как работают рулсеты, почему у нас их целых три и какие существуют метрики для оценки качества и быстродействия сервиса.

https://habr.com/ru/companies/yandex_cloud_and_infra/articles/968678/

#firewall #security #highload #c++ #catboost #ml

#firewall #security #highload #c #catboost #ml

Habr @[email protected] · 2025-11-21 · 07:52 UTC

Осваиваем ML WAF: от текстовых правил к машинному обучению

Всем привет, меня зовут Семён. Я пишу на С++ и работаю в группе Антиробота. Антиробот — это сервис, который на уровне L7 защищает нас от парсеров и DDoS-атак. Разрабатывать его начали более 10 лет назад — сначала он предназначался только для защиты Поиска, затем был внутренним инструментом, который в онлайн‑режиме анализирует запросы к сервисам Яндекса. Постепенно Антиробот вырос в настоящий highload. Сейчас это часть облачного сервиса Smart Web Security (SWS). В этой статье я расскажу, как с нашим сервисом мы прошли путь от текстовых правил до машинного обучения. Вы узнаете, зачем вообще нужен Web Application Firewall (WAF) — межсетевой экран для веб-приложений — и разберётесь, как он устроен. А ещё — как работают рулсеты, почему у нас их целых три и какие существуют метрики для оценки качества и быстродействия сервиса.

https://habr.com/ru/companies/yandex_cloud_and_infra/articles/968678/

#firewall #security #highload #c++ #catboost #ml

#firewall #security #highload #c #catboost #ml

Habr @[email protected] · 2025-11-21 · 07:52 UTC

Осваиваем ML WAF: от текстовых правил к машинному обучению

Всем привет, меня зовут Семён. Я пишу на С++ и работаю в группе Антиробота. Антиробот — это сервис, который на уровне L7 защищает нас от парсеров и DDoS-атак. Разрабатывать его начали более 10 лет назад — сначала он предназначался только для защиты Поиска, затем был внутренним инструментом, который в онлайн‑режиме анализирует запросы к сервисам Яндекса. Постепенно Антиробот вырос в настоящий highload. Сейчас это часть облачного сервиса Smart Web Security (SWS). В этой статье я расскажу, как с нашим сервисом мы прошли путь от текстовых правил до машинного обучения. Вы узнаете, зачем вообще нужен Web Application Firewall (WAF) — межсетевой экран для веб-приложений — и разберётесь, как он устроен. А ещё — как работают рулсеты, почему у нас их целых три и какие существуют метрики для оценки качества и быстродействия сервиса.

https://habr.com/ru/companies/yandex_cloud_and_infra/articles/968678/

#firewall #security #highload #c++ #catboost #ml

#ml #catboost #c #highload #security #firewall

Habr @[email protected] · 2025-11-11 · 13:52 UTC

XGBoost альтернатива CatBoost для работы с категориальными данными???

Новый категориальный ре-кодер в XGBoost обещает избавить нас от рутины ручного кодирования и опередит CatBoost по качеству работы с категориальными данными?

https://habr.com/ru/articles/965382/

#xgboost #catboost #boosting #категориальные_данные #категориальные_признаки #сырые_данные

#сырые_данные #категориальные_признаки #категориальные_данные #boosting #catboost #xgboost

Habr @[email protected] · 2025-11-11 · 13:52 UTC

XGBoost альтернатива CatBoost для работы с категориальными данными???

Новый категориальный ре-кодер в XGBoost обещает избавить нас от рутины ручного кодирования и опередит CatBoost по качеству работы с категориальными данными?

https://habr.com/ru/articles/965382/

#xgboost #catboost #boosting #категориальные_данные #категориальные_признаки #сырые_данные

#сырые_данные #категориальные_признаки #категориальные_данные #boosting #catboost #xgboost

Habr @[email protected] · 2025-11-11 · 13:52 UTC

XGBoost альтернатива CatBoost для работы с категориальными данными???

Новый категориальный ре-кодер в XGBoost обещает избавить нас от рутины ручного кодирования и опередит CatBoost по качеству работы с категориальными данными?

https://habr.com/ru/articles/965382/

#xgboost #catboost #boosting #категориальные_данные #категориальные_признаки #сырые_данные

#сырые_данные #категориальные_признаки #категориальные_данные #boosting #catboost #xgboost

Habr @[email protected] · 2025-11-11 · 13:52 UTC

XGBoost альтернатива CatBoost для работы с категориальными данными???

Новый категориальный ре-кодер в XGBoost обещает избавить нас от рутины ручного кодирования и опередит CatBoost по качеству работы с категориальными данными?

https://habr.com/ru/articles/965382/

#xgboost #catboost #boosting #категориальные_данные #категориальные_признаки #сырые_данные

Habr @[email protected] · 2025-10-10 · 11:52 UTC

Борьба с дисбалансом классов. Undersampling

Привет, Хабр! На связи KozhinDev и ml-разработчик Приходько Александр. Это вторая статья в цикле публикаций по теме борьбы с дисбалансом классов в машинном обучении. В предыдущей статье мы рассмотрели актуальность данной проблемы и сравнили методы борьбы без внесения изменений в данные: балансировка весов классов и изменение порога принятия решения моделью. В данной части будем тестировать балансировку данных методом undersampling из библиотеки imblearn.

https://habr.com/ru/companies/kozhindev/articles/954402/

#машинное_обучение #logistic_regression #xgboost #lightgbm #catboost #баланс_классов #undersampling

#undersampling #баланс_классов #catboost #lightgbm #xgboost #logistic_regression

Habr @[email protected] · 2025-10-10 · 11:52 UTC

Борьба с дисбалансом классов. Undersampling

Привет, Хабр! На связи KozhinDev и ml-разработчик Приходько Александр. Это вторая статья в цикле публикаций по теме борьбы с дисбалансом классов в машинном обучении. В предыдущей статье мы рассмотрели актуальность данной проблемы и сравнили методы борьбы без внесения изменений в данные: балансировка весов классов и изменение порога принятия решения моделью. В данной части будем тестировать балансировку данных методом undersampling из библиотеки imblearn.

https://habr.com/ru/companies/kozhindev/articles/954402/

#машинное_обучение #logistic_regression #xgboost #lightgbm #catboost #баланс_классов #undersampling

#undersampling #баланс_классов #catboost #lightgbm #xgboost #logistic_regression

Habr @[email protected] · 2025-10-10 · 11:52 UTC

Борьба с дисбалансом классов. Undersampling

Привет, Хабр! На связи KozhinDev и ml-разработчик Приходько Александр. Это вторая статья в цикле публикаций по теме борьбы с дисбалансом классов в машинном обучении. В предыдущей статье мы рассмотрели актуальность данной проблемы и сравнили методы борьбы без внесения изменений в данные: балансировка весов классов и изменение порога принятия решения моделью. В данной части будем тестировать балансировку данных методом undersampling из библиотеки imblearn.

https://habr.com/ru/companies/kozhindev/articles/954402/

#машинное_обучение #logistic_regression #xgboost #lightgbm #catboost #баланс_классов #undersampling

#undersampling #баланс_классов #catboost #lightgbm #xgboost #logistic_regression

Habr @[email protected] · 2025-10-10 · 11:52 UTC

Борьба с дисбалансом классов. Undersampling

Привет, Хабр! На связи KozhinDev и ml-разработчик Приходько Александр. Это вторая статья в цикле публикаций по теме борьбы с дисбалансом классов в машинном обучении. В предыдущей статье мы рассмотрели актуальность данной проблемы и сравнили методы борьбы без внесения изменений в данные: балансировка весов классов и изменение порога принятия решения моделью. В данной части будем тестировать балансировку данных методом undersampling из библиотеки imblearn.

https://habr.com/ru/companies/kozhindev/articles/954402/

#машинное_обучение #logistic_regression #xgboost #lightgbm #catboost #баланс_классов #undersampling

#машинное_обучение #logistic_regression #xgboost #lightgbm #catboost #баланс_классов

Habr @[email protected] · 2025-09-25 · 08:52 UTC

Лучшие фреймворки для машинного обучения в 2025 году

Сегодня ни один крупный проект в области машинного обучения (ML) не обходится без фреймворков — готовых наборов библиотек, в которых базовые алгоритмы уже оптимизированы для различных архитектур. Выбор правильного фреймворка не только упрощает разработку, но и определяет успех проектов по внедрению искусственного интеллекта. В этой статье эксперты лаборатории искусственного интеллекта российской ИТ-компании «Криптонит» рассматривают самые актуальные фреймворки для машинного обучения, анализируют причины их популярности, ключевые области применения и тенденции развития. Аналитика строится как на собственном опыте, так и на данных специализированных источников, таких как GeeksforGeeks, Upgrad, Octal Software и других, чтобы предоставить аргументированный и непредвзятый обзор. Мы разделили обзор на две части. В первой рассматриваются фреймворки для глубокого обучения. Они ориентированы на построение и обучение нейронных сетей, в том числе сложных архитектур, таких как свёрточные модели и трансформеры. Вторая часть посвящена фреймворкам для классического машинного обучения. Они используются для работы с моделями, основанными на регрессии, решающих деревьях, методах ансамблирования (например, бустинг) и других алгоритмах без использования глубоких нейросетей.

https://habr.com/ru/companies/kryptonite/articles/950236/

#машинное+обучение #фреймворки #ML #pytorch #tensorflow #scikitlearn #xgboost #catboost #lightgbm #jax

#машинное #фреймворки #ml #pytorch #tensorflow #scikitlearn

Habr @[email protected] · 2025-09-25 · 08:52 UTC

Лучшие фреймворки для машинного обучения в 2025 году

Сегодня ни один крупный проект в области машинного обучения (ML) не обходится без фреймворков — готовых наборов библиотек, в которых базовые алгоритмы уже оптимизированы для различных архитектур. Выбор правильного фреймворка не только упрощает разработку, но и определяет успех проектов по внедрению искусственного интеллекта. В этой статье эксперты лаборатории искусственного интеллекта российской ИТ-компании «Криптонит» рассматривают самые актуальные фреймворки для машинного обучения, анализируют причины их популярности, ключевые области применения и тенденции развития. Аналитика строится как на собственном опыте, так и на данных специализированных источников, таких как GeeksforGeeks, Upgrad, Octal Software и других, чтобы предоставить аргументированный и непредвзятый обзор. Мы разделили обзор на две части. В первой рассматриваются фреймворки для глубокого обучения. Они ориентированы на построение и обучение нейронных сетей, в том числе сложных архитектур, таких как свёрточные модели и трансформеры. Вторая часть посвящена фреймворкам для классического машинного обучения. Они используются для работы с моделями, основанными на регрессии, решающих деревьях, методах ансамблирования (например, бустинг) и других алгоритмах без использования глубоких нейросетей.

https://habr.com/ru/companies/kryptonite/articles/950236/

#машинное+обучение #фреймворки #ML #pytorch #tensorflow #scikitlearn #xgboost #catboost #lightgbm #jax

#машинное #фреймворки #ml #pytorch #tensorflow #scikitlearn

Habr @[email protected] · 2025-09-25 · 08:52 UTC

Лучшие фреймворки для машинного обучения в 2025 году

Сегодня ни один крупный проект в области машинного обучения (ML) не обходится без фреймворков — готовых наборов библиотек, в которых базовые алгоритмы уже оптимизированы для различных архитектур. Выбор правильного фреймворка не только упрощает разработку, но и определяет успех проектов по внедрению искусственного интеллекта. В этой статье эксперты лаборатории искусственного интеллекта российской ИТ-компании «Криптонит» рассматривают самые актуальные фреймворки для машинного обучения, анализируют причины их популярности, ключевые области применения и тенденции развития. Аналитика строится как на собственном опыте, так и на данных специализированных источников, таких как GeeksforGeeks, Upgrad, Octal Software и других, чтобы предоставить аргументированный и непредвзятый обзор. Мы разделили обзор на две части. В первой рассматриваются фреймворки для глубокого обучения. Они ориентированы на построение и обучение нейронных сетей, в том числе сложных архитектур, таких как свёрточные модели и трансформеры. Вторая часть посвящена фреймворкам для классического машинного обучения. Они используются для работы с моделями, основанными на регрессии, решающих деревьях, методах ансамблирования (например, бустинг) и других алгоритмах без использования глубоких нейросетей.

https://habr.com/ru/companies/kryptonite/articles/950236/

#машинное+обучение #фреймворки #ML #pytorch #tensorflow #scikitlearn #xgboost #catboost #lightgbm #jax

#машинное #фреймворки #ml #pytorch #tensorflow #scikitlearn

Habr @[email protected] · 2025-09-25 · 08:52 UTC

Лучшие фреймворки для машинного обучения в 2025 году

Сегодня ни один крупный проект в области машинного обучения (ML) не обходится без фреймворков — готовых наборов библиотек, в которых базовые алгоритмы уже оптимизированы для различных архитектур. Выбор правильного фреймворка не только упрощает разработку, но и определяет успех проектов по внедрению искусственного интеллекта. В этой статье эксперты лаборатории искусственного интеллекта российской ИТ-компании «Криптонит» рассматривают самые актуальные фреймворки для машинного обучения, анализируют причины их популярности, ключевые области применения и тенденции развития. Аналитика строится как на собственном опыте, так и на данных специализированных источников, таких как GeeksforGeeks, Upgrad, Octal Software и других, чтобы предоставить аргументированный и непредвзятый обзор. Мы разделили обзор на две части. В первой рассматриваются фреймворки для глубокого обучения. Они ориентированы на построение и обучение нейронных сетей, в том числе сложных архитектур, таких как свёрточные модели и трансформеры. Вторая часть посвящена фреймворкам для классического машинного обучения. Они используются для работы с моделями, основанными на регрессии, решающих деревьях, методах ансамблирования (например, бустинг) и других алгоритмах без использования глубоких нейросетей.

https://habr.com/ru/companies/kryptonite/articles/950236/

#машинное+обучение #фреймворки #ML #pytorch #tensorflow #scikitlearn #xgboost #catboost #lightgbm #jax

#jax #lightgbm #catboost #xgboost #scikitlearn #tensorflow

Ilya Khodov Lab @[email protected] · 2025-08-29 · 11:10 UTC

New pre-proof in Journal of Molecular Liquids: ML predicts NMR chemical shifts for metal complexes (45Sc, 49Ti, 89Y, 91Zr, 139La). CatBoost+RDKit ≈7% RMSE for Sc/Y/La; 9% Ti; 13% Zr. SHAP highlights cyclic motifs & electrostatics. Read: https://doi.org/10.1016/j.molliq.2025.128417 #NMR #MachineLearning #MaterialsScience #TransitionMetals #RDKit #CatBoost #SHAP

#nmr #machinelearning #materialsscience #transitionmetals #rdkit #catboost

Habr @[email protected] · 2025-08-21 · 10:42 UTC

Shap-графики: как наглядно объяснить заказчику логику работы модели

Всем привет. Я Андрей Бояренков, лидер кластера бизнес-моделей стрима "Разработка моделей КИБ и СМБ" банка ВТБ. В этой статье расскажу о том, какие на мой взгляд типы графиков необходимо построить, чтобы наиболее оптимальным образом показать заказчику логику работы фичей в моделях.

https://habr.com/ru/companies/vtb/articles/938988/

#shap #machine_learning #catboost #data_science #python #моделирование

#моделирование #python #data_science #catboost #machine_learning #shap