home.social

#isolation_forest — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #isolation_forest, aggregated by home.social.

  1. ML и инфобез: три подхода для поиска аномалий во временных рядах

    Представьте себе инфраструктуру крупной компании, где хранятся миллионы файлов, и сотрудники не только постоянно взаимодействуют с ними, но и создают новые. В этом бесконечном потоке событий крайне сложно вручную заметить признаки надвигающейся угрозы: будь то инсайдер, копирующий данные, или вирус, массово шифрующий файлы. Использование машинного обучения — один из эффективных способов автоматизации поиска таких угроз. В этой статье мы рассмотрим, как одну и ту же задачу можно решать разными ML алгоритмами: Isolation Forest, Catboost, Autoncoder. В чём особенности, преимущества и ограничения каждого подхода?

    habr.com/ru/articles/1018204/

    #ML #anomaly_detection #isolation_forest #catboost #autoencoder

  2. Поиск аномалий: статистика или ML? Выбираем лучшее

    Поиск аномалий под микроскопом: от базовой статистики до робастных моделей с нуля на NumPy В машинном обучении поиск аномалий (Anomaly Detection) часто остается в тени классического обучения с учителем. Однако именно эта «иммунная система» данных спасает миллионы долларов в финтехе, предотвращает катастрофы на производстве и находит критические ошибки в медицинских картах. В этой статье мы не просто импортируем готовые методы из sklearn. Мы разберем математическую логику трех мощных подходов, напишем их «примитивные» реализации на NumPy/Pandas, чтобы понять механику работы «под капотом», и проверим их в деле на реальном кейсе. Наш полигон: Credit Card Fraud Detection Для тестов мы возьмем классический датасет Credit Card Fraud Detection. Это идеальный пример «иголки в стоге сена»: здесь всего 0.17% мошеннических транзакций среди почти 300 тысяч записей. Смогут ли наши рукотворные алгоритмы их найти? Эволюция методов: от простого к сложному Мы пройдем путь от элементарной статистики до продвинутого геометрического анализа: IQR (Interquartile Range): Статистическая классика. Узнаем, как «усы» боксплота помогают находить грубые выбросы. Isolation Forest: Оригинальный подход, основанный на идее, что аномалию проще всего «изолировать» случайными разрезами пространства. Elliptic Envelope: Тяжелая артиллерия робастной статистики. Будем строить многомерный эллипс, который игнорирует попытки аномалий исказить его форму.

    habr.com/ru/articles/996538/

    #машинное+обучение #машинное_обучение #machinelearning #isolation_forest #anomaly_detection #поиск_аномалий #scikitlearn #mathematica #algorithms #python