#бинарная_классификация — Public Fediverse posts on home.social

Habr @[email protected] · 2026-02-09 · 10:42 UTC

Бинарная классификация: как работает логистическая регрессия

Недавно мне предстояло написать реализацию LogisiticRegression для одного проекта в Школе 21, так что было необходимо разложить всё по полочкам и разобраться в бинарной классификации в целом. Хочу поделиться также этой информацией здесь, потому что не нашла статьи, которая была бы понятна и обширна лично в моём случае.

https://habr.com/ru/articles/994376/

#ml #логистическая_регрессия #линейная_регрессия #бинарная_классификация #roc_auc #gini_coefficient #бернулли #сигмоида #градиентный_спуск #sgd

#sgd #градиентный_спуск #сигмоида #бернулли #gini_coefficient #roc_auc

Habr @[email protected] · 2026-02-09 · 10:42 UTC

Бинарная классификация: как работает логистическая регрессия

Недавно мне предстояло написать реализацию LogisiticRegression для одного проекта в Школе 21, так что было необходимо разложить всё по полочкам и разобраться в бинарной классификации в целом. Хочу поделиться также этой информацией здесь, потому что не нашла статьи, которая была бы понятна и обширна лично в моём случае.

https://habr.com/ru/articles/994376/

#ml #логистическая_регрессия #линейная_регрессия #бинарная_классификация #roc_auc #gini_coefficient #бернулли #сигмоида #градиентный_спуск #sgd

#sgd #градиентный_спуск #сигмоида #бернулли #gini_coefficient #roc_auc

Habr @[email protected] · 2026-02-09 · 10:42 UTC

Бинарная классификация: как работает логистическая регрессия

Недавно мне предстояло написать реализацию LogisiticRegression для одного проекта в Школе 21, так что было необходимо разложить всё по полочкам и разобраться в бинарной классификации в целом. Хочу поделиться также этой информацией здесь, потому что не нашла статьи, которая была бы понятна и обширна лично в моём случае.

https://habr.com/ru/articles/994376/

#ml #логистическая_регрессия #линейная_регрессия #бинарная_классификация #roc_auc #gini_coefficient #бернулли #сигмоида #градиентный_спуск #sgd

#sgd #градиентный_спуск #сигмоида #бернулли #gini_coefficient #roc_auc

Habr @[email protected] · 2026-02-09 · 10:42 UTC

Бинарная классификация: как работает логистическая регрессия

Недавно мне предстояло написать реализацию LogisiticRegression для одного проекта в Школе 21, так что было необходимо разложить всё по полочкам и разобраться в бинарной классификации в целом. Хочу поделиться также этой информацией здесь, потому что не нашла статьи, которая была бы понятна и обширна лично в моём случае.

https://habr.com/ru/articles/994376/

#ml #логистическая_регрессия #линейная_регрессия #бинарная_классификация #roc_auc #gini_coefficient #бернулли #сигмоида #градиентный_спуск #sgd

#ml #логистическая_регрессия #линейная_регрессия #бинарная_классификация #roc_auc #gini_coefficient

Habr @[email protected] · 2026-01-09 · 17:42 UTC

Взгляд разметчика данных

Дисклеймер: ниже будет описан личный опыт и точка зрения человека-исполнителя. Устройство всей процедуры разметки в статье не раскрывается. Все совпадения сущностей случайны. Названия компаний не упоминаются в целях соблюдения NDA. В статье не будут подниматься вопросы оплаты труда и разбираются только основные рабочие моменты. Всем добрый день! Одно время я работал разметчиком данных на разные компании и довольно долго, примерно 5 лет. Так как компании были разные, то и размечать приходилось разное: сайты, картинки, звуки. Только с видео не довелось поработать. С одной стороны, эта работа довольно рутинная и однообразная. С другой стороны - нет. Потому что на разметку попадались разные документы с разной целью. Однако целью данной статьи не документы, а общие закономерности и подводные камни на этом нудном пути с точки зрения непосредственного исполнителя. Разметка данных используется для обучения различных алгоритмов, чаще всего на основе нейросетей. Она применяется разных отраслях, включая такие сложные, как медицина. Без разметки невозможно обучение моделей, так как нет явной целевой переменной и от качества разметки напрямую зависит качество модели. Я имею опыт работы Data Scientist-ом и даже диплом получил, поэтому понимаю, насколько важна разметка. Более того, сейчас, работая с медицинскими датасетами, я всё чаще задумываюсь: а насколько вообще можно доверять той или иной разметке, даже если её ставит врач? Итак, приступим к теме нашего разговора.

https://habr.com/ru/articles/983886/

#разметка_данных #разметка_изображений #аннотация_данных #качество_данных #опыт_работы #бинарная_классификация #дата_сайенс #data_science

#data_science #дата_сайенс #бинарная_классификация #опыт_работы #качество_данных #аннотация_данных

Habr @[email protected] · 2026-01-09 · 17:42 UTC

Взгляд разметчика данных

Дисклеймер: ниже будет описан личный опыт и точка зрения человека-исполнителя. Устройство всей процедуры разметки в статье не раскрывается. Все совпадения сущностей случайны. Названия компаний не упоминаются в целях соблюдения NDA. В статье не будут подниматься вопросы оплаты труда и разбираются только основные рабочие моменты. Всем добрый день! Одно время я работал разметчиком данных на разные компании и довольно долго, примерно 5 лет. Так как компании были разные, то и размечать приходилось разное: сайты, картинки, звуки. Только с видео не довелось поработать. С одной стороны, эта работа довольно рутинная и однообразная. С другой стороны - нет. Потому что на разметку попадались разные документы с разной целью. Однако целью данной статьи не документы, а общие закономерности и подводные камни на этом нудном пути с точки зрения непосредственного исполнителя. Разметка данных используется для обучения различных алгоритмов, чаще всего на основе нейросетей. Она применяется разных отраслях, включая такие сложные, как медицина. Без разметки невозможно обучение моделей, так как нет явной целевой переменной и от качества разметки напрямую зависит качество модели. Я имею опыт работы Data Scientist-ом и даже диплом получил, поэтому понимаю, насколько важна разметка. Более того, сейчас, работая с медицинскими датасетами, я всё чаще задумываюсь: а насколько вообще можно доверять той или иной разметке, даже если её ставит врач? Итак, приступим к теме нашего разговора.

https://habr.com/ru/articles/983886/

#разметка_данных #разметка_изображений #аннотация_данных #качество_данных #опыт_работы #бинарная_классификация #дата_сайенс #data_science

#data_science #дата_сайенс #бинарная_классификация #опыт_работы #качество_данных #аннотация_данных

Habr @[email protected] · 2026-01-09 · 17:42 UTC

Взгляд разметчика данных

Дисклеймер: ниже будет описан личный опыт и точка зрения человека-исполнителя. Устройство всей процедуры разметки в статье не раскрывается. Все совпадения сущностей случайны. Названия компаний не упоминаются в целях соблюдения NDA. В статье не будут подниматься вопросы оплаты труда и разбираются только основные рабочие моменты. Всем добрый день! Одно время я работал разметчиком данных на разные компании и довольно долго, примерно 5 лет. Так как компании были разные, то и размечать приходилось разное: сайты, картинки, звуки. Только с видео не довелось поработать. С одной стороны, эта работа довольно рутинная и однообразная. С другой стороны - нет. Потому что на разметку попадались разные документы с разной целью. Однако целью данной статьи не документы, а общие закономерности и подводные камни на этом нудном пути с точки зрения непосредственного исполнителя. Разметка данных используется для обучения различных алгоритмов, чаще всего на основе нейросетей. Она применяется разных отраслях, включая такие сложные, как медицина. Без разметки невозможно обучение моделей, так как нет явной целевой переменной и от качества разметки напрямую зависит качество модели. Я имею опыт работы Data Scientist-ом и даже диплом получил, поэтому понимаю, насколько важна разметка. Более того, сейчас, работая с медицинскими датасетами, я всё чаще задумываюсь: а насколько вообще можно доверять той или иной разметке, даже если её ставит врач? Итак, приступим к теме нашего разговора.

https://habr.com/ru/articles/983886/

#разметка_данных #разметка_изображений #аннотация_данных #качество_данных #опыт_работы #бинарная_классификация #дата_сайенс #data_science

#data_science #дата_сайенс #бинарная_классификация #опыт_работы #качество_данных #аннотация_данных

Habr @[email protected] · 2026-01-09 · 17:42 UTC

Взгляд разметчика данных

Дисклеймер: ниже будет описан личный опыт и точка зрения человека-исполнителя. Устройство всей процедуры разметки в статье не раскрывается. Все совпадения сущностей случайны. Названия компаний не упоминаются в целях соблюдения NDA. В статье не будут подниматься вопросы оплаты труда и разбираются только основные рабочие моменты. Всем добрый день! Одно время я работал разметчиком данных на разные компании и довольно долго, примерно 5 лет. Так как компании были разные, то и размечать приходилось разное: сайты, картинки, звуки. Только с видео не довелось поработать. С одной стороны, эта работа довольно рутинная и однообразная. С другой стороны - нет. Потому что на разметку попадались разные документы с разной целью. Однако целью данной статьи не документы, а общие закономерности и подводные камни на этом нудном пути с точки зрения непосредственного исполнителя. Разметка данных используется для обучения различных алгоритмов, чаще всего на основе нейросетей. Она применяется разных отраслях, включая такие сложные, как медицина. Без разметки невозможно обучение моделей, так как нет явной целевой переменной и от качества разметки напрямую зависит качество модели. Я имею опыт работы Data Scientist-ом и даже диплом получил, поэтому понимаю, насколько важна разметка. Более того, сейчас, работая с медицинскими датасетами, я всё чаще задумываюсь: а насколько вообще можно доверять той или иной разметке, даже если её ставит врач? Итак, приступим к теме нашего разговора.

https://habr.com/ru/articles/983886/

#разметка_данных #разметка_изображений #аннотация_данных #качество_данных #опыт_работы #бинарная_классификация #дата_сайенс #data_science

#разметка_данных #разметка_изображений #аннотация_данных #качество_данных #опыт_работы #бинарная_классификация

Habr @[email protected] · 2025-07-23 · 07:32 UTC

Как мы научили ML группировать 50 000 событий в инциденты

Десятки, а иногда и сотни тысяч событий в день. Каждое — потенциальная авария, а может, просто шум. L1-инженеру нужно решить: добавить событие к инциденту? Создать новый? А может, это часть уже закрытого? Или всё серьёзнее — и перед нами экосистемный сбой, затрагивающий десятки сервисов? Раньше мы в МТС всё классифицировали вручную. Но при таком объёме и разнообразии инфраструктуры быстро поняли, что нужна автоматизация. Слишком велик риск пропустить важное, не найти корень проблемы, потратить драгоценные минуты в критический момент. В поисках решения придумали использовать то, что есть: богатую разметку от дежурных инженеров, накопленную за годы наблюдений. Так начался наш путь к инструменту, который с помощью ML группирует события в осмысленные цепочки, распознаёт инциденты и помогает дежурным работать точнее, быстрее и спокойнее. В этой публикации мы — Михаил Копытин, руководитель команды разработки, и Евгений Лачугин, руководитель экосистемной команды поддержки в МТС Web Services — расскажем, как построили решение, какие архитектурные решения приняли, какие грабли собрали и как достигли точности выше 80%.

https://habr.com/ru/companies/oleg-bunin/articles/929928/

#itsm #надежность_системы #mcc #ml #ai #алерты #инцидентменеджмент #корреляция #бинарная_классификация

#itsm #надежность_системы #mcc #ml #ai #алерты

Habr @[email protected] · 2025-07-23 · 07:32 UTC

Как мы научили ML группировать 50 000 событий в инциденты

Десятки, а иногда и сотни тысяч событий в день. Каждое — потенциальная авария, а может, просто шум. L1-инженеру нужно решить: добавить событие к инциденту? Создать новый? А может, это часть уже закрытого? Или всё серьёзнее — и перед нами экосистемный сбой, затрагивающий десятки сервисов? Раньше мы в МТС всё классифицировали вручную. Но при таком объёме и разнообразии инфраструктуры быстро поняли, что нужна автоматизация. Слишком велик риск пропустить важное, не найти корень проблемы, потратить драгоценные минуты в критический момент. В поисках решения придумали использовать то, что есть: богатую разметку от дежурных инженеров, накопленную за годы наблюдений. Так начался наш путь к инструменту, который с помощью ML группирует события в осмысленные цепочки, распознаёт инциденты и помогает дежурным работать точнее, быстрее и спокойнее. В этой публикации мы — Михаил Копытин, руководитель команды разработки, и Евгений Лачугин, руководитель экосистемной команды поддержки в МТС Web Services — расскажем, как построили решение, какие архитектурные решения приняли, какие грабли собрали и как достигли точности выше 80%.

https://habr.com/ru/companies/oleg-bunin/articles/929928/

#itsm #надежность_системы #mcc #ml #ai #алерты #инцидентменеджмент #корреляция #бинарная_классификация

#itsm #надежность_системы #mcc #ml #ai #алерты

Habr @[email protected] · 2025-07-23 · 07:32 UTC

Как мы научили ML группировать 50 000 событий в инциденты

Десятки, а иногда и сотни тысяч событий в день. Каждое — потенциальная авария, а может, просто шум. L1-инженеру нужно решить: добавить событие к инциденту? Создать новый? А может, это часть уже закрытого? Или всё серьёзнее — и перед нами экосистемный сбой, затрагивающий десятки сервисов? Раньше мы в МТС всё классифицировали вручную. Но при таком объёме и разнообразии инфраструктуры быстро поняли, что нужна автоматизация. Слишком велик риск пропустить важное, не найти корень проблемы, потратить драгоценные минуты в критический момент. В поисках решения придумали использовать то, что есть: богатую разметку от дежурных инженеров, накопленную за годы наблюдений. Так начался наш путь к инструменту, который с помощью ML группирует события в осмысленные цепочки, распознаёт инциденты и помогает дежурным работать точнее, быстрее и спокойнее. В этой публикации мы — Михаил Копытин, руководитель команды разработки, и Евгений Лачугин, руководитель экосистемной команды поддержки в МТС Web Services — расскажем, как построили решение, какие архитектурные решения приняли, какие грабли собрали и как достигли точности выше 80%.

https://habr.com/ru/companies/oleg-bunin/articles/929928/

#itsm #надежность_системы #mcc #ml #ai #алерты #инцидентменеджмент #корреляция #бинарная_классификация

#itsm #надежность_системы #mcc #ml #ai #алерты

Habr @[email protected] · 2025-07-23 · 07:32 UTC

Как мы научили ML группировать 50 000 событий в инциденты

Десятки, а иногда и сотни тысяч событий в день. Каждое — потенциальная авария, а может, просто шум. L1-инженеру нужно решить: добавить событие к инциденту? Создать новый? А может, это часть уже закрытого? Или всё серьёзнее — и перед нами экосистемный сбой, затрагивающий десятки сервисов? Раньше мы в МТС всё классифицировали вручную. Но при таком объёме и разнообразии инфраструктуры быстро поняли, что нужна автоматизация. Слишком велик риск пропустить важное, не найти корень проблемы, потратить драгоценные минуты в критический момент. В поисках решения придумали использовать то, что есть: богатую разметку от дежурных инженеров, накопленную за годы наблюдений. Так начался наш путь к инструменту, который с помощью ML группирует события в осмысленные цепочки, распознаёт инциденты и помогает дежурным работать точнее, быстрее и спокойнее. В этой публикации мы — Михаил Копытин, руководитель команды разработки, и Евгений Лачугин, руководитель экосистемной команды поддержки в МТС Web Services — расскажем, как построили решение, какие архитектурные решения приняли, какие грабли собрали и как достигли точности выше 80%.

https://habr.com/ru/companies/oleg-bunin/articles/929928/

#itsm #надежность_системы #mcc #ml #ai #алерты #инцидентменеджмент #корреляция #бинарная_классификация

#бинарная_классификация #корреляция #инцидентменеджмент #алерты #ai #ml

Habr @[email protected] · 2025-03-28 · 14:12 UTC

Алгоритмы поиска аномалий HBOS и ECOD

Специалистам по машинному обучению часто приходится заниматься поиском аномалий в данных, однако в русскоязычном интернете этой задаче посвящено очень мало материалов. В частности, нет хороших разборов различных алгоритмов поиска аномалий, где были бы описаны их плюсы и минусы. В этой статье частично исправим этот недочет и разберем алгоритмы HBOS и ECOD , а также обсудим особенности их реализации в популярной библиотеке PyOD.

https://habr.com/ru/companies/garda/articles/895148/

#данные #машинное_обучение #алгоритмы #ECOD #HBOS #PyOD #бинарная_классификация #синтетические_данные #информационная_безопасность

#данные #машинное_обучение #алгоритмы #ecod #hbos #pyod

Habr @[email protected] · 2024-12-08 · 06:22 UTC

Метрики качества оценки вероятностей в бинарной классификации: опыт из ФинТеха

Бинарная классификация — одна из ключевых задач машинного обучения, но в реальных приложениях часто важно не только определить класс, но и понять, с какой вероятностью модель принимает решение. Как проверить точность вероятностных предсказаний? В статье обсуждаются специализированные инструменты для оценки качества вероятностных прогнозов, ключевые метрики и их интерпретация. Материал будет полезен для практиков, стремящихся повысить точность и объяснимость своих моделей.

https://habr.com/ru/articles/864794/

#классификация #roc_auc #pr_auc #calibration #ml #Оценка_вероятностей #Log_Loss #HosmerLemeshow #Качество_классификации #бинарная_классификация

#классификация #roc_auc #pr_auc #calibration #ml #оценка_вероятностей