home.social

#бинарная_классификация — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #бинарная_классификация, aggregated by home.social.

  1. Бинарная классификация: как работает логистическая регрессия

    Недавно мне предстояло написать реализацию LogisiticRegression для одного проекта в Школе 21, так что было необходимо разложить всё по полочкам и разобраться в бинарной классификации в целом. Хочу поделиться также этой информацией здесь, потому что не нашла статьи, которая была бы понятна и обширна лично в моём случае.

    habr.com/ru/articles/994376/

    #ml #логистическая_регрессия #линейная_регрессия #бинарная_классификация #roc_auc #gini_coefficient #бернулли #сигмоида #градиентный_спуск #sgd

  2. Бинарная классификация: как работает логистическая регрессия

    Недавно мне предстояло написать реализацию LogisiticRegression для одного проекта в Школе 21, так что было необходимо разложить всё по полочкам и разобраться в бинарной классификации в целом. Хочу поделиться также этой информацией здесь, потому что не нашла статьи, которая была бы понятна и обширна лично в моём случае.

    habr.com/ru/articles/994376/

    #ml #логистическая_регрессия #линейная_регрессия #бинарная_классификация #roc_auc #gini_coefficient #бернулли #сигмоида #градиентный_спуск #sgd

  3. Бинарная классификация: как работает логистическая регрессия

    Недавно мне предстояло написать реализацию LogisiticRegression для одного проекта в Школе 21, так что было необходимо разложить всё по полочкам и разобраться в бинарной классификации в целом. Хочу поделиться также этой информацией здесь, потому что не нашла статьи, которая была бы понятна и обширна лично в моём случае.

    habr.com/ru/articles/994376/

    #ml #логистическая_регрессия #линейная_регрессия #бинарная_классификация #roc_auc #gini_coefficient #бернулли #сигмоида #градиентный_спуск #sgd

  4. Бинарная классификация: как работает логистическая регрессия

    Недавно мне предстояло написать реализацию LogisiticRegression для одного проекта в Школе 21, так что было необходимо разложить всё по полочкам и разобраться в бинарной классификации в целом. Хочу поделиться также этой информацией здесь, потому что не нашла статьи, которая была бы понятна и обширна лично в моём случае.

    habr.com/ru/articles/994376/

    #ml #логистическая_регрессия #линейная_регрессия #бинарная_классификация #roc_auc #gini_coefficient #бернулли #сигмоида #градиентный_спуск #sgd

  5. Взгляд разметчика данных

    Дисклеймер: ниже будет описан личный опыт и точка зрения человека-исполнителя. Устройство всей процедуры разметки в статье не раскрывается. Все совпадения сущностей случайны. Названия компаний не упоминаются в целях соблюдения NDA. В статье не будут подниматься вопросы оплаты труда и разбираются только основные рабочие моменты. Всем добрый день! Одно время я работал разметчиком данных на разные компании и довольно долго, примерно 5 лет. Так как компании были разные, то и размечать приходилось разное: сайты, картинки, звуки. Только с видео не довелось поработать. С одной стороны, эта работа довольно рутинная и однообразная. С другой стороны - нет. Потому что на разметку попадались разные документы с разной целью. Однако целью данной статьи не документы, а общие закономерности и подводные камни на этом нудном пути с точки зрения непосредственного исполнителя. Разметка данных используется для обучения различных алгоритмов, чаще всего на основе нейросетей. Она применяется разных отраслях, включая такие сложные, как медицина. Без разметки невозможно обучение моделей, так как нет явной целевой переменной и от качества разметки напрямую зависит качество модели. Я имею опыт работы Data Scientist-ом и даже диплом получил, поэтому понимаю, насколько важна разметка. Более того, сейчас, работая с медицинскими датасетами, я всё чаще задумываюсь: а насколько вообще можно доверять той или иной разметке, даже если её ставит врач? Итак, приступим к теме нашего разговора.

    habr.com/ru/articles/983886/

    #разметка_данных #разметка_изображений #аннотация_данных #качество_данных #опыт_работы #бинарная_классификация #дата_сайенс #data_science

  6. Взгляд разметчика данных

    Дисклеймер: ниже будет описан личный опыт и точка зрения человека-исполнителя. Устройство всей процедуры разметки в статье не раскрывается. Все совпадения сущностей случайны. Названия компаний не упоминаются в целях соблюдения NDA. В статье не будут подниматься вопросы оплаты труда и разбираются только основные рабочие моменты. Всем добрый день! Одно время я работал разметчиком данных на разные компании и довольно долго, примерно 5 лет. Так как компании были разные, то и размечать приходилось разное: сайты, картинки, звуки. Только с видео не довелось поработать. С одной стороны, эта работа довольно рутинная и однообразная. С другой стороны - нет. Потому что на разметку попадались разные документы с разной целью. Однако целью данной статьи не документы, а общие закономерности и подводные камни на этом нудном пути с точки зрения непосредственного исполнителя. Разметка данных используется для обучения различных алгоритмов, чаще всего на основе нейросетей. Она применяется разных отраслях, включая такие сложные, как медицина. Без разметки невозможно обучение моделей, так как нет явной целевой переменной и от качества разметки напрямую зависит качество модели. Я имею опыт работы Data Scientist-ом и даже диплом получил, поэтому понимаю, насколько важна разметка. Более того, сейчас, работая с медицинскими датасетами, я всё чаще задумываюсь: а насколько вообще можно доверять той или иной разметке, даже если её ставит врач? Итак, приступим к теме нашего разговора.

    habr.com/ru/articles/983886/

    #разметка_данных #разметка_изображений #аннотация_данных #качество_данных #опыт_работы #бинарная_классификация #дата_сайенс #data_science

  7. Взгляд разметчика данных

    Дисклеймер: ниже будет описан личный опыт и точка зрения человека-исполнителя. Устройство всей процедуры разметки в статье не раскрывается. Все совпадения сущностей случайны. Названия компаний не упоминаются в целях соблюдения NDA. В статье не будут подниматься вопросы оплаты труда и разбираются только основные рабочие моменты. Всем добрый день! Одно время я работал разметчиком данных на разные компании и довольно долго, примерно 5 лет. Так как компании были разные, то и размечать приходилось разное: сайты, картинки, звуки. Только с видео не довелось поработать. С одной стороны, эта работа довольно рутинная и однообразная. С другой стороны - нет. Потому что на разметку попадались разные документы с разной целью. Однако целью данной статьи не документы, а общие закономерности и подводные камни на этом нудном пути с точки зрения непосредственного исполнителя. Разметка данных используется для обучения различных алгоритмов, чаще всего на основе нейросетей. Она применяется разных отраслях, включая такие сложные, как медицина. Без разметки невозможно обучение моделей, так как нет явной целевой переменной и от качества разметки напрямую зависит качество модели. Я имею опыт работы Data Scientist-ом и даже диплом получил, поэтому понимаю, насколько важна разметка. Более того, сейчас, работая с медицинскими датасетами, я всё чаще задумываюсь: а насколько вообще можно доверять той или иной разметке, даже если её ставит врач? Итак, приступим к теме нашего разговора.

    habr.com/ru/articles/983886/

    #разметка_данных #разметка_изображений #аннотация_данных #качество_данных #опыт_работы #бинарная_классификация #дата_сайенс #data_science

  8. Взгляд разметчика данных

    Дисклеймер: ниже будет описан личный опыт и точка зрения человека-исполнителя. Устройство всей процедуры разметки в статье не раскрывается. Все совпадения сущностей случайны. Названия компаний не упоминаются в целях соблюдения NDA. В статье не будут подниматься вопросы оплаты труда и разбираются только основные рабочие моменты. Всем добрый день! Одно время я работал разметчиком данных на разные компании и довольно долго, примерно 5 лет. Так как компании были разные, то и размечать приходилось разное: сайты, картинки, звуки. Только с видео не довелось поработать. С одной стороны, эта работа довольно рутинная и однообразная. С другой стороны - нет. Потому что на разметку попадались разные документы с разной целью. Однако целью данной статьи не документы, а общие закономерности и подводные камни на этом нудном пути с точки зрения непосредственного исполнителя. Разметка данных используется для обучения различных алгоритмов, чаще всего на основе нейросетей. Она применяется разных отраслях, включая такие сложные, как медицина. Без разметки невозможно обучение моделей, так как нет явной целевой переменной и от качества разметки напрямую зависит качество модели. Я имею опыт работы Data Scientist-ом и даже диплом получил, поэтому понимаю, насколько важна разметка. Более того, сейчас, работая с медицинскими датасетами, я всё чаще задумываюсь: а насколько вообще можно доверять той или иной разметке, даже если её ставит врач? Итак, приступим к теме нашего разговора.

    habr.com/ru/articles/983886/

    #разметка_данных #разметка_изображений #аннотация_данных #качество_данных #опыт_работы #бинарная_классификация #дата_сайенс #data_science

  9. Как мы научили ML группировать 50 000 событий в инциденты

    Десятки, а иногда и сотни тысяч событий в день. Каждое — потенциальная авария, а может, просто шум. L1-инженеру нужно решить: добавить событие к инциденту? Создать новый? А может, это часть уже закрытого? Или всё серьёзнее — и перед нами экосистемный сбой, затрагивающий десятки сервисов? Раньше мы в МТС всё классифицировали вручную. Но при таком объёме и разнообразии инфраструктуры быстро поняли, что нужна автоматизация. Слишком велик риск пропустить важное, не найти корень проблемы, потратить драгоценные минуты в критический момент. В поисках решения придумали использовать то, что есть: богатую разметку от дежурных инженеров, накопленную за годы наблюдений. Так начался наш путь к инструменту, который с помощью ML группирует события в осмысленные цепочки, распознаёт инциденты и помогает дежурным работать точнее, быстрее и спокойнее. В этой публикации мы — Михаил Копытин, руководитель команды разработки, и Евгений Лачугин, руководитель экосистемной команды поддержки в МТС Web Services — расскажем, как построили решение, какие архитектурные решения приняли, какие грабли собрали и как достигли точности выше 80%.

    habr.com/ru/companies/oleg-bun

    #itsm #надежность_системы #mcc #ml #ai #алерты #инцидентменеджмент #корреляция #бинарная_классификация

  10. Как мы научили ML группировать 50 000 событий в инциденты

    Десятки, а иногда и сотни тысяч событий в день. Каждое — потенциальная авария, а может, просто шум. L1-инженеру нужно решить: добавить событие к инциденту? Создать новый? А может, это часть уже закрытого? Или всё серьёзнее — и перед нами экосистемный сбой, затрагивающий десятки сервисов? Раньше мы в МТС всё классифицировали вручную. Но при таком объёме и разнообразии инфраструктуры быстро поняли, что нужна автоматизация. Слишком велик риск пропустить важное, не найти корень проблемы, потратить драгоценные минуты в критический момент. В поисках решения придумали использовать то, что есть: богатую разметку от дежурных инженеров, накопленную за годы наблюдений. Так начался наш путь к инструменту, который с помощью ML группирует события в осмысленные цепочки, распознаёт инциденты и помогает дежурным работать точнее, быстрее и спокойнее. В этой публикации мы — Михаил Копытин, руководитель команды разработки, и Евгений Лачугин, руководитель экосистемной команды поддержки в МТС Web Services — расскажем, как построили решение, какие архитектурные решения приняли, какие грабли собрали и как достигли точности выше 80%.

    habr.com/ru/companies/oleg-bun

    #itsm #надежность_системы #mcc #ml #ai #алерты #инцидентменеджмент #корреляция #бинарная_классификация

  11. Как мы научили ML группировать 50 000 событий в инциденты

    Десятки, а иногда и сотни тысяч событий в день. Каждое — потенциальная авария, а может, просто шум. L1-инженеру нужно решить: добавить событие к инциденту? Создать новый? А может, это часть уже закрытого? Или всё серьёзнее — и перед нами экосистемный сбой, затрагивающий десятки сервисов? Раньше мы в МТС всё классифицировали вручную. Но при таком объёме и разнообразии инфраструктуры быстро поняли, что нужна автоматизация. Слишком велик риск пропустить важное, не найти корень проблемы, потратить драгоценные минуты в критический момент. В поисках решения придумали использовать то, что есть: богатую разметку от дежурных инженеров, накопленную за годы наблюдений. Так начался наш путь к инструменту, который с помощью ML группирует события в осмысленные цепочки, распознаёт инциденты и помогает дежурным работать точнее, быстрее и спокойнее. В этой публикации мы — Михаил Копытин, руководитель команды разработки, и Евгений Лачугин, руководитель экосистемной команды поддержки в МТС Web Services — расскажем, как построили решение, какие архитектурные решения приняли, какие грабли собрали и как достигли точности выше 80%.

    habr.com/ru/companies/oleg-bun

    #itsm #надежность_системы #mcc #ml #ai #алерты #инцидентменеджмент #корреляция #бинарная_классификация

  12. Как мы научили ML группировать 50 000 событий в инциденты

    Десятки, а иногда и сотни тысяч событий в день. Каждое — потенциальная авария, а может, просто шум. L1-инженеру нужно решить: добавить событие к инциденту? Создать новый? А может, это часть уже закрытого? Или всё серьёзнее — и перед нами экосистемный сбой, затрагивающий десятки сервисов? Раньше мы в МТС всё классифицировали вручную. Но при таком объёме и разнообразии инфраструктуры быстро поняли, что нужна автоматизация. Слишком велик риск пропустить важное, не найти корень проблемы, потратить драгоценные минуты в критический момент. В поисках решения придумали использовать то, что есть: богатую разметку от дежурных инженеров, накопленную за годы наблюдений. Так начался наш путь к инструменту, который с помощью ML группирует события в осмысленные цепочки, распознаёт инциденты и помогает дежурным работать точнее, быстрее и спокойнее. В этой публикации мы — Михаил Копытин, руководитель команды разработки, и Евгений Лачугин, руководитель экосистемной команды поддержки в МТС Web Services — расскажем, как построили решение, какие архитектурные решения приняли, какие грабли собрали и как достигли точности выше 80%.

    habr.com/ru/companies/oleg-bun

    #itsm #надежность_системы #mcc #ml #ai #алерты #инцидентменеджмент #корреляция #бинарная_классификация

  13. Алгоритмы поиска аномалий HBOS и ECOD

    Специалистам по машинному обучению часто приходится заниматься поиском аномалий в данных, однако в русскоязычном интернете этой задаче посвящено очень мало материалов. В частности, нет хороших разборов различных алгоритмов поиска аномалий, где были бы описаны их плюсы и минусы. В этой статье частично исправим этот недочет и разберем алгоритмы HBOS и ECOD , а также обсудим особенности их реализации в популярной библиотеке PyOD.

    habr.com/ru/companies/garda/ar

    #данные #машинное_обучение #алгоритмы #ECOD #HBOS #PyOD #бинарная_классификация #синтетические_данные #информационная_безопасность

  14. Метрики качества оценки вероятностей в бинарной классификации: опыт из ФинТеха

    Бинарная классификация — одна из ключевых задач машинного обучения, но в реальных приложениях часто важно не только определить класс, но и понять, с какой вероятностью модель принимает решение. Как проверить точность вероятностных предсказаний? В статье обсуждаются специализированные инструменты для оценки качества вероятностных прогнозов, ключевые метрики и их интерпретация. Материал будет полезен для практиков, стремящихся повысить точность и объяснимость своих моделей.

    habr.com/ru/articles/864794/

    #классификация #roc_auc #pr_auc #calibration #ml #Оценка_вероятностей #Log_Loss #HosmerLemeshow #Качество_классификации #бинарная_классификация