#разметка_данных — Public Fediverse posts on home.social

Habr @[email protected] · 2026-05-13 · 15:22 UTC

Подсчёт долей фракций руды на конвейере: SAM2 для разметки, YOLO и проблемы с перекрытием

На производственной площадке стоит камера над лентой конвейера, она снимает поток , а система считает доли трёх цветовых фракций — серо-белой, оранжевой, розовой — и пишет результат в JSON для следующего этапа обработки. Цвет фракции используется как косвенный признак химического состава — технолог по нему оценивает качество партии. Заказчику нужна всего одна цифра — доля оранжевой фракции . Для предприятия эта фракция самая интересная по составу, остальные классы имеют второстепенное значения. Эту цифру нужно предоставлять в режиме 24/7, без расхождений между сменами. Камера стоит в закрытом помещении внутри здания. Освещение искусственное, прожектора фиксированные. Естественного света нет, влажность стабильна, поэтому большинство стандартных проблем компьютерного зрения на улице — блики на мокрых камнях, изменение цвета по времени суток, тени от солнца — в нашем случае не возникают и в статье обсуждаться не будут.

https://habr.com/ru/articles/1034836/

#sam #instance_segmentation #yolo #SAM2 #машинное_обучение #машинное_зрение #computer_vision #разметка_данных #data_labeling

#data_labeling #разметка_данных #computer_vision #машинное_зрение #машинное_обучение #sam2

Habr @[email protected] · 2026-05-13 · 15:22 UTC

Подсчёт долей фракций руды на конвейере: SAM2 для разметки, YOLO и проблемы с перекрытием

На производственной площадке стоит камера над лентой конвейера, она снимает поток , а система считает доли трёх цветовых фракций — серо-белой, оранжевой, розовой — и пишет результат в JSON для следующего этапа обработки. Цвет фракции используется как косвенный признак химического состава — технолог по нему оценивает качество партии. Заказчику нужна всего одна цифра — доля оранжевой фракции . Для предприятия эта фракция самая интересная по составу, остальные классы имеют второстепенное значения. Эту цифру нужно предоставлять в режиме 24/7, без расхождений между сменами. Камера стоит в закрытом помещении внутри здания. Освещение искусственное, прожектора фиксированные. Естественного света нет, влажность стабильна, поэтому большинство стандартных проблем компьютерного зрения на улице — блики на мокрых камнях, изменение цвета по времени суток, тени от солнца — в нашем случае не возникают и в статье обсуждаться не будут.

https://habr.com/ru/articles/1034836/

#sam #instance_segmentation #yolo #SAM2 #машинное_обучение #машинное_зрение #computer_vision #разметка_данных #data_labeling

#data_labeling #разметка_данных #computer_vision #машинное_зрение #машинное_обучение #sam2

Habr @[email protected] · 2026-05-13 · 15:22 UTC

Подсчёт долей фракций руды на конвейере: SAM2 для разметки, YOLO и проблемы с перекрытием

На производственной площадке стоит камера над лентой конвейера, она снимает поток , а система считает доли трёх цветовых фракций — серо-белой, оранжевой, розовой — и пишет результат в JSON для следующего этапа обработки. Цвет фракции используется как косвенный признак химического состава — технолог по нему оценивает качество партии. Заказчику нужна всего одна цифра — доля оранжевой фракции . Для предприятия эта фракция самая интересная по составу, остальные классы имеют второстепенное значения. Эту цифру нужно предоставлять в режиме 24/7, без расхождений между сменами. Камера стоит в закрытом помещении внутри здания. Освещение искусственное, прожектора фиксированные. Естественного света нет, влажность стабильна, поэтому большинство стандартных проблем компьютерного зрения на улице — блики на мокрых камнях, изменение цвета по времени суток, тени от солнца — в нашем случае не возникают и в статье обсуждаться не будут.

https://habr.com/ru/articles/1034836/

#sam #instance_segmentation #yolo #SAM2 #машинное_обучение #машинное_зрение #computer_vision #разметка_данных #data_labeling

#data_labeling #разметка_данных #computer_vision #машинное_зрение #машинное_обучение #sam2

Habr @[email protected] · 2026-05-13 · 15:22 UTC

Подсчёт долей фракций руды на конвейере: SAM2 для разметки, YOLO и проблемы с перекрытием

На производственной площадке стоит камера над лентой конвейера, она снимает поток , а система считает доли трёх цветовых фракций — серо-белой, оранжевой, розовой — и пишет результат в JSON для следующего этапа обработки. Цвет фракции используется как косвенный признак химического состава — технолог по нему оценивает качество партии. Заказчику нужна всего одна цифра — доля оранжевой фракции . Для предприятия эта фракция самая интересная по составу, остальные классы имеют второстепенное значения. Эту цифру нужно предоставлять в режиме 24/7, без расхождений между сменами. Камера стоит в закрытом помещении внутри здания. Освещение искусственное, прожектора фиксированные. Естественного света нет, влажность стабильна, поэтому большинство стандартных проблем компьютерного зрения на улице — блики на мокрых камнях, изменение цвета по времени суток, тени от солнца — в нашем случае не возникают и в статье обсуждаться не будут.

https://habr.com/ru/articles/1034836/

#sam #instance_segmentation #yolo #SAM2 #машинное_обучение #машинное_зрение #computer_vision #разметка_данных #data_labeling

#sam #instance_segmentation #yolo #sam2 #машинное_обучение #машинное_зрение

Habr @[email protected] · 2026-05-13 · 13:22 UTC

Спецлаб-Гамбит: Удобная программа разметки объектов нейросети под системы видеонаблюдения

Для разработчиков умных камер, умных видеорегистраторов и нейросетевой видеоаналитики ПО видеонаблюдения нужна нейросеть, способная работать в реальных условиях наших улиц. А там никто с профессиональной камерой не ходит, правильный ракурс не настраивает, свет не выставляет, без сжатия не снимает и вообще все делает вопреки здравому смыслу учебников ВГИК. Гамбит, конечно, подойдет для любых других задач, но здесь сделан упор на удобство сбора материала ИЗ систем видеонаблюдения и на разметку датасета с целью создания нейросетей ДЛЯ систем видеонаблюдения. Гамбит не столько для отшлифованных фоток и рилсов из Интернета, а как раз наоборот – для не особо качественных видеозаписей из архивов видеонаблюдения. В Спецлабе называют такой контент «диким». Прочитать описание и Скачать бесплатно...

https://habr.com/ru/companies/speclab/articles/1034750/

#разметка_данных #разметка_изображений #нейронные_сети #нейронные_сети_и_машинное_обучение #датасет #dataset

#dataset #датасет #нейронные_сети_и_машинное_обучение #нейронные_сети #разметка_изображений #разметка_данных

Habr @[email protected] · 2026-03-18 · 13:12 UTC

Почему AI-проекты ломаются на данных: как качественные датасеты повышают NPS, CTR и конверсию

Без качественного датасета даже сильная модель не улучшает бизнес-метрики — от NPS поддержки до конверсии интернет-магазина. В этом интервью Ильнур Файзиев, руководитель

https://habr.com/ru/companies/doubletapp/articles/1011314/

#датасеты #ai #разметка_данных #разметка_датасета #разметка_изображений #компьютерное_зрение #обучение_нейронных_сетей #автоматизация_бизнеса #автоматизация_бизнеспроцессов #автоматизация_предприятий

#автоматизация_предприятий #автоматизация_бизнеспроцессов #автоматизация_бизнеса #обучение_нейронных_сетей #компьютерное_зрение #разметка_изображений

Habr @[email protected] · 2026-03-18 · 13:12 UTC

Почему AI-проекты ломаются на данных: как качественные датасеты повышают NPS, CTR и конверсию

Без качественного датасета даже сильная модель не улучшает бизнес-метрики — от NPS поддержки до конверсии интернет-магазина. В этом интервью Ильнур Файзиев, руководитель

https://habr.com/ru/companies/doubletapp/articles/1011314/

#датасеты #ai #разметка_данных #разметка_датасета #разметка_изображений #компьютерное_зрение #обучение_нейронных_сетей #автоматизация_бизнеса #автоматизация_бизнеспроцессов #автоматизация_предприятий

#автоматизация_предприятий #автоматизация_бизнеспроцессов #автоматизация_бизнеса #обучение_нейронных_сетей #компьютерное_зрение #разметка_изображений

Habr @[email protected] · 2026-03-18 · 13:12 UTC

Почему AI-проекты ломаются на данных: как качественные датасеты повышают NPS, CTR и конверсию

Без качественного датасета даже сильная модель не улучшает бизнес-метрики — от NPS поддержки до конверсии интернет-магазина. В этом интервью Ильнур Файзиев, руководитель

https://habr.com/ru/companies/doubletapp/articles/1011314/

#датасеты #ai #разметка_данных #разметка_датасета #разметка_изображений #компьютерное_зрение #обучение_нейронных_сетей #автоматизация_бизнеса #автоматизация_бизнеспроцессов #автоматизация_предприятий

#автоматизация_предприятий #автоматизация_бизнеспроцессов #автоматизация_бизнеса #обучение_нейронных_сетей #компьютерное_зрение #разметка_изображений

Habr @[email protected] · 2026-03-18 · 13:12 UTC

Почему AI-проекты ломаются на данных: как качественные датасеты повышают NPS, CTR и конверсию

Без качественного датасета даже сильная модель не улучшает бизнес-метрики — от NPS поддержки до конверсии интернет-магазина. В этом интервью Ильнур Файзиев, руководитель

https://habr.com/ru/companies/doubletapp/articles/1011314/

#датасеты #ai #разметка_данных #разметка_датасета #разметка_изображений #компьютерное_зрение #обучение_нейронных_сетей #автоматизация_бизнеса #автоматизация_бизнеспроцессов #автоматизация_предприятий

#датасеты #ai #разметка_данных #разметка_датасета #разметка_изображений #компьютерное_зрение

Habr @[email protected] · 2026-01-16 · 13:42 UTC

Разметка данных: самая дорогая часть машинного обучения

Доброго времени суток, «Хабр»! В предыдущей своей статье я рассматривал различные функции потерь - важную часть машинного обучения. Но даже такие функции совершенно беспомощны перед лицом беспорядка. Сегодня мы рассмотрим то, что предшествует любой тренировке - разметку данных. Как и в предыдущей статье, приведу простенькое сравнение. Если модель - ученик, то разметка данных своего рода учебник, по которому она занимается. При этом создание такого учебника часто оказывается трудоемким, медленным и дорогостоящим этапом всего цикла ML-проекта. Принимайте стратегические удобное положение, ну а я начинаю свое повествование.

https://habr.com/ru/companies/bothub/articles/985662/

#разметка_данных #ai #ии #нейросеть #машинное_обучение #Data_Science #dataset #quality_assurance #active_learning #Weak_Supervision

#weak_supervision #active_learning #quality_assurance #dataset #data_science #машинное_обучение

Habr @[email protected] · 2026-01-13 · 17:52 UTC

[Перевод] Оценки продукта в три простых шага

Когда в продукте появляется LLM‑фича, спорить о качестве «на глаз» быстро становится дороже самой разработки: каждый новый промпт, ретривер или модель меняет поведение, а воспроизводимость улетучивается. В этой статье — прагматичный рецепт, как превратить оценку качества в инженерную процедуру: собрать небольшой датасет с фейлами, откалибровать LLM‑оценщиков под отдельные критерии и завести eval‑harness, который будет ловить регрессии при каждом изменении конфигурации. Перейти к статье

https://habr.com/ru/companies/otus/articles/984876/

#продуктовые_оценки #оценка_качества #LLMоценщик #калибровка_оценщика #разметка_данных #бинарные_метки #evalharness

#evalharness #бинарные_метки #разметка_данных #калибровка_оценщика #llmоценщик #оценка_качества

Habr @[email protected] · 2024-08-12 · 13:52 UTC

[Перевод] Как дообучать LLM с помощью Supervised Fine-Tuning

Обычно большие языковые модели (large language model, LLM) обучают в несколько этапов, включающих предварительное обучение и множество этапов fine-tuning (см. ниже). Предварительное обучение — это дорогостоящий процесс (например, требующий многих сотен тысяч долларов на вычислительные ресурсы), однако fine-tuning модели LLM (или контекстное обучение) по сравнению с этим гораздо дешевле (например, сотни долларов или даже меньше). Учитывая широкую доступность и бесплатность (даже для коммерческого использования) предварительно обученных LLM (например, MPT , Falcon или LLAMA-2 ), мы можем создавать большой спектр мощных приложений благодаря fine-tuning моделей под нужные задачи. Этапы обучения LLM На текущем этапе исследований ИИ одним из самых широко применяемых видов fine-tuning моделей LLM стал supervised fine-tuning (SFT). При этой методике курируемый датасет высококачественных выходных данных LLM применяется для непосредственного fine-tuning модели. SFT прост и дёшев в использовании, это полезный инструмент выравнивания языковых моделей, ставший популярным даже за пределами исследовательского сообщества опенсорсных LLM. В этой статье мы вкратце расскажем о принципах SFT, рассмотрим исследования по этой теме и приведём примеры того, как практикующие специалисты могут с лёгкостью пользоваться SFT, написав всего несколько строк кода на Python.

https://habr.com/ru/articles/830396/

#Машинное_обучение #data_labeling #data_annotation #dataset #разметка_данных #SFT #Finetuning #LLM

#llm #finetuning #sft #разметка_данных #dataset #data_annotation

Habr @[email protected] · 2024-08-09 · 22:42 UTC

[Перевод] Fine-tuning больших языковых моделей в 2024 году

Не секрет, что большие языковые модели (LLM) эволюционируют с безумной скоростью и привлекают внимание всей отрасли генеративного ИИ. Корпорации не просто заинтригованы, они одержимы LLM, и в частности, потенциалом fine-tuning LLM. В исследования и разработку LLM сейчас вкладываются миллиарды долларов. Лидеры отрасли и энтузиасты технологий всё сильнее стремятся углубить своё понимание LLM и их fine-tuning. Эта сфера natural language processing (NLP) постоянно расширяется, поэтому критически важно иметь актуальную информацию. Польза, которую LLM могут принести вашему бизнесу, зависит от ваших знаний и понимания этой технологии. Цикл жизни большой языковой модели состоит из множества важных этапов, и сегодня мы рассмотрим один из самых любопытных и активно развивающихся частей этого цикла — процесс fine-tuning моделей LLM. Это трудозатратная, тяжёлая, но перспективная задача, используемая во многих процессах обучения языковых моделей.

https://habr.com/ru/articles/830414/

#Машинное_обучение #data_labeling #data_annotation #dataset #разметка_данных #SFT #Finetuning #LLM

#llm #finetuning #sft #разметка_данных #dataset #data_annotation

Habr @[email protected] · 2024-10-15 · 11:52 UTC

5 лучших инструментов для разметки данных в 2024 году

Разметка данных играет ключевую роль в развитии совершенно разных технологий: от автопилотов и голосовых помощников до агро- и тяжелой промышленности. Но сам процесс разметки может быть трудоёмким и занимать много времени. Чтобы упростить эту задачу, важно выбрать инструменты, которые подходят для вашей задачи и могут сделать работу быстрее и удобнее. В этом руководстве мы разберем самые популярные решения для разметки данных, поделимся опытом команды Data Light и разберём, какой стоит выбрать именно вам.

https://habr.com/ru/companies/data_light/articles/850770/

#data_annotation #data_mining #искусственный_интеллект #big_data #разметка_данных

Habr @[email protected] · 2024-10-11 · 14:22 UTC

Кто такой разметчик данных и сколько он зарабатывает? Все, что вам нужно знать о профессии

Вы когда-нибудь задумывались, как нейросети учатся распознавать лица, управлять автомобилями или рекомендовать фильмы? За всем этим скрывается работа разметчиков данных — специалистов, которые буквально обучают ИИ видеть и понимать мир. Сколько зарабатывают разметчики, какие навыки им нужны, и стоит ли вам задуматься о работе в этой индустрии? Раскроем все секреты профессии в нашей статье.

https://habr.com/ru/companies/data_light/articles/850068/

#разметка_данных #разметчик_данных #искусственный_интеллект #data_annotation #data_mining

Habr @[email protected] · 2024-09-05 · 10:52 UTC

Sapiens: фундаментальная CV-модель для задач с людьми

Почти две недели назад из недр одной из самых прорывных AI лабораторий мира вышла новая классная модель (а точнее — семейство моделей) компьютерного зрения, но данная новость в русскоязычном интернете прошла будто бы без энтузиазма. А зря — штука довольно хороша. Итак, у нас есть семейство моделей, которое из коробки поможет решить «четыре фундаментальные задачи человека в CV» (цитата авторов) и давайте посмотрим, что же там есть есть и как это работает. Скажу сразу, что мне хотелось написать скорее напоминательно-обзорный пост о том, что такая модель вообще вышла и чего ожидать от нее в дальнейшем. В живых проектах мы пока это не использовали (но однозначно будем) и свой большой обзор писать рановато, но я поигрался с демками и да — результаты повторяемы. Технических деталей будет минимум — пейпер хорош и не стоит лишать удовольствия его прочитать самому целиком, особенно, если вы занимаетесь похожими задачами.

https://habr.com/ru/articles/841058/

#cv #computer_vision #компьютерное_зрение #open_source #разметка #разметка_данных #разметка_изображений #ии #ai #data_mining

#data_mining #ai #ии #разметка_изображений #разметка_данных #разметка

Habr @[email protected] · 2024-08-05 · 06:52 UTC

Разбор SAM2 через колено в голову или революция в разметке видео

На днях вышла новая версия модели для сегментации видео - SAM2, которая не только стала быстрее выше сильнее предшественника, но и нацелилась поменять разметку видео также, как с картинками это проделала первая версия модели. Оригинальную SAM мы используем для разметки в достаточно промышленных масштабах (в том числе и для видео), и потому пройти мимо препарирования SAM2 было невозможно, но так как модель уже по верхам разобрали в тг-каналах, пейпер хорош, а то, что модель феноменальна - понятно без слов, то я постараюсь поглубже разобрать подготовку датасета/разметку и саму модель именно на сложных примерах с моими комментариями. Легкое чтиво и много гифок — самое то для бодрого старта понедельничка!

https://habr.com/ru/articles/833692/

#компьютерное_зрение #ии #ai #cv #разметка_данных #разметка #датасет #разметка_изображений #data_mining #computer_vision

#computer_vision #data_mining #разметка_изображений #датасет #разметка #разметка_данных

Habr @[email protected] · 2025-12-16 · 08:32 UTC

Garbage In — Garbage Out: ошибки в разметке данных и как они ломают ML-системы

На Хабре тысячи статей про OCR, IDP, ML и искусственный интеллект. Все они сходятся в одном: «качественная разметка данных — ключ к точности модели». Но что это значит на практике? Меня зовут Снежана Игнатенко, я руковожу отделом разметки данных в SL Soft AI. Каждый день моя команда работает с самыми разными документами: печатными, рукописными, строгими формами, свободными текстами, сканами и фотографиями, в которых встречаются печати, подписи, штампы, затертые области, перекосы и артефакты. Наша задача — создавать качественный, точный и контекстно корректный набор размеченных данных, который служит фундаментом для всех интеллектуальных систем класса IDP. В этой статье я приглашаю вас заглянуть за кулисы разметки данных и понять, как она формирует точность и надежность любых интеллектуальных систем.

https://habr.com/ru/companies/slsoft/articles/976814/

#разметка_данных #ocr #idp #разметка_датасета #data_labeling #data_annotation #training_data

#training_data #data_annotation #data_labeling #разметка_датасета #idp #ocr

Habr @[email protected] · 2023-12-20 · 09:12 UTC

[Перевод] Разметка данных в 2023 году: текущие тренды и требования будущего

Разметка данных и/или аннотирование данных уже давно являются критически важным компонентом многих проектов машинного обучения и ИИ. В последние годы спрос на точную и надёжную разметку данных существенно вырос, ведь этот процесс становится всё более насущным для успеха множества проектов. Что же такое разметка данных? Как она повлияет на бизнесы? На какие тренды стоит обратить внимание, потому что они сформируют образ будущего разметки данных? В своём посте мы исследуем эти вопросы, чтобы лучше понимать, в каком направлении будет двигаться технология в ближайшие несколько лет.

https://habr.com/ru/articles/759154/

#машинное_обучение #тренды #разметка_данных #Data_Labeling #датасет #dataset

#dataset #датасет #data_labeling #разметка_данных #тренды #машинное_обучение

Habr @[email protected] · 2025-06-20 · 10:02 UTC

Как мы сделали полезным крупнейший русскоязычный датасет запросов к LLM

Привет! Меня зовут Роман Куцев, я основатель LLM Arena . У нас каждый день сотни людей общаются с языковыми моделями, тестируют, сравнивают, задают вопросы. В какой-то момент стало ясно: в этих логах — не просто сессии пользователей. Это — живая картина того, как люди используют LLM в реальности. Так родилась идея: собрать открытый, структурированный датасет промптов и дать AI-комьюнити инструмент, с которым можно не просто смотреть, но и исследовать, фильтровать, понимать логику запросов юзеров к LLM. Изучая Arena Explorer от LMSYS, мы сначала хотели взять их путь за основу. Но быстро стало понятно — мы можем и должны пойти дальше. И построили систему, которая обусловлена русскоязычным контекстом, с другим уровнем прозрачности и внимания к качеству.

https://habr.com/ru/articles/920150/

#llm #llmarena #датасет #dataset #ai #ии #разметка_данных #валидация_данных

#разметка_данных #ии #ai #dataset #датасет #llmarena

Habr @[email protected] · 2024-12-16 · 11:42 UTC

8 лучших советов для аутсорсинга разметки данных

Любой проект в области CV начинается с разметки огромных объёмов изображений и видео. И только успешные результаты и качественные данные гарантируют, что модель сможет обучаться корректно. Но что делать, если внутренняя команда не справляется с объемами, а квалифицированных специалистов найти сложно? Ответ прост: передать задачу профессионалам. Аутсорсинг разметки данных помогает ускорить процесс и вывести проект на совершенно новый уровень. Однако найти надежного партнера, который станет вашим стратегическим союзником, — задача не из легких. Как выбрать компанию и выстроить процессы, чтобы сотрудничество получилось продуктивным? В этом материале многолетним опытом Data Light в сфере организации разметки поделятся наши эксперты: Алексей Корнилов, Special Projects Group Manager Дмитрий Рогальский, Moderation Group Manager

https://habr.com/ru/companies/data_light/articles/866474/

#machinelearning #разметка_датасета #разметка_данных #аутсорсинг #машинное_обучение #data_annotation

Habr @[email protected] · 2024-11-29 · 15:42 UTC

Как организовать разметку данных для ML? Советы от Data Light

За каждым «умным» решением, которое принимает ИИ, стоят огромные объемы данных, тщательно размеченные и подготовленные для обучения. Но как организовать этот процесс так, чтобы модель работала эффективно? Мы в Data Light считаем, что это искусство, требующее правильного подхода, инструментов и стратегии. Организация самого процесса разметки зависит от многих факторов: целей проекта, объемов данных, требуемой точности и доступных ресурсов. В этой статье мы рассмотрим основные методики и инструменты для организации разметки данных с нашими экспертами: Дмитрий Рогальский, Special Projects Group Manager в Data Light Алексей Корнилов, Moderation Group Manager в Data Light

https://habr.com/ru/companies/data_light/articles/862464/

#разметка_данных #разметка_датасета #инструменты_для_аннотации #data_annotation #data_science #data_science_digest #аннотация_данных #краудсорсинг

#краудсорсинг #аннотация_данных #data_science_digest #data_science #data_annotation #инструменты_для_аннотации

Habr @[email protected] · 2024-10-25 · 10:02 UTC

Как мы отбираем и обучаем специалистов: от первых шагов до реальных проектов

В чем секрет качественных данных и точной разметки? Мы в Data Light знаем: за каждым успешным проектом стоят не только технологии, но и люди — специалисты, отобранные после нескольких этапов тестирований и обученные на настоящих проектах. Мы знаем: чем лучше подготовлен исполнитель, тем выше итоговое качество работы. Я, Артем Каукалов, руководитель отдела обучения, поделюсь опытом нашей компании — как найти людей, которые помогут вам достичь максимальных результатов, и как правильно выстроить их процесс учебы.

https://habr.com/ru/companies/data_light/articles/853372/

#project_management #data_annotation #аннотация #разметка_данных #разметка_датасета #artificial_intelligence #big_data

#project_management #data_annotation #аннотация #разметка_данных #разметка_датасета #artificial_intelligence

Habr @[email protected] · 2024-10-18 · 15:02 UTC

Анализ тональности текста: зачем он нужен и как его использовать? Объясняем за 7 минут

Как компании выявляют эмоции в тысячах отзывов и комментариев? Почему одни маркетинговые кампании становятся невероятным успехом, а другие — провалом? Анализ тональности текста — мощный инструмент, который помогает бизнесу не только считывать эмоции клиентов, но и на практике улучшать продукт, автоматизировать поддержку и управлять репутацией. Сегодня мы подробно разберем, как анализ тональности работает в реальных кейсах, и покажем, как вы можете внедрить его для достижения своих бизнес-целей.

https://habr.com/ru/companies/data_light/articles/851700/

#data_annotation #разметка_данных #анализ_тональности #big_data #data_science

Habr @[email protected] · 2024-10-09 · 12:32 UTC

Как разметить 3D кубойды на 2D изображениях в CVAT? Методы геоинформационных систем в разметке данных

Команда Data Light регулярно встречается с нестандартными задачами, и в прошлом году мы начали работать над одной из них: наш проект неожиданно перерос из привычной разметки LiDAR облаков (изображений со специальных сканеров) в написание скриптов и созданию нестандартных решений для CVAT. В этой статье я, Алексей Антюшеня, хочу рассказать, как мы нашли это необычное решение, и поделиться методом, который позволит ML специалистам и коллегам по нише решать сложные задачи по 3D разметке.

https://habr.com/ru/companies/data_light/articles/849384/

#data_annotation #разметка_данных #data_engineering #ml #машинное_обучение

Habr @[email protected] · 2024-10-04 · 12:22 UTC

Контроль качества разметки на проекте: делай как ОКК

Существует известное правило: “мусор на входе, мусор на выходе”. Все знают, что “чистые”, точные данные повышают качество и корректность работы ИИ-моделей, так что итоговая ценность оправдывает дополнительные усилия и вложения. Намного дешевле компаниям выходит предотвратить проблемы с данными, чем решать их после. Но как контролировать качество на проектах разметки максимально эффективно? Выстроить такие процессы непросто, но мы считаем, что у нас это получилось. Для того, чтобы гарантировать на каждом проекте высокое качество разметки, в Data Light существует отдел Контроля качества. Я, Евгений Шилкин, руководитель ОКК, расскажу, что нам позволяет обеспечивать стабильно высокое качество на проектах и какие советы для эффективной валидации мы можем дать.

https://habr.com/ru/companies/data_light/articles/848234/

#ai #ml #data_annotation #разметка_данных #project_management #bigdata #data_validation

#data_validation #bigdata #project_management #разметка_данных #data_annotation #ml

Habr @[email protected] · 2025-11-23 · 21:02 UTC

Сравнение инструментов разметки данных для CV: Label Studio & CVAT & Roboflow — опыт разметки 6000+ изображений

Если вы хоть раз обучали модель компьютерного зрения, вы знаете, как качество данных решает всё. На первый взгляд кажется, что задачи у всех инструментов одинаковые: поставить рамку, провести полигон, экспортировать данные, но в реальности всё упирается в детали:

https://habr.com/ru/articles/969000/

#CVAT #label_studio #roboflow #cv #разметка_данных #workflow #анализ_данных #обзор_программ #интерфейс_пользователя #сбор_данных

#cvat #label_studio #roboflow #cv #разметка_данных #workflow

Habr @[email protected] · 2025-09-03 · 12:22 UTC

Когда YOLO не спасает: как один параметр может испортить всё

История о том, почему в ML побеждают не те, у кого самая большая модель, а те, кто понимает, что они делают.

https://habr.com/ru/articles/943516/

#покер #онлайнпокер #карты #computer_vision #yolo #object_detection #детекция_объектов #разметка_данных #датасет #оптимизация_моделей

#оптимизация_моделей #датасет #разметка_данных #детекция_объектов #object_detection #yolo

Habr @[email protected] · 2024-05-20 · 07:02 UTC

[Перевод] Разметка данных в Label Studio при помощи GPT-4: интеграция ML Backend

Введение Получение качественных данных — краеугольный камень любого проекта машинного обучения. Этот процесс, в котором традиционно доминирует трудозатратная разметка данных, часто может превращаться в длительную и дорогостоящую задачу. Но что, если мы сможем воспользоваться прогрессом в развитии больших языковых моделей (LLM) для перехода от разметки данных к проверке разметки? На сцене появляется GPT-4. Эта система (разработанная на основе GPT-4), имеющая более ста миллионов пользователей — одна из самых популярных языковых моделей. В предыдущей статье мы показали, как можно ускорить процесс разметки предварительным аннотированием данных при помощи GPT-4. Эта методика позволяет нам загружать готовый к проверке предварительно размеченный датасет, а не выполнять монотонный процесс, начиная с нуля. В этой статье мы продолжим развивать эту тему, оказав, как можно объединить GPT-4 с бэкендом машинного обучения (ML Backend) Label Studio. При помощи Label Studio ML Backend можно размечать данные непосредственно в Label Studio, что позволяет нам совершить переход от трудозатратной задачи разметки данных к гораздо более эффективному процессу проверки и совершенствования предварительных меток, что существенно ускоряет работу.

https://habr.com/ru/articles/772974/

#машинное_обучение #GPT4 #Label_Studio #ML_Backend #разметка_данных #датасет #dataset

#dataset #датасет #разметка_данных #ml_backend #label_studio #gpt4

Habr @[email protected] · 2025-12-16 · 08:32 UTC

Garbage In — Garbage Out: ошибки в разметке данных и как они ломают ML-системы

На Хабре тысячи статей про OCR, IDP, ML и искусственный интеллект. Все они сходятся в одном: «качественная разметка данных — ключ к точности модели». Но что это значит на практике? Меня зовут Снежана Игнатенко, я руковожу отделом разметки данных в SL Soft AI. Каждый день моя команда работает с самыми разными документами: печатными, рукописными, строгими формами, свободными текстами, сканами и фотографиями, в которых встречаются печати, подписи, штампы, затертые области, перекосы и артефакты. Наша задача — создавать качественный, точный и контекстно корректный набор размеченных данных, который служит фундаментом для всех интеллектуальных систем класса IDP. В этой статье я приглашаю вас заглянуть за кулисы разметки данных и понять, как она формирует точность и надежность любых интеллектуальных систем.

https://habr.com/ru/companies/slsoft/articles/976814/

#разметка_данных #ocr #idp #разметка_датасета #data_labeling #data_annotation #training_data

#training_data #data_annotation #data_labeling #разметка_датасета #idp #ocr

Habr @[email protected] · 2025-12-16 · 08:32 UTC

Garbage In — Garbage Out: ошибки в разметке данных и как они ломают ML-системы

На Хабре тысячи статей про OCR, IDP, ML и искусственный интеллект. Все они сходятся в одном: «качественная разметка данных — ключ к точности модели». Но что это значит на практике? Меня зовут Снежана Игнатенко, я руковожу отделом разметки данных в SL Soft AI. Каждый день моя команда работает с самыми разными документами: печатными, рукописными, строгими формами, свободными текстами, сканами и фотографиями, в которых встречаются печати, подписи, штампы, затертые области, перекосы и артефакты. Наша задача — создавать качественный, точный и контекстно корректный набор размеченных данных, который служит фундаментом для всех интеллектуальных систем класса IDP. В этой статье я приглашаю вас заглянуть за кулисы разметки данных и понять, как она формирует точность и надежность любых интеллектуальных систем.

https://habr.com/ru/companies/slsoft/articles/976814/

#разметка_данных #ocr #idp #разметка_датасета #data_labeling #data_annotation #training_data

#training_data #data_annotation #data_labeling #разметка_датасета #idp #ocr

Habr @[email protected] · 2025-12-16 · 08:32 UTC

Garbage In — Garbage Out: ошибки в разметке данных и как они ломают ML-системы

На Хабре тысячи статей про OCR, IDP, ML и искусственный интеллект. Все они сходятся в одном: «качественная разметка данных — ключ к точности модели». Но что это значит на практике? Меня зовут Снежана Игнатенко, я руковожу отделом разметки данных в SL Soft AI. Каждый день моя команда работает с самыми разными документами: печатными, рукописными, строгими формами, свободными текстами, сканами и фотографиями, в которых встречаются печати, подписи, штампы, затертые области, перекосы и артефакты. Наша задача — создавать качественный, точный и контекстно корректный набор размеченных данных, который служит фундаментом для всех интеллектуальных систем класса IDP. В этой статье я приглашаю вас заглянуть за кулисы разметки данных и понять, как она формирует точность и надежность любых интеллектуальных систем.

https://habr.com/ru/companies/slsoft/articles/976814/

#разметка_данных #ocr #idp #разметка_датасета #data_labeling #data_annotation #training_data

#разметка_данных #ocr #idp #разметка_датасета #data_labeling #data_annotation

Habr @[email protected] · 2025-07-03 · 17:02 UTC

200 000+ снимков мусора: что мы узнали о датасетах

В нашей работе хватает безумных задач. Мы создали первого в России цифрового PR-менеджера, разрабатывали виртуальную примерочную и делали много чего еще, о чем не всегда можно рассказать. Но когда мы взялись за создание ИИ-сортировщика мусора MARQUS, поняли — будет совсем жестко. Не так давно мы создали систему сортировки ТКО (Твердых коммунальных отходов) MARQUS, которая делит отходы на бумагу, металл, пластик, стекло и т.д. Система использует искусственный интеллект и специальные сенсоры, чтобы распознавать различные типы отходов прямо на конвейере и направлять их в соответствующие секции для переработки. В процессе разработки MARQUS мы столкнулись с задачей — найти или собрать подходящие датасеты, так как без них эффективность нейронной сети резко снижается, если вообще приближается к нулю. Мы перепробовали множество подходов, пересмотрели доступные датасеты с готовой разметкой и потратили достаточное количество времени и денег, чтобы честно признаться — на обучении нейронок сэкономить не получится, но обо всем по порядку.

https://habr.com/ru/articles/924696/

#управление_проектами #искусственный_интеллект #Машинное_обучение #открытые_данные #разметка_датасета #сбор_данных_для_ии #парсинг_данных #разметка_данных

#управление_проектами #искусственный_интеллект #машинное_обучение #открытые_данные #разметка_датасета #сбор_данных_для_ии

Habr @[email protected] · 2025-07-03 · 17:02 UTC

200 000+ снимков мусора: что мы узнали о датасетах

В нашей работе хватает безумных задач. Мы создали первого в России цифрового PR-менеджера, разрабатывали виртуальную примерочную и делали много чего еще, о чем не всегда можно рассказать. Но когда мы взялись за создание ИИ-сортировщика мусора MARQUS, поняли — будет совсем жестко. Не так давно мы создали систему сортировки ТКО (Твердых коммунальных отходов) MARQUS, которая делит отходы на бумагу, металл, пластик, стекло и т.д. Система использует искусственный интеллект и специальные сенсоры, чтобы распознавать различные типы отходов прямо на конвейере и направлять их в соответствующие секции для переработки. В процессе разработки MARQUS мы столкнулись с задачей — найти или собрать подходящие датасеты, так как без них эффективность нейронной сети резко снижается, если вообще приближается к нулю. Мы перепробовали множество подходов, пересмотрели доступные датасеты с готовой разметкой и потратили достаточное количество времени и денег, чтобы честно признаться — на обучении нейронок сэкономить не получится, но обо всем по порядку.

https://habr.com/ru/articles/924696/

#управление_проектами #искусственный_интеллект #Машинное_обучение #открытые_данные #разметка_датасета #сбор_данных_для_ии #парсинг_данных #разметка_данных

#управление_проектами #искусственный_интеллект #машинное_обучение #открытые_данные #разметка_датасета #сбор_данных_для_ии

Habr @[email protected] · 2025-07-03 · 17:02 UTC

200 000+ снимков мусора: что мы узнали о датасетах

В нашей работе хватает безумных задач. Мы создали первого в России цифрового PR-менеджера, разрабатывали виртуальную примерочную и делали много чего еще, о чем не всегда можно рассказать. Но когда мы взялись за создание ИИ-сортировщика мусора MARQUS, поняли — будет совсем жестко. Не так давно мы создали систему сортировки ТКО (Твердых коммунальных отходов) MARQUS, которая делит отходы на бумагу, металл, пластик, стекло и т.д. Система использует искусственный интеллект и специальные сенсоры, чтобы распознавать различные типы отходов прямо на конвейере и направлять их в соответствующие секции для переработки. В процессе разработки MARQUS мы столкнулись с задачей — найти или собрать подходящие датасеты, так как без них эффективность нейронной сети резко снижается, если вообще приближается к нулю. Мы перепробовали множество подходов, пересмотрели доступные датасеты с готовой разметкой и потратили достаточное количество времени и денег, чтобы честно признаться — на обучении нейронок сэкономить не получится, но обо всем по порядку.

https://habr.com/ru/articles/924696/

#управление_проектами #искусственный_интеллект #Машинное_обучение #открытые_данные #разметка_датасета #сбор_данных_для_ии #парсинг_данных #разметка_данных

#управление_проектами #искусственный_интеллект #машинное_обучение #открытые_данные #разметка_датасета #сбор_данных_для_ии

Habr @[email protected] · 2025-07-03 · 17:02 UTC

200 000+ снимков мусора: что мы узнали о датасетах

В нашей работе хватает безумных задач. Мы создали первого в России цифрового PR-менеджера, разрабатывали виртуальную примерочную и делали много чего еще, о чем не всегда можно рассказать. Но когда мы взялись за создание ИИ-сортировщика мусора MARQUS, поняли — будет совсем жестко. Не так давно мы создали систему сортировки ТКО (Твердых коммунальных отходов) MARQUS, которая делит отходы на бумагу, металл, пластик, стекло и т.д. Система использует искусственный интеллект и специальные сенсоры, чтобы распознавать различные типы отходов прямо на конвейере и направлять их в соответствующие секции для переработки. В процессе разработки MARQUS мы столкнулись с задачей — найти или собрать подходящие датасеты, так как без них эффективность нейронной сети резко снижается, если вообще приближается к нулю. Мы перепробовали множество подходов, пересмотрели доступные датасеты с готовой разметкой и потратили достаточное количество времени и денег, чтобы честно признаться — на обучении нейронок сэкономить не получится, но обо всем по порядку.

https://habr.com/ru/articles/924696/

#управление_проектами #искусственный_интеллект #Машинное_обучение #открытые_данные #разметка_датасета #сбор_данных_для_ии #парсинг_данных #разметка_данных

#разметка_данных #парсинг_данных #сбор_данных_для_ии #разметка_датасета #открытые_данные #машинное_обучение

Habr @[email protected] · 2025-07-02 · 15:02 UTC

Как мы научили нейросеть узнавать 10 000 лошадей «в лицо» и чуть не сошли с ума

В нашей работе хватает безумных задач. Мы собирали датасеты с уличными драками, где сами вживались в роль дебоширов перед камерами, и делали много чего еще, о чем не всегда можно рассказать. В общем, мы в своей работе привыкли к странным задачам. Но когда к нам пришли с просьбой научить искусственный интеллект узнавать «в лицо» 10 000 лошадей, мы поняли — будет интересно...

https://habr.com/ru/articles/924358/

#нейросети_для_табунов_и_конюшен #сбор_данных_для_ИИ #парсинг_данных #нейросети_для_агропрома #нейросети_для_ферм #разметка_данных #разметка_датасета

#разметка_датасета #разметка_данных #нейросети_для_ферм #нейросети_для_агропрома #парсинг_данных #сбор_данных_для_ии

Habr @[email protected] · 2025-07-02 · 15:02 UTC

Как мы научили нейросеть узнавать 10 000 лошадей «в лицо» и чуть не сошли с ума

В нашей работе хватает безумных задач. Мы собирали датасеты с уличными драками, где сами вживались в роль дебоширов перед камерами, и делали много чего еще, о чем не всегда можно рассказать. В общем, мы в своей работе привыкли к странным задачам. Но когда к нам пришли с просьбой научить искусственный интеллект узнавать «в лицо» 10 000 лошадей, мы поняли — будет интересно...

https://habr.com/ru/articles/924358/

#нейросети_для_табунов_и_конюшен #сбор_данных_для_ИИ #парсинг_данных #нейросети_для_агропрома #нейросети_для_ферм #разметка_данных #разметка_датасета

#разметка_датасета #разметка_данных #нейросети_для_ферм #нейросети_для_агропрома #парсинг_данных #сбор_данных_для_ии

Habr @[email protected] · 2025-07-02 · 15:02 UTC

Как мы научили нейросеть узнавать 10 000 лошадей «в лицо» и чуть не сошли с ума

В нашей работе хватает безумных задач. Мы собирали датасеты с уличными драками, где сами вживались в роль дебоширов перед камерами, и делали много чего еще, о чем не всегда можно рассказать. В общем, мы в своей работе привыкли к странным задачам. Но когда к нам пришли с просьбой научить искусственный интеллект узнавать «в лицо» 10 000 лошадей, мы поняли — будет интересно...

https://habr.com/ru/articles/924358/

#нейросети_для_табунов_и_конюшен #сбор_данных_для_ИИ #парсинг_данных #нейросети_для_агропрома #нейросети_для_ферм #разметка_данных #разметка_датасета

#разметка_датасета #разметка_данных #нейросети_для_ферм #нейросети_для_агропрома #парсинг_данных #сбор_данных_для_ии

Habr @[email protected] · 2025-07-02 · 15:02 UTC

Как мы научили нейросеть узнавать 10 000 лошадей «в лицо» и чуть не сошли с ума

В нашей работе хватает безумных задач. Мы собирали датасеты с уличными драками, где сами вживались в роль дебоширов перед камерами, и делали много чего еще, о чем не всегда можно рассказать. В общем, мы в своей работе привыкли к странным задачам. Но когда к нам пришли с просьбой научить искусственный интеллект узнавать «в лицо» 10 000 лошадей, мы поняли — будет интересно...

https://habr.com/ru/articles/924358/

#нейросети_для_табунов_и_конюшен #сбор_данных_для_ИИ #парсинг_данных #нейросети_для_агропрома #нейросети_для_ферм #разметка_данных #разметка_датасета

#нейросети_для_табунов_и_конюшен #сбор_данных_для_ии #парсинг_данных #нейросети_для_агропрома #нейросети_для_ферм #разметка_данных

Habr @[email protected] · 2024-12-16 · 11:42 UTC

8 лучших советов для аутсорсинга разметки данных

Любой проект в области CV начинается с разметки огромных объёмов изображений и видео. И только успешные результаты и качественные данные гарантируют, что модель сможет обучаться корректно. Но что делать, если внутренняя команда не справляется с объемами, а квалифицированных специалистов найти сложно? Ответ прост: передать задачу профессионалам. Аутсорсинг разметки данных помогает ускорить процесс и вывести проект на совершенно новый уровень. Однако найти надежного партнера, который станет вашим стратегическим союзником, — задача не из легких. Как выбрать компанию и выстроить процессы, чтобы сотрудничество получилось продуктивным? В этом материале многолетним опытом Data Light в сфере организации разметки поделятся наши эксперты: Алексей Корнилов, Special Projects Group Manager Дмитрий Рогальский, Moderation Group Manager

https://habr.com/ru/companies/data_light/articles/866474/

#machinelearning #разметка_датасета #разметка_данных #аутсорсинг #машинное_обучение #data_annotation

Habr @[email protected] · 2024-12-16 · 11:42 UTC

8 лучших советов для аутсорсинга разметки данных

Любой проект в области CV начинается с разметки огромных объёмов изображений и видео. И только успешные результаты и качественные данные гарантируют, что модель сможет обучаться корректно. Но что делать, если внутренняя команда не справляется с объемами, а квалифицированных специалистов найти сложно? Ответ прост: передать задачу профессионалам. Аутсорсинг разметки данных помогает ускорить процесс и вывести проект на совершенно новый уровень. Однако найти надежного партнера, который станет вашим стратегическим союзником, — задача не из легких. Как выбрать компанию и выстроить процессы, чтобы сотрудничество получилось продуктивным? В этом материале многолетним опытом Data Light в сфере организации разметки поделятся наши эксперты: Алексей Корнилов, Special Projects Group Manager Дмитрий Рогальский, Moderation Group Manager

https://habr.com/ru/companies/data_light/articles/866474/

#machinelearning #разметка_датасета #разметка_данных #аутсорсинг #машинное_обучение #data_annotation

Habr @[email protected] · 2024-12-16 · 11:42 UTC

8 лучших советов для аутсорсинга разметки данных

Любой проект в области CV начинается с разметки огромных объёмов изображений и видео. И только успешные результаты и качественные данные гарантируют, что модель сможет обучаться корректно. Но что делать, если внутренняя команда не справляется с объемами, а квалифицированных специалистов найти сложно? Ответ прост: передать задачу профессионалам. Аутсорсинг разметки данных помогает ускорить процесс и вывести проект на совершенно новый уровень. Однако найти надежного партнера, который станет вашим стратегическим союзником, — задача не из легких. Как выбрать компанию и выстроить процессы, чтобы сотрудничество получилось продуктивным? В этом материале многолетним опытом Data Light в сфере организации разметки поделятся наши эксперты: Алексей Корнилов, Special Projects Group Manager Дмитрий Рогальский, Moderation Group Manager

https://habr.com/ru/companies/data_light/articles/866474/

#machinelearning #разметка_датасета #разметка_данных #аутсорсинг #машинное_обучение #data_annotation

#data_annotation #машинное_обучение #аутсорсинг #разметка_данных #разметка_датасета #machinelearning

Habr @[email protected] · 2024-12-11 · 12:12 UTC

Дилеммы, с которыми вы столкнетесь при разработке биометрических датасетов

Если вы хотите научить модель машинного зрения разбираться в сортах кукурузы или, скажем, отличать пешеходов от автомобилей , вам нужно подготовить датасет с изображениями, где уже будут размечены пешеходы и початки кукурузы, снятые с разных ракурсов в разное время суток. Когда дело ограничивается злаковыми культурами, для этих целей можно использовать опенсорсное решение , а вот компании, работающие с белковыми формами жизни и их биометрией — например, банки, — за неимением своих датасетов часто обращаются за помощью к другим компаниям. Чтобы выяснить, как на практике выглядит такая разработка датасетов на аутсорсе, мы поговорили с Владиславом Барсуковым, руководителем группы речевых и генеративных данных в Data Light. Он поделился своим взглядом на проблемы в сфере разметки биометрических данных и рассказал о подводных камнях, с которыми приходится сталкиваться в ходе подготовки, проверки, обработки и выгрузки датасетов для алгоритмов ML. Бонусом — интересный кейс с разметкой 60 000 фотографий, пол и возраст на которых проверяли сначала нейросетью, а потом — вручную.

https://habr.com/ru/companies/magnus-tech/articles/859764/

#биометрический_датасет #машинное_обучение #разметка_датасета #разметка_данных #датасет_liveness #переразметка_данных #компьютерное_зрение #data_light #синтетические_данные

#биометрический_датасет #машинное_обучение #разметка_датасета #разметка_данных #датасет_liveness #переразметка_данных

Habr @[email protected] · 2024-12-11 · 12:12 UTC

Дилеммы, с которыми вы столкнетесь при разработке биометрических датасетов

Если вы хотите научить модель машинного зрения разбираться в сортах кукурузы или, скажем, отличать пешеходов от автомобилей , вам нужно подготовить датасет с изображениями, где уже будут размечены пешеходы и початки кукурузы, снятые с разных ракурсов в разное время суток. Когда дело ограничивается злаковыми культурами, для этих целей можно использовать опенсорсное решение , а вот компании, работающие с белковыми формами жизни и их биометрией — например, банки, — за неимением своих датасетов часто обращаются за помощью к другим компаниям. Чтобы выяснить, как на практике выглядит такая разработка датасетов на аутсорсе, мы поговорили с Владиславом Барсуковым, руководителем группы речевых и генеративных данных в Data Light. Он поделился своим взглядом на проблемы в сфере разметки биометрических данных и рассказал о подводных камнях, с которыми приходится сталкиваться в ходе подготовки, проверки, обработки и выгрузки датасетов для алгоритмов ML. Бонусом — интересный кейс с разметкой 60 000 фотографий, пол и возраст на которых проверяли сначала нейросетью, а потом — вручную.

https://habr.com/ru/companies/magnus-tech/articles/859764/

#биометрический_датасет #машинное_обучение #разметка_датасета #разметка_данных #датасет_liveness #переразметка_данных #компьютерное_зрение #data_light #синтетические_данные

#биометрический_датасет #машинное_обучение #разметка_датасета #разметка_данных #датасет_liveness #переразметка_данных

Habr @[email protected] · 2024-12-11 · 12:12 UTC

Дилеммы, с которыми вы столкнетесь при разработке биометрических датасетов

Если вы хотите научить модель машинного зрения разбираться в сортах кукурузы или, скажем, отличать пешеходов от автомобилей , вам нужно подготовить датасет с изображениями, где уже будут размечены пешеходы и початки кукурузы, снятые с разных ракурсов в разное время суток. Когда дело ограничивается злаковыми культурами, для этих целей можно использовать опенсорсное решение , а вот компании, работающие с белковыми формами жизни и их биометрией — например, банки, — за неимением своих датасетов часто обращаются за помощью к другим компаниям. Чтобы выяснить, как на практике выглядит такая разработка датасетов на аутсорсе, мы поговорили с Владиславом Барсуковым, руководителем группы речевых и генеративных данных в Data Light. Он поделился своим взглядом на проблемы в сфере разметки биометрических данных и рассказал о подводных камнях, с которыми приходится сталкиваться в ходе подготовки, проверки, обработки и выгрузки датасетов для алгоритмов ML. Бонусом — интересный кейс с разметкой 60 000 фотографий, пол и возраст на которых проверяли сначала нейросетью, а потом — вручную.

https://habr.com/ru/companies/magnus-tech/articles/859764/

#биометрический_датасет #машинное_обучение #разметка_датасета #разметка_данных #датасет_liveness #переразметка_данных #компьютерное_зрение #data_light #синтетические_данные

#биометрический_датасет #машинное_обучение #разметка_датасета #разметка_данных #датасет_liveness #переразметка_данных

Habr @[email protected] · 2024-12-11 · 12:12 UTC

Дилеммы, с которыми вы столкнетесь при разработке биометрических датасетов

Если вы хотите научить модель машинного зрения разбираться в сортах кукурузы или, скажем, отличать пешеходов от автомобилей , вам нужно подготовить датасет с изображениями, где уже будут размечены пешеходы и початки кукурузы, снятые с разных ракурсов в разное время суток. Когда дело ограничивается злаковыми культурами, для этих целей можно использовать опенсорсное решение , а вот компании, работающие с белковыми формами жизни и их биометрией — например, банки, — за неимением своих датасетов часто обращаются за помощью к другим компаниям. Чтобы выяснить, как на практике выглядит такая разработка датасетов на аутсорсе, мы поговорили с Владиславом Барсуковым, руководителем группы речевых и генеративных данных в Data Light. Он поделился своим взглядом на проблемы в сфере разметки биометрических данных и рассказал о подводных камнях, с которыми приходится сталкиваться в ходе подготовки, проверки, обработки и выгрузки датасетов для алгоритмов ML. Бонусом — интересный кейс с разметкой 60 000 фотографий, пол и возраст на которых проверяли сначала нейросетью, а потом — вручную.

https://habr.com/ru/companies/magnus-tech/articles/859764/

#биометрический_датасет #машинное_обучение #разметка_датасета #разметка_данных #датасет_liveness #переразметка_данных #компьютерное_зрение #data_light #синтетические_данные

#синтетические_данные #data_light #компьютерное_зрение #переразметка_данных #датасет_liveness #разметка_данных

Habr @[email protected] · 2024-12-06 · 15:32 UTC

Как добиться успеха в большой компании? 4 ингредиента для идеального карьерного рецепта руководителя

Что делает руководителя по‑настоящему успешным? После управления двумя отделами в Авито я взялся за создание отдела Контроля качества в Data Light. Результат не заставил себя ждать: всего за несколько месяцев команда из 47 человек вывела метрику экспертизы на уровень 98%. За это время я определил для себя 4 ключевых принципа, которые помогают добиваться таких успехов, я готов поделиться своей историей и раскрыть их в этой статье.

https://habr.com/ru/companies/data_light/articles/864580/

#разметка_данных #разметка_датасета #менеджмент #управление_проектами #управление_людьми #карьера_в_itиндустрии

#карьера_в_itиндустрии #управление_людьми #управление_проектами #менеджмент #разметка_датасета #разметка_данных

Habr @[email protected] · 2024-12-06 · 15:32 UTC

Как добиться успеха в большой компании? 4 ингредиента для идеального карьерного рецепта руководителя

Что делает руководителя по‑настоящему успешным? После управления двумя отделами в Авито я взялся за создание отдела Контроля качества в Data Light. Результат не заставил себя ждать: всего за несколько месяцев команда из 47 человек вывела метрику экспертизы на уровень 98%. За это время я определил для себя 4 ключевых принципа, которые помогают добиваться таких успехов, я готов поделиться своей историей и раскрыть их в этой статье.

https://habr.com/ru/companies/data_light/articles/864580/

#разметка_данных #разметка_датасета #менеджмент #управление_проектами #управление_людьми #карьера_в_itиндустрии

#карьера_в_itиндустрии #управление_людьми #управление_проектами #менеджмент #разметка_датасета #разметка_данных

Habr @[email protected] · 2024-12-06 · 15:32 UTC

Как добиться успеха в большой компании? 4 ингредиента для идеального карьерного рецепта руководителя

Что делает руководителя по‑настоящему успешным? После управления двумя отделами в Авито я взялся за создание отдела Контроля качества в Data Light. Результат не заставил себя ждать: всего за несколько месяцев команда из 47 человек вывела метрику экспертизы на уровень 98%. За это время я определил для себя 4 ключевых принципа, которые помогают добиваться таких успехов, я готов поделиться своей историей и раскрыть их в этой статье.

https://habr.com/ru/companies/data_light/articles/864580/

#разметка_данных #разметка_датасета #менеджмент #управление_проектами #управление_людьми #карьера_в_itиндустрии

#карьера_в_itиндустрии #управление_людьми #управление_проектами #менеджмент #разметка_датасета #разметка_данных