#разметка_данных — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #разметка_данных, aggregated by home.social.
-
Подсчёт долей фракций руды на конвейере: SAM2 для разметки, YOLO и проблемы с перекрытием
На производственной площадке стоит камера над лентой конвейера, она снимает поток , а система считает доли трёх цветовых фракций — серо-белой, оранжевой, розовой — и пишет результат в JSON для следующего этапа обработки. Цвет фракции используется как косвенный признак химического состава — технолог по нему оценивает качество партии. Заказчику нужна всего одна цифра — доля оранжевой фракции . Для предприятия эта фракция самая интересная по составу, остальные классы имеют второстепенное значения. Эту цифру нужно предоставлять в режиме 24/7, без расхождений между сменами. Камера стоит в закрытом помещении внутри здания. Освещение искусственное, прожектора фиксированные. Естественного света нет, влажность стабильна, поэтому большинство стандартных проблем компьютерного зрения на улице — блики на мокрых камнях, изменение цвета по времени суток, тени от солнца — в нашем случае не возникают и в статье обсуждаться не будут.
https://habr.com/ru/articles/1034836/
#sam #instance_segmentation #yolo #SAM2 #машинное_обучение #машинное_зрение #computer_vision #разметка_данных #data_labeling
-
Подсчёт долей фракций руды на конвейере: SAM2 для разметки, YOLO и проблемы с перекрытием
На производственной площадке стоит камера над лентой конвейера, она снимает поток , а система считает доли трёх цветовых фракций — серо-белой, оранжевой, розовой — и пишет результат в JSON для следующего этапа обработки. Цвет фракции используется как косвенный признак химического состава — технолог по нему оценивает качество партии. Заказчику нужна всего одна цифра — доля оранжевой фракции . Для предприятия эта фракция самая интересная по составу, остальные классы имеют второстепенное значения. Эту цифру нужно предоставлять в режиме 24/7, без расхождений между сменами. Камера стоит в закрытом помещении внутри здания. Освещение искусственное, прожектора фиксированные. Естественного света нет, влажность стабильна, поэтому большинство стандартных проблем компьютерного зрения на улице — блики на мокрых камнях, изменение цвета по времени суток, тени от солнца — в нашем случае не возникают и в статье обсуждаться не будут.
https://habr.com/ru/articles/1034836/
#sam #instance_segmentation #yolo #SAM2 #машинное_обучение #машинное_зрение #computer_vision #разметка_данных #data_labeling
-
Подсчёт долей фракций руды на конвейере: SAM2 для разметки, YOLO и проблемы с перекрытием
На производственной площадке стоит камера над лентой конвейера, она снимает поток , а система считает доли трёх цветовых фракций — серо-белой, оранжевой, розовой — и пишет результат в JSON для следующего этапа обработки. Цвет фракции используется как косвенный признак химического состава — технолог по нему оценивает качество партии. Заказчику нужна всего одна цифра — доля оранжевой фракции . Для предприятия эта фракция самая интересная по составу, остальные классы имеют второстепенное значения. Эту цифру нужно предоставлять в режиме 24/7, без расхождений между сменами. Камера стоит в закрытом помещении внутри здания. Освещение искусственное, прожектора фиксированные. Естественного света нет, влажность стабильна, поэтому большинство стандартных проблем компьютерного зрения на улице — блики на мокрых камнях, изменение цвета по времени суток, тени от солнца — в нашем случае не возникают и в статье обсуждаться не будут.
https://habr.com/ru/articles/1034836/
#sam #instance_segmentation #yolo #SAM2 #машинное_обучение #машинное_зрение #computer_vision #разметка_данных #data_labeling
-
Подсчёт долей фракций руды на конвейере: SAM2 для разметки, YOLO и проблемы с перекрытием
На производственной площадке стоит камера над лентой конвейера, она снимает поток , а система считает доли трёх цветовых фракций — серо-белой, оранжевой, розовой — и пишет результат в JSON для следующего этапа обработки. Цвет фракции используется как косвенный признак химического состава — технолог по нему оценивает качество партии. Заказчику нужна всего одна цифра — доля оранжевой фракции . Для предприятия эта фракция самая интересная по составу, остальные классы имеют второстепенное значения. Эту цифру нужно предоставлять в режиме 24/7, без расхождений между сменами. Камера стоит в закрытом помещении внутри здания. Освещение искусственное, прожектора фиксированные. Естественного света нет, влажность стабильна, поэтому большинство стандартных проблем компьютерного зрения на улице — блики на мокрых камнях, изменение цвета по времени суток, тени от солнца — в нашем случае не возникают и в статье обсуждаться не будут.
https://habr.com/ru/articles/1034836/
#sam #instance_segmentation #yolo #SAM2 #машинное_обучение #машинное_зрение #computer_vision #разметка_данных #data_labeling
-
Спецлаб-Гамбит: Удобная программа разметки объектов нейросети под системы видеонаблюдения
Для разработчиков умных камер, умных видеорегистраторов и нейросетевой видеоаналитики ПО видеонаблюдения нужна нейросеть, способная работать в реальных условиях наших улиц. А там никто с профессиональной камерой не ходит, правильный ракурс не настраивает, свет не выставляет, без сжатия не снимает и вообще все делает вопреки здравому смыслу учебников ВГИК. Гамбит, конечно, подойдет для любых других задач, но здесь сделан упор на удобство сбора материала ИЗ систем видеонаблюдения и на разметку датасета с целью создания нейросетей ДЛЯ систем видеонаблюдения. Гамбит не столько для отшлифованных фоток и рилсов из Интернета, а как раз наоборот – для не особо качественных видеозаписей из архивов видеонаблюдения. В Спецлабе называют такой контент «диким». Прочитать описание и Скачать бесплатно...
https://habr.com/ru/companies/speclab/articles/1034750/
#разметка_данных #разметка_изображений #нейронные_сети #нейронные_сети_и_машинное_обучение #датасет #dataset
-
Почему AI-проекты ломаются на данных: как качественные датасеты повышают NPS, CTR и конверсию
Без качественного датасета даже сильная модель не улучшает бизнес-метрики — от NPS поддержки до конверсии интернет-магазина. В этом интервью Ильнур Файзиев, руководитель
https://habr.com/ru/companies/doubletapp/articles/1011314/
#датасеты #ai #разметка_данных #разметка_датасета #разметка_изображений #компьютерное_зрение #обучение_нейронных_сетей #автоматизация_бизнеса #автоматизация_бизнеспроцессов #автоматизация_предприятий
-
Почему AI-проекты ломаются на данных: как качественные датасеты повышают NPS, CTR и конверсию
Без качественного датасета даже сильная модель не улучшает бизнес-метрики — от NPS поддержки до конверсии интернет-магазина. В этом интервью Ильнур Файзиев, руководитель
https://habr.com/ru/companies/doubletapp/articles/1011314/
#датасеты #ai #разметка_данных #разметка_датасета #разметка_изображений #компьютерное_зрение #обучение_нейронных_сетей #автоматизация_бизнеса #автоматизация_бизнеспроцессов #автоматизация_предприятий
-
Почему AI-проекты ломаются на данных: как качественные датасеты повышают NPS, CTR и конверсию
Без качественного датасета даже сильная модель не улучшает бизнес-метрики — от NPS поддержки до конверсии интернет-магазина. В этом интервью Ильнур Файзиев, руководитель
https://habr.com/ru/companies/doubletapp/articles/1011314/
#датасеты #ai #разметка_данных #разметка_датасета #разметка_изображений #компьютерное_зрение #обучение_нейронных_сетей #автоматизация_бизнеса #автоматизация_бизнеспроцессов #автоматизация_предприятий
-
Почему AI-проекты ломаются на данных: как качественные датасеты повышают NPS, CTR и конверсию
Без качественного датасета даже сильная модель не улучшает бизнес-метрики — от NPS поддержки до конверсии интернет-магазина. В этом интервью Ильнур Файзиев, руководитель
https://habr.com/ru/companies/doubletapp/articles/1011314/
#датасеты #ai #разметка_данных #разметка_датасета #разметка_изображений #компьютерное_зрение #обучение_нейронных_сетей #автоматизация_бизнеса #автоматизация_бизнеспроцессов #автоматизация_предприятий
-
Разметка данных: самая дорогая часть машинного обучения
Доброго времени суток, «Хабр»! В предыдущей своей статье я рассматривал различные функции потерь - важную часть машинного обучения. Но даже такие функции совершенно беспомощны перед лицом беспорядка. Сегодня мы рассмотрим то, что предшествует любой тренировке - разметку данных. Как и в предыдущей статье, приведу простенькое сравнение. Если модель - ученик, то разметка данных своего рода учебник, по которому она занимается. При этом создание такого учебника часто оказывается трудоемким, медленным и дорогостоящим этапом всего цикла ML-проекта. Принимайте стратегические удобное положение, ну а я начинаю свое повествование.
https://habr.com/ru/companies/bothub/articles/985662/
#разметка_данных #ai #ии #нейросеть #машинное_обучение #Data_Science #dataset #quality_assurance #active_learning #Weak_Supervision
-
[Перевод] Оценки продукта в три простых шага
Когда в продукте появляется LLM‑фича, спорить о качестве «на глаз» быстро становится дороже самой разработки: каждый новый промпт, ретривер или модель меняет поведение, а воспроизводимость улетучивается. В этой статье — прагматичный рецепт, как превратить оценку качества в инженерную процедуру: собрать небольшой датасет с фейлами, откалибровать LLM‑оценщиков под отдельные критерии и завести eval‑harness, который будет ловить регрессии при каждом изменении конфигурации. Перейти к статье
https://habr.com/ru/companies/otus/articles/984876/
#продуктовые_оценки #оценка_качества #LLMоценщик #калибровка_оценщика #разметка_данных #бинарные_метки #evalharness
-
[Перевод] Как дообучать LLM с помощью Supervised Fine-Tuning
Обычно большие языковые модели (large language model, LLM) обучают в несколько этапов, включающих предварительное обучение и множество этапов fine-tuning (см. ниже). Предварительное обучение — это дорогостоящий процесс (например, требующий многих сотен тысяч долларов на вычислительные ресурсы), однако fine-tuning модели LLM (или контекстное обучение) по сравнению с этим гораздо дешевле (например, сотни долларов или даже меньше). Учитывая широкую доступность и бесплатность (даже для коммерческого использования) предварительно обученных LLM (например, MPT , Falcon или LLAMA-2 ), мы можем создавать большой спектр мощных приложений благодаря fine-tuning моделей под нужные задачи. Этапы обучения LLM На текущем этапе исследований ИИ одним из самых широко применяемых видов fine-tuning моделей LLM стал supervised fine-tuning (SFT). При этой методике курируемый датасет высококачественных выходных данных LLM применяется для непосредственного fine-tuning модели. SFT прост и дёшев в использовании, это полезный инструмент выравнивания языковых моделей, ставший популярным даже за пределами исследовательского сообщества опенсорсных LLM. В этой статье мы вкратце расскажем о принципах SFT, рассмотрим исследования по этой теме и приведём примеры того, как практикующие специалисты могут с лёгкостью пользоваться SFT, написав всего несколько строк кода на Python.
https://habr.com/ru/articles/830396/
#Машинное_обучение #data_labeling #data_annotation #dataset #разметка_данных #SFT #Finetuning #LLM
-
[Перевод] Fine-tuning больших языковых моделей в 2024 году
Не секрет, что большие языковые модели (LLM) эволюционируют с безумной скоростью и привлекают внимание всей отрасли генеративного ИИ. Корпорации не просто заинтригованы, они одержимы LLM, и в частности, потенциалом fine-tuning LLM. В исследования и разработку LLM сейчас вкладываются миллиарды долларов. Лидеры отрасли и энтузиасты технологий всё сильнее стремятся углубить своё понимание LLM и их fine-tuning. Эта сфера natural language processing (NLP) постоянно расширяется, поэтому критически важно иметь актуальную информацию. Польза, которую LLM могут принести вашему бизнесу, зависит от ваших знаний и понимания этой технологии. Цикл жизни большой языковой модели состоит из множества важных этапов, и сегодня мы рассмотрим один из самых любопытных и активно развивающихся частей этого цикла — процесс fine-tuning моделей LLM. Это трудозатратная, тяжёлая, но перспективная задача, используемая во многих процессах обучения языковых моделей.
https://habr.com/ru/articles/830414/
#Машинное_обучение #data_labeling #data_annotation #dataset #разметка_данных #SFT #Finetuning #LLM
-
5 лучших инструментов для разметки данных в 2024 году
Разметка данных играет ключевую роль в развитии совершенно разных технологий: от автопилотов и голосовых помощников до агро- и тяжелой промышленности. Но сам процесс разметки может быть трудоёмким и занимать много времени. Чтобы упростить эту задачу, важно выбрать инструменты, которые подходят для вашей задачи и могут сделать работу быстрее и удобнее. В этом руководстве мы разберем самые популярные решения для разметки данных, поделимся опытом команды Data Light и разберём, какой стоит выбрать именно вам.
https://habr.com/ru/companies/data_light/articles/850770/
#data_annotation #data_mining #искусственный_интеллект #big_data #разметка_данных
-
Кто такой разметчик данных и сколько он зарабатывает? Все, что вам нужно знать о профессии
Вы когда-нибудь задумывались, как нейросети учатся распознавать лица, управлять автомобилями или рекомендовать фильмы? За всем этим скрывается работа разметчиков данных — специалистов, которые буквально обучают ИИ видеть и понимать мир. Сколько зарабатывают разметчики, какие навыки им нужны, и стоит ли вам задуматься о работе в этой индустрии? Раскроем все секреты профессии в нашей статье.
https://habr.com/ru/companies/data_light/articles/850068/
#разметка_данных #разметчик_данных #искусственный_интеллект #data_annotation #data_mining
-
Sapiens: фундаментальная CV-модель для задач с людьми
Почти две недели назад из недр одной из самых прорывных AI лабораторий мира вышла новая классная модель (а точнее — семейство моделей) компьютерного зрения, но данная новость в русскоязычном интернете прошла будто бы без энтузиазма. А зря — штука довольно хороша. Итак, у нас есть семейство моделей, которое из коробки поможет решить «четыре фундаментальные задачи человека в CV» (цитата авторов) и давайте посмотрим, что же там есть есть и как это работает. Скажу сразу, что мне хотелось написать скорее напоминательно-обзорный пост о том, что такая модель вообще вышла и чего ожидать от нее в дальнейшем. В живых проектах мы пока это не использовали (но однозначно будем) и свой большой обзор писать рановато, но я поигрался с демками и да — результаты повторяемы. Технических деталей будет минимум — пейпер хорош и не стоит лишать удовольствия его прочитать самому целиком, особенно, если вы занимаетесь похожими задачами.
https://habr.com/ru/articles/841058/
#cv #computer_vision #компьютерное_зрение #open_source #разметка #разметка_данных #разметка_изображений #ии #ai #data_mining
-
Разбор SAM2 через колено в голову или революция в разметке видео
На днях вышла новая версия модели для сегментации видео - SAM2, которая не только стала быстрее выше сильнее предшественника, но и нацелилась поменять разметку видео также, как с картинками это проделала первая версия модели. Оригинальную SAM мы используем для разметки в достаточно промышленных масштабах (в том числе и для видео), и потому пройти мимо препарирования SAM2 было невозможно, но так как модель уже по верхам разобрали в тг-каналах, пейпер хорош, а то, что модель феноменальна - понятно без слов, то я постараюсь поглубже разобрать подготовку датасета/разметку и саму модель именно на сложных примерах с моими комментариями. Легкое чтиво и много гифок — самое то для бодрого старта понедельничка!
https://habr.com/ru/articles/833692/
#компьютерное_зрение #ии #ai #cv #разметка_данных #разметка #датасет #разметка_изображений #data_mining #computer_vision
-
Garbage In — Garbage Out: ошибки в разметке данных и как они ломают ML-системы
На Хабре тысячи статей про OCR, IDP, ML и искусственный интеллект. Все они сходятся в одном: «качественная разметка данных — ключ к точности модели». Но что это значит на практике? Меня зовут Снежана Игнатенко, я руковожу отделом разметки данных в SL Soft AI. Каждый день моя команда работает с самыми разными документами: печатными, рукописными, строгими формами, свободными текстами, сканами и фотографиями, в которых встречаются печати, подписи, штампы, затертые области, перекосы и артефакты. Наша задача — создавать качественный, точный и контекстно корректный набор размеченных данных, который служит фундаментом для всех интеллектуальных систем класса IDP. В этой статье я приглашаю вас заглянуть за кулисы разметки данных и понять, как она формирует точность и надежность любых интеллектуальных систем.
https://habr.com/ru/companies/slsoft/articles/976814/
#разметка_данных #ocr #idp #разметка_датасета #data_labeling #data_annotation #training_data
-
[Перевод] Разметка данных в 2023 году: текущие тренды и требования будущего
Разметка данных и/или аннотирование данных уже давно являются критически важным компонентом многих проектов машинного обучения и ИИ. В последние годы спрос на точную и надёжную разметку данных существенно вырос, ведь этот процесс становится всё более насущным для успеха множества проектов. Что же такое разметка данных? Как она повлияет на бизнесы? На какие тренды стоит обратить внимание, потому что они сформируют образ будущего разметки данных? В своём посте мы исследуем эти вопросы, чтобы лучше понимать, в каком направлении будет двигаться технология в ближайшие несколько лет.
https://habr.com/ru/articles/759154/
#машинное_обучение #тренды #разметка_данных #Data_Labeling #датасет #dataset
-
Как мы сделали полезным крупнейший русскоязычный датасет запросов к LLM
Привет! Меня зовут Роман Куцев, я основатель LLM Arena . У нас каждый день сотни людей общаются с языковыми моделями, тестируют, сравнивают, задают вопросы. В какой-то момент стало ясно: в этих логах — не просто сессии пользователей. Это — живая картина того, как люди используют LLM в реальности. Так родилась идея: собрать открытый, структурированный датасет промптов и дать AI-комьюнити инструмент, с которым можно не просто смотреть, но и исследовать, фильтровать, понимать логику запросов юзеров к LLM. Изучая Arena Explorer от LMSYS, мы сначала хотели взять их путь за основу. Но быстро стало понятно — мы можем и должны пойти дальше. И построили систему, которая обусловлена русскоязычным контекстом, с другим уровнем прозрачности и внимания к качеству.
https://habr.com/ru/articles/920150/
#llm #llmarena #датасет #dataset #ai #ии #разметка_данных #валидация_данных
-
8 лучших советов для аутсорсинга разметки данных
Любой проект в области CV начинается с разметки огромных объёмов изображений и видео. И только успешные результаты и качественные данные гарантируют, что модель сможет обучаться корректно. Но что делать, если внутренняя команда не справляется с объемами, а квалифицированных специалистов найти сложно? Ответ прост: передать задачу профессионалам. Аутсорсинг разметки данных помогает ускорить процесс и вывести проект на совершенно новый уровень. Однако найти надежного партнера, который станет вашим стратегическим союзником, — задача не из легких. Как выбрать компанию и выстроить процессы, чтобы сотрудничество получилось продуктивным? В этом материале многолетним опытом Data Light в сфере организации разметки поделятся наши эксперты: Алексей Корнилов, Special Projects Group Manager Дмитрий Рогальский, Moderation Group Manager
https://habr.com/ru/companies/data_light/articles/866474/
#machinelearning #разметка_датасета #разметка_данных #аутсорсинг #машинное_обучение #data_annotation
-
Как организовать разметку данных для ML? Советы от Data Light
За каждым «умным» решением, которое принимает ИИ, стоят огромные объемы данных, тщательно размеченные и подготовленные для обучения. Но как организовать этот процесс так, чтобы модель работала эффективно? Мы в Data Light считаем, что это искусство, требующее правильного подхода, инструментов и стратегии. Организация самого процесса разметки зависит от многих факторов: целей проекта, объемов данных, требуемой точности и доступных ресурсов. В этой статье мы рассмотрим основные методики и инструменты для организации разметки данных с нашими экспертами: Дмитрий Рогальский, Special Projects Group Manager в Data Light Алексей Корнилов, Moderation Group Manager в Data Light
https://habr.com/ru/companies/data_light/articles/862464/
#разметка_данных #разметка_датасета #инструменты_для_аннотации #data_annotation #data_science #data_science_digest #аннотация_данных #краудсорсинг
-
Как мы отбираем и обучаем специалистов: от первых шагов до реальных проектов
В чем секрет качественных данных и точной разметки? Мы в Data Light знаем: за каждым успешным проектом стоят не только технологии, но и люди — специалисты, отобранные после нескольких этапов тестирований и обученные на настоящих проектах. Мы знаем: чем лучше подготовлен исполнитель, тем выше итоговое качество работы. Я, Артем Каукалов, руководитель отдела обучения, поделюсь опытом нашей компании — как найти людей, которые помогут вам достичь максимальных результатов, и как правильно выстроить их процесс учебы.
https://habr.com/ru/companies/data_light/articles/853372/
#project_management #data_annotation #аннотация #разметка_данных #разметка_датасета #artificial_intelligence #big_data
-
Анализ тональности текста: зачем он нужен и как его использовать? Объясняем за 7 минут
Как компании выявляют эмоции в тысячах отзывов и комментариев? Почему одни маркетинговые кампании становятся невероятным успехом, а другие — провалом? Анализ тональности текста — мощный инструмент, который помогает бизнесу не только считывать эмоции клиентов, но и на практике улучшать продукт, автоматизировать поддержку и управлять репутацией. Сегодня мы подробно разберем, как анализ тональности работает в реальных кейсах, и покажем, как вы можете внедрить его для достижения своих бизнес-целей.
https://habr.com/ru/companies/data_light/articles/851700/
#data_annotation #разметка_данных #анализ_тональности #big_data #data_science
-
Как разметить 3D кубойды на 2D изображениях в CVAT? Методы геоинформационных систем в разметке данных
Команда Data Light регулярно встречается с нестандартными задачами, и в прошлом году мы начали работать над одной из них: наш проект неожиданно перерос из привычной разметки LiDAR облаков (изображений со специальных сканеров) в написание скриптов и созданию нестандартных решений для CVAT. В этой статье я, Алексей Антюшеня, хочу рассказать, как мы нашли это необычное решение, и поделиться методом, который позволит ML специалистам и коллегам по нише решать сложные задачи по 3D разметке.
https://habr.com/ru/companies/data_light/articles/849384/
#data_annotation #разметка_данных #data_engineering #ml #машинное_обучение
-
Контроль качества разметки на проекте: делай как ОКК
Существует известное правило: “мусор на входе, мусор на выходе”. Все знают, что “чистые”, точные данные повышают качество и корректность работы ИИ-моделей, так что итоговая ценность оправдывает дополнительные усилия и вложения. Намного дешевле компаниям выходит предотвратить проблемы с данными, чем решать их после. Но как контролировать качество на проектах разметки максимально эффективно? Выстроить такие процессы непросто, но мы считаем, что у нас это получилось. Для того, чтобы гарантировать на каждом проекте высокое качество разметки, в Data Light существует отдел Контроля качества. Я, Евгений Шилкин, руководитель ОКК, расскажу, что нам позволяет обеспечивать стабильно высокое качество на проектах и какие советы для эффективной валидации мы можем дать.
https://habr.com/ru/companies/data_light/articles/848234/
#ai #ml #data_annotation #разметка_данных #project_management #bigdata #data_validation
-
Сравнение инструментов разметки данных для CV: Label Studio & CVAT & Roboflow — опыт разметки 6000+ изображений
Если вы хоть раз обучали модель компьютерного зрения, вы знаете, как качество данных решает всё. На первый взгляд кажется, что задачи у всех инструментов одинаковые: поставить рамку, провести полигон, экспортировать данные, но в реальности всё упирается в детали:
https://habr.com/ru/articles/969000/
#CVAT #label_studio #roboflow #cv #разметка_данных #workflow #анализ_данных #обзор_программ #интерфейс_пользователя #сбор_данных
-
Когда YOLO не спасает: как один параметр может испортить всё
История о том, почему в ML побеждают не те, у кого самая большая модель, а те, кто понимает, что они делают.
https://habr.com/ru/articles/943516/
#покер #онлайнпокер #карты #computer_vision #yolo #object_detection #детекция_объектов #разметка_данных #датасет #оптимизация_моделей
-
[Перевод] Разметка данных в Label Studio при помощи GPT-4: интеграция ML Backend
Введение Получение качественных данных — краеугольный камень любого проекта машинного обучения. Этот процесс, в котором традиционно доминирует трудозатратная разметка данных, часто может превращаться в длительную и дорогостоящую задачу. Но что, если мы сможем воспользоваться прогрессом в развитии больших языковых моделей (LLM) для перехода от разметки данных к проверке разметки? На сцене появляется GPT-4. Эта система (разработанная на основе GPT-4), имеющая более ста миллионов пользователей — одна из самых популярных языковых моделей. В предыдущей статье мы показали, как можно ускорить процесс разметки предварительным аннотированием данных при помощи GPT-4. Эта методика позволяет нам загружать готовый к проверке предварительно размеченный датасет, а не выполнять монотонный процесс, начиная с нуля. В этой статье мы продолжим развивать эту тему, оказав, как можно объединить GPT-4 с бэкендом машинного обучения (ML Backend) Label Studio. При помощи Label Studio ML Backend можно размечать данные непосредственно в Label Studio, что позволяет нам совершить переход от трудозатратной задачи разметки данных к гораздо более эффективному процессу проверки и совершенствования предварительных меток, что существенно ускоряет работу.
https://habr.com/ru/articles/772974/
#машинное_обучение #GPT4 #Label_Studio #ML_Backend #разметка_данных #датасет #dataset
-
Garbage In — Garbage Out: ошибки в разметке данных и как они ломают ML-системы
На Хабре тысячи статей про OCR, IDP, ML и искусственный интеллект. Все они сходятся в одном: «качественная разметка данных — ключ к точности модели». Но что это значит на практике? Меня зовут Снежана Игнатенко, я руковожу отделом разметки данных в SL Soft AI. Каждый день моя команда работает с самыми разными документами: печатными, рукописными, строгими формами, свободными текстами, сканами и фотографиями, в которых встречаются печати, подписи, штампы, затертые области, перекосы и артефакты. Наша задача — создавать качественный, точный и контекстно корректный набор размеченных данных, который служит фундаментом для всех интеллектуальных систем класса IDP. В этой статье я приглашаю вас заглянуть за кулисы разметки данных и понять, как она формирует точность и надежность любых интеллектуальных систем.
https://habr.com/ru/companies/slsoft/articles/976814/
#разметка_данных #ocr #idp #разметка_датасета #data_labeling #data_annotation #training_data
-
Garbage In — Garbage Out: ошибки в разметке данных и как они ломают ML-системы
На Хабре тысячи статей про OCR, IDP, ML и искусственный интеллект. Все они сходятся в одном: «качественная разметка данных — ключ к точности модели». Но что это значит на практике? Меня зовут Снежана Игнатенко, я руковожу отделом разметки данных в SL Soft AI. Каждый день моя команда работает с самыми разными документами: печатными, рукописными, строгими формами, свободными текстами, сканами и фотографиями, в которых встречаются печати, подписи, штампы, затертые области, перекосы и артефакты. Наша задача — создавать качественный, точный и контекстно корректный набор размеченных данных, который служит фундаментом для всех интеллектуальных систем класса IDP. В этой статье я приглашаю вас заглянуть за кулисы разметки данных и понять, как она формирует точность и надежность любых интеллектуальных систем.
https://habr.com/ru/companies/slsoft/articles/976814/
#разметка_данных #ocr #idp #разметка_датасета #data_labeling #data_annotation #training_data
-
Garbage In — Garbage Out: ошибки в разметке данных и как они ломают ML-системы
На Хабре тысячи статей про OCR, IDP, ML и искусственный интеллект. Все они сходятся в одном: «качественная разметка данных — ключ к точности модели». Но что это значит на практике? Меня зовут Снежана Игнатенко, я руковожу отделом разметки данных в SL Soft AI. Каждый день моя команда работает с самыми разными документами: печатными, рукописными, строгими формами, свободными текстами, сканами и фотографиями, в которых встречаются печати, подписи, штампы, затертые области, перекосы и артефакты. Наша задача — создавать качественный, точный и контекстно корректный набор размеченных данных, который служит фундаментом для всех интеллектуальных систем класса IDP. В этой статье я приглашаю вас заглянуть за кулисы разметки данных и понять, как она формирует точность и надежность любых интеллектуальных систем.
https://habr.com/ru/companies/slsoft/articles/976814/
#разметка_данных #ocr #idp #разметка_датасета #data_labeling #data_annotation #training_data
-
200 000+ снимков мусора: что мы узнали о датасетах
В нашей работе хватает безумных задач. Мы создали первого в России цифрового PR-менеджера, разрабатывали виртуальную примерочную и делали много чего еще, о чем не всегда можно рассказать. Но когда мы взялись за создание ИИ-сортировщика мусора MARQUS, поняли — будет совсем жестко. Не так давно мы создали систему сортировки ТКО (Твердых коммунальных отходов) MARQUS, которая делит отходы на бумагу, металл, пластик, стекло и т.д. Система использует искусственный интеллект и специальные сенсоры, чтобы распознавать различные типы отходов прямо на конвейере и направлять их в соответствующие секции для переработки. В процессе разработки MARQUS мы столкнулись с задачей — найти или собрать подходящие датасеты, так как без них эффективность нейронной сети резко снижается, если вообще приближается к нулю. Мы перепробовали множество подходов, пересмотрели доступные датасеты с готовой разметкой и потратили достаточное количество времени и денег, чтобы честно признаться — на обучении нейронок сэкономить не получится, но обо всем по порядку.
https://habr.com/ru/articles/924696/
#управление_проектами #искусственный_интеллект #Машинное_обучение #открытые_данные #разметка_датасета #сбор_данных_для_ии #парсинг_данных #разметка_данных
-
200 000+ снимков мусора: что мы узнали о датасетах
В нашей работе хватает безумных задач. Мы создали первого в России цифрового PR-менеджера, разрабатывали виртуальную примерочную и делали много чего еще, о чем не всегда можно рассказать. Но когда мы взялись за создание ИИ-сортировщика мусора MARQUS, поняли — будет совсем жестко. Не так давно мы создали систему сортировки ТКО (Твердых коммунальных отходов) MARQUS, которая делит отходы на бумагу, металл, пластик, стекло и т.д. Система использует искусственный интеллект и специальные сенсоры, чтобы распознавать различные типы отходов прямо на конвейере и направлять их в соответствующие секции для переработки. В процессе разработки MARQUS мы столкнулись с задачей — найти или собрать подходящие датасеты, так как без них эффективность нейронной сети резко снижается, если вообще приближается к нулю. Мы перепробовали множество подходов, пересмотрели доступные датасеты с готовой разметкой и потратили достаточное количество времени и денег, чтобы честно признаться — на обучении нейронок сэкономить не получится, но обо всем по порядку.
https://habr.com/ru/articles/924696/
#управление_проектами #искусственный_интеллект #Машинное_обучение #открытые_данные #разметка_датасета #сбор_данных_для_ии #парсинг_данных #разметка_данных
-
200 000+ снимков мусора: что мы узнали о датасетах
В нашей работе хватает безумных задач. Мы создали первого в России цифрового PR-менеджера, разрабатывали виртуальную примерочную и делали много чего еще, о чем не всегда можно рассказать. Но когда мы взялись за создание ИИ-сортировщика мусора MARQUS, поняли — будет совсем жестко. Не так давно мы создали систему сортировки ТКО (Твердых коммунальных отходов) MARQUS, которая делит отходы на бумагу, металл, пластик, стекло и т.д. Система использует искусственный интеллект и специальные сенсоры, чтобы распознавать различные типы отходов прямо на конвейере и направлять их в соответствующие секции для переработки. В процессе разработки MARQUS мы столкнулись с задачей — найти или собрать подходящие датасеты, так как без них эффективность нейронной сети резко снижается, если вообще приближается к нулю. Мы перепробовали множество подходов, пересмотрели доступные датасеты с готовой разметкой и потратили достаточное количество времени и денег, чтобы честно признаться — на обучении нейронок сэкономить не получится, но обо всем по порядку.
https://habr.com/ru/articles/924696/
#управление_проектами #искусственный_интеллект #Машинное_обучение #открытые_данные #разметка_датасета #сбор_данных_для_ии #парсинг_данных #разметка_данных
-
200 000+ снимков мусора: что мы узнали о датасетах
В нашей работе хватает безумных задач. Мы создали первого в России цифрового PR-менеджера, разрабатывали виртуальную примерочную и делали много чего еще, о чем не всегда можно рассказать. Но когда мы взялись за создание ИИ-сортировщика мусора MARQUS, поняли — будет совсем жестко. Не так давно мы создали систему сортировки ТКО (Твердых коммунальных отходов) MARQUS, которая делит отходы на бумагу, металл, пластик, стекло и т.д. Система использует искусственный интеллект и специальные сенсоры, чтобы распознавать различные типы отходов прямо на конвейере и направлять их в соответствующие секции для переработки. В процессе разработки MARQUS мы столкнулись с задачей — найти или собрать подходящие датасеты, так как без них эффективность нейронной сети резко снижается, если вообще приближается к нулю. Мы перепробовали множество подходов, пересмотрели доступные датасеты с готовой разметкой и потратили достаточное количество времени и денег, чтобы честно признаться — на обучении нейронок сэкономить не получится, но обо всем по порядку.
https://habr.com/ru/articles/924696/
#управление_проектами #искусственный_интеллект #Машинное_обучение #открытые_данные #разметка_датасета #сбор_данных_для_ии #парсинг_данных #разметка_данных
-
Как мы научили нейросеть узнавать 10 000 лошадей «в лицо» и чуть не сошли с ума
В нашей работе хватает безумных задач. Мы собирали датасеты с уличными драками, где сами вживались в роль дебоширов перед камерами, и делали много чего еще, о чем не всегда можно рассказать. В общем, мы в своей работе привыкли к странным задачам. Но когда к нам пришли с просьбой научить искусственный интеллект узнавать «в лицо» 10 000 лошадей, мы поняли — будет интересно...
https://habr.com/ru/articles/924358/
#нейросети_для_табунов_и_конюшен #сбор_данных_для_ИИ #парсинг_данных #нейросети_для_агропрома #нейросети_для_ферм #разметка_данных #разметка_датасета
-
Как мы научили нейросеть узнавать 10 000 лошадей «в лицо» и чуть не сошли с ума
В нашей работе хватает безумных задач. Мы собирали датасеты с уличными драками, где сами вживались в роль дебоширов перед камерами, и делали много чего еще, о чем не всегда можно рассказать. В общем, мы в своей работе привыкли к странным задачам. Но когда к нам пришли с просьбой научить искусственный интеллект узнавать «в лицо» 10 000 лошадей, мы поняли — будет интересно...
https://habr.com/ru/articles/924358/
#нейросети_для_табунов_и_конюшен #сбор_данных_для_ИИ #парсинг_данных #нейросети_для_агропрома #нейросети_для_ферм #разметка_данных #разметка_датасета
-
Как мы научили нейросеть узнавать 10 000 лошадей «в лицо» и чуть не сошли с ума
В нашей работе хватает безумных задач. Мы собирали датасеты с уличными драками, где сами вживались в роль дебоширов перед камерами, и делали много чего еще, о чем не всегда можно рассказать. В общем, мы в своей работе привыкли к странным задачам. Но когда к нам пришли с просьбой научить искусственный интеллект узнавать «в лицо» 10 000 лошадей, мы поняли — будет интересно...
https://habr.com/ru/articles/924358/
#нейросети_для_табунов_и_конюшен #сбор_данных_для_ИИ #парсинг_данных #нейросети_для_агропрома #нейросети_для_ферм #разметка_данных #разметка_датасета
-
Как мы научили нейросеть узнавать 10 000 лошадей «в лицо» и чуть не сошли с ума
В нашей работе хватает безумных задач. Мы собирали датасеты с уличными драками, где сами вживались в роль дебоширов перед камерами, и делали много чего еще, о чем не всегда можно рассказать. В общем, мы в своей работе привыкли к странным задачам. Но когда к нам пришли с просьбой научить искусственный интеллект узнавать «в лицо» 10 000 лошадей, мы поняли — будет интересно...
https://habr.com/ru/articles/924358/
#нейросети_для_табунов_и_конюшен #сбор_данных_для_ИИ #парсинг_данных #нейросети_для_агропрома #нейросети_для_ферм #разметка_данных #разметка_датасета
-
8 лучших советов для аутсорсинга разметки данных
Любой проект в области CV начинается с разметки огромных объёмов изображений и видео. И только успешные результаты и качественные данные гарантируют, что модель сможет обучаться корректно. Но что делать, если внутренняя команда не справляется с объемами, а квалифицированных специалистов найти сложно? Ответ прост: передать задачу профессионалам. Аутсорсинг разметки данных помогает ускорить процесс и вывести проект на совершенно новый уровень. Однако найти надежного партнера, который станет вашим стратегическим союзником, — задача не из легких. Как выбрать компанию и выстроить процессы, чтобы сотрудничество получилось продуктивным? В этом материале многолетним опытом Data Light в сфере организации разметки поделятся наши эксперты: Алексей Корнилов, Special Projects Group Manager Дмитрий Рогальский, Moderation Group Manager
https://habr.com/ru/companies/data_light/articles/866474/
#machinelearning #разметка_датасета #разметка_данных #аутсорсинг #машинное_обучение #data_annotation
-
8 лучших советов для аутсорсинга разметки данных
Любой проект в области CV начинается с разметки огромных объёмов изображений и видео. И только успешные результаты и качественные данные гарантируют, что модель сможет обучаться корректно. Но что делать, если внутренняя команда не справляется с объемами, а квалифицированных специалистов найти сложно? Ответ прост: передать задачу профессионалам. Аутсорсинг разметки данных помогает ускорить процесс и вывести проект на совершенно новый уровень. Однако найти надежного партнера, который станет вашим стратегическим союзником, — задача не из легких. Как выбрать компанию и выстроить процессы, чтобы сотрудничество получилось продуктивным? В этом материале многолетним опытом Data Light в сфере организации разметки поделятся наши эксперты: Алексей Корнилов, Special Projects Group Manager Дмитрий Рогальский, Moderation Group Manager
https://habr.com/ru/companies/data_light/articles/866474/
#machinelearning #разметка_датасета #разметка_данных #аутсорсинг #машинное_обучение #data_annotation
-
8 лучших советов для аутсорсинга разметки данных
Любой проект в области CV начинается с разметки огромных объёмов изображений и видео. И только успешные результаты и качественные данные гарантируют, что модель сможет обучаться корректно. Но что делать, если внутренняя команда не справляется с объемами, а квалифицированных специалистов найти сложно? Ответ прост: передать задачу профессионалам. Аутсорсинг разметки данных помогает ускорить процесс и вывести проект на совершенно новый уровень. Однако найти надежного партнера, который станет вашим стратегическим союзником, — задача не из легких. Как выбрать компанию и выстроить процессы, чтобы сотрудничество получилось продуктивным? В этом материале многолетним опытом Data Light в сфере организации разметки поделятся наши эксперты: Алексей Корнилов, Special Projects Group Manager Дмитрий Рогальский, Moderation Group Manager
https://habr.com/ru/companies/data_light/articles/866474/
#machinelearning #разметка_датасета #разметка_данных #аутсорсинг #машинное_обучение #data_annotation
-
Дилеммы, с которыми вы столкнетесь при разработке биометрических датасетов
Если вы хотите научить модель машинного зрения разбираться в сортах кукурузы или, скажем, отличать пешеходов от автомобилей , вам нужно подготовить датасет с изображениями, где уже будут размечены пешеходы и початки кукурузы, снятые с разных ракурсов в разное время суток. Когда дело ограничивается злаковыми культурами, для этих целей можно использовать опенсорсное решение , а вот компании, работающие с белковыми формами жизни и их биометрией — например, банки, — за неимением своих датасетов часто обращаются за помощью к другим компаниям. Чтобы выяснить, как на практике выглядит такая разработка датасетов на аутсорсе, мы поговорили с Владиславом Барсуковым, руководителем группы речевых и генеративных данных в Data Light. Он поделился своим взглядом на проблемы в сфере разметки биометрических данных и рассказал о подводных камнях, с которыми приходится сталкиваться в ходе подготовки, проверки, обработки и выгрузки датасетов для алгоритмов ML. Бонусом — интересный кейс с разметкой 60 000 фотографий, пол и возраст на которых проверяли сначала нейросетью, а потом — вручную.
https://habr.com/ru/companies/magnus-tech/articles/859764/
#биометрический_датасет #машинное_обучение #разметка_датасета #разметка_данных #датасет_liveness #переразметка_данных #компьютерное_зрение #data_light #синтетические_данные
-
Дилеммы, с которыми вы столкнетесь при разработке биометрических датасетов
Если вы хотите научить модель машинного зрения разбираться в сортах кукурузы или, скажем, отличать пешеходов от автомобилей , вам нужно подготовить датасет с изображениями, где уже будут размечены пешеходы и початки кукурузы, снятые с разных ракурсов в разное время суток. Когда дело ограничивается злаковыми культурами, для этих целей можно использовать опенсорсное решение , а вот компании, работающие с белковыми формами жизни и их биометрией — например, банки, — за неимением своих датасетов часто обращаются за помощью к другим компаниям. Чтобы выяснить, как на практике выглядит такая разработка датасетов на аутсорсе, мы поговорили с Владиславом Барсуковым, руководителем группы речевых и генеративных данных в Data Light. Он поделился своим взглядом на проблемы в сфере разметки биометрических данных и рассказал о подводных камнях, с которыми приходится сталкиваться в ходе подготовки, проверки, обработки и выгрузки датасетов для алгоритмов ML. Бонусом — интересный кейс с разметкой 60 000 фотографий, пол и возраст на которых проверяли сначала нейросетью, а потом — вручную.
https://habr.com/ru/companies/magnus-tech/articles/859764/
#биометрический_датасет #машинное_обучение #разметка_датасета #разметка_данных #датасет_liveness #переразметка_данных #компьютерное_зрение #data_light #синтетические_данные
-
Дилеммы, с которыми вы столкнетесь при разработке биометрических датасетов
Если вы хотите научить модель машинного зрения разбираться в сортах кукурузы или, скажем, отличать пешеходов от автомобилей , вам нужно подготовить датасет с изображениями, где уже будут размечены пешеходы и початки кукурузы, снятые с разных ракурсов в разное время суток. Когда дело ограничивается злаковыми культурами, для этих целей можно использовать опенсорсное решение , а вот компании, работающие с белковыми формами жизни и их биометрией — например, банки, — за неимением своих датасетов часто обращаются за помощью к другим компаниям. Чтобы выяснить, как на практике выглядит такая разработка датасетов на аутсорсе, мы поговорили с Владиславом Барсуковым, руководителем группы речевых и генеративных данных в Data Light. Он поделился своим взглядом на проблемы в сфере разметки биометрических данных и рассказал о подводных камнях, с которыми приходится сталкиваться в ходе подготовки, проверки, обработки и выгрузки датасетов для алгоритмов ML. Бонусом — интересный кейс с разметкой 60 000 фотографий, пол и возраст на которых проверяли сначала нейросетью, а потом — вручную.
https://habr.com/ru/companies/magnus-tech/articles/859764/
#биометрический_датасет #машинное_обучение #разметка_датасета #разметка_данных #датасет_liveness #переразметка_данных #компьютерное_зрение #data_light #синтетические_данные
-
Дилеммы, с которыми вы столкнетесь при разработке биометрических датасетов
Если вы хотите научить модель машинного зрения разбираться в сортах кукурузы или, скажем, отличать пешеходов от автомобилей , вам нужно подготовить датасет с изображениями, где уже будут размечены пешеходы и початки кукурузы, снятые с разных ракурсов в разное время суток. Когда дело ограничивается злаковыми культурами, для этих целей можно использовать опенсорсное решение , а вот компании, работающие с белковыми формами жизни и их биометрией — например, банки, — за неимением своих датасетов часто обращаются за помощью к другим компаниям. Чтобы выяснить, как на практике выглядит такая разработка датасетов на аутсорсе, мы поговорили с Владиславом Барсуковым, руководителем группы речевых и генеративных данных в Data Light. Он поделился своим взглядом на проблемы в сфере разметки биометрических данных и рассказал о подводных камнях, с которыми приходится сталкиваться в ходе подготовки, проверки, обработки и выгрузки датасетов для алгоритмов ML. Бонусом — интересный кейс с разметкой 60 000 фотографий, пол и возраст на которых проверяли сначала нейросетью, а потом — вручную.
https://habr.com/ru/companies/magnus-tech/articles/859764/
#биометрический_датасет #машинное_обучение #разметка_датасета #разметка_данных #датасет_liveness #переразметка_данных #компьютерное_зрение #data_light #синтетические_данные
-
Как добиться успеха в большой компании? 4 ингредиента для идеального карьерного рецепта руководителя
Что делает руководителя по‑настоящему успешным? После управления двумя отделами в Авито я взялся за создание отдела Контроля качества в Data Light. Результат не заставил себя ждать: всего за несколько месяцев команда из 47 человек вывела метрику экспертизы на уровень 98%. За это время я определил для себя 4 ключевых принципа, которые помогают добиваться таких успехов, я готов поделиться своей историей и раскрыть их в этой статье.
https://habr.com/ru/companies/data_light/articles/864580/
#разметка_данных #разметка_датасета #менеджмент #управление_проектами #управление_людьми #карьера_в_itиндустрии
-
Как добиться успеха в большой компании? 4 ингредиента для идеального карьерного рецепта руководителя
Что делает руководителя по‑настоящему успешным? После управления двумя отделами в Авито я взялся за создание отдела Контроля качества в Data Light. Результат не заставил себя ждать: всего за несколько месяцев команда из 47 человек вывела метрику экспертизы на уровень 98%. За это время я определил для себя 4 ключевых принципа, которые помогают добиваться таких успехов, я готов поделиться своей историей и раскрыть их в этой статье.
https://habr.com/ru/companies/data_light/articles/864580/
#разметка_данных #разметка_датасета #менеджмент #управление_проектами #управление_людьми #карьера_в_itиндустрии
-
Как добиться успеха в большой компании? 4 ингредиента для идеального карьерного рецепта руководителя
Что делает руководителя по‑настоящему успешным? После управления двумя отделами в Авито я взялся за создание отдела Контроля качества в Data Light. Результат не заставил себя ждать: всего за несколько месяцев команда из 47 человек вывела метрику экспертизы на уровень 98%. За это время я определил для себя 4 ключевых принципа, которые помогают добиваться таких успехов, я готов поделиться своей историей и раскрыть их в этой статье.
https://habr.com/ru/companies/data_light/articles/864580/
#разметка_данных #разметка_датасета #менеджмент #управление_проектами #управление_людьми #карьера_в_itиндустрии