home.social

#разметка_датасета — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #разметка_датасета, aggregated by home.social.

  1. Почему AI-проекты ломаются на данных: как качественные датасеты повышают NPS, CTR и конверсию

    Без качественного датасета даже сильная модель не улучшает бизнес-метрики — от NPS поддержки до конверсии интернет-магазина. В этом интервью Ильнур Файзиев, руководитель

    habr.com/ru/companies/doubleta

    #датасеты #ai #разметка_данных #разметка_датасета #разметка_изображений #компьютерное_зрение #обучение_нейронных_сетей #автоматизация_бизнеса #автоматизация_бизнеспроцессов #автоматизация_предприятий

  2. Почему AI-проекты ломаются на данных: как качественные датасеты повышают NPS, CTR и конверсию

    Без качественного датасета даже сильная модель не улучшает бизнес-метрики — от NPS поддержки до конверсии интернет-магазина. В этом интервью Ильнур Файзиев, руководитель

    habr.com/ru/companies/doubleta

    #датасеты #ai #разметка_данных #разметка_датасета #разметка_изображений #компьютерное_зрение #обучение_нейронных_сетей #автоматизация_бизнеса #автоматизация_бизнеспроцессов #автоматизация_предприятий

  3. Почему AI-проекты ломаются на данных: как качественные датасеты повышают NPS, CTR и конверсию

    Без качественного датасета даже сильная модель не улучшает бизнес-метрики — от NPS поддержки до конверсии интернет-магазина. В этом интервью Ильнур Файзиев, руководитель

    habr.com/ru/companies/doubleta

    #датасеты #ai #разметка_данных #разметка_датасета #разметка_изображений #компьютерное_зрение #обучение_нейронных_сетей #автоматизация_бизнеса #автоматизация_бизнеспроцессов #автоматизация_предприятий

  4. Почему AI-проекты ломаются на данных: как качественные датасеты повышают NPS, CTR и конверсию

    Без качественного датасета даже сильная модель не улучшает бизнес-метрики — от NPS поддержки до конверсии интернет-магазина. В этом интервью Ильнур Файзиев, руководитель

    habr.com/ru/companies/doubleta

    #датасеты #ai #разметка_данных #разметка_датасета #разметка_изображений #компьютерное_зрение #обучение_нейронных_сетей #автоматизация_бизнеса #автоматизация_бизнеспроцессов #автоматизация_предприятий

  5. FAQ по TAPe‑детекции объектов

    Этот текст не претендует на «академический» обзор TAPe и не заменяет будущие формальные бенчмарки на COCO‑подобных датасетах. Скорее это рабочие ответы на самые частые вопросы инженеров и исследователей, которые всерьёз присматриваются к проекту. О чем речь Мы делаем TAPe‑модель (вот здесь понятней, о чем речь: тыц , другой тыц ) под задачи детекции объектов на COCO‑подобных данных, с возможностью добавлять свои классы и кастомизировать под конкретного заказчика. TAPe работает не с пикселями и не с жёсткой N×N‑сеткой, как YOLO, а с осмысленными регионами (патчами) в TAPe‑представлении. В экспериментах стремимся к тому, чтобы за один «ход» модель отсекала точно неинтересные области и выделяла кандидатов, где вообще есть смысл что‑то детектировать.​ На маленьком датасете из 4 классов и 1256 изображений с частично шумной разметкой пилотный TAPe‑детектор с ≈115k параметров даёт 98.94% попаданий по объектам по прикладной метрике «центроид бокса в 32 пикселя от центра разметки», причём без аугментаций и с обучением на CPU.​ В роли baseline’а брали YOLO11s (линейка Ultralytics/YOLOv8‑s): на том же датасете она плохо сходилась, давала низкую детекцию и много ложных срабатываний. Впрочем, выводы пока делать рано.​ TAPe‑архитектура за несколько итераций ушла от громоздкого (для нас) dictionary‑подхода с 100k+ параметров к более компактной схеме без классического градиентного спуска: описания классов собираются из TAPe‑векторов и сжимаются через k‑means, а не обучаются как отдельная нейросеть.​ На подмножестве COCO (около 2% датасета, ~2400 изображений) эта же компактная модель без спецоптимизаций даёт 60.59% попаданий по центрам объектов — для такого размера детектора это неожиданно много и хороший аргумент в пользу того, что TAPe‑данные позволяют «маленьким» моделям сходиться там, где стандартные подходы ожидаемо захлёбываются. Очень интересно

    habr.com/ru/articles/1011406/

    #компьютерное_зрение #машинное_обучение #разметка_датасета #пилотный_проект #детекция_объектов #instance_segmentation #глубокое_обучение #yolo #TAPe_ML #нейросети

  6. FAQ по TAPe‑детекции объектов

    Этот текст не претендует на «академический» обзор TAPe и не заменяет будущие формальные бенчмарки на COCO‑подобных датасетах. Скорее это рабочие ответы на самые частые вопросы инженеров и исследователей, которые всерьёз присматриваются к проекту. О чем речь Мы делаем TAPe‑модель (вот здесь понятней, о чем речь: тыц , другой тыц ) под задачи детекции объектов на COCO‑подобных данных, с возможностью добавлять свои классы и кастомизировать под конкретного заказчика. TAPe работает не с пикселями и не с жёсткой N×N‑сеткой, как YOLO, а с осмысленными регионами (патчами) в TAPe‑представлении. В экспериментах стремимся к тому, чтобы за один «ход» модель отсекала точно неинтересные области и выделяла кандидатов, где вообще есть смысл что‑то детектировать.​ На маленьком датасете из 4 классов и 1256 изображений с частично шумной разметкой пилотный TAPe‑детектор с ≈115k параметров даёт 98.94% попаданий по объектам по прикладной метрике «центроид бокса в 32 пикселя от центра разметки», причём без аугментаций и с обучением на CPU.​ В роли baseline’а брали YOLO11s (линейка Ultralytics/YOLOv8‑s): на том же датасете она плохо сходилась, давала низкую детекцию и много ложных срабатываний. Впрочем, выводы пока делать рано.​ TAPe‑архитектура за несколько итераций ушла от громоздкого (для нас) dictionary‑подхода с 100k+ параметров к более компактной схеме без классического градиентного спуска: описания классов собираются из TAPe‑векторов и сжимаются через k‑means, а не обучаются как отдельная нейросеть.​ На подмножестве COCO (около 2% датасета, ~2400 изображений) эта же компактная модель без спецоптимизаций даёт 60.59% попаданий по центрам объектов — для такого размера детектора это неожиданно много и хороший аргумент в пользу того, что TAPe‑данные позволяют «маленьким» моделям сходиться там, где стандартные подходы ожидаемо захлёбываются. Очень интересно

    habr.com/ru/articles/1011406/

    #компьютерное_зрение #машинное_обучение #разметка_датасета #пилотный_проект #детекция_объектов #instance_segmentation #глубокое_обучение #yolo #TAPe_ML #нейросети

  7. FAQ по TAPe‑детекции объектов

    Этот текст не претендует на «академический» обзор TAPe и не заменяет будущие формальные бенчмарки на COCO‑подобных датасетах. Скорее это рабочие ответы на самые частые вопросы инженеров и исследователей, которые всерьёз присматриваются к проекту. О чем речь Мы делаем TAPe‑модель (вот здесь понятней, о чем речь: тыц , другой тыц ) под задачи детекции объектов на COCO‑подобных данных, с возможностью добавлять свои классы и кастомизировать под конкретного заказчика. TAPe работает не с пикселями и не с жёсткой N×N‑сеткой, как YOLO, а с осмысленными регионами (патчами) в TAPe‑представлении. В экспериментах стремимся к тому, чтобы за один «ход» модель отсекала точно неинтересные области и выделяла кандидатов, где вообще есть смысл что‑то детектировать.​ На маленьком датасете из 4 классов и 1256 изображений с частично шумной разметкой пилотный TAPe‑детектор с ≈115k параметров даёт 98.94% попаданий по объектам по прикладной метрике «центроид бокса в 32 пикселя от центра разметки», причём без аугментаций и с обучением на CPU.​ В роли baseline’а брали YOLO11s (линейка Ultralytics/YOLOv8‑s): на том же датасете она плохо сходилась, давала низкую детекцию и много ложных срабатываний. Впрочем, выводы пока делать рано.​ TAPe‑архитектура за несколько итераций ушла от громоздкого (для нас) dictionary‑подхода с 100k+ параметров к более компактной схеме без классического градиентного спуска: описания классов собираются из TAPe‑векторов и сжимаются через k‑means, а не обучаются как отдельная нейросеть.​ На подмножестве COCO (около 2% датасета, ~2400 изображений) эта же компактная модель без спецоптимизаций даёт 60.59% попаданий по центрам объектов — для такого размера детектора это неожиданно много и хороший аргумент в пользу того, что TAPe‑данные позволяют «маленьким» моделям сходиться там, где стандартные подходы ожидаемо захлёбываются. Очень интересно

    habr.com/ru/articles/1011406/

    #компьютерное_зрение #машинное_обучение #разметка_датасета #пилотный_проект #детекция_объектов #instance_segmentation #глубокое_обучение #yolo #TAPe_ML #нейросети

  8. FAQ по TAPe‑детекции объектов

    Этот текст не претендует на «академический» обзор TAPe и не заменяет будущие формальные бенчмарки на COCO‑подобных датасетах. Скорее это рабочие ответы на самые частые вопросы инженеров и исследователей, которые всерьёз присматриваются к проекту. О чем речь Мы делаем TAPe‑модель (вот здесь понятней, о чем речь: тыц , другой тыц ) под задачи детекции объектов на COCO‑подобных данных, с возможностью добавлять свои классы и кастомизировать под конкретного заказчика. TAPe работает не с пикселями и не с жёсткой N×N‑сеткой, как YOLO, а с осмысленными регионами (патчами) в TAPe‑представлении. В экспериментах стремимся к тому, чтобы за один «ход» модель отсекала точно неинтересные области и выделяла кандидатов, где вообще есть смысл что‑то детектировать.​ На маленьком датасете из 4 классов и 1256 изображений с частично шумной разметкой пилотный TAPe‑детектор с ≈115k параметров даёт 98.94% попаданий по объектам по прикладной метрике «центроид бокса в 32 пикселя от центра разметки», причём без аугментаций и с обучением на CPU.​ В роли baseline’а брали YOLO11s (линейка Ultralytics/YOLOv8‑s): на том же датасете она плохо сходилась, давала низкую детекцию и много ложных срабатываний. Впрочем, выводы пока делать рано.​ TAPe‑архитектура за несколько итераций ушла от громоздкого (для нас) dictionary‑подхода с 100k+ параметров к более компактной схеме без классического градиентного спуска: описания классов собираются из TAPe‑векторов и сжимаются через k‑means, а не обучаются как отдельная нейросеть.​ На подмножестве COCO (около 2% датасета, ~2400 изображений) эта же компактная модель без спецоптимизаций даёт 60.59% попаданий по центрам объектов — для такого размера детектора это неожиданно много и хороший аргумент в пользу того, что TAPe‑данные позволяют «маленьким» моделям сходиться там, где стандартные подходы ожидаемо захлёбываются. Очень интересно

    habr.com/ru/articles/1011406/

    #компьютерное_зрение #машинное_обучение #разметка_датасета #пилотный_проект #детекция_объектов #instance_segmentation #глубокое_обучение #yolo #TAPe_ML #нейросети

  9. Garbage In — Garbage Out: ошибки в разметке данных и как они ломают ML-системы

    На Хабре тысячи статей про OCR, IDP, ML и искусственный интеллект. Все они сходятся в одном: «качественная разметка данных — ключ к точности модели». Но что это значит на практике? Меня зовут Снежана Игнатенко, я руковожу отделом разметки данных в SL Soft AI. Каждый день моя команда работает с самыми разными документами: печатными, рукописными, строгими формами, свободными текстами, сканами и фотографиями, в которых встречаются печати, подписи, штампы, затертые области, перекосы и артефакты. Наша задача — создавать качественный, точный и контекстно корректный набор размеченных данных, который служит фундаментом для всех интеллектуальных систем класса IDP. В этой статье я приглашаю вас заглянуть за кулисы разметки данных и понять, как она формирует точность и надежность любых интеллектуальных систем.

    habr.com/ru/companies/slsoft/a

    #разметка_данных #ocr #idp #разметка_датасета #data_labeling #data_annotation #training_data

  10. Garbage In — Garbage Out: ошибки в разметке данных и как они ломают ML-системы

    На Хабре тысячи статей про OCR, IDP, ML и искусственный интеллект. Все они сходятся в одном: «качественная разметка данных — ключ к точности модели». Но что это значит на практике? Меня зовут Снежана Игнатенко, я руковожу отделом разметки данных в SL Soft AI. Каждый день моя команда работает с самыми разными документами: печатными, рукописными, строгими формами, свободными текстами, сканами и фотографиями, в которых встречаются печати, подписи, штампы, затертые области, перекосы и артефакты. Наша задача — создавать качественный, точный и контекстно корректный набор размеченных данных, который служит фундаментом для всех интеллектуальных систем класса IDP. В этой статье я приглашаю вас заглянуть за кулисы разметки данных и понять, как она формирует точность и надежность любых интеллектуальных систем.

    habr.com/ru/companies/slsoft/a

    #разметка_данных #ocr #idp #разметка_датасета #data_labeling #data_annotation #training_data

  11. Garbage In — Garbage Out: ошибки в разметке данных и как они ломают ML-системы

    На Хабре тысячи статей про OCR, IDP, ML и искусственный интеллект. Все они сходятся в одном: «качественная разметка данных — ключ к точности модели». Но что это значит на практике? Меня зовут Снежана Игнатенко, я руковожу отделом разметки данных в SL Soft AI. Каждый день моя команда работает с самыми разными документами: печатными, рукописными, строгими формами, свободными текстами, сканами и фотографиями, в которых встречаются печати, подписи, штампы, затертые области, перекосы и артефакты. Наша задача — создавать качественный, точный и контекстно корректный набор размеченных данных, который служит фундаментом для всех интеллектуальных систем класса IDP. В этой статье я приглашаю вас заглянуть за кулисы разметки данных и понять, как она формирует точность и надежность любых интеллектуальных систем.

    habr.com/ru/companies/slsoft/a

    #разметка_данных #ocr #idp #разметка_датасета #data_labeling #data_annotation #training_data

  12. Garbage In — Garbage Out: ошибки в разметке данных и как они ломают ML-системы

    На Хабре тысячи статей про OCR, IDP, ML и искусственный интеллект. Все они сходятся в одном: «качественная разметка данных — ключ к точности модели». Но что это значит на практике? Меня зовут Снежана Игнатенко, я руковожу отделом разметки данных в SL Soft AI. Каждый день моя команда работает с самыми разными документами: печатными, рукописными, строгими формами, свободными текстами, сканами и фотографиями, в которых встречаются печати, подписи, штампы, затертые области, перекосы и артефакты. Наша задача — создавать качественный, точный и контекстно корректный набор размеченных данных, который служит фундаментом для всех интеллектуальных систем класса IDP. В этой статье я приглашаю вас заглянуть за кулисы разметки данных и понять, как она формирует точность и надежность любых интеллектуальных систем.

    habr.com/ru/companies/slsoft/a

    #разметка_данных #ocr #idp #разметка_датасета #data_labeling #data_annotation #training_data

  13. 8 лучших советов для аутсорсинга разметки данных

    Любой проект в области CV начинается с разметки огромных объёмов изображений и видео. И только успешные результаты и качественные данные гарантируют, что модель сможет обучаться корректно. Но что делать, если внутренняя команда не справляется с объемами, а квалифицированных специалистов найти сложно? Ответ прост: передать задачу профессионалам. Аутсорсинг разметки данных помогает ускорить процесс и вывести проект на совершенно новый уровень. Однако найти надежного партнера, который станет вашим стратегическим союзником, — задача не из легких. Как выбрать компанию и выстроить процессы, чтобы сотрудничество получилось продуктивным? В этом материале многолетним опытом Data Light в сфере организации разметки поделятся наши эксперты: Алексей Корнилов, Special Projects Group Manager Дмитрий Рогальский, Moderation Group Manager

    habr.com/ru/companies/data_lig

    #machinelearning #разметка_датасета #разметка_данных #аутсорсинг #машинное_обучение #data_annotation

  14. Как организовать разметку данных для ML? Советы от Data Light

    За каждым «умным» решением, которое принимает ИИ, стоят огромные объемы данных, тщательно размеченные и подготовленные для обучения. Но как организовать этот процесс так, чтобы модель работала эффективно? Мы в Data Light считаем, что это искусство, требующее правильного подхода, инструментов и стратегии. Организация самого процесса разметки зависит от многих факторов: целей проекта, объемов данных, требуемой точности и доступных ресурсов. В этой статье мы рассмотрим основные методики и инструменты для организации разметки данных с нашими экспертами: Дмитрий Рогальский, Special Projects Group Manager в Data Light Алексей Корнилов, Moderation Group Manager в Data Light

    habr.com/ru/companies/data_lig

    #разметка_данных #разметка_датасета #инструменты_для_аннотации #data_annotation #data_science #data_science_digest #аннотация_данных #краудсорсинг

  15. Как мы отбираем и обучаем специалистов: от первых шагов до реальных проектов

    В чем секрет качественных данных и точной разметки? Мы в Data Light знаем: за каждым успешным проектом стоят не только технологии, но и люди — специалисты, отобранные после нескольких этапов тестирований и обученные на настоящих проектах. Мы знаем: чем лучше подготовлен исполнитель, тем выше итоговое качество работы. Я, Артем Каукалов, руководитель отдела обучения, поделюсь опытом нашей компании — как найти людей, которые помогут вам достичь максимальных результатов, и как правильно выстроить их процесс учебы.

    habr.com/ru/companies/data_lig

    #project_management #data_annotation #аннотация #разметка_данных #разметка_датасета #artificial_intelligence #big_data

  16. Как я собрал и подготовил датасет дефектов печатных плат для обучения моделей YOLO

    Когда пришло время выбирать тему диплома, я, как и многие студенты, понятия не имел, о чём писать. После мозгового штурма с одногруппниками родилась идея, которая из простого «варианта для защиты» превратилась в полноценный инженерный проект: «исследование и разработка системы автоматического распознавания дефектов печатных плат». Со временем я понял, что выбрал тему не случайно - это реально актуальная задача для производства, где качество пайки напрямую влияет на работоспособность устройств, а ещё отличный шанс пройти весь цикл Computer Vision проекта от сбора данных до обучения моделей. Эта статья краткая выжимка моего опыта: как собрал собственный датасет дефектов печатных плат для обучения моделей, какие инструменты использовал и на что стоит обратить внимание. Статья будет полезна:

    habr.com/ru/articles/968626/

    #yolo #dataset #labeling #PCB #обучение_моделей #разметка_датасета #computer_vision #machine_learning #машинное_обучение #учусь_программировать

  17. Как я собрал и подготовил датасет дефектов печатных плат для обучения моделей YOLO

    Когда пришло время выбирать тему диплома, я, как и многие студенты, понятия не имел, о чём писать. После мозгового штурма с одногруппниками родилась идея, которая из простого «варианта для защиты» превратилась в полноценный инженерный проект: «исследование и разработка системы автоматического распознавания дефектов печатных плат». Со временем я понял, что выбрал тему не случайно - это реально актуальная задача для производства, где качество пайки напрямую влияет на работоспособность устройств, а ещё отличный шанс пройти весь цикл Computer Vision проекта от сбора данных до обучения моделей. Эта статья краткая выжимка моего опыта: как собрал собственный датасет дефектов печатных плат для обучения моделей, какие инструменты использовал и на что стоит обратить внимание. Статья будет полезна:

    habr.com/ru/articles/968626/

    #yolo #dataset #labeling #PCB #обучение_моделей #разметка_датасета #computer_vision #machine_learning #машинное_обучение #учусь_программировать

  18. Как я собрал и подготовил датасет дефектов печатных плат для обучения моделей YOLO

    Когда пришло время выбирать тему диплома, я, как и многие студенты, понятия не имел, о чём писать. После мозгового штурма с одногруппниками родилась идея, которая из простого «варианта для защиты» превратилась в полноценный инженерный проект: «исследование и разработка системы автоматического распознавания дефектов печатных плат». Со временем я понял, что выбрал тему не случайно - это реально актуальная задача для производства, где качество пайки напрямую влияет на работоспособность устройств, а ещё отличный шанс пройти весь цикл Computer Vision проекта от сбора данных до обучения моделей. Эта статья краткая выжимка моего опыта: как собрал собственный датасет дефектов печатных плат для обучения моделей, какие инструменты использовал и на что стоит обратить внимание. Статья будет полезна:

    habr.com/ru/articles/968626/

    #yolo #dataset #labeling #PCB #обучение_моделей #разметка_датасета #computer_vision #machine_learning #машинное_обучение #учусь_программировать

  19. Как я собрал и подготовил датасет дефектов печатных плат для обучения моделей YOLO

    Когда пришло время выбирать тему диплома, я, как и многие студенты, понятия не имел, о чём писать. После мозгового штурма с одногруппниками родилась идея, которая из простого «варианта для защиты» превратилась в полноценный инженерный проект: «исследование и разработка системы автоматического распознавания дефектов печатных плат». Со временем я понял, что выбрал тему не случайно - это реально актуальная задача для производства, где качество пайки напрямую влияет на работоспособность устройств, а ещё отличный шанс пройти весь цикл Computer Vision проекта от сбора данных до обучения моделей. Эта статья краткая выжимка моего опыта: как собрал собственный датасет дефектов печатных плат для обучения моделей, какие инструменты использовал и на что стоит обратить внимание. Статья будет полезна:

    habr.com/ru/articles/968626/

    #yolo #dataset #labeling #PCB #обучение_моделей #разметка_датасета #computer_vision #machine_learning #машинное_обучение #учусь_программировать

  20. 200 000+ снимков мусора: что мы узнали о датасетах

    В нашей работе хватает безумных задач. Мы создали первого в России цифрового PR-менеджера, разрабатывали виртуальную примерочную и делали много чего еще, о чем не всегда можно рассказать. Но когда мы взялись за создание ИИ-сортировщика мусора MARQUS, поняли — будет совсем жестко. Не так давно мы создали систему сортировки ТКО (Твердых коммунальных отходов) MARQUS, которая делит отходы на бумагу, металл, пластик, стекло и т.д. Система использует искусственный интеллект и специальные сенсоры, чтобы распознавать различные типы отходов прямо на конвейере и направлять их в соответствующие секции для переработки. В процессе разработки MARQUS мы столкнулись с задачей — найти или собрать подходящие датасеты, так как без них эффективность нейронной сети резко снижается, если вообще приближается к нулю. Мы перепробовали множество подходов, пересмотрели доступные датасеты с готовой разметкой и потратили достаточное количество времени и денег, чтобы честно признаться — на обучении нейронок сэкономить не получится, но обо всем по порядку.

    habr.com/ru/articles/924696/

    #управление_проектами #искусственный_интеллект #Машинное_обучение #открытые_данные #разметка_датасета #сбор_данных_для_ии #парсинг_данных #разметка_данных

  21. 200 000+ снимков мусора: что мы узнали о датасетах

    В нашей работе хватает безумных задач. Мы создали первого в России цифрового PR-менеджера, разрабатывали виртуальную примерочную и делали много чего еще, о чем не всегда можно рассказать. Но когда мы взялись за создание ИИ-сортировщика мусора MARQUS, поняли — будет совсем жестко. Не так давно мы создали систему сортировки ТКО (Твердых коммунальных отходов) MARQUS, которая делит отходы на бумагу, металл, пластик, стекло и т.д. Система использует искусственный интеллект и специальные сенсоры, чтобы распознавать различные типы отходов прямо на конвейере и направлять их в соответствующие секции для переработки. В процессе разработки MARQUS мы столкнулись с задачей — найти или собрать подходящие датасеты, так как без них эффективность нейронной сети резко снижается, если вообще приближается к нулю. Мы перепробовали множество подходов, пересмотрели доступные датасеты с готовой разметкой и потратили достаточное количество времени и денег, чтобы честно признаться — на обучении нейронок сэкономить не получится, но обо всем по порядку.

    habr.com/ru/articles/924696/

    #управление_проектами #искусственный_интеллект #Машинное_обучение #открытые_данные #разметка_датасета #сбор_данных_для_ии #парсинг_данных #разметка_данных

  22. 200 000+ снимков мусора: что мы узнали о датасетах

    В нашей работе хватает безумных задач. Мы создали первого в России цифрового PR-менеджера, разрабатывали виртуальную примерочную и делали много чего еще, о чем не всегда можно рассказать. Но когда мы взялись за создание ИИ-сортировщика мусора MARQUS, поняли — будет совсем жестко. Не так давно мы создали систему сортировки ТКО (Твердых коммунальных отходов) MARQUS, которая делит отходы на бумагу, металл, пластик, стекло и т.д. Система использует искусственный интеллект и специальные сенсоры, чтобы распознавать различные типы отходов прямо на конвейере и направлять их в соответствующие секции для переработки. В процессе разработки MARQUS мы столкнулись с задачей — найти или собрать подходящие датасеты, так как без них эффективность нейронной сети резко снижается, если вообще приближается к нулю. Мы перепробовали множество подходов, пересмотрели доступные датасеты с готовой разметкой и потратили достаточное количество времени и денег, чтобы честно признаться — на обучении нейронок сэкономить не получится, но обо всем по порядку.

    habr.com/ru/articles/924696/

    #управление_проектами #искусственный_интеллект #Машинное_обучение #открытые_данные #разметка_датасета #сбор_данных_для_ии #парсинг_данных #разметка_данных

  23. 200 000+ снимков мусора: что мы узнали о датасетах

    В нашей работе хватает безумных задач. Мы создали первого в России цифрового PR-менеджера, разрабатывали виртуальную примерочную и делали много чего еще, о чем не всегда можно рассказать. Но когда мы взялись за создание ИИ-сортировщика мусора MARQUS, поняли — будет совсем жестко. Не так давно мы создали систему сортировки ТКО (Твердых коммунальных отходов) MARQUS, которая делит отходы на бумагу, металл, пластик, стекло и т.д. Система использует искусственный интеллект и специальные сенсоры, чтобы распознавать различные типы отходов прямо на конвейере и направлять их в соответствующие секции для переработки. В процессе разработки MARQUS мы столкнулись с задачей — найти или собрать подходящие датасеты, так как без них эффективность нейронной сети резко снижается, если вообще приближается к нулю. Мы перепробовали множество подходов, пересмотрели доступные датасеты с готовой разметкой и потратили достаточное количество времени и денег, чтобы честно признаться — на обучении нейронок сэкономить не получится, но обо всем по порядку.

    habr.com/ru/articles/924696/

    #управление_проектами #искусственный_интеллект #Машинное_обучение #открытые_данные #разметка_датасета #сбор_данных_для_ии #парсинг_данных #разметка_данных

  24. Как мы научили нейросеть узнавать 10 000 лошадей «в лицо» и чуть не сошли с ума

    В нашей работе хватает безумных задач. Мы собирали датасеты с уличными драками, где сами вживались в роль дебоширов перед камерами, и делали много чего еще, о чем не всегда можно рассказать. В общем, мы в своей работе привыкли к странным задачам. Но когда к нам пришли с просьбой научить искусственный интеллект узнавать «в лицо» 10 000 лошадей, мы поняли — будет интересно...

    habr.com/ru/articles/924358/

    #нейросети_для_табунов_и_конюшен #сбор_данных_для_ИИ #парсинг_данных #нейросети_для_агропрома #нейросети_для_ферм #разметка_данных #разметка_датасета

  25. Как мы научили нейросеть узнавать 10 000 лошадей «в лицо» и чуть не сошли с ума

    В нашей работе хватает безумных задач. Мы собирали датасеты с уличными драками, где сами вживались в роль дебоширов перед камерами, и делали много чего еще, о чем не всегда можно рассказать. В общем, мы в своей работе привыкли к странным задачам. Но когда к нам пришли с просьбой научить искусственный интеллект узнавать «в лицо» 10 000 лошадей, мы поняли — будет интересно...

    habr.com/ru/articles/924358/

    #нейросети_для_табунов_и_конюшен #сбор_данных_для_ИИ #парсинг_данных #нейросети_для_агропрома #нейросети_для_ферм #разметка_данных #разметка_датасета

  26. Как мы научили нейросеть узнавать 10 000 лошадей «в лицо» и чуть не сошли с ума

    В нашей работе хватает безумных задач. Мы собирали датасеты с уличными драками, где сами вживались в роль дебоширов перед камерами, и делали много чего еще, о чем не всегда можно рассказать. В общем, мы в своей работе привыкли к странным задачам. Но когда к нам пришли с просьбой научить искусственный интеллект узнавать «в лицо» 10 000 лошадей, мы поняли — будет интересно...

    habr.com/ru/articles/924358/

    #нейросети_для_табунов_и_конюшен #сбор_данных_для_ИИ #парсинг_данных #нейросети_для_агропрома #нейросети_для_ферм #разметка_данных #разметка_датасета

  27. Как мы научили нейросеть узнавать 10 000 лошадей «в лицо» и чуть не сошли с ума

    В нашей работе хватает безумных задач. Мы собирали датасеты с уличными драками, где сами вживались в роль дебоширов перед камерами, и делали много чего еще, о чем не всегда можно рассказать. В общем, мы в своей работе привыкли к странным задачам. Но когда к нам пришли с просьбой научить искусственный интеллект узнавать «в лицо» 10 000 лошадей, мы поняли — будет интересно...

    habr.com/ru/articles/924358/

    #нейросети_для_табунов_и_конюшен #сбор_данных_для_ИИ #парсинг_данных #нейросети_для_агропрома #нейросети_для_ферм #разметка_данных #разметка_датасета

  28. Менеджер данных: как новая роль изменила подход к работе с ML

    Меня зовут Вера Романцова, я работаю в 2ГИС в команде компьютерного зрения. Мы создаём ML-модели и сервисы, которые автоматизируют работу с картами и данными. Но перед тем, как обучить модель и выкатить сервис, есть ещё много работы по сбору датасетов и разработке моделей. И обычно все эти задачи выполняли ML-инженеры. В один из моментов моя будущая команда пришла к выводу, что для эффективных процессов разметки, сбора и валидации данных нужна отдельная роль — менеджер данных. Этим первопроходцем в нашей компании стала я. В этой статье я расскажу: 🌚 Кто такой менеджер данных и чем он занимается. 🦾 Как эта роль помогла нашей команде ML-инженеров. 🔜 Когда такой специалист может понадобиться вам. 🔎 Как найти подходящего кандидата на эту позицию.

    habr.com/ru/companies/2gis/art

    #разметка_датасета #машинное_обучение #подготовка_данных #менеджер_данных #mlинженер #работа_в_it

  29. Менеджер данных: как новая роль изменила подход к работе с ML

    Меня зовут Вера Романцова, я работаю в 2ГИС в команде компьютерного зрения. Мы создаём ML-модели и сервисы, которые автоматизируют работу с картами и данными. Но перед тем, как обучить модель и выкатить сервис, есть ещё много работы по сбору датасетов и разработке моделей. И обычно все эти задачи выполняли ML-инженеры. В один из моментов моя будущая команда пришла к выводу, что для эффективных процессов разметки, сбора и валидации данных нужна отдельная роль — менеджер данных. Этим первопроходцем в нашей компании стала я. В этой статье я расскажу: 🌚 Кто такой менеджер данных и чем он занимается. 🦾 Как эта роль помогла нашей команде ML-инженеров. 🔜 Когда такой специалист может понадобиться вам. 🔎 Как найти подходящего кандидата на эту позицию.

    habr.com/ru/companies/2gis/art

    #разметка_датасета #машинное_обучение #подготовка_данных #менеджер_данных #mlинженер #работа_в_it

  30. Менеджер данных: как новая роль изменила подход к работе с ML

    Меня зовут Вера Романцова, я работаю в 2ГИС в команде компьютерного зрения. Мы создаём ML-модели и сервисы, которые автоматизируют работу с картами и данными. Но перед тем, как обучить модель и выкатить сервис, есть ещё много работы по сбору датасетов и разработке моделей. И обычно все эти задачи выполняли ML-инженеры. В один из моментов моя будущая команда пришла к выводу, что для эффективных процессов разметки, сбора и валидации данных нужна отдельная роль — менеджер данных. Этим первопроходцем в нашей компании стала я. В этой статье я расскажу: 🌚 Кто такой менеджер данных и чем он занимается. 🦾 Как эта роль помогла нашей команде ML-инженеров. 🔜 Когда такой специалист может понадобиться вам. 🔎 Как найти подходящего кандидата на эту позицию.

    habr.com/ru/companies/2gis/art

    #разметка_датасета #машинное_обучение #подготовка_данных #менеджер_данных #mlинженер #работа_в_it

  31. Менеджер данных: как новая роль изменила подход к работе с ML

    Меня зовут Вера Романцова, я работаю в 2ГИС в команде компьютерного зрения. Мы создаём ML-модели и сервисы, которые автоматизируют работу с картами и данными. Но перед тем, как обучить модель и выкатить сервис, есть ещё много работы по сбору датасетов и разработке моделей. И обычно все эти задачи выполняли ML-инженеры. В один из моментов моя будущая команда пришла к выводу, что для эффективных процессов разметки, сбора и валидации данных нужна отдельная роль — менеджер данных. Этим первопроходцем в нашей компании стала я. В этой статье я расскажу: 🌚 Кто такой менеджер данных и чем он занимается. 🦾 Как эта роль помогла нашей команде ML-инженеров. 🔜 Когда такой специалист может понадобиться вам. 🔎 Как найти подходящего кандидата на эту позицию.

    habr.com/ru/companies/2gis/art

    #разметка_датасета #машинное_обучение #подготовка_данных #менеджер_данных #mlинженер #работа_в_it

  32. 8 лучших советов для аутсорсинга разметки данных

    Любой проект в области CV начинается с разметки огромных объёмов изображений и видео. И только успешные результаты и качественные данные гарантируют, что модель сможет обучаться корректно. Но что делать, если внутренняя команда не справляется с объемами, а квалифицированных специалистов найти сложно? Ответ прост: передать задачу профессионалам. Аутсорсинг разметки данных помогает ускорить процесс и вывести проект на совершенно новый уровень. Однако найти надежного партнера, который станет вашим стратегическим союзником, — задача не из легких. Как выбрать компанию и выстроить процессы, чтобы сотрудничество получилось продуктивным? В этом материале многолетним опытом Data Light в сфере организации разметки поделятся наши эксперты: Алексей Корнилов, Special Projects Group Manager Дмитрий Рогальский, Moderation Group Manager

    habr.com/ru/companies/data_lig

    #machinelearning #разметка_датасета #разметка_данных #аутсорсинг #машинное_обучение #data_annotation

  33. 8 лучших советов для аутсорсинга разметки данных

    Любой проект в области CV начинается с разметки огромных объёмов изображений и видео. И только успешные результаты и качественные данные гарантируют, что модель сможет обучаться корректно. Но что делать, если внутренняя команда не справляется с объемами, а квалифицированных специалистов найти сложно? Ответ прост: передать задачу профессионалам. Аутсорсинг разметки данных помогает ускорить процесс и вывести проект на совершенно новый уровень. Однако найти надежного партнера, который станет вашим стратегическим союзником, — задача не из легких. Как выбрать компанию и выстроить процессы, чтобы сотрудничество получилось продуктивным? В этом материале многолетним опытом Data Light в сфере организации разметки поделятся наши эксперты: Алексей Корнилов, Special Projects Group Manager Дмитрий Рогальский, Moderation Group Manager

    habr.com/ru/companies/data_lig

    #machinelearning #разметка_датасета #разметка_данных #аутсорсинг #машинное_обучение #data_annotation

  34. 8 лучших советов для аутсорсинга разметки данных

    Любой проект в области CV начинается с разметки огромных объёмов изображений и видео. И только успешные результаты и качественные данные гарантируют, что модель сможет обучаться корректно. Но что делать, если внутренняя команда не справляется с объемами, а квалифицированных специалистов найти сложно? Ответ прост: передать задачу профессионалам. Аутсорсинг разметки данных помогает ускорить процесс и вывести проект на совершенно новый уровень. Однако найти надежного партнера, который станет вашим стратегическим союзником, — задача не из легких. Как выбрать компанию и выстроить процессы, чтобы сотрудничество получилось продуктивным? В этом материале многолетним опытом Data Light в сфере организации разметки поделятся наши эксперты: Алексей Корнилов, Special Projects Group Manager Дмитрий Рогальский, Moderation Group Manager

    habr.com/ru/companies/data_lig

    #machinelearning #разметка_датасета #разметка_данных #аутсорсинг #машинное_обучение #data_annotation

  35. Дилеммы, с которыми вы столкнетесь при разработке биометрических датасетов

    Если вы хотите научить модель машинного зрения разбираться в сортах кукурузы или, скажем, отличать пешеходов от автомобилей , вам нужно подготовить датасет с изображениями, где уже будут размечены пешеходы и початки кукурузы, снятые с разных ракурсов в разное время суток. Когда дело ограничивается злаковыми культурами, для этих целей можно использовать опенсорсное решение , а вот компании, работающие с белковыми формами жизни и их биометрией — например, банки, — за неимением своих датасетов часто обращаются за помощью к другим компаниям. Чтобы выяснить, как на практике выглядит такая разработка датасетов на аутсорсе, мы поговорили с Владиславом Барсуковым, руководителем группы речевых и генеративных данных в Data Light. Он поделился своим взглядом на проблемы в сфере разметки биометрических данных и рассказал о подводных камнях, с которыми приходится сталкиваться в ходе подготовки, проверки, обработки и выгрузки датасетов для алгоритмов ML. Бонусом — интересный кейс с разметкой 60 000 фотографий, пол и возраст на которых проверяли сначала нейросетью, а потом — вручную.

    habr.com/ru/companies/magnus-t

    #биометрический_датасет #машинное_обучение #разметка_датасета #разметка_данных #датасет_liveness #переразметка_данных #компьютерное_зрение #data_light #синтетические_данные

  36. Дилеммы, с которыми вы столкнетесь при разработке биометрических датасетов

    Если вы хотите научить модель машинного зрения разбираться в сортах кукурузы или, скажем, отличать пешеходов от автомобилей , вам нужно подготовить датасет с изображениями, где уже будут размечены пешеходы и початки кукурузы, снятые с разных ракурсов в разное время суток. Когда дело ограничивается злаковыми культурами, для этих целей можно использовать опенсорсное решение , а вот компании, работающие с белковыми формами жизни и их биометрией — например, банки, — за неимением своих датасетов часто обращаются за помощью к другим компаниям. Чтобы выяснить, как на практике выглядит такая разработка датасетов на аутсорсе, мы поговорили с Владиславом Барсуковым, руководителем группы речевых и генеративных данных в Data Light. Он поделился своим взглядом на проблемы в сфере разметки биометрических данных и рассказал о подводных камнях, с которыми приходится сталкиваться в ходе подготовки, проверки, обработки и выгрузки датасетов для алгоритмов ML. Бонусом — интересный кейс с разметкой 60 000 фотографий, пол и возраст на которых проверяли сначала нейросетью, а потом — вручную.

    habr.com/ru/companies/magnus-t

    #биометрический_датасет #машинное_обучение #разметка_датасета #разметка_данных #датасет_liveness #переразметка_данных #компьютерное_зрение #data_light #синтетические_данные

  37. Дилеммы, с которыми вы столкнетесь при разработке биометрических датасетов

    Если вы хотите научить модель машинного зрения разбираться в сортах кукурузы или, скажем, отличать пешеходов от автомобилей , вам нужно подготовить датасет с изображениями, где уже будут размечены пешеходы и початки кукурузы, снятые с разных ракурсов в разное время суток. Когда дело ограничивается злаковыми культурами, для этих целей можно использовать опенсорсное решение , а вот компании, работающие с белковыми формами жизни и их биометрией — например, банки, — за неимением своих датасетов часто обращаются за помощью к другим компаниям. Чтобы выяснить, как на практике выглядит такая разработка датасетов на аутсорсе, мы поговорили с Владиславом Барсуковым, руководителем группы речевых и генеративных данных в Data Light. Он поделился своим взглядом на проблемы в сфере разметки биометрических данных и рассказал о подводных камнях, с которыми приходится сталкиваться в ходе подготовки, проверки, обработки и выгрузки датасетов для алгоритмов ML. Бонусом — интересный кейс с разметкой 60 000 фотографий, пол и возраст на которых проверяли сначала нейросетью, а потом — вручную.

    habr.com/ru/companies/magnus-t

    #биометрический_датасет #машинное_обучение #разметка_датасета #разметка_данных #датасет_liveness #переразметка_данных #компьютерное_зрение #data_light #синтетические_данные

  38. Дилеммы, с которыми вы столкнетесь при разработке биометрических датасетов

    Если вы хотите научить модель машинного зрения разбираться в сортах кукурузы или, скажем, отличать пешеходов от автомобилей , вам нужно подготовить датасет с изображениями, где уже будут размечены пешеходы и початки кукурузы, снятые с разных ракурсов в разное время суток. Когда дело ограничивается злаковыми культурами, для этих целей можно использовать опенсорсное решение , а вот компании, работающие с белковыми формами жизни и их биометрией — например, банки, — за неимением своих датасетов часто обращаются за помощью к другим компаниям. Чтобы выяснить, как на практике выглядит такая разработка датасетов на аутсорсе, мы поговорили с Владиславом Барсуковым, руководителем группы речевых и генеративных данных в Data Light. Он поделился своим взглядом на проблемы в сфере разметки биометрических данных и рассказал о подводных камнях, с которыми приходится сталкиваться в ходе подготовки, проверки, обработки и выгрузки датасетов для алгоритмов ML. Бонусом — интересный кейс с разметкой 60 000 фотографий, пол и возраст на которых проверяли сначала нейросетью, а потом — вручную.

    habr.com/ru/companies/magnus-t

    #биометрический_датасет #машинное_обучение #разметка_датасета #разметка_данных #датасет_liveness #переразметка_данных #компьютерное_зрение #data_light #синтетические_данные

  39. Как добиться успеха в большой компании? 4 ингредиента для идеального карьерного рецепта руководителя

    Что делает руководителя по‑настоящему успешным? После управления двумя отделами в Авито я взялся за создание отдела Контроля качества в Data Light. Результат не заставил себя ждать: всего за несколько месяцев команда из 47 человек вывела метрику экспертизы на уровень 98%. За это время я определил для себя 4 ключевых принципа, которые помогают добиваться таких успехов, я готов поделиться своей историей и раскрыть их в этой статье.

    habr.com/ru/companies/data_lig

    #разметка_данных #разметка_датасета #менеджмент #управление_проектами #управление_людьми #карьера_в_itиндустрии

  40. Как добиться успеха в большой компании? 4 ингредиента для идеального карьерного рецепта руководителя

    Что делает руководителя по‑настоящему успешным? После управления двумя отделами в Авито я взялся за создание отдела Контроля качества в Data Light. Результат не заставил себя ждать: всего за несколько месяцев команда из 47 человек вывела метрику экспертизы на уровень 98%. За это время я определил для себя 4 ключевых принципа, которые помогают добиваться таких успехов, я готов поделиться своей историей и раскрыть их в этой статье.

    habr.com/ru/companies/data_lig

    #разметка_данных #разметка_датасета #менеджмент #управление_проектами #управление_людьми #карьера_в_itиндустрии

  41. Как добиться успеха в большой компании? 4 ингредиента для идеального карьерного рецепта руководителя

    Что делает руководителя по‑настоящему успешным? После управления двумя отделами в Авито я взялся за создание отдела Контроля качества в Data Light. Результат не заставил себя ждать: всего за несколько месяцев команда из 47 человек вывела метрику экспертизы на уровень 98%. За это время я определил для себя 4 ключевых принципа, которые помогают добиваться таких успехов, я готов поделиться своей историей и раскрыть их в этой статье.

    habr.com/ru/companies/data_lig

    #разметка_данных #разметка_датасета #менеджмент #управление_проектами #управление_людьми #карьера_в_itиндустрии

  42. Как добиться успеха в большой компании? 4 ингредиента для идеального карьерного рецепта руководителя

    Что делает руководителя по‑настоящему успешным? После управления двумя отделами в Авито я взялся за создание отдела Контроля качества в Data Light. Результат не заставил себя ждать: всего за несколько месяцев команда из 47 человек вывела метрику экспертизы на уровень 98%. За это время я определил для себя 4 ключевых принципа, которые помогают добиваться таких успехов, я готов поделиться своей историей и раскрыть их в этой статье.

    habr.com/ru/companies/data_lig

    #разметка_данных #разметка_датасета #менеджмент #управление_проектами #управление_людьми #карьера_в_itиндустрии

  43. Как организовать разметку данных для ML? Советы от Data Light

    За каждым «умным» решением, которое принимает ИИ, стоят огромные объемы данных, тщательно размеченные и подготовленные для обучения. Но как организовать этот процесс так, чтобы модель работала эффективно? Мы в Data Light считаем, что это искусство, требующее правильного подхода, инструментов и стратегии. Организация самого процесса разметки зависит от многих факторов: целей проекта, объемов данных, требуемой точности и доступных ресурсов. В этой статье мы рассмотрим основные методики и инструменты для организации разметки данных с нашими экспертами: Дмитрий Рогальский, Special Projects Group Manager в Data Light Алексей Корнилов, Moderation Group Manager в Data Light

    habr.com/ru/companies/data_lig

    #разметка_данных #разметка_датасета #инструменты_для_аннотации #data_annotation #data_science #data_science_digest #аннотация_данных #краудсорсинг

  44. Как организовать разметку данных для ML? Советы от Data Light

    За каждым «умным» решением, которое принимает ИИ, стоят огромные объемы данных, тщательно размеченные и подготовленные для обучения. Но как организовать этот процесс так, чтобы модель работала эффективно? Мы в Data Light считаем, что это искусство, требующее правильного подхода, инструментов и стратегии. Организация самого процесса разметки зависит от многих факторов: целей проекта, объемов данных, требуемой точности и доступных ресурсов. В этой статье мы рассмотрим основные методики и инструменты для организации разметки данных с нашими экспертами: Дмитрий Рогальский, Special Projects Group Manager в Data Light Алексей Корнилов, Moderation Group Manager в Data Light

    habr.com/ru/companies/data_lig

    #разметка_данных #разметка_датасета #инструменты_для_аннотации #data_annotation #data_science #data_science_digest #аннотация_данных #краудсорсинг

  45. Как организовать разметку данных для ML? Советы от Data Light

    За каждым «умным» решением, которое принимает ИИ, стоят огромные объемы данных, тщательно размеченные и подготовленные для обучения. Но как организовать этот процесс так, чтобы модель работала эффективно? Мы в Data Light считаем, что это искусство, требующее правильного подхода, инструментов и стратегии. Организация самого процесса разметки зависит от многих факторов: целей проекта, объемов данных, требуемой точности и доступных ресурсов. В этой статье мы рассмотрим основные методики и инструменты для организации разметки данных с нашими экспертами: Дмитрий Рогальский, Special Projects Group Manager в Data Light Алексей Корнилов, Moderation Group Manager в Data Light

    habr.com/ru/companies/data_lig

    #разметка_данных #разметка_датасета #инструменты_для_аннотации #data_annotation #data_science #data_science_digest #аннотация_данных #краудсорсинг

  46. Как мы отбираем и обучаем специалистов: от первых шагов до реальных проектов

    В чем секрет качественных данных и точной разметки? Мы в Data Light знаем: за каждым успешным проектом стоят не только технологии, но и люди — специалисты, отобранные после нескольких этапов тестирований и обученные на настоящих проектах. Мы знаем: чем лучше подготовлен исполнитель, тем выше итоговое качество работы. Я, Артем Каукалов, руководитель отдела обучения, поделюсь опытом нашей компании — как найти людей, которые помогут вам достичь максимальных результатов, и как правильно выстроить их процесс учебы.

    habr.com/ru/companies/data_lig

    #project_management #data_annotation #аннотация #разметка_данных #разметка_датасета #artificial_intelligence #big_data

  47. Как мы отбираем и обучаем специалистов: от первых шагов до реальных проектов

    В чем секрет качественных данных и точной разметки? Мы в Data Light знаем: за каждым успешным проектом стоят не только технологии, но и люди — специалисты, отобранные после нескольких этапов тестирований и обученные на настоящих проектах. Мы знаем: чем лучше подготовлен исполнитель, тем выше итоговое качество работы. Я, Артем Каукалов, руководитель отдела обучения, поделюсь опытом нашей компании — как найти людей, которые помогут вам достичь максимальных результатов, и как правильно выстроить их процесс учебы.

    habr.com/ru/companies/data_lig

    #project_management #data_annotation #аннотация #разметка_данных #разметка_датасета #artificial_intelligence #big_data

  48. Как мы отбираем и обучаем специалистов: от первых шагов до реальных проектов

    В чем секрет качественных данных и точной разметки? Мы в Data Light знаем: за каждым успешным проектом стоят не только технологии, но и люди — специалисты, отобранные после нескольких этапов тестирований и обученные на настоящих проектах. Мы знаем: чем лучше подготовлен исполнитель, тем выше итоговое качество работы. Я, Артем Каукалов, руководитель отдела обучения, поделюсь опытом нашей компании — как найти людей, которые помогут вам достичь максимальных результатов, и как правильно выстроить их процесс учебы.

    habr.com/ru/companies/data_lig

    #project_management #data_annotation #аннотация #разметка_данных #разметка_датасета #artificial_intelligence #big_data

  49. Тыкай и кидай голосовухи: как ускорить сбор данных для мультимодальности

    Привет! Мы собираем много разных данных и часто перед заказчиком стоит большая описательная задача в области задач компьютерного зрения: детально и максимально подробно описывать всё, что присутствует на изображении или видео. В деталях описывать картинку с помощью текста — трудоемкая задача для человека. На днях исследователи из института Аллена предложили интересный способ оптимизации такой задачи. А так как мы, в хорошем смысле, поехавшие на качестве данных, то пройти мимо было невозможно. И это достаточно интересно, чтобы попробовать перенести их пайплайн на свою платформу и замериться. И предварительно, да, похоже, это новая веха экспериментов в такой разметке. Давайте разбираться.

    habr.com/ru/articles/847780/

    #cv #markup #labeling #labeling_tool #разметка #разметка_данных #разметка_датасета #компьютерное_зрение #gigachat #сбор_данных

  50. Тыкай и кидай голосовухи: как ускорить сбор данных для мультимодальности

    Привет! Мы собираем много разных данных и часто перед заказчиком стоит большая описательная задача в области задач компьютерного зрения: детально и максимально подробно описывать всё, что присутствует на изображении или видео. В деталях описывать картинку с помощью текста — трудоемкая задача для человека. На днях исследователи из института Аллена предложили интересный способ оптимизации такой задачи. А так как мы, в хорошем смысле, поехавшие на качестве данных, то пройти мимо было невозможно. И это достаточно интересно, чтобы попробовать перенести их пайплайн на свою платформу и замериться. И предварительно, да, похоже, это новая веха экспериментов в такой разметке. Давайте разбираться.

    habr.com/ru/articles/847780/

    #cv #markup #labeling #labeling_tool #разметка #разметка_данных #разметка_датасета #компьютерное_зрение #gigachat #сбор_данных