#детекция_объектов — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #детекция_объектов, aggregated by home.social.
-
[Перевод] OCR всё прочитал, но ничего не понял: как мы научили систему разбирать транспортные накладные
Современные библиотеки компьютерного зрения позволяют получить результат буквально за несколько строк кода, но за этой простотой скрывается ряд практических ограничений и компромиссов. В статье разберём, как на самом деле работают модели «из коробки», где проходит граница их применимости и как из сырых выходов детекторов собрать осмысленную логику — от базового inference до сценариев видеоаналитики. Речь пойдёт о прикладном использовании инструментов вроде YOLO, OpenCV и Hugging Face в задачах, где важен не только сам факт распознавания, но и то, что с этим делать дальше.
https://habr.com/ru/companies/otus/articles/1026088/
#компьютерное_зрение #CV #YOLO #OpenCV #Hugging_Face #детекция_объектов #сегментация_изображений #видеоаналитика #анализ_изображений
-
Сервинг модели Grounding DINO с BentoML
Готовь сани летом, а план доставки ML-модели конечным пользователям — еще на этапе разработки. Иначе даже самая крутая обученная система будет пылиться без дела, а большинство пользователей о ней даже не узнает. Запуск ML-моделей в production-среде — это тот еще квест: • необходимо хранить и версионировать модели; • нужен мониторинг ресурсопотребления, производительности и дрейфа данных в реальном времени; • нужна поддержка разнородных сценариев — пакетная обработка или стриминг. К счастью, есть специальные инструменты, которые существенно облегчают такую задачу. В этой статье рассмотрим сервинг модели Grounding DINO при помощи популярного фреймворка BentoML. Под катом вас ждет много кода, скриншоты и практические советы.
https://habr.com/ru/companies/magnus-tech/articles/1021720/
#ML #mlops #BentoML #docker #grounding_dino #компьютерное_зрение #детекция_объектов #сервинг_моделей
-
Сервинг модели Grounding DINO с BentoML
Готовь сани летом, а план доставки ML-модели конечным пользователям — еще на этапе разработки. Иначе даже самая крутая обученная система будет пылиться без дела, а большинство пользователей о ней даже не узнает. Запуск ML-моделей в production-среде — это тот еще квест: • необходимо хранить и версионировать модели; • нужен мониторинг ресурсопотребления, производительности и дрейфа данных в реальном времени; • нужна поддержка разнородных сценариев — пакетная обработка или стриминг. К счастью, есть специальные инструменты, которые существенно облегчают такую задачу. В этой статье рассмотрим сервинг модели Grounding DINO при помощи популярного фреймворка BentoML. Под катом вас ждет много кода, скриншоты и практические советы.
https://habr.com/ru/companies/magnus-tech/articles/1021720/
#ML #mlops #BentoML #docker #grounding_dino #компьютерное_зрение #детекция_объектов #сервинг_моделей
-
Сервинг модели Grounding DINO с BentoML
Готовь сани летом, а план доставки ML-модели конечным пользователям — еще на этапе разработки. Иначе даже самая крутая обученная система будет пылиться без дела, а большинство пользователей о ней даже не узнает. Запуск ML-моделей в production-среде — это тот еще квест: • необходимо хранить и версионировать модели; • нужен мониторинг ресурсопотребления, производительности и дрейфа данных в реальном времени; • нужна поддержка разнородных сценариев — пакетная обработка или стриминг. К счастью, есть специальные инструменты, которые существенно облегчают такую задачу. В этой статье рассмотрим сервинг модели Grounding DINO при помощи популярного фреймворка BentoML. Под катом вас ждет много кода, скриншоты и практические советы.
https://habr.com/ru/companies/magnus-tech/articles/1021720/
#ML #mlops #BentoML #docker #grounding_dino #компьютерное_зрение #детекция_объектов #сервинг_моделей
-
Сервинг модели Grounding DINO с BentoML
Готовь сани летом, а план доставки ML-модели конечным пользователям — еще на этапе разработки. Иначе даже самая крутая обученная система будет пылиться без дела, а большинство пользователей о ней даже не узнает. Запуск ML-моделей в production-среде — это тот еще квест: • необходимо хранить и версионировать модели; • нужен мониторинг ресурсопотребления, производительности и дрейфа данных в реальном времени; • нужна поддержка разнородных сценариев — пакетная обработка или стриминг. К счастью, есть специальные инструменты, которые существенно облегчают такую задачу. В этой статье рассмотрим сервинг модели Grounding DINO при помощи популярного фреймворка BentoML. Под катом вас ждет много кода, скриншоты и практические советы.
https://habr.com/ru/companies/magnus-tech/articles/1021720/
#ML #mlops #BentoML #docker #grounding_dino #компьютерное_зрение #детекция_объектов #сервинг_моделей
-
TAPe‑дневник, день 8: сегментация по границам, 77% классификации и первые бенчмарки против YOLO
В этом посте продолжаем дневник TAPe‑детекции на COCO: добавляем сегментацию по контрастным патчам на границе объектов, дорабатываем классификацию, избавляемся от learning rate и смотрим, как ведёт себя YOLO на нашем маленьком датасете. А уже завтра покажем базовые и COCO‑бенчмарки, сравнения с YOLO и RF‑DETR по точности (mAP50/mAP50‑95), скорости, числу параметров и требованиям к данным, а заодно чуть подробнее поговорим про аннотацию и то, почему нам хватает десятков изображений на класс там, где другим нужны сотни тысяч. Вникнуть
https://habr.com/ru/articles/1021546/
#tape+ml #компьютерное_зрение #детекция_объектов #сегментация_изображений #COCO #selfsupervised #yolo #detr #learning_rate #embeddings
-
TAPe‑дневник, день 8: сегментация по границам, 77% классификации и первые бенчмарки против YOLO
В этом посте продолжаем дневник TAPe‑детекции на COCO: добавляем сегментацию по контрастным патчам на границе объектов, дорабатываем классификацию, избавляемся от learning rate и смотрим, как ведёт себя YOLO на нашем маленьком датасете. А уже завтра покажем базовые и COCO‑бенчмарки, сравнения с YOLO и RF‑DETR по точности (mAP50/mAP50‑95), скорости, числу параметров и требованиям к данным, а заодно чуть подробнее поговорим про аннотацию и то, почему нам хватает десятков изображений на класс там, где другим нужны сотни тысяч. Вникнуть
https://habr.com/ru/articles/1021546/
#tape+ml #компьютерное_зрение #детекция_объектов #сегментация_изображений #COCO #selfsupervised #yolo #detr #learning_rate #embeddings
-
TAPe‑дневник, день 8: сегментация по границам, 77% классификации и первые бенчмарки против YOLO
В этом посте продолжаем дневник TAPe‑детекции на COCO: добавляем сегментацию по контрастным патчам на границе объектов, дорабатываем классификацию, избавляемся от learning rate и смотрим, как ведёт себя YOLO на нашем маленьком датасете. А уже завтра покажем базовые и COCO‑бенчмарки, сравнения с YOLO и RF‑DETR по точности (mAP50/mAP50‑95), скорости, числу параметров и требованиям к данным, а заодно чуть подробнее поговорим про аннотацию и то, почему нам хватает десятков изображений на класс там, где другим нужны сотни тысяч. Вникнуть
https://habr.com/ru/articles/1021546/
#tape+ml #компьютерное_зрение #детекция_объектов #сегментация_изображений #COCO #selfsupervised #yolo #detr #learning_rate #embeddings
-
TAPe‑дневник, день 8: сегментация по границам, 77% классификации и первые бенчмарки против YOLO
В этом посте продолжаем дневник TAPe‑детекции на COCO: добавляем сегментацию по контрастным патчам на границе объектов, дорабатываем классификацию, избавляемся от learning rate и смотрим, как ведёт себя YOLO на нашем маленьком датасете. А уже завтра покажем базовые и COCO‑бенчмарки, сравнения с YOLO и RF‑DETR по точности (mAP50/mAP50‑95), скорости, числу параметров и требованиям к данным, а заодно чуть подробнее поговорим про аннотацию и то, почему нам хватает десятков изображений на класс там, где другим нужны сотни тысяч. Вникнуть
https://habr.com/ru/articles/1021546/
#tape+ml #компьютерное_зрение #детекция_объектов #сегментация_изображений #COCO #selfsupervised #yolo #detr #learning_rate #embeddings
-
TAPe‑дневник, день 7: первый уход от трансформеров и “почти бесплатная” сегментация
В этом посте продолжаем дневник TAPe‑детекции и рассказываем, что получилось после отказа от трансформеров: насколько сократилось число параметров, как работают локальные ассоциации TAPe‑патчей и почему на лице человека у нас начинает “сам по себе” появляться зачаток сегментации. В итоге мы можем в некотором роде классифицировать понятие “кожа”. Да, напрямую мы этого не делаем, но из обучения так выходит, потому что одежда – это натуральная граница внутри самого объекта “человек”, и эти сегменты мы находим, потому что полагаемся на самые контрастные патчи, чтобы собрать из них общее описание всего объекта... Читать про кожу
https://habr.com/ru/articles/1016036/
#машинное_обучение #синтетические_данные #tape+ml #attention #трансформеры #эмбеддинги #selfsupervised #COCO #сегментация #детекция_объектов
-
TAPe‑дневник, день 7: первый уход от трансформеров и “почти бесплатная” сегментация
В этом посте продолжаем дневник TAPe‑детекции и рассказываем, что получилось после отказа от трансформеров: насколько сократилось число параметров, как работают локальные ассоциации TAPe‑патчей и почему на лице человека у нас начинает “сам по себе” появляться зачаток сегментации. В итоге мы можем в некотором роде классифицировать понятие “кожа”. Да, напрямую мы этого не делаем, но из обучения так выходит, потому что одежда – это натуральная граница внутри самого объекта “человек”, и эти сегменты мы находим, потому что полагаемся на самые контрастные патчи, чтобы собрать из них общее описание всего объекта... Читать про кожу
https://habr.com/ru/articles/1016036/
#машинное_обучение #синтетические_данные #tape+ml #attention #трансформеры #эмбеддинги #selfsupervised #COCO #сегментация #детекция_объектов
-
TAPe‑дневник, день 7: первый уход от трансформеров и “почти бесплатная” сегментация
В этом посте продолжаем дневник TAPe‑детекции и рассказываем, что получилось после отказа от трансформеров: насколько сократилось число параметров, как работают локальные ассоциации TAPe‑патчей и почему на лице человека у нас начинает “сам по себе” появляться зачаток сегментации. В итоге мы можем в некотором роде классифицировать понятие “кожа”. Да, напрямую мы этого не делаем, но из обучения так выходит, потому что одежда – это натуральная граница внутри самого объекта “человек”, и эти сегменты мы находим, потому что полагаемся на самые контрастные патчи, чтобы собрать из них общее описание всего объекта... Читать про кожу
https://habr.com/ru/articles/1016036/
#машинное_обучение #синтетические_данные #tape+ml #attention #трансформеры #эмбеддинги #selfsupervised #COCO #сегментация #детекция_объектов
-
TAPe‑дневник, день 7: первый уход от трансформеров и “почти бесплатная” сегментация
В этом посте продолжаем дневник TAPe‑детекции и рассказываем, что получилось после отказа от трансформеров: насколько сократилось число параметров, как работают локальные ассоциации TAPe‑патчей и почему на лице человека у нас начинает “сам по себе” появляться зачаток сегментации. В итоге мы можем в некотором роде классифицировать понятие “кожа”. Да, напрямую мы этого не делаем, но из обучения так выходит, потому что одежда – это натуральная граница внутри самого объекта “человек”, и эти сегменты мы находим, потому что полагаемся на самые контрастные патчи, чтобы собрать из них общее описание всего объекта... Читать про кожу
https://habr.com/ru/articles/1016036/
#машинное_обучение #синтетические_данные #tape+ml #attention #трансформеры #эмбеддинги #selfsupervised #COCO #сегментация #детекция_объектов
-
FAQ по TAPe‑детекции объектов
Этот текст не претендует на «академический» обзор TAPe и не заменяет будущие формальные бенчмарки на COCO‑подобных датасетах. Скорее это рабочие ответы на самые частые вопросы инженеров и исследователей, которые всерьёз присматриваются к проекту. О чем речь Мы делаем TAPe‑модель (вот здесь понятней, о чем речь: тыц , другой тыц ) под задачи детекции объектов на COCO‑подобных данных, с возможностью добавлять свои классы и кастомизировать под конкретного заказчика. TAPe работает не с пикселями и не с жёсткой N×N‑сеткой, как YOLO, а с осмысленными регионами (патчами) в TAPe‑представлении. В экспериментах стремимся к тому, чтобы за один «ход» модель отсекала точно неинтересные области и выделяла кандидатов, где вообще есть смысл что‑то детектировать. На маленьком датасете из 4 классов и 1256 изображений с частично шумной разметкой пилотный TAPe‑детектор с ≈115k параметров даёт 98.94% попаданий по объектам по прикладной метрике «центроид бокса в 32 пикселя от центра разметки», причём без аугментаций и с обучением на CPU. В роли baseline’а брали YOLO11s (линейка Ultralytics/YOLOv8‑s): на том же датасете она плохо сходилась, давала низкую детекцию и много ложных срабатываний. Впрочем, выводы пока делать рано. TAPe‑архитектура за несколько итераций ушла от громоздкого (для нас) dictionary‑подхода с 100k+ параметров к более компактной схеме без классического градиентного спуска: описания классов собираются из TAPe‑векторов и сжимаются через k‑means, а не обучаются как отдельная нейросеть. На подмножестве COCO (около 2% датасета, ~2400 изображений) эта же компактная модель без спецоптимизаций даёт 60.59% попаданий по центрам объектов — для такого размера детектора это неожиданно много и хороший аргумент в пользу того, что TAPe‑данные позволяют «маленьким» моделям сходиться там, где стандартные подходы ожидаемо захлёбываются. Очень интересно
https://habr.com/ru/articles/1011406/
#компьютерное_зрение #машинное_обучение #разметка_датасета #пилотный_проект #детекция_объектов #instance_segmentation #глубокое_обучение #yolo #TAPe_ML #нейросети
-
FAQ по TAPe‑детекции объектов
Этот текст не претендует на «академический» обзор TAPe и не заменяет будущие формальные бенчмарки на COCO‑подобных датасетах. Скорее это рабочие ответы на самые частые вопросы инженеров и исследователей, которые всерьёз присматриваются к проекту. О чем речь Мы делаем TAPe‑модель (вот здесь понятней, о чем речь: тыц , другой тыц ) под задачи детекции объектов на COCO‑подобных данных, с возможностью добавлять свои классы и кастомизировать под конкретного заказчика. TAPe работает не с пикселями и не с жёсткой N×N‑сеткой, как YOLO, а с осмысленными регионами (патчами) в TAPe‑представлении. В экспериментах стремимся к тому, чтобы за один «ход» модель отсекала точно неинтересные области и выделяла кандидатов, где вообще есть смысл что‑то детектировать. На маленьком датасете из 4 классов и 1256 изображений с частично шумной разметкой пилотный TAPe‑детектор с ≈115k параметров даёт 98.94% попаданий по объектам по прикладной метрике «центроид бокса в 32 пикселя от центра разметки», причём без аугментаций и с обучением на CPU. В роли baseline’а брали YOLO11s (линейка Ultralytics/YOLOv8‑s): на том же датасете она плохо сходилась, давала низкую детекцию и много ложных срабатываний. Впрочем, выводы пока делать рано. TAPe‑архитектура за несколько итераций ушла от громоздкого (для нас) dictionary‑подхода с 100k+ параметров к более компактной схеме без классического градиентного спуска: описания классов собираются из TAPe‑векторов и сжимаются через k‑means, а не обучаются как отдельная нейросеть. На подмножестве COCO (около 2% датасета, ~2400 изображений) эта же компактная модель без спецоптимизаций даёт 60.59% попаданий по центрам объектов — для такого размера детектора это неожиданно много и хороший аргумент в пользу того, что TAPe‑данные позволяют «маленьким» моделям сходиться там, где стандартные подходы ожидаемо захлёбываются. Очень интересно
https://habr.com/ru/articles/1011406/
#компьютерное_зрение #машинное_обучение #разметка_датасета #пилотный_проект #детекция_объектов #instance_segmentation #глубокое_обучение #yolo #TAPe_ML #нейросети
-
FAQ по TAPe‑детекции объектов
Этот текст не претендует на «академический» обзор TAPe и не заменяет будущие формальные бенчмарки на COCO‑подобных датасетах. Скорее это рабочие ответы на самые частые вопросы инженеров и исследователей, которые всерьёз присматриваются к проекту. О чем речь Мы делаем TAPe‑модель (вот здесь понятней, о чем речь: тыц , другой тыц ) под задачи детекции объектов на COCO‑подобных данных, с возможностью добавлять свои классы и кастомизировать под конкретного заказчика. TAPe работает не с пикселями и не с жёсткой N×N‑сеткой, как YOLO, а с осмысленными регионами (патчами) в TAPe‑представлении. В экспериментах стремимся к тому, чтобы за один «ход» модель отсекала точно неинтересные области и выделяла кандидатов, где вообще есть смысл что‑то детектировать. На маленьком датасете из 4 классов и 1256 изображений с частично шумной разметкой пилотный TAPe‑детектор с ≈115k параметров даёт 98.94% попаданий по объектам по прикладной метрике «центроид бокса в 32 пикселя от центра разметки», причём без аугментаций и с обучением на CPU. В роли baseline’а брали YOLO11s (линейка Ultralytics/YOLOv8‑s): на том же датасете она плохо сходилась, давала низкую детекцию и много ложных срабатываний. Впрочем, выводы пока делать рано. TAPe‑архитектура за несколько итераций ушла от громоздкого (для нас) dictionary‑подхода с 100k+ параметров к более компактной схеме без классического градиентного спуска: описания классов собираются из TAPe‑векторов и сжимаются через k‑means, а не обучаются как отдельная нейросеть. На подмножестве COCO (около 2% датасета, ~2400 изображений) эта же компактная модель без спецоптимизаций даёт 60.59% попаданий по центрам объектов — для такого размера детектора это неожиданно много и хороший аргумент в пользу того, что TAPe‑данные позволяют «маленьким» моделям сходиться там, где стандартные подходы ожидаемо захлёбываются. Очень интересно
https://habr.com/ru/articles/1011406/
#компьютерное_зрение #машинное_обучение #разметка_датасета #пилотный_проект #детекция_объектов #instance_segmentation #глубокое_обучение #yolo #TAPe_ML #нейросети
-
FAQ по TAPe‑детекции объектов
Этот текст не претендует на «академический» обзор TAPe и не заменяет будущие формальные бенчмарки на COCO‑подобных датасетах. Скорее это рабочие ответы на самые частые вопросы инженеров и исследователей, которые всерьёз присматриваются к проекту. О чем речь Мы делаем TAPe‑модель (вот здесь понятней, о чем речь: тыц , другой тыц ) под задачи детекции объектов на COCO‑подобных данных, с возможностью добавлять свои классы и кастомизировать под конкретного заказчика. TAPe работает не с пикселями и не с жёсткой N×N‑сеткой, как YOLO, а с осмысленными регионами (патчами) в TAPe‑представлении. В экспериментах стремимся к тому, чтобы за один «ход» модель отсекала точно неинтересные области и выделяла кандидатов, где вообще есть смысл что‑то детектировать. На маленьком датасете из 4 классов и 1256 изображений с частично шумной разметкой пилотный TAPe‑детектор с ≈115k параметров даёт 98.94% попаданий по объектам по прикладной метрике «центроид бокса в 32 пикселя от центра разметки», причём без аугментаций и с обучением на CPU. В роли baseline’а брали YOLO11s (линейка Ultralytics/YOLOv8‑s): на том же датасете она плохо сходилась, давала низкую детекцию и много ложных срабатываний. Впрочем, выводы пока делать рано. TAPe‑архитектура за несколько итераций ушла от громоздкого (для нас) dictionary‑подхода с 100k+ параметров к более компактной схеме без классического градиентного спуска: описания классов собираются из TAPe‑векторов и сжимаются через k‑means, а не обучаются как отдельная нейросеть. На подмножестве COCO (около 2% датасета, ~2400 изображений) эта же компактная модель без спецоптимизаций даёт 60.59% попаданий по центрам объектов — для такого размера детектора это неожиданно много и хороший аргумент в пользу того, что TAPe‑данные позволяют «маленьким» моделям сходиться там, где стандартные подходы ожидаемо захлёбываются. Очень интересно
https://habr.com/ru/articles/1011406/
#компьютерное_зрение #машинное_обучение #разметка_датасета #пилотный_проект #детекция_объектов #instance_segmentation #глубокое_обучение #yolo #TAPe_ML #нейросети
-
Нужно ли обучать YOLO с нуля? Практические выводы
Для меня машинное обучение - это прежде всего экспериментальная наука. Выигрывает не тот, кто придумал самую сложную архитектуру, а тот, кто быстрее проходит итерации (анализирует кривые потерь, меняет гипотезы и снова запускает обучение). И именно в этой постоянной гонке я всё чаще задаю себе один и тот же вопрос, а нужно ли вообще обучать модель с нуля? Когда я говорю «обучать с нуля», я имею в виду именно пустые веса. Не fine-tuning и не до обучение, а старт с нулевой инициализацией (PyTorch-модель без пред обученных параметров или YOLO с отключёнными pretrained-весами). Каждый раз перед началом обучения я задаю себе два простых вопроса: зачем я собираюсь тренировать модель и какая архитектура мне действительно нужна? Если ответы на эти вопросы расплывчатые, есть большой риск просто потратить ресурсы и время, а в итоге получить модель хуже готовых решений. Если же после этих вопросов сама цель становится ясной и обоснованной, тогда стоит двигаться дальше.
https://habr.com/ru/articles/994080/
#yolo #detection #детекция_объектов #ml #гиперпараметры #эксперимент #sgd #j #обучение_нейронных_сетей #пайплайн
-
Нужно ли обучать YOLO с нуля? Практические выводы
Для меня машинное обучение - это прежде всего экспериментальная наука. Выигрывает не тот, кто придумал самую сложную архитектуру, а тот, кто быстрее проходит итерации (анализирует кривые потерь, меняет гипотезы и снова запускает обучение). И именно в этой постоянной гонке я всё чаще задаю себе один и тот же вопрос, а нужно ли вообще обучать модель с нуля? Когда я говорю «обучать с нуля», я имею в виду именно пустые веса. Не fine-tuning и не до обучение, а старт с нулевой инициализацией (PyTorch-модель без пред обученных параметров или YOLO с отключёнными pretrained-весами). Каждый раз перед началом обучения я задаю себе два простых вопроса: зачем я собираюсь тренировать модель и какая архитектура мне действительно нужна? Если ответы на эти вопросы расплывчатые, есть большой риск просто потратить ресурсы и время, а в итоге получить модель хуже готовых решений. Если же после этих вопросов сама цель становится ясной и обоснованной, тогда стоит двигаться дальше.
https://habr.com/ru/articles/994080/
#yolo #detection #детекция_объектов #ml #гиперпараметры #эксперимент #sgd #j #обучение_нейронных_сетей #пайплайн
-
Нужно ли обучать YOLO с нуля? Практические выводы
Для меня машинное обучение - это прежде всего экспериментальная наука. Выигрывает не тот, кто придумал самую сложную архитектуру, а тот, кто быстрее проходит итерации (анализирует кривые потерь, меняет гипотезы и снова запускает обучение). И именно в этой постоянной гонке я всё чаще задаю себе один и тот же вопрос, а нужно ли вообще обучать модель с нуля? Когда я говорю «обучать с нуля», я имею в виду именно пустые веса. Не fine-tuning и не до обучение, а старт с нулевой инициализацией (PyTorch-модель без пред обученных параметров или YOLO с отключёнными pretrained-весами). Каждый раз перед началом обучения я задаю себе два простых вопроса: зачем я собираюсь тренировать модель и какая архитектура мне действительно нужна? Если ответы на эти вопросы расплывчатые, есть большой риск просто потратить ресурсы и время, а в итоге получить модель хуже готовых решений. Если же после этих вопросов сама цель становится ясной и обоснованной, тогда стоит двигаться дальше.
https://habr.com/ru/articles/994080/
#yolo #detection #детекция_объектов #ml #гиперпараметры #эксперимент #sgd #j #обучение_нейронных_сетей #пайплайн
-
Нужно ли обучать YOLO с нуля? Практические выводы
Для меня машинное обучение - это прежде всего экспериментальная наука. Выигрывает не тот, кто придумал самую сложную архитектуру, а тот, кто быстрее проходит итерации (анализирует кривые потерь, меняет гипотезы и снова запускает обучение). И именно в этой постоянной гонке я всё чаще задаю себе один и тот же вопрос, а нужно ли вообще обучать модель с нуля? Когда я говорю «обучать с нуля», я имею в виду именно пустые веса. Не fine-tuning и не до обучение, а старт с нулевой инициализацией (PyTorch-модель без пред обученных параметров или YOLO с отключёнными pretrained-весами). Каждый раз перед началом обучения я задаю себе два простых вопроса: зачем я собираюсь тренировать модель и какая архитектура мне действительно нужна? Если ответы на эти вопросы расплывчатые, есть большой риск просто потратить ресурсы и время, а в итоге получить модель хуже готовых решений. Если же после этих вопросов сама цель становится ясной и обоснованной, тогда стоит двигаться дальше.
https://habr.com/ru/articles/994080/
#yolo #detection #детекция_объектов #ml #гиперпараметры #эксперимент #sgd #j #обучение_нейронных_сетей #пайплайн
-
Когда YOLO не спасает: как один параметр может испортить всё
История о том, почему в ML побеждают не те, у кого самая большая модель, а те, кто понимает, что они делают.
https://habr.com/ru/articles/943516/
#покер #онлайнпокер #карты #computer_vision #yolo #object_detection #детекция_объектов #разметка_данных #датасет #оптимизация_моделей
-
Когда YOLO не спасает: как один параметр может испортить всё
История о том, почему в ML побеждают не те, у кого самая большая модель, а те, кто понимает, что они делают.
https://habr.com/ru/articles/943516/
#покер #онлайнпокер #карты #computer_vision #yolo #object_detection #детекция_объектов #разметка_данных #датасет #оптимизация_моделей
-
Когда YOLO не спасает: как один параметр может испортить всё
История о том, почему в ML побеждают не те, у кого самая большая модель, а те, кто понимает, что они делают.
https://habr.com/ru/articles/943516/
#покер #онлайнпокер #карты #computer_vision #yolo #object_detection #детекция_объектов #разметка_данных #датасет #оптимизация_моделей
-
Когда YOLO не спасает: как один параметр может испортить всё
История о том, почему в ML побеждают не те, у кого самая большая модель, а те, кто понимает, что они делают.
https://habr.com/ru/articles/943516/
#покер #онлайнпокер #карты #computer_vision #yolo #object_detection #детекция_объектов #разметка_данных #датасет #оптимизация_моделей
-
Как рёбра графа 3D-сцены помогают LLM отвечать на вопросы?
Привет, Хабр! Меня зовут Татьяна Земскова, я аспирантка МФТИ и младший научный сотрудник команды Embodied Agents лаборатории Cognitive AI Systems AIRI. Областью моих научных интересов является компьютерное зрение для робототехники. Я изучаю, в частности, то, каким образом робот может использовать различные модальности (текст, 3D‑облака точек) для лучшего понимания 3D‑сцены. Сегодня мы поговорим о понимании 3D‑сцены в контексте задач, где требуется одновременно и трёхмерное компьютерное зрение, и обработка естественного языка, а также о том, как представление 3D‑сцены в виде графа с рёбрами помогает в их решении. Главной особенностью графового представления 3D‑сцены является его компактность, поэтому граф можно использовать для сжатого описания 3D‑сцены, подающегося на вход в LLM. Это позволяет получать качественные ответы на вопросы о 3D‑сцене до 5 раз быстрее по сравнению с методами, использующими последовательности изображений для LVLM. Это мы показали вместе с моим научным руководителем Дмитрием Юдиным в недавней работе 3DGraphLLM: Сombining Semantic Graphs and Large Language Models for 3D Scene Understanding , принятой на ведущую конференцию по компьютерному зрению ICCV 2025. Мы предоставляем открытый исходный код метода 3DGraphLLM с инструкциями по запуску, а также публикуем предварительно обученные веса модели на Hugging Face . Это позволяет каждому желающему легко воспроизвести результаты и опробовать все описанные методы на собственных данных. Здесь же хочется подробнее рассказать о новом методе и пути, по которому мы к нему пришли.
https://habr.com/ru/companies/airi/articles/926076/
#графы #llmмодели #scene_understanding #graphs #question_answering #detection #captioning #детекция_объектов
-
Распознавание орхоно-енисейских рунических надписей методами машинного обучения
Орхоно-енисейские руны — это древнейшая система письма тюркских народов, использовавшаяся с VI по X век на территории Центральной Азии (включая современную Монголию, южную Сибирь и часть Казахстана). Это были надгробные и памятные тексты, выбитые на камне. Они отражают политические, военные и культурные события тюркских племён. Их расшифровка началась во второй половине XIX века и остаётся предметом научных исследований и дискуссий. Исследование символов рунической письменности актуально, так как может помочь в понимании истории и культуры народов этой местности. Интерпретация енисейских надписей с памятников – очень сложная задача. Каменная поверхность разрушена временем, из-за чего символы могут быть плохо различимы. Многие памятники находятся в удаленных, диких местах, где долгий процесс исследования слишком трудозатратен. По этой причине надписи с памятников переносятся на бумажные или цифровые носители для последующей расшифровки. Как отмечал Кормушин И. В. – профессор филологии, тюрколог и алтаевед, перед чтением надписей, необходимо идентифицировать ее символы отдельным этапом. Эта ручная обработка надписей с памятников осложнена не только деформацией самих памятников, но и отсутствием строгой определенности с принадлежностью символов к тому или иному алфавиту. Достаточно распространенной оказалась проблема неточного определения состава рунических символов во многих изданиях XX века. Эти неточности приводят к ошибкам чтения и перевода древних текстов. Поэтому целесообразно автоматизировать этот процесс для повышения точности и скорости определения символов.
https://habr.com/ru/articles/907950/
#компьютерное_зрение #yolo #сверточные_нейросети #классификация_изображений #машинное_обучение #детекция_объектов #руны #древние_цивилизации
-
BM YOLO: что, если вам не нужно умножать, чтобы распознавать?
Современные технологии глубокого обучения проникают в самые разные области нашей жизни — от автономных автомобилей до систем видеонаблюдения. Однако высокая вычислительная сложность традиционных нейронных сетей остается серьёзным препятствием на пути к их широкому применению на мобильных устройствах и встраиваемых системах. Группа исследователей из Smart Engines представила на международной конференции ICMV 2023 инновационное решение — биполярную морфологическую нейронную сеть YOLO (Bipolar Morphological YOLO, BM YOLO), которая сочетает в себе энергоэффективные вычислительные подходы и проверенную временем архитектуру YOLO для детектирования объектов.
https://habr.com/ru/companies/smartengines/articles/879088/
#биполярный_морфологический_нейрон #YOLO #аппроксимация #детекция_объектов #машинное_обучение #искусственный_интеллект #smart_engines
-
BM YOLO: что, если вам не нужно умножать, чтобы распознавать?
Современные технологии глубокого обучения проникают в самые разные области нашей жизни — от автономных автомобилей до систем видеонаблюдения. Однако высокая вычислительная сложность традиционных нейронных сетей остается серьёзным препятствием на пути к их широкому применению на мобильных устройствах и встраиваемых системах. Группа исследователей из Smart Engines представила на международной конференции ICMV 2023 инновационное решение — биполярную морфологическую нейронную сеть YOLO (Bipolar Morphological YOLO, BM YOLO), которая сочетает в себе энергоэффективные вычислительные подходы и проверенную временем архитектуру YOLO для детектирования объектов.
https://habr.com/ru/companies/smartengines/articles/879088/
#биполярный_морфологический_нейрон #YOLO #аппроксимация #детекция_объектов #машинное_обучение #искусственный_интеллект #smart_engines
-
BM YOLO: что, если вам не нужно умножать, чтобы распознавать?
Современные технологии глубокого обучения проникают в самые разные области нашей жизни — от автономных автомобилей до систем видеонаблюдения. Однако высокая вычислительная сложность традиционных нейронных сетей остается серьёзным препятствием на пути к их широкому применению на мобильных устройствах и встраиваемых системах. Группа исследователей из Smart Engines представила на международной конференции ICMV 2023 инновационное решение — биполярную морфологическую нейронную сеть YOLO (Bipolar Morphological YOLO, BM YOLO), которая сочетает в себе энергоэффективные вычислительные подходы и проверенную временем архитектуру YOLO для детектирования объектов.
https://habr.com/ru/companies/smartengines/articles/879088/
#биполярный_морфологический_нейрон #YOLO #аппроксимация #детекция_объектов #машинное_обучение #искусственный_интеллект #smart_engines
-
BM YOLO: что, если вам не нужно умножать, чтобы распознавать?
Современные технологии глубокого обучения проникают в самые разные области нашей жизни — от автономных автомобилей до систем видеонаблюдения. Однако высокая вычислительная сложность традиционных нейронных сетей остается серьёзным препятствием на пути к их широкому применению на мобильных устройствах и встраиваемых системах. Группа исследователей из Smart Engines представила на международной конференции ICMV 2023 инновационное решение — биполярную морфологическую нейронную сеть YOLO (Bipolar Morphological YOLO, BM YOLO), которая сочетает в себе энергоэффективные вычислительные подходы и проверенную временем архитектуру YOLO для детектирования объектов.
https://habr.com/ru/companies/smartengines/articles/879088/
#биполярный_морфологический_нейрон #YOLO #аппроксимация #детекция_объектов #машинное_обучение #искусственный_интеллект #smart_engines
-
Работа с YOLOV8. Детекция, сегментация, трекинг объектов, а также подготовка собственного датасета и обучение
Если вам кажется, что начать работу с нейросетями - это сложно, то этот материал для вас! В статье подробно, с примерами кода, разберем основные функции базовой модели YOLOV8 - детекция, сегментация, трекинг объектов, а также создание собственного датасета и дообучение нейросети для работы с собственными объектами!
-
Работа с YOLOV8. Детекция, сегментация, трекинг объектов, а также подготовка собственного датасета и обучение
Если вам кажется, что начать работу с нейросетями - это сложно, то этот материал для вас! В статье подробно, с примерами кода, разберем основные функции базовой модели YOLOV8 - детекция, сегментация, трекинг объектов, а также создание собственного датасета и дообучение нейросети для работы с собственными объектами!
-
Работа с YOLOV8. Детекция, сегментация, трекинг объектов, а также подготовка собственного датасета и обучение
Если вам кажется, что начать работу с нейросетями - это сложно, то этот материал для вас! В статье подробно, с примерами кода, разберем основные функции базовой модели YOLOV8 - детекция, сегментация, трекинг объектов, а также создание собственного датасета и дообучение нейросети для работы с собственными объектами!