#computer_vision — Public Fediverse posts on home.social

Habr @[email protected] · 2026-05-28 · 20:02 UTC

Фотограмметрическая поворотка на Arduino за 2500 рублей

Ко мне на кафедре обратились двое старшекурсников. Они пишут программу для археологов: пользователь фотографирует, что нашел, программа лезет в модель (которая натренирована на исторические архивах) и возвращает карту вероятностей, где поблизости могут лежать неметаллические артефакты, которые металлоискатель не ловит. Дерево, керамика, кость, ткань и тд. Для обучения модели им нужен был большой датасет фотографий находок времен WW2 (значки, гильзы, медали, фрагменты обмундирования) под разными углами и наклонами. Они прикинули два варианта: либо снимать каждый предмет вручную с разных ракурсов, перетаскивая штатив или поворачивая объект пальцами, либо сначала вылепить 3D-модель каждого артефакта вручную и потом программно крутить её в виртуальной сцене под разным светом, рендеря оттуда кадры для датасета. По обоим выходило пара месяцев работы. Я предложил собрать автоматическую поворотку. Спроектировал, напечатал, написал прошивку и питоновский скрипт. Сразу не заработало, переделал пару дней. К ночи рабочей версии я сидел за столом и каждые 12 минут жал ресет на Arduino, меняя предмет на платформе. К утру датасет был готов.

https://habr.com/ru/articles/1040874/

#arduino_uno #фотограмметрия #поворотный_стол #28byj48 #датасет #computer_vision #dataset #diy #3dпечать #pyserial

#pyserial #3dпечать #diy #dataset #computer_vision #датасет

Habr @[email protected] · 2026-05-27 · 10:42 UTC

Ожидание: сделать ИИ-примерочную обоев за 2 дня. Реальность: пришлось добучать свою модель на SD

В условиях жесткой конкуренции на рынке отделочных материалов любому магазину жизненно необходимо хоть какое-то осязаемое преимущество. Стандартными каталогами и скидками уже никого не удивить. Так у нас родилась идея: сделать онлайн-примерочную обоев. Кажется, звучит как киллер-фича — дать клиенту возможность до покупки увидеть, как конкретный паттерн будет смотреться в его реальном интерьере. На тот момент на рынке вовсю хайповали генеративные модели (такие как «Nano Banana»). На первый взгляд казалось, что проблема решается в два клика. План был надежен, как швейцарские часы: получить API-ключ, отправить по эндпоинту фотографию интерьера и текстуру обоев, сопроводить это правильным промптом (с указанием учитывать перспективу, освещение и масштаб) и забирать готовый результат. Но на практике оказалось, что задача не просто нетривиальная. Она вскрыла целый пласт проблем, о которых создатели популярных генеративок предпочитают умалчивать.

https://habr.com/ru/articles/1039804/

#computer_vision #stable_diffusion #нейросети #finetuning #ecommerce #визуализация_интерьеров #chatgpt

#chatgpt #визуализация_интерьеров #ecommerce #finetuning #нейросети #stable_diffusion

Habr @[email protected] · 2026-05-26 · 04:02 UTC

Трекинг посетителей на fisheye-камерах: задача “со звездочкой”

Всем привет, на связи команда NeuroCore. Сегодня расскажем про кейс разработки системы видеоаналитики для магазинов самообслуживания: почему fisheye-камеры - настоящее проклятие, почему SORT и DeepSORT не справились с задачей, как мы выстроили конвейер от детекции до бизнес-событий, и какие инженерные решения позволили добиться стабильной работы в продакшене. Дано: магазины самообслуживания, которые работают без кассиров и продавцов. Покупатель входит по QR, выбирает товары, рассчитывается и выходит. Заказчику нужна автоматизированная система отслеживания: кто находится внутри, сколько времени, в каких зонах, а также распознает несанкционированный доступ и вход группами. В случае нарушений, система должна генерировать алерты по 7 типам событий. Что есть: одна потолочная fisheye-камера, которая покрывает весь зал. Это идеальный выбор для ритейла: угол обзора 180 градусов, не нужно ставить десятки обычных камер, не нужно сшивать панорамы. Но за этот комфорт приходится платить.

https://habr.com/ru/articles/1039354/

#ритейл #трекинг #computer_vision #машинное_зрение #компьютерное_зрение #yolo #видеоаналитика_в_retail #видеоаналитика

#видеоаналитика #видеоаналитика_в_retail #yolo #компьютерное_зрение #машинное_зрение #computer_vision

Habr @[email protected] · 2026-05-21 · 14:52 UTC

Детекция чужого почерка в экзаменационных бланках без эталонного образца

Один ученик писал экзаменационную работу, а кто-то чужой дописал часть за него. Как мы научили нейросеть распознавать это. Дано: государственная аттестация, бумажные бланки, никакого онлайн-контроля. Классический способ фальсификации: ученик начинает работу сам, потом часть дописывает кто-то другой: сосед, нанятый человек, преподаватель. Проверяющий смотрит на текст, но не оценивает почерк. Задача ИИ: поймать фальсификацию почерка без эталона: система не знает заранее, как пишет конкретный ученик. Единственное, от чего можно отталкиваться - начало бланка, мы предполагаем, что первые строки написал сам экзаменуемый. Цель: определить, написан ли весь бланк экзаменационной работы одним человеком. На входе - скан бланка, порой низкого качества. На выходе — координаты подозрительных фрагментов для ручной проверки. Все это в режиме потоковой обработки. Основной вызов: экзаменационный бланк — это смешанный документ. Рукописный текст соседствует с формулами, графиками, схемами, печатной подложкой бланка.

https://habr.com/ru/articles/1037850/

#ocr #ocrтехнологии #computer_vision #yolo #компьютерное_зрение #pytorch #распознавание_текста #распознавание_рукописного_текста

#распознавание_рукописного_текста #распознавание_текста #pytorch #компьютерное_зрение #yolo #computer_vision

Habr @[email protected] · 2026-05-21 · 14:52 UTC

Детекция чужого почерка в экзаменационных бланках без эталонного образца

Один ученик писал экзаменационную работу, а кто-то чужой дописал часть за него. Как мы научили нейросеть распознавать это. Дано: государственная аттестация, бумажные бланки, никакого онлайн-контроля. Классический способ фальсификации: ученик начинает работу сам, потом часть дописывает кто-то другой: сосед, нанятый человек, преподаватель. Проверяющий смотрит на текст, но не оценивает почерк. Задача ИИ: поймать фальсификацию почерка без эталона: система не знает заранее, как пишет конкретный ученик. Единственное, от чего можно отталкиваться - начало бланка, мы предполагаем, что первые строки написал сам экзаменуемый. Цель: определить, написан ли весь бланк экзаменационной работы одним человеком. На входе - скан бланка, порой низкого качества. На выходе — координаты подозрительных фрагментов для ручной проверки. Все это в режиме потоковой обработки. Основной вызов: экзаменационный бланк — это смешанный документ. Рукописный текст соседствует с формулами, графиками, схемами, печатной подложкой бланка.

https://habr.com/ru/articles/1037850/

#ocr #ocrтехнологии #computer_vision #yolo #компьютерное_зрение #pytorch #распознавание_текста #распознавание_рукописного_текста

#распознавание_рукописного_текста #распознавание_текста #pytorch #компьютерное_зрение #yolo #computer_vision

Habr @[email protected] · 2026-05-21 · 14:52 UTC

Детекция чужого почерка в экзаменационных бланках без эталонного образца

Один ученик писал экзаменационную работу, а кто-то чужой дописал часть за него. Как мы научили нейросеть распознавать это. Дано: государственная аттестация, бумажные бланки, никакого онлайн-контроля. Классический способ фальсификации: ученик начинает работу сам, потом часть дописывает кто-то другой: сосед, нанятый человек, преподаватель. Проверяющий смотрит на текст, но не оценивает почерк. Задача ИИ: поймать фальсификацию почерка без эталона: система не знает заранее, как пишет конкретный ученик. Единственное, от чего можно отталкиваться - начало бланка, мы предполагаем, что первые строки написал сам экзаменуемый. Цель: определить, написан ли весь бланк экзаменационной работы одним человеком. На входе - скан бланка, порой низкого качества. На выходе — координаты подозрительных фрагментов для ручной проверки. Все это в режиме потоковой обработки. Основной вызов: экзаменационный бланк — это смешанный документ. Рукописный текст соседствует с формулами, графиками, схемами, печатной подложкой бланка.

https://habr.com/ru/articles/1037850/

#ocr #ocrтехнологии #computer_vision #yolo #компьютерное_зрение #pytorch #распознавание_текста #распознавание_рукописного_текста

#распознавание_рукописного_текста #распознавание_текста #pytorch #компьютерное_зрение #yolo #computer_vision

Habr @[email protected] · 2026-05-21 · 14:52 UTC

Детекция чужого почерка в экзаменационных бланках без эталонного образца

Один ученик писал экзаменационную работу, а кто-то чужой дописал часть за него. Как мы научили нейросеть распознавать это. Дано: государственная аттестация, бумажные бланки, никакого онлайн-контроля. Классический способ фальсификации: ученик начинает работу сам, потом часть дописывает кто-то другой: сосед, нанятый человек, преподаватель. Проверяющий смотрит на текст, но не оценивает почерк. Задача ИИ: поймать фальсификацию почерка без эталона: система не знает заранее, как пишет конкретный ученик. Единственное, от чего можно отталкиваться - начало бланка, мы предполагаем, что первые строки написал сам экзаменуемый. Цель: определить, написан ли весь бланк экзаменационной работы одним человеком. На входе - скан бланка, порой низкого качества. На выходе — координаты подозрительных фрагментов для ручной проверки. Все это в режиме потоковой обработки. Основной вызов: экзаменационный бланк — это смешанный документ. Рукописный текст соседствует с формулами, графиками, схемами, печатной подложкой бланка.

https://habr.com/ru/articles/1037850/

#ocr #ocrтехнологии #computer_vision #yolo #компьютерное_зрение #pytorch #распознавание_текста #распознавание_рукописного_текста

#ocr #ocrтехнологии #computer_vision #yolo #компьютерное_зрение #pytorch

Habr @[email protected] · 2026-05-13 · 15:22 UTC

Подсчёт долей фракций руды на конвейере: SAM2 для разметки, YOLO и проблемы с перекрытием

На производственной площадке стоит камера над лентой конвейера, она снимает поток , а система считает доли трёх цветовых фракций — серо-белой, оранжевой, розовой — и пишет результат в JSON для следующего этапа обработки. Цвет фракции используется как косвенный признак химического состава — технолог по нему оценивает качество партии. Заказчику нужна всего одна цифра — доля оранжевой фракции . Для предприятия эта фракция самая интересная по составу, остальные классы имеют второстепенное значения. Эту цифру нужно предоставлять в режиме 24/7, без расхождений между сменами. Камера стоит в закрытом помещении внутри здания. Освещение искусственное, прожектора фиксированные. Естественного света нет, влажность стабильна, поэтому большинство стандартных проблем компьютерного зрения на улице — блики на мокрых камнях, изменение цвета по времени суток, тени от солнца — в нашем случае не возникают и в статье обсуждаться не будут.

https://habr.com/ru/articles/1034836/

#sam #instance_segmentation #yolo #SAM2 #машинное_обучение #машинное_зрение #computer_vision #разметка_данных #data_labeling

#data_labeling #разметка_данных #computer_vision #машинное_зрение #машинное_обучение #sam2

Habr @[email protected] · 2026-05-13 · 15:22 UTC

Подсчёт долей фракций руды на конвейере: SAM2 для разметки, YOLO и проблемы с перекрытием

На производственной площадке стоит камера над лентой конвейера, она снимает поток , а система считает доли трёх цветовых фракций — серо-белой, оранжевой, розовой — и пишет результат в JSON для следующего этапа обработки. Цвет фракции используется как косвенный признак химического состава — технолог по нему оценивает качество партии. Заказчику нужна всего одна цифра — доля оранжевой фракции . Для предприятия эта фракция самая интересная по составу, остальные классы имеют второстепенное значения. Эту цифру нужно предоставлять в режиме 24/7, без расхождений между сменами. Камера стоит в закрытом помещении внутри здания. Освещение искусственное, прожектора фиксированные. Естественного света нет, влажность стабильна, поэтому большинство стандартных проблем компьютерного зрения на улице — блики на мокрых камнях, изменение цвета по времени суток, тени от солнца — в нашем случае не возникают и в статье обсуждаться не будут.

https://habr.com/ru/articles/1034836/

#sam #instance_segmentation #yolo #SAM2 #машинное_обучение #машинное_зрение #computer_vision #разметка_данных #data_labeling

#data_labeling #разметка_данных #computer_vision #машинное_зрение #машинное_обучение #sam2

Habr @[email protected] · 2026-05-13 · 15:22 UTC

Подсчёт долей фракций руды на конвейере: SAM2 для разметки, YOLO и проблемы с перекрытием

На производственной площадке стоит камера над лентой конвейера, она снимает поток , а система считает доли трёх цветовых фракций — серо-белой, оранжевой, розовой — и пишет результат в JSON для следующего этапа обработки. Цвет фракции используется как косвенный признак химического состава — технолог по нему оценивает качество партии. Заказчику нужна всего одна цифра — доля оранжевой фракции . Для предприятия эта фракция самая интересная по составу, остальные классы имеют второстепенное значения. Эту цифру нужно предоставлять в режиме 24/7, без расхождений между сменами. Камера стоит в закрытом помещении внутри здания. Освещение искусственное, прожектора фиксированные. Естественного света нет, влажность стабильна, поэтому большинство стандартных проблем компьютерного зрения на улице — блики на мокрых камнях, изменение цвета по времени суток, тени от солнца — в нашем случае не возникают и в статье обсуждаться не будут.

https://habr.com/ru/articles/1034836/

#sam #instance_segmentation #yolo #SAM2 #машинное_обучение #машинное_зрение #computer_vision #разметка_данных #data_labeling

#data_labeling #разметка_данных #computer_vision #машинное_зрение #машинное_обучение #sam2

Habr @[email protected] · 2026-05-13 · 15:22 UTC

Подсчёт долей фракций руды на конвейере: SAM2 для разметки, YOLO и проблемы с перекрытием

На производственной площадке стоит камера над лентой конвейера, она снимает поток , а система считает доли трёх цветовых фракций — серо-белой, оранжевой, розовой — и пишет результат в JSON для следующего этапа обработки. Цвет фракции используется как косвенный признак химического состава — технолог по нему оценивает качество партии. Заказчику нужна всего одна цифра — доля оранжевой фракции . Для предприятия эта фракция самая интересная по составу, остальные классы имеют второстепенное значения. Эту цифру нужно предоставлять в режиме 24/7, без расхождений между сменами. Камера стоит в закрытом помещении внутри здания. Освещение искусственное, прожектора фиксированные. Естественного света нет, влажность стабильна, поэтому большинство стандартных проблем компьютерного зрения на улице — блики на мокрых камнях, изменение цвета по времени суток, тени от солнца — в нашем случае не возникают и в статье обсуждаться не будут.

https://habr.com/ru/articles/1034836/

#sam #instance_segmentation #yolo #SAM2 #машинное_обучение #машинное_зрение #computer_vision #разметка_данных #data_labeling

#sam #instance_segmentation #yolo #sam2 #машинное_обучение #машинное_зрение

Habr @[email protected] · 2026-05-13 · 07:12 UTC

DIY-стенд для инспекции печатных плат (профиль, камера, шаговые двигатели и немного инженерного упрямства)

Я, как и многие, залип в датасеты , метрики и нейросети - и в какой-то момент понял, что почти не думаю о главном, как вообще проходит процесс инспекции печатных плат. Чтобы закрыть вопрос реального процесса инспекции печатных плат, было принято решение собрать собственный компактный стенд (подиум на алюминиевом профиле, камера, два шаговых двигателя и много (очень много) хомутов для проведения автоматической инспекции. Основные критерии, которые были заложены в основу будущего стенда: он должен быть простым в управлении, достаточно компактным, чтобы уместиться на рабочем столе и универсальным. Чтобы была возможность решать различные задачи инспекции. В статье расскажу, почему я не стал делать конвейер, как в промышленности, какие компромиссы пришлось принять, что пошло не так при сборке и почему этот DIY-подход оказался полезнее, чем ещё один прогон модели на готовом датасете. Если коротко, то я собрал из того, что было под рукой (местами буквально "на коленке"), и это неожиданно дало больше понимания, чем ещё одно обучение модели.

https://habr.com/ru/articles/1034422/

#diy #ии #стенд #из_говна_и_палок #диплом #ниокр #pcb #computer_vision #detection #arduino

#arduino #detection #computer_vision #pcb #ниокр #диплом

Habr @[email protected] · 2026-05-13 · 07:12 UTC

DIY-стенд для инспекции печатных плат (профиль, камера, шаговые двигатели и немного инженерного упрямства)

Я, как и многие, залип в датасеты , метрики и нейросети - и в какой-то момент понял, что почти не думаю о главном, как вообще проходит процесс инспекции печатных плат. Чтобы закрыть вопрос реального процесса инспекции печатных плат, было принято решение собрать собственный компактный стенд (подиум на алюминиевом профиле, камера, два шаговых двигателя и много (очень много) хомутов для проведения автоматической инспекции. Основные критерии, которые были заложены в основу будущего стенда: он должен быть простым в управлении, достаточно компактным, чтобы уместиться на рабочем столе и универсальным. Чтобы была возможность решать различные задачи инспекции. В статье расскажу, почему я не стал делать конвейер, как в промышленности, какие компромиссы пришлось принять, что пошло не так при сборке и почему этот DIY-подход оказался полезнее, чем ещё один прогон модели на готовом датасете. Если коротко, то я собрал из того, что было под рукой (местами буквально "на коленке"), и это неожиданно дало больше понимания, чем ещё одно обучение модели.

https://habr.com/ru/articles/1034422/

#diy #ии #стенд #из_говна_и_палок #диплом #ниокр #pcb #computer_vision #detection #arduino

#arduino #detection #computer_vision #pcb #ниокр #диплом

Habr @[email protected] · 2026-05-13 · 07:12 UTC

DIY-стенд для инспекции печатных плат (профиль, камера, шаговые двигатели и немного инженерного упрямства)

Я, как и многие, залип в датасеты , метрики и нейросети - и в какой-то момент понял, что почти не думаю о главном, как вообще проходит процесс инспекции печатных плат. Чтобы закрыть вопрос реального процесса инспекции печатных плат, было принято решение собрать собственный компактный стенд (подиум на алюминиевом профиле, камера, два шаговых двигателя и много (очень много) хомутов для проведения автоматической инспекции. Основные критерии, которые были заложены в основу будущего стенда: он должен быть простым в управлении, достаточно компактным, чтобы уместиться на рабочем столе и универсальным. Чтобы была возможность решать различные задачи инспекции. В статье расскажу, почему я не стал делать конвейер, как в промышленности, какие компромиссы пришлось принять, что пошло не так при сборке и почему этот DIY-подход оказался полезнее, чем ещё один прогон модели на готовом датасете. Если коротко, то я собрал из того, что было под рукой (местами буквально "на коленке"), и это неожиданно дало больше понимания, чем ещё одно обучение модели.

https://habr.com/ru/articles/1034422/

#diy #ии #стенд #из_говна_и_палок #диплом #ниокр #pcb #computer_vision #detection #arduino

#arduino #detection #computer_vision #pcb #ниокр #диплом

Habr @[email protected] · 2026-05-13 · 07:12 UTC

DIY-стенд для инспекции печатных плат (профиль, камера, шаговые двигатели и немного инженерного упрямства)

Я, как и многие, залип в датасеты , метрики и нейросети - и в какой-то момент понял, что почти не думаю о главном, как вообще проходит процесс инспекции печатных плат. Чтобы закрыть вопрос реального процесса инспекции печатных плат, было принято решение собрать собственный компактный стенд (подиум на алюминиевом профиле, камера, два шаговых двигателя и много (очень много) хомутов для проведения автоматической инспекции. Основные критерии, которые были заложены в основу будущего стенда: он должен быть простым в управлении, достаточно компактным, чтобы уместиться на рабочем столе и универсальным. Чтобы была возможность решать различные задачи инспекции. В статье расскажу, почему я не стал делать конвейер, как в промышленности, какие компромиссы пришлось принять, что пошло не так при сборке и почему этот DIY-подход оказался полезнее, чем ещё один прогон модели на готовом датасете. Если коротко, то я собрал из того, что было под рукой (местами буквально "на коленке"), и это неожиданно дало больше понимания, чем ещё одно обучение модели.

https://habr.com/ru/articles/1034422/

#diy #ии #стенд #из_говна_и_палок #диплом #ниокр #pcb #computer_vision #detection #arduino

#diy #ии #стенд #из_говна_и_палок #диплом #ниокр

Habr @[email protected] · 2026-04-30 · 07:32 UTC

Flow Matching, 276M параметров и моделирование хаоса: как мы научили генеративную модель Marchuk предсказывать погоду

Привет, Хабр! Мы команда «Генеративный ИИ для видео» лаборатории FusionBrain AIRI — группа исследователей в области Generative AI. Наш основной профиль — модели генерации изображений и видео: пиксели, временная когерентность, латентные пространства, трансформеры и diffusion/flow‑подходы. Мы — не метеорологи. Но совсем недавно мы задались вопросом: можно ли взять SOTA‑идеи из алгоритмов генерации видео и применить их к задаче предсказания глобальной погодной карты, не превращая ML‑модель в усложненный пайплайн на базе специфических метеорологических знаний? Оказалось, что да, и весьма неплохо. В этой статье мы расскажем про нашу новую модель прогноза погоды на основе алгоритма Flow Matching под названием Marchuk, которая выгодно выделяется на фоне конкурентных подходов своей компактностью и производительностью. Она даже смогла предсказать морозы в январе 2026 года!

https://habr.com/ru/companies/airi/articles/1011256/

#прогноз_погоды #диффузионные_нейросети #Machine_Learning #Weather_Forecasting #Computer_Vision #Flow_Matching #Diffusion_Models #DiT #Research

#research #dit #diffusion_models #flow_matching #computer_vision #weather_forecasting

Habr @[email protected] · 2026-04-30 · 07:32 UTC

Flow Matching, 276M параметров и моделирование хаоса: как мы научили генеративную модель Marchuk предсказывать погоду

Привет, Хабр! Мы команда «Генеративный ИИ для видео» лаборатории FusionBrain AIRI — группа исследователей в области Generative AI. Наш основной профиль — модели генерации изображений и видео: пиксели, временная когерентность, латентные пространства, трансформеры и diffusion/flow‑подходы. Мы — не метеорологи. Но совсем недавно мы задались вопросом: можно ли взять SOTA‑идеи из алгоритмов генерации видео и применить их к задаче предсказания глобальной погодной карты, не превращая ML‑модель в усложненный пайплайн на базе специфических метеорологических знаний? Оказалось, что да, и весьма неплохо. В этой статье мы расскажем про нашу новую модель прогноза погоды на основе алгоритма Flow Matching под названием Marchuk, которая выгодно выделяется на фоне конкурентных подходов своей компактностью и производительностью. Она даже смогла предсказать морозы в январе 2026 года!

https://habr.com/ru/companies/airi/articles/1011256/

#прогноз_погоды #диффузионные_нейросети #Machine_Learning #Weather_Forecasting #Computer_Vision #Flow_Matching #Diffusion_Models #DiT #Research

#research #dit #diffusion_models #flow_matching #computer_vision #weather_forecasting

Habr @[email protected] · 2026-04-30 · 07:32 UTC

Flow Matching, 276M параметров и моделирование хаоса: как мы научили генеративную модель Marchuk предсказывать погоду

Привет, Хабр! Мы команда «Генеративный ИИ для видео» лаборатории FusionBrain AIRI — группа исследователей в области Generative AI. Наш основной профиль — модели генерации изображений и видео: пиксели, временная когерентность, латентные пространства, трансформеры и diffusion/flow‑подходы. Мы — не метеорологи. Но совсем недавно мы задались вопросом: можно ли взять SOTA‑идеи из алгоритмов генерации видео и применить их к задаче предсказания глобальной погодной карты, не превращая ML‑модель в усложненный пайплайн на базе специфических метеорологических знаний? Оказалось, что да, и весьма неплохо. В этой статье мы расскажем про нашу новую модель прогноза погоды на основе алгоритма Flow Matching под названием Marchuk, которая выгодно выделяется на фоне конкурентных подходов своей компактностью и производительностью. Она даже смогла предсказать морозы в январе 2026 года!

https://habr.com/ru/companies/airi/articles/1011256/

#прогноз_погоды #диффузионные_нейросети #Machine_Learning #Weather_Forecasting #Computer_Vision #Flow_Matching #Diffusion_Models #DiT #Research

#research #dit #diffusion_models #flow_matching #computer_vision #weather_forecasting

Habr @[email protected] · 2026-04-30 · 07:32 UTC

Flow Matching, 276M параметров и моделирование хаоса: как мы научили генеративную модель Marchuk предсказывать погоду

Привет, Хабр! Мы команда «Генеративный ИИ для видео» лаборатории FusionBrain AIRI — группа исследователей в области Generative AI. Наш основной профиль — модели генерации изображений и видео: пиксели, временная когерентность, латентные пространства, трансформеры и diffusion/flow‑подходы. Мы — не метеорологи. Но совсем недавно мы задались вопросом: можно ли взять SOTA‑идеи из алгоритмов генерации видео и применить их к задаче предсказания глобальной погодной карты, не превращая ML‑модель в усложненный пайплайн на базе специфических метеорологических знаний? Оказалось, что да, и весьма неплохо. В этой статье мы расскажем про нашу новую модель прогноза погоды на основе алгоритма Flow Matching под названием Marchuk, которая выгодно выделяется на фоне конкурентных подходов своей компактностью и производительностью. Она даже смогла предсказать морозы в январе 2026 года!

https://habr.com/ru/companies/airi/articles/1011256/

#прогноз_погоды #диффузионные_нейросети #Machine_Learning #Weather_Forecasting #Computer_Vision #Flow_Matching #Diffusion_Models #DiT #Research

#прогноз_погоды #диффузионные_нейросети #machine_learning #weather_forecasting #computer_vision #flow_matching

Habr @[email protected] · 2026-04-17 · 13:22 UTC

Приложение real-time face swap на чистом Rust: ONNX Runtime, lock-free потоки и 60 кадров в секунду

Большинство инструментов для замены лиц это Python-скрипты, склеенные из PyTorch, OpenCV и надежды. Они работают, но тащат за собой гигабайты зависимостей, требуют правильно настроенного CUDA и разваливаются в тот момент, когда ты пытаешься запустить их в реальном времени. Мне стало интересно: можно ли собрать весь пайплайн на чистом Rust? Без Python. Без PyTorch. Без обёрток. Один бинарник, который скачал, распаковал и запустил. Оказалось, можно. 60 fps на веб-камере. Пайплайн На каждом кадре последовательно отрабатывают четыре нейросети. RetinaFace находит лица и извлекает пять ключевых точек. ArcFace вычисляет 512-мерный эмбеддинг исходного лица. InSwapper принимает регион целевого лица и эмбеддинг источника, на выходе отдаёт заменённое лицо. GFPGAN опционально улучшает результат для более высокого качества. Все четыре модели работают через ONNX Runtime. Никаких кастомных CUDA-ядер, никакого оверхеда фреймворков. Тензор на вход, тензор на выход. Архитектура потоков Три потока, ноль блокировок на горячем пути. Поток захвата получает кадры с веб-камеры через nokhwa и публикует их через ArcSwap. Поток пайплайна подхватывает новые кадры, прогоняет инференс и публикует обработанные кадры через второй ArcSwap. Поток UI читает актуальный буфер и рендерит через egui. Никаких мьютексов на данных кадра. Никаких каналов. Никакого async. Только атомарные счётчики поколений и lock-free замена указателей. Структуры разделяемого состояния занимают ровно по 64 байта каждая и выровнены по кэш-линиям, чтобы исключить false sharing между ядрами. Это проверяется compile-time ассертами.

https://habr.com/ru/articles/1024700/

#Rust #ONNX #Machine_Learning #Computer_Vision #Face_Detection #egui #Open_Source #lockfree #multithreading #realtime

#realtime #multithreading #lockfree #open_source #egui #face_detection

Habr @[email protected] · 2026-04-17 · 13:22 UTC

Приложение real-time face swap на чистом Rust: ONNX Runtime, lock-free потоки и 60 кадров в секунду

Большинство инструментов для замены лиц это Python-скрипты, склеенные из PyTorch, OpenCV и надежды. Они работают, но тащат за собой гигабайты зависимостей, требуют правильно настроенного CUDA и разваливаются в тот момент, когда ты пытаешься запустить их в реальном времени. Мне стало интересно: можно ли собрать весь пайплайн на чистом Rust? Без Python. Без PyTorch. Без обёрток. Один бинарник, который скачал, распаковал и запустил. Оказалось, можно. 60 fps на веб-камере. Пайплайн На каждом кадре последовательно отрабатывают четыре нейросети. RetinaFace находит лица и извлекает пять ключевых точек. ArcFace вычисляет 512-мерный эмбеддинг исходного лица. InSwapper принимает регион целевого лица и эмбеддинг источника, на выходе отдаёт заменённое лицо. GFPGAN опционально улучшает результат для более высокого качества. Все четыре модели работают через ONNX Runtime. Никаких кастомных CUDA-ядер, никакого оверхеда фреймворков. Тензор на вход, тензор на выход. Архитектура потоков Три потока, ноль блокировок на горячем пути. Поток захвата получает кадры с веб-камеры через nokhwa и публикует их через ArcSwap. Поток пайплайна подхватывает новые кадры, прогоняет инференс и публикует обработанные кадры через второй ArcSwap. Поток UI читает актуальный буфер и рендерит через egui. Никаких мьютексов на данных кадра. Никаких каналов. Никакого async. Только атомарные счётчики поколений и lock-free замена указателей. Структуры разделяемого состояния занимают ровно по 64 байта каждая и выровнены по кэш-линиям, чтобы исключить false sharing между ядрами. Это проверяется compile-time ассертами.

https://habr.com/ru/articles/1024700/

#Rust #ONNX #Machine_Learning #Computer_Vision #Face_Detection #egui #Open_Source #lockfree #multithreading #realtime

#realtime #multithreading #lockfree #open_source #egui #face_detection

Habr @[email protected] · 2026-04-17 · 13:22 UTC

Приложение real-time face swap на чистом Rust: ONNX Runtime, lock-free потоки и 60 кадров в секунду

Большинство инструментов для замены лиц это Python-скрипты, склеенные из PyTorch, OpenCV и надежды. Они работают, но тащат за собой гигабайты зависимостей, требуют правильно настроенного CUDA и разваливаются в тот момент, когда ты пытаешься запустить их в реальном времени. Мне стало интересно: можно ли собрать весь пайплайн на чистом Rust? Без Python. Без PyTorch. Без обёрток. Один бинарник, который скачал, распаковал и запустил. Оказалось, можно. 60 fps на веб-камере. Пайплайн На каждом кадре последовательно отрабатывают четыре нейросети. RetinaFace находит лица и извлекает пять ключевых точек. ArcFace вычисляет 512-мерный эмбеддинг исходного лица. InSwapper принимает регион целевого лица и эмбеддинг источника, на выходе отдаёт заменённое лицо. GFPGAN опционально улучшает результат для более высокого качества. Все четыре модели работают через ONNX Runtime. Никаких кастомных CUDA-ядер, никакого оверхеда фреймворков. Тензор на вход, тензор на выход. Архитектура потоков Три потока, ноль блокировок на горячем пути. Поток захвата получает кадры с веб-камеры через nokhwa и публикует их через ArcSwap. Поток пайплайна подхватывает новые кадры, прогоняет инференс и публикует обработанные кадры через второй ArcSwap. Поток UI читает актуальный буфер и рендерит через egui. Никаких мьютексов на данных кадра. Никаких каналов. Никакого async. Только атомарные счётчики поколений и lock-free замена указателей. Структуры разделяемого состояния занимают ровно по 64 байта каждая и выровнены по кэш-линиям, чтобы исключить false sharing между ядрами. Это проверяется compile-time ассертами.

https://habr.com/ru/articles/1024700/

#Rust #ONNX #Machine_Learning #Computer_Vision #Face_Detection #egui #Open_Source #lockfree #multithreading #realtime

#realtime #multithreading #lockfree #open_source #egui #face_detection

Habr @[email protected] · 2026-04-17 · 13:22 UTC

Приложение real-time face swap на чистом Rust: ONNX Runtime, lock-free потоки и 60 кадров в секунду

Большинство инструментов для замены лиц это Python-скрипты, склеенные из PyTorch, OpenCV и надежды. Они работают, но тащат за собой гигабайты зависимостей, требуют правильно настроенного CUDA и разваливаются в тот момент, когда ты пытаешься запустить их в реальном времени. Мне стало интересно: можно ли собрать весь пайплайн на чистом Rust? Без Python. Без PyTorch. Без обёрток. Один бинарник, который скачал, распаковал и запустил. Оказалось, можно. 60 fps на веб-камере. Пайплайн На каждом кадре последовательно отрабатывают четыре нейросети. RetinaFace находит лица и извлекает пять ключевых точек. ArcFace вычисляет 512-мерный эмбеддинг исходного лица. InSwapper принимает регион целевого лица и эмбеддинг источника, на выходе отдаёт заменённое лицо. GFPGAN опционально улучшает результат для более высокого качества. Все четыре модели работают через ONNX Runtime. Никаких кастомных CUDA-ядер, никакого оверхеда фреймворков. Тензор на вход, тензор на выход. Архитектура потоков Три потока, ноль блокировок на горячем пути. Поток захвата получает кадры с веб-камеры через nokhwa и публикует их через ArcSwap. Поток пайплайна подхватывает новые кадры, прогоняет инференс и публикует обработанные кадры через второй ArcSwap. Поток UI читает актуальный буфер и рендерит через egui. Никаких мьютексов на данных кадра. Никаких каналов. Никакого async. Только атомарные счётчики поколений и lock-free замена указателей. Структуры разделяемого состояния занимают ровно по 64 байта каждая и выровнены по кэш-линиям, чтобы исключить false sharing между ядрами. Это проверяется compile-time ассертами.

https://habr.com/ru/articles/1024700/

#Rust #ONNX #Machine_Learning #Computer_Vision #Face_Detection #egui #Open_Source #lockfree #multithreading #realtime

#rust #onnx #machine_learning #computer_vision #face_detection #egui

Habr @[email protected] · 2026-04-15 · 16:12 UTC

Мультимодальные модели – грубый и дорогой инструмент

Пока все в погоне за всё более универсальными ИИ-агентами пытаясь создать тот самый AGI по нашему подобию, мне кажется полезным спуститься на уровень ниже и посмотреть на более приземлённую инженерную проблему. Мы неплохо научили модели работать с текстом, кодом, изображениями и инструментами. Мы научили их вызывать функции, научили эти ИИ писать собственные инструменты каждый раз для задач которые повторяются миллионы раз, видеть как мы(фото), думать как мы(рассуждения). Мы научились – дообучать их под новые сценарии через fine-tuning. Но если убрать хайп, остаётся неприятный факт: во многих практических задачах модели по-прежнему работают грубо и дорого. Особенно хорошо это видно на фронтенде. Сегодня у модели есть два типовых способа "увидеть" сайт. Первый – читать код: HTML, CSS, JS, и серверную логику (если вы предоставили модели доступ). Второй – смотреть на скриншоты, а в более дорогом варианте – на видео (хоть и таких решений я не видел, и скорее не видео, а слайд-шоу, но считаю логичным внедрением для некоторых сценариев). И эти оба подхода неудобны. А обучать модель внутреннему представлению через имеющиеся виды зрения – как правильно, – как распознать кнопку итд – дорого, требует ещё больших данных, больше вычислений. А банально небольшое отклонение стиля уже ломает верстку. Да с бэкендом мы можем строить среду в которой благодаря RL обучению модель научится решать задачу. Но как быть с интерфейсом? Фото дает слишком много шума в виде пикселей, а код дает много лишнего шума в виде разметки, скриптов. Когда обычному пользователю: не нужно смотреть на каждый серый пиксель фона кнопки, или изучать все стили, js и html разметку сайта, он видит овал на котором написано "войти" – и понимает что это – кнопка, особенно, если при наведении или нажатии цвет фона кнопки меняется.

https://habr.com/ru/articles/1023916/

#мультимодальные_модели #интерфейсы #вебинтерфейсы #фронтенд #dom #computer_vision #ui #ai_agents

#ai_agents #ui #computer_vision #dom #фронтенд #вебинтерфейсы

Habr @[email protected] · 2026-04-15 · 16:12 UTC

Мультимодальные модели – грубый и дорогой инструмент

Пока все в погоне за всё более универсальными ИИ-агентами пытаясь создать тот самый AGI по нашему подобию, мне кажется полезным спуститься на уровень ниже и посмотреть на более приземлённую инженерную проблему. Мы неплохо научили модели работать с текстом, кодом, изображениями и инструментами. Мы научили их вызывать функции, научили эти ИИ писать собственные инструменты каждый раз для задач которые повторяются миллионы раз, видеть как мы(фото), думать как мы(рассуждения). Мы научились – дообучать их под новые сценарии через fine-tuning. Но если убрать хайп, остаётся неприятный факт: во многих практических задачах модели по-прежнему работают грубо и дорого. Особенно хорошо это видно на фронтенде. Сегодня у модели есть два типовых способа "увидеть" сайт. Первый – читать код: HTML, CSS, JS, и серверную логику (если вы предоставили модели доступ). Второй – смотреть на скриншоты, а в более дорогом варианте – на видео (хоть и таких решений я не видел, и скорее не видео, а слайд-шоу, но считаю логичным внедрением для некоторых сценариев). И эти оба подхода неудобны. А обучать модель внутреннему представлению через имеющиеся виды зрения – как правильно, – как распознать кнопку итд – дорого, требует ещё больших данных, больше вычислений. А банально небольшое отклонение стиля уже ломает верстку. Да с бэкендом мы можем строить среду в которой благодаря RL обучению модель научится решать задачу. Но как быть с интерфейсом? Фото дает слишком много шума в виде пикселей, а код дает много лишнего шума в виде разметки, скриптов. Когда обычному пользователю: не нужно смотреть на каждый серый пиксель фона кнопки, или изучать все стили, js и html разметку сайта, он видит овал на котором написано "войти" – и понимает что это – кнопка, особенно, если при наведении или нажатии цвет фона кнопки меняется.

https://habr.com/ru/articles/1023916/

#мультимодальные_модели #интерфейсы #вебинтерфейсы #фронтенд #dom #computer_vision #ui #ai_agents

#ai_agents #ui #computer_vision #dom #фронтенд #вебинтерфейсы

Habr @[email protected] · 2026-04-15 · 16:12 UTC

Мультимодальные модели – грубый и дорогой инструмент

Пока все в погоне за всё более универсальными ИИ-агентами пытаясь создать тот самый AGI по нашему подобию, мне кажется полезным спуститься на уровень ниже и посмотреть на более приземлённую инженерную проблему. Мы неплохо научили модели работать с текстом, кодом, изображениями и инструментами. Мы научили их вызывать функции, научили эти ИИ писать собственные инструменты каждый раз для задач которые повторяются миллионы раз, видеть как мы(фото), думать как мы(рассуждения). Мы научились – дообучать их под новые сценарии через fine-tuning. Но если убрать хайп, остаётся неприятный факт: во многих практических задачах модели по-прежнему работают грубо и дорого. Особенно хорошо это видно на фронтенде. Сегодня у модели есть два типовых способа "увидеть" сайт. Первый – читать код: HTML, CSS, JS, и серверную логику (если вы предоставили модели доступ). Второй – смотреть на скриншоты, а в более дорогом варианте – на видео (хоть и таких решений я не видел, и скорее не видео, а слайд-шоу, но считаю логичным внедрением для некоторых сценариев). И эти оба подхода неудобны. А обучать модель внутреннему представлению через имеющиеся виды зрения – как правильно, – как распознать кнопку итд – дорого, требует ещё больших данных, больше вычислений. А банально небольшое отклонение стиля уже ломает верстку. Да с бэкендом мы можем строить среду в которой благодаря RL обучению модель научится решать задачу. Но как быть с интерфейсом? Фото дает слишком много шума в виде пикселей, а код дает много лишнего шума в виде разметки, скриптов. Когда обычному пользователю: не нужно смотреть на каждый серый пиксель фона кнопки, или изучать все стили, js и html разметку сайта, он видит овал на котором написано "войти" – и понимает что это – кнопка, особенно, если при наведении или нажатии цвет фона кнопки меняется.

https://habr.com/ru/articles/1023916/

#мультимодальные_модели #интерфейсы #вебинтерфейсы #фронтенд #dom #computer_vision #ui #ai_agents

#ai_agents #ui #computer_vision #dom #фронтенд #вебинтерфейсы

Habr @[email protected] · 2026-04-15 · 16:12 UTC

Мультимодальные модели – грубый и дорогой инструмент

Пока все в погоне за всё более универсальными ИИ-агентами пытаясь создать тот самый AGI по нашему подобию, мне кажется полезным спуститься на уровень ниже и посмотреть на более приземлённую инженерную проблему. Мы неплохо научили модели работать с текстом, кодом, изображениями и инструментами. Мы научили их вызывать функции, научили эти ИИ писать собственные инструменты каждый раз для задач которые повторяются миллионы раз, видеть как мы(фото), думать как мы(рассуждения). Мы научились – дообучать их под новые сценарии через fine-tuning. Но если убрать хайп, остаётся неприятный факт: во многих практических задачах модели по-прежнему работают грубо и дорого. Особенно хорошо это видно на фронтенде. Сегодня у модели есть два типовых способа "увидеть" сайт. Первый – читать код: HTML, CSS, JS, и серверную логику (если вы предоставили модели доступ). Второй – смотреть на скриншоты, а в более дорогом варианте – на видео (хоть и таких решений я не видел, и скорее не видео, а слайд-шоу, но считаю логичным внедрением для некоторых сценариев). И эти оба подхода неудобны. А обучать модель внутреннему представлению через имеющиеся виды зрения – как правильно, – как распознать кнопку итд – дорого, требует ещё больших данных, больше вычислений. А банально небольшое отклонение стиля уже ломает верстку. Да с бэкендом мы можем строить среду в которой благодаря RL обучению модель научится решать задачу. Но как быть с интерфейсом? Фото дает слишком много шума в виде пикселей, а код дает много лишнего шума в виде разметки, скриптов. Когда обычному пользователю: не нужно смотреть на каждый серый пиксель фона кнопки, или изучать все стили, js и html разметку сайта, он видит овал на котором написано "войти" – и понимает что это – кнопка, особенно, если при наведении или нажатии цвет фона кнопки меняется.

https://habr.com/ru/articles/1023916/

#мультимодальные_модели #интерфейсы #вебинтерфейсы #фронтенд #dom #computer_vision #ui #ai_agents

#мультимодальные_модели #интерфейсы #вебинтерфейсы #фронтенд #dom #computer_vision

Habr @[email protected] · 2026-04-10 · 07:22 UTC

Как я выбираю моменты для Shorts: почему LLM + транскрипт почти всегда дают мусор

Это третья статья про мой "аниме завод" — систему, которая автоматически превращает длинные эпизоды в Shorts. Если хотите полный контекст, вот предыдущие части:

https://habr.com/ru/articles/1021552/

#llm #shorts #python #cv #computer_vision #signal_processing #multimodal #transcript #youtube_shorts #ai

#ai #youtube_shorts #transcript #multimodal #signal_processing #computer_vision

Habr @[email protected] · 2026-04-10 · 07:22 UTC

Как я выбираю моменты для Shorts: почему LLM + транскрипт почти всегда дают мусор

Это третья статья про мой "аниме завод" — систему, которая автоматически превращает длинные эпизоды в Shorts. Если хотите полный контекст, вот предыдущие части:

https://habr.com/ru/articles/1021552/

#llm #shorts #python #cv #computer_vision #signal_processing #multimodal #transcript #youtube_shorts #ai

#ai #youtube_shorts #transcript #multimodal #signal_processing #computer_vision

Habr @[email protected] · 2026-04-10 · 07:22 UTC

Как я выбираю моменты для Shorts: почему LLM + транскрипт почти всегда дают мусор

Это третья статья про мой "аниме завод" — систему, которая автоматически превращает длинные эпизоды в Shorts. Если хотите полный контекст, вот предыдущие части:

https://habr.com/ru/articles/1021552/

#llm #shorts #python #cv #computer_vision #signal_processing #multimodal #transcript #youtube_shorts #ai

#ai #youtube_shorts #transcript #multimodal #signal_processing #computer_vision

Habr @[email protected] · 2026-04-10 · 07:22 UTC

Как я выбираю моменты для Shorts: почему LLM + транскрипт почти всегда дают мусор

Это третья статья про мой "аниме завод" — систему, которая автоматически превращает длинные эпизоды в Shorts. Если хотите полный контекст, вот предыдущие части:

https://habr.com/ru/articles/1021552/

#llm #shorts #python #cv #computer_vision #signal_processing #multimodal #transcript #youtube_shorts #ai

#llm #shorts #python #cv #computer_vision #signal_processing

Habr @[email protected] · 2026-04-09 · 09:32 UTC

Я научил виртуальную камеру быть оператором: как устроен алгоритм face tracking для Shorts/Reels

В предыдущей статье я подробно рассказывал про свой "аниме завод" — пайплайн, который автоматически превращает эпизоды в готовые Shorts. Но внутри этой системы есть один особенно важный узел, который заслуживает отдельного разбора: виртуальная камера для автоматического кадрирования. В этой статье я разберу не просто "функцию автокропа", а полноценный алгоритм виртуальной камеры для вертикального видео. Это тот случай, когда задача на первый взгляд кажется простой: есть горизонтальный ролик, нужно сделать 9:16, удержать человека в кадре и не превратить результат в дёрганый автофокус из начала 2010-х. Но как только начинаешь делать это не для демо, а для реального пайплайна, сразу всплывают инженерные проблемы:

https://habr.com/ru/articles/1021278/

#face_tracking #virtual_camera #MediaPipe #YuNet #Haar_Cascade #OpenCV #Shorts #Reels #computer_vision #auto_crop

#auto_crop #computer_vision #reels #shorts #opencv #haar_cascade

Habr @[email protected] · 2026-04-09 · 09:32 UTC

Я научил виртуальную камеру быть оператором: как устроен алгоритм face tracking для Shorts/Reels

В предыдущей статье я подробно рассказывал про свой "аниме завод" — пайплайн, который автоматически превращает эпизоды в готовые Shorts. Но внутри этой системы есть один особенно важный узел, который заслуживает отдельного разбора: виртуальная камера для автоматического кадрирования. В этой статье я разберу не просто "функцию автокропа", а полноценный алгоритм виртуальной камеры для вертикального видео. Это тот случай, когда задача на первый взгляд кажется простой: есть горизонтальный ролик, нужно сделать 9:16, удержать человека в кадре и не превратить результат в дёрганый автофокус из начала 2010-х. Но как только начинаешь делать это не для демо, а для реального пайплайна, сразу всплывают инженерные проблемы:

https://habr.com/ru/articles/1021278/

#face_tracking #virtual_camera #MediaPipe #YuNet #Haar_Cascade #OpenCV #Shorts #Reels #computer_vision #auto_crop

#auto_crop #computer_vision #reels #shorts #opencv #haar_cascade

Habr @[email protected] · 2026-04-09 · 09:32 UTC

Я научил виртуальную камеру быть оператором: как устроен алгоритм face tracking для Shorts/Reels

В предыдущей статье я подробно рассказывал про свой "аниме завод" — пайплайн, который автоматически превращает эпизоды в готовые Shorts. Но внутри этой системы есть один особенно важный узел, который заслуживает отдельного разбора: виртуальная камера для автоматического кадрирования. В этой статье я разберу не просто "функцию автокропа", а полноценный алгоритм виртуальной камеры для вертикального видео. Это тот случай, когда задача на первый взгляд кажется простой: есть горизонтальный ролик, нужно сделать 9:16, удержать человека в кадре и не превратить результат в дёрганый автофокус из начала 2010-х. Но как только начинаешь делать это не для демо, а для реального пайплайна, сразу всплывают инженерные проблемы:

https://habr.com/ru/articles/1021278/

#face_tracking #virtual_camera #MediaPipe #YuNet #Haar_Cascade #OpenCV #Shorts #Reels #computer_vision #auto_crop

#auto_crop #computer_vision #reels #shorts #opencv #haar_cascade

Habr @[email protected] · 2026-04-09 · 09:32 UTC

Я научил виртуальную камеру быть оператором: как устроен алгоритм face tracking для Shorts/Reels

В предыдущей статье я подробно рассказывал про свой "аниме завод" — пайплайн, который автоматически превращает эпизоды в готовые Shorts. Но внутри этой системы есть один особенно важный узел, который заслуживает отдельного разбора: виртуальная камера для автоматического кадрирования. В этой статье я разберу не просто "функцию автокропа", а полноценный алгоритм виртуальной камеры для вертикального видео. Это тот случай, когда задача на первый взгляд кажется простой: есть горизонтальный ролик, нужно сделать 9:16, удержать человека в кадре и не превратить результат в дёрганый автофокус из начала 2010-х. Но как только начинаешь делать это не для демо, а для реального пайплайна, сразу всплывают инженерные проблемы:

https://habr.com/ru/articles/1021278/

#face_tracking #virtual_camera #MediaPipe #YuNet #Haar_Cascade #OpenCV #Shorts #Reels #computer_vision #auto_crop

#face_tracking #virtual_camera #mediapipe #yunet #haar_cascade #opencv

Habr @[email protected] · 2026-04-08 · 03:02 UTC

[Перевод] Аугментация ограничивающих боксов в детекции: форматы, `BboxParams` и типичные ошибки

Когда аугментации в детекции «не работают», проблема часто не в модели, а в bbox после преобразований. Неверный coord_format , перепутанные нормализованные и абсолютные координаты, агрессивные кропы, пустые боксы после фильтрации — всё это не ломает код, но quietly ломает обучение. В статье разбираю: — какие форматы bbox поддерживает Albumentations — как правильно настраивать A.BboxParams — когда использовать min_area и min_visibility — почему обычный RandomCrop часто плохая идея для detection — и где пайплайн чаще всего ломается на практике Если вы работаете с COCO , YOLO , pascal_voc или просто хотите перестать обучать модель на испорченной разметке — этот материал для вас.

https://habr.com/ru/articles/1020618/

#albumentations #bounding_boxes #object_detection #computer_vision #data_augmentation #bbox #coco #yolo #python #deep_learning

#deep_learning #python #yolo #coco #bbox #data_augmentation

Habr @[email protected] · 2026-04-08 · 03:02 UTC

[Перевод] Аугментация ограничивающих боксов в детекции: форматы, `BboxParams` и типичные ошибки

Когда аугментации в детекции «не работают», проблема часто не в модели, а в bbox после преобразований. Неверный coord_format , перепутанные нормализованные и абсолютные координаты, агрессивные кропы, пустые боксы после фильтрации — всё это не ломает код, но quietly ломает обучение. В статье разбираю: — какие форматы bbox поддерживает Albumentations — как правильно настраивать A.BboxParams — когда использовать min_area и min_visibility — почему обычный RandomCrop часто плохая идея для detection — и где пайплайн чаще всего ломается на практике Если вы работаете с COCO , YOLO , pascal_voc или просто хотите перестать обучать модель на испорченной разметке — этот материал для вас.

https://habr.com/ru/articles/1020618/

#albumentations #bounding_boxes #object_detection #computer_vision #data_augmentation #bbox #coco #yolo #python #deep_learning

#deep_learning #python #yolo #coco #bbox #data_augmentation

Habr @[email protected] · 2026-04-08 · 03:02 UTC

[Перевод] Аугментация ограничивающих боксов в детекции: форматы, `BboxParams` и типичные ошибки

Когда аугментации в детекции «не работают», проблема часто не в модели, а в bbox после преобразований. Неверный coord_format , перепутанные нормализованные и абсолютные координаты, агрессивные кропы, пустые боксы после фильтрации — всё это не ломает код, но quietly ломает обучение. В статье разбираю: — какие форматы bbox поддерживает Albumentations — как правильно настраивать A.BboxParams — когда использовать min_area и min_visibility — почему обычный RandomCrop часто плохая идея для detection — и где пайплайн чаще всего ломается на практике Если вы работаете с COCO , YOLO , pascal_voc или просто хотите перестать обучать модель на испорченной разметке — этот материал для вас.

https://habr.com/ru/articles/1020618/

#albumentations #bounding_boxes #object_detection #computer_vision #data_augmentation #bbox #coco #yolo #python #deep_learning

#deep_learning #python #yolo #coco #bbox #data_augmentation

Habr @[email protected] · 2026-04-08 · 03:02 UTC

[Перевод] Аугментация ограничивающих боксов в детекции: форматы, `BboxParams` и типичные ошибки

Когда аугментации в детекции «не работают», проблема часто не в модели, а в bbox после преобразований. Неверный coord_format , перепутанные нормализованные и абсолютные координаты, агрессивные кропы, пустые боксы после фильтрации — всё это не ломает код, но quietly ломает обучение. В статье разбираю: — какие форматы bbox поддерживает Albumentations — как правильно настраивать A.BboxParams — когда использовать min_area и min_visibility — почему обычный RandomCrop часто плохая идея для detection — и где пайплайн чаще всего ломается на практике Если вы работаете с COCO , YOLO , pascal_voc или просто хотите перестать обучать модель на испорченной разметке — этот материал для вас.

https://habr.com/ru/articles/1020618/

#albumentations #bounding_boxes #object_detection #computer_vision #data_augmentation #bbox #coco #yolo #python #deep_learning

#albumentations #bounding_boxes #object_detection #computer_vision #data_augmentation #bbox

Habr @[email protected] · 2026-04-06 · 14:32 UTC

WACV 2026 в Тусоне: конференция, пустыня и немного экзистенции

Привет, Хабр! Я — Максим Куркин из лаборатории FusionBrain AIRI. Когда мне сказали «поедешь на WACV», первая мысль была — отлично, конференция. Вторая мысль — Тусон, Аризона. Пустыня Сонора. Кактусы‑сагуаро высотой с двухэтажный дом. +25°C в начале марта, когда в Москве ещё лежит снег. Круто! В итоге я провёл в командировке девять дней — с 5 по 13 марта. Два дня дороги в каждую сторону, пять дней конференции, немного пустыни вокруг. Поездка получилась насыщенной: и по науке, и по ощущениям, и очень хочется поделиться увиденным!

https://habr.com/ru/companies/airi/articles/1018010/

#WACV_2026 #Computer_Vision #Машинное_обучение #Искусственный_интеллект #Конференции #Vision_Encoders #Deep_Learning #Интерпретируемость_нейросетей #VLM

#vlm #интерпретируемость_нейросетей #deep_learning #vision_encoders #конференции #искусственный_интеллект

Habr @[email protected] · 2026-04-06 · 14:32 UTC

WACV 2026 в Тусоне: конференция, пустыня и немного экзистенции

Привет, Хабр! Я — Максим Куркин из лаборатории FusionBrain AIRI. Когда мне сказали «поедешь на WACV», первая мысль была — отлично, конференция. Вторая мысль — Тусон, Аризона. Пустыня Сонора. Кактусы‑сагуаро высотой с двухэтажный дом. +25°C в начале марта, когда в Москве ещё лежит снег. Круто! В итоге я провёл в командировке девять дней — с 5 по 13 марта. Два дня дороги в каждую сторону, пять дней конференции, немного пустыни вокруг. Поездка получилась насыщенной: и по науке, и по ощущениям, и очень хочется поделиться увиденным!

https://habr.com/ru/companies/airi/articles/1018010/

#WACV_2026 #Computer_Vision #Машинное_обучение #Искусственный_интеллект #Конференции #Vision_Encoders #Deep_Learning #Интерпретируемость_нейросетей #VLM

#vlm #интерпретируемость_нейросетей #deep_learning #vision_encoders #конференции #искусственный_интеллект

Habr @[email protected] · 2026-04-06 · 14:32 UTC

WACV 2026 в Тусоне: конференция, пустыня и немного экзистенции

Привет, Хабр! Я — Максим Куркин из лаборатории FusionBrain AIRI. Когда мне сказали «поедешь на WACV», первая мысль была — отлично, конференция. Вторая мысль — Тусон, Аризона. Пустыня Сонора. Кактусы‑сагуаро высотой с двухэтажный дом. +25°C в начале марта, когда в Москве ещё лежит снег. Круто! В итоге я провёл в командировке девять дней — с 5 по 13 марта. Два дня дороги в каждую сторону, пять дней конференции, немного пустыни вокруг. Поездка получилась насыщенной: и по науке, и по ощущениям, и очень хочется поделиться увиденным!

https://habr.com/ru/companies/airi/articles/1018010/

#WACV_2026 #Computer_Vision #Машинное_обучение #Искусственный_интеллект #Конференции #Vision_Encoders #Deep_Learning #Интерпретируемость_нейросетей #VLM

#vlm #интерпретируемость_нейросетей #deep_learning #vision_encoders #конференции #искусственный_интеллект

Habr @[email protected] · 2026-04-06 · 14:32 UTC

WACV 2026 в Тусоне: конференция, пустыня и немного экзистенции

Привет, Хабр! Я — Максим Куркин из лаборатории FusionBrain AIRI. Когда мне сказали «поедешь на WACV», первая мысль была — отлично, конференция. Вторая мысль — Тусон, Аризона. Пустыня Сонора. Кактусы‑сагуаро высотой с двухэтажный дом. +25°C в начале марта, когда в Москве ещё лежит снег. Круто! В итоге я провёл в командировке девять дней — с 5 по 13 марта. Два дня дороги в каждую сторону, пять дней конференции, немного пустыни вокруг. Поездка получилась насыщенной: и по науке, и по ощущениям, и очень хочется поделиться увиденным!

https://habr.com/ru/companies/airi/articles/1018010/

#WACV_2026 #Computer_Vision #Машинное_обучение #Искусственный_интеллект #Конференции #Vision_Encoders #Deep_Learning #Интерпретируемость_нейросетей #VLM

#wacv_2026 #computer_vision #машинное_обучение #искусственный_интеллект #конференции #vision_encoders

Habr @[email protected] · 2026-04-02 · 07:02 UTC

Как мы научили CatBoost находить борщевик на спутниковых снимках

С 1 марта 2026 года владельцы участков обязаны контролировать распространение борщевика Сосновского на законодательном уровне. Основным инструментом мониторинга стали спутниковые снимки, поскольку на них можно быстро обнаруживать очаги распространения борщевика на больших площадях. Однако ручное картографирование огромных территорий по снимкам с воздуха — процесс дорогой и плохо масштабируемый. Меня зовут Сергей Кукуруз, я руковожу ML‑проектами в центре технологий для общества Yandex Cloud. В этой статье расскажу, как мы совместно со студентами Школы анализа данных (ШАД), а также с движением добровольцев «СтопБорщевик» автоматизировали этот процесс с помощью машинного обучения. Мы подробно разберём технический пайплайн: от нормализации GeoTIFF‑файлов и извлечения признаков (индекс CIVE) до обучения модели в CatBoost. Я расскажу, почему для классификации объектов на спутниковых снимках градиентный бустинг зачастую эффективнее нейросетей, и как применить этот стек для поиска любых объектов — от лесных вырубок до руин крепостей. Собственный дата‑центр не потребуется, это можно сделать в домашних условиях — главное, чтобы у вас было достаточно спутниковых снимков для разметки данных:) Кому любопытно — добро пожаловать под кат!

https://habr.com/ru/companies/yandex/articles/1017876/

#computer_vision #data_science #экология #борщевик #ml #ai #ии #catboost

#catboost #ии #ai #ml #борщевик #экология

Habr @[email protected] · 2026-04-02 · 07:02 UTC

Как мы научили CatBoost находить борщевик на спутниковых снимках

С 1 марта 2026 года владельцы участков обязаны контролировать распространение борщевика Сосновского на законодательном уровне. Основным инструментом мониторинга стали спутниковые снимки, поскольку на них можно быстро обнаруживать очаги распространения борщевика на больших площадях. Однако ручное картографирование огромных территорий по снимкам с воздуха — процесс дорогой и плохо масштабируемый. Меня зовут Сергей Кукуруз, я руковожу ML‑проектами в центре технологий для общества Yandex Cloud. В этой статье расскажу, как мы совместно со студентами Школы анализа данных (ШАД), а также с движением добровольцев «СтопБорщевик» автоматизировали этот процесс с помощью машинного обучения. Мы подробно разберём технический пайплайн: от нормализации GeoTIFF‑файлов и извлечения признаков (индекс CIVE) до обучения модели в CatBoost. Я расскажу, почему для классификации объектов на спутниковых снимках градиентный бустинг зачастую эффективнее нейросетей, и как применить этот стек для поиска любых объектов — от лесных вырубок до руин крепостей. Собственный дата‑центр не потребуется, это можно сделать в домашних условиях — главное, чтобы у вас было достаточно спутниковых снимков для разметки данных:) Кому любопытно — добро пожаловать под кат!

https://habr.com/ru/companies/yandex/articles/1017876/

#computer_vision #data_science #экология #борщевик #ml #ai #ии #catboost

#catboost #ии #ai #ml #борщевик #экология

Habr @[email protected] · 2026-04-02 · 07:02 UTC

Как мы научили CatBoost находить борщевик на спутниковых снимках

С 1 марта 2026 года владельцы участков обязаны контролировать распространение борщевика Сосновского на законодательном уровне. Основным инструментом мониторинга стали спутниковые снимки, поскольку на них можно быстро обнаруживать очаги распространения борщевика на больших площадях. Однако ручное картографирование огромных территорий по снимкам с воздуха — процесс дорогой и плохо масштабируемый. Меня зовут Сергей Кукуруз, я руковожу ML‑проектами в центре технологий для общества Yandex Cloud. В этой статье расскажу, как мы совместно со студентами Школы анализа данных (ШАД), а также с движением добровольцев «СтопБорщевик» автоматизировали этот процесс с помощью машинного обучения. Мы подробно разберём технический пайплайн: от нормализации GeoTIFF‑файлов и извлечения признаков (индекс CIVE) до обучения модели в CatBoost. Я расскажу, почему для классификации объектов на спутниковых снимках градиентный бустинг зачастую эффективнее нейросетей, и как применить этот стек для поиска любых объектов — от лесных вырубок до руин крепостей. Собственный дата‑центр не потребуется, это можно сделать в домашних условиях — главное, чтобы у вас было достаточно спутниковых снимков для разметки данных:) Кому любопытно — добро пожаловать под кат!

https://habr.com/ru/companies/yandex/articles/1017876/

#computer_vision #data_science #экология #борщевик #ml #ai #ии #catboost

#catboost #ии #ai #ml #борщевик #экология

Habr @[email protected] · 2026-04-02 · 07:02 UTC

Как мы научили CatBoost находить борщевик на спутниковых снимках

С 1 марта 2026 года владельцы участков обязаны контролировать распространение борщевика Сосновского на законодательном уровне. Основным инструментом мониторинга стали спутниковые снимки, поскольку на них можно быстро обнаруживать очаги распространения борщевика на больших площадях. Однако ручное картографирование огромных территорий по снимкам с воздуха — процесс дорогой и плохо масштабируемый. Меня зовут Сергей Кукуруз, я руковожу ML‑проектами в центре технологий для общества Yandex Cloud. В этой статье расскажу, как мы совместно со студентами Школы анализа данных (ШАД), а также с движением добровольцев «СтопБорщевик» автоматизировали этот процесс с помощью машинного обучения. Мы подробно разберём технический пайплайн: от нормализации GeoTIFF‑файлов и извлечения признаков (индекс CIVE) до обучения модели в CatBoost. Я расскажу, почему для классификации объектов на спутниковых снимках градиентный бустинг зачастую эффективнее нейросетей, и как применить этот стек для поиска любых объектов — от лесных вырубок до руин крепостей. Собственный дата‑центр не потребуется, это можно сделать в домашних условиях — главное, чтобы у вас было достаточно спутниковых снимков для разметки данных:) Кому любопытно — добро пожаловать под кат!

https://habr.com/ru/companies/yandex/articles/1017876/

#computer_vision #data_science #экология #борщевик #ml #ai #ии #catboost

#computer_vision #data_science #экология #борщевик #ml #ai

Habr @[email protected] · 2026-03-31 · 09:02 UTC

Как мы автоматизировали модерацию карточек товаров с помощью Computer Vision в Wildberries

Привет! Я Дмитрий Колесников, Team Lead DS-команды «Платформа модерации» в Wildberries & Russ. В этой статье по мотивам моего доклада на HighLoad расскажу, как у нас получилось превратить сотни Computer Vision моделей в единый масштабируемый пайплайн, который ежедневно обрабатывает 15 млн карточек товаров (50+ млн изображений и 500K видео).

https://habr.com/ru/companies/oleg-bunin/articles/992716/

#ml #machine_learning #data_science #cv #computer_vision #компьютерное_зрение #tritoninferenceserver #highload #wildberries #moderation

#moderation #wildberries #highload #tritoninferenceserver #компьютерное_зрение #computer_vision

Habr @[email protected] · 2026-03-31 · 09:02 UTC

Как мы автоматизировали модерацию карточек товаров с помощью Computer Vision в Wildberries

Привет! Я Дмитрий Колесников, Team Lead DS-команды «Платформа модерации» в Wildberries & Russ. В этой статье по мотивам моего доклада на HighLoad расскажу, как у нас получилось превратить сотни Computer Vision моделей в единый масштабируемый пайплайн, который ежедневно обрабатывает 15 млн карточек товаров (50+ млн изображений и 500K видео).

https://habr.com/ru/companies/oleg-bunin/articles/992716/

#ml #machine_learning #data_science #cv #computer_vision #компьютерное_зрение #tritoninferenceserver #highload #wildberries #moderation

#moderation #wildberries #highload #tritoninferenceserver #компьютерное_зрение #computer_vision

Habr @[email protected] · 2026-03-31 · 09:02 UTC

Как мы автоматизировали модерацию карточек товаров с помощью Computer Vision в Wildberries

Привет! Я Дмитрий Колесников, Team Lead DS-команды «Платформа модерации» в Wildberries & Russ. В этой статье по мотивам моего доклада на HighLoad расскажу, как у нас получилось превратить сотни Computer Vision моделей в единый масштабируемый пайплайн, который ежедневно обрабатывает 15 млн карточек товаров (50+ млн изображений и 500K видео).

https://habr.com/ru/companies/oleg-bunin/articles/992716/

#ml #machine_learning #data_science #cv #computer_vision #компьютерное_зрение #tritoninferenceserver #highload #wildberries #moderation

#moderation #wildberries #highload #tritoninferenceserver #компьютерное_зрение #computer_vision