#dinov2 — Public Fediverse posts on home.social

Habr @[email protected] · 2026-07-16 · 08:22 UTC

[Перевод] Собираем 3D-сканер комнаты из телефона, SAM, CLIP и DINOv2

Привет, «Хабр»! Представляю вашему вниманию практическое руководство по созданию умной 3D-модели комнаты из обычного видео на телефоне. Что делать, если нужно спроектировать мебель для комнаты, но жутко не хочется возиться с рулеткой и делать замеры вручную? Можно взять смартфон, наспех отснять пространство и позволить алгоритмам сделать всю рутину за вас. В статье подробно описывается, как вдохнуть семантический смысл в облако точек, масштабировать его под реальные метры и получить чертеж, не обучив при этом ни одной нейросети. Нейросети в процессе не обучались заново, в ход идут готовые модели – SAM, CLIP и DINOv2. Весь фокус в том, как их правильно оркестровать.

https://habr.com/ru/companies/timeweb/articles/1055164/

#3Dсканирование #фотограмметрия #SAM #CLIP #DINOv2 #NumPy #timeweb_статьи_перевод

#timeweb_статьи_перевод #numpy #dinov2 #clip #sam #фотограмметрия

Habr @[email protected] · 2026-05-13 · 11:12 UTC

Как мы довели поиск товаров по изображению до 98% совпадений: FastAPI, DINOv2, Qdrant и поиск на фото полки

Поиск товара по изображению кажется простой задачей — ровно до момента, пока не сталкиваешься с реальным каталогом . В теории все выглядит аккуратно: берем фото, считаем embedding, ищем ближайшие вектора, возвращаем совпадения. На практике начинаются нюансы: у товара несколько изображений, ракурсы отличаются, фон мешает, каталог обновляется постоянно, а бизнес ждет не исследовательский прототип, а сервис, который можно поставить в production. С вами старший программист в Fix Price Константин Репин. И в этом материале разберу, как мы строили сервис визуального поиска товаров, какие инженерные решения реально повлияли на качество и почему текущий результат в 98% совпадений получился не из-за одной удачной модели, а из-за правильно собранного пайплайна.

https://habr.com/ru/companies/fix_price/articles/1034664/

#поиск_товаров #FastAPI #dinov2 #qdrant #визуальные_эмбеддинги #векторный_поиск

#векторный_поиск #визуальные_эмбеддинги #qdrant #dinov2 #fastapi #поиск_товаров

Habr @[email protected] · 2026-03-09 · 09:52 UTC

Наш «домашний» НИИ обошёл DINOv2, ViT и десятки ML‑моделей в сегментации видео

Мы открыли и разрабатываем новый способ обработки информации - TAPe (Theory of Active Perception, Теория активного восприятия). Работаем над ней давно, результаты мягко говоря впечатляющие, постепенно начинаем ими делиться. Немного писали о Теории на Хабре здесь . Исторически мы начали именно с обработки видео (когда-нибудь об этом расскажем). В этой статье покажем результаты сравнения разных методов обработки видео (гистограммы, Фурье, структурной похожести, ML-модели) и TAPe в задаче сегментации видео. TAPe в области компьютерного зрения - это Майк Тайсон и/или Майкл Джордан среди любителей (хорошо, еще не Майк Тайсон, но уже вполне себе Рокки Бальбоа). На фоне методов Теории даже супер прокаченные модели на стероидах растерянно сидят в углу ринга. (Ладно, пока что это все влажные мечты, мы даже еще не вышли толком на ринг; но, как мы помним, главное – это величие замысла). Читать как лажают ML с видео

https://habr.com/ru/articles/1007128/

#машинное_обучение #искусственный_интеллект #dbscan #dinov2 #computer_vision #фурье #sobel #гистограммы #гистограмма_направленных_градиентов #cnn

#cnn #гистограмма_направленных_градиентов #гистограммы #sobel #фурье #computer_vision

Habr @[email protected] · 2026-02-28 · 05:22 UTC

TAPe + ML: универсальная архитектура компьютерного зрения вместо патчей и «сырых» пикселей

Современные модели компьютерного зрения впечатляют результатами, но цена очевидна: огромные датасеты, тяжелые архитектуры, тысячи GPU и недели или месяцы обучения. При этом значительная часть вычислений уходит на то, чтобы сначала разрушить структуру данных, а потом попытаться восстановить ее из патчей. В этой статье мы даем высокоуровневый технический обзор архитектуры T+ML , которая работает не с сырыми пикселями, а с элементами TAPe (Theory of Active Perception). Модель, благодаря TAPe, сразу видит структурированные «строительные блоки» с известными связями и решает задачу, опираясь на них, а не на статичные произвольные патчи. Ниже — чем этот подход отличается от трансформеров и CNN, какие задачи он покрывает и что показывают первые эксперименты. Поразиться и не поверить

https://habr.com/ru/articles/1004788/

#ml #машинное_обучение #компьютерное_зрение #трансформеры #cnn #dino #dinov2 #dinov3 #искусственный_интеллект #исследование

#исследование #искусственный_интеллект #dinov3 #dinov2 #dino #cnn

Habr @[email protected] · 2026-01-18 · 16:42 UTC

Как сравниваются изображения — от MSE до Dino

Моя страсть к накопительству картинок зародилась еще в эпоху диалапа, когда каждый JPEG проявлялся построчно под писк и скрежет модема, а бэкап стянутых с BBS цифровых сокровищ на дискету напоминал ритуал. С тех пор куча скарба разрослась до масштабов домашнего дата‑центра: здесь доисторические смишные мемы, тонны диснеевского клипарта, сканы журналов, галереи фанарта от известных в узких кругах артоделов, масса неотсортированного фототреша из собственных поездок, картинки природы и красоток, порция клубнички, шедевры CGI, нейроарт и фотографии Элизабет Уинстон. Проблема в том, что весь этот терабайтный зоопарк из разных разрешений, битности и форматов — абсолютно неструктурированная свалка, и попытка найти нужное превращается в квест «убей свои выходные». По мере роста коллекции я пробовал подряд все костыли, которые лучшие умы изобретали для сравнения изображений. В этой статье я пройдусь по эволюционной цепочке: от одноклеточных хэш‑сумм до венца творения — свежесобранного монстра DINOv3. Объять необъятное не выйдет — по каждому методу сравнения можно катать лонгрид иллюстрациями и с примерами кода (что, возможно, и сделаю, если меня не закидают жжёными тряпками). Но сейчас попробую изложить суть: как метод устроен, когда он тащит, а когда выдает откровенный бред. Поехали

https://habr.com/ru/articles/986360/

#hash #sift #dinov2 #moments #histogram #oklab #rgb #orb #сравнение_изображений

#сравнение_изображений #orb #rgb #oklab #histogram #moments

Habr @[email protected] · 2024-01-18 · 15:32 UTC

«Пора ли гнать на мороз Computer Vision — scientist'ов ?» (Fondation Models и вокруг)

Прошлый год в Computer Vision запомнился тем, что появилось множество больших претрейненных сетей (Fondation Models). Самая известная - GPT4v (ChatGPT с обработкой изображений). В статье я попробую простым языком объяснить что это такое (для тех кто пропустил), как меняет индустрию. Какие задачи стало проще решать. Какие продукты появились в последнее время и появятся в будущем. И можно ли уже выгнать на мороз лишних "ресерчеров"?!

https://habr.com/ru/companies/recognitor/articles/786646/

#нейронные_сети #computer_vision #clip #dinov2 #машинное_зрениее #IJepa #InternImages #InternVideo #мультимодальные_модели #Fondation_Models

#fondation_models #мультимодальные_модели #internvideo #internimages #ijepa #машинное_зрениее

InfoQ @[email protected] · 2023-05-25 · 04:43 UTC

Get acquainted with #DINOv2 - a foundation model for #ComputerVision tasks.

DINOv2 is pre-trained on a curated dataset of 142M images and can be used as a backbone for several tasks. Read #InfoQ to learn more: https://bit.ly/3IEzbO3

#opensource #AI #ML #DeepLearning

#dinov2 #computervision #infoq #opensource #ai #ml

InfoQ @infoq · 2023-05-25 · 04:43 UTC

Get acquainted with #DINOv2 - a foundation model for #ComputerVision tasks.

DINOv2 is pre-trained on a curated dataset of 142M images and can be used as a backbone for several tasks. Read #InfoQ to learn more: https://bit.ly/3IEzbO3

#opensource #AI #ML #DeepLearning

#dinov2 #computervision #infoq #opensource #ai #ml