#dinov2 — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #dinov2, aggregated by home.social.
-
Как мы довели поиск товаров по изображению до 98% совпадений: FastAPI, DINOv2, Qdrant и поиск на фото полки
Поиск товара по изображению кажется простой задачей — ровно до момента, пока не сталкиваешься с реальным каталогом . В теории все выглядит аккуратно: берем фото, считаем embedding, ищем ближайшие вектора, возвращаем совпадения. На практике начинаются нюансы: у товара несколько изображений, ракурсы отличаются, фон мешает, каталог обновляется постоянно, а бизнес ждет не исследовательский прототип, а сервис, который можно поставить в production. С вами старший программист в Fix Price Константин Репин. И в этом материале разберу, как мы строили сервис визуального поиска товаров, какие инженерные решения реально повлияли на качество и почему текущий результат в 98% совпадений получился не из-за одной удачной модели, а из-за правильно собранного пайплайна.
https://habr.com/ru/companies/fix_price/articles/1034664/
#поиск_товаров #FastAPI #dinov2 #qdrant #визуальные_эмбеддинги #векторный_поиск
-
Наш «домашний» НИИ обошёл DINOv2, ViT и десятки ML‑моделей в сегментации видео
Мы открыли и разрабатываем новый способ обработки информации - TAPe (Theory of Active Perception, Теория активного восприятия). Работаем над ней давно, результаты мягко говоря впечатляющие, постепенно начинаем ими делиться. Немного писали о Теории на Хабре здесь . Исторически мы начали именно с обработки видео (когда-нибудь об этом расскажем). В этой статье покажем результаты сравнения разных методов обработки видео (гистограммы, Фурье, структурной похожести, ML-модели) и TAPe в задаче сегментации видео. TAPe в области компьютерного зрения - это Майк Тайсон и/или Майкл Джордан среди любителей (хорошо, еще не Майк Тайсон, но уже вполне себе Рокки Бальбоа). На фоне методов Теории даже супер прокаченные модели на стероидах растерянно сидят в углу ринга. (Ладно, пока что это все влажные мечты, мы даже еще не вышли толком на ринг; но, как мы помним, главное – это величие замысла). Читать как лажают ML с видео
https://habr.com/ru/articles/1007128/
#машинное_обучение #искусственный_интеллект #dbscan #dinov2 #computer_vision #фурье #sobel #гистограммы #гистограмма_направленных_градиентов #cnn
-
TAPe + ML: универсальная архитектура компьютерного зрения вместо патчей и «сырых» пикселей
Современные модели компьютерного зрения впечатляют результатами, но цена очевидна: огромные датасеты, тяжелые архитектуры, тысячи GPU и недели или месяцы обучения. При этом значительная часть вычислений уходит на то, чтобы сначала разрушить структуру данных, а потом попытаться восстановить ее из патчей. В этой статье мы даем высокоуровневый технический обзор архитектуры T+ML , которая работает не с сырыми пикселями, а с элементами TAPe (Theory of Active Perception). Модель, благодаря TAPe, сразу видит структурированные «строительные блоки» с известными связями и решает задачу, опираясь на них, а не на статичные произвольные патчи. Ниже — чем этот подход отличается от трансформеров и CNN, какие задачи он покрывает и что показывают первые эксперименты. Поразиться и не поверить
https://habr.com/ru/articles/1004788/
#ml #машинное_обучение #компьютерное_зрение #трансформеры #cnn #dino #dinov2 #dinov3 #искусственный_интеллект #исследование
-
TAPe + ML: универсальная архитектура компьютерного зрения вместо патчей и «сырых» пикселей
Современные модели компьютерного зрения впечатляют результатами, но цена очевидна: огромные датасеты, тяжелые архитектуры, тысячи GPU и недели или месяцы обучения. При этом значительная часть вычислений уходит на то, чтобы сначала разрушить структуру данных, а потом попытаться восстановить ее из патчей. В этой статье мы даем высокоуровневый технический обзор архитектуры T+ML , которая работает не с сырыми пикселями, а с элементами TAPe (Theory of Active Perception). Модель, благодаря TAPe, сразу видит структурированные «строительные блоки» с известными связями и решает задачу, опираясь на них, а не на статичные произвольные патчи. Ниже — чем этот подход отличается от трансформеров и CNN, какие задачи он покрывает и что показывают первые эксперименты. Поразиться и не поверить
https://habr.com/ru/articles/1004788/
#ml #машинное_обучение #компьютерное_зрение #трансформеры #cnn #dino #dinov2 #dinov3 #искусственный_интеллект #исследование
-
TAPe + ML: универсальная архитектура компьютерного зрения вместо патчей и «сырых» пикселей
Современные модели компьютерного зрения впечатляют результатами, но цена очевидна: огромные датасеты, тяжелые архитектуры, тысячи GPU и недели или месяцы обучения. При этом значительная часть вычислений уходит на то, чтобы сначала разрушить структуру данных, а потом попытаться восстановить ее из патчей. В этой статье мы даем высокоуровневый технический обзор архитектуры T+ML , которая работает не с сырыми пикселями, а с элементами TAPe (Theory of Active Perception). Модель, благодаря TAPe, сразу видит структурированные «строительные блоки» с известными связями и решает задачу, опираясь на них, а не на статичные произвольные патчи. Ниже — чем этот подход отличается от трансформеров и CNN, какие задачи он покрывает и что показывают первые эксперименты. Поразиться и не поверить
https://habr.com/ru/articles/1004788/
#ml #машинное_обучение #компьютерное_зрение #трансформеры #cnn #dino #dinov2 #dinov3 #искусственный_интеллект #исследование
-
TAPe + ML: универсальная архитектура компьютерного зрения вместо патчей и «сырых» пикселей
Современные модели компьютерного зрения впечатляют результатами, но цена очевидна: огромные датасеты, тяжелые архитектуры, тысячи GPU и недели или месяцы обучения. При этом значительная часть вычислений уходит на то, чтобы сначала разрушить структуру данных, а потом попытаться восстановить ее из патчей. В этой статье мы даем высокоуровневый технический обзор архитектуры T+ML , которая работает не с сырыми пикселями, а с элементами TAPe (Theory of Active Perception). Модель, благодаря TAPe, сразу видит структурированные «строительные блоки» с известными связями и решает задачу, опираясь на них, а не на статичные произвольные патчи. Ниже — чем этот подход отличается от трансформеров и CNN, какие задачи он покрывает и что показывают первые эксперименты. Поразиться и не поверить
https://habr.com/ru/articles/1004788/
#ml #машинное_обучение #компьютерное_зрение #трансформеры #cnn #dino #dinov2 #dinov3 #искусственный_интеллект #исследование
-
Как сравниваются изображения — от MSE до Dino
Моя страсть к накопительству картинок зародилась еще в эпоху диалапа, когда каждый JPEG проявлялся построчно под писк и скрежет модема, а бэкап стянутых с BBS цифровых сокровищ на дискету напоминал ритуал. С тех пор куча скарба разрослась до масштабов домашнего дата‑центра: здесь доисторические смишные мемы, тонны диснеевского клипарта, сканы журналов, галереи фанарта от известных в узких кругах артоделов, масса неотсортированного фототреша из собственных поездок, картинки природы и красоток, порция клубнички, шедевры CGI, нейроарт и фотографии Элизабет Уинстон. Проблема в том, что весь этот терабайтный зоопарк из разных разрешений, битности и форматов — абсолютно неструктурированная свалка, и попытка найти нужное превращается в квест «убей свои выходные». По мере роста коллекции я пробовал подряд все костыли, которые лучшие умы изобретали для сравнения изображений. В этой статье я пройдусь по эволюционной цепочке: от одноклеточных хэш‑сумм до венца творения — свежесобранного монстра DINOv3. Объять необъятное не выйдет — по каждому методу сравнения можно катать лонгрид иллюстрациями и с примерами кода (что, возможно, и сделаю, если меня не закидают жжёными тряпками). Но сейчас попробую изложить суть: как метод устроен, когда он тащит, а когда выдает откровенный бред. Поехали
https://habr.com/ru/articles/986360/
#hash #sift #dinov2 #moments #histogram #oklab #rgb #orb #сравнение_изображений