home.social

#dinov2 — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #dinov2, aggregated by home.social.

  1. Как мы довели поиск товаров по изображению до 98% совпадений: FastAPI, DINOv2, Qdrant и поиск на фото полки

    Поиск товара по изображению кажется простой задачей — ровно до момента, пока не сталкиваешься с реальным каталогом . В теории все выглядит аккуратно: берем фото, считаем embedding, ищем ближайшие вектора, возвращаем совпадения. На практике начинаются нюансы: у товара несколько изображений, ракурсы отличаются, фон мешает, каталог обновляется постоянно, а бизнес ждет не исследовательский прототип, а сервис, который можно поставить в production. С вами старший программист в Fix Price Константин Репин. И в этом материале разберу, как мы строили сервис визуального поиска товаров, какие инженерные решения реально повлияли на качество и почему текущий результат в 98% совпадений получился не из-за одной удачной модели, а из-за правильно собранного пайплайна.

    habr.com/ru/companies/fix_pric

    #поиск_товаров #FastAPI #dinov2 #qdrant #визуальные_эмбеддинги #векторный_поиск

  2. Наш «домашний» НИИ обошёл DINOv2, ViT и десятки ML‑моделей в сегментации видео

    Мы открыли и разрабатываем новый способ обработки информации - TAPe (Theory of Active Perception, Теория активного восприятия). Работаем над ней давно, результаты мягко говоря впечатляющие, постепенно начинаем ими делиться. Немного писали о Теории на Хабре здесь . Исторически мы начали именно с обработки видео (когда-нибудь об этом расскажем). В этой статье покажем результаты сравнения разных методов обработки видео (гистограммы, Фурье, структурной похожести, ML-модели) и TAPe в задаче сегментации видео. TAPe в области компьютерного зрения - это Майк Тайсон и/или Майкл Джордан среди любителей (хорошо, еще не Майк Тайсон, но уже вполне себе Рокки Бальбоа). На фоне методов Теории даже супер прокаченные модели на стероидах растерянно сидят в углу ринга. (Ладно, пока что это все влажные мечты, мы даже еще не вышли толком на ринг; но, как мы помним, главное – это величие замысла). Читать как лажают ML с видео

    habr.com/ru/articles/1007128/

    #машинное_обучение #искусственный_интеллект #dbscan #dinov2 #computer_vision #фурье #sobel #гистограммы #гистограмма_направленных_градиентов #cnn

  3. TAPe + ML: универсальная архитектура компьютерного зрения вместо патчей и «сырых» пикселей

    Современные модели компьютерного зрения впечатляют результатами, но цена очевидна: огромные датасеты, тяжелые архитектуры, тысячи GPU и недели или месяцы обучения. При этом значительная часть вычислений уходит на то, чтобы сначала разрушить структуру данных, а потом попытаться восстановить ее из патчей. В этой статье мы даем высокоуровневый технический обзор архитектуры T+ML , которая работает не с сырыми пикселями, а с элементами TAPe (Theory of Active Perception). Модель, благодаря TAPe, сразу видит структурированные «строительные блоки» с известными связями и решает задачу, опираясь на них, а не на статичные произвольные патчи. Ниже — чем этот подход отличается от трансформеров и CNN, какие задачи он покрывает и что показывают первые эксперименты. Поразиться и не поверить

    habr.com/ru/articles/1004788/

    #ml #машинное_обучение #компьютерное_зрение #трансформеры #cnn #dino #dinov2 #dinov3 #искусственный_интеллект #исследование

  4. TAPe + ML: универсальная архитектура компьютерного зрения вместо патчей и «сырых» пикселей

    Современные модели компьютерного зрения впечатляют результатами, но цена очевидна: огромные датасеты, тяжелые архитектуры, тысячи GPU и недели или месяцы обучения. При этом значительная часть вычислений уходит на то, чтобы сначала разрушить структуру данных, а потом попытаться восстановить ее из патчей. В этой статье мы даем высокоуровневый технический обзор архитектуры T+ML , которая работает не с сырыми пикселями, а с элементами TAPe (Theory of Active Perception). Модель, благодаря TAPe, сразу видит структурированные «строительные блоки» с известными связями и решает задачу, опираясь на них, а не на статичные произвольные патчи. Ниже — чем этот подход отличается от трансформеров и CNN, какие задачи он покрывает и что показывают первые эксперименты. Поразиться и не поверить

    habr.com/ru/articles/1004788/

    #ml #машинное_обучение #компьютерное_зрение #трансформеры #cnn #dino #dinov2 #dinov3 #искусственный_интеллект #исследование

  5. TAPe + ML: универсальная архитектура компьютерного зрения вместо патчей и «сырых» пикселей

    Современные модели компьютерного зрения впечатляют результатами, но цена очевидна: огромные датасеты, тяжелые архитектуры, тысячи GPU и недели или месяцы обучения. При этом значительная часть вычислений уходит на то, чтобы сначала разрушить структуру данных, а потом попытаться восстановить ее из патчей. В этой статье мы даем высокоуровневый технический обзор архитектуры T+ML , которая работает не с сырыми пикселями, а с элементами TAPe (Theory of Active Perception). Модель, благодаря TAPe, сразу видит структурированные «строительные блоки» с известными связями и решает задачу, опираясь на них, а не на статичные произвольные патчи. Ниже — чем этот подход отличается от трансформеров и CNN, какие задачи он покрывает и что показывают первые эксперименты. Поразиться и не поверить

    habr.com/ru/articles/1004788/

    #ml #машинное_обучение #компьютерное_зрение #трансформеры #cnn #dino #dinov2 #dinov3 #искусственный_интеллект #исследование

  6. TAPe + ML: универсальная архитектура компьютерного зрения вместо патчей и «сырых» пикселей

    Современные модели компьютерного зрения впечатляют результатами, но цена очевидна: огромные датасеты, тяжелые архитектуры, тысячи GPU и недели или месяцы обучения. При этом значительная часть вычислений уходит на то, чтобы сначала разрушить структуру данных, а потом попытаться восстановить ее из патчей. В этой статье мы даем высокоуровневый технический обзор архитектуры T+ML , которая работает не с сырыми пикселями, а с элементами TAPe (Theory of Active Perception). Модель, благодаря TAPe, сразу видит структурированные «строительные блоки» с известными связями и решает задачу, опираясь на них, а не на статичные произвольные патчи. Ниже — чем этот подход отличается от трансформеров и CNN, какие задачи он покрывает и что показывают первые эксперименты. Поразиться и не поверить

    habr.com/ru/articles/1004788/

    #ml #машинное_обучение #компьютерное_зрение #трансформеры #cnn #dino #dinov2 #dinov3 #искусственный_интеллект #исследование

  7. Как сравниваются изображения — от MSE до Dino

    Моя страсть к накопительству картинок зародилась еще в эпоху диалапа, когда каждый JPEG проявлялся построчно под писк и скрежет модема, а бэкап стянутых с BBS цифровых сокровищ на дискету напоминал ритуал. С тех пор куча скарба разрослась до масштабов домашнего дата‑центра: здесь доисторические смишные мемы, тонны диснеевского клипарта, сканы журналов, галереи фанарта от известных в узких кругах артоделов, масса неотсортированного фототреша из собственных поездок, картинки природы и красоток, порция клубнички, шедевры CGI, нейроарт и фотографии Элизабет Уинстон. Проблема в том, что весь этот терабайтный зоопарк из разных разрешений, битности и форматов — абсолютно неструктурированная свалка, и попытка найти нужное превращается в квест «убей свои выходные». По мере роста коллекции я пробовал подряд все костыли, которые лучшие умы изобретали для сравнения изображений. В этой статье я пройдусь по эволюционной цепочке: от одноклеточных хэш‑сумм до венца творения — свежесобранного монстра DINOv3. Объять необъятное не выйдет — по каждому методу сравнения можно катать лонгрид иллюстрациями и с примерами кода (что, возможно, и сделаю, если меня не закидают жжёными тряпками). Но сейчас попробую изложить суть: как метод устроен, когда он тащит, а когда выдает откровенный бред. Поехали

    habr.com/ru/articles/986360/

    #hash #sift #dinov2 #moments #histogram #oklab #rgb #orb #сравнение_изображений