#поиск — Public Fediverse posts on home.social

Habr @[email protected] · 2026-05-05 · 08:12 UTC

Прокачиваем локальный поиск на Dart и Flutter

Hola, Amigos! На связи Павел Гершевич, Mobile Team Lead агентства продуктовой разработки Amiga и соавтор книги “Основы Flutter”. Иногда нужно реализовать поиск по данным без участия бэкенда. Самый простой вариант — обычное вхождение строки — не прощает опечаток. Одна лишняя буква, и поиск выдает пустоту. В статье разберем, как усовершенствовать этот процесс: научим поиск обрабатывать ошибки и сортировать результаты по степени совпадения.

https://habr.com/ru/articles/1031212/

#flutter #dart #dartlang #алгоритмы #нечеткий_поиск #поиск

#поиск #нечеткий_поиск #алгоритмы #dartlang #dart #flutter

Habr @[email protected] · 2026-05-05 · 08:12 UTC

Прокачиваем локальный поиск на Dart и Flutter

Hola, Amigos! На связи Павел Гершевич, Mobile Team Lead агентства продуктовой разработки Amiga и соавтор книги “Основы Flutter”. Иногда нужно реализовать поиск по данным без участия бэкенда. Самый простой вариант — обычное вхождение строки — не прощает опечаток. Одна лишняя буква, и поиск выдает пустоту. В статье разберем, как усовершенствовать этот процесс: научим поиск обрабатывать ошибки и сортировать результаты по степени совпадения.

https://habr.com/ru/articles/1031212/

#flutter #dart #dartlang #алгоритмы #нечеткий_поиск #поиск

#поиск #нечеткий_поиск #алгоритмы #dartlang #dart #flutter

Habr @[email protected] · 2026-05-05 · 08:12 UTC

Прокачиваем локальный поиск на Dart и Flutter

Hola, Amigos! На связи Павел Гершевич, Mobile Team Lead агентства продуктовой разработки Amiga и соавтор книги “Основы Flutter”. Иногда нужно реализовать поиск по данным без участия бэкенда. Самый простой вариант — обычное вхождение строки — не прощает опечаток. Одна лишняя буква, и поиск выдает пустоту. В статье разберем, как усовершенствовать этот процесс: научим поиск обрабатывать ошибки и сортировать результаты по степени совпадения.

https://habr.com/ru/articles/1031212/

#flutter #dart #dartlang #алгоритмы #нечеткий_поиск #поиск

#поиск #нечеткий_поиск #алгоритмы #dartlang #dart #flutter

Habr @[email protected] · 2026-05-05 · 08:12 UTC

Прокачиваем локальный поиск на Dart и Flutter

Hola, Amigos! На связи Павел Гершевич, Mobile Team Lead агентства продуктовой разработки Amiga и соавтор книги “Основы Flutter”. Иногда нужно реализовать поиск по данным без участия бэкенда. Самый простой вариант — обычное вхождение строки — не прощает опечаток. Одна лишняя буква, и поиск выдает пустоту. В статье разберем, как усовершенствовать этот процесс: научим поиск обрабатывать ошибки и сортировать результаты по степени совпадения.

https://habr.com/ru/articles/1031212/

#flutter #dart #dartlang #алгоритмы #нечеткий_поиск #поиск

Habr @[email protected] · 2026-05-04 · 13:12 UTC

Русская рулетка с поиском: почему каждый десятый ответ в AI-выдаче — ложь

ИИ все активнее в повседневных задачах, например стал частью поиска. Google и другие системы генерируют сверху LLM-сводку. Не надо тратить время на выбор ссылок и анализ информации — получаешь всё на блюдечке, даже с понятной версткой. Но все мы знаем, что ИИ выдает несуществующие факты, путает источники и делает некорректные выводы. Насколько часты эти ошибки? И критичны ли? Рассмотрю, откуда они в поиске, на примере Google — только потому, что под руку попалось исследование его точности. Так-то поисковые ИИ-агенты чудят примерно одинаково.

https://habr.com/ru/companies/ru_mts/articles/1031062/

#ошибки #ошибки_ии #поиск #google

#google #поиск #ошибки_ии #ошибки

Habr @[email protected] · 2026-05-04 · 13:12 UTC

Русская рулетка с поиском: почему каждый десятый ответ в AI-выдаче — ложь

ИИ все активнее в повседневных задачах, например стал частью поиска. Google и другие системы генерируют сверху LLM-сводку. Не надо тратить время на выбор ссылок и анализ информации — получаешь всё на блюдечке, даже с понятной версткой. Но все мы знаем, что ИИ выдает несуществующие факты, путает источники и делает некорректные выводы. Насколько часты эти ошибки? И критичны ли? Рассмотрю, откуда они в поиске, на примере Google — только потому, что под руку попалось исследование его точности. Так-то поисковые ИИ-агенты чудят примерно одинаково.

https://habr.com/ru/companies/ru_mts/articles/1031062/

#ошибки #ошибки_ии #поиск #google

#google #поиск #ошибки_ии #ошибки

Habr @[email protected] · 2026-05-04 · 13:12 UTC

Русская рулетка с поиском: почему каждый десятый ответ в AI-выдаче — ложь

ИИ все активнее в повседневных задачах, например стал частью поиска. Google и другие системы генерируют сверху LLM-сводку. Не надо тратить время на выбор ссылок и анализ информации — получаешь всё на блюдечке, даже с понятной версткой. Но все мы знаем, что ИИ выдает несуществующие факты, путает источники и делает некорректные выводы. Насколько часты эти ошибки? И критичны ли? Рассмотрю, откуда они в поиске, на примере Google — только потому, что под руку попалось исследование его точности. Так-то поисковые ИИ-агенты чудят примерно одинаково.

https://habr.com/ru/companies/ru_mts/articles/1031062/

#ошибки #ошибки_ии #поиск #google

#google #поиск #ошибки_ии #ошибки

Habr @[email protected] · 2026-05-04 · 13:12 UTC

Русская рулетка с поиском: почему каждый десятый ответ в AI-выдаче — ложь

ИИ все активнее в повседневных задачах, например стал частью поиска. Google и другие системы генерируют сверху LLM-сводку. Не надо тратить время на выбор ссылок и анализ информации — получаешь всё на блюдечке, даже с понятной версткой. Но все мы знаем, что ИИ выдает несуществующие факты, путает источники и делает некорректные выводы. Насколько часты эти ошибки? И критичны ли? Рассмотрю, откуда они в поиске, на примере Google — только потому, что под руку попалось исследование его точности. Так-то поисковые ИИ-агенты чудят примерно одинаково.

https://habr.com/ru/companies/ru_mts/articles/1031062/

#ошибки #ошибки_ии #поиск #google

Habr @[email protected] · 2026-04-26 · 04:42 UTC

Наглядный пример, зачем нужны агенты

Расскажу историю длиною в полгода, на которой прекрасно прочувствовал все прелести современных инструментов и способов эксплуатации llm. Идея до жути простая и наверняка встречалась или приходила в голову очень многим, кто начинал задумываться об использовании llm api или после знакомства с rag. В августе 2025 года папа предложил мне создать хороший поисковик-анализатор новостей: ты даешь ему список источников и пожелания того, что хочешь увидеть в ответе, он тебе присылает в выбранный интервал сводку с источниками и отвечает на твои вопросы. Казалось бы, классическая задача чтобы показать всем удачное применение rag, словить аплодисменты и разойтись. Так показалось и мне, и я буквально за 1-2 месяца работая в свободное время собрал вполне достойный прототип. Он умел хорошо искать семантически, просить llm сформировать ответ на основе найденных постов и даже помогал их открывать. В мыслях салюты, шампанское и ai единороги. Но реальность Довольно быстро на самотестировании я нашел два серьезных упущения: первое - сложный запрос для такой системы оставался недопустимой роскошью: попытка найти “причины шатдауна правительства США” в лучшем случае приводила меня к заголовкам про Трампа и что-то там про переговоры, а иногда и вовсе такого рода запросы не давали никакой выборки по базе; второй серьезной проблемой стало абсолютное непонимание предметной области, если того же Трампа вектора в базе еще ставят в один ряд с Америкой и политикой, то вот ЦБ РФ может запросто восприниматься как Россия или вообще непонятная модели сущность, а может вообще трактоваться как два отдельных слова. В целом обе эти неприятности подсвечивают один известный изъян всей системы - слишком большое доверие к семантической схожести и вытекающие из нее проблемы: размытие смысла на длинных запросах, непредсказуемое поведение имен собственных, поиск связей по частотному сходству, а не смыслу.

https://habr.com/ru/articles/1027998/

#agent #агент #rag #поиск #память #llm #ai #openclaw

#openclaw #ai #llm #память #поиск #rag

Habr @[email protected] · 2026-04-07 · 07:22 UTC

Как я решил задачу с навязчивым Yahoo в FVD Speed Dial с помощью ИИ

Я давно пользуюсь FVD Speed Dial как основной экспресс‑панелью. Однажды после перенастройки сети (VPN, прокси, DNS) заметил неприятный эффект: любое слово, набранное в строке поиска новой вкладки, всегда улетало в Yahoo. Никаких настроек выбора поисковика в интерфейсе расширения не было — только встроенное поле, жёстко завязанное на внутреннюю логику FVD. Системный поисковик Chrome я менял, но это никак не влияло на поведение FVD Speed Dial: расширение упрямо перенаправляло все запросы в Yahoo.

https://habr.com/ru/articles/1020180/

#google_chrome #speed_dial_FVD #поиск

#поиск #speed_dial_fvd #google_chrome

Habr @[email protected] · 2026-04-04 · 18:52 UTC

Гибридный поиск по коду в GitLab: как я ускорил поиск по 100+ GitLab-проектам с часов до минут

Когда проектов в GitLab становится много, довольно быстро появляется одна и та же задача: найти, где используется конкретный API, URL, env-переменная или конфигурационный параметр. Пока репозиториев мало, всё просто: открыл поиск, ввел строку, получил результат. Но когда проектов уже больше сотни, а нужные вхождения лежат не только в коде, но и в YAML-конфигах, Helm-чартах, .env и JSON-файлах, жизнь становится менее романтичной. Первый лобовой вариант — просто скачать все проекты локально и искать по ним через grep , ripgrep или IDE. Работает, но тащить 100+ репозиториев на локальную машину ради одной проверки — идея так себе. Ноутбук, скорее всего, энтузиазма не разделит. Мне хотелось искать прямо поверх GitLab, без локального зеркала всей группы репозиториев. Я начал с просмотра готовых вариантов, а в итоге пришёл к своему гибридному краулеру: код ищется через GitLab API, а конфиги добираются отдельным глубоким обходом файлов. В результате поиск по 100+ проектам сократился с часов до нескольких минут.

https://habr.com/ru/articles/1019332/

#краулер #поиск #проект #гитлаб

#гитлаб #проект #поиск #краулер

Habr @[email protected] · 2026-03-30 · 20:12 UTC

Убейте это немедленно: делаем худший поиск на рынке

За последние шесть лет я прошёл через дюжину проектов, связанных с поиском. Роднило их немногое, кроме того, что практически в каждом я обнаруживал одни и те же ошибки. Не сговариваясь, разные команды спотыкались в одних и тех же местах. Эта статья — каталог самых живучих ошибок при проектировании поиска, кочующих из проекта в проект. Примеры построены на ElasticSearch, но большинство пунктов применимы к любому поисковому стеку. Статья будет полезна как тем, кто еще не делал поисковых систем и столкнулся с проблемой “чистого листа”, так и тем, кто уже имеет какой-то поиск и нутром чует неладное, но не может понять, что не так. А чтобы было интереснее и веселее, разбирать ошибки мы будем в формате вредных советов, следование которым гарантированно испортит UX ваших пользователей и сделает поиск по вашему ресурсу бесполезным, ненадежным и ужасно дорогим. Поехали!

https://habr.com/ru/articles/1017142/

#поиск #elasticsearch #оптимизация_поиска #поиск_в_интернетмагазине #полнотекстовый_поиск

#полнотекстовый_поиск #поиск_в_интернетмагазине #оптимизация_поиска #elasticsearch #поиск

Habr @[email protected] · 2026-03-26 · 08:32 UTC

Тайны рекламного аукциона в Ozon и как мы приручали VCG

Привет! Меня зовут Дмитрий, я ведущий разработчик в команде рекламного рантайма. Наша команда, как вы уже могли догадаться, занимается разработкой аукционов в поисковой рекламе Ozon. В этой статье я хочу познакомить вас с механикой аукционов и рассказать, как мы делаем это в Ozon. Сначала мы разберёмся, что такое рекламный аукцион, что он имеет общего с аукционом в обычном понимании и как используется в контексте поисковой рекламы. А ещё подробно разберём аукцион типа VCG (аукцион Викри — Кларка — Гровса), вместе выведем формулы для него и посмотрим, какие результаты мы получили на практике.

https://habr.com/ru/companies/ozontech/articles/1014218/

#ozon #поисковая_реклама #рекламный_аукцион #ecommerce #ozon_tech #поиск

#поиск #ozon_tech #ecommerce #рекламный_аукцион #поисковая_реклама #ozon

Habr @[email protected] · 2026-03-23 · 06:02 UTC

Пока другие выбирают архитектуру, поиск по коду в GitVerse уже работает

Поиск по коду — одна из тех функций, ценность которых ощущается мгновенно. Она либо есть и экономит часы, либо её нет — и ты начинаешь открывать файлы вручную, клонировать репозиторий, запускать find или средства своей IDE и вспоминать «где же это было». Мы добавили в GitVerse поиск по коду в репозиториях. и сделали это быстро. Не потому что «срезали углы», а потому что опирались на инструмент, который десятилетиями решает задачу поиска по коду внутри Git: git grep . Пока другие поднимают тяжёлые поисковые платформы, возводят кластеры, строят индексаторы, мы выбрали простое и проверенное решение, которое работает прямо сейчас.

https://habr.com/ru/companies/sberbank/articles/1009350/

#git #gitverse #поиск #grep

#grep #поиск #gitverse #git

Habr @[email protected] · 2026-02-28 · 09:42 UTC

От товара к предложению: как Ozon учитывает цену и доставку в ранжировании

Всем привет! Меня зовут Станислав Ким, я ML-разработчик в команде качества поиска Ozon. В этой статье расскажу, как мы перешли от ранжирования товаров к ранжированию предложений, внедрили «матрицу памяти» для переноса статистики и получили +0,9% к GMV на пользователя. Представьте простую ситуацию. Вы — продавец электроники. Выводите на Ozon новую модель робота-пылесоса. Чтобы ворваться на рынок, вы ставите цену на 20% ниже конкурентов и отгружаете партию на ближайший склад, чтобы доставка была «завтра». Логика подсказывает: алгоритмы увидят выгодное предложение (дёшево + быстро), подкинут товар в топ, и продажи взлетят. Реальность: проходит день, два... а товар висит на 5-й странице выдачи. Потому что для алгоритма ранжирования ваш пылесос — «чистый лист». У него нет истории продаж, нет кликов, нет отзывов. Рядом в топе — конкуренты: они дороже, доставка дольше, но у них есть история: тысячи заказов за прошлый год. Алгоритм «любит» их за накопленную статистику, а ваше выгодное предложение игнорирует — он просто не знает, чего от него ждать. В индустрии эта проблема называется cold start — и с ней сталкиваются все крупные маркетплейсы. Мы поняли, что нужно менять саму парадигму. Наш лозунг: ранжировать не абстрактную карточку товара с её прошлым, а конкретное предложение с его условиями здесь и сейчас.

https://habr.com/ru/companies/ozontech/articles/995840/

#поиск #маркетплейс #ранжирование #machine_learning #рекомендательные_системы #big_data #abтестирование #поисковые_запросы #Ozon #cold_start

#cold_start #ozon #поисковые_запросы #abтестирование #big_data #рекомендательные_системы

Habr @[email protected] · 2026-02-28 · 09:42 UTC

От товара к предложению: как Ozon учитывает цену и доставку в ранжировании

Всем привет! Меня зовут Станислав Ким, я ML-разработчик в команде качества поиска Ozon. В этой статье расскажу, как мы перешли от ранжирования товаров к ранжированию предложений, внедрили «матрицу памяти» для переноса статистики и получили +0,9% к GMV на пользователя. Представьте простую ситуацию. Вы — продавец электроники. Выводите на Ozon новую модель робота-пылесоса. Чтобы ворваться на рынок, вы ставите цену на 20% ниже конкурентов и отгружаете партию на ближайший склад, чтобы доставка была «завтра». Логика подсказывает: алгоритмы увидят выгодное предложение (дёшево + быстро), подкинут товар в топ, и продажи взлетят. Реальность: проходит день, два... а товар висит на 5-й странице выдачи. Потому что для алгоритма ранжирования ваш пылесос — «чистый лист». У него нет истории продаж, нет кликов, нет отзывов. Рядом в топе — конкуренты: они дороже, доставка дольше, но у них есть история: тысячи заказов за прошлый год. Алгоритм «любит» их за накопленную статистику, а ваше выгодное предложение игнорирует — он просто не знает, чего от него ждать. В индустрии эта проблема называется cold start — и с ней сталкиваются все крупные маркетплейсы. Мы поняли, что нужно менять саму парадигму. Наш лозунг: ранжировать не абстрактную карточку товара с её прошлым, а конкретное предложение с его условиями здесь и сейчас.

https://habr.com/ru/companies/ozontech/articles/995840/

#поиск #маркетплейс #ранжирование #machine_learning #рекомендательные_системы #big_data #abтестирование #поисковые_запросы #Ozon #cold_start

#cold_start #ozon #поисковые_запросы #abтестирование #big_data #рекомендательные_системы

Habr @[email protected] · 2026-02-28 · 09:42 UTC

От товара к предложению: как Ozon учитывает цену и доставку в ранжировании

Всем привет! Меня зовут Станислав Ким, я ML-разработчик в команде качества поиска Ozon. В этой статье расскажу, как мы перешли от ранжирования товаров к ранжированию предложений, внедрили «матрицу памяти» для переноса статистики и получили +0,9% к GMV на пользователя. Представьте простую ситуацию. Вы — продавец электроники. Выводите на Ozon новую модель робота-пылесоса. Чтобы ворваться на рынок, вы ставите цену на 20% ниже конкурентов и отгружаете партию на ближайший склад, чтобы доставка была «завтра». Логика подсказывает: алгоритмы увидят выгодное предложение (дёшево + быстро), подкинут товар в топ, и продажи взлетят. Реальность: проходит день, два... а товар висит на 5-й странице выдачи. Потому что для алгоритма ранжирования ваш пылесос — «чистый лист». У него нет истории продаж, нет кликов, нет отзывов. Рядом в топе — конкуренты: они дороже, доставка дольше, но у них есть история: тысячи заказов за прошлый год. Алгоритм «любит» их за накопленную статистику, а ваше выгодное предложение игнорирует — он просто не знает, чего от него ждать. В индустрии эта проблема называется cold start — и с ней сталкиваются все крупные маркетплейсы. Мы поняли, что нужно менять саму парадигму. Наш лозунг: ранжировать не абстрактную карточку товара с её прошлым, а конкретное предложение с его условиями здесь и сейчас.

https://habr.com/ru/companies/ozontech/articles/995840/

#поиск #маркетплейс #ранжирование #machine_learning #рекомендательные_системы #big_data #abтестирование #поисковые_запросы #Ozon #cold_start

#cold_start #ozon #поисковые_запросы #abтестирование #big_data #рекомендательные_системы

Habr @[email protected] · 2026-02-06 · 12:22 UTC

Создание системы по управлению цифровыми активами для базы данных PostGIS. Часть 1. Работа с геометрией объектов

Здравствуйте, уважаемые читателя Хабра! В серии статей хочу рассказать о создании основного функционала MVP (Minimum Value Product) системы по управлению цифровыми активами для базы данных PostGIS. В этой публикации рассмотрим как быстро находить одинаковые и похожие по геометрии объекты среди тысячи таблиц и 300 млн записей. Интересно? Читать!

https://habr.com/ru/articles/993636/

#PostGIS #postgresql #геометрия #геоинформационные_системы #sql #кластеризация #поиск

#поиск #кластеризация #sql #геоинформационные_системы #геометрия #postgresql

Habr @[email protected] · 2026-02-06 · 09:42 UTC

«Найден. Жив»: как передовые технологии помогают находить пропавших людей

Эту историю неизбежно приходится начинать с тревожной статистики. В России ежегодно теряются сотни тысяч человек. Согласно данным МВД, в стране каждый год регистрируют до 180 тысяч заявлений о пропаже людей. Только за первую неделю нового года в добровольческий поисково-спасательный отряд « ЛизаАлерт » поступило больше 300 заявок от родственников и друзей исчезнувших людей. За сухими цифрами — человеческие судьбы, тревожные дни и ночи и всегда надежда на короткую, но предельно емкую фразу, которая для поисковиков и близких пропавших имеет самое важное значение: «Найден. Жив».

https://habr.com/ru/companies/leader-id/articles/993430/

#беспилотники #безопасность #познавательно #поиск #спасение #большие_данные #нейросети #искусственный_интеллект #лиза_алерт

#лиза_алерт #искусственный_интеллект #нейросети #большие_данные #спасение #поиск

Habr @[email protected] · 2026-02-03 · 09:42 UTC

Как часто вы думаете о Римской империи?

Привет, Хабр! Некоторое время назад я заметил, что #архитектура создаваемых решений сама собой структурируетcя в конвейер-пайплайн, например что-то вроде . Термин, кстати, идёт от БЭСМ-6 . У подобных конвейеров управляемость выше, чем у полносвязных клубочков, где связи между компонентами не ограничены, что приводит к неожиданным взаимодействиям. Сейчас я переживаю бурный месяц в клауде. И с клаудами связан один интересный вопрос. Ресурсы в веб-консоли управления собраны по типам: базы, контейнеры, функции, джобы/флоу, бакеты/их фолдеры, и т.п. И возникает проблема навигации среди них. Целый день щёлкаешь по табочкам, ищешь объекты по спискам… (Кстати, надо будет перечитать что-нибудь вроде этого .)

https://habr.com/ru/companies/reksoft/articles/992158/

#архитектура #облака_и_данные #конвейерпайплайн #конвейер #поиск #поисковые_алгоритмы

#поисковые_алгоритмы #поиск #конвейер #конвейерпайплайн #облака_и_данные #архитектура

Habr @[email protected] · 2026-01-30 · 12:42 UTC

Query Prediction, или как мы отказались от ANN и полюбили обратный индекс

Всем привет! Меня зовут Антон Пилькевич, я более четырёх лет занимаюсь ранжированием и текстовой релевантностью в поиске Ozon. И вот настал момент, когда у меня появилось время поделиться своими мыслями. В этой статье вас ждёт увлекательное путешествие в ML-мир текстового поиска Ozon, а также знакомство с флорой и фауной существующих решений в этой области!

https://habr.com/ru/companies/ozontech/articles/990180/

#поиск #machine_learning #deep_learning #big_data #nlp #ozon_tech

#ozon_tech #nlp #big_data #deep_learning #machine_learning #поиск

Habr @[email protected] · 2026-01-23 · 07:22 UTC

Почему ваш RAG не найдёт нужные документы: математический потолок embedding-моделей

Все говорят про embedding-модели в RAG: бенчмарки MTEB, размеры моделей, chunking-стратегии. Но никто не задаёт главный вопрос: а сколько вообще документов может найти single-vector retrieval? Google DeepMind посчитали. Оказалось, что даже 4096-мерные эмбеддинги упираются в математический потолок — есть задачи, где они физически не смогут найти нужный документ из топ-2, даже если модель идеально обучена. В статье разбирается исследование LIMIT, показаны примеры, где dense retrieval проваливается (а BM25 справляется), и объяснено, почему для production-систем нужен гибридный поиск, а не слепая вера в SOTA-эмбеддинги.

https://habr.com/ru/articles/987954/

#RAG #embedding #retrieval #machine_learning #BM25 #поиск #нейросети #векторные_базы_данных

#векторные_базы_данных #нейросети #поиск #bm25 #machine_learning #retrieval

Habr @[email protected] · 2026-01-23 · 07:22 UTC

Почему ваш RAG не найдёт нужные документы: математический потолок embedding-моделей

Все говорят про embedding-модели в RAG: бенчмарки MTEB, размеры моделей, chunking-стратегии. Но никто не задаёт главный вопрос: а сколько вообще документов может найти single-vector retrieval? Google DeepMind посчитали. Оказалось, что даже 4096-мерные эмбеддинги упираются в математический потолок — есть задачи, где они физически не смогут найти нужный документ из топ-2, даже если модель идеально обучена. В статье разбирается исследование LIMIT, показаны примеры, где dense retrieval проваливается (а BM25 справляется), и объяснено, почему для production-систем нужен гибридный поиск, а не слепая вера в SOTA-эмбеддинги.

https://habr.com/ru/articles/987954/

#RAG #embedding #retrieval #machine_learning #BM25 #поиск #нейросети #векторные_базы_данных

#векторные_базы_данных #нейросети #поиск #bm25 #machine_learning #retrieval

Habr @[email protected] · 2026-01-23 · 07:22 UTC

Почему ваш RAG не найдёт нужные документы: математический потолок embedding-моделей

Все говорят про embedding-модели в RAG: бенчмарки MTEB, размеры моделей, chunking-стратегии. Но никто не задаёт главный вопрос: а сколько вообще документов может найти single-vector retrieval? Google DeepMind посчитали. Оказалось, что даже 4096-мерные эмбеддинги упираются в математический потолок — есть задачи, где они физически не смогут найти нужный документ из топ-2, даже если модель идеально обучена. В статье разбирается исследование LIMIT, показаны примеры, где dense retrieval проваливается (а BM25 справляется), и объяснено, почему для production-систем нужен гибридный поиск, а не слепая вера в SOTA-эмбеддинги.

https://habr.com/ru/articles/987954/

#RAG #embedding #retrieval #machine_learning #BM25 #поиск #нейросети #векторные_базы_данных

#векторные_базы_данных #нейросети #поиск #bm25 #machine_learning #retrieval

Habr @[email protected] · 2026-01-23 · 07:22 UTC

Почему ваш RAG не найдёт нужные документы: математический потолок embedding-моделей

Все говорят про embedding-модели в RAG: бенчмарки MTEB, размеры моделей, chunking-стратегии. Но никто не задаёт главный вопрос: а сколько вообще документов может найти single-vector retrieval? Google DeepMind посчитали. Оказалось, что даже 4096-мерные эмбеддинги упираются в математический потолок — есть задачи, где они физически не смогут найти нужный документ из топ-2, даже если модель идеально обучена. В статье разбирается исследование LIMIT, показаны примеры, где dense retrieval проваливается (а BM25 справляется), и объяснено, почему для production-систем нужен гибридный поиск, а не слепая вера в SOTA-эмбеддинги.

https://habr.com/ru/articles/987954/

#RAG #embedding #retrieval #machine_learning #BM25 #поиск #нейросети #векторные_базы_данных

#rag #embedding #retrieval #machine_learning #bm25 #поиск

Habr @[email protected] · 2026-01-21 · 16:02 UTC

Как мы сделали гибридный AI-поиск по смыслу книг: двухконтурная архитектура и семантическое ранжирование

Всем привет! Меня зовут Яна Чеканова, я проджект-менеджер в red_mad_robot уже два года — и да, я не технарь, а филолог по образованию. Парадоксально, но именно это образование помогло мне в одном из самых технологичных проектов — создании AI-поиска для сервиса книги билайн. Идея родилась у команды билайна: они провели исследование и поняли, что большинство читателей не ищут конкретного автора или название, а ориентируются на настроение и ощущение от книги — «что-то атмосферное», «что-то как любимый роман». Так появилась гипотеза: сделать поиск, который понимает смысл запроса, а не только ключевые слова. Мы подключились, чтобы превратить эту идею в технологию: векторизовали метаданные полумиллиона книг, обучили LLM и собрали гибридную систему, которая подбирает литературу по смыслу и контексту — даже если запрос звучит просто как «что-нибудь про путешествия во времени». Рассказываю, как это было.

https://habr.com/ru/companies/redmadrobot/articles/987548/

#ai #ии #aiпоиск #книги #поиск #векторизация #гибридные_системы #технологии

#технологии #гибридные_системы #векторизация #поиск #книги #aiпоиск

Habr @[email protected] · 2026-01-21 · 10:22 UTC

Поиск для интернет-магазина: 24 обязательных элемента, которые помогут покупателям найти нужное и увеличат конверсию

Всем привет! Меня зовут Саша, и последние 12 лет моя жизнь — это дизайн. Сегодня я руковожу дизайн-командой в KISLOROD, а в прошлом — помогал крупным брендам и миллионным сервисам обрести их уникальный голос и форму. Эффективность конверсионной воронки сайта во многом зависит от того, насколько хорошо реализован интерфейс и функционал разных этапов воронки с точки зрения удобства для пользователя. В этой статье перечислим основные элементы, которые позволяют нам повышать качество поиска в клиентских проектах.

https://habr.com/ru/articles/987394/

#дизайнсистема #дизайн_студия #дизайн_интерфейсов #дизайн_сайта #вебдизайн #вебприложения #ux #ui #поиск #интернетмагазин

#интернетмагазин #поиск #ui #ux #вебприложения #вебдизайн

Habr @[email protected] · 2025-12-12 · 10:22 UTC

DAG-классификация: как мы научили поиск определять нужную категорию ступенчатым образом

Одна из важнейших задач поиска — релевантная выдача. Простых универсальных решений здесь нет, а улучшение поиска — долгосрочный процесс, где крупные задачи приходится разбивать на небольшие, последовательные шаги. В этой статье делимся тем, как нам в «Магнит Маркете» удалось значительно улучшить качество поиска с помощью нетривиального подхода: ступенчатой классификации категории поискового запроса.

https://habr.com/ru/companies/magnit/articles/975980/

#ml #dag #поиск #ранжирование #релевантный_поиск #релевантность_поисковой_выдачи #data_science #dagмодель #оптимизация_поиска

#оптимизация_поиска #dagмодель #data_science #релевантность_поисковой_выдачи #релевантный_поиск #ранжирование

Habr @[email protected] · 2025-11-23 · 10:52 UTC

Создание простой поисковой системы, которая действительно работает

Зачем вообще делать что-то своё? Я знаю, что вы можете подумать: «Почему бы просто не использовать Elasticsearch?» или «А что насчёт Algolia?» Это вполне рабочие решения, но у них есть нюансы. Нужно разбираться с их API, поддерживать инфраструктуру под них и учитывать все тонкости их работы. Но иногда хочется чего-то более простого...

https://habr.com/ru/articles/969312/

#поиск #индексация #токенизация #sql #php #поисковая_система #оптимизация #репозиторий

#поиск #индексация #токенизация #sql #php #поисковая_система

Habr @[email protected] · 2025-11-17 · 14:02 UTC

[Перевод] Как LinkedIn масштабировал поиск людей на 1,3 млрд пользователей

LinkedIn запускает обновлённый поиск людей на базе генеративного ИИ — и делает это спустя, казалось бы, удивительно долгую паузу для функции, которая напрашивалась сама собой. Появление новой системы происходит три года спустя после выхода ChatGPT и через полгода после запуска ИИ-поиска вакансий в LinkedIn. Для технических руководителей это — наглядный урок: внедрение генеративного ИИ в настоящих корпоративных условиях, да ещё в масштабе 1,3 млрд пользователей, — процесс медленный, тяжёлый и требующий постоянной прагматичной оптимизации.

https://habr.com/ru/companies/technokratos/articles/967286/

#поиск #поисковые_системы #linkedin #ai #llm #большие_языковые_модели #дистилляция #модели #mlмодели

#поиск #поисковые_системы #linkedin #ai #llm #большие_языковые_модели

Habr @[email protected] · 2025-11-07 · 09:22 UTC

Чипсы вместо поиска: рекомендации пользователям, когда о них ничего не известно

На mir-kvestov.ru нужно давать рекомендации пользователям, про которых мы почти ничего не знаем: большинство не авторизованы, истории просмотров нет, на сайте только точный поиск по названию квеста. Т.е. не было даже нормальной истории текстовых запросов, из которой можно было бы собрать частотные подсказки или похожие запросы. Я обучил решающее дерево на 6500 анкетах пользователей, превратив 60 вопросов анкеты в 5 кликов по чипсам под строкой поиска. Так появилась фича, которая за пять шагов отправляет человека в нужный тип квестов. По пути пришлось согласовать математическую модель с пониманием стейкхолдеров о том «как правильно». Из этого конфликта родилось гибридное дерево, понятное и людям, и метрикам.

https://habr.com/ru/articles/964048/

#Поиск #Чипсы #Машинное_обучение #Рекомендации #Количественные_исследования #Анализ_данных #Продуктовая_разработка #Кластеризация #Решающее_дерево #python

#поиск #чипсы #машинное_обучение #рекомендации #количественные_исследования #анализ_данных

Habr @[email protected] · 2025-10-14 · 18:52 UTC

Baidu и AI Search Paradigm: мультиагентная структура для интеллектуального поиска информации

Аналитический центр red_mad_robot продолжает разбирать ключевые исследования в сфере интеллектуальных систем и генеративного поиска. На этот раз рассказываем про архитектуру AI Search Paradigm от Baidu — новой системы интеллектуального поиска, построенной на LLM и мультиагентных методах.

https://habr.com/ru/companies/redmadrobot/articles/956570/

#ai #search #поиск #поисковые_алгоритмы

#поисковые_алгоритмы #поиск #search #ai

Habr @[email protected] · 2025-10-08 · 08:22 UTC

Chonkie: революция в RAG-чанкинге — скорость, лёгкость, удобство

В эпоху, когда большие языковые модели (LLM) становятся всё более мощными и применяются во многих задачах, одна из ключевых проблем остаётся прежней — как эффективно снабжать их релевантным контекстом. Одним из популярных решений является подход RAG, где качество итогового ответа зависит от целого ряда факторов, одним из которых является качественное чанкирование исходных текстов. Сегодня мы рассмотрим одно из новых и интересных решений. Всем привет! Меня зовут Вадим, я Data Scientist в компании Raft. В этой статье я расскажу о Chonkie — библиотеке для простого и быстрого чанкирования документов, а также на практике применю её и сравню с другими популярными решениями: LangChain и LlamaIndex .

https://habr.com/ru/companies/raft/articles/954158/

#rag #chunking #ai #поиск #чанкинг #векторные_базы_данных #библиотека #llm_память

#llm_память #библиотека #векторные_базы_данных #чанкинг #поиск #ai

Habr @[email protected] · 2025-08-26 · 13:42 UTC

Фишки поиска в 2025 году, о которых вы не знали: от Yahoo до Perplexity

В статье — немного истории поисковиков и целая подборка фишек, которые я накопил за годы работы: скрытые операторы Гугла и Яндекса, промпты для Perplexity и Gemini. Забирайте и экономьте часы ресёрча, находя нужную информацию за секунды.

https://habr.com/ru/companies/minerva_media/articles/940862/

#google #яндекс #яндекс_поиск #ai #perplexity #gemini #chatgpt #ии #поиск #промпты

#google #яндекс #яндекс_поиск #ai #perplexity #gemini

Habr @[email protected] · 2025-08-05 · 14:52 UTC

[Перевод] Оптимизация поисковых систем: баланс между скоростью, релевантностью и масштабируемостью

Будучи разработчиками, мы постоянно стремимся создавать системы, которые не просто работают, но и отличаются эффективностью и масштабируемостью. В мире, где пользователи ожидают всё более быстрые и точные результаты, оптимизация производительности поиска становится ключевым приоритетом в современной разработке приложений. Эта статья основана на нашем выступлении на конференции QCon San Francisco 2024, где мы рассмотрели эволюцию подходов к индексированию данных, их извлечению и ранжированию. Для платформ вроде Uber Eats, обрабатывающих сложные запросы на больших объёмах данных, оптимизация поиска — это серьёзный вызов, требующий продвинутых стратегий: индексирования, шардинга и параллельной обработки запросов. Сложность поисковых систем продолжает расти, и необходимость соблюдения баланса между скоростью, релевантностью и масштабируемостью становится как никогда актуальной. В этой статье мы рассматриваем ключевые техники таких оптимизаций и их влияние на пользовательский опыт и производительность системы.

https://habr.com/ru/companies/otus/articles/934186/

#шардинг #Индексирование #поиск #Масштабируемость #производительность #apache_kafka #apache_spark #big_data #ранжирование

#ранжирование #big_data #apache_spark #apache_kafka #производительность #масштабируемость

Habr @[email protected] · 2025-08-05 · 14:52 UTC

[Перевод] Оптимизация поисковых систем: баланс между скоростью, релевантностью и масштабируемостью

Будучи разработчиками, мы постоянно стремимся создавать системы, которые не просто работают, но и отличаются эффективностью и масштабируемостью. В мире, где пользователи ожидают всё более быстрые и точные результаты, оптимизация производительности поиска становится ключевым приоритетом в современной разработке приложений. Эта статья основана на нашем выступлении на конференции QCon San Francisco 2024, где мы рассмотрели эволюцию подходов к индексированию данных, их извлечению и ранжированию. Для платформ вроде Uber Eats, обрабатывающих сложные запросы на больших объёмах данных, оптимизация поиска — это серьёзный вызов, требующий продвинутых стратегий: индексирования, шардинга и параллельной обработки запросов. Сложность поисковых систем продолжает расти, и необходимость соблюдения баланса между скоростью, релевантностью и масштабируемостью становится как никогда актуальной. В этой статье мы рассматриваем ключевые техники таких оптимизаций и их влияние на пользовательский опыт и производительность системы.

https://habr.com/ru/companies/otus/articles/934186/

#шардинг #Индексирование #поиск #Масштабируемость #производительность #apache_kafka #apache_spark #big_data #ранжирование

#ранжирование #big_data #apache_spark #apache_kafka #производительность #масштабируемость

Habr @[email protected] · 2025-08-05 · 14:52 UTC

[Перевод] Оптимизация поисковых систем: баланс между скоростью, релевантностью и масштабируемостью

Будучи разработчиками, мы постоянно стремимся создавать системы, которые не просто работают, но и отличаются эффективностью и масштабируемостью. В мире, где пользователи ожидают всё более быстрые и точные результаты, оптимизация производительности поиска становится ключевым приоритетом в современной разработке приложений. Эта статья основана на нашем выступлении на конференции QCon San Francisco 2024, где мы рассмотрели эволюцию подходов к индексированию данных, их извлечению и ранжированию. Для платформ вроде Uber Eats, обрабатывающих сложные запросы на больших объёмах данных, оптимизация поиска — это серьёзный вызов, требующий продвинутых стратегий: индексирования, шардинга и параллельной обработки запросов. Сложность поисковых систем продолжает расти, и необходимость соблюдения баланса между скоростью, релевантностью и масштабируемостью становится как никогда актуальной. В этой статье мы рассматриваем ключевые техники таких оптимизаций и их влияние на пользовательский опыт и производительность системы.

https://habr.com/ru/companies/otus/articles/934186/

#шардинг #Индексирование #поиск #Масштабируемость #производительность #apache_kafka #apache_spark #big_data #ранжирование

#ранжирование #big_data #apache_spark #apache_kafka #производительность #масштабируемость

Habr @[email protected] · 2025-08-05 · 14:52 UTC

[Перевод] Оптимизация поисковых систем: баланс между скоростью, релевантностью и масштабируемостью

Будучи разработчиками, мы постоянно стремимся создавать системы, которые не просто работают, но и отличаются эффективностью и масштабируемостью. В мире, где пользователи ожидают всё более быстрые и точные результаты, оптимизация производительности поиска становится ключевым приоритетом в современной разработке приложений. Эта статья основана на нашем выступлении на конференции QCon San Francisco 2024, где мы рассмотрели эволюцию подходов к индексированию данных, их извлечению и ранжированию. Для платформ вроде Uber Eats, обрабатывающих сложные запросы на больших объёмах данных, оптимизация поиска — это серьёзный вызов, требующий продвинутых стратегий: индексирования, шардинга и параллельной обработки запросов. Сложность поисковых систем продолжает расти, и необходимость соблюдения баланса между скоростью, релевантностью и масштабируемостью становится как никогда актуальной. В этой статье мы рассматриваем ключевые техники таких оптимизаций и их влияние на пользовательский опыт и производительность системы.

https://habr.com/ru/companies/otus/articles/934186/

#шардинг #Индексирование #поиск #Масштабируемость #производительность #apache_kafka #apache_spark #big_data #ранжирование

#шардинг #индексирование #поиск #масштабируемость #производительность #apache_kafka

Habr @[email protected] · 2025-07-22 · 19:42 UTC

Юридический разбор формулировок нового закона о поиске экстремистских материалов

Только что Госдума приняла поправки в закон, в частности, о введении штрафов за поиск в Интернете экстремистских материалов и получение доступа к ним. Попробуем разобрать формулировки без эмоций и кликбейта, понять, что конкретно в нём написано, и за что могут привлечь с юридической точки зрения. У нас ведь правовое государство по Конституции. 1. Предлагается ввести новую статью КоАП — 13.53:

https://habr.com/ru/articles/930034/

#штраф #поиск #просмотр

#просмотр #поиск #штраф

Habr @[email protected] · 2025-07-22 · 11:32 UTC

35-ти летний юбилей! Советский «Поиск-1» выходит в Cеть

Здравствуйте, уважаемые читатели и почитатели старинных ретро-компьютеров! Сегодня я предлагаю вам вспомнить отечественную ЭВМ «Поиск-1». Уклон статьи будет в сторону настройки сетевых параметров. Мы увидим аспекты сетевой конфигурации под операционную систему MS-DOS, попробуем ряд основных сетевых сервисов, TELNET, FTP, HTTP и подключение к BBS. Демонстрацию работы я представлю в виде видеороликов. На мой взгляд, будет интересно настроить сетевое подключение для такой древней, в хорошем смысле этого слова, машины.

https://habr.com/ru/companies/timeweb/articles/929590/

#timeweb_статьи #telnet #эвм #поиск #msdos #http #bbs #ретро #компьютер #электроника

#электроника #компьютер #ретро #bbs #http #msdos

Habr @[email protected] · 2025-07-18 · 18:22 UTC

ИИ Детокс: DuckDuckGo запускает фильтр для удаления изображений, сгенерированных ИИ

Поисковик DuckDuckGo представил новую функцию, позволяющую пользователям скрывать изображения, созданные с помощью искусственного интеллекта , из результатов поиска. Это решение направлено на борьбу с "ИИ-мусором" — навязчивым, некачественным синтетическим контентом, всё чаще появляющимся в выдаче.

https://habr.com/ru/articles/929068/

#duckduckgo #aigenerated #search #filters #новости #ai #search_engine #генерация_изображений #контентфильтрация #поиск

#duckduckgo #aigenerated #search #filters #новости #ai

Habr @[email protected] · 2025-07-18 · 18:22 UTC

ИИ Детокс: DuckDuckGo запускает фильтр для удаления изображений, сгенерированных ИИ

Поисковик DuckDuckGo представил новую функцию, позволяющую пользователям скрывать изображения, созданные с помощью искусственного интеллекта , из результатов поиска. Это решение направлено на борьбу с "ИИ-мусором" — навязчивым, некачественным синтетическим контентом, всё чаще появляющимся в выдаче.

https://habr.com/ru/articles/929068/

#duckduckgo #aigenerated #search #filters #новости #ai #search_engine #генерация_изображений #контентфильтрация #поиск

#duckduckgo #aigenerated #search #filters #новости #ai

Habr @[email protected] · 2025-07-18 · 18:22 UTC

ИИ Детокс: DuckDuckGo запускает фильтр для удаления изображений, сгенерированных ИИ

Поисковик DuckDuckGo представил новую функцию, позволяющую пользователям скрывать изображения, созданные с помощью искусственного интеллекта , из результатов поиска. Это решение направлено на борьбу с "ИИ-мусором" — навязчивым, некачественным синтетическим контентом, всё чаще появляющимся в выдаче.

https://habr.com/ru/articles/929068/

#duckduckgo #aigenerated #search #filters #новости #ai #search_engine #генерация_изображений #контентфильтрация #поиск

#duckduckgo #aigenerated #search #filters #новости #ai

Habr @[email protected] · 2025-07-18 · 18:22 UTC

ИИ Детокс: DuckDuckGo запускает фильтр для удаления изображений, сгенерированных ИИ

Поисковик DuckDuckGo представил новую функцию, позволяющую пользователям скрывать изображения, созданные с помощью искусственного интеллекта , из результатов поиска. Это решение направлено на борьбу с "ИИ-мусором" — навязчивым, некачественным синтетическим контентом, всё чаще появляющимся в выдаче.

https://habr.com/ru/articles/929068/

#duckduckgo #aigenerated #search #filters #новости #ai #search_engine #генерация_изображений #контентфильтрация #поиск

#поиск #контентфильтрация #генерация_изображений #search_engine #ai #новости

Habr @[email protected] · 2025-07-15 · 06:12 UTC

Запустили векторный поиск в YDB: рассказываем, как он работает

В новой версии YDB теперь доступны две версии векторного поиска — точный и приближённый. Приближённый поиск может работать с миллиардами векторов, если использовать векторный индекс. Такая технология есть у небольшого количества технологических компаний в мире. Новый релиз СУБД Яндекса делает векторный поиск доступным для всех. Статья под катом написана по мотивам моего доклада на конференции HighLoad++, с которым я выступил 23 июня в Питере. В ней я расскажу про векторный поиск, индекс, RAG и о том, как эти технологии применяются в Алисе.

https://habr.com/ru/companies/yandex/articles/926724/

#ydb #базы_данных #поиск #векторный_поиск #llm #машинное_обучение #высоконагруженные_системы #нейросети #работа_с_данными

#ydb #базы_данных #поиск #векторный_поиск #llm #машинное_обучение

Habr @[email protected] · 2025-07-10 · 07:32 UTC

Разбираем на запчасти поисковый сервис в Яндекс Лавке

Привет! Меня зовут Николай Смирнов, я ML-инженер в команде поиска Яндекс Лавки. В этой статье я расскажу немного о закулисье: — Как наша команда шаг за шагом строила поисковый сервис, начиная с алгоритма Ахо — Корасик, SaaS-решений и Маркета, и дошла до собственной архитектуры на C++ с userver и многослойным «бургером» из ML-моделей. — Зачем поиску Лавки понадобилось сразу несколько технологий — BM25, DSSM, BERT и CatBoost — и чем полезна каждая из них. — Как наш поиск собирает данные о вас и о товарах и почему ML-модели приходится дообучать. А ещё вместе «сломаем» прод — посмотрим, что произойдёт, если выключить какую-нибудь из моделей, и почему даже самые продвинутые нейросети не являются серебряной пулей. В общем, будет немного истории, самое интересное из архитектуры, инженерные находки и живые примеры того, как поиск в Лавке принимает решения. Если интересно, как на самом деле работает поиск, — погнали!

https://habr.com/ru/companies/yandex/articles/924198/

#поиск #mlops #ml_design #bm25 #DSSM #catboost #яндекславка #machinelearning

#поиск #mlops #ml_design #bm25 #dssm #catboost

Habr @[email protected] · 2025-07-10 · 07:32 UTC

Разбираем на запчасти поисковый сервис в Яндекс Лавке

Привет! Меня зовут Николай Смирнов, я ML-инженер в команде поиска Яндекс Лавки. В этой статье я расскажу немного о закулисье: — Как наша команда шаг за шагом строила поисковый сервис, начиная с алгоритма Ахо — Корасик, SaaS-решений и Маркета, и дошла до собственной архитектуры на C++ с userver и многослойным «бургером» из ML-моделей. — Зачем поиску Лавки понадобилось сразу несколько технологий — BM25, DSSM, BERT и CatBoost — и чем полезна каждая из них. — Как наш поиск собирает данные о вас и о товарах и почему ML-модели приходится дообучать. А ещё вместе «сломаем» прод — посмотрим, что произойдёт, если выключить какую-нибудь из моделей, и почему даже самые продвинутые нейросети не являются серебряной пулей. В общем, будет немного истории, самое интересное из архитектуры, инженерные находки и живые примеры того, как поиск в Лавке принимает решения. Если интересно, как на самом деле работает поиск, — погнали!

https://habr.com/ru/companies/yandex/articles/924198/

#поиск #mlops #ml_design #bm25 #DSSM #catboost #яндекславка #machinelearning

#поиск #mlops #ml_design #bm25 #dssm #catboost

Habr @[email protected] · 2025-07-10 · 07:32 UTC

Разбираем на запчасти поисковый сервис в Яндекс Лавке

Привет! Меня зовут Николай Смирнов, я ML-инженер в команде поиска Яндекс Лавки. В этой статье я расскажу немного о закулисье: — Как наша команда шаг за шагом строила поисковый сервис, начиная с алгоритма Ахо — Корасик, SaaS-решений и Маркета, и дошла до собственной архитектуры на C++ с userver и многослойным «бургером» из ML-моделей. — Зачем поиску Лавки понадобилось сразу несколько технологий — BM25, DSSM, BERT и CatBoost — и чем полезна каждая из них. — Как наш поиск собирает данные о вас и о товарах и почему ML-модели приходится дообучать. А ещё вместе «сломаем» прод — посмотрим, что произойдёт, если выключить какую-нибудь из моделей, и почему даже самые продвинутые нейросети не являются серебряной пулей. В общем, будет немного истории, самое интересное из архитектуры, инженерные находки и живые примеры того, как поиск в Лавке принимает решения. Если интересно, как на самом деле работает поиск, — погнали!

https://habr.com/ru/companies/yandex/articles/924198/

#поиск #mlops #ml_design #bm25 #DSSM #catboost #яндекславка #machinelearning

#поиск #mlops #ml_design #bm25 #dssm #catboost

Habr @[email protected] · 2025-07-10 · 07:32 UTC

Разбираем на запчасти поисковый сервис в Яндекс Лавке

Привет! Меня зовут Николай Смирнов, я ML-инженер в команде поиска Яндекс Лавки. В этой статье я расскажу немного о закулисье: — Как наша команда шаг за шагом строила поисковый сервис, начиная с алгоритма Ахо — Корасик, SaaS-решений и Маркета, и дошла до собственной архитектуры на C++ с userver и многослойным «бургером» из ML-моделей. — Зачем поиску Лавки понадобилось сразу несколько технологий — BM25, DSSM, BERT и CatBoost — и чем полезна каждая из них. — Как наш поиск собирает данные о вас и о товарах и почему ML-модели приходится дообучать. А ещё вместе «сломаем» прод — посмотрим, что произойдёт, если выключить какую-нибудь из моделей, и почему даже самые продвинутые нейросети не являются серебряной пулей. В общем, будет немного истории, самое интересное из архитектуры, инженерные находки и живые примеры того, как поиск в Лавке принимает решения. Если интересно, как на самом деле работает поиск, — погнали!

https://habr.com/ru/companies/yandex/articles/924198/

#поиск #mlops #ml_design #bm25 #DSSM #catboost #яндекславка #machinelearning

#machinelearning #яндекславка #catboost #dssm #bm25 #ml_design

Habr @[email protected] · 2025-06-22 · 09:12 UTC

[Перевод] Простой механизм поиска с нуля

Мы с Крисом недавно «с нуля» буквально за пару часов создали механизм поиска для моего блога. Основную часть проделал именно Крис, так как до этого с word2vec я был знаком лишь отдалённо. Разработанный нами поисковик основывается на векторных представлениях (эмбеддингах) слов. Принцип здесь следующий. Функция получает слово и отображает его в N-мерное пространство (в данном случае N=300 ), где каждое измерение отражает определённый оттенок смысла. Вот хорошая статья (англ.) о том, как обучить собственную модель word2vec, и её внутреннем устройстве. Суть работы созданного нами поиска заключается в преобразовании моих статей, а точнее составляющих их слов, в эмбеддинги, сохраняемые в общем пространстве. Затем при выполнении конкретного поиска текст его запроса преобразуется аналогичным образом и сопоставляется с векторами статей. В результате этого сопоставления, используя метрику косинусного сходства , мы ранжируем статьи по их релевантности запросу. Уравнение ниже может показаться пугающим, но в нём говорится, что косинусное сходство, представляющее косинус угла между двух векторов cos(theta) , определяется в виде скалярного произведения, поделённого на произведение величин каждого вектора. Разберём всё это подробнее.

https://habr.com/ru/companies/ruvds/articles/920174/

#ruvds_перевод #поиск #word2vec #эмбеддинги #косинусное_сходство #векторизация

#векторизация #косинусное_сходство #эмбеддинги #word2vec #поиск #ruvds_перевод