#векторный_поиск — Public Fediverse posts

https://habr.com/ru/companies/otus/articles/1034386/

#векторный_поиск #llm #rag #retrieval #python #ml

Habr @[email protected] · 2026-05-20 · 20:32 UTC

RAG для тех, кто разочаровался: почему retrieval ломается и как это починить

Вы собрали RAG-пайплайн: загрузили документы, нарезали на чанки, сгенерировали эмбеддинги, подключили векторную базу. Задаёте вопрос — модель отвечает уверенно и подробно. Показываете заказчику, тот в восторге. Потом начинается тестирование на реальных вопросах, и оказывается, что на половину из них система отвечает мимо: то находит не тот документ, то находит правильный, но не тот кусок, то вообще ничего релевантного не достаёт и модель уверенно галлюцинирует. Каждый раз проблема не в модели (GPT-4 и Claude отвечают хорошо, если им дать правильный контекст), а в retrieval — в том, как мы ищем релевантные куски документов. Модель отвечает ровно настолько хорошо, насколько хорош контекст, который ей подсунули. Рассмотрим три основные причины. Разобрать RAG

https://habr.com/ru/companies/otus/articles/1034386/

#векторный_поиск #llm #rag #retrieval #python #ml

Habr @[email protected] · 2026-05-20 · 20:32 UTC

RAG для тех, кто разочаровался: почему retrieval ломается и как это починить

Вы собрали RAG-пайплайн: загрузили документы, нарезали на чанки, сгенерировали эмбеддинги, подключили векторную базу. Задаёте вопрос — модель отвечает уверенно и подробно. Показываете заказчику, тот в восторге. Потом начинается тестирование на реальных вопросах, и оказывается, что на половину из них система отвечает мимо: то находит не тот документ, то находит правильный, но не тот кусок, то вообще ничего релевантного не достаёт и модель уверенно галлюцинирует. Каждый раз проблема не в модели (GPT-4 и Claude отвечают хорошо, если им дать правильный контекст), а в retrieval — в том, как мы ищем релевантные куски документов. Модель отвечает ровно настолько хорошо, насколько хорош контекст, который ей подсунули. Рассмотрим три основные причины. Разобрать RAG

https://habr.com/ru/companies/otus/articles/1034386/

#векторный_поиск #llm #rag #retrieval #python #ml

Habr @[email protected] · 2026-05-20 · 20:32 UTC

RAG для тех, кто разочаровался: почему retrieval ломается и как это починить

Вы собрали RAG-пайплайн: загрузили документы, нарезали на чанки, сгенерировали эмбеддинги, подключили векторную базу. Задаёте вопрос — модель отвечает уверенно и подробно. Показываете заказчику, тот в восторге. Потом начинается тестирование на реальных вопросах, и оказывается, что на половину из них система отвечает мимо: то находит не тот документ, то находит правильный, но не тот кусок, то вообще ничего релевантного не достаёт и модель уверенно галлюцинирует. Каждый раз проблема не в модели (GPT-4 и Claude отвечают хорошо, если им дать правильный контекст), а в retrieval — в том, как мы ищем релевантные куски документов. Модель отвечает ровно настолько хорошо, насколько хорош контекст, который ей подсунули. Рассмотрим три основные причины. Разобрать RAG

https://habr.com/ru/companies/fix_price/articles/1034664/

#ml #python #retrieval #rag #llm #векторный_поиск

Habr @[email protected] · 2026-05-13 · 11:12 UTC

Как мы довели поиск товаров по изображению до 98% совпадений: FastAPI, DINOv2, Qdrant и поиск на фото полки

Поиск товара по изображению кажется простой задачей — ровно до момента, пока не сталкиваешься с реальным каталогом . В теории все выглядит аккуратно: берем фото, считаем embedding, ищем ближайшие вектора, возвращаем совпадения. На практике начинаются нюансы: у товара несколько изображений, ракурсы отличаются, фон мешает, каталог обновляется постоянно, а бизнес ждет не исследовательский прототип, а сервис, который можно поставить в production. С вами старший программист в Fix Price Константин Репин. И в этом материале разберу, как мы строили сервис визуального поиска товаров, какие инженерные решения реально повлияли на качество и почему текущий результат в 98% совпадений получился не из-за одной удачной модели, а из-за правильно собранного пайплайна.

#поиск_товаров #FastAPI #dinov2 #qdrant #визуальные_эмбеддинги #векторный_поиск

#векторный_поиск #визуальные_эмбеддинги #qdrant #dinov2 #fastapi #поиск_товаров

Habr @[email protected] · 2026-05-13 · 11:12 UTC

Как мы довели поиск товаров по изображению до 98% совпадений: FastAPI, DINOv2, Qdrant и поиск на фото полки

Поиск товара по изображению кажется простой задачей — ровно до момента, пока не сталкиваешься с реальным каталогом . В теории все выглядит аккуратно: берем фото, считаем embedding, ищем ближайшие вектора, возвращаем совпадения. На практике начинаются нюансы: у товара несколько изображений, ракурсы отличаются, фон мешает, каталог обновляется постоянно, а бизнес ждет не исследовательский прототип, а сервис, который можно поставить в production. С вами старший программист в Fix Price Константин Репин. И в этом материале разберу, как мы строили сервис визуального поиска товаров, какие инженерные решения реально повлияли на качество и почему текущий результат в 98% совпадений получился не из-за одной удачной модели, а из-за правильно собранного пайплайна.

https://habr.com/ru/companies/fix_price/articles/1034664/

#поиск_товаров #FastAPI #dinov2 #qdrant #визуальные_эмбеддинги #векторный_поиск

#векторный_поиск #визуальные_эмбеддинги #qdrant #dinov2 #fastapi #поиск_товаров

Habr @[email protected] · 2026-05-13 · 11:12 UTC

Как мы довели поиск товаров по изображению до 98% совпадений: FastAPI, DINOv2, Qdrant и поиск на фото полки

Поиск товара по изображению кажется простой задачей — ровно до момента, пока не сталкиваешься с реальным каталогом . В теории все выглядит аккуратно: берем фото, считаем embedding, ищем ближайшие вектора, возвращаем совпадения. На практике начинаются нюансы: у товара несколько изображений, ракурсы отличаются, фон мешает, каталог обновляется постоянно, а бизнес ждет не исследовательский прототип, а сервис, который можно поставить в production. С вами старший программист в Fix Price Константин Репин. И в этом материале разберу, как мы строили сервис визуального поиска товаров, какие инженерные решения реально повлияли на качество и почему текущий результат в 98% совпадений получился не из-за одной удачной модели, а из-за правильно собранного пайплайна.

https://habr.com/ru/companies/fix_price/articles/1034664/

#поиск_товаров #FastAPI #dinov2 #qdrant #визуальные_эмбеддинги #векторный_поиск

#векторный_поиск #визуальные_эмбеддинги #qdrant #dinov2 #fastapi #поиск_товаров

Habr @[email protected] · 2026-05-13 · 11:12 UTC

Как мы довели поиск товаров по изображению до 98% совпадений: FastAPI, DINOv2, Qdrant и поиск на фото полки

Поиск товара по изображению кажется простой задачей — ровно до момента, пока не сталкиваешься с реальным каталогом . В теории все выглядит аккуратно: берем фото, считаем embedding, ищем ближайшие вектора, возвращаем совпадения. На практике начинаются нюансы: у товара несколько изображений, ракурсы отличаются, фон мешает, каталог обновляется постоянно, а бизнес ждет не исследовательский прототип, а сервис, который можно поставить в production. С вами старший программист в Fix Price Константин Репин. И в этом материале разберу, как мы строили сервис визуального поиска товаров, какие инженерные решения реально повлияли на качество и почему текущий результат в 98% совпадений получился не из-за одной удачной модели, а из-за правильно собранного пайплайна.

https://habr.com/ru/companies/fix_price/articles/1034664/

#поиск_товаров #FastAPI #dinov2 #qdrant #визуальные_эмбеддинги #векторный_поиск

#поиск_товаров #fastapi #dinov2 #qdrant #визуальные_эмбеддинги #векторный_поиск

Habr @[email protected] · 2026-05-05 · 20:12 UTC

SocratiCode: разбираю MCP-сервер, который даёт ИИ-агенту понимание кодовой базы

Если ваш ИИ-агент при каждом вопросе начинает grep-ом по всему проекту — у меня есть для вас одна штука. SocratiCode — это MCP-сервер, который индексирует кодовую базу через Qdrant и даёт агенту нормальный поиск вместо построчного чтения. Разобрал, как он устроен внутри, потестировал на нашем монорепе и сравнил с обычным режимом Claude Code

#MCP #Claude_Code #векторный_поиск #Qdrant #Ollama #codebase_intelligence #AIагенты #RAG

#rag #aiагенты #codebase_intelligence #ollama #qdrant #векторный_поиск

Habr @[email protected] · 2026-05-05 · 20:12 UTC

SocratiCode: разбираю MCP-сервер, который даёт ИИ-агенту понимание кодовой базы

Если ваш ИИ-агент при каждом вопросе начинает grep-ом по всему проекту — у меня есть для вас одна штука. SocratiCode — это MCP-сервер, который индексирует кодовую базу через Qdrant и даёт агенту нормальный поиск вместо построчного чтения. Разобрал, как он устроен внутри, потестировал на нашем монорепе и сравнил с обычным режимом Claude Code

#MCP #Claude_Code #векторный_поиск #Qdrant #Ollama #codebase_intelligence #AIагенты #RAG

#rag #aiагенты #codebase_intelligence #ollama #qdrant #векторный_поиск

Habr @[email protected] · 2026-05-05 · 20:12 UTC

SocratiCode: разбираю MCP-сервер, который даёт ИИ-агенту понимание кодовой базы

Если ваш ИИ-агент при каждом вопросе начинает grep-ом по всему проекту — у меня есть для вас одна штука. SocratiCode — это MCP-сервер, который индексирует кодовую базу через Qdrant и даёт агенту нормальный поиск вместо построчного чтения. Разобрал, как он устроен внутри, потестировал на нашем монорепе и сравнил с обычным режимом Claude Code

#MCP #Claude_Code #векторный_поиск #Qdrant #Ollama #codebase_intelligence #AIагенты #RAG

#rag #aiагенты #codebase_intelligence #ollama #qdrant #векторный_поиск

Habr @[email protected] · 2026-05-05 · 20:12 UTC

SocratiCode: разбираю MCP-сервер, который даёт ИИ-агенту понимание кодовой базы

Если ваш ИИ-агент при каждом вопросе начинает grep-ом по всему проекту — у меня есть для вас одна штука. SocratiCode — это MCP-сервер, который индексирует кодовую базу через Qdrant и даёт агенту нормальный поиск вместо построчного чтения. Разобрал, как он устроен внутри, потестировал на нашем монорепе и сравнил с обычным режимом Claude Code

#MCP #Claude_Code #векторный_поиск #Qdrant #Ollama #codebase_intelligence #AIагенты #RAG

#mcp #claude_code #векторный_поиск #qdrant #ollama #codebase_intelligence

Habr @[email protected] · 2026-04-08 · 03:02 UTC

Предварительная фильтрация KNN в Manticore Search

Векторный поиск редко используется сам по себе. Почти всегда есть фильтры — диапазон цен, категория, временное окно, географическая граница. Вопрос в том, когда именно эти фильтры применяются. Ответ оказывает неожиданно большое влияние на качество результатов. Предварительная фильтрация KNN доступна в Manticore Search начиная с версии 19.0.1 .

#knnsearch #алгоритмы_и_структуры_данных #полнотекстовый_поиск #векторный_поиск #оптимизация_поиска #фильтрация_данных #эмбеддинги

#эмбеддинги #фильтрация_данных #оптимизация_поиска #векторный_поиск #полнотекстовый_поиск #алгоритмы_и_структуры_данных

Habr @[email protected] · 2026-04-08 · 03:02 UTC

Предварительная фильтрация KNN в Manticore Search

Векторный поиск редко используется сам по себе. Почти всегда есть фильтры — диапазон цен, категория, временное окно, географическая граница. Вопрос в том, когда именно эти фильтры применяются. Ответ оказывает неожиданно большое влияние на качество результатов. Предварительная фильтрация KNN доступна в Manticore Search начиная с версии 19.0.1 .

#knnsearch #алгоритмы_и_структуры_данных #полнотекстовый_поиск #векторный_поиск #оптимизация_поиска #фильтрация_данных #эмбеддинги

#эмбеддинги #фильтрация_данных #оптимизация_поиска #векторный_поиск #полнотекстовый_поиск #алгоритмы_и_структуры_данных

Habr @[email protected] · 2026-04-08 · 03:02 UTC

Предварительная фильтрация KNN в Manticore Search

Векторный поиск редко используется сам по себе. Почти всегда есть фильтры — диапазон цен, категория, временное окно, географическая граница. Вопрос в том, когда именно эти фильтры применяются. Ответ оказывает неожиданно большое влияние на качество результатов. Предварительная фильтрация KNN доступна в Manticore Search начиная с версии 19.0.1 .

#knnsearch #алгоритмы_и_структуры_данных #полнотекстовый_поиск #векторный_поиск #оптимизация_поиска #фильтрация_данных #эмбеддинги

#эмбеддинги #фильтрация_данных #оптимизация_поиска #векторный_поиск #полнотекстовый_поиск #алгоритмы_и_структуры_данных

Habr @[email protected] · 2026-04-08 · 03:02 UTC

Предварительная фильтрация KNN в Manticore Search

Векторный поиск редко используется сам по себе. Почти всегда есть фильтры — диапазон цен, категория, временное окно, географическая граница. Вопрос в том, когда именно эти фильтры применяются. Ответ оказывает неожиданно большое влияние на качество результатов. Предварительная фильтрация KNN доступна в Manticore Search начиная с версии 19.0.1 .

#knnsearch #алгоритмы_и_структуры_данных #полнотекстовый_поиск #векторный_поиск #оптимизация_поиска #фильтрация_данных #эмбеддинги

#knnsearch #алгоритмы_и_структуры_данных #полнотекстовый_поиск #векторный_поиск #оптимизация_поиска #фильтрация_данных

Habr @[email protected] · 2026-04-03 · 05:12 UTC

Гибридный поиск в Manticore Search

Поиск редко сводится к одному универсальному сценарию. Пользователь, вводящий "cheap running shoes", хочет точных совпадений по ключевым словам, а пользователь, задающий "comfortable footwear for jogging", выражает то же намерение другими словами. Традиционный полнотекстовый поиск хорошо справляется с первым случаем. Векторный поиск решает второй. Гибридный поиск объединяет оба в одном запросе, так что вам не приходится выбирать. В современных поисковых системах это часто описывается как комбинирование лексического (разреженного) поиска с семантическим (плотным) поиском . Разные термины, одна идея: точное совпадение плюс смысл.

#гибридный_поиск #полнотекстовый_поиск #векторный_поиск #full_text_search #knnsearch #vector_search #bm25 #rag

#rag #bm25 #vector_search #knnsearch #full_text_search #векторный_поиск

Habr @[email protected] · 2026-04-03 · 05:12 UTC

Гибридный поиск в Manticore Search

Поиск редко сводится к одному универсальному сценарию. Пользователь, вводящий "cheap running shoes", хочет точных совпадений по ключевым словам, а пользователь, задающий "comfortable footwear for jogging", выражает то же намерение другими словами. Традиционный полнотекстовый поиск хорошо справляется с первым случаем. Векторный поиск решает второй. Гибридный поиск объединяет оба в одном запросе, так что вам не приходится выбирать. В современных поисковых системах это часто описывается как комбинирование лексического (разреженного) поиска с семантическим (плотным) поиском . Разные термины, одна идея: точное совпадение плюс смысл.

#гибридный_поиск #полнотекстовый_поиск #векторный_поиск #full_text_search #knnsearch #vector_search #bm25 #rag

#rag #bm25 #vector_search #knnsearch #full_text_search #векторный_поиск

Habr @[email protected] · 2026-04-03 · 05:12 UTC

Гибридный поиск в Manticore Search

Поиск редко сводится к одному универсальному сценарию. Пользователь, вводящий "cheap running shoes", хочет точных совпадений по ключевым словам, а пользователь, задающий "comfortable footwear for jogging", выражает то же намерение другими словами. Традиционный полнотекстовый поиск хорошо справляется с первым случаем. Векторный поиск решает второй. Гибридный поиск объединяет оба в одном запросе, так что вам не приходится выбирать. В современных поисковых системах это часто описывается как комбинирование лексического (разреженного) поиска с семантическим (плотным) поиском . Разные термины, одна идея: точное совпадение плюс смысл.

#гибридный_поиск #полнотекстовый_поиск #векторный_поиск #full_text_search #knnsearch #vector_search #bm25 #rag

#rag #bm25 #vector_search #knnsearch #full_text_search #векторный_поиск

Habr @[email protected] · 2026-04-03 · 05:12 UTC

Гибридный поиск в Manticore Search

Поиск редко сводится к одному универсальному сценарию. Пользователь, вводящий "cheap running shoes", хочет точных совпадений по ключевым словам, а пользователь, задающий "comfortable footwear for jogging", выражает то же намерение другими словами. Традиционный полнотекстовый поиск хорошо справляется с первым случаем. Векторный поиск решает второй. Гибридный поиск объединяет оба в одном запросе, так что вам не приходится выбирать. В современных поисковых системах это часто описывается как комбинирование лексического (разреженного) поиска с семантическим (плотным) поиском . Разные термины, одна идея: точное совпадение плюс смысл.

#гибридный_поиск #полнотекстовый_поиск #векторный_поиск #full_text_search #knnsearch #vector_search #bm25 #rag

#гибридный_поиск #полнотекстовый_поиск #векторный_поиск #full_text_search #knnsearch #vector_search

Habr @[email protected] · 2026-04-02 · 09:12 UTC

[Перевод] О важности времени в архитектуре систем ИИ

Одной из наиболее недооцененных сил при проектировании систем ИИ является задержка при выполнении вычислений. Когда инженеры говорят о производительности модели, они часто сосредотачиваются на точности, полноте данных и производительности обучения. Но в производственных системах для пользователей огромное значение имеет время. Для них важно, чтобы система отвечала на их запросы достаточно быстро. Потому что даже самая умная система ИИ начинает сильно раздражать, если ответ на запрос пользователя приходит слишком поздно. Именно поэтому задержка часто определяет архитектуру модели в большей степени, чем общее проектное решение. Про архитектуру ИИ

https://habr.com/ru/companies/otus/articles/1015542/

#ai #архитектура #задержка_в_ИИ #latency #архитектура_ИИсистем #RAG #векторный_поиск #инференс_моделей #оптимизация_производительности #параллельные_вычисления

#параллельные_вычисления #оптимизация_производительности #инференс_моделей #векторный_поиск #rag #архитектура_иисистем

Habr @[email protected] · 2026-03-24 · 19:52 UTC

Agentic RAG Challenge. Я знаю что вы искали прошлым летом…

В данной статье хотел бы поделиться опытом участия в хакатоне Agentic Legal RAG Challenge 2026 . Наша команда называется "Sparks of intelligence".

#rag #qdrant #llamaindex #ии_агент #векторный_поиск #чанкинг #гибридный_поиск #векторная_база_данных #хакатон

#хакатон #векторная_база_данных #гибридный_поиск #чанкинг #векторный_поиск #ии_агент

Habr @[email protected] · 2026-03-24 · 19:52 UTC

Agentic RAG Challenge. Я знаю что вы искали прошлым летом…

В данной статье хотел бы поделиться опытом участия в хакатоне Agentic Legal RAG Challenge 2026 . Наша команда называется "Sparks of intelligence".

#rag #qdrant #llamaindex #ии_агент #векторный_поиск #чанкинг #гибридный_поиск #векторная_база_данных #хакатон

#хакатон #векторная_база_данных #гибридный_поиск #чанкинг #векторный_поиск #ии_агент

Habr @[email protected] · 2026-03-24 · 19:52 UTC

Agentic RAG Challenge. Я знаю что вы искали прошлым летом…

В данной статье хотел бы поделиться опытом участия в хакатоне Agentic Legal RAG Challenge 2026 . Наша команда называется "Sparks of intelligence".

#rag #qdrant #llamaindex #ии_агент #векторный_поиск #чанкинг #гибридный_поиск #векторная_база_данных #хакатон

#хакатон #векторная_база_данных #гибридный_поиск #чанкинг #векторный_поиск #ии_агент

Habr @[email protected] · 2026-03-24 · 19:52 UTC

Agentic RAG Challenge. Я знаю что вы искали прошлым летом…

В данной статье хотел бы поделиться опытом участия в хакатоне Agentic Legal RAG Challenge 2026 . Наша команда называется "Sparks of intelligence".

#rag #qdrant #llamaindex #ии_агент #векторный_поиск #чанкинг #гибридный_поиск #векторная_база_данных #хакатон

#rag #qdrant #llamaindex #ии_агент #векторный_поиск #чанкинг

Habr @[email protected] · 2026-03-22 · 12:42 UTC

RAG: как Филин Палыч-реранкер навел порядок в цифровом королевстве

Если вы хоть раз общались с большими языковыми моделями, то знаете их главную слабость: они патологические лжецы. Они могут с абсолютной уверенностью рассказывать о вещах, которых никогда не существовало. В мире IT это называют «галлюцинациями», а лечат их с помощью RAG (Retrieval-Augmented Generation) . Если просто: это способ дать модели «шпаргалку» из ваших документов, чтобы она не гадала, а опиралась на факты. Но как эта сложная механика выглядит изнутри? Давайте разберем устройство RAG на примере одной поучительной истории из Цифрового Королевства, где один рыжий Кот чуть не довел Бизнес до нервного срыва своим враньем.

https://habr.com/ru/articles/1011992/

#RAG #LLM #Reranker #Векторный_поиск #научпоп #эмбеддинги

#эмбеддинги #научпоп #векторный_поиск #reranker #llm #rag

Habr @[email protected] · 2026-03-11 · 09:52 UTC

Как Нейроюрист ищет по миллионам юридических документов с помощью векторного поиска YDB

Привет, Хабр! Меня зовут Александр Зевайкин, и мы с командой делаем YDB (СУБД Яндекса). В конце прошлого года Яндекс представил специализированного ИИ‑помощника — Нейроюриста , для которого обучил языковую модель на основе Alice AI LLM. Сервис работает на базе RAG, под капотом у которого находится YDB c миллионами различных юридических документов. Под катом — история о том, как команда разработки Нейроюриста сделала семейство векторных индексов, чтобы находить нужное количество документов при любых параметрах фильтрации. Я кратко расскажу про архитектуру векторного индекса, покажу, как выбирать правильные настройки, и продемонстрирую бенчмарки получившегося решения.

https://habr.com/ru/companies/yandex/articles/990288/

https://habr.com/ru/companies/yandex/articles/990288/

#векторный_индекс #векторный_поиск #нейросети #ydb

Habr @[email protected] · 2026-03-11 · 09:52 UTC

Как Нейроюрист ищет по миллионам юридических документов с помощью векторного поиска YDB

Привет, Хабр! Меня зовут Александр Зевайкин, и мы с командой делаем YDB (СУБД Яндекса). В конце прошлого года Яндекс представил специализированного ИИ‑помощника — Нейроюриста , для которого обучил языковую модель на основе Alice AI LLM. Сервис работает на базе RAG, под капотом у которого находится YDB c миллионами различных юридических документов. Под катом — история о том, как команда разработки Нейроюриста сделала семейство векторных индексов, чтобы находить нужное количество документов при любых параметрах фильтрации. Я кратко расскажу про архитектуру векторного индекса, покажу, как выбирать правильные настройки, и продемонстрирую бенчмарки получившегося решения.

https://habr.com/ru/companies/yandex/articles/990288/

#векторный_индекс #векторный_поиск #нейросети #ydb

Habr @[email protected] · 2026-03-11 · 09:52 UTC

Как Нейроюрист ищет по миллионам юридических документов с помощью векторного поиска YDB

Привет, Хабр! Меня зовут Александр Зевайкин, и мы с командой делаем YDB (СУБД Яндекса). В конце прошлого года Яндекс представил специализированного ИИ‑помощника — Нейроюриста , для которого обучил языковую модель на основе Alice AI LLM. Сервис работает на базе RAG, под капотом у которого находится YDB c миллионами различных юридических документов. Под катом — история о том, как команда разработки Нейроюриста сделала семейство векторных индексов, чтобы находить нужное количество документов при любых параметрах фильтрации. Я кратко расскажу про архитектуру векторного индекса, покажу, как выбирать правильные настройки, и продемонстрирую бенчмарки получившегося решения.

https://habr.com/ru/companies/yandex/articles/990288/

#векторный_индекс #векторный_поиск #нейросети #ydb

Habr @[email protected] · 2026-03-11 · 09:52 UTC

Как Нейроюрист ищет по миллионам юридических документов с помощью векторного поиска YDB

Привет, Хабр! Меня зовут Александр Зевайкин, и мы с командой делаем YDB (СУБД Яндекса). В конце прошлого года Яндекс представил специализированного ИИ‑помощника — Нейроюриста , для которого обучил языковую модель на основе Alice AI LLM. Сервис работает на базе RAG, под капотом у которого находится YDB c миллионами различных юридических документов. Под катом — история о том, как команда разработки Нейроюриста сделала семейство векторных индексов, чтобы находить нужное количество документов при любых параметрах фильтрации. Я кратко расскажу про архитектуру векторного индекса, покажу, как выбирать правильные настройки, и продемонстрирую бенчмарки получившегося решения.

https://habr.com/ru/articles/1003212/

Habr @[email protected] · 2026-02-25 · 12:42 UTC

RAG vs Fine-tuning: когда что выбирать — опыт 30+ проектов

За 30+ проектов я использовал RAG в 80% случаев, Fine-tuning — в 15%, комбинацию — в 5%. В статье — практическая матрица выбора: когда RAG достаточно, когда нужен fine-tuning, а когда гибрид. С примерами кода, реальными сценариями и разбором ошибок.2

#RAG #Finetuning #векторный_поиск #LLM #NLP #архитектура

#архитектура #nlp #llm #векторный_поиск #finetuning #rag

Habr @[email protected] · 2026-02-09 · 17:42 UTC

Мой локальный агент помнит проект лучше меня. Контекст — 32K токенов. Расскажу, как

Мой агент на Llama 3.1 8B в третий раз спросил, как меня зовут. Я представился 200 сообщений назад. Контекст переполнился — начало разговора уехало. Большие контексты не спасают: дорого, «Lost in the Middle», локально не влезает. Суммаризация теряет детали. Я сделал по-другому — три типа внешней памяти: Redis для фактов, ChromaDB для семантического поиска, файлы для документов. Контекст маленький, память большая. Внутри — код на Python и грабли, на которые я уже наступил.

#LLM #AIагенты #память_LLM #RAG #Redis #ChromaDB #векторный_поиск #sentencetransformers #llama #локальные_модели

#локальные_модели #llama #sentencetransformers #векторный_поиск #chromadb #redis

Habr @[email protected] · 2026-02-09 · 17:42 UTC

Мой локальный агент помнит проект лучше меня. Контекст — 32K токенов. Расскажу, как

Мой агент на Llama 3.1 8B в третий раз спросил, как меня зовут. Я представился 200 сообщений назад. Контекст переполнился — начало разговора уехало. Большие контексты не спасают: дорого, «Lost in the Middle», локально не влезает. Суммаризация теряет детали. Я сделал по-другому — три типа внешней памяти: Redis для фактов, ChromaDB для семантического поиска, файлы для документов. Контекст маленький, память большая. Внутри — код на Python и грабли, на которые я уже наступил.

#LLM #AIагенты #память_LLM #RAG #Redis #ChromaDB #векторный_поиск #sentencetransformers #llama #локальные_модели

#локальные_модели #llama #sentencetransformers #векторный_поиск #chromadb #redis

Habr @[email protected] · 2026-02-09 · 17:42 UTC

Мой локальный агент помнит проект лучше меня. Контекст — 32K токенов. Расскажу, как

Мой агент на Llama 3.1 8B в третий раз спросил, как меня зовут. Я представился 200 сообщений назад. Контекст переполнился — начало разговора уехало. Большие контексты не спасают: дорого, «Lost in the Middle», локально не влезает. Суммаризация теряет детали. Я сделал по-другому — три типа внешней памяти: Redis для фактов, ChromaDB для семантического поиска, файлы для документов. Контекст маленький, память большая. Внутри — код на Python и грабли, на которые я уже наступил.

#LLM #AIагенты #память_LLM #RAG #Redis #ChromaDB #векторный_поиск #sentencetransformers #llama #локальные_модели

#локальные_модели #llama #sentencetransformers #векторный_поиск #chromadb #redis

Habr @[email protected] · 2026-02-09 · 17:42 UTC

Мой локальный агент помнит проект лучше меня. Контекст — 32K токенов. Расскажу, как

Мой агент на Llama 3.1 8B в третий раз спросил, как меня зовут. Я представился 200 сообщений назад. Контекст переполнился — начало разговора уехало. Большие контексты не спасают: дорого, «Lost in the Middle», локально не влезает. Суммаризация теряет детали. Я сделал по-другому — три типа внешней памяти: Redis для фактов, ChromaDB для семантического поиска, файлы для документов. Контекст маленький, память большая. Внутри — код на Python и грабли, на которые я уже наступил.

#LLM #AIагенты #память_LLM #RAG #Redis #ChromaDB #векторный_поиск #sentencetransformers #llama #локальные_модели

#llm #aiагенты #память_llm #rag #redis #chromadb

Habr @[email protected] · 2026-02-07 · 23:02 UTC

AI для PHP-разработчиков. Часть 2: практическое использование TransformersPHP

AI в PHP: не теория, а место, с которого можно начать В своей прошлой статье я описал на довольно общем уровне почему тема AI вроде бы везде, но при этом почти не пересекается с повседневной PHP-разработкой. Не потому что PHP "не подходит", а потому что сам разговор обычно идёт мимо наших задач и привычного способа мышления. Ну и, конечно, о том, что почти нет материала, который объясняет AI именно для PHP-разработчиков, их задач и их мышления. После публикации мне несколько раз задали один и тот же вопрос, в разных формулировках: Окей, допустим. А с чего конкретно начать? И это, пожалуй, самый интересный вопрос из тех, что я получил. Ниже я попытаюсь дать на него ответ.

#php #ai #ml #машинное_обучение #искусственный_интеллект #эмбеддинги #трансформеры #векторный_поиск #поиск_по_тексту #эмбеддинг

#эмбеддинг #поиск_по_тексту #векторный_поиск #трансформеры #эмбеддинги #искусственный_интеллект

Habr @[email protected] · 2026-02-07 · 23:02 UTC

AI для PHP-разработчиков. Часть 2: практическое использование TransformersPHP

AI в PHP: не теория, а место, с которого можно начать В своей прошлой статье я описал на довольно общем уровне почему тема AI вроде бы везде, но при этом почти не пересекается с повседневной PHP-разработкой. Не потому что PHP "не подходит", а потому что сам разговор обычно идёт мимо наших задач и привычного способа мышления. Ну и, конечно, о том, что почти нет материала, который объясняет AI именно для PHP-разработчиков, их задач и их мышления. После публикации мне несколько раз задали один и тот же вопрос, в разных формулировках: Окей, допустим. А с чего конкретно начать? И это, пожалуй, самый интересный вопрос из тех, что я получил. Ниже я попытаюсь дать на него ответ.

#php #ai #ml #машинное_обучение #искусственный_интеллект #эмбеддинги #трансформеры #векторный_поиск #поиск_по_тексту #эмбеддинг

#эмбеддинг #поиск_по_тексту #векторный_поиск #трансформеры #эмбеддинги #искусственный_интеллект

Habr @[email protected] · 2026-02-07 · 23:02 UTC

AI для PHP-разработчиков. Часть 2: практическое использование TransformersPHP

AI в PHP: не теория, а место, с которого можно начать В своей прошлой статье я описал на довольно общем уровне почему тема AI вроде бы везде, но при этом почти не пересекается с повседневной PHP-разработкой. Не потому что PHP "не подходит", а потому что сам разговор обычно идёт мимо наших задач и привычного способа мышления. Ну и, конечно, о том, что почти нет материала, который объясняет AI именно для PHP-разработчиков, их задач и их мышления. После публикации мне несколько раз задали один и тот же вопрос, в разных формулировках: Окей, допустим. А с чего конкретно начать? И это, пожалуй, самый интересный вопрос из тех, что я получил. Ниже я попытаюсь дать на него ответ.

#php #ai #ml #машинное_обучение #искусственный_интеллект #эмбеддинги #трансформеры #векторный_поиск #поиск_по_тексту #эмбеддинг

#php #ai #ml #машинное_обучение #искусственный_интеллект #эмбеддинги

Habr @[email protected] · 2026-02-07 · 23:02 UTC

AI для PHP-разработчиков. Часть 2: практическое использование TransformersPHP

AI в PHP: не теория, а место, с которого можно начать В своей прошлой статье я описал на довольно общем уровне почему тема AI вроде бы везде, но при этом почти не пересекается с повседневной PHP-разработкой. Не потому что PHP "не подходит", а потому что сам разговор обычно идёт мимо наших задач и привычного способа мышления. Ну и, конечно, о том, что почти нет материала, который объясняет AI именно для PHP-разработчиков, их задач и их мышления. После публикации мне несколько раз задали один и тот же вопрос, в разных формулировках: Окей, допустим. А с чего конкретно начать? И это, пожалуй, самый интересный вопрос из тех, что я получил. Ниже я попытаюсь дать на него ответ.

#php #ai #ml #машинное_обучение #искусственный_интеллект #эмбеддинги #трансформеры #векторный_поиск #поиск_по_тексту #эмбеддинг

#эмбеддинг #поиск_по_тексту #векторный_поиск #трансформеры #эмбеддинги #искусственный_интеллект

Habr @[email protected] · 2026-02-04 · 13:52 UTC

Подводные камни векторного поиска по базе знаний

Сегодня я хочу поделиться опытом реализации функциональности векторного поиска статей по базе знаний. Результаты векторного поиска статей из БЗ мы показываем в чат-боте в виде статей-инструкций, которые пользователь читает и выполняет. Казалось бы функциональность проще некуда, однако...

https://habr.com/ru/articles/992760/

#косинусная_близость #векторный_поиск

#векторный_поиск #косинусная_близость

Habr @[email protected] · 2026-02-02 · 11:02 UTC

Как я пытался сжимать смыслы вместо байтов

Написал прототип SemanticZip: сжатие текста в 14 раз за счет удаления «выводимой» информации. Теория информации, Колмогоровская сложность. В теории все работало... Разбор полетов: почему нельзя сжимать смыслы и почему красивые метафоры проигрывают скучному RAG

#LLM #RAG #Claude #Context_Window #Semantic_Compression #Prompt_Engineering #Векторный_поиск #Галлюцинации #Опыт #Сжатие_данных

#сжатие_данных #опыт #галлюцинации #векторный_поиск #prompt_engineering #semantic_compression

Habr @[email protected] · 2026-02-02 · 11:02 UTC

Как я пытался сжимать смыслы вместо байтов

Написал прототип SemanticZip: сжатие текста в 14 раз за счет удаления «выводимой» информации. Теория информации, Колмогоровская сложность. В теории все работало... Разбор полетов: почему нельзя сжимать смыслы и почему красивые метафоры проигрывают скучному RAG

#LLM #RAG #Claude #Context_Window #Semantic_Compression #Prompt_Engineering #Векторный_поиск #Галлюцинации #Опыт #Сжатие_данных

#сжатие_данных #опыт #галлюцинации #векторный_поиск #prompt_engineering #semantic_compression

Habr @[email protected] · 2026-02-02 · 11:02 UTC

Как я пытался сжимать смыслы вместо байтов

Написал прототип SemanticZip: сжатие текста в 14 раз за счет удаления «выводимой» информации. Теория информации, Колмогоровская сложность. В теории все работало... Разбор полетов: почему нельзя сжимать смыслы и почему красивые метафоры проигрывают скучному RAG

#LLM #RAG #Claude #Context_Window #Semantic_Compression #Prompt_Engineering #Векторный_поиск #Галлюцинации #Опыт #Сжатие_данных

#сжатие_данных #опыт #галлюцинации #векторный_поиск #prompt_engineering #semantic_compression

Habr @[email protected] · 2026-02-02 · 11:02 UTC

Как я пытался сжимать смыслы вместо байтов

Написал прототип SemanticZip: сжатие текста в 14 раз за счет удаления «выводимой» информации. Теория информации, Колмогоровская сложность. В теории все работало... Разбор полетов: почему нельзя сжимать смыслы и почему красивые метафоры проигрывают скучному RAG