#векторный_поиск — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #векторный_поиск, aggregated by home.social.
-
Хакатон Samsung IT Academy Hack 2026: как студенты оптимизировали поиск в корпоративном мессенджере
Поиск — штука настолько привычная, что её редко рассматривают как отдельную инженерную задачу. На деле это связка из четырёх частей: парсинг и нормализация исходных данных, индексация, обработка пользовательского запроса и ранжирование результатов. Каждая из них живёт по своим правилам и ломается по своим причинам. Сложно представить более прикладную область, поэтому на хакатоне IT Academy Hack 2026 от IT Академии Samsung Innovation Campus в этом году, мы решили попросить студентов предложить варианты улучшения поиска по сообщениям в контуре корпоративного мессенджера. Кстати, VK Tech стал индустриальным партнером конкурса уже во второй раз — предоставил инфраструктуру для студентов, и стал одним из постановщиков задач. Меня зовут Сергей Харламов, я руковожу Исследовательской лабораторией VK Tech . В этой статье расскажу об актуальных проблемах оптимизации поиска, а также о задаче и подходах, которые можно было применить для ее решения.
https://habr.com/ru/companies/vktech/articles/1038306/
#хакатон #поиск #информационный_поиск #elasticsearch #qdrant #embeddings #векторный_поиск #ранжирование #vk_workspace #vk_tech
-
Надо ли бороться с анизотропией эмбеддингов
Анизотропия эмбеддингов не всегда зло, но «сырой» косинус часто даёт слишком размытый сигнал. Центрирование убирает общий фон и помогает увидеть различия, не разрушая локальные смысловые области. Показываю это на реальных расчётах из Obsidian‑базы.
https://habr.com/ru/articles/1037906/
#эмбеддинги #анизотропия_эмбеддингов #база_знаний #векторный_поиск #калибровка_эмбедингов #косинусное_сходство
-
RAG для тех, кто разочаровался: почему retrieval ломается и как это починить
Вы собрали RAG-пайплайн: загрузили документы, нарезали на чанки, сгенерировали эмбеддинги, подключили векторную базу. Задаёте вопрос — модель отвечает уверенно и подробно. Показываете заказчику, тот в восторге. Потом начинается тестирование на реальных вопросах, и оказывается, что на половину из них система отвечает мимо: то находит не тот документ, то находит правильный, но не тот кусок, то вообще ничего релевантного не достаёт и модель уверенно галлюцинирует. Каждый раз проблема не в модели (GPT-4 и Claude отвечают хорошо, если им дать правильный контекст), а в retrieval — в том, как мы ищем релевантные куски документов. Модель отвечает ровно настолько хорошо, насколько хорош контекст, который ей подсунули. Рассмотрим три основные причины. Разобрать RAG
-
RAG для тех, кто разочаровался: почему retrieval ломается и как это починить
Вы собрали RAG-пайплайн: загрузили документы, нарезали на чанки, сгенерировали эмбеддинги, подключили векторную базу. Задаёте вопрос — модель отвечает уверенно и подробно. Показываете заказчику, тот в восторге. Потом начинается тестирование на реальных вопросах, и оказывается, что на половину из них система отвечает мимо: то находит не тот документ, то находит правильный, но не тот кусок, то вообще ничего релевантного не достаёт и модель уверенно галлюцинирует. Каждый раз проблема не в модели (GPT-4 и Claude отвечают хорошо, если им дать правильный контекст), а в retrieval — в том, как мы ищем релевантные куски документов. Модель отвечает ровно настолько хорошо, насколько хорош контекст, который ей подсунули. Рассмотрим три основные причины. Разобрать RAG
-
RAG для тех, кто разочаровался: почему retrieval ломается и как это починить
Вы собрали RAG-пайплайн: загрузили документы, нарезали на чанки, сгенерировали эмбеддинги, подключили векторную базу. Задаёте вопрос — модель отвечает уверенно и подробно. Показываете заказчику, тот в восторге. Потом начинается тестирование на реальных вопросах, и оказывается, что на половину из них система отвечает мимо: то находит не тот документ, то находит правильный, но не тот кусок, то вообще ничего релевантного не достаёт и модель уверенно галлюцинирует. Каждый раз проблема не в модели (GPT-4 и Claude отвечают хорошо, если им дать правильный контекст), а в retrieval — в том, как мы ищем релевантные куски документов. Модель отвечает ровно настолько хорошо, насколько хорош контекст, который ей подсунули. Рассмотрим три основные причины. Разобрать RAG
-
RAG для тех, кто разочаровался: почему retrieval ломается и как это починить
Вы собрали RAG-пайплайн: загрузили документы, нарезали на чанки, сгенерировали эмбеддинги, подключили векторную базу. Задаёте вопрос — модель отвечает уверенно и подробно. Показываете заказчику, тот в восторге. Потом начинается тестирование на реальных вопросах, и оказывается, что на половину из них система отвечает мимо: то находит не тот документ, то находит правильный, но не тот кусок, то вообще ничего релевантного не достаёт и модель уверенно галлюцинирует. Каждый раз проблема не в модели (GPT-4 и Claude отвечают хорошо, если им дать правильный контекст), а в retrieval — в том, как мы ищем релевантные куски документов. Модель отвечает ровно настолько хорошо, насколько хорош контекст, который ей подсунули. Рассмотрим три основные причины. Разобрать RAG
-
Как мы довели поиск товаров по изображению до 98% совпадений: FastAPI, DINOv2, Qdrant и поиск на фото полки
Поиск товара по изображению кажется простой задачей — ровно до момента, пока не сталкиваешься с реальным каталогом . В теории все выглядит аккуратно: берем фото, считаем embedding, ищем ближайшие вектора, возвращаем совпадения. На практике начинаются нюансы: у товара несколько изображений, ракурсы отличаются, фон мешает, каталог обновляется постоянно, а бизнес ждет не исследовательский прототип, а сервис, который можно поставить в production. С вами старший программист в Fix Price Константин Репин. И в этом материале разберу, как мы строили сервис визуального поиска товаров, какие инженерные решения реально повлияли на качество и почему текущий результат в 98% совпадений получился не из-за одной удачной модели, а из-за правильно собранного пайплайна.
https://habr.com/ru/companies/fix_price/articles/1034664/
#поиск_товаров #FastAPI #dinov2 #qdrant #визуальные_эмбеддинги #векторный_поиск
-
Как мы довели поиск товаров по изображению до 98% совпадений: FastAPI, DINOv2, Qdrant и поиск на фото полки
Поиск товара по изображению кажется простой задачей — ровно до момента, пока не сталкиваешься с реальным каталогом . В теории все выглядит аккуратно: берем фото, считаем embedding, ищем ближайшие вектора, возвращаем совпадения. На практике начинаются нюансы: у товара несколько изображений, ракурсы отличаются, фон мешает, каталог обновляется постоянно, а бизнес ждет не исследовательский прототип, а сервис, который можно поставить в production. С вами старший программист в Fix Price Константин Репин. И в этом материале разберу, как мы строили сервис визуального поиска товаров, какие инженерные решения реально повлияли на качество и почему текущий результат в 98% совпадений получился не из-за одной удачной модели, а из-за правильно собранного пайплайна.
https://habr.com/ru/companies/fix_price/articles/1034664/
#поиск_товаров #FastAPI #dinov2 #qdrant #визуальные_эмбеддинги #векторный_поиск
-
Как мы довели поиск товаров по изображению до 98% совпадений: FastAPI, DINOv2, Qdrant и поиск на фото полки
Поиск товара по изображению кажется простой задачей — ровно до момента, пока не сталкиваешься с реальным каталогом . В теории все выглядит аккуратно: берем фото, считаем embedding, ищем ближайшие вектора, возвращаем совпадения. На практике начинаются нюансы: у товара несколько изображений, ракурсы отличаются, фон мешает, каталог обновляется постоянно, а бизнес ждет не исследовательский прототип, а сервис, который можно поставить в production. С вами старший программист в Fix Price Константин Репин. И в этом материале разберу, как мы строили сервис визуального поиска товаров, какие инженерные решения реально повлияли на качество и почему текущий результат в 98% совпадений получился не из-за одной удачной модели, а из-за правильно собранного пайплайна.
https://habr.com/ru/companies/fix_price/articles/1034664/
#поиск_товаров #FastAPI #dinov2 #qdrant #визуальные_эмбеддинги #векторный_поиск
-
Как мы довели поиск товаров по изображению до 98% совпадений: FastAPI, DINOv2, Qdrant и поиск на фото полки
Поиск товара по изображению кажется простой задачей — ровно до момента, пока не сталкиваешься с реальным каталогом . В теории все выглядит аккуратно: берем фото, считаем embedding, ищем ближайшие вектора, возвращаем совпадения. На практике начинаются нюансы: у товара несколько изображений, ракурсы отличаются, фон мешает, каталог обновляется постоянно, а бизнес ждет не исследовательский прототип, а сервис, который можно поставить в production. С вами старший программист в Fix Price Константин Репин. И в этом материале разберу, как мы строили сервис визуального поиска товаров, какие инженерные решения реально повлияли на качество и почему текущий результат в 98% совпадений получился не из-за одной удачной модели, а из-за правильно собранного пайплайна.
https://habr.com/ru/companies/fix_price/articles/1034664/
#поиск_товаров #FastAPI #dinov2 #qdrant #визуальные_эмбеддинги #векторный_поиск
-
SocratiCode: разбираю MCP-сервер, который даёт ИИ-агенту понимание кодовой базы
Если ваш ИИ-агент при каждом вопросе начинает grep-ом по всему проекту — у меня есть для вас одна штука. SocratiCode — это MCP-сервер, который индексирует кодовую базу через Qdrant и даёт агенту нормальный поиск вместо построчного чтения. Разобрал, как он устроен внутри, потестировал на нашем монорепе и сравнил с обычным режимом Claude Code
https://habr.com/ru/articles/1031878/
#MCP #Claude_Code #векторный_поиск #Qdrant #Ollama #codebase_intelligence #AIагенты #RAG
-
SocratiCode: разбираю MCP-сервер, который даёт ИИ-агенту понимание кодовой базы
Если ваш ИИ-агент при каждом вопросе начинает grep-ом по всему проекту — у меня есть для вас одна штука. SocratiCode — это MCP-сервер, который индексирует кодовую базу через Qdrant и даёт агенту нормальный поиск вместо построчного чтения. Разобрал, как он устроен внутри, потестировал на нашем монорепе и сравнил с обычным режимом Claude Code
https://habr.com/ru/articles/1031878/
#MCP #Claude_Code #векторный_поиск #Qdrant #Ollama #codebase_intelligence #AIагенты #RAG
-
SocratiCode: разбираю MCP-сервер, который даёт ИИ-агенту понимание кодовой базы
Если ваш ИИ-агент при каждом вопросе начинает grep-ом по всему проекту — у меня есть для вас одна штука. SocratiCode — это MCP-сервер, который индексирует кодовую базу через Qdrant и даёт агенту нормальный поиск вместо построчного чтения. Разобрал, как он устроен внутри, потестировал на нашем монорепе и сравнил с обычным режимом Claude Code
https://habr.com/ru/articles/1031878/
#MCP #Claude_Code #векторный_поиск #Qdrant #Ollama #codebase_intelligence #AIагенты #RAG
-
SocratiCode: разбираю MCP-сервер, который даёт ИИ-агенту понимание кодовой базы
Если ваш ИИ-агент при каждом вопросе начинает grep-ом по всему проекту — у меня есть для вас одна штука. SocratiCode — это MCP-сервер, который индексирует кодовую базу через Qdrant и даёт агенту нормальный поиск вместо построчного чтения. Разобрал, как он устроен внутри, потестировал на нашем монорепе и сравнил с обычным режимом Claude Code
https://habr.com/ru/articles/1031878/
#MCP #Claude_Code #векторный_поиск #Qdrant #Ollama #codebase_intelligence #AIагенты #RAG
-
Предварительная фильтрация KNN в Manticore Search
Векторный поиск редко используется сам по себе. Почти всегда есть фильтры — диапазон цен, категория, временное окно, географическая граница. Вопрос в том, когда именно эти фильтры применяются. Ответ оказывает неожиданно большое влияние на качество результатов. Предварительная фильтрация KNN доступна в Manticore Search начиная с версии 19.0.1 .
https://habr.com/ru/articles/1020166/
#knnsearch #алгоритмы_и_структуры_данных #полнотекстовый_поиск #векторный_поиск #оптимизация_поиска #фильтрация_данных #эмбеддинги
-
Предварительная фильтрация KNN в Manticore Search
Векторный поиск редко используется сам по себе. Почти всегда есть фильтры — диапазон цен, категория, временное окно, географическая граница. Вопрос в том, когда именно эти фильтры применяются. Ответ оказывает неожиданно большое влияние на качество результатов. Предварительная фильтрация KNN доступна в Manticore Search начиная с версии 19.0.1 .
https://habr.com/ru/articles/1020166/
#knnsearch #алгоритмы_и_структуры_данных #полнотекстовый_поиск #векторный_поиск #оптимизация_поиска #фильтрация_данных #эмбеддинги
-
Предварительная фильтрация KNN в Manticore Search
Векторный поиск редко используется сам по себе. Почти всегда есть фильтры — диапазон цен, категория, временное окно, географическая граница. Вопрос в том, когда именно эти фильтры применяются. Ответ оказывает неожиданно большое влияние на качество результатов. Предварительная фильтрация KNN доступна в Manticore Search начиная с версии 19.0.1 .
https://habr.com/ru/articles/1020166/
#knnsearch #алгоритмы_и_структуры_данных #полнотекстовый_поиск #векторный_поиск #оптимизация_поиска #фильтрация_данных #эмбеддинги
-
Предварительная фильтрация KNN в Manticore Search
Векторный поиск редко используется сам по себе. Почти всегда есть фильтры — диапазон цен, категория, временное окно, географическая граница. Вопрос в том, когда именно эти фильтры применяются. Ответ оказывает неожиданно большое влияние на качество результатов. Предварительная фильтрация KNN доступна в Manticore Search начиная с версии 19.0.1 .
https://habr.com/ru/articles/1020166/
#knnsearch #алгоритмы_и_структуры_данных #полнотекстовый_поиск #векторный_поиск #оптимизация_поиска #фильтрация_данных #эмбеддинги
-
Гибридный поиск в Manticore Search
Поиск редко сводится к одному универсальному сценарию. Пользователь, вводящий "cheap running shoes", хочет точных совпадений по ключевым словам, а пользователь, задающий "comfortable footwear for jogging", выражает то же намерение другими словами. Традиционный полнотекстовый поиск хорошо справляется с первым случаем. Векторный поиск решает второй. Гибридный поиск объединяет оба в одном запросе, так что вам не приходится выбирать. В современных поисковых системах это часто описывается как комбинирование лексического (разреженного) поиска с семантическим (плотным) поиском . Разные термины, одна идея: точное совпадение плюс смысл.
https://habr.com/ru/articles/1018754/
#гибридный_поиск #полнотекстовый_поиск #векторный_поиск #full_text_search #knnsearch #vector_search #bm25 #rag
-
Гибридный поиск в Manticore Search
Поиск редко сводится к одному универсальному сценарию. Пользователь, вводящий "cheap running shoes", хочет точных совпадений по ключевым словам, а пользователь, задающий "comfortable footwear for jogging", выражает то же намерение другими словами. Традиционный полнотекстовый поиск хорошо справляется с первым случаем. Векторный поиск решает второй. Гибридный поиск объединяет оба в одном запросе, так что вам не приходится выбирать. В современных поисковых системах это часто описывается как комбинирование лексического (разреженного) поиска с семантическим (плотным) поиском . Разные термины, одна идея: точное совпадение плюс смысл.
https://habr.com/ru/articles/1018754/
#гибридный_поиск #полнотекстовый_поиск #векторный_поиск #full_text_search #knnsearch #vector_search #bm25 #rag
-
Гибридный поиск в Manticore Search
Поиск редко сводится к одному универсальному сценарию. Пользователь, вводящий "cheap running shoes", хочет точных совпадений по ключевым словам, а пользователь, задающий "comfortable footwear for jogging", выражает то же намерение другими словами. Традиционный полнотекстовый поиск хорошо справляется с первым случаем. Векторный поиск решает второй. Гибридный поиск объединяет оба в одном запросе, так что вам не приходится выбирать. В современных поисковых системах это часто описывается как комбинирование лексического (разреженного) поиска с семантическим (плотным) поиском . Разные термины, одна идея: точное совпадение плюс смысл.
https://habr.com/ru/articles/1018754/
#гибридный_поиск #полнотекстовый_поиск #векторный_поиск #full_text_search #knnsearch #vector_search #bm25 #rag
-
Гибридный поиск в Manticore Search
Поиск редко сводится к одному универсальному сценарию. Пользователь, вводящий "cheap running shoes", хочет точных совпадений по ключевым словам, а пользователь, задающий "comfortable footwear for jogging", выражает то же намерение другими словами. Традиционный полнотекстовый поиск хорошо справляется с первым случаем. Векторный поиск решает второй. Гибридный поиск объединяет оба в одном запросе, так что вам не приходится выбирать. В современных поисковых системах это часто описывается как комбинирование лексического (разреженного) поиска с семантическим (плотным) поиском . Разные термины, одна идея: точное совпадение плюс смысл.
https://habr.com/ru/articles/1018754/
#гибридный_поиск #полнотекстовый_поиск #векторный_поиск #full_text_search #knnsearch #vector_search #bm25 #rag
-
[Перевод] О важности времени в архитектуре систем ИИ
Одной из наиболее недооцененных сил при проектировании систем ИИ является задержка при выполнении вычислений. Когда инженеры говорят о производительности модели, они часто сосредотачиваются на точности, полноте данных и производительности обучения. Но в производственных системах для пользователей огромное значение имеет время. Для них важно, чтобы система отвечала на их запросы достаточно быстро. Потому что даже самая умная система ИИ начинает сильно раздражать, если ответ на запрос пользователя приходит слишком поздно. Именно поэтому задержка часто определяет архитектуру модели в большей степени, чем общее проектное решение. Про архитектуру ИИ
https://habr.com/ru/companies/otus/articles/1015542/
#ai #архитектура #задержка_в_ИИ #latency #архитектура_ИИсистем #RAG #векторный_поиск #инференс_моделей #оптимизация_производительности #параллельные_вычисления
-
Agentic RAG Challenge. Я знаю что вы искали прошлым летом…
В данной статье хотел бы поделиться опытом участия в хакатоне Agentic Legal RAG Challenge 2026 . Наша команда называется "Sparks of intelligence".
https://habr.com/ru/articles/1014520/
#rag #qdrant #llamaindex #ии_агент #векторный_поиск #чанкинг #гибридный_поиск #векторная_база_данных #хакатон
-
Agentic RAG Challenge. Я знаю что вы искали прошлым летом…
В данной статье хотел бы поделиться опытом участия в хакатоне Agentic Legal RAG Challenge 2026 . Наша команда называется "Sparks of intelligence".
https://habr.com/ru/articles/1014520/
#rag #qdrant #llamaindex #ии_агент #векторный_поиск #чанкинг #гибридный_поиск #векторная_база_данных #хакатон
-
Agentic RAG Challenge. Я знаю что вы искали прошлым летом…
В данной статье хотел бы поделиться опытом участия в хакатоне Agentic Legal RAG Challenge 2026 . Наша команда называется "Sparks of intelligence".
https://habr.com/ru/articles/1014520/
#rag #qdrant #llamaindex #ии_агент #векторный_поиск #чанкинг #гибридный_поиск #векторная_база_данных #хакатон
-
Agentic RAG Challenge. Я знаю что вы искали прошлым летом…
В данной статье хотел бы поделиться опытом участия в хакатоне Agentic Legal RAG Challenge 2026 . Наша команда называется "Sparks of intelligence".
https://habr.com/ru/articles/1014520/
#rag #qdrant #llamaindex #ии_агент #векторный_поиск #чанкинг #гибридный_поиск #векторная_база_данных #хакатон
-
RAG: как Филин Палыч-реранкер навел порядок в цифровом королевстве
Если вы хоть раз общались с большими языковыми моделями, то знаете их главную слабость: они патологические лжецы. Они могут с абсолютной уверенностью рассказывать о вещах, которых никогда не существовало. В мире IT это называют «галлюцинациями», а лечат их с помощью RAG (Retrieval-Augmented Generation) . Если просто: это способ дать модели «шпаргалку» из ваших документов, чтобы она не гадала, а опиралась на факты. Но как эта сложная механика выглядит изнутри? Давайте разберем устройство RAG на примере одной поучительной истории из Цифрового Королевства, где один рыжий Кот чуть не довел Бизнес до нервного срыва своим враньем.
-
Как Нейроюрист ищет по миллионам юридических документов с помощью векторного поиска YDB
Привет, Хабр! Меня зовут Александр Зевайкин, и мы с командой делаем YDB (СУБД Яндекса). В конце прошлого года Яндекс представил специализированного ИИ‑помощника — Нейроюриста , для которого обучил языковую модель на основе Alice AI LLM. Сервис работает на базе RAG, под капотом у которого находится YDB c миллионами различных юридических документов. Под катом — история о том, как команда разработки Нейроюриста сделала семейство векторных индексов, чтобы находить нужное количество документов при любых параметрах фильтрации. Я кратко расскажу про архитектуру векторного индекса, покажу, как выбирать правильные настройки, и продемонстрирую бенчмарки получившегося решения.
-
Как Нейроюрист ищет по миллионам юридических документов с помощью векторного поиска YDB
Привет, Хабр! Меня зовут Александр Зевайкин, и мы с командой делаем YDB (СУБД Яндекса). В конце прошлого года Яндекс представил специализированного ИИ‑помощника — Нейроюриста , для которого обучил языковую модель на основе Alice AI LLM. Сервис работает на базе RAG, под капотом у которого находится YDB c миллионами различных юридических документов. Под катом — история о том, как команда разработки Нейроюриста сделала семейство векторных индексов, чтобы находить нужное количество документов при любых параметрах фильтрации. Я кратко расскажу про архитектуру векторного индекса, покажу, как выбирать правильные настройки, и продемонстрирую бенчмарки получившегося решения.
-
Как Нейроюрист ищет по миллионам юридических документов с помощью векторного поиска YDB
Привет, Хабр! Меня зовут Александр Зевайкин, и мы с командой делаем YDB (СУБД Яндекса). В конце прошлого года Яндекс представил специализированного ИИ‑помощника — Нейроюриста , для которого обучил языковую модель на основе Alice AI LLM. Сервис работает на базе RAG, под капотом у которого находится YDB c миллионами различных юридических документов. Под катом — история о том, как команда разработки Нейроюриста сделала семейство векторных индексов, чтобы находить нужное количество документов при любых параметрах фильтрации. Я кратко расскажу про архитектуру векторного индекса, покажу, как выбирать правильные настройки, и продемонстрирую бенчмарки получившегося решения.
-
Как Нейроюрист ищет по миллионам юридических документов с помощью векторного поиска YDB
Привет, Хабр! Меня зовут Александр Зевайкин, и мы с командой делаем YDB (СУБД Яндекса). В конце прошлого года Яндекс представил специализированного ИИ‑помощника — Нейроюриста , для которого обучил языковую модель на основе Alice AI LLM. Сервис работает на базе RAG, под капотом у которого находится YDB c миллионами различных юридических документов. Под катом — история о том, как команда разработки Нейроюриста сделала семейство векторных индексов, чтобы находить нужное количество документов при любых параметрах фильтрации. Я кратко расскажу про архитектуру векторного индекса, покажу, как выбирать правильные настройки, и продемонстрирую бенчмарки получившегося решения.
-
RAG vs Fine-tuning: когда что выбирать — опыт 30+ проектов
За 30+ проектов я использовал RAG в 80% случаев, Fine-tuning — в 15%, комбинацию — в 5%. В статье — практическая матрица выбора: когда RAG достаточно, когда нужен fine-tuning, а когда гибрид. С примерами кода, реальными сценариями и разбором ошибок.2
-
Мой локальный агент помнит проект лучше меня. Контекст — 32K токенов. Расскажу, как
Мой агент на Llama 3.1 8B в третий раз спросил, как меня зовут. Я представился 200 сообщений назад. Контекст переполнился — начало разговора уехало. Большие контексты не спасают: дорого, «Lost in the Middle», локально не влезает. Суммаризация теряет детали. Я сделал по-другому — три типа внешней памяти: Redis для фактов, ChromaDB для семантического поиска, файлы для документов. Контекст маленький, память большая. Внутри — код на Python и грабли, на которые я уже наступил.
https://habr.com/ru/articles/994618/
#LLM #AIагенты #память_LLM #RAG #Redis #ChromaDB #векторный_поиск #sentencetransformers #llama #локальные_модели
-
Мой локальный агент помнит проект лучше меня. Контекст — 32K токенов. Расскажу, как
Мой агент на Llama 3.1 8B в третий раз спросил, как меня зовут. Я представился 200 сообщений назад. Контекст переполнился — начало разговора уехало. Большие контексты не спасают: дорого, «Lost in the Middle», локально не влезает. Суммаризация теряет детали. Я сделал по-другому — три типа внешней памяти: Redis для фактов, ChromaDB для семантического поиска, файлы для документов. Контекст маленький, память большая. Внутри — код на Python и грабли, на которые я уже наступил.
https://habr.com/ru/articles/994618/
#LLM #AIагенты #память_LLM #RAG #Redis #ChromaDB #векторный_поиск #sentencetransformers #llama #локальные_модели
-
Мой локальный агент помнит проект лучше меня. Контекст — 32K токенов. Расскажу, как
Мой агент на Llama 3.1 8B в третий раз спросил, как меня зовут. Я представился 200 сообщений назад. Контекст переполнился — начало разговора уехало. Большие контексты не спасают: дорого, «Lost in the Middle», локально не влезает. Суммаризация теряет детали. Я сделал по-другому — три типа внешней памяти: Redis для фактов, ChromaDB для семантического поиска, файлы для документов. Контекст маленький, память большая. Внутри — код на Python и грабли, на которые я уже наступил.
https://habr.com/ru/articles/994618/
#LLM #AIагенты #память_LLM #RAG #Redis #ChromaDB #векторный_поиск #sentencetransformers #llama #локальные_модели
-
Мой локальный агент помнит проект лучше меня. Контекст — 32K токенов. Расскажу, как
Мой агент на Llama 3.1 8B в третий раз спросил, как меня зовут. Я представился 200 сообщений назад. Контекст переполнился — начало разговора уехало. Большие контексты не спасают: дорого, «Lost in the Middle», локально не влезает. Суммаризация теряет детали. Я сделал по-другому — три типа внешней памяти: Redis для фактов, ChromaDB для семантического поиска, файлы для документов. Контекст маленький, память большая. Внутри — код на Python и грабли, на которые я уже наступил.
https://habr.com/ru/articles/994618/
#LLM #AIагенты #память_LLM #RAG #Redis #ChromaDB #векторный_поиск #sentencetransformers #llama #локальные_модели
-
AI для PHP-разработчиков. Часть 2: практическое использование TransformersPHP
AI в PHP: не теория, а место, с которого можно начать В своей прошлой статье я описал на довольно общем уровне почему тема AI вроде бы везде, но при этом почти не пересекается с повседневной PHP-разработкой. Не потому что PHP "не подходит", а потому что сам разговор обычно идёт мимо наших задач и привычного способа мышления. Ну и, конечно, о том, что почти нет материала, который объясняет AI именно для PHP-разработчиков, их задач и их мышления. После публикации мне несколько раз задали один и тот же вопрос, в разных формулировках: Окей, допустим. А с чего конкретно начать? И это, пожалуй, самый интересный вопрос из тех, что я получил. Ниже я попытаюсь дать на него ответ.
https://habr.com/ru/articles/993966/
#php #ai #ml #машинное_обучение #искусственный_интеллект #эмбеддинги #трансформеры #векторный_поиск #поиск_по_тексту #эмбеддинг
-
AI для PHP-разработчиков. Часть 2: практическое использование TransformersPHP
AI в PHP: не теория, а место, с которого можно начать В своей прошлой статье я описал на довольно общем уровне почему тема AI вроде бы везде, но при этом почти не пересекается с повседневной PHP-разработкой. Не потому что PHP "не подходит", а потому что сам разговор обычно идёт мимо наших задач и привычного способа мышления. Ну и, конечно, о том, что почти нет материала, который объясняет AI именно для PHP-разработчиков, их задач и их мышления. После публикации мне несколько раз задали один и тот же вопрос, в разных формулировках: Окей, допустим. А с чего конкретно начать? И это, пожалуй, самый интересный вопрос из тех, что я получил. Ниже я попытаюсь дать на него ответ.
https://habr.com/ru/articles/993966/
#php #ai #ml #машинное_обучение #искусственный_интеллект #эмбеддинги #трансформеры #векторный_поиск #поиск_по_тексту #эмбеддинг
-
AI для PHP-разработчиков. Часть 2: практическое использование TransformersPHP
AI в PHP: не теория, а место, с которого можно начать В своей прошлой статье я описал на довольно общем уровне почему тема AI вроде бы везде, но при этом почти не пересекается с повседневной PHP-разработкой. Не потому что PHP "не подходит", а потому что сам разговор обычно идёт мимо наших задач и привычного способа мышления. Ну и, конечно, о том, что почти нет материала, который объясняет AI именно для PHP-разработчиков, их задач и их мышления. После публикации мне несколько раз задали один и тот же вопрос, в разных формулировках: Окей, допустим. А с чего конкретно начать? И это, пожалуй, самый интересный вопрос из тех, что я получил. Ниже я попытаюсь дать на него ответ.
https://habr.com/ru/articles/993966/
#php #ai #ml #машинное_обучение #искусственный_интеллект #эмбеддинги #трансформеры #векторный_поиск #поиск_по_тексту #эмбеддинг
-
AI для PHP-разработчиков. Часть 2: практическое использование TransformersPHP
AI в PHP: не теория, а место, с которого можно начать В своей прошлой статье я описал на довольно общем уровне почему тема AI вроде бы везде, но при этом почти не пересекается с повседневной PHP-разработкой. Не потому что PHP "не подходит", а потому что сам разговор обычно идёт мимо наших задач и привычного способа мышления. Ну и, конечно, о том, что почти нет материала, который объясняет AI именно для PHP-разработчиков, их задач и их мышления. После публикации мне несколько раз задали один и тот же вопрос, в разных формулировках: Окей, допустим. А с чего конкретно начать? И это, пожалуй, самый интересный вопрос из тех, что я получил. Ниже я попытаюсь дать на него ответ.
https://habr.com/ru/articles/993966/
#php #ai #ml #машинное_обучение #искусственный_интеллект #эмбеддинги #трансформеры #векторный_поиск #поиск_по_тексту #эмбеддинг
-
Подводные камни векторного поиска по базе знаний
Сегодня я хочу поделиться опытом реализации функциональности векторного поиска статей по базе знаний. Результаты векторного поиска статей из БЗ мы показываем в чат-боте в виде статей-инструкций, которые пользователь читает и выполняет. Казалось бы функциональность проще некуда, однако...
-
Как я пытался сжимать смыслы вместо байтов
Написал прототип SemanticZip: сжатие текста в 14 раз за счет удаления «выводимой» информации. Теория информации, Колмогоровская сложность. В теории все работало... Разбор полетов: почему нельзя сжимать смыслы и почему красивые метафоры проигрывают скучному RAG
https://habr.com/ru/articles/991800/
#LLM #RAG #Claude #Context_Window #Semantic_Compression #Prompt_Engineering #Векторный_поиск #Галлюцинации #Опыт #Сжатие_данных
-
Как я пытался сжимать смыслы вместо байтов
Написал прототип SemanticZip: сжатие текста в 14 раз за счет удаления «выводимой» информации. Теория информации, Колмогоровская сложность. В теории все работало... Разбор полетов: почему нельзя сжимать смыслы и почему красивые метафоры проигрывают скучному RAG
https://habr.com/ru/articles/991800/
#LLM #RAG #Claude #Context_Window #Semantic_Compression #Prompt_Engineering #Векторный_поиск #Галлюцинации #Опыт #Сжатие_данных
-
Как я пытался сжимать смыслы вместо байтов
Написал прототип SemanticZip: сжатие текста в 14 раз за счет удаления «выводимой» информации. Теория информации, Колмогоровская сложность. В теории все работало... Разбор полетов: почему нельзя сжимать смыслы и почему красивые метафоры проигрывают скучному RAG
https://habr.com/ru/articles/991800/
#LLM #RAG #Claude #Context_Window #Semantic_Compression #Prompt_Engineering #Векторный_поиск #Галлюцинации #Опыт #Сжатие_данных
-
Как я пытался сжимать смыслы вместо байтов
Написал прототип SemanticZip: сжатие текста в 14 раз за счет удаления «выводимой» информации. Теория информации, Колмогоровская сложность. В теории все работало... Разбор полетов: почему нельзя сжимать смыслы и почему красивые метафоры проигрывают скучному RAG
https://habr.com/ru/articles/991800/
#LLM #RAG #Claude #Context_Window #Semantic_Compression #Prompt_Engineering #Векторный_поиск #Галлюцинации #Опыт #Сжатие_данных
-
[Перевод] Создаем простую систему RAG на Python
Представьте, что вы предоставляете своему ИИ конкретные релевантные документы (или фрагменты), которые он может быстро просмотреть, чтобы найти необходимую информацию, прежде чем ответить на ваши вопросы. То есть, вместо поиска по всей базе данных (которая может не поместиться в контекстное окно модели LLM, или даже если поместится, это потребует много токенов для ответов), мы предоставляем LLM только релевантные документы (фрагменты), которые ему необходимо найти, чтобы ответить на вопрос пользователя. Для того, чтобы решить эту проблему, мы построим простую систему RAG (Retrieval-Augmented Generation) – в которой генеративная языковая модель (LLM) получает доступ к внешним источникам информации для улучшения точности и достоверности ответов. То есть, вместо того чтобы использовать только внутренние знания модели, RAG будет обращаться к внешним источникам: базам данных, текстовым архивам и другим.
https://habr.com/ru/companies/otus/articles/979458/
#ml #rag #векторный_поиск #эмбеддинги #семантический_поиск #генеративные_модели
-
Как и зачем мы разработали систему анализа аномальных логов. Кейс MWS
Привет, Хабр! Меня зовут Андрей Басов, я руководитель команды технической поддержки стрима корпоративных продуктов и сервисов в MWS. Вместе со своими коллегами — Тимуром Хабибулиным (data scientist) и Рафисом Ганеевым (senior devops engineer) — занимаюсь технической поддержкой и сопровождением продуктов линейки Partner Experience Platform. Чтобы улучшить качество наших сервисов, через которые МТС взаимодействует с партнерами, мы вынуждены постоянно внедрять новые решения, растить продукты и развивать их архитектуру, при этом нам важно обеспечивать надежность и стабильность работы ИТ-систем. Это не всегда дается легко, ведь объемы данных растут, и их нужно эффективно обрабатывать. Одной из основных проблем становится анализ логов — текстовых записей. В нашем случае они фиксируют события в работе систем, которые созданы за 25+ лет работы компании, а еще у них различные стеки и архитектурные подходы. Объемы данных настолько велики, что проанализировать вручную (например, в OpenSearch/Kibana) даже один продукт практически невозможно, иначе нам пришлось бы просматривать миллионы строк логов каждый день. Поэтому мы решили разработать систему, которая позволила бы автоматически выявлять в логах аномалии — события, не свойственные нормальному функционированию системы. Например, это могут быть следы багов, вызванных новыми релизами, или другие непредвиденные происшествия. Что из этого вышло — расскажу дальше.
https://habr.com/ru/companies/ru_mts/articles/977624/
#машинное_обучение #qdrant #observability #python #mws #Векторный_поиск #Кластеризация #HDBSCAN #bgem3 #микросервисы
-
Как мы сделали альтернативную систему метчинга товаров в X5 Digital: опыт, грабли и результат
Привет, Хабр! Меня всё ещё зовут Данила Федюкин, и я продолжаю быть тимлидом в X5 Digital. Руковожу командой, которая занимается метчингом. В прошлый раз я рассказывал, как мы перешли на собственную систему рекомендаций, а в этот раз о том, как делаем то же самое, но с метчингом товаров. X5 Digital – один из цифровых бизнесов Х5. Мы работаем в режиме Highload с RPS в 7500 и отвечаем за всю онлайн-доставку в более чем 1000 городах и населённых пунктах России. Этот канал постоянно растёт. В 2024 году покупатели Х5 совершили свыше 119,5 млн заказов продуктов на дом. Мы делаем собственную in-house WMS для дарксторов, приложения для сборщиков и курьеров, CRM, каталоги товаров и другие онлайн-продукты, а ещё мобильное приложение для торговых сетей. Всё это, отталкиваясь от разных форматов доставки. В «Перекрёстке» среднее время доставки CTD (Click-to-Delivery — от оформления заказа до его получения клиентом) сократилось до 45 минут, в «Чижике» — до 37 минут, а в «Пятёрочке» порядка 40% заказов доставляются клиентам менее чем за 20 минут.
https://habr.com/ru/companies/X5Tech/articles/977626/
#машинное_обучение #nlp_обработка_текста #матчинг_товаров #рекомендации #векторный_поиск #faiss #hnsw #e5 #bert #onnx
-
Как мы сделали альтернативную систему метчинга товаров в X5 Digital: опыт, грабли и результат
Привет, Хабр! Меня всё ещё зовут Данила Федюкин, и я продолжаю быть тимлидом в X5 Digital. Руковожу командой, которая занимается метчингом. В прошлый раз я рассказывал, как мы перешли на собственную систему рекомендаций, а в этот раз о том, как делаем то же самое, но с метчингом товаров. X5 Digital – один из цифровых бизнесов Х5. Мы работаем в режиме Highload с RPS в 7500 и отвечаем за всю онлайн-доставку в более чем 1000 городах и населённых пунктах России. Этот канал постоянно растёт. В 2024 году покупатели Х5 совершили свыше 119,5 млн заказов продуктов на дом. Мы делаем собственную in-house WMS для дарксторов, приложения для сборщиков и курьеров, CRM, каталоги товаров и другие онлайн-продукты, а ещё мобильное приложение для торговых сетей. Всё это, отталкиваясь от разных форматов доставки. В «Перекрёстке» среднее время доставки CTD (Click-to-Delivery — от оформления заказа до его получения клиентом) сократилось до 45 минут, в «Чижике» — до 37 минут, а в «Пятёрочке» порядка 40% заказов доставляются клиентам менее чем за 20 минут.
https://habr.com/ru/companies/X5Tech/articles/977626/
#машинное_обучение #nlp_обработка_текста #матчинг_товаров #рекомендации #векторный_поиск #faiss #hnsw #e5 #bert #onnx