#retrieval — Public Fediverse posts on home.social

Habr @[email protected] · 2026-05-26 · 07:22 UTC

Почему ломается ваш AI-агент — и почему смена модели обычно его не чинит

Представьте внутреннего AI-агента, который помогает компании искать общие документы и управлять ими. Он работает. До тех пор, пока 12–15% запросов не начинают падать. Агент возвращает не тот документ, редактирует не тот файл, молча падает или уверенно ссылается на файл, которого не существует. Поиск по фото отказывает с той же частотой. Ошибки размазаны равномерно по пользователям, фичам и запросам. Первое инстинктивное действие — поменять модель. Opus 4.5, GPT 5.5 или что там сейчас в топе лидерборда. Меняете. Счет за инференс растет в 4–5 раз, а общая доля ошибок снижается с 12% до 9%. Пользователи пишут о тех же проблемах. Бюджет следующего квартала сгорает за пару недель ради улучшения в 3 процентных пункта — и вы по-прежнему не понимаете, что именно было не так в системе и как улучшать ее дальше. Эта статья — о том, почему смена модели обычно разочаровывает и куда стоит смотреть в первую очередь. Большинство сбоев AI-систем живет в слое обвязки — orchestration, retrieval, tool definitions, retries, context management, — а не в самой модели. Дальше — метод, как отличить проблемы обвязки от проблем модели, кейс, в котором одно исправление в обвязке подняло completion rate с 26% до 88% без смены модели, и чек-лист, который помогает находить такие сбои в вашей собственной системе. Если вы никогда не делали подобной диагностики — ожидайте найти хотя бы один пункт, который стоит починить.

https://habr.com/ru/articles/1039292/

#aiагенты #llm #rag #orchestration #retrieval #tool_calling #context_engineering #evals #production #ai_infrastructure

#ai_infrastructure #production #evals #context_engineering #tool_calling #retrieval

Habr @[email protected] · 2026-05-26 · 07:22 UTC

Почему ломается ваш AI-агент — и почему смена модели обычно его не чинит

Представьте внутреннего AI-агента, который помогает компании искать общие документы и управлять ими. Он работает. До тех пор, пока 12–15% запросов не начинают падать. Агент возвращает не тот документ, редактирует не тот файл, молча падает или уверенно ссылается на файл, которого не существует. Поиск по фото отказывает с той же частотой. Ошибки размазаны равномерно по пользователям, фичам и запросам. Первое инстинктивное действие — поменять модель. Opus 4.5, GPT 5.5 или что там сейчас в топе лидерборда. Меняете. Счет за инференс растет в 4–5 раз, а общая доля ошибок снижается с 12% до 9%. Пользователи пишут о тех же проблемах. Бюджет следующего квартала сгорает за пару недель ради улучшения в 3 процентных пункта — и вы по-прежнему не понимаете, что именно было не так в системе и как улучшать ее дальше. Эта статья — о том, почему смена модели обычно разочаровывает и куда стоит смотреть в первую очередь. Большинство сбоев AI-систем живет в слое обвязки — orchestration, retrieval, tool definitions, retries, context management, — а не в самой модели. Дальше — метод, как отличить проблемы обвязки от проблем модели, кейс, в котором одно исправление в обвязке подняло completion rate с 26% до 88% без смены модели, и чек-лист, который помогает находить такие сбои в вашей собственной системе. Если вы никогда не делали подобной диагностики — ожидайте найти хотя бы один пункт, который стоит починить.

https://habr.com/ru/articles/1039292/

#aiагенты #llm #rag #orchestration #retrieval #tool_calling #context_engineering #evals #production #ai_infrastructure

#ai_infrastructure #production #evals #context_engineering #tool_calling #retrieval

Habr @[email protected] · 2026-05-26 · 07:22 UTC

Почему ломается ваш AI-агент — и почему смена модели обычно его не чинит

Представьте внутреннего AI-агента, который помогает компании искать общие документы и управлять ими. Он работает. До тех пор, пока 12–15% запросов не начинают падать. Агент возвращает не тот документ, редактирует не тот файл, молча падает или уверенно ссылается на файл, которого не существует. Поиск по фото отказывает с той же частотой. Ошибки размазаны равномерно по пользователям, фичам и запросам. Первое инстинктивное действие — поменять модель. Opus 4.5, GPT 5.5 или что там сейчас в топе лидерборда. Меняете. Счет за инференс растет в 4–5 раз, а общая доля ошибок снижается с 12% до 9%. Пользователи пишут о тех же проблемах. Бюджет следующего квартала сгорает за пару недель ради улучшения в 3 процентных пункта — и вы по-прежнему не понимаете, что именно было не так в системе и как улучшать ее дальше. Эта статья — о том, почему смена модели обычно разочаровывает и куда стоит смотреть в первую очередь. Большинство сбоев AI-систем живет в слое обвязки — orchestration, retrieval, tool definitions, retries, context management, — а не в самой модели. Дальше — метод, как отличить проблемы обвязки от проблем модели, кейс, в котором одно исправление в обвязке подняло completion rate с 26% до 88% без смены модели, и чек-лист, который помогает находить такие сбои в вашей собственной системе. Если вы никогда не делали подобной диагностики — ожидайте найти хотя бы один пункт, который стоит починить.

https://habr.com/ru/articles/1039292/

#aiагенты #llm #rag #orchestration #retrieval #tool_calling #context_engineering #evals #production #ai_infrastructure

#ai_infrastructure #production #evals #context_engineering #tool_calling #retrieval

Habr @[email protected] · 2026-05-26 · 07:22 UTC

Почему ломается ваш AI-агент — и почему смена модели обычно его не чинит

Представьте внутреннего AI-агента, который помогает компании искать общие документы и управлять ими. Он работает. До тех пор, пока 12–15% запросов не начинают падать. Агент возвращает не тот документ, редактирует не тот файл, молча падает или уверенно ссылается на файл, которого не существует. Поиск по фото отказывает с той же частотой. Ошибки размазаны равномерно по пользователям, фичам и запросам. Первое инстинктивное действие — поменять модель. Opus 4.5, GPT 5.5 или что там сейчас в топе лидерборда. Меняете. Счет за инференс растет в 4–5 раз, а общая доля ошибок снижается с 12% до 9%. Пользователи пишут о тех же проблемах. Бюджет следующего квартала сгорает за пару недель ради улучшения в 3 процентных пункта — и вы по-прежнему не понимаете, что именно было не так в системе и как улучшать ее дальше. Эта статья — о том, почему смена модели обычно разочаровывает и куда стоит смотреть в первую очередь. Большинство сбоев AI-систем живет в слое обвязки — orchestration, retrieval, tool definitions, retries, context management, — а не в самой модели. Дальше — метод, как отличить проблемы обвязки от проблем модели, кейс, в котором одно исправление в обвязке подняло completion rate с 26% до 88% без смены модели, и чек-лист, который помогает находить такие сбои в вашей собственной системе. Если вы никогда не делали подобной диагностики — ожидайте найти хотя бы один пункт, который стоит починить.

https://habr.com/ru/articles/1039292/

#aiагенты #llm #rag #orchestration #retrieval #tool_calling #context_engineering #evals #production #ai_infrastructure

#aiагенты #llm #rag #orchestration #retrieval #tool_calling

Habr @[email protected] · 2026-05-25 · 13:52 UTC

Защита от дублирования кода агентами: семантические концепции

Я строю Telegram-first SaaS в одиночку, а весь код за меня пишут ИИ-агенты Claude Code, и довольно быстро я уперся в неприятное: каждый новый агент приходит на работу с чистой памятью, не находит уже написанное, грепает по выдуманным именам и пишет свою реализацию заново - так за неделю в репозитории набегает +65К -1.5К строк, а устоявшиеся паттерны тихо расходятся. Это третья статья серии про разработку руками агентов, и в ней - честный разбор того, как я строил для своей команды из амнезиков слой памяти о коде. Почему клоны от ИИ это в основном Type-4, которые токенные детекторы попросту не видят; почему векторная база здесь неправильный основной фикс; как граф концептов на локальной модели лег почти один-в-один на когнитивную науку о человеческой памяти (Тульвинг, Вегнер, Спэрроу); и как на одном страшном отрицательном результате я чуть не усложнил себе архитектуру ради проблемы, которая решалась переписыванием одного абзаца. С тупиками, цифрами и слепым A/B-тестом, без срезанных углов. Вспомнить всё

https://habr.com/ru/articles/1039124/

#ИИагенты #Claude_Code #дедупликация_кода #граф_концептов #эмбеддинги #семантический_поиск #Type4_клоны #retrieval #DRY #память
__агентов

#память #dry #retrieval #type4_клоны #семантический_поиск #эмбеддинги

Habr @[email protected] · 2026-05-25 · 13:52 UTC

Защита от дублирования кода агентами: семантические концепции

Я строю Telegram-first SaaS в одиночку, а весь код за меня пишут ИИ-агенты Claude Code, и довольно быстро я уперся в неприятное: каждый новый агент приходит на работу с чистой памятью, не находит уже написанное, грепает по выдуманным именам и пишет свою реализацию заново - так за неделю в репозитории набегает +65К -1.5К строк, а устоявшиеся паттерны тихо расходятся. Это третья статья серии про разработку руками агентов, и в ней - честный разбор того, как я строил для своей команды из амнезиков слой памяти о коде. Почему клоны от ИИ это в основном Type-4, которые токенные детекторы попросту не видят; почему векторная база здесь неправильный основной фикс; как граф концептов на локальной модели лег почти один-в-один на когнитивную науку о человеческой памяти (Тульвинг, Вегнер, Спэрроу); и как на одном страшном отрицательном результате я чуть не усложнил себе архитектуру ради проблемы, которая решалась переписыванием одного абзаца. С тупиками, цифрами и слепым A/B-тестом, без срезанных углов. Вспомнить всё

https://habr.com/ru/articles/1039124/

#ИИагенты #Claude_Code #дедупликация_кода #граф_концептов #эмбеддинги #семантический_поиск #Type4_клоны #retrieval #DRY #память
__агентов

#память #dry #retrieval #type4_клоны #семантический_поиск #эмбеддинги

Habr @[email protected] · 2026-05-25 · 13:52 UTC

Защита от дублирования кода агентами: семантические концепции

Я строю Telegram-first SaaS в одиночку, а весь код за меня пишут ИИ-агенты Claude Code, и довольно быстро я уперся в неприятное: каждый новый агент приходит на работу с чистой памятью, не находит уже написанное, грепает по выдуманным именам и пишет свою реализацию заново - так за неделю в репозитории набегает +65К -1.5К строк, а устоявшиеся паттерны тихо расходятся. Это третья статья серии про разработку руками агентов, и в ней - честный разбор того, как я строил для своей команды из амнезиков слой памяти о коде. Почему клоны от ИИ это в основном Type-4, которые токенные детекторы попросту не видят; почему векторная база здесь неправильный основной фикс; как граф концептов на локальной модели лег почти один-в-один на когнитивную науку о человеческой памяти (Тульвинг, Вегнер, Спэрроу); и как на одном страшном отрицательном результате я чуть не усложнил себе архитектуру ради проблемы, которая решалась переписыванием одного абзаца. С тупиками, цифрами и слепым A/B-тестом, без срезанных углов. Вспомнить всё

https://habr.com/ru/articles/1039124/

#ИИагенты #Claude_Code #дедупликация_кода #граф_концептов #эмбеддинги #семантический_поиск #Type4_клоны #retrieval #DRY #память
__агентов

#память #dry #retrieval #type4_клоны #семантический_поиск #эмбеддинги

Habr @[email protected] · 2026-05-25 · 13:52 UTC

Защита от дублирования кода агентами: семантические концепции

Я строю Telegram-first SaaS в одиночку, а весь код за меня пишут ИИ-агенты Claude Code, и довольно быстро я уперся в неприятное: каждый новый агент приходит на работу с чистой памятью, не находит уже написанное, грепает по выдуманным именам и пишет свою реализацию заново - так за неделю в репозитории набегает +65К -1.5К строк, а устоявшиеся паттерны тихо расходятся. Это третья статья серии про разработку руками агентов, и в ней - честный разбор того, как я строил для своей команды из амнезиков слой памяти о коде. Почему клоны от ИИ это в основном Type-4, которые токенные детекторы попросту не видят; почему векторная база здесь неправильный основной фикс; как граф концептов на локальной модели лег почти один-в-один на когнитивную науку о человеческой памяти (Тульвинг, Вегнер, Спэрроу); и как на одном страшном отрицательном результате я чуть не усложнил себе архитектуру ради проблемы, которая решалась переписыванием одного абзаца. С тупиками, цифрами и слепым A/B-тестом, без срезанных углов. Вспомнить всё

https://habr.com/ru/articles/1039124/

#ИИагенты #Claude_Code #дедупликация_кода #граф_концептов #эмбеддинги #семантический_поиск #Type4_клоны #retrieval #DRY #память
__агентов

#ииагенты #claude_code #дедупликация_кода #граф_концептов #эмбеддинги #семантический_поиск

Habr @[email protected] · 2026-05-22 · 12:32 UTC

Практический ИИ-агент Python: LangGraph + Qdrant

При разработке ИИ-агента для базы знаний, мне казалось, что задача почти типовая: складываем информацию в Qdrant, находим информацию через векторный поиск и поиск в интернете и формируем красивый ответ через LLM. На деле ИИ-агент начал уверенно галлюцинировать, приносить не только нерелевантные ответы, но и тупить с короткими пользовательскими запросами. И самое неприятное, при всем при этом метрика «похожести» similarity выглядела достаточно высокой, что сильно вводило в заблуждение. После серии экспериментов и улучшений пришло понимание, что промышленный ИИ-агент — это не столько про LLM, сколько про качество извлечения информации и гибкую оркестрацию компонентов ИИ-агента. Что в итоге полностью поменяло архитектуру моей системы. В статье расскажу, как я пришла от «просто добавь LLM» к промышленному графовому ИИ-агенту на LangGraph + Qdrant.

https://habr.com/ru/articles/1038190/

#aiагенты #retrieval #llmагент #qdrant #rag #langgraph

#langgraph #rag #qdrant #llmагент #retrieval #aiагенты

Habr @[email protected] · 2026-05-22 · 12:32 UTC

Практический ИИ-агент Python: LangGraph + Qdrant

При разработке ИИ-агента для базы знаний, мне казалось, что задача почти типовая: складываем информацию в Qdrant, находим информацию через векторный поиск и поиск в интернете и формируем красивый ответ через LLM. На деле ИИ-агент начал уверенно галлюцинировать, приносить не только нерелевантные ответы, но и тупить с короткими пользовательскими запросами. И самое неприятное, при всем при этом метрика «похожести» similarity выглядела достаточно высокой, что сильно вводило в заблуждение. После серии экспериментов и улучшений пришло понимание, что промышленный ИИ-агент — это не столько про LLM, сколько про качество извлечения информации и гибкую оркестрацию компонентов ИИ-агента. Что в итоге полностью поменяло архитектуру моей системы. В статье расскажу, как я пришла от «просто добавь LLM» к промышленному графовому ИИ-агенту на LangGraph + Qdrant.

https://habr.com/ru/articles/1038190/

#aiагенты #retrieval #llmагент #qdrant #rag #langgraph

#langgraph #rag #qdrant #llmагент #retrieval #aiагенты

Habr @[email protected] · 2026-05-22 · 12:32 UTC

Практический ИИ-агент Python: LangGraph + Qdrant

При разработке ИИ-агента для базы знаний, мне казалось, что задача почти типовая: складываем информацию в Qdrant, находим информацию через векторный поиск и поиск в интернете и формируем красивый ответ через LLM. На деле ИИ-агент начал уверенно галлюцинировать, приносить не только нерелевантные ответы, но и тупить с короткими пользовательскими запросами. И самое неприятное, при всем при этом метрика «похожести» similarity выглядела достаточно высокой, что сильно вводило в заблуждение. После серии экспериментов и улучшений пришло понимание, что промышленный ИИ-агент — это не столько про LLM, сколько про качество извлечения информации и гибкую оркестрацию компонентов ИИ-агента. Что в итоге полностью поменяло архитектуру моей системы. В статье расскажу, как я пришла от «просто добавь LLM» к промышленному графовому ИИ-агенту на LangGraph + Qdrant.

https://habr.com/ru/articles/1038190/

#aiагенты #retrieval #llmагент #qdrant #rag #langgraph

#langgraph #rag #qdrant #llmагент #retrieval #aiагенты

Habr @[email protected] · 2026-05-22 · 12:32 UTC

Практический ИИ-агент Python: LangGraph + Qdrant

При разработке ИИ-агента для базы знаний, мне казалось, что задача почти типовая: складываем информацию в Qdrant, находим информацию через векторный поиск и поиск в интернете и формируем красивый ответ через LLM. На деле ИИ-агент начал уверенно галлюцинировать, приносить не только нерелевантные ответы, но и тупить с короткими пользовательскими запросами. И самое неприятное, при всем при этом метрика «похожести» similarity выглядела достаточно высокой, что сильно вводило в заблуждение. После серии экспериментов и улучшений пришло понимание, что промышленный ИИ-агент — это не столько про LLM, сколько про качество извлечения информации и гибкую оркестрацию компонентов ИИ-агента. Что в итоге полностью поменяло архитектуру моей системы. В статье расскажу, как я пришла от «просто добавь LLM» к промышленному графовому ИИ-агенту на LangGraph + Qdrant.

https://habr.com/ru/articles/1038190/

#aiагенты #retrieval #llmагент #qdrant #rag #langgraph

Habr @[email protected] · 2026-05-20 · 20:32 UTC

RAG для тех, кто разочаровался: почему retrieval ломается и как это починить

Вы собрали RAG-пайплайн: загрузили документы, нарезали на чанки, сгенерировали эмбеддинги, подключили векторную базу. Задаёте вопрос — модель отвечает уверенно и подробно. Показываете заказчику, тот в восторге. Потом начинается тестирование на реальных вопросах, и оказывается, что на половину из них система отвечает мимо: то находит не тот документ, то находит правильный, но не тот кусок, то вообще ничего релевантного не достаёт и модель уверенно галлюцинирует. Каждый раз проблема не в модели (GPT-4 и Claude отвечают хорошо, если им дать правильный контекст), а в retrieval — в том, как мы ищем релевантные куски документов. Модель отвечает ровно настолько хорошо, насколько хорош контекст, который ей подсунули. Рассмотрим три основные причины. Разобрать RAG

https://habr.com/ru/companies/otus/articles/1034386/

#ml #python #retrieval #rag #LLM #векторный_поиск

#векторный_поиск #llm #rag #retrieval #python #ml

Habr @[email protected] · 2026-05-20 · 20:32 UTC

RAG для тех, кто разочаровался: почему retrieval ломается и как это починить

Вы собрали RAG-пайплайн: загрузили документы, нарезали на чанки, сгенерировали эмбеддинги, подключили векторную базу. Задаёте вопрос — модель отвечает уверенно и подробно. Показываете заказчику, тот в восторге. Потом начинается тестирование на реальных вопросах, и оказывается, что на половину из них система отвечает мимо: то находит не тот документ, то находит правильный, но не тот кусок, то вообще ничего релевантного не достаёт и модель уверенно галлюцинирует. Каждый раз проблема не в модели (GPT-4 и Claude отвечают хорошо, если им дать правильный контекст), а в retrieval — в том, как мы ищем релевантные куски документов. Модель отвечает ровно настолько хорошо, насколько хорош контекст, который ей подсунули. Рассмотрим три основные причины. Разобрать RAG

https://habr.com/ru/companies/otus/articles/1034386/

#ml #python #retrieval #rag #LLM #векторный_поиск

#векторный_поиск #llm #rag #retrieval #python #ml

Habr @[email protected] · 2026-05-20 · 20:32 UTC

RAG для тех, кто разочаровался: почему retrieval ломается и как это починить

Вы собрали RAG-пайплайн: загрузили документы, нарезали на чанки, сгенерировали эмбеддинги, подключили векторную базу. Задаёте вопрос — модель отвечает уверенно и подробно. Показываете заказчику, тот в восторге. Потом начинается тестирование на реальных вопросах, и оказывается, что на половину из них система отвечает мимо: то находит не тот документ, то находит правильный, но не тот кусок, то вообще ничего релевантного не достаёт и модель уверенно галлюцинирует. Каждый раз проблема не в модели (GPT-4 и Claude отвечают хорошо, если им дать правильный контекст), а в retrieval — в том, как мы ищем релевантные куски документов. Модель отвечает ровно настолько хорошо, насколько хорош контекст, который ей подсунули. Рассмотрим три основные причины. Разобрать RAG

https://habr.com/ru/companies/otus/articles/1034386/

#ml #python #retrieval #rag #LLM #векторный_поиск

#векторный_поиск #llm #rag #retrieval #python #ml

Habr @[email protected] · 2026-05-20 · 20:32 UTC

RAG для тех, кто разочаровался: почему retrieval ломается и как это починить

Вы собрали RAG-пайплайн: загрузили документы, нарезали на чанки, сгенерировали эмбеддинги, подключили векторную базу. Задаёте вопрос — модель отвечает уверенно и подробно. Показываете заказчику, тот в восторге. Потом начинается тестирование на реальных вопросах, и оказывается, что на половину из них система отвечает мимо: то находит не тот документ, то находит правильный, но не тот кусок, то вообще ничего релевантного не достаёт и модель уверенно галлюцинирует. Каждый раз проблема не в модели (GPT-4 и Claude отвечают хорошо, если им дать правильный контекст), а в retrieval — в том, как мы ищем релевантные куски документов. Модель отвечает ровно настолько хорошо, насколько хорош контекст, который ей подсунули. Рассмотрим три основные причины. Разобрать RAG

https://habr.com/ru/companies/otus/articles/1034386/

#ml #python #retrieval #rag #LLM #векторный_поиск

#ml #python #retrieval #rag #llm #векторный_поиск

N-gated Hacker News @[email protected] · 2026-05-12 · 21:52 UTC

🙈Ah yes, another riveting tale of #academic buzzword-bingo, where "rethinking retrieval" is code for "we need something to publish" and "direct corpus interaction" sounds like a euphemism for an awkward office party. 🤖💡 But don't worry, because soon we'll be 'agentic searching' for the meaning of life, if only we could comprehend what any of this actually means. 🙃
https://arxiv.org/abs/2605.05242 #jargon #buzzword #bingo #retrieval #humor #tech #satire #HackerNews #ngated

#academic #jargon #buzzword #bingo #retrieval #humor

N-gated Hacker News @[email protected] · 2026-05-12 · 21:52 UTC

🙈Ah yes, another riveting tale of #academic buzzword-bingo, where "rethinking retrieval" is code for "we need something to publish" and "direct corpus interaction" sounds like a euphemism for an awkward office party. 🤖💡 But don't worry, because soon we'll be 'agentic searching' for the meaning of life, if only we could comprehend what any of this actually means. 🙃
https://arxiv.org/abs/2605.05242 #jargon #buzzword #bingo #retrieval #humor #tech #satire #HackerNews #ngated

#academic #jargon #buzzword #bingo #retrieval #humor

N-gated Hacker News @[email protected] · 2026-05-12 · 21:52 UTC

🙈Ah yes, another riveting tale of #academic buzzword-bingo, where "rethinking retrieval" is code for "we need something to publish" and "direct corpus interaction" sounds like a euphemism for an awkward office party. 🤖💡 But don't worry, because soon we'll be 'agentic searching' for the meaning of life, if only we could comprehend what any of this actually means. 🙃
https://arxiv.org/abs/2605.05242 #jargon #buzzword #bingo #retrieval #humor #tech #satire #HackerNews #ngated

#academic #jargon #buzzword #bingo #retrieval #humor

N-gated Hacker News @[email protected] · 2026-05-12 · 21:52 UTC

🙈Ah yes, another riveting tale of #academic buzzword-bingo, where "rethinking retrieval" is code for "we need something to publish" and "direct corpus interaction" sounds like a euphemism for an awkward office party. 🤖💡 But don't worry, because soon we'll be 'agentic searching' for the meaning of life, if only we could comprehend what any of this actually means. 🙃
https://arxiv.org/abs/2605.05242 #jargon #buzzword #bingo #retrieval #humor #tech #satire #HackerNews #ngated

#ngated #hackernews #satire #tech #humor #retrieval

N-gated Hacker News @[email protected] · 2026-05-12 · 21:52 UTC

🙈Ah yes, another riveting tale of #academic buzzword-bingo, where "rethinking retrieval" is code for "we need something to publish" and "direct corpus interaction" sounds like a euphemism for an awkward office party. 🤖💡 But don't worry, because soon we'll be 'agentic searching' for the meaning of life, if only we could comprehend what any of this actually means. 🙃
https://arxiv.org/abs/2605.05242 #jargon #buzzword #bingo #retrieval #humor #tech #satire #HackerNews #ngated

#academic #jargon #buzzword #bingo #retrieval #humor

Judith van Stegeren @jd7h · 2026-04-23 · 11:52 UTC

This is a handy list for comparing the features of vector databases (holy mole there are a lot of them), including year of launch, opensource-ness, licences, and implementation language: https://superlinked.com/vector-db-comparison

#vectors #embeddings #search #retrieval #rag #genai #agents

#vectors #embeddings #search #retrieval #rag #genai

Judith van Stegeren @[email protected] · 2026-04-23 · 11:52 UTC

This is a handy list for comparing the features of vector databases (holy mole there are a lot of them), including year of launch, opensource-ness, licences, and implementation language: https://superlinked.com/vector-db-comparison

#vectors #embeddings #search #retrieval #rag #genai #agents

#vectors #embeddings #search #retrieval #rag #genai

Judith van Stegeren @[email protected] · 2026-04-23 · 11:52 UTC

This is a handy list for comparing the features of vector databases (holy mole there are a lot of them), including year of launch, opensource-ness, licences, and implementation language: https://superlinked.com/vector-db-comparison

#vectors #embeddings #search #retrieval #rag #genai #agents

#vectors #embeddings #search #retrieval #rag #genai

Judith van Stegeren @[email protected] · 2026-04-23 · 11:52 UTC

This is a handy list for comparing the features of vector databases (holy mole there are a lot of them), including year of launch, opensource-ness, licences, and implementation language: https://superlinked.com/vector-db-comparison

#vectors #embeddings #search #retrieval #rag #genai #agents

#agents #genai #rag #retrieval #search #embeddings

Judith van Stegeren @[email protected] · 2026-04-23 · 11:52 UTC

This is a handy list for comparing the features of vector databases (holy mole there are a lot of them), including year of launch, opensource-ness, licences, and implementation language: https://superlinked.com/vector-db-comparison

#vectors #embeddings #search #retrieval #rag #genai #agents

#vectors #embeddings #search #retrieval #rag #genai

Habr @[email protected] · 2026-04-15 · 08:22 UTC

RAG: Как собрать свой ретривер для особых случаев

С опытом у RAG-инженера накапливается солидный багаж эвристик и инструментов, которые в определенных задачах превосходят по качеству или скорости стандартные. Фраза «а для этого у меня есть собственный ретривер» звучит с некоторым снобизмом, но добавляет к профессионализму несколько пойнтов. Хотите в свою коллекцию ретривер, который умеет работать с терминами, плохо различимыми в векторном пространстве эмбеддинга, в частности с именами и названиями? Тогда давайте перейдём от снобизма к практике. Начнём с обработки текста и сегментируем его на фрагменты - «чанки». Далее сделаем TFIDF модель, добавим поиск и обернём всё это в ретривер LangChain. Наконец сравним наш ретривер с двумя-тремя стандартными решениями. А Ollama поможет с вопросами для бенчмарка.

https://habr.com/ru/articles/1022244/

#rag #rag_pipeline #text_mining #text_generation #retrieval #ollama #gensim #langchain

#langchain #gensim #ollama #retrieval #text_generation #text_mining

Habr @[email protected] · 2026-03-24 · 13:12 UTC

Open-source персистентная память для LLM

Задача, которая казалась тривиальной: научить LLM помнить, с кем она разговаривает. Пользователь пишет «я вегетарианец», а через три сообщения модель предлагает стейк-хаус. Знакомо? Стандартные решения — обрезка истории, суммаризация, внешние векторные базы — всё это костыли. Я пошёл другим путём и сделал NGT Memory — модуль персистентной памяти с открытым исходным кодом. В статье подробно расскажу про архитектуру, эксперименты и все найденные решения. Если строили чат-ботов или AI-агентов — будет интересно

https://habr.com/ru/articles/1014366/

#llm #memory #python #openai #fastapi #opensource #retrieval #chatbot

#chatbot #retrieval #opensource #fastapi #openai #python

Habr @[email protected] · 2026-03-10 · 06:42 UTC

Простые проблемы, которые мы решали в ИИ-стартапе

Предыстория. Ну как ИИ-стартап, в общем-то обычный SaaS но с ключевыми задачками в бизнес-процессах для LLM. Задача основателю казалась простой. Нужно было построить систему, которая принимает пользовательский запрос, анализирует контекст пользователя, извлекает релевантные данные и формирует ответ. На первом этапе архитектура ИИ-слоя выглядела очень просто и типично: user request ⭢ RAG retrieval ⭢ LLM ⭢ answer В прототипе все работало отлично. Но после запуска в реальном продукте начались первые проблемы. Именно тогда этот стартап и попал ко мне.

https://habr.com/ru/articles/1008230/

#стартап #команда_разработки #команда_стартапа #retrieval #rag #rag_система #rag_pipeline #ииинжиниринг

#ииинжиниринг #rag_pipeline #rag_система #rag #retrieval #команда_стартапа

Hacker News @[email protected] · 2026-03-02 · 06:16 UTC

How to record and retrieve anything you've ever had to look up twice

https://ellanew.com/2026/03/02/ptpl-197-record-retrieve-from-a-personal-knowledgebase

#HackerNews #recording #knowledge #personalknowledgebase #lookup #retrieval #tips

#hackernews #recording #knowledge #personalknowledgebase #lookup #retrieval

Hacker News @[email protected] · 2026-03-02 · 06:16 UTC

How to record and retrieve anything you've ever had to look up twice

https://ellanew.com/2026/03/02/ptpl-197-record-retrieve-from-a-personal-knowledgebase

#HackerNews #recording #knowledge #personalknowledgebase #lookup #retrieval #tips

#hackernews #recording #knowledge #personalknowledgebase #lookup #retrieval

Hacker News @[email protected] · 2026-03-02 · 06:16 UTC

How to record and retrieve anything you've ever had to look up twice

https://ellanew.com/2026/03/02/ptpl-197-record-retrieve-from-a-personal-knowledgebase

#HackerNews #recording #knowledge #personalknowledgebase #lookup #retrieval #tips

#hackernews #recording #knowledge #personalknowledgebase #lookup #retrieval

Hacker News @[email protected] · 2026-03-02 · 06:16 UTC

How to record and retrieve anything you've ever had to look up twice

https://ellanew.com/2026/03/02/ptpl-197-record-retrieve-from-a-personal-knowledgebase

#HackerNews #recording #knowledge #personalknowledgebase #lookup #retrieval #tips

#tips #retrieval #lookup #personalknowledgebase #knowledge #recording

Hacker News @[email protected] · 2026-03-02 · 06:16 UTC

How to record and retrieve anything you've ever had to look up twice

https://ellanew.com/2026/03/02/ptpl-197-record-retrieve-from-a-personal-knowledgebase

#HackerNews #recording #knowledge #personalknowledgebase #lookup #retrieval #tips

#hackernews #recording #knowledge #personalknowledgebase #lookup #retrieval

Bytes Europe @[email protected] · 2026-02-05 · 13:26 UTC

Nature and Science Simultaneously Report Paper Aiming to Radically Cure AI Hallucinations https://www.byteseu.com/1775652/ #8BillionParameterSmallModel #AkariAsai #DRTulu #InDepthResearch #KnowledgeDiscoveryInAI #nature #OpenSourceAI #OpenScholar #ParameterWorship #ReinforcementLearningWithEvolvingRubrics(RLER) #Retrieval+SelfCheck #RetrievalAugmentedGeneration(RAG) #Science #ScientificReviewTasks

#scientificreviewtasks #science #retrievalaugmentedgeneration #retrieval #reinforcementlearningwithevolvingrubrics #parameterworship

Habr @[email protected] · 2026-02-02 · 11:22 UTC

NEWAVE. Делаем интеллектуальный ретривал музыки

Двуэнкодерные нейросети, контрастивное обучение, десять датасетов и late fusion. Как мы строили ML-систему ретривала, понимающую человеческий язык вместо фильтров Ну и как же?

https://habr.com/ru/articles/989756/

#CLAP #biencoder #contrastive_learning #retrieval #feature_engineering #ML #DL #machine_learning #project #deep_learning

#deep_learning #project #machine_learning #dl #ml #feature_engineering

Habr @[email protected] · 2026-02-02 · 11:22 UTC

NEWAVE. Делаем интеллектуальный ретривал музыки

Двуэнкодерные нейросети, контрастивное обучение, десять датасетов и late fusion. Как мы строили ML-систему ретривала, понимающую человеческий язык вместо фильтров Ну и как же?

https://habr.com/ru/articles/989756/

#CLAP #biencoder #contrastive_learning #retrieval #feature_engineering #ML #DL #machine_learning #project #deep_learning

#deep_learning #project #machine_learning #dl #ml #feature_engineering

Habr @[email protected] · 2026-02-02 · 11:22 UTC

NEWAVE. Делаем интеллектуальный ретривал музыки

Двуэнкодерные нейросети, контрастивное обучение, десять датасетов и late fusion. Как мы строили ML-систему ретривала, понимающую человеческий язык вместо фильтров Ну и как же?

https://habr.com/ru/articles/989756/

#CLAP #biencoder #contrastive_learning #retrieval #feature_engineering #ML #DL #machine_learning #project #deep_learning

#deep_learning #project #machine_learning #dl #ml #feature_engineering

Habr @[email protected] · 2026-02-02 · 11:22 UTC

NEWAVE. Делаем интеллектуальный ретривал музыки

Двуэнкодерные нейросети, контрастивное обучение, десять датасетов и late fusion. Как мы строили ML-систему ретривала, понимающую человеческий язык вместо фильтров Ну и как же?

https://habr.com/ru/articles/989756/

#CLAP #biencoder #contrastive_learning #retrieval #feature_engineering #ML #DL #machine_learning #project #deep_learning

#clap #biencoder #contrastive_learning #retrieval #feature_engineering #ml

Habr @[email protected] · 2026-01-29 · 09:02 UTC

Как AI VK построили единую платформу для рекомендаций, поиска и рекламы в продуктах с многомиллионной аудиторией

Привет! На связи команда рекомендаций AI VK. Фактически в каждом продукте есть и рекомендации и поиск, и чтобы каждой команде не приходилось изобретать свой «велосипед», мы разработали единую Discovery-платформу. С ней команды могут «по кнопке» запускать рекомендации, тестировать модели, а также делиться лучшими решениями. В статье поделились подробностями о том, что из себя представляет единая Discovery-платформа и какие результаты уже заметны. Переходите под кат, будет интересно ⬇️ Про Discovery-платформу

https://habr.com/ru/companies/vk/articles/990514/

#ai_vk #discovery #discoveryплатформа #Stream_Flow #Profile_Stream #Cloud_Training #Discovery_Runtime #Feature_Flow #Inference_Platform #Retrieval

#retrieval #inference_platform #feature_flow #discovery_runtime #cloud_training #profile_stream

Habr @[email protected] · 2026-01-26 · 09:22 UTC

RAG-системы: что это такое, принципы работы, архитектура и ограничения

Retrieval-Augmented Generation (RAG) всё чаще упоминается в контексте LLM и всё чаще фигурирует в требованиях к разработчикам, но за этим термином обычно скрывается довольно размытое представление о том, как такие системы реально устроены. В этой статье я разбираю RAG как архитектурный подход: зачем он вообще появился, какие задачи решает, как выглядит базовый пайплайн от данных до ответа модели и где на практике чаще всего возникают проблемы.

https://habr.com/ru/articles/989000/

#rag #llm #retrieval #nlp #embeddings #semanticsearch #informationretrieval

#informationretrieval #semanticsearch #embeddings #nlp #retrieval #llm

Habr @[email protected] · 2026-01-26 · 09:22 UTC

RAG-системы: что это такое, принципы работы, архитектура и ограничения

Retrieval-Augmented Generation (RAG) всё чаще упоминается в контексте LLM и всё чаще фигурирует в требованиях к разработчикам, но за этим термином обычно скрывается довольно размытое представление о том, как такие системы реально устроены. В этой статье я разбираю RAG как архитектурный подход: зачем он вообще появился, какие задачи решает, как выглядит базовый пайплайн от данных до ответа модели и где на практике чаще всего возникают проблемы.

https://habr.com/ru/articles/989000/

#rag #llm #retrieval #nlp #embeddings #semanticsearch #informationretrieval

#informationretrieval #semanticsearch #embeddings #nlp #retrieval #llm

Habr @[email protected] · 2026-01-26 · 09:22 UTC

RAG-системы: что это такое, принципы работы, архитектура и ограничения

Retrieval-Augmented Generation (RAG) всё чаще упоминается в контексте LLM и всё чаще фигурирует в требованиях к разработчикам, но за этим термином обычно скрывается довольно размытое представление о том, как такие системы реально устроены. В этой статье я разбираю RAG как архитектурный подход: зачем он вообще появился, какие задачи решает, как выглядит базовый пайплайн от данных до ответа модели и где на практике чаще всего возникают проблемы.

https://habr.com/ru/articles/989000/

#rag #llm #retrieval #nlp #embeddings #semanticsearch #informationretrieval

#informationretrieval #semanticsearch #embeddings #nlp #retrieval #llm

Habr @[email protected] · 2026-01-26 · 09:22 UTC

RAG-системы: что это такое, принципы работы, архитектура и ограничения

Retrieval-Augmented Generation (RAG) всё чаще упоминается в контексте LLM и всё чаще фигурирует в требованиях к разработчикам, но за этим термином обычно скрывается довольно размытое представление о том, как такие системы реально устроены. В этой статье я разбираю RAG как архитектурный подход: зачем он вообще появился, какие задачи решает, как выглядит базовый пайплайн от данных до ответа модели и где на практике чаще всего возникают проблемы.

https://habr.com/ru/articles/989000/

#rag #llm #retrieval #nlp #embeddings #semanticsearch #informationretrieval

#rag #llm #retrieval #nlp #embeddings #semanticsearch

Habr @[email protected] · 2026-01-23 · 07:22 UTC

Почему ваш RAG не найдёт нужные документы: математический потолок embedding-моделей

Все говорят про embedding-модели в RAG: бенчмарки MTEB, размеры моделей, chunking-стратегии. Но никто не задаёт главный вопрос: а сколько вообще документов может найти single-vector retrieval? Google DeepMind посчитали. Оказалось, что даже 4096-мерные эмбеддинги упираются в математический потолок — есть задачи, где они физически не смогут найти нужный документ из топ-2, даже если модель идеально обучена. В статье разбирается исследование LIMIT, показаны примеры, где dense retrieval проваливается (а BM25 справляется), и объяснено, почему для production-систем нужен гибридный поиск, а не слепая вера в SOTA-эмбеддинги.

https://habr.com/ru/articles/987954/

#RAG #embedding #retrieval #machine_learning #BM25 #поиск #нейросети #векторные_базы_данных

#векторные_базы_данных #нейросети #поиск #bm25 #machine_learning #retrieval

Habr @[email protected] · 2026-01-23 · 07:22 UTC

Почему ваш RAG не найдёт нужные документы: математический потолок embedding-моделей

Все говорят про embedding-модели в RAG: бенчмарки MTEB, размеры моделей, chunking-стратегии. Но никто не задаёт главный вопрос: а сколько вообще документов может найти single-vector retrieval? Google DeepMind посчитали. Оказалось, что даже 4096-мерные эмбеддинги упираются в математический потолок — есть задачи, где они физически не смогут найти нужный документ из топ-2, даже если модель идеально обучена. В статье разбирается исследование LIMIT, показаны примеры, где dense retrieval проваливается (а BM25 справляется), и объяснено, почему для production-систем нужен гибридный поиск, а не слепая вера в SOTA-эмбеддинги.

https://habr.com/ru/articles/987954/

#RAG #embedding #retrieval #machine_learning #BM25 #поиск #нейросети #векторные_базы_данных

#векторные_базы_данных #нейросети #поиск #bm25 #machine_learning #retrieval

Habr @[email protected] · 2026-01-23 · 07:22 UTC

Почему ваш RAG не найдёт нужные документы: математический потолок embedding-моделей

Все говорят про embedding-модели в RAG: бенчмарки MTEB, размеры моделей, chunking-стратегии. Но никто не задаёт главный вопрос: а сколько вообще документов может найти single-vector retrieval? Google DeepMind посчитали. Оказалось, что даже 4096-мерные эмбеддинги упираются в математический потолок — есть задачи, где они физически не смогут найти нужный документ из топ-2, даже если модель идеально обучена. В статье разбирается исследование LIMIT, показаны примеры, где dense retrieval проваливается (а BM25 справляется), и объяснено, почему для production-систем нужен гибридный поиск, а не слепая вера в SOTA-эмбеддинги.

https://habr.com/ru/articles/987954/

#RAG #embedding #retrieval #machine_learning #BM25 #поиск #нейросети #векторные_базы_данных

#векторные_базы_данных #нейросети #поиск #bm25 #machine_learning #retrieval

Habr @[email protected] · 2026-01-23 · 07:22 UTC

Почему ваш RAG не найдёт нужные документы: математический потолок embedding-моделей

Все говорят про embedding-модели в RAG: бенчмарки MTEB, размеры моделей, chunking-стратегии. Но никто не задаёт главный вопрос: а сколько вообще документов может найти single-vector retrieval? Google DeepMind посчитали. Оказалось, что даже 4096-мерные эмбеддинги упираются в математический потолок — есть задачи, где они физически не смогут найти нужный документ из топ-2, даже если модель идеально обучена. В статье разбирается исследование LIMIT, показаны примеры, где dense retrieval проваливается (а BM25 справляется), и объяснено, почему для production-систем нужен гибридный поиск, а не слепая вера в SOTA-эмбеддинги.

https://habr.com/ru/articles/987954/

#RAG #embedding #retrieval #machine_learning #BM25 #поиск #нейросети #векторные_базы_данных

#rag #embedding #retrieval #machine_learning #bm25 #поиск

Hacker News @[email protected] · 2026-01-18 · 07:59 UTC

GibRAM an in-memory ephemeral GraphRAG runtime for retrieval

https://github.com/gibram-io/gibram

#HackerNews #GibRAM #GraphRAG #in-memory #runtime #retrieval #ephemeral #technology

#hackernews #gibram #graphrag #in #runtime #retrieval

WIST Quotations @[email protected] · 2026-01-08 · 23:06 UTC

A quotation from Arthur Conan Doyle

You see, I consider that a man’s brain originally is like a little empty attic, and you have to stock it with such furniture as you choose. A fool takes in all the lumber of every sort that he comes across, so that the knowledge which might be useful to him gets crowded out, or at best is jumbled up with a lot of other things, so that he has a difficulty in laying his hands upon it. Now the skilful workman is very careful indeed as to what he takes into his brain-attic. He will have nothing but the tools which may help him in doing his work, but of these he has a large assortment, and all in the most perfect order. It is a mistake to think that that little room has elastic walls and can distend to any extent. Depend upon it there comes a time when for every addition of knowledge you forget something that you knew before. It is of the highest importance, therefore, not to have useless facts elbowing out the useful ones.

Arthur Conan Doyle (1859-1930) British writer and physician
Story (1886-04), “A Study in Scarlet,” Part 1, ch. 2 [Holmes], Beeton’s Christmas Annual, Vol. 28 (1887-11-21)

More about this quote: wist.info/doyle-arthur-conan/8…

#quote #quotes #quotation #qotd #arthurconandoyle #sherlockholmes #brain #facts #memory #mind #organization #retrieval #storage #trivia #information #knowledge

#memory #brain #quote #retrieval #information #quotes