home.social

#ragas — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #ragas, aggregated by home.social.

  1. Инженерия качества: Как перестать надеяться на удачу и начать измерять своих ИИ-агентов [Часть 3]

    Продолжаем рассмотрение, того как правильно оценивать качество ИИ систем, в данной части поговорим про метрики характерные для RAG системы. Способах оценить полноту, точность и соответствия выдачи контексту в подобной системе. На примере библиотеки RAGAS, с разбором того, как эти метрики работают изнутри.

    habr.com/ru/articles/1035300/

    #искусственный_интеллект #качество_продукта #обработка_естественного_языка #ragas #rag #ииагенты

  2. Инженерия качества: Как перестать надеяться на удачу и начать измерять своих ИИ-агентов [Часть 1]

    Инженерия качества: Как перестать надеяться на удачу и начать измерять своих ИИ-агентов [Часть 1] LLM глючит в продакшене? 🤖 Хватит надеяться на «vibe-check»! Узнай, как внедрить инженерный подход к качеству ИИ-агентов. В статье: 🔹 Что такое Golden Set и почему его нельзя заменить ручной проверкой 🔹 Как автоматически создать Golden Set через Knowledge Graph для RAG системы 🔹 Готовый Python-код для генерации тестов в RAGAS

    habr.com/ru/articles/1034050/

    #агенты_ии #rag #ragas #тестирование_приложений

  3. RAG Testing: как не сломать retrieval

    RAG ломается не так, как обычный LLM. У голой языковой модели одна поверхность отказа - генерация. У RAG-системы таких поверхностей две: retrieval и generation. И ломаются они по-разному. Retriever может вернуть нерелевантные чанки, потерять нужные документы или ранжировать их неправильно. Генератор может проигнорировать контекст и ответить из собственных весов. Стандартные LLM-метрики не ловят проблемы retrieval - они оценивают только финальный ответ. В статье - практический гайд по тестированию обеих поверхностей: 6 метрик RAGAS с production-порогами: Faithfulness ≥ 0.80, Context Precision ≥ 0.70, Context Recall ≥ 0.70, Answer Relevancy ≥ 0.70 Классические IR-метрики: Precision@K, Recall@K, MRR - для быстрой проверки retrieval без LLM-судьи Security-тесты: document poisoning, context injection, cross-tenant leakage через Promptfoo CI/CD pipeline: автоматический quality gate при обновлении knowledge base От pip install ragas до GitHub Actions - всё с кодом и конфигами.

    habr.com/ru/articles/1001682/

    #rag #ragas #llm_testing #ai_quality #promptfoo #ai_safety #deepeval

  4. Выбор LLM и фреймворка для ИИ-агентов

    Путь от одной A100 в облаке до кластера на H200 — это не просто апгрейд железа, а история о том, как ML-команда перестала искать «ту самую идеальную модель» и начала строить экосистему. Когда под капотом миллионы строк C-кода PostgreSQL, а задачи варьируются от генерации hint-сетов до Graph-RAG, модель превращается из «черного ящика» в обычный заменяемый компонент. Рассказываем, как мы пересобрали стек на базе vLLM и MCP, почему контекст-менеджмент важнее весов модели и как заставить 0.6B-параметров работать не хуже гигантов через GRPO.

    habr.com/ru/companies/postgres

    #llm #aiагент #ииагенты #qwen3 #ragas #finetuning #дообучение #trl #grpo #gspo

  5. Как поднять точность RAG-агента: чек-лист и инструменты. Часть 2. Финал

    В первой части я разбирал архитектуру AI-агента, выбор между RAG и GraphRAG на примере AI-юриста для техподдержки. Если пропустили – habr.com/ru/articles/975230/ Во второй части решил уделить внимание тому, как добиться нормального качества поиска и точности ответов. Чтобы AI-агент не остался в песочнице и не превратился в очередной эксперимент "мы попробовали, не взлетело". Надеюсь мой опыт будет полезен и вы сэкономите себе деньги, нервы и время. А может быть и вовсе откажетесь от идеи создания агента — это тоже нормальный исход. Я уже писал про чанки, RAGAS, бенчмарки и инструменты отслеживания качества. Сегодня остановимся детально на каждом артефакте, расскажу плюсы и минусы, и почему именно их я использовал для AI-юриста. Погнали

    habr.com/ru/articles/977018/

    #openai #claude #agentic_ai #agentic_rag #ragas #qwen25max #ииассистент #ai

  6. Albums en écoute 2 Devendra Murdeshwar - Ragas - classical melodies on the flute - 1972 Sublime!
    #ragas #flute #india #hindustani #devendramurdeshwar

  7. Retrieval-Augmented Generation (RAG): глубокий технический обзор

    Retrieval-Augmented Generation (RAG) – это архитектурный подход к генеративным моделям, который сочетает навыки поиска информации с генеративными возможностями больших языковых моделей (LLM). Идея RAG была предложена в 2020 году, чтобы преодолеть ограничение LLM – замкнутость на знаниях из обучающих данных. Вместо попыток «вживить» все знания в параметры модели, RAG-подход позволяет модели запрашивать актуальные сведения из внешних источников (баз знаний) во время генерации ответа . Это обеспечивает более точные и актуальные ответы, опирающиеся на факты, а не только на память модели. В этой статье мы подробно рассмотрим : архитектуру RAG, её компоненты и этапы работы, современные инструменты и практики для реализации RAG, примеры кода на Python, кейсы применения в бизнесе и науке, технические вызовы и лучшие практики, сравнение RAG с классическим fine-tuning, перспективы технологии.

    habr.com/ru/articles/931396/

    #rag #retrieval_augmented_generation #llm #ai #rag_pipeline #rag_ai #finetuning #ragas

  8. Superbe exemple de la tradition Carnatique. Pour celleux qui s'y intéresserait, les gestes des mains accompagnant leur chant sont des moyens mnémo-techniques pour marquer les changements de temps, se souvenir des stophes des poèmes qui sont chantés, et des indications aux musicien.nes. Merci Nathan Daems pour le partage.
    youtube.com/watch?v=beJXJVwD3v4

    #carnatic #Indian #bhajans #ragas #ranjani&gayatri

  9. [Перевод] 5 лучших фреймворков с открытым исходным кодом для оценки больших языковых моделей (LLM) в 2024 году

    «У меня такое чувство, что решений для оценки LLM больше, чем проблем, связанных с их оценкой», — сказал Дилан, руководитель отдела ИИ в компании из списка Fortune 500. И я полностью согласен — кажется, что каждую неделю появляется новый репозиторий с открытым исходным кодом, пытающийся сделать то же самое, что и другие 30+ уже существующих фреймворков. В конце концов, чего действительно хочет Дилан, так это фреймворка, пакета, библиотеки, как угодно, который просто количественно оценил бы производительность LLM (приложения), которую он хочет запустить в продакшен. Итак, как человек, который когда-то был на месте Дилана, я составил список из 5 лучших фреймворков для оценки LLM, существующих в 2024 году :) 😌 Начнем!

    habr.com/ru/articles/865212/

    #deepeval #mlflow #rag #ragas #llm #arize_ai

  10. [Перевод] Руководство для начинающих по оценке конвейеров RAG с использованием RAGAS

    В постоянно развивающемся мире машинного обучения и искусственного интеллекта разработка приложений языковых моделей, в частности систем генерации дополненного извлечения ( RAG ), становится все более сложной. Однако настоящая проблема возникает не во время первоначального создания, а при постоянном обслуживании и улучшении этих приложений. Именно здесь в игру вступает RAGAS — оценочная библиотека, предназначенная для предоставления метрик для конвейеров RAG. В этой статье мы рассмотрим библиотеку RAGAS и научим вас использовать ее для оценки конвейеров RAG.

    habr.com/ru/articles/863902/

    #rag #ragas #LLM #mdd #COQAQUAC

  11. Here is a write-up of our project submission for the #GoogleAIHackathon, task was to build a creative app using their #Gemini LLM. We built an LLM (Gemini) based evaluation framework for RAG (Retrieval Augmented Generation) systems optimized with example-driven prompts using #DSPy to generate scores from #RAGAS (-style) metrics. Shoutout to Dave Campbell and Mayank Bhaskar my co-contributors to the project for all their hard work! Links to video and GitHub in post -- sujitpal.blogspot.com/2024/05/