#ragas — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #ragas, aggregated by home.social.
-
Инженерия качества: Как перестать надеяться на удачу и начать измерять своих ИИ-агентов [Часть 3]
Продолжаем рассмотрение, того как правильно оценивать качество ИИ систем, в данной части поговорим про метрики характерные для RAG системы. Способах оценить полноту, точность и соответствия выдачи контексту в подобной системе. На примере библиотеки RAGAS, с разбором того, как эти метрики работают изнутри.
https://habr.com/ru/articles/1035300/
#искусственный_интеллект #качество_продукта #обработка_естественного_языка #ragas #rag #ииагенты
-
Инженерия качества: Как перестать надеяться на удачу и начать измерять своих ИИ-агентов [Часть 1]
Инженерия качества: Как перестать надеяться на удачу и начать измерять своих ИИ-агентов [Часть 1] LLM глючит в продакшене? 🤖 Хватит надеяться на «vibe-check»! Узнай, как внедрить инженерный подход к качеству ИИ-агентов. В статье: 🔹 Что такое Golden Set и почему его нельзя заменить ручной проверкой 🔹 Как автоматически создать Golden Set через Knowledge Graph для RAG системы 🔹 Готовый Python-код для генерации тестов в RAGAS
-
RAG Testing: как не сломать retrieval
RAG ломается не так, как обычный LLM. У голой языковой модели одна поверхность отказа - генерация. У RAG-системы таких поверхностей две: retrieval и generation. И ломаются они по-разному. Retriever может вернуть нерелевантные чанки, потерять нужные документы или ранжировать их неправильно. Генератор может проигнорировать контекст и ответить из собственных весов. Стандартные LLM-метрики не ловят проблемы retrieval - они оценивают только финальный ответ. В статье - практический гайд по тестированию обеих поверхностей: 6 метрик RAGAS с production-порогами: Faithfulness ≥ 0.80, Context Precision ≥ 0.70, Context Recall ≥ 0.70, Answer Relevancy ≥ 0.70 Классические IR-метрики: Precision@K, Recall@K, MRR - для быстрой проверки retrieval без LLM-судьи Security-тесты: document poisoning, context injection, cross-tenant leakage через Promptfoo CI/CD pipeline: автоматический quality gate при обновлении knowledge base От pip install ragas до GitHub Actions - всё с кодом и конфигами.
https://habr.com/ru/articles/1001682/
#rag #ragas #llm_testing #ai_quality #promptfoo #ai_safety #deepeval
-
Выбор LLM и фреймворка для ИИ-агентов
Путь от одной A100 в облаке до кластера на H200 — это не просто апгрейд железа, а история о том, как ML-команда перестала искать «ту самую идеальную модель» и начала строить экосистему. Когда под капотом миллионы строк C-кода PostgreSQL, а задачи варьируются от генерации hint-сетов до Graph-RAG, модель превращается из «черного ящика» в обычный заменяемый компонент. Рассказываем, как мы пересобрали стек на базе vLLM и MCP, почему контекст-менеджмент важнее весов модели и как заставить 0.6B-параметров работать не хуже гигантов через GRPO.
https://habr.com/ru/companies/postgrespro/articles/979820/
#llm #aiагент #ииагенты #qwen3 #ragas #finetuning #дообучение #trl #grpo #gspo
-
Как поднять точность RAG-агента: чек-лист и инструменты. Часть 2. Финал
В первой части я разбирал архитектуру AI-агента, выбор между RAG и GraphRAG на примере AI-юриста для техподдержки. Если пропустили – https://habr.com/ru/articles/975230/ Во второй части решил уделить внимание тому, как добиться нормального качества поиска и точности ответов. Чтобы AI-агент не остался в песочнице и не превратился в очередной эксперимент "мы попробовали, не взлетело". Надеюсь мой опыт будет полезен и вы сэкономите себе деньги, нервы и время. А может быть и вовсе откажетесь от идеи создания агента — это тоже нормальный исход. Я уже писал про чанки, RAGAS, бенчмарки и инструменты отслеживания качества. Сегодня остановимся детально на каждом артефакте, расскажу плюсы и минусы, и почему именно их я использовал для AI-юриста. Погнали
https://habr.com/ru/articles/977018/
#openai #claude #agentic_ai #agentic_rag #ragas #qwen25max #ииассистент #ai
-
Albums en écoute 2 Devendra Murdeshwar - Ragas - classical melodies on the flute - 1972 Sublime!
#ragas #flute #india #hindustani #devendramurdeshwar -
Retrieval-Augmented Generation (RAG): глубокий технический обзор
Retrieval-Augmented Generation (RAG) – это архитектурный подход к генеративным моделям, который сочетает навыки поиска информации с генеративными возможностями больших языковых моделей (LLM). Идея RAG была предложена в 2020 году, чтобы преодолеть ограничение LLM – замкнутость на знаниях из обучающих данных. Вместо попыток «вживить» все знания в параметры модели, RAG-подход позволяет модели запрашивать актуальные сведения из внешних источников (баз знаний) во время генерации ответа . Это обеспечивает более точные и актуальные ответы, опирающиеся на факты, а не только на память модели. В этой статье мы подробно рассмотрим : архитектуру RAG, её компоненты и этапы работы, современные инструменты и практики для реализации RAG, примеры кода на Python, кейсы применения в бизнесе и науке, технические вызовы и лучшие практики, сравнение RAG с классическим fine-tuning, перспективы технологии.
https://habr.com/ru/articles/931396/
#rag #retrieval_augmented_generation #llm #ai #rag_pipeline #rag_ai #finetuning #ragas
-
Master Python Ragas AI Evaluation! Learn to effectively assess your LLMs and RAG systems for top-tier performance. Full tutorial inside. #Python #Ragas #AIEvaluation #LLM #RAG #TechTutorial #DataScience
https://teguhteja.id/python-ragas-ai-evaluation-master-llm-assessment-guide/
-
Superbe exemple de la tradition Carnatique. Pour celleux qui s'y intéresserait, les gestes des mains accompagnant leur chant sont des moyens mnémo-techniques pour marquer les changements de temps, se souvenir des stophes des poèmes qui sont chantés, et des indications aux musicien.nes. Merci Nathan Daems pour le partage.
https://www.youtube.com/watch?v=beJXJVwD3v4 -
[Перевод] 5 лучших фреймворков с открытым исходным кодом для оценки больших языковых моделей (LLM) в 2024 году
«У меня такое чувство, что решений для оценки LLM больше, чем проблем, связанных с их оценкой», — сказал Дилан, руководитель отдела ИИ в компании из списка Fortune 500. И я полностью согласен — кажется, что каждую неделю появляется новый репозиторий с открытым исходным кодом, пытающийся сделать то же самое, что и другие 30+ уже существующих фреймворков. В конце концов, чего действительно хочет Дилан, так это фреймворка, пакета, библиотеки, как угодно, который просто количественно оценил бы производительность LLM (приложения), которую он хочет запустить в продакшен. Итак, как человек, который когда-то был на месте Дилана, я составил список из 5 лучших фреймворков для оценки LLM, существующих в 2024 году :) 😌 Начнем!
-
[Перевод] Руководство для начинающих по оценке конвейеров RAG с использованием RAGAS
В постоянно развивающемся мире машинного обучения и искусственного интеллекта разработка приложений языковых моделей, в частности систем генерации дополненного извлечения ( RAG ), становится все более сложной. Однако настоящая проблема возникает не во время первоначального создания, а при постоянном обслуживании и улучшении этих приложений. Именно здесь в игру вступает RAGAS — оценочная библиотека, предназначенная для предоставления метрик для конвейеров RAG. В этой статье мы рассмотрим библиотеку RAGAS и научим вас использовать ее для оценки конвейеров RAG.
-
Here is a write-up of our project submission for the #GoogleAIHackathon, task was to build a creative app using their #Gemini LLM. We built an LLM (Gemini) based evaluation framework for RAG (Retrieval Augmented Generation) systems optimized with example-driven prompts using #DSPy to generate scores from #RAGAS (-style) metrics. Shoutout to Dave Campbell and Mayank Bhaskar my co-contributors to the project for all their hard work! Links to video and GitHub in post -- https://sujitpal.blogspot.com/2024/05/finetuning-ragas-metrics-using-dspy.html
-
Listening to this beautiful Dadra "Tadape bin balam mora jiya", sung by Shuvra Guha and featured in the movie Yatra.
#IndianClassical #Musuc #NowPlaying #ShuvraGuha #Yatra #Dadra #Ragas @indianclassical #MastIndia
Spotify URL -- https://open.spotify.com/track/6FOz0ZHOHyuDyiUfNSACOv