#ragas — Public Fediverse posts on home.social

Habr @[email protected] · 2026-05-14 · 15:02 UTC

Инженерия качества: Как перестать надеяться на удачу и начать измерять своих ИИ-агентов [Часть 3]

Продолжаем рассмотрение, того как правильно оценивать качество ИИ систем, в данной части поговорим про метрики характерные для RAG системы. Способах оценить полноту, точность и соответствия выдачи контексту в подобной системе. На примере библиотеки RAGAS, с разбором того, как эти метрики работают изнутри.

https://habr.com/ru/articles/1035300/

#искусственный_интеллект #качество_продукта #обработка_естественного_языка #ragas #rag #ииагенты

#ииагенты #rag #ragas #обработка_естественного_языка #качество_продукта #искусственный_интеллект

Habr @[email protected] · 2026-05-12 · 07:32 UTC

Инженерия качества: Как перестать надеяться на удачу и начать измерять своих ИИ-агентов [Часть 1]

Инженерия качества: Как перестать надеяться на удачу и начать измерять своих ИИ-агентов [Часть 1] LLM глючит в продакшене? 🤖 Хватит надеяться на «vibe-check»! Узнай, как внедрить инженерный подход к качеству ИИ-агентов. В статье: 🔹 Что такое Golden Set и почему его нельзя заменить ручной проверкой 🔹 Как автоматически создать Golden Set через Knowledge Graph для RAG системы 🔹 Готовый Python-код для генерации тестов в RAGAS

https://habr.com/ru/articles/1034050/

#агенты_ии #rag #ragas #тестирование_приложений

#тестирование_приложений #ragas #rag #агенты_ии

Habr @[email protected] · 2026-02-20 · 04:22 UTC

RAG Testing: как не сломать retrieval

RAG ломается не так, как обычный LLM. У голой языковой модели одна поверхность отказа - генерация. У RAG-системы таких поверхностей две: retrieval и generation. И ломаются они по-разному. Retriever может вернуть нерелевантные чанки, потерять нужные документы или ранжировать их неправильно. Генератор может проигнорировать контекст и ответить из собственных весов. Стандартные LLM-метрики не ловят проблемы retrieval - они оценивают только финальный ответ. В статье - практический гайд по тестированию обеих поверхностей: 6 метрик RAGAS с production-порогами: Faithfulness ≥ 0.80, Context Precision ≥ 0.70, Context Recall ≥ 0.70, Answer Relevancy ≥ 0.70 Классические IR-метрики: Precision@K, Recall@K, MRR - для быстрой проверки retrieval без LLM-судьи Security-тесты: document poisoning, context injection, cross-tenant leakage через Promptfoo CI/CD pipeline: автоматический quality gate при обновлении knowledge base От pip install ragas до GitHub Actions - всё с кодом и конфигами.

https://habr.com/ru/articles/1001682/

#rag #ragas #llm_testing #ai_quality #promptfoo #ai_safety #deepeval

#deepeval #ai_safety #promptfoo #ai_quality #llm_testing #ragas

Habr @[email protected] · 2025-12-23 · 15:52 UTC

Выбор LLM и фреймворка для ИИ-агентов

Путь от одной A100 в облаке до кластера на H200 — это не просто апгрейд железа, а история о том, как ML-команда перестала искать «ту самую идеальную модель» и начала строить экосистему. Когда под капотом миллионы строк C-кода PostgreSQL, а задачи варьируются от генерации hint-сетов до Graph-RAG, модель превращается из «черного ящика» в обычный заменяемый компонент. Рассказываем, как мы пересобрали стек на базе vLLM и MCP, почему контекст-менеджмент важнее весов модели и как заставить 0.6B-параметров работать не хуже гигантов через GRPO.

https://habr.com/ru/companies/postgrespro/articles/979820/

#llm #aiагент #ииагенты #qwen3 #ragas #finetuning #дообучение #trl #grpo #gspo

#gspo #grpo #trl #дообучение #finetuning #ragas

Habr @[email protected] · 2025-12-15 · 18:52 UTC

Как поднять точность RAG-агента: чек-лист и инструменты. Часть 2. Финал

В первой части я разбирал архитектуру AI-агента, выбор между RAG и GraphRAG на примере AI-юриста для техподдержки. Если пропустили – https://habr.com/ru/articles/975230/ Во второй части решил уделить внимание тому, как добиться нормального качества поиска и точности ответов. Чтобы AI-агент не остался в песочнице и не превратился в очередной эксперимент "мы попробовали, не взлетело". Надеюсь мой опыт будет полезен и вы сэкономите себе деньги, нервы и время. А может быть и вовсе откажетесь от идеи создания агента — это тоже нормальный исход. Я уже писал про чанки, RAGAS, бенчмарки и инструменты отслеживания качества. Сегодня остановимся детально на каждом артефакте, расскажу плюсы и минусы, и почему именно их я использовал для AI-юриста. Погнали

https://habr.com/ru/articles/977018/

#openai #claude #agentic_ai #agentic_rag #ragas #qwen25max #ииассистент #ai

#ai #ииассистент #qwen25max #ragas #agentic_rag #agentic_ai

Prince Baron Sunshine @[email protected] · 2025-08-11 · 11:50 UTC

Albums en écoute 2 Devendra Murdeshwar - Ragas - classical melodies on the flute - 1972 Sublime!
#ragas #flute #india #hindustani #devendramurdeshwar

#ragas #flute #india #hindustani #devendramurdeshwar

Habr @[email protected] · 2025-07-31 · 12:52 UTC

Retrieval-Augmented Generation (RAG): глубокий технический обзор

Retrieval-Augmented Generation (RAG) – это архитектурный подход к генеративным моделям, который сочетает навыки поиска информации с генеративными возможностями больших языковых моделей (LLM). Идея RAG была предложена в 2020 году, чтобы преодолеть ограничение LLM – замкнутость на знаниях из обучающих данных. Вместо попыток «вживить» все знания в параметры модели, RAG-подход позволяет модели запрашивать актуальные сведения из внешних источников (баз знаний) во время генерации ответа . Это обеспечивает более точные и актуальные ответы, опирающиеся на факты, а не только на память модели. В этой статье мы подробно рассмотрим : архитектуру RAG, её компоненты и этапы работы, современные инструменты и практики для реализации RAG, примеры кода на Python, кейсы применения в бизнесе и науке, технические вызовы и лучшие практики, сравнение RAG с классическим fine-tuning, перспективы технологии.

https://habr.com/ru/articles/931396/

#rag #retrieval_augmented_generation #llm #ai #rag_pipeline #rag_ai #finetuning #ragas

#ragas #finetuning #rag_ai #rag_pipeline #ai #llm

IB Teguh TM @[email protected] · 2025-05-28 · 08:54 UTC

Master Python Ragas AI Evaluation! Learn to effectively assess your LLMs and RAG systems for top-tier performance. Full tutorial inside. #Python #Ragas #AIEvaluation #LLM #RAG #TechTutorial #DataScience

https://teguhteja.id/python-ragas-ai-evaluation-master-llm-assessment-guide/

#python #ragas #aievaluation #llm #rag #techtutorial

Prince Baron Sunshine @[email protected] · 2025-05-17 · 12:57 UTC

Superbe exemple de la tradition Carnatique. Pour celleux qui s'y intéresserait, les gestes des mains accompagnant leur chant sont des moyens mnémo-techniques pour marquer les changements de temps, se souvenir des stophes des poèmes qui sont chantés, et des indications aux musicien.nes. Merci Nathan Daems pour le partage.
https://www.youtube.com/watch?v=beJXJVwD3v4

#carnatic #Indian #bhajans #ragas #ranjani&gayatri

#carnatic #indian #bhajans #ragas #ranjani

Habr @[email protected] · 2024-12-10 · 10:32 UTC

[Перевод] 5 лучших фреймворков с открытым исходным кодом для оценки больших языковых моделей (LLM) в 2024 году

«У меня такое чувство, что решений для оценки LLM больше, чем проблем, связанных с их оценкой», — сказал Дилан, руководитель отдела ИИ в компании из списка Fortune 500. И я полностью согласен — кажется, что каждую неделю появляется новый репозиторий с открытым исходным кодом, пытающийся сделать то же самое, что и другие 30+ уже существующих фреймворков. В конце концов, чего действительно хочет Дилан, так это фреймворка, пакета, библиотеки, как угодно, который просто количественно оценил бы производительность LLM (приложения), которую он хочет запустить в продакшен. Итак, как человек, который когда-то был на месте Дилана, я составил список из 5 лучших фреймворков для оценки LLM, существующих в 2024 году :) 😌 Начнем!

https://habr.com/ru/articles/865212/

#deepeval #mlflow #rag #ragas #llm #arize_ai

Habr @[email protected] · 2024-12-06 · 11:12 UTC

[Перевод] Руководство для начинающих по оценке конвейеров RAG с использованием RAGAS

В постоянно развивающемся мире машинного обучения и искусственного интеллекта разработка приложений языковых моделей, в частности систем генерации дополненного извлечения ( RAG ), становится все более сложной. Однако настоящая проблема возникает не во время первоначального создания, а при постоянном обслуживании и улучшении этих приложений. Именно здесь в игру вступает RAGAS — оценочная библиотека, предназначенная для предоставления метрик для конвейеров RAG. В этой статье мы рассмотрим библиотеку RAGAS и научим вас использовать ее для оценки конвейеров RAG.

https://habr.com/ru/articles/863902/

#rag #ragas #LLM #mdd #COQAQUAC

#coqaquac #mdd #llm #ragas #rag

Sujit Pal @[email protected] · 2024-05-18 · 14:19 UTC

Here is a write-up of our project submission for the #GoogleAIHackathon, task was to build a creative app using their #Gemini LLM. We built an LLM (Gemini) based evaluation framework for RAG (Retrieval Augmented Generation) systems optimized with example-driven prompts using #DSPy to generate scores from #RAGAS (-style) metrics. Shoutout to Dave Campbell and Mayank Bhaskar my co-contributors to the project for all their hard work! Links to video and GitHub in post -- https://sujitpal.blogspot.com/2024/05/finetuning-ragas-metrics-using-dspy.html

#googleaihackathon #gemini #dspy #ragas

Rajeev Kumar @[email protected] · 2023-01-08 · 09:43 UTC

Listening to this beautiful Dadra "Tadape bin balam mora jiya", sung by Shuvra Guha and featured in the movie Yatra.

#IndianClassical #Musuc #NowPlaying #ShuvraGuha #Yatra #Dadra #Ragas @indianclassical #MastIndia

Spotify URL -- https://open.spotify.com/track/6FOz0ZHOHyuDyiUfNSACOv

#indianclassical #musuc #nowplaying #shuvraguha #yatra #dadra