#evals — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #evals, aggregated by home.social.
-
Почему ломается ваш AI-агент — и почему смена модели обычно его не чинит
Представьте внутреннего AI-агента, который помогает компании искать общие документы и управлять ими. Он работает. До тех пор, пока 12–15% запросов не начинают падать. Агент возвращает не тот документ, редактирует не тот файл, молча падает или уверенно ссылается на файл, которого не существует. Поиск по фото отказывает с той же частотой. Ошибки размазаны равномерно по пользователям, фичам и запросам. Первое инстинктивное действие — поменять модель. Opus 4.5, GPT 5.5 или что там сейчас в топе лидерборда. Меняете. Счет за инференс растет в 4–5 раз, а общая доля ошибок снижается с 12% до 9%. Пользователи пишут о тех же проблемах. Бюджет следующего квартала сгорает за пару недель ради улучшения в 3 процентных пункта — и вы по-прежнему не понимаете, что именно было не так в системе и как улучшать ее дальше. Эта статья — о том, почему смена модели обычно разочаровывает и куда стоит смотреть в первую очередь. Большинство сбоев AI-систем живет в слое обвязки — orchestration, retrieval, tool definitions, retries, context management, — а не в самой модели. Дальше — метод, как отличить проблемы обвязки от проблем модели, кейс, в котором одно исправление в обвязке подняло completion rate с 26% до 88% без смены модели, и чек-лист, который помогает находить такие сбои в вашей собственной системе. Если вы никогда не делали подобной диагностики — ожидайте найти хотя бы один пункт, который стоит починить.
https://habr.com/ru/articles/1039292/
#aiагенты #llm #rag #orchestration #retrieval #tool_calling #context_engineering #evals #production #ai_infrastructure
-
Почему ломается ваш AI-агент — и почему смена модели обычно его не чинит
Представьте внутреннего AI-агента, который помогает компании искать общие документы и управлять ими. Он работает. До тех пор, пока 12–15% запросов не начинают падать. Агент возвращает не тот документ, редактирует не тот файл, молча падает или уверенно ссылается на файл, которого не существует. Поиск по фото отказывает с той же частотой. Ошибки размазаны равномерно по пользователям, фичам и запросам. Первое инстинктивное действие — поменять модель. Opus 4.5, GPT 5.5 или что там сейчас в топе лидерборда. Меняете. Счет за инференс растет в 4–5 раз, а общая доля ошибок снижается с 12% до 9%. Пользователи пишут о тех же проблемах. Бюджет следующего квартала сгорает за пару недель ради улучшения в 3 процентных пункта — и вы по-прежнему не понимаете, что именно было не так в системе и как улучшать ее дальше. Эта статья — о том, почему смена модели обычно разочаровывает и куда стоит смотреть в первую очередь. Большинство сбоев AI-систем живет в слое обвязки — orchestration, retrieval, tool definitions, retries, context management, — а не в самой модели. Дальше — метод, как отличить проблемы обвязки от проблем модели, кейс, в котором одно исправление в обвязке подняло completion rate с 26% до 88% без смены модели, и чек-лист, который помогает находить такие сбои в вашей собственной системе. Если вы никогда не делали подобной диагностики — ожидайте найти хотя бы один пункт, который стоит починить.
https://habr.com/ru/articles/1039292/
#aiагенты #llm #rag #orchestration #retrieval #tool_calling #context_engineering #evals #production #ai_infrastructure
-
Почему ломается ваш AI-агент — и почему смена модели обычно его не чинит
Представьте внутреннего AI-агента, который помогает компании искать общие документы и управлять ими. Он работает. До тех пор, пока 12–15% запросов не начинают падать. Агент возвращает не тот документ, редактирует не тот файл, молча падает или уверенно ссылается на файл, которого не существует. Поиск по фото отказывает с той же частотой. Ошибки размазаны равномерно по пользователям, фичам и запросам. Первое инстинктивное действие — поменять модель. Opus 4.5, GPT 5.5 или что там сейчас в топе лидерборда. Меняете. Счет за инференс растет в 4–5 раз, а общая доля ошибок снижается с 12% до 9%. Пользователи пишут о тех же проблемах. Бюджет следующего квартала сгорает за пару недель ради улучшения в 3 процентных пункта — и вы по-прежнему не понимаете, что именно было не так в системе и как улучшать ее дальше. Эта статья — о том, почему смена модели обычно разочаровывает и куда стоит смотреть в первую очередь. Большинство сбоев AI-систем живет в слое обвязки — orchestration, retrieval, tool definitions, retries, context management, — а не в самой модели. Дальше — метод, как отличить проблемы обвязки от проблем модели, кейс, в котором одно исправление в обвязке подняло completion rate с 26% до 88% без смены модели, и чек-лист, который помогает находить такие сбои в вашей собственной системе. Если вы никогда не делали подобной диагностики — ожидайте найти хотя бы один пункт, который стоит починить.
https://habr.com/ru/articles/1039292/
#aiагенты #llm #rag #orchestration #retrieval #tool_calling #context_engineering #evals #production #ai_infrastructure
-
Почему ломается ваш AI-агент — и почему смена модели обычно его не чинит
Представьте внутреннего AI-агента, который помогает компании искать общие документы и управлять ими. Он работает. До тех пор, пока 12–15% запросов не начинают падать. Агент возвращает не тот документ, редактирует не тот файл, молча падает или уверенно ссылается на файл, которого не существует. Поиск по фото отказывает с той же частотой. Ошибки размазаны равномерно по пользователям, фичам и запросам. Первое инстинктивное действие — поменять модель. Opus 4.5, GPT 5.5 или что там сейчас в топе лидерборда. Меняете. Счет за инференс растет в 4–5 раз, а общая доля ошибок снижается с 12% до 9%. Пользователи пишут о тех же проблемах. Бюджет следующего квартала сгорает за пару недель ради улучшения в 3 процентных пункта — и вы по-прежнему не понимаете, что именно было не так в системе и как улучшать ее дальше. Эта статья — о том, почему смена модели обычно разочаровывает и куда стоит смотреть в первую очередь. Большинство сбоев AI-систем живет в слое обвязки — orchestration, retrieval, tool definitions, retries, context management, — а не в самой модели. Дальше — метод, как отличить проблемы обвязки от проблем модели, кейс, в котором одно исправление в обвязке подняло completion rate с 26% до 88% без смены модели, и чек-лист, который помогает находить такие сбои в вашей собственной системе. Если вы никогда не делали подобной диагностики — ожидайте найти хотя бы один пункт, который стоит починить.
https://habr.com/ru/articles/1039292/
#aiагенты #llm #rag #orchestration #retrieval #tool_calling #context_engineering #evals #production #ai_infrastructure
-
AI Evals: Почему без оценки качества ваш продукт стоит на месте
Вы меняете системный промпт, надеетесь, что все заработало и деплоите фичу в продакшен. На следующее утро прилетает жалоба: агент выдумал дедлайн или проигнорировал важную инструкцию. Вы снова открываете IDE, правите промпт, смотрите глазами на пару примеров — «вроде стало лучше» и цикл вновь повторяется. Если это ваша повседневная реальность, у нас плохие новости: вы не управляете продуктом, вы играете в лотерею. В мире, где LLM-агенты становятся основой бизнес-процессов, AI Evals (оценки) — это не дополнительная нагрузка на инженеров, а единственная возможность контролируемых улучшений. Лидеры индустрии, от OpenAI до Anthropic, сходятся в одном: если вы не можете измерить качество работы ИИ - вы не можете им управлять.
https://habr.com/ru/articles/1037874/
#evals #оценка_качества #улучшение_llm #llm_as_a_judge #human_in_the_loop #Faithfulness #Completeness
-
🔮 Wow, revolutionary insight: if models change, evaluations might not work! Who would've thunk it?! 🚀 Let's all panic about the inevitable #doom of #evals and ignore the fact that predicting the future isn't our strong suit – especially when we can't even predict the end of this sentence...
https://wanglun1996.github.io/blog/your-evals-will-break.html #revolutionaryinsight #predictions #futureuncertainty #techhumor #HackerNews #ngated -
🔮 Wow, revolutionary insight: if models change, evaluations might not work! Who would've thunk it?! 🚀 Let's all panic about the inevitable #doom of #evals and ignore the fact that predicting the future isn't our strong suit – especially when we can't even predict the end of this sentence...
https://wanglun1996.github.io/blog/your-evals-will-break.html #revolutionaryinsight #predictions #futureuncertainty #techhumor #HackerNews #ngated -
🔮 Wow, revolutionary insight: if models change, evaluations might not work! Who would've thunk it?! 🚀 Let's all panic about the inevitable #doom of #evals and ignore the fact that predicting the future isn't our strong suit – especially when we can't even predict the end of this sentence...
https://wanglun1996.github.io/blog/your-evals-will-break.html #revolutionaryinsight #predictions #futureuncertainty #techhumor #HackerNews #ngated -
🔮 Wow, revolutionary insight: if models change, evaluations might not work! Who would've thunk it?! 🚀 Let's all panic about the inevitable #doom of #evals and ignore the fact that predicting the future isn't our strong suit – especially when we can't even predict the end of this sentence...
https://wanglun1996.github.io/blog/your-evals-will-break.html #revolutionaryinsight #predictions #futureuncertainty #techhumor #HackerNews #ngated -
🔮 Wow, revolutionary insight: if models change, evaluations might not work! Who would've thunk it?! 🚀 Let's all panic about the inevitable #doom of #evals and ignore the fact that predicting the future isn't our strong suit – especially when we can't even predict the end of this sentence...
https://wanglun1996.github.io/blog/your-evals-will-break.html #revolutionaryinsight #predictions #futureuncertainty #techhumor #HackerNews #ngated -
Evals Will Break and You Won't See It Coming
https://wanglun1996.github.io/blog/your-evals-will-break.html
#HackerNews #Evals #Break #TechRisk #AIInsights #CodeQuality
-
Evals Will Break and You Won't See It Coming
https://wanglun1996.github.io/blog/your-evals-will-break.html
#HackerNews #Evals #Break #TechRisk #AIInsights #CodeQuality
-
Evals Will Break and You Won't See It Coming
https://wanglun1996.github.io/blog/your-evals-will-break.html
#HackerNews #Evals #Break #TechRisk #AIInsights #CodeQuality
-
Evals Will Break and You Won't See It Coming
https://wanglun1996.github.io/blog/your-evals-will-break.html
#HackerNews #Evals #Break #TechRisk #AIInsights #CodeQuality
-
Evals Will Break and You Won't See It Coming
https://wanglun1996.github.io/blog/your-evals-will-break.html
#HackerNews #Evals #Break #TechRisk #AIInsights #CodeQuality
-
via #AIFoundry : How to run evals for the model router
https://ift.tt/XAF1Ivt
#ModelRouter #Foundry #Evals #Evaluations #LLM #AIModelRouting #PromptEngineering #ModelSelection #Latency #Cost #Quality #Benchmarking #OpenSource #GitHub #EvalRepo #Azure #AzureOpenAI #Claude #Fou… -
via #AIFoundry : How to run evals for the model router
https://ift.tt/XAF1Ivt
#ModelRouter #Foundry #Evals #Evaluations #LLM #AIModelRouting #PromptEngineering #ModelSelection #Latency #Cost #Quality #Benchmarking #OpenSource #GitHub #EvalRepo #Azure #AzureOpenAI #Claude #Fou… -
via #AIFoundry : How to run evals for the model router
https://ift.tt/XAF1Ivt
#ModelRouter #Foundry #Evals #Evaluations #LLM #AIModelRouting #PromptEngineering #ModelSelection #Latency #Cost #Quality #Benchmarking #OpenSource #GitHub #EvalRepo #Azure #AzureOpenAI #Claude #Fou… -
via #AIFoundry : How to run evals for the model router
https://ift.tt/XAF1Ivt
#ModelRouter #Foundry #Evals #Evaluations #LLM #AIModelRouting #PromptEngineering #ModelSelection #Latency #Cost #Quality #Benchmarking #OpenSource #GitHub #EvalRepo #Azure #AzureOpenAI #Claude #Fou… -
via #AIFoundry : How to run evals for the model router
https://ift.tt/XAF1Ivt
#ModelRouter #Foundry #Evals #Evaluations #LLM #AIModelRouting #PromptEngineering #ModelSelection #Latency #Cost #Quality #Benchmarking #OpenSource #GitHub #EvalRepo #Azure #AzureOpenAI #Claude #Fou… -
Come for the info on #AI #evals, stay for the #LizzieMcGuire references 😎💅
https://www.youtube.com/watch?v=_G9dDPKEIyg
My talk from the roundtable on Philanthropic Strategies for AI Benchmarks and Evaluations hosted by #Siegel Family Endowment and #AspenDigital is online for your viewing pleasure! -
https://www.tkhunt.com/2308372/ なぜAI開発は95%失敗するのか|エージェント時代の設計ミス #AgenticAi #AI #AIエージェント #AIプロジェクト #AI失敗 #AI設計 #AI評価 #AI運用 #ai開発 #ArtificialIntelligence #Evals #llm #LLMアプリ #rag #エージェント型AI #エージェント設計 #ソフトウェアエンジニアリング #人工知能 #生成AI
-
https://www.tkhunt.com/2308372/ なぜAI開発は95%失敗するのか|エージェント時代の設計ミス #AgenticAi #AI #AIエージェント #AIプロジェクト #AI失敗 #AI設計 #AI評価 #AI運用 #ai開発 #ArtificialIntelligence #Evals #llm #LLMアプリ #rag #エージェント型AI #エージェント設計 #ソフトウェアエンジニアリング #人工知能 #生成AI
-
https://www.tkhunt.com/2308372/ なぜAI開発は95%失敗するのか|エージェント時代の設計ミス #AgenticAi #AI #AIエージェント #AIプロジェクト #AI失敗 #AI設計 #AI評価 #AI運用 #ai開発 #ArtificialIntelligence #Evals #llm #LLMアプリ #rag #エージェント型AI #エージェント設計 #ソフトウェアエンジニアリング #人工知能 #生成AI
-
https://www.tkhunt.com/2308372/ なぜAI開発は95%失敗するのか|エージェント時代の設計ミス #AgenticAi #AI #AIエージェント #AIプロジェクト #AI失敗 #AI設計 #AI評価 #AI運用 #ai開発 #ArtificialIntelligence #Evals #llm #LLMアプリ #rag #エージェント型AI #エージェント設計 #ソフトウェアエンジニアリング #人工知能 #生成AI
-
https://www.tkhunt.com/2308372/ なぜAI開発は95%失敗するのか|エージェント時代の設計ミス #AgenticAi #AI #AIエージェント #AIプロジェクト #AI失敗 #AI設計 #AI評価 #AI運用 #ai開発 #ArtificialIntelligence #Evals #llm #LLMアプリ #rag #エージェント型AI #エージェント設計 #ソフトウェアエンジニアリング #人工知能 #生成AI
-
Как оценивать работу агентов
По мере стремительного развития агентных систем всё больше компаний — как крупных, так и небольших — рассматривают возможность интеграции агентов в свои рабочие процессы. Неудивительно, что многие лица, принимающие решения в этих компаниях, относятся к надёжности агентов с изрядной долей здорового скептицизма. Против недобросовестного сотрудника можно применить дисциплинарные взыскания и другие меры, но что делать с недобросовестным ИИ?
https://habr.com/ru/companies/raft/articles/1028832/
#evals #agentic_evaluation #ai_evaluation #agent_eval #ai_evals
-
Как оценивать работу агентов
По мере стремительного развития агентных систем всё больше компаний — как крупных, так и небольших — рассматривают возможность интеграции агентов в свои рабочие процессы. Неудивительно, что многие лица, принимающие решения в этих компаниях, относятся к надёжности агентов с изрядной долей здорового скептицизма. Против недобросовестного сотрудника можно применить дисциплинарные взыскания и другие меры, но что делать с недобросовестным ИИ?
https://habr.com/ru/companies/raft/articles/1028832/
#evals #agentic_evaluation #ai_evaluation #agent_eval #ai_evals
-
Как оценивать работу агентов
По мере стремительного развития агентных систем всё больше компаний — как крупных, так и небольших — рассматривают возможность интеграции агентов в свои рабочие процессы. Неудивительно, что многие лица, принимающие решения в этих компаниях, относятся к надёжности агентов с изрядной долей здорового скептицизма. Против недобросовестного сотрудника можно применить дисциплинарные взыскания и другие меры, но что делать с недобросовестным ИИ?
https://habr.com/ru/companies/raft/articles/1028832/
#evals #agentic_evaluation #ai_evaluation #agent_eval #ai_evals
-
Как оценивать работу агентов
По мере стремительного развития агентных систем всё больше компаний — как крупных, так и небольших — рассматривают возможность интеграции агентов в свои рабочие процессы. Неудивительно, что многие лица, принимающие решения в этих компаниях, относятся к надёжности агентов с изрядной долей здорового скептицизма. Против недобросовестного сотрудника можно применить дисциплинарные взыскания и другие меры, но что делать с недобросовестным ИИ?
https://habr.com/ru/companies/raft/articles/1028832/
#evals #agentic_evaluation #ai_evaluation #agent_eval #ai_evals
-
We can trace everything our AI systems do—but can we tell if it’s actually good?
Evaluation in agentic AI is not about more metrics. It’s about defining what “good” means—and testing it continuously.
Are your #evals designed—or just observed?
-
We can trace everything our AI systems do—but can we tell if it’s actually good?
Evaluation in agentic AI is not about more metrics. It’s about defining what “good” means—and testing it continuously.
Are your #evals designed—or just observed?
-
We can trace everything our AI systems do—but can we tell if it’s actually good?
Evaluation in agentic AI is not about more metrics. It’s about defining what “good” means—and testing it continuously.
Are your #evals designed—or just observed?
-
We can trace everything our AI systems do—but can we tell if it’s actually good?
Evaluation in agentic AI is not about more metrics. It’s about defining what “good” means—and testing it continuously.
Are your #evals designed—or just observed?
-
We can trace everything our AI systems do—but can we tell if it’s actually good?
Evaluation in agentic AI is not about more metrics. It’s about defining what “good” means—and testing it continuously.
Are your #evals designed—or just observed?
-
Generative AI apps have their own version of the training-serving skew from classical ML: the eval-production gap.
You create an eval dataset, optimize your LLM flows against it, hit great performance on your metrics, and ship. Then real users show up and:
- Write input texts of multiple pages long
- Ask in Spanish, Russian or Chinese when you tested in English
- Upload file types you never considered
- Ask questions from domains your product wasn't designed for -
Agentevals v0.6.3 is out, I recommend giving it a go if you are considering running #agents and #genai workloads in production!
Cool things you can do:
- run local #evals in CI/CD, where you can BYO logic
- offload evals to #OpenAI Eval API (even for other models)
- run it in #k8sIt's fully framework-agnostic and OSS: https://github.com/agentevals-dev/agentevals
-
We just released agentevals v0.6.0: https://github.com/agentevals-dev/agentevals/releases/tag/v0.6.0
Now you can use #OpenAI Eval API to offload eval scoring, BYO custom #evals with their dependencies, and have insights into how much time individual evals take, so you can choose the best one for the job at hand!
You only need #OTel traces!
-
We just released agentevals v0.6.0: https://github.com/agentevals-dev/agentevals/releases/tag/v0.6.0
Now you can use #OpenAI Eval API to offload eval scoring, BYO custom #evals with their dependencies, and have insights into how much time individual evals take, so you can choose the best one for the job at hand!
You only need #OTel traces!
-
I used #Pydantic Evals to evaluate a bunch of agents today. After running an evaluation, I'd like to inspect the SpanTree for each evaluation case, e.g. to check which tools were called and debug my custom Evaluators. My current approach is a custom Evaluator that captures the tree as a side effect into a module-level variable.
Storing the trees in a global var is not great, so let's see if we can come up with a better solution: https://github.com/pydantic/pydantic-ai/issues/4758
-
Hahaha, oh Pydantic...
> Unlike unit tests, evals are an emerging art/science. Anyone who claims to know exactly how your evals should be defined can safely be ignored.
Source: https://ai.pydantic.dev/evals/
-
-
Tried out the free consumer version of ChatGPT today for a benchmark. Normally I only work via foundational model APIs or Claude Code w/ latest Opus. Free ChatGPT (currently GPT‑5.2) performance was nightmarish: authoritative-sounding answers but 0 citations, and thinking is not enabled by default. No wonder so many people complain about bad experiences with AI...
-
Интересное в графике - не то что 8 часовые задачи (с успешностью 50%) прогнозируются в ~середине этого года, а то, как уныло выглядит график, если переключить на 80% успешность (там нечто вроде 15 минут на начало 2026, а не 4.5 часа как на 50%).
https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/
-
Интересное в графике - не то что 8 часовые задачи (с успешностью 50%) прогнозируются в ~середине этого года, а то, как уныло выглядит график, если переключить на 80% успешность (там нечто вроде 15 минут на начало 2026, а не 4.5 часа как на 50%).
https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/
-
Интересное в графике - не то что 8 часовые задачи (с успешностью 50%) прогнозируются в ~середине этого года, а то, как уныло выглядит график, если переключить на 80% успешность (там нечто вроде 15 минут на начало 2026, а не 4.5 часа как на 50%).
https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/