#evals — Public Fediverse posts on home.social

Habr @[email protected] · 2026-05-26 · 07:22 UTC

Почему ломается ваш AI-агент — и почему смена модели обычно его не чинит

Представьте внутреннего AI-агента, который помогает компании искать общие документы и управлять ими. Он работает. До тех пор, пока 12–15% запросов не начинают падать. Агент возвращает не тот документ, редактирует не тот файл, молча падает или уверенно ссылается на файл, которого не существует. Поиск по фото отказывает с той же частотой. Ошибки размазаны равномерно по пользователям, фичам и запросам. Первое инстинктивное действие — поменять модель. Opus 4.5, GPT 5.5 или что там сейчас в топе лидерборда. Меняете. Счет за инференс растет в 4–5 раз, а общая доля ошибок снижается с 12% до 9%. Пользователи пишут о тех же проблемах. Бюджет следующего квартала сгорает за пару недель ради улучшения в 3 процентных пункта — и вы по-прежнему не понимаете, что именно было не так в системе и как улучшать ее дальше. Эта статья — о том, почему смена модели обычно разочаровывает и куда стоит смотреть в первую очередь. Большинство сбоев AI-систем живет в слое обвязки — orchestration, retrieval, tool definitions, retries, context management, — а не в самой модели. Дальше — метод, как отличить проблемы обвязки от проблем модели, кейс, в котором одно исправление в обвязке подняло completion rate с 26% до 88% без смены модели, и чек-лист, который помогает находить такие сбои в вашей собственной системе. Если вы никогда не делали подобной диагностики — ожидайте найти хотя бы один пункт, который стоит починить.

https://habr.com/ru/articles/1039292/

#aiагенты #llm #rag #orchestration #retrieval #tool_calling #context_engineering #evals #production #ai_infrastructure

#ai_infrastructure #production #evals #context_engineering #tool_calling #retrieval

Habr @[email protected] · 2026-05-26 · 07:22 UTC

Почему ломается ваш AI-агент — и почему смена модели обычно его не чинит

Представьте внутреннего AI-агента, который помогает компании искать общие документы и управлять ими. Он работает. До тех пор, пока 12–15% запросов не начинают падать. Агент возвращает не тот документ, редактирует не тот файл, молча падает или уверенно ссылается на файл, которого не существует. Поиск по фото отказывает с той же частотой. Ошибки размазаны равномерно по пользователям, фичам и запросам. Первое инстинктивное действие — поменять модель. Opus 4.5, GPT 5.5 или что там сейчас в топе лидерборда. Меняете. Счет за инференс растет в 4–5 раз, а общая доля ошибок снижается с 12% до 9%. Пользователи пишут о тех же проблемах. Бюджет следующего квартала сгорает за пару недель ради улучшения в 3 процентных пункта — и вы по-прежнему не понимаете, что именно было не так в системе и как улучшать ее дальше. Эта статья — о том, почему смена модели обычно разочаровывает и куда стоит смотреть в первую очередь. Большинство сбоев AI-систем живет в слое обвязки — orchestration, retrieval, tool definitions, retries, context management, — а не в самой модели. Дальше — метод, как отличить проблемы обвязки от проблем модели, кейс, в котором одно исправление в обвязке подняло completion rate с 26% до 88% без смены модели, и чек-лист, который помогает находить такие сбои в вашей собственной системе. Если вы никогда не делали подобной диагностики — ожидайте найти хотя бы один пункт, который стоит починить.

https://habr.com/ru/articles/1039292/

#aiагенты #llm #rag #orchestration #retrieval #tool_calling #context_engineering #evals #production #ai_infrastructure

#ai_infrastructure #production #evals #context_engineering #tool_calling #retrieval

Habr @[email protected] · 2026-05-26 · 07:22 UTC

Почему ломается ваш AI-агент — и почему смена модели обычно его не чинит

Представьте внутреннего AI-агента, который помогает компании искать общие документы и управлять ими. Он работает. До тех пор, пока 12–15% запросов не начинают падать. Агент возвращает не тот документ, редактирует не тот файл, молча падает или уверенно ссылается на файл, которого не существует. Поиск по фото отказывает с той же частотой. Ошибки размазаны равномерно по пользователям, фичам и запросам. Первое инстинктивное действие — поменять модель. Opus 4.5, GPT 5.5 или что там сейчас в топе лидерборда. Меняете. Счет за инференс растет в 4–5 раз, а общая доля ошибок снижается с 12% до 9%. Пользователи пишут о тех же проблемах. Бюджет следующего квартала сгорает за пару недель ради улучшения в 3 процентных пункта — и вы по-прежнему не понимаете, что именно было не так в системе и как улучшать ее дальше. Эта статья — о том, почему смена модели обычно разочаровывает и куда стоит смотреть в первую очередь. Большинство сбоев AI-систем живет в слое обвязки — orchestration, retrieval, tool definitions, retries, context management, — а не в самой модели. Дальше — метод, как отличить проблемы обвязки от проблем модели, кейс, в котором одно исправление в обвязке подняло completion rate с 26% до 88% без смены модели, и чек-лист, который помогает находить такие сбои в вашей собственной системе. Если вы никогда не делали подобной диагностики — ожидайте найти хотя бы один пункт, который стоит починить.

https://habr.com/ru/articles/1039292/

#aiагенты #llm #rag #orchestration #retrieval #tool_calling #context_engineering #evals #production #ai_infrastructure

#ai_infrastructure #production #evals #context_engineering #tool_calling #retrieval

Habr @[email protected] · 2026-05-26 · 07:22 UTC

Почему ломается ваш AI-агент — и почему смена модели обычно его не чинит

Представьте внутреннего AI-агента, который помогает компании искать общие документы и управлять ими. Он работает. До тех пор, пока 12–15% запросов не начинают падать. Агент возвращает не тот документ, редактирует не тот файл, молча падает или уверенно ссылается на файл, которого не существует. Поиск по фото отказывает с той же частотой. Ошибки размазаны равномерно по пользователям, фичам и запросам. Первое инстинктивное действие — поменять модель. Opus 4.5, GPT 5.5 или что там сейчас в топе лидерборда. Меняете. Счет за инференс растет в 4–5 раз, а общая доля ошибок снижается с 12% до 9%. Пользователи пишут о тех же проблемах. Бюджет следующего квартала сгорает за пару недель ради улучшения в 3 процентных пункта — и вы по-прежнему не понимаете, что именно было не так в системе и как улучшать ее дальше. Эта статья — о том, почему смена модели обычно разочаровывает и куда стоит смотреть в первую очередь. Большинство сбоев AI-систем живет в слое обвязки — orchestration, retrieval, tool definitions, retries, context management, — а не в самой модели. Дальше — метод, как отличить проблемы обвязки от проблем модели, кейс, в котором одно исправление в обвязке подняло completion rate с 26% до 88% без смены модели, и чек-лист, который помогает находить такие сбои в вашей собственной системе. Если вы никогда не делали подобной диагностики — ожидайте найти хотя бы один пункт, который стоит починить.

https://habr.com/ru/articles/1039292/

#aiагенты #llm #rag #orchestration #retrieval #tool_calling #context_engineering #evals #production #ai_infrastructure

#aiагенты #llm #rag #orchestration #retrieval #tool_calling

Habr @[email protected] · 2026-05-21 · 16:02 UTC

AI Evals: Почему без оценки качества ваш продукт стоит на месте

Вы меняете системный промпт, надеетесь, что все заработало и деплоите фичу в продакшен. На следующее утро прилетает жалоба: агент выдумал дедлайн или проигнорировал важную инструкцию. Вы снова открываете IDE, правите промпт, смотрите глазами на пару примеров — «вроде стало лучше» и цикл вновь повторяется. Если это ваша повседневная реальность, у нас плохие новости: вы не управляете продуктом, вы играете в лотерею. В мире, где LLM-агенты становятся основой бизнес-процессов, AI Evals (оценки) — это не дополнительная нагрузка на инженеров, а единственная возможность контролируемых улучшений. Лидеры индустрии, от OpenAI до Anthropic, сходятся в одном: если вы не можете измерить качество работы ИИ - вы не можете им управлять.

https://habr.com/ru/articles/1037874/

#evals #оценка_качества #улучшение_llm #llm_as_a_judge #human_in_the_loop #Faithfulness #Completeness

#completeness #faithfulness #human_in_the_loop #llm_as_a_judge #улучшение_llm #оценка_качества

N-gated Hacker News @[email protected] · 2026-05-20 · 04:39 UTC

🔮 Wow, revolutionary insight: if models change, evaluations might not work! Who would've thunk it?! 🚀 Let's all panic about the inevitable #doom of #evals and ignore the fact that predicting the future isn't our strong suit – especially when we can't even predict the end of this sentence...
https://wanglun1996.github.io/blog/your-evals-will-break.html #revolutionaryinsight #predictions #futureuncertainty #techhumor #HackerNews #ngated

#doom #evals #revolutionaryinsight #predictions #futureuncertainty #techhumor

N-gated Hacker News @[email protected] · 2026-05-20 · 04:39 UTC

🔮 Wow, revolutionary insight: if models change, evaluations might not work! Who would've thunk it?! 🚀 Let's all panic about the inevitable #doom of #evals and ignore the fact that predicting the future isn't our strong suit – especially when we can't even predict the end of this sentence...
https://wanglun1996.github.io/blog/your-evals-will-break.html #revolutionaryinsight #predictions #futureuncertainty #techhumor #HackerNews #ngated

#doom #evals #revolutionaryinsight #predictions #futureuncertainty #techhumor

N-gated Hacker News @[email protected] · 2026-05-20 · 04:39 UTC

🔮 Wow, revolutionary insight: if models change, evaluations might not work! Who would've thunk it?! 🚀 Let's all panic about the inevitable #doom of #evals and ignore the fact that predicting the future isn't our strong suit – especially when we can't even predict the end of this sentence...
https://wanglun1996.github.io/blog/your-evals-will-break.html #revolutionaryinsight #predictions #futureuncertainty #techhumor #HackerNews #ngated

#doom #evals #revolutionaryinsight #predictions #futureuncertainty #techhumor

N-gated Hacker News @[email protected] · 2026-05-20 · 04:39 UTC

🔮 Wow, revolutionary insight: if models change, evaluations might not work! Who would've thunk it?! 🚀 Let's all panic about the inevitable #doom of #evals and ignore the fact that predicting the future isn't our strong suit – especially when we can't even predict the end of this sentence...
https://wanglun1996.github.io/blog/your-evals-will-break.html #revolutionaryinsight #predictions #futureuncertainty #techhumor #HackerNews #ngated

#ngated #hackernews #techhumor #futureuncertainty #predictions #revolutionaryinsight

N-gated Hacker News @[email protected] · 2026-05-20 · 04:39 UTC

🔮 Wow, revolutionary insight: if models change, evaluations might not work! Who would've thunk it?! 🚀 Let's all panic about the inevitable #doom of #evals and ignore the fact that predicting the future isn't our strong suit – especially when we can't even predict the end of this sentence...
https://wanglun1996.github.io/blog/your-evals-will-break.html #revolutionaryinsight #predictions #futureuncertainty #techhumor #HackerNews #ngated

#doom #evals #revolutionaryinsight #predictions #futureuncertainty #techhumor

Hacker News @[email protected] · 2026-05-20 · 04:39 UTC

Evals Will Break and You Won't See It Coming

https://wanglun1996.github.io/blog/your-evals-will-break.html

#HackerNews #Evals #Break #TechRisk #AIInsights #CodeQuality

#hackernews #evals #break #techrisk #aiinsights #codequality

Hacker News @[email protected] · 2026-05-20 · 04:39 UTC

Evals Will Break and You Won't See It Coming

https://wanglun1996.github.io/blog/your-evals-will-break.html

#HackerNews #Evals #Break #TechRisk #AIInsights #CodeQuality

#hackernews #evals #break #techrisk #aiinsights #codequality

Hacker News @[email protected] · 2026-05-20 · 04:39 UTC

Evals Will Break and You Won't See It Coming

https://wanglun1996.github.io/blog/your-evals-will-break.html

#HackerNews #Evals #Break #TechRisk #AIInsights #CodeQuality

#hackernews #evals #break #techrisk #aiinsights #codequality

Hacker News @[email protected] · 2026-05-20 · 04:39 UTC

Evals Will Break and You Won't See It Coming

https://wanglun1996.github.io/blog/your-evals-will-break.html

#HackerNews #Evals #Break #TechRisk #AIInsights #CodeQuality

#codequality #aiinsights #techrisk #break #evals #hackernews

Hacker News @[email protected] · 2026-05-20 · 04:39 UTC

Evals Will Break and You Won't See It Coming

https://wanglun1996.github.io/blog/your-evals-will-break.html

#HackerNews #Evals #Break #TechRisk #AIInsights #CodeQuality

#hackernews #evals #break #techrisk #aiinsights #codequality

Brandon H :csharp: :verified: @bc3tech · 2026-05-19 · 22:12 UTC

via #AIFoundry : How to run evals for the model router

https://ift.tt/XAF1Ivt
#ModelRouter #Foundry #Evals #Evaluations #LLM #AIModelRouting #PromptEngineering #ModelSelection #Latency #Cost #Quality #Benchmarking #OpenSource #GitHub #EvalRepo #Azure #AzureOpenAI #Claude #Fou…

#aifoundry #modelrouter #foundry #evals #evaluations #llm

Brandon H :csharp: :verified: @[email protected] · 2026-05-19 · 22:12 UTC

via #AIFoundry : How to run evals for the model router

https://ift.tt/XAF1Ivt
#ModelRouter #Foundry #Evals #Evaluations #LLM #AIModelRouting #PromptEngineering #ModelSelection #Latency #Cost #Quality #Benchmarking #OpenSource #GitHub #EvalRepo #Azure #AzureOpenAI #Claude #Fou…

#fou #claude #azureopenai #azure #evalrepo #github

it's B! Cavello 🐝 @[email protected] · 2026-05-18 · 20:15 UTC

Come for the info on #AI #evals, stay for the #LizzieMcGuire references 😎💅
https://www.youtube.com/watch?v=_G9dDPKEIyg
My talk from the roundtable on Philanthropic Strategies for AI Benchmarks and Evaluations hosted by #Siegel Family Endowment and #AspenDigital is online for your viewing pleasure!

#ai #evals #lizziemcguire #siegel #aspendigital

YAYAFA @[email protected] · 2026-05-12 · 09:50 UTC

なぜAI開発は95%失敗するのか｜エージェント時代の設計ミス https://www.yayafa.com/2798950/ #AgenticAi #AI #AIエージェント #AIプロジェクト #AI失敗 #AI設計 #AI評価 #AI運用 #AI開発 #ArtificialGeneralIntelligence #ArtificialIntelligence #Evals #LLM #LLMアプリ #rag #エージェント型AI #エージェント設計 #ソフトウェアエンジニアリング #人工知能 #汎用人工知能 #生成AI

#agenticai #ai #aiエージェント #aiプロジェクト #ai失敗 #ai設計

YAYAFA @[email protected] · 2026-05-12 · 09:50 UTC

なぜAI開発は95%失敗するのか｜エージェント時代の設計ミス https://www.yayafa.com/2798950/ #AgenticAi #AI #AIエージェント #AIプロジェクト #AI失敗 #AI設計 #AI評価 #AI運用 #AI開発 #ArtificialGeneralIntelligence #ArtificialIntelligence #Evals #LLM #LLMアプリ #rag #エージェント型AI #エージェント設計 #ソフトウェアエンジニアリング #人工知能 #汎用人工知能 #生成AI

#agenticai #ai #aiエージェント #aiプロジェクト #ai失敗 #ai設計

YAYAFA @[email protected] · 2026-05-12 · 09:50 UTC

なぜAI開発は95%失敗するのか｜エージェント時代の設計ミス https://www.yayafa.com/2798950/ #AgenticAi #AI #AIエージェント #AIプロジェクト #AI失敗 #AI設計 #AI評価 #AI運用 #AI開発 #ArtificialGeneralIntelligence #ArtificialIntelligence #Evals #LLM #LLMアプリ #rag #エージェント型AI #エージェント設計 #ソフトウェアエンジニアリング #人工知能 #汎用人工知能 #生成AI

#生成ai #汎用人工知能 #人工知能 #ソフトウェアエンジニアリング #エージェント設計 #エージェント型ai

YAYAFA @[email protected] · 2026-05-12 · 09:50 UTC

なぜAI開発は95%失敗するのか｜エージェント時代の設計ミス https://www.yayafa.com/2798950/ #AgenticAi #AI #AIエージェント #AIプロジェクト #AI失敗 #AI設計 #AI評価 #AI運用 #AI開発 #ArtificialGeneralIntelligence #ArtificialIntelligence #Evals #LLM #LLMアプリ #rag #エージェント型AI #エージェント設計 #ソフトウェアエンジニアリング #人工知能 #汎用人工知能 #生成AI

#agenticai #ai #aiエージェント #aiプロジェクト #ai失敗 #ai設計

TKHUNT @[email protected] · 2026-05-12 · 03:13 UTC

https://www.tkhunt.com/2308372/ なぜAI開発は95%失敗するのか｜エージェント時代の設計ミス #AgenticAi #AI #AIエージェント #AIプロジェクト #AI失敗 #AI設計 #AI評価 #AI運用 #ai開発 #ArtificialIntelligence #Evals #llm #LLMアプリ #rag #エージェント型AI #エージェント設計 #ソフトウェアエンジニアリング #人工知能 #生成AI

#agenticai #ai #aiエージェント #aiプロジェクト #ai失敗 #ai設計

TKHUNT @[email protected] · 2026-05-12 · 03:13 UTC

https://www.tkhunt.com/2308372/ なぜAI開発は95%失敗するのか｜エージェント時代の設計ミス #AgenticAi #AI #AIエージェント #AIプロジェクト #AI失敗 #AI設計 #AI評価 #AI運用 #ai開発 #ArtificialIntelligence #Evals #llm #LLMアプリ #rag #エージェント型AI #エージェント設計 #ソフトウェアエンジニアリング #人工知能 #生成AI

#agenticai #ai #aiエージェント #aiプロジェクト #ai失敗 #ai設計

TKHUNT @[email protected] · 2026-05-12 · 03:13 UTC

https://www.tkhunt.com/2308372/ なぜAI開発は95%失敗するのか｜エージェント時代の設計ミス #AgenticAi #AI #AIエージェント #AIプロジェクト #AI失敗 #AI設計 #AI評価 #AI運用 #ai開発 #ArtificialIntelligence #Evals #llm #LLMアプリ #rag #エージェント型AI #エージェント設計 #ソフトウェアエンジニアリング #人工知能 #生成AI

#agenticai #ai #aiエージェント #aiプロジェクト #ai失敗 #ai設計

TKHUNT @[email protected] · 2026-05-12 · 03:13 UTC

https://www.tkhunt.com/2308372/ なぜAI開発は95%失敗するのか｜エージェント時代の設計ミス #AgenticAi #AI #AIエージェント #AIプロジェクト #AI失敗 #AI設計 #AI評価 #AI運用 #ai開発 #ArtificialIntelligence #Evals #llm #LLMアプリ #rag #エージェント型AI #エージェント設計 #ソフトウェアエンジニアリング #人工知能 #生成AI

#生成ai #人工知能 #ソフトウェアエンジニアリング #エージェント設計 #エージェント型ai #rag

TKHUNT @[email protected] · 2026-05-12 · 03:13 UTC

https://www.tkhunt.com/2308372/ なぜAI開発は95%失敗するのか｜エージェント時代の設計ミス #AgenticAi #AI #AIエージェント #AIプロジェクト #AI失敗 #AI設計 #AI評価 #AI運用 #ai開発 #ArtificialIntelligence #Evals #llm #LLMアプリ #rag #エージェント型AI #エージェント設計 #ソフトウェアエンジニアリング #人工知能 #生成AI

#agenticai #ai #aiエージェント #aiプロジェクト #ai失敗 #ai設計

Habr @[email protected] · 2026-04-28 · 07:32 UTC

Как оценивать работу агентов

По мере стремительного развития агентных систем всё больше компаний — как крупных, так и небольших — рассматривают возможность интеграции агентов в свои рабочие процессы. Неудивительно, что многие лица, принимающие решения в этих компаниях, относятся к надёжности агентов с изрядной долей здорового скептицизма. Против недобросовестного сотрудника можно применить дисциплинарные взыскания и другие меры, но что делать с недобросовестным ИИ?

https://habr.com/ru/companies/raft/articles/1028832/

#evals #agentic_evaluation #ai_evaluation #agent_eval #ai_evals

#ai_evals #agent_eval #ai_evaluation #agentic_evaluation #evals

Habr @[email protected] · 2026-04-28 · 07:32 UTC

Как оценивать работу агентов

По мере стремительного развития агентных систем всё больше компаний — как крупных, так и небольших — рассматривают возможность интеграции агентов в свои рабочие процессы. Неудивительно, что многие лица, принимающие решения в этих компаниях, относятся к надёжности агентов с изрядной долей здорового скептицизма. Против недобросовестного сотрудника можно применить дисциплинарные взыскания и другие меры, но что делать с недобросовестным ИИ?

https://habr.com/ru/companies/raft/articles/1028832/

#evals #agentic_evaluation #ai_evaluation #agent_eval #ai_evals

#ai_evals #agent_eval #ai_evaluation #agentic_evaluation #evals

Habr @[email protected] · 2026-04-28 · 07:32 UTC

Как оценивать работу агентов

По мере стремительного развития агентных систем всё больше компаний — как крупных, так и небольших — рассматривают возможность интеграции агентов в свои рабочие процессы. Неудивительно, что многие лица, принимающие решения в этих компаниях, относятся к надёжности агентов с изрядной долей здорового скептицизма. Против недобросовестного сотрудника можно применить дисциплинарные взыскания и другие меры, но что делать с недобросовестным ИИ?

https://habr.com/ru/companies/raft/articles/1028832/

#evals #agentic_evaluation #ai_evaluation #agent_eval #ai_evals

#ai_evals #agent_eval #ai_evaluation #agentic_evaluation #evals

Habr @[email protected] · 2026-04-28 · 07:32 UTC

Как оценивать работу агентов

По мере стремительного развития агентных систем всё больше компаний — как крупных, так и небольших — рассматривают возможность интеграции агентов в свои рабочие процессы. Неудивительно, что многие лица, принимающие решения в этих компаниях, относятся к надёжности агентов с изрядной долей здорового скептицизма. Против недобросовестного сотрудника можно применить дисциплинарные взыскания и другие меры, но что делать с недобросовестным ИИ?

https://habr.com/ru/companies/raft/articles/1028832/

#evals #agentic_evaluation #ai_evaluation #agent_eval #ai_evals

Itamar Medeiros @[email protected] · 2026-04-21 · 12:59 UTC

We can trace everything our AI systems do—but can we tell if it’s actually good?

Evaluation in agentic AI is not about more metrics. It’s about defining what “good” means—and testing it continuously.

Are your #evals designed—or just observed?

#AgenticAI #ProductStrategy #UXStrategy #ProductDesign

https://www.designative.info/2026/04/21/from-behavior-to-judgment-designing-evaluation-for-agentic-systems/

#evals #agenticai #productstrategy #uxstrategy #productdesign

Itamar Medeiros @[email protected] · 2026-04-21 · 12:59 UTC

We can trace everything our AI systems do—but can we tell if it’s actually good?

Evaluation in agentic AI is not about more metrics. It’s about defining what “good” means—and testing it continuously.

Are your #evals designed—or just observed?

#AgenticAI #ProductStrategy #UXStrategy #ProductDesign

https://www.designative.info/2026/04/21/from-behavior-to-judgment-designing-evaluation-for-agentic-systems/

#evals #agenticai #productstrategy #uxstrategy #productdesign

Itamar Medeiros @[email protected] · 2026-04-21 · 12:59 UTC

We can trace everything our AI systems do—but can we tell if it’s actually good?

Evaluation in agentic AI is not about more metrics. It’s about defining what “good” means—and testing it continuously.

Are your #evals designed—or just observed?

#AgenticAI #ProductStrategy #UXStrategy #ProductDesign

https://www.designative.info/2026/04/21/from-behavior-to-judgment-designing-evaluation-for-agentic-systems/

#evals #agenticai #productstrategy #uxstrategy #productdesign

Itamar Medeiros @[email protected] · 2026-04-21 · 12:59 UTC

We can trace everything our AI systems do—but can we tell if it’s actually good?

Evaluation in agentic AI is not about more metrics. It’s about defining what “good” means—and testing it continuously.

Are your #evals designed—or just observed?

#AgenticAI #ProductStrategy #UXStrategy #ProductDesign

https://www.designative.info/2026/04/21/from-behavior-to-judgment-designing-evaluation-for-agentic-systems/

#productdesign #uxstrategy #productstrategy #agenticai #evals

Itamar Medeiros @[email protected] · 2026-04-21 · 12:59 UTC

We can trace everything our AI systems do—but can we tell if it’s actually good?

Evaluation in agentic AI is not about more metrics. It’s about defining what “good” means—and testing it continuously.

Are your #evals designed—or just observed?

#AgenticAI #ProductStrategy #UXStrategy #ProductDesign

https://www.designative.info/2026/04/21/from-behavior-to-judgment-designing-evaluation-for-agentic-systems/

#evals #agenticai #productstrategy #uxstrategy #productdesign

Judith van Stegeren @jd7h · 2026-04-20 · 12:49 UTC

Generative AI apps have their own version of the training-serving skew from classical ML: the eval-production gap.

You create an eval dataset, optimize your LLM flows against it, hit great performance on your metrics, and ship. Then real users show up and:
- Write input texts of multiple pages long
- Ask in Spanish, Russian or Chinese when you tested in English
- Upload file types you never considered
- Ask questions from domains your product wasn't designed for

#mlops #genai #llms #evals

kfekete @[email protected] · 2026-04-01 · 10:05 UTC

Agentevals v0.6.3 is out, I recommend giving it a go if you are considering running #agents and #genai workloads in production!
Cool things you can do:
- run local #evals in CI/CD, where you can BYO logic
- offload evals to #OpenAI Eval API (even for other models)
- run it in #k8s

It's fully framework-agnostic and OSS: https://github.com/agentevals-dev/agentevals

#agents #genai #evals #openai #k8s

kfekete @[email protected] · 2026-03-30 · 17:24 UTC

We just released agentevals v0.6.0: https://github.com/agentevals-dev/agentevals/releases/tag/v0.6.0

Now you can use #OpenAI Eval API to offload eval scoring, BYO custom #evals with their dependencies, and have insights into how much time individual evals take, so you can choose the best one for the job at hand!

You only need #OTel traces!

#openai #evals #otel

kfekete @[email protected] · 2026-03-30 · 17:24 UTC

We just released agentevals v0.6.0: https://github.com/agentevals-dev/agentevals/releases/tag/v0.6.0

Now you can use #OpenAI Eval API to offload eval scoring, BYO custom #evals with their dependencies, and have insights into how much time individual evals take, so you can choose the best one for the job at hand!

You only need #OTel traces!

#openai #evals #otel

Judith van Stegeren @jd7h · 2026-03-20 · 20:31 UTC

I used #Pydantic Evals to evaluate a bunch of agents today. After running an evaluation, I'd like to inspect the SpanTree for each evaluation case, e.g. to check which tools were called and debug my custom Evaluators. My current approach is a custom Evaluator that captures the tree as a side effect into a module-level variable.

Storing the trees in a global var is not great, so let's see if we can come up with a better solution: https://github.com/pydantic/pydantic-ai/issues/4758

#llms #evals #foss

#pydantic #llms #evals #foss

Habr @[email protected] · 2025-11-28 · 17:32 UTC

Почему ваше AI-решение не окупается. Фреймворк OpenAI, который все пропустили

OpenAI опубликовали фреймворк, на который мало кто обратил внимание. Исследование OpenAI (да и не только их) показало: компании внедряют ИИ, но часть из них не получает ожидаемого эффекта. В этом фреймворке на мой взгляд обозначены принципы отделяющие посредственные решения от тех которые делают внедрение AI в бизнес эффективным. https://openai.com/index/evals-drive-next-chapter-of-ai/ KPI и OKR остаются бизнес-целями. Evals — метрики, которые показывают, как AI помогает достигать целей. Либо evals становятся частью KPI, либо контролируют качество AI, который двигает показатели вверх. Это нужно, если бизнесу важны: - Понятный путь к окупаемости (ROI) - Свести критические ошибки к минимуму - Предсказуемость результатов для клиентов - AI, который выдерживает рост нагрузки без сбоев Evals – конкурентное преимущество. Промпты скопируют, архитектуру evals – нет. Это скрытый слой, который недоступен ни поставщикам моделей, ни конкурентам.Evals гарантируют стабильность при обновлениях промптов, переходе на другие модели или архитектуру. Так AI-решение постоянно улучшается под задачи бизнеса не теряя в качестве. Фреймворк OpenAI из 3 шагов: 1. Определение – превратите размытые цели в конкретные: "Конвертировать письма компаний с бюджетом 100K+ в демо, сохраняя стиль бренда" 2. Измерение – тестируйте на клиентских запросах и пограничных случаях 3. Улучшение – развивайте на основе результатов тестов, а не надейтесь на удачу Для этого процесса создали BotMetrica.com – слой надёжности, который делает AI готовым к промышленному использованию. В ближайшие дни поделюсь тем, как BotMetrica формализует каждый шаг этого процесса с конкретными примерами. "Don't hope for 'great.' Specify it, measure it, and improve toward it" / "Не полагайтесь на удачу. Определите 'отличное', измерьте и улучшайте" – OpenAI Пишите в личку – отвечу на вопросы и покажу сервис: @ovashchukov или на [email protected]

https://habr.com/ru/articles/971432/

#AI #evals #OpenAI #метрики #KPI #ROI #LLM #prompt_engineering #AI_evaluation #testing

#ai #evals #openai #метрики #kpi #roi

Judith van Stegeren @jd7h · 2026-03-17 · 10:43 UTC

Hahaha, oh Pydantic...

> Unlike unit tests, evals are an emerging art/science. Anyone who claims to know exactly how your evals should be defined can safely be ignored.

Source: https://ai.pydantic.dev/evals/

#pydantic #evals #llms #genai

Adrianna Tan @[email protected] · 2026-03-17 · 06:29 UTC

I did another thing (will be available for all to use after i sort out some kinks)

#AI #Evals

#ai #evals

Judith van Stegeren @jd7h · 2026-02-18 · 15:29 UTC

Tried out the free consumer version of ChatGPT today for a benchmark. Normally I only work via foundational model APIs or Claude Code w/ latest Opus. Free ChatGPT (currently GPT‑5.2) performance was nightmarish: authoritative-sounding answers but 0 citations, and thinking is not enabled by default. No wonder so many people complain about bad experiences with AI...

#chatgpt #llms #claude #benchmark #evals

Erik Jonker @[email protected] · 2026-01-02 · 12:12 UTC

@Jigsaw_You @bert_hubert ...i liked this blog/article about AI Evals, https://hamel.dev/blog/posts/evals-faq/
#AI #evaluiation #evals

#ai #evaluiation #evals

Habr @[email protected] · 2025-11-23 · 14:42 UTC

[Перевод] LLM Evals: движущая сила новой эры ИИ в бизнесе

На днях OpenAI опубликовали в своем блоге небольшую статью с достаточно громким названием «How evals drive the next chapter in AI for businesses». Я сделал ее перевод, чуть адаптировав для лучшей читабельности, очень уж бюрократический язык в оригинале. Статью авторы называют «руководством для бизнес-лидеров». Внутри — про оценку недетерминированных систем, как к этому подходить, немного про A/B тесты и почему не стоит пытаться решить все сразу. Классический цикл фиксации метрики и постепенного ее улучшения, но с LLM спецификой. Так что это стоит прочитать как сборник хороших практик для LLM-систем. Дальше — слово OpenAI.

https://habr.com/ru/articles/969358/

#ии #искусственный_интеллект #LLM #openai #evals #benchmarks #бенчмарки #llm_evals #оценки #chatgpt

#ии #искусственный_интеллект #llm #openai #evals #benchmarks