#evals — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #evals, aggregated by home.social.
-
https://www.tkhunt.com/2308372/ なぜAI開発は95%失敗するのか|エージェント時代の設計ミス #AgenticAi #AI #AIエージェント #AIプロジェクト #AI失敗 #AI設計 #AI評価 #AI運用 #ai開発 #ArtificialIntelligence #Evals #llm #LLMアプリ #rag #エージェント型AI #エージェント設計 #ソフトウェアエンジニアリング #人工知能 #生成AI
-
We just released agentevals v0.6.0: https://github.com/agentevals-dev/agentevals/releases/tag/v0.6.0
Now you can use #OpenAI Eval API to offload eval scoring, BYO custom #evals with their dependencies, and have insights into how much time individual evals take, so you can choose the best one for the job at hand!
You only need #OTel traces!
-
Почему ваше AI-решение не окупается. Фреймворк OpenAI, который все пропустили
OpenAI опубликовали фреймворк, на который мало кто обратил внимание. Исследование OpenAI (да и не только их) показало: компании внедряют ИИ, но часть из них не получает ожидаемого эффекта. В этом фреймворке на мой взгляд обозначены принципы отделяющие посредственные решения от тех которые делают внедрение AI в бизнес эффективным. https://openai.com/index/evals-drive-next-chapter-of-ai/ KPI и OKR остаются бизнес-целями. Evals — метрики, которые показывают, как AI помогает достигать целей. Либо evals становятся частью KPI, либо контролируют качество AI, который двигает показатели вверх. Это нужно, если бизнесу важны: - Понятный путь к окупаемости (ROI) - Свести критические ошибки к минимуму - Предсказуемость результатов для клиентов - AI, который выдерживает рост нагрузки без сбоев Evals – конкурентное преимущество. Промпты скопируют, архитектуру evals – нет. Это скрытый слой, который недоступен ни поставщикам моделей, ни конкурентам.Evals гарантируют стабильность при обновлениях промптов, переходе на другие модели или архитектуру. Так AI-решение постоянно улучшается под задачи бизнеса не теряя в качестве. Фреймворк OpenAI из 3 шагов: 1. Определение – превратите размытые цели в конкретные: "Конвертировать письма компаний с бюджетом 100K+ в демо, сохраняя стиль бренда" 2. Измерение – тестируйте на клиентских запросах и пограничных случаях 3. Улучшение – развивайте на основе результатов тестов, а не надейтесь на удачу Для этого процесса создали BotMetrica.com – слой надёжности, который делает AI готовым к промышленному использованию. В ближайшие дни поделюсь тем, как BotMetrica формализует каждый шаг этого процесса с конкретными примерами. "Don't hope for 'great.' Specify it, measure it, and improve toward it" / "Не полагайтесь на удачу. Определите 'отличное', измерьте и улучшайте" – OpenAI Пишите в личку – отвечу на вопросы и покажу сервис: @ovashchukov или на [email protected]
https://habr.com/ru/articles/971432/
#AI #evals #OpenAI #метрики #KPI #ROI #LLM #prompt_engineering #AI_evaluation #testing