#ai_evaluation — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #ai_evaluation, aggregated by home.social.
-
Как оценивать работу агентов
По мере стремительного развития агентных систем всё больше компаний — как крупных, так и небольших — рассматривают возможность интеграции агентов в свои рабочие процессы. Неудивительно, что многие лица, принимающие решения в этих компаниях, относятся к надёжности агентов с изрядной долей здорового скептицизма. Против недобросовестного сотрудника можно применить дисциплинарные взыскания и другие меры, но что делать с недобросовестным ИИ?
https://habr.com/ru/companies/raft/articles/1028832/
#evals #agentic_evaluation #ai_evaluation #agent_eval #ai_evals
-
Почему ваше AI-решение не окупается. Фреймворк OpenAI, который все пропустили
OpenAI опубликовали фреймворк, на который мало кто обратил внимание. Исследование OpenAI (да и не только их) показало: компании внедряют ИИ, но часть из них не получает ожидаемого эффекта. В этом фреймворке на мой взгляд обозначены принципы отделяющие посредственные решения от тех которые делают внедрение AI в бизнес эффективным. https://openai.com/index/evals-drive-next-chapter-of-ai/ KPI и OKR остаются бизнес-целями. Evals — метрики, которые показывают, как AI помогает достигать целей. Либо evals становятся частью KPI, либо контролируют качество AI, который двигает показатели вверх. Это нужно, если бизнесу важны: - Понятный путь к окупаемости (ROI) - Свести критические ошибки к минимуму - Предсказуемость результатов для клиентов - AI, который выдерживает рост нагрузки без сбоев Evals – конкурентное преимущество. Промпты скопируют, архитектуру evals – нет. Это скрытый слой, который недоступен ни поставщикам моделей, ни конкурентам.Evals гарантируют стабильность при обновлениях промптов, переходе на другие модели или архитектуру. Так AI-решение постоянно улучшается под задачи бизнеса не теряя в качестве. Фреймворк OpenAI из 3 шагов: 1. Определение – превратите размытые цели в конкретные: "Конвертировать письма компаний с бюджетом 100K+ в демо, сохраняя стиль бренда" 2. Измерение – тестируйте на клиентских запросах и пограничных случаях 3. Улучшение – развивайте на основе результатов тестов, а не надейтесь на удачу Для этого процесса создали BotMetrica.com – слой надёжности, который делает AI готовым к промышленному использованию. В ближайшие дни поделюсь тем, как BotMetrica формализует каждый шаг этого процесса с конкретными примерами. "Don't hope for 'great.' Specify it, measure it, and improve toward it" / "Не полагайтесь на удачу. Определите 'отличное', измерьте и улучшайте" – OpenAI Пишите в личку – отвечу на вопросы и покажу сервис: @ovashchukov или на [email protected]
https://habr.com/ru/articles/971432/
#AI #evals #OpenAI #метрики #KPI #ROI #LLM #prompt_engineering #AI_evaluation #testing