home.social

#ai_evals — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #ai_evals, aggregated by home.social.

  1. Как оценивать работу агентов

    По мере стремительного развития агентных систем всё больше компаний — как крупных, так и небольших — рассматривают возможность интеграции агентов в свои рабочие процессы. Неудивительно, что многие лица, принимающие решения в этих компаниях, относятся к надёжности агентов с изрядной долей здорового скептицизма. Против недобросовестного сотрудника можно применить дисциплинарные взыскания и другие меры, но что делать с недобросовестным ИИ?

    habr.com/ru/companies/raft/art

    #evals #agentic_evaluation #ai_evaluation #agent_eval #ai_evals