home.social

#sycophancyeval — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #sycophancyeval, aggregated by home.social.

  1. Почему ваш LLM-бот врёт клиентам — и паттерн, который это чинит

    Air Canada проиграла суд за слова чат-бота. Дилер Chevrolet «продал» Tahoe за доллар. Корень один: LLM одновременно решает что сказать и как. Под давлением точность проигрывает беглости. Разбор паттерна, который это чинит.

    habr.com/ru/articles/1027080/

    #llm #большие_языковые_модели #чатботы #aiагенты #prompt_engineering #архитектура_по #sycophancyeval #галлюцинации_llm #prompt_injection #triageandvoice

  2. [Перевод] Полный гид по бенчмаркам LLM: подробный каталог

    В последние годы большие языковые модели (large language model, LLM) совершили революцию в мире искусственного интеллекта, став фундаментом для множества различных сфер, от чат-ботов до генерации контента. Однако такой прогресс несёт с собой и новые сложности; в частности, разработчикам нужно обеспечить оптимальность и этичность моделей. При выполнении этой задачи критически важны бенчмарки, представляющие собой стандартизированные способы численного измерения и сравнения моделей ИИ с целью обеспечения согласованности, надёжности и справедливости. В условиях быстрого развития LLM возможности бенчмарков тоже существенно расширились. В этом посте мы представим подробный каталог бенчмарков, разбитый на категории по сложности, динамике, целям оценки, спецификациям конечных задач и типам рисков. Понимание их различий поможет вам разобраться в бенчмарках LLM в условиях их стремительного развития.

    habr.com/ru/articles/845510/

    #Бенчмарки #LLM #AlpacaEval #MTBench #llmarena #TrustLLM #TruthfulQA #SycophancyEval #CyberSecEval