home.social

#llmasajudge — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #llmasajudge, aggregated by home.social.

  1. Pollux: LLM-as-a-judge для русского

    Прошло несколько лет с тех пор, как нейросетевые модели стали применимы в генерации текста. Сегодня языковые модели уверенно решают задачи написания кода, поддержки диалогов и планирования маршрутов. Тем не менее, до сих пор не сложилось универсального подхода для валидации LLM перед их внедрением в цифровые продукты. Но у нас есть решение! В этой статье я расскажу, как мы в Sber AI обучили специализированного LLM-судью (LLM-as-a-Judge) Pollux для оценки русскоязычных LLM. Мы выложили его в открытый доступ и вы можете встроить его в свой продукт уже сегодня. Читать далее и оценивать

    habr.com/ru/companies/sberbank

    #llmагент #llmмодели #llm #llmasajudge #rag #метрики_продукта