home.social

#textsql — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #textsql, aggregated by home.social.

  1. [Перевод] Оценка систем LLM: основные метрики, бенчмарки и лучшие практики

    Оценка LLM-систем вручную — это утомительное, времязатратное и порой раздражающее занятие. Поэтому, если вам приходилось многократно прогонять набор промптов, чтобы вручную проверять каждый вывод LLM, вас обрадует, что эта статья научит вас всему необходимому для правильной оценки LLM и обеспечения долгосрочной эффективности вас и вашего приложения на основе LLM. Оценка LLM относится к процессу обеспечения соответствия выходных данных LLM человеческим ожиданиям, которые могут варьироваться от этических и безопасных соображений до более практических критериев, таких как правильность и релевантность выходных данных LLM. С инженерной точки зрения эти выходные данные LLM часто можно найти в форме тестовых кейсов , в то время как критерии оценки формализуются в виде метрик оценки LLM . На повестке дня: В чем разница между оценкой LLM и оценкой системы LLM , а также их преимущества Офлайн-оценки , что такое бенчмарки системы LLM, как создавать наборы данных для оценки и выбирать правильные метрики оценки LLM, а также распространенные ошибки Оценки в реальном времени и их польза для улучшения наборов данных для офлайн-оценок Реальные примеры использования систем LLM и как их оценивать , включая chatbotQA и Text-SQL

    habr.com/ru/articles/874538/

    #LLM #TextSQL #deepeval #бенчмарки #geval