home.social

#оценки_на_основе_правил — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #оценки_на_основе_правил, aggregated by home.social.

  1. [Перевод] Как оценить LLM модель

    В одном из прошлых блогов я представил концепцию тестирования крупных языковых моделей (LLM). Однако тестирование крупных языковых моделей (LLM) - достаточно сложная тема, которая требует дальнейшего изучения. Существует несколько соображений относительно тестирования моделей машинного обучения и, в частности, LLM, которые необходимо учитывать при разработке и развертывании вашего приложения. В этом блоге я предложу общую структуру, которая будет служить минимальной рекомендацией для тестирования приложений, использующих LLM, включая разговорные агенты, расширенную генерацию поиска и агентов и т. д.

    habr.com/ru/articles/853542/

    #LLM #оценка_систем_LLM #оценки_на_основе_правил #оценки_на_основе_моделей #mmlu #HellaSwag #GLUE #TruthfulQA