home.social

#giskard — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #giskard, aggregated by home.social.

  1. [Перевод] Оценка LLM: комплексные оценщики и фреймворки оценки

    В этой статье подробно описываются сложные статистические и предметно-ориентированные оценщики, которые можно использовать для оценки производительности крупных языковых моделей. В ней также рассматриваются наиболее широко используемые фреймворки оценки LLM, которые помогут вам начать оценивать производительность модели.

    habr.com/ru/articles/855644/

    #llm #BLEU #ROUGE #METEOR #BERTScore #MoverScore #DeepEval #Giskard #promptfoo #LangFuse