home.social

#бинарные_метки — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #бинарные_метки, aggregated by home.social.

  1. [Перевод] Оценки продукта в три простых шага

    Когда в продукте появляется LLM‑фича, спорить о качестве «на глаз» быстро становится дороже самой разработки: каждый новый промпт, ретривер или модель меняет поведение, а воспроизводимость улетучивается. В этой статье — прагматичный рецепт, как превратить оценку качества в инженерную процедуру: собрать небольшой датасет с фейлами, откалибровать LLM‑оценщиков под отдельные критерии и завести eval‑harness, который будет ловить регрессии при каждом изменении конфигурации. Перейти к статье

    habr.com/ru/companies/otus/art

    #продуктовые_оценки #оценка_качества #LLMоценщик #калибровка_оценщика #разметка_данных #бинарные_метки #evalharness