#bertscore — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #bertscore, aggregated by home.social.
-
Метрики для задач NLP. Часть 2. Генерация текста: BLEU, ROUGE, METEOR, BERTScore
В этой статье будет рассказано о популярных метриках оценки для задач генерации текста: BLEU, ROUGE, METEOR, BERTScore. Рассказ будет сопровождаться визуализацией, примерами и кодом на Python. 🔥 Начинаем 🔥
https://habr.com/ru/articles/1002218/
#nlp #bleu #rouge #meteor #bertscore #python #metric #оценка_моделей
-
Прокачиваем RAG: тестируем техники и считаем их эффективность. Часть 2
В прошлой части мы подробно разобрали 11 популярных техник RAG: как они устроены, какие у них есть сильные и слабые стороны, и в каких сценариях они могут быть полезны. Теперь пришло время перейти от теории к практике и посмотреть, как эти подходы показывают себя в деле. В этой статье мы посмотрим на результаты экспериментов: какие техники оказались наиболее эффективными на датасете Natural Questions, где они приятно удивили, а где — наоборот, не оправдали ожиданий. Для оценки будем использовать фреймворк RAGAS , а также метрики BertScore и ROUGE-2 для анализа релевантности извлечённых чанков и финальных ответов. Поэтому впереди нас ждут эксперименты, цифры, наблюдения и (надеюсь) ценные инсайты, которые помогут вам не просто понять, какая техника кажется хорошей, а выбрать оптимальную под вашу задачу.
https://habr.com/ru/articles/949124/
#Rag #rag_техники #retrieval_augmented_generation #сравнение_rag_техник #ragas #bertscore #rouge
-
Прокачиваем RAG: тестируем техники и считаем их эффективность. Часть 1
При проектировании RAG-системы инженер каждый раз сталкивается со множеством вопросов: какую базу данных использовать, как организовать получение релевантной информации, да даже выбор эмбеддера может занять приличное время, а это лишь вершина айсберга. Что хорошо работает в одной сфере, например в техподдержке, может полностью провалиться в другой — например, при анализе юридических документов. Поэтому задачей инженера является выявление особенностей предметной области и адаптации RAG системы к ним. Однако, чтобы это сделать, необходимо не только понимать, какие приёмы можно использовать, но и знать насколько они эффективны. В данной статье мы разберём основные RAG техники, посмотрим их сильные и слабые стороны, сферы применения, а также немного поэкспериментируем. В следующей части статьи мы проведём тестирование этих техник на реальных пользовательских запросах из датасета Natural Questions и оценим качество работы с помощью RAGAS и BertScore, посмотрим на графики и разойдёмся, чтобы обдумать всё написанное. Поэтому предлагаю начать!
https://habr.com/ru/articles/946888/
#RAG #RAG_Техники #retrieval_augmented_generation #Сравнение_RAG_техник #bertscore #ragas
-
[Перевод] Метрики оценки LLM: полное руководство по оценке LLM
Независимо от того, улучшаете ли вы точность модели путем дообучения или улучшаете контекстную релевантность системы генерации с дополненной выборкой (RAG), понимание того, как разрабатывать и выбирать подходящий набор метрик оценки LLM для вашего варианта использования, является обязательным для построения надежного конвейера оценки LLM. В этой статье вы научитесь всему, что нужно знать о метриках оценки LLM, включая примеры кода. Мы рассмотрим следующие вопросы: Что такое метрики оценки LLM , как их можно использовать для оценки систем LLM , а также распространенные ошибки и что делает метрики отличными. Различные методы вычисления метрик оценки LLM и почему подход LLM-as-a-judge («LLM как судья») является наиболее эффективным. Как реализовать и выбрать подходящий набор метрик оценки LLM с использованием библиотеки DeepEval ( GitHub: DeepEval ).
https://habr.com/ru/articles/873332/
#llm #rag #BLEU #ROUGE #METEOR #GEval #Prometheus #GPT_OpenAI #bertscore #moverscore
-
[Перевод] Оценка LLM: комплексные оценщики и фреймворки оценки
В этой статье подробно описываются сложные статистические и предметно-ориентированные оценщики, которые можно использовать для оценки производительности крупных языковых моделей. В ней также рассматриваются наиболее широко используемые фреймворки оценки LLM, которые помогут вам начать оценивать производительность модели.
https://habr.com/ru/articles/855644/
#llm #BLEU #ROUGE #METEOR #BERTScore #MoverScore #DeepEval #Giskard #promptfoo #LangFuse
-
[Перевод] Оценка LLM: метрики, фреймворки и лучшие практики
Дженсен Хуанг в своем выступлении на саммите «Data+AI» сказал: «Генеративный ИИ есть везде, в любой отрасли. Если в вашей отрасли еще нет генеративных ИИ, значит вы просто не обращали внимания на это». Однако широкое распространение вовсе не означает, что эти модели безупречны. В реальных бизнес-кейсах модели очень часто не достигают цели и нуждаются в доработке. Вот тут-то и приходят на помощь оценки LLM: они помогают убедиться, что модели надежны, точны и соответствуют бизнес-предпочтениям. В этой статье мы подробно разберем, почему оценка LLM имеет решающее значение, и рассмотрим метрики, фреймворки, инструменты и сложности оценки LLM. Мы также поделимся некоторыми надежными стратегиями, которые мы разработали в ходе работы с нашими клиентами, а также расскажем о лучших практиках. Что такое оценка LLM? Оценка LLM - это процесс тестирования и измерения того, насколько хорошо крупные языковые модели работают в реальных ситуациях. При тестировании этих моделей мы наблюдаем, насколько хорошо они понимают и отвечают на вопросы, насколько плавно и четко они генерируют текст и имеют ли их ответы смысл в контексте. Этот шаг очень важен, потому что он помогает нам выявлять любые проблемы и улучшать модель, гарантируя, что она может эффективно и надежно справляться с задачами. Зачем вам нужно оценивать LLM? Все просто: чтобы убедиться, что модель соответствует задаче и ее требованиям. Оценка LLM гарантирует, что она понимает и точно реагирует, правильно обрабатывает различные типы информации и общается безопасным, понятным и эффективным способом. Оценка LLM позволяет нам точно настроить модель на основе реальной обратной связи, улучшая ее производительность и надежность. Проводя тщательные оценки, мы гарантируем, что LLM полностью может удовлетворять потребности своих пользователей, будь то ответы на вопросы, предоставление рекомендаций или создание контента.
https://habr.com/ru/articles/852046/
#LLM #BLEU_Score #TruthfulQA #meteor #BERTScore #SuperAnnotate #Amazon_Bedrock #Nvidia_Nemo #LangSmith #deepeval