home.social

#deepeval — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #deepeval, aggregated by home.social.

  1. RAG Testing: как не сломать retrieval

    RAG ломается не так, как обычный LLM. У голой языковой модели одна поверхность отказа - генерация. У RAG-системы таких поверхностей две: retrieval и generation. И ломаются они по-разному. Retriever может вернуть нерелевантные чанки, потерять нужные документы или ранжировать их неправильно. Генератор может проигнорировать контекст и ответить из собственных весов. Стандартные LLM-метрики не ловят проблемы retrieval - они оценивают только финальный ответ. В статье - практический гайд по тестированию обеих поверхностей: 6 метрик RAGAS с production-порогами: Faithfulness ≥ 0.80, Context Precision ≥ 0.70, Context Recall ≥ 0.70, Answer Relevancy ≥ 0.70 Классические IR-метрики: Precision@K, Recall@K, MRR - для быстрой проверки retrieval без LLM-судьи Security-тесты: document poisoning, context injection, cross-tenant leakage через Promptfoo CI/CD pipeline: автоматический quality gate при обновлении knowledge base От pip install ragas до GitHub Actions - всё с кодом и конфигами.

    habr.com/ru/articles/1001682/

    #rag #ragas #llm_testing #ai_quality #promptfoo #ai_safety #deepeval

  2. RAG Testing: как не сломать retrieval

    RAG ломается не так, как обычный LLM. У голой языковой модели одна поверхность отказа - генерация. У RAG-системы таких поверхностей две: retrieval и generation. И ломаются они по-разному. Retriever может вернуть нерелевантные чанки, потерять нужные документы или ранжировать их неправильно. Генератор может проигнорировать контекст и ответить из собственных весов. Стандартные LLM-метрики не ловят проблемы retrieval - они оценивают только финальный ответ. В статье - практический гайд по тестированию обеих поверхностей: 6 метрик RAGAS с production-порогами: Faithfulness ≥ 0.80, Context Precision ≥ 0.70, Context Recall ≥ 0.70, Answer Relevancy ≥ 0.70 Классические IR-метрики: Precision@K, Recall@K, MRR - для быстрой проверки retrieval без LLM-судьи Security-тесты: document poisoning, context injection, cross-tenant leakage через Promptfoo CI/CD pipeline: автоматический quality gate при обновлении knowledge base От pip install ragas до GitHub Actions - всё с кодом и конфигами.

    habr.com/ru/articles/1001682/

    #rag #ragas #llm_testing #ai_quality #promptfoo #ai_safety #deepeval

  3. RAG Testing: как не сломать retrieval

    RAG ломается не так, как обычный LLM. У голой языковой модели одна поверхность отказа - генерация. У RAG-системы таких поверхностей две: retrieval и generation. И ломаются они по-разному. Retriever может вернуть нерелевантные чанки, потерять нужные документы или ранжировать их неправильно. Генератор может проигнорировать контекст и ответить из собственных весов. Стандартные LLM-метрики не ловят проблемы retrieval - они оценивают только финальный ответ. В статье - практический гайд по тестированию обеих поверхностей: 6 метрик RAGAS с production-порогами: Faithfulness ≥ 0.80, Context Precision ≥ 0.70, Context Recall ≥ 0.70, Answer Relevancy ≥ 0.70 Классические IR-метрики: Precision@K, Recall@K, MRR - для быстрой проверки retrieval без LLM-судьи Security-тесты: document poisoning, context injection, cross-tenant leakage через Promptfoo CI/CD pipeline: автоматический quality gate при обновлении knowledge base От pip install ragas до GitHub Actions - всё с кодом и конфигами.

    habr.com/ru/articles/1001682/

    #rag #ragas #llm_testing #ai_quality #promptfoo #ai_safety #deepeval

  4. RAG Testing: как не сломать retrieval

    RAG ломается не так, как обычный LLM. У голой языковой модели одна поверхность отказа - генерация. У RAG-системы таких поверхностей две: retrieval и generation. И ломаются они по-разному. Retriever может вернуть нерелевантные чанки, потерять нужные документы или ранжировать их неправильно. Генератор может проигнорировать контекст и ответить из собственных весов. Стандартные LLM-метрики не ловят проблемы retrieval - они оценивают только финальный ответ. В статье - практический гайд по тестированию обеих поверхностей: 6 метрик RAGAS с production-порогами: Faithfulness ≥ 0.80, Context Precision ≥ 0.70, Context Recall ≥ 0.70, Answer Relevancy ≥ 0.70 Классические IR-метрики: Precision@K, Recall@K, MRR - для быстрой проверки retrieval без LLM-судьи Security-тесты: document poisoning, context injection, cross-tenant leakage через Promptfoo CI/CD pipeline: автоматический quality gate при обновлении knowledge base От pip install ragas до GitHub Actions - всё с кодом и конфигами.

    habr.com/ru/articles/1001682/

    #rag #ragas #llm_testing #ai_quality #promptfoo #ai_safety #deepeval

  5. Тестирование LLM-приложений с DeepEval

    В этой статье я расскажу о способе написания тестов для LLM-приложений с использованием инструмента DeepEval. Рассмотрены базовые концепции данного инструмента, а также приведен пример его использования на реальном приложении c RAG. Будет теория и много примеров на Python. 🔥 Начинаем 🔥

    habr.com/ru/articles/984968/

    #llm #llmприложения #deepeval #исскуственный_интеллект #llm_тестирование

  6. Тестирование LLM-приложений с DeepEval

    В этой статье я расскажу о способе написания тестов для LLM-приложений с использованием инструмента DeepEval. Рассмотрены базовые концепции данного инструмента, а также приведен пример его использования на реальном приложении c RAG. Будет теория и много примеров на Python. 🔥 Начинаем 🔥

    habr.com/ru/articles/984968/

    #llm #llmприложения #deepeval #исскуственный_интеллект #llm_тестирование

  7. Тестирование LLM-приложений с DeepEval

    В этой статье я расскажу о способе написания тестов для LLM-приложений с использованием инструмента DeepEval. Рассмотрены базовые концепции данного инструмента, а также приведен пример его использования на реальном приложении c RAG. Будет теория и много примеров на Python. 🔥 Начинаем 🔥

    habr.com/ru/articles/984968/

    #llm #llmприложения #deepeval #исскуственный_интеллект #llm_тестирование

  8. Тестирование LLM-приложений с DeepEval

    В этой статье я расскажу о способе написания тестов для LLM-приложений с использованием инструмента DeepEval. Рассмотрены базовые концепции данного инструмента, а также приведен пример его использования на реальном приложении c RAG. Будет теория и много примеров на Python. 🔥 Начинаем 🔥

    habr.com/ru/articles/984968/

    #llm #llmприложения #deepeval #исскуственный_интеллект #llm_тестирование

  9. GPT-4o vs YandexGPT: как мы отлаживали метрики в DeepEval из-за требований ИБ

    В нашей компании мы занимаемся автоматизацией тестирования и часто сталкиваемся с необходимостью не только разворачивать сложные пайплайны, но и реализовывать метрики, которые действительно помогают выявлять тонкие баги в работе LLM-классификаторов. Есть понятная open-source инфраструктура, привычные инструменты и строгие требования ИБ. Но когда начинаешь сравнивать разные модели-судьи — например, GPT-4o от OpenAI и YandexGPT, — традиционные подходы к валидации и любимые метрики внезапно ведут себя очень по-разному. В этой статье я расскажу, как обычный процесс локализации метрик для DeepEval вывел нас не только на поиск багов в коде, но и привёл к пересмотру самой логики автоматизированной оценки: почему педантичность одной LLM может “маскировать” ошибки, а прагматичность другой — неожиданно улучшить вашу диагностику. Разберём код живых метрик, покажем, как переход от faithfulness к relevancy помог нам обнаружить и устранить важную логическую уязвимость, и выделим пять универсальных уроков, которые понадобятся каждому, кто автоматизирует оценку LLM не “по учебнику”, а по-настоящему. Если вам интересен опыт построения эксплуатируемых, не “пластмассовых” метрик для LLM-классификаторов в условиях ограничений ИБ и смешанных инфраструктур (OpenAI + российские модели) — добро пожаловать под кат!

    habr.com/ru/companies/raft/art

    #deepeval #метрики_качества #llm #релевантность #консистентность #автоматизация_тестирования

  10. GPT-4o vs YandexGPT: как мы отлаживали метрики в DeepEval из-за требований ИБ

    В нашей компании мы занимаемся автоматизацией тестирования и часто сталкиваемся с необходимостью не только разворачивать сложные пайплайны, но и реализовывать метрики, которые действительно помогают выявлять тонкие баги в работе LLM-классификаторов. Есть понятная open-source инфраструктура, привычные инструменты и строгие требования ИБ. Но когда начинаешь сравнивать разные модели-судьи — например, GPT-4o от OpenAI и YandexGPT, — традиционные подходы к валидации и любимые метрики внезапно ведут себя очень по-разному. В этой статье я расскажу, как обычный процесс локализации метрик для DeepEval вывел нас не только на поиск багов в коде, но и привёл к пересмотру самой логики автоматизированной оценки: почему педантичность одной LLM может “маскировать” ошибки, а прагматичность другой — неожиданно улучшить вашу диагностику. Разберём код живых метрик, покажем, как переход от faithfulness к relevancy помог нам обнаружить и устранить важную логическую уязвимость, и выделим пять универсальных уроков, которые понадобятся каждому, кто автоматизирует оценку LLM не “по учебнику”, а по-настоящему. Если вам интересен опыт построения эксплуатируемых, не “пластмассовых” метрик для LLM-классификаторов в условиях ограничений ИБ и смешанных инфраструктур (OpenAI + российские модели) — добро пожаловать под кат!

    habr.com/ru/companies/raft/art

    #deepeval #метрики_качества #llm #релевантность #консистентность #автоматизация_тестирования

  11. GPT-4o vs YandexGPT: как мы отлаживали метрики в DeepEval из-за требований ИБ

    В нашей компании мы занимаемся автоматизацией тестирования и часто сталкиваемся с необходимостью не только разворачивать сложные пайплайны, но и реализовывать метрики, которые действительно помогают выявлять тонкие баги в работе LLM-классификаторов. Есть понятная open-source инфраструктура, привычные инструменты и строгие требования ИБ. Но когда начинаешь сравнивать разные модели-судьи — например, GPT-4o от OpenAI и YandexGPT, — традиционные подходы к валидации и любимые метрики внезапно ведут себя очень по-разному. В этой статье я расскажу, как обычный процесс локализации метрик для DeepEval вывел нас не только на поиск багов в коде, но и привёл к пересмотру самой логики автоматизированной оценки: почему педантичность одной LLM может “маскировать” ошибки, а прагматичность другой — неожиданно улучшить вашу диагностику. Разберём код живых метрик, покажем, как переход от faithfulness к relevancy помог нам обнаружить и устранить важную логическую уязвимость, и выделим пять универсальных уроков, которые понадобятся каждому, кто автоматизирует оценку LLM не “по учебнику”, а по-настоящему. Если вам интересен опыт построения эксплуатируемых, не “пластмассовых” метрик для LLM-классификаторов в условиях ограничений ИБ и смешанных инфраструктур (OpenAI + российские модели) — добро пожаловать под кат!

    habr.com/ru/companies/raft/art

    #deepeval #метрики_качества #llm #релевантность #консистентность #автоматизация_тестирования

  12. GPT-4o vs YandexGPT: как мы отлаживали метрики в DeepEval из-за требований ИБ

    В нашей компании мы занимаемся автоматизацией тестирования и часто сталкиваемся с необходимостью не только разворачивать сложные пайплайны, но и реализовывать метрики, которые действительно помогают выявлять тонкие баги в работе LLM-классификаторов. Есть понятная open-source инфраструктура, привычные инструменты и строгие требования ИБ. Но когда начинаешь сравнивать разные модели-судьи — например, GPT-4o от OpenAI и YandexGPT, — традиционные подходы к валидации и любимые метрики внезапно ведут себя очень по-разному. В этой статье я расскажу, как обычный процесс локализации метрик для DeepEval вывел нас не только на поиск багов в коде, но и привёл к пересмотру самой логики автоматизированной оценки: почему педантичность одной LLM может “маскировать” ошибки, а прагматичность другой — неожиданно улучшить вашу диагностику. Разберём код живых метрик, покажем, как переход от faithfulness к relevancy помог нам обнаружить и устранить важную логическую уязвимость, и выделим пять универсальных уроков, которые понадобятся каждому, кто автоматизирует оценку LLM не “по учебнику”, а по-настоящему. Если вам интересен опыт построения эксплуатируемых, не “пластмассовых” метрик для LLM-классификаторов в условиях ограничений ИБ и смешанных инфраструктур (OpenAI + российские модели) — добро пожаловать под кат!

    habr.com/ru/companies/raft/art

    #deepeval #метрики_качества #llm #релевантность #консистентность #автоматизация_тестирования

  13. Chunk size? Retriever settings? Prompt templates? #RAG has a lot of knobs—but what actually matters? Mete Atamel offers a structured approach with the RAG triad to help you find out.

    → Check it out here: javapro.io/2025/05/14/evaluati

    #LLM #DeepEval #PromptEngineering #JAVAPRO

  14. Chunk size? Retriever settings? Prompt templates? #RAG has a lot of knobs—but what actually matters? Mete Atamel offers a structured approach with the RAG triad to help you find out.

    → Check it out here: javapro.io/2025/05/14/evaluati

    #LLM #DeepEval #PromptEngineering #JAVAPRO

  15. Chunk size? Retriever settings? Prompt templates? #RAG has a lot of knobs—but what actually matters? Mete Atamel offers a structured approach with the RAG triad to help you find out.

    → Check it out here: javapro.io/2025/05/14/evaluati

    #LLM #DeepEval #PromptEngineering #JAVAPRO

  16. Chunk size? Retriever settings? Prompt templates? #RAG has a lot of knobs—but what actually matters? Mete Atamel offers a structured approach with the RAG triad to help you find out.

    → Check it out here: javapro.io/2025/05/14/evaluati

    #LLM #DeepEval #PromptEngineering #JAVAPRO

  17. Chunk size? Retriever settings? Prompt templates? #RAG has a lot of knobs—but what actually matters? Mete Atamel offers a structured approach with the RAG triad to help you find out.

    → Check it out here: javapro.io/2025/05/14/evaluati

    #LLM #DeepEval #PromptEngineering #JAVAPRO

  18. [Перевод] Инструменты, задачи, рассуждения: как понять, на что способен твой LLM-агент

    LLM-агенты — отстой. Я провёл последнюю неделю, разрабатывая LLM-агента с возможностью веб-краулинга, используя популярный Python-фреймворк, чтобы собирать информацию о потенциальных лидах из интернета. Результат оказался полным разочарованием. Агент оказался медленным, нестабильным и с огромным числом багов (звучит знакомо? Передадим привет OpenAI!). Он постоянно делал ненужные вызовы функций, а иногда намертво застревал в бесконечных петлях "рассуждений", которые не имели никакого смысла. В итоге я на это забил и заменил его простым web-scraping скриптом, на написание кода которого у меня ушло 30 минут.

    habr.com/ru/articles/904880/

    #ai_agent #ai_агенты #ииагенты #llmагент #llm #rag #ai #ии #deepeval

  19. [Перевод] Инструменты, задачи, рассуждения: как понять, на что способен твой LLM-агент

    LLM-агенты — отстой. Я провёл последнюю неделю, разрабатывая LLM-агента с возможностью веб-краулинга, используя популярный Python-фреймворк, чтобы собирать информацию о потенциальных лидах из интернета. Результат оказался полным разочарованием. Агент оказался медленным, нестабильным и с огромным числом багов (звучит знакомо? Передадим привет OpenAI!). Он постоянно делал ненужные вызовы функций, а иногда намертво застревал в бесконечных петлях "рассуждений", которые не имели никакого смысла. В итоге я на это забил и заменил его простым web-scraping скриптом, на написание кода которого у меня ушло 30 минут.

    habr.com/ru/articles/904880/

    #ai_agent #ai_агенты #ииагенты #llmагент #llm #rag #ai #ии #deepeval

  20. [Перевод] Инструменты, задачи, рассуждения: как понять, на что способен твой LLM-агент

    LLM-агенты — отстой. Я провёл последнюю неделю, разрабатывая LLM-агента с возможностью веб-краулинга, используя популярный Python-фреймворк, чтобы собирать информацию о потенциальных лидах из интернета. Результат оказался полным разочарованием. Агент оказался медленным, нестабильным и с огромным числом багов (звучит знакомо? Передадим привет OpenAI!). Он постоянно делал ненужные вызовы функций, а иногда намертво застревал в бесконечных петлях "рассуждений", которые не имели никакого смысла. В итоге я на это забил и заменил его простым web-scraping скриптом, на написание кода которого у меня ушло 30 минут.

    habr.com/ru/articles/904880/

    #ai_agent #ai_агенты #ииагенты #llmагент #llm #rag #ai #ии #deepeval

  21. [Перевод] Инструменты, задачи, рассуждения: как понять, на что способен твой LLM-агент

    LLM-агенты — отстой. Я провёл последнюю неделю, разрабатывая LLM-агента с возможностью веб-краулинга, используя популярный Python-фреймворк, чтобы собирать информацию о потенциальных лидах из интернета. Результат оказался полным разочарованием. Агент оказался медленным, нестабильным и с огромным числом багов (звучит знакомо? Передадим привет OpenAI!). Он постоянно делал ненужные вызовы функций, а иногда намертво застревал в бесконечных петлях "рассуждений", которые не имели никакого смысла. В итоге я на это забил и заменил его простым web-scraping скриптом, на написание кода которого у меня ушло 30 минут.

    habr.com/ru/articles/904880/

    #ai_agent #ai_агенты #ииагенты #llmагент #llm #rag #ai #ии #deepeval

  22. Интеграция DeepEval для тестирования LlamaIndex Workflow

    Тестирование сложных систем, таких как LlamaIndex Workflow, включающих несколько шагов, извлечение данных и генерацию текста с помощью LLM, является нетривиальной задачей. Стандартные методы тестирования не всегда могут оценить семантическое качество и релевантность генерируемых ответов. DeepEval предоставляет набор инструментов и метрик, специально разработанных для оценки LLM-приложений, что делает его подходящим решением для тестирования LlamaIndex Workflow. Давайте разберем два подхода к интеграции DeepEval с LlamaIndex Workflow:

    habr.com/ru/articles/897634/

    #llamaindex #workflow #deepeval

  23. Интеграция DeepEval для тестирования LlamaIndex Workflow

    Тестирование сложных систем, таких как LlamaIndex Workflow, включающих несколько шагов, извлечение данных и генерацию текста с помощью LLM, является нетривиальной задачей. Стандартные методы тестирования не всегда могут оценить семантическое качество и релевантность генерируемых ответов. DeepEval предоставляет набор инструментов и метрик, специально разработанных для оценки LLM-приложений, что делает его подходящим решением для тестирования LlamaIndex Workflow. Давайте разберем два подхода к интеграции DeepEval с LlamaIndex Workflow:

    habr.com/ru/articles/897634/

    #llamaindex #workflow #deepeval

  24. Интеграция DeepEval для тестирования LlamaIndex Workflow

    Тестирование сложных систем, таких как LlamaIndex Workflow, включающих несколько шагов, извлечение данных и генерацию текста с помощью LLM, является нетривиальной задачей. Стандартные методы тестирования не всегда могут оценить семантическое качество и релевантность генерируемых ответов. DeepEval предоставляет набор инструментов и метрик, специально разработанных для оценки LLM-приложений, что делает его подходящим решением для тестирования LlamaIndex Workflow. Давайте разберем два подхода к интеграции DeepEval с LlamaIndex Workflow:

    habr.com/ru/articles/897634/

    #llamaindex #workflow #deepeval

  25. Интеграция DeepEval для тестирования LlamaIndex Workflow

    Тестирование сложных систем, таких как LlamaIndex Workflow, включающих несколько шагов, извлечение данных и генерацию текста с помощью LLM, является нетривиальной задачей. Стандартные методы тестирования не всегда могут оценить семантическое качество и релевантность генерируемых ответов. DeepEval предоставляет набор инструментов и метрик, специально разработанных для оценки LLM-приложений, что делает его подходящим решением для тестирования LlamaIndex Workflow. Давайте разберем два подхода к интеграции DeepEval с LlamaIndex Workflow:

    habr.com/ru/articles/897634/

    #llamaindex #workflow #deepeval

  26. [Перевод] Red Teaming для LLM: Полное пошаговое руководство по Red Teaming больших языковых моделей

    Помните ситуацию, когда Gemini излишне старался быть политкорректным и отображал на всех сгенерированных изображениях только представителей небелых рас? Хотя это могло показаться забавным для многих, данный инцидент наглядно показал, что по мере роста возможностей больших языковых моделей (LLM) возрастают и их уязвимости. Это связано с тем, что сложность модели прямо пропорциональна размеру её выходного пространства, что, в свою очередь, создаёт больше возможностей для нежелательных рисков безопасности , таких как раскрытие личной информации и генерация дезинформации, предвзятости, разжигания ненависти или вредоносного контента . В случае с Gemini были выявлены серьёзные внутренние искажения, обусловленные составом обучающих данных, что и отразилось в его результатах.

    habr.com/ru/articles/880234/

    #llm #red_teaming #chatgpt #deepeval #owasp_top_10 #confident_ai

  27. [Перевод] Red Teaming для LLM: Полное пошаговое руководство по Red Teaming больших языковых моделей

    Помните ситуацию, когда Gemini излишне старался быть политкорректным и отображал на всех сгенерированных изображениях только представителей небелых рас? Хотя это могло показаться забавным для многих, данный инцидент наглядно показал, что по мере роста возможностей больших языковых моделей (LLM) возрастают и их уязвимости. Это связано с тем, что сложность модели прямо пропорциональна размеру её выходного пространства, что, в свою очередь, создаёт больше возможностей для нежелательных рисков безопасности , таких как раскрытие личной информации и генерация дезинформации, предвзятости, разжигания ненависти или вредоносного контента . В случае с Gemini были выявлены серьёзные внутренние искажения, обусловленные составом обучающих данных, что и отразилось в его результатах.

    habr.com/ru/articles/880234/

    #llm #red_teaming #chatgpt #deepeval #owasp_top_10 #confident_ai

  28. [Перевод] Red Teaming для LLM: Полное пошаговое руководство по Red Teaming больших языковых моделей

    Помните ситуацию, когда Gemini излишне старался быть политкорректным и отображал на всех сгенерированных изображениях только представителей небелых рас? Хотя это могло показаться забавным для многих, данный инцидент наглядно показал, что по мере роста возможностей больших языковых моделей (LLM) возрастают и их уязвимости. Это связано с тем, что сложность модели прямо пропорциональна размеру её выходного пространства, что, в свою очередь, создаёт больше возможностей для нежелательных рисков безопасности , таких как раскрытие личной информации и генерация дезинформации, предвзятости, разжигания ненависти или вредоносного контента . В случае с Gemini были выявлены серьёзные внутренние искажения, обусловленные составом обучающих данных, что и отразилось в его результатах.

    habr.com/ru/articles/880234/

    #llm #red_teaming #chatgpt #deepeval #owasp_top_10 #confident_ai

  29. [Перевод] Red Teaming для LLM: Полное пошаговое руководство по Red Teaming больших языковых моделей

    Помните ситуацию, когда Gemini излишне старался быть политкорректным и отображал на всех сгенерированных изображениях только представителей небелых рас? Хотя это могло показаться забавным для многих, данный инцидент наглядно показал, что по мере роста возможностей больших языковых моделей (LLM) возрастают и их уязвимости. Это связано с тем, что сложность модели прямо пропорциональна размеру её выходного пространства, что, в свою очередь, создаёт больше возможностей для нежелательных рисков безопасности , таких как раскрытие личной информации и генерация дезинформации, предвзятости, разжигания ненависти или вредоносного контента . В случае с Gemini были выявлены серьёзные внутренние искажения, обусловленные составом обучающих данных, что и отразилось в его результатах.

    habr.com/ru/articles/880234/

    #llm #red_teaming #chatgpt #deepeval #owasp_top_10 #confident_ai

  30. [Перевод] Оценка чат-ботов LLM: основные метрики и методы тестирования

    В этой статье я научу вас, как оценивать LLM-чат-ботов, чтобы понять, достаточно ли они убедительны, чтобы сойти за реальных людей. Но что еще важнее, вы сможете использовать результаты этой оценки, чтобы понять, как улучшить своего LLM-чат-бота, например, изменив промпт или саму LLM-модель. В этой статье вы узнаете: * Разницу между оценкой LLM-чат-ботов и стандартной оценкой LLM * Различные подходы к оценке LLM-диалогов * Различные типы метрик для оценки LLM-чат-ботов * Как реализовать оценку LLM-диалогов в коде с использованием DeepEval

    habr.com/ru/articles/876584/

    #llm #чатбот_LLM #DeepEval #Confident_AI

  31. [Перевод] Оценка чат-ботов LLM: основные метрики и методы тестирования

    В этой статье я научу вас, как оценивать LLM-чат-ботов, чтобы понять, достаточно ли они убедительны, чтобы сойти за реальных людей. Но что еще важнее, вы сможете использовать результаты этой оценки, чтобы понять, как улучшить своего LLM-чат-бота, например, изменив промпт или саму LLM-модель. В этой статье вы узнаете: * Разницу между оценкой LLM-чат-ботов и стандартной оценкой LLM * Различные подходы к оценке LLM-диалогов * Различные типы метрик для оценки LLM-чат-ботов * Как реализовать оценку LLM-диалогов в коде с использованием DeepEval

    habr.com/ru/articles/876584/

    #llm #чатбот_LLM #DeepEval #Confident_AI

  32. [Перевод] Оценка чат-ботов LLM: основные метрики и методы тестирования

    В этой статье я научу вас, как оценивать LLM-чат-ботов, чтобы понять, достаточно ли они убедительны, чтобы сойти за реальных людей. Но что еще важнее, вы сможете использовать результаты этой оценки, чтобы понять, как улучшить своего LLM-чат-бота, например, изменив промпт или саму LLM-модель. В этой статье вы узнаете: * Разницу между оценкой LLM-чат-ботов и стандартной оценкой LLM * Различные подходы к оценке LLM-диалогов * Различные типы метрик для оценки LLM-чат-ботов * Как реализовать оценку LLM-диалогов в коде с использованием DeepEval

    habr.com/ru/articles/876584/

    #llm #чатбот_LLM #DeepEval #Confident_AI

  33. [Перевод] Оценка чат-ботов LLM: основные метрики и методы тестирования

    В этой статье я научу вас, как оценивать LLM-чат-ботов, чтобы понять, достаточно ли они убедительны, чтобы сойти за реальных людей. Но что еще важнее, вы сможете использовать результаты этой оценки, чтобы понять, как улучшить своего LLM-чат-бота, например, изменив промпт или саму LLM-модель. В этой статье вы узнаете: * Разницу между оценкой LLM-чат-ботов и стандартной оценкой LLM * Различные подходы к оценке LLM-диалогов * Различные типы метрик для оценки LLM-чат-ботов * Как реализовать оценку LLM-диалогов в коде с использованием DeepEval

    habr.com/ru/articles/876584/

    #llm #чатбот_LLM #DeepEval #Confident_AI

  34. [Перевод] Оценка систем LLM: основные метрики, бенчмарки и лучшие практики

    Оценка LLM-систем вручную — это утомительное, времязатратное и порой раздражающее занятие. Поэтому, если вам приходилось многократно прогонять набор промптов, чтобы вручную проверять каждый вывод LLM, вас обрадует, что эта статья научит вас всему необходимому для правильной оценки LLM и обеспечения долгосрочной эффективности вас и вашего приложения на основе LLM. Оценка LLM относится к процессу обеспечения соответствия выходных данных LLM человеческим ожиданиям, которые могут варьироваться от этических и безопасных соображений до более практических критериев, таких как правильность и релевантность выходных данных LLM. С инженерной точки зрения эти выходные данные LLM часто можно найти в форме тестовых кейсов , в то время как критерии оценки формализуются в виде метрик оценки LLM . На повестке дня: В чем разница между оценкой LLM и оценкой системы LLM , а также их преимущества Офлайн-оценки , что такое бенчмарки системы LLM, как создавать наборы данных для оценки и выбирать правильные метрики оценки LLM, а также распространенные ошибки Оценки в реальном времени и их польза для улучшения наборов данных для офлайн-оценок Реальные примеры использования систем LLM и как их оценивать , включая chatbotQA и Text-SQL

    habr.com/ru/articles/874538/

    #LLM #TextSQL #deepeval #бенчмарки #geval

  35. [Перевод] Оценка систем LLM: основные метрики, бенчмарки и лучшие практики

    Оценка LLM-систем вручную — это утомительное, времязатратное и порой раздражающее занятие. Поэтому, если вам приходилось многократно прогонять набор промптов, чтобы вручную проверять каждый вывод LLM, вас обрадует, что эта статья научит вас всему необходимому для правильной оценки LLM и обеспечения долгосрочной эффективности вас и вашего приложения на основе LLM. Оценка LLM относится к процессу обеспечения соответствия выходных данных LLM человеческим ожиданиям, которые могут варьироваться от этических и безопасных соображений до более практических критериев, таких как правильность и релевантность выходных данных LLM. С инженерной точки зрения эти выходные данные LLM часто можно найти в форме тестовых кейсов , в то время как критерии оценки формализуются в виде метрик оценки LLM . На повестке дня: В чем разница между оценкой LLM и оценкой системы LLM , а также их преимущества Офлайн-оценки , что такое бенчмарки системы LLM, как создавать наборы данных для оценки и выбирать правильные метрики оценки LLM, а также распространенные ошибки Оценки в реальном времени и их польза для улучшения наборов данных для офлайн-оценок Реальные примеры использования систем LLM и как их оценивать , включая chatbotQA и Text-SQL

    habr.com/ru/articles/874538/

    #LLM #TextSQL #deepeval #бенчмарки #geval

  36. [Перевод] Оценка систем LLM: основные метрики, бенчмарки и лучшие практики

    Оценка LLM-систем вручную — это утомительное, времязатратное и порой раздражающее занятие. Поэтому, если вам приходилось многократно прогонять набор промптов, чтобы вручную проверять каждый вывод LLM, вас обрадует, что эта статья научит вас всему необходимому для правильной оценки LLM и обеспечения долгосрочной эффективности вас и вашего приложения на основе LLM. Оценка LLM относится к процессу обеспечения соответствия выходных данных LLM человеческим ожиданиям, которые могут варьироваться от этических и безопасных соображений до более практических критериев, таких как правильность и релевантность выходных данных LLM. С инженерной точки зрения эти выходные данные LLM часто можно найти в форме тестовых кейсов , в то время как критерии оценки формализуются в виде метрик оценки LLM . На повестке дня: В чем разница между оценкой LLM и оценкой системы LLM , а также их преимущества Офлайн-оценки , что такое бенчмарки системы LLM, как создавать наборы данных для оценки и выбирать правильные метрики оценки LLM, а также распространенные ошибки Оценки в реальном времени и их польза для улучшения наборов данных для офлайн-оценок Реальные примеры использования систем LLM и как их оценивать , включая chatbotQA и Text-SQL

    habr.com/ru/articles/874538/

    #LLM #TextSQL #deepeval #бенчмарки #geval

  37. [Перевод] Оценка систем LLM: основные метрики, бенчмарки и лучшие практики

    Оценка LLM-систем вручную — это утомительное, времязатратное и порой раздражающее занятие. Поэтому, если вам приходилось многократно прогонять набор промптов, чтобы вручную проверять каждый вывод LLM, вас обрадует, что эта статья научит вас всему необходимому для правильной оценки LLM и обеспечения долгосрочной эффективности вас и вашего приложения на основе LLM. Оценка LLM относится к процессу обеспечения соответствия выходных данных LLM человеческим ожиданиям, которые могут варьироваться от этических и безопасных соображений до более практических критериев, таких как правильность и релевантность выходных данных LLM. С инженерной точки зрения эти выходные данные LLM часто можно найти в форме тестовых кейсов , в то время как критерии оценки формализуются в виде метрик оценки LLM . На повестке дня: В чем разница между оценкой LLM и оценкой системы LLM , а также их преимущества Офлайн-оценки , что такое бенчмарки системы LLM, как создавать наборы данных для оценки и выбирать правильные метрики оценки LLM, а также распространенные ошибки Оценки в реальном времени и их польза для улучшения наборов данных для офлайн-оценок Реальные примеры использования систем LLM и как их оценивать , включая chatbotQA и Text-SQL

    habr.com/ru/articles/874538/

    #LLM #TextSQL #deepeval #бенчмарки #geval

  38. [Перевод] Оценка RAG: Полное руководство по модульному тестированию RAG в CI/CD

    Генерация дополненного извлечения (RAG) стала самым популярным способом предоставления LLM дополнительного контекста для создания адаптированных выходных данных. Это отлично подходит для приложений LLM, таких как чат-боты или агенты ИИ, поскольку RAG предоставляет пользователям гораздо более контекстуальный опыт, выходящий за рамки данных, на которых обучались LLM, такие как GPT-4. Неудивительно, что практикующие LLM столкнулись с проблемами оценки приложений RAG во время разработки. Но благодаря исследованиям, проведенным RAGA, оценка общих характеристик генератора-извлекателя систем RAG в 2024 году является в некоторой степени решенной проблемой. Однако создание приложений RAG до сих пор остается проблемой — вы можете использовать неправильную модель встраивания, плохую стратегию фрагментации или выводить ответы в неправильном формате, что как раз и пытаются решить такие фреймворки, как LlamaIndex. Но теперь, по мере того как архитектуры RAG становятся все более сложными, а сотрудничество между специалистами LLM в этих проектах усиливается, возникновение критических изменений становится более частым, чем когда-либо.

    habr.com/ru/articles/865420/

    #RAG #LLM #RAGA #deepeval

  39. [Перевод] Оценка RAG: Полное руководство по модульному тестированию RAG в CI/CD

    Генерация дополненного извлечения (RAG) стала самым популярным способом предоставления LLM дополнительного контекста для создания адаптированных выходных данных. Это отлично подходит для приложений LLM, таких как чат-боты или агенты ИИ, поскольку RAG предоставляет пользователям гораздо более контекстуальный опыт, выходящий за рамки данных, на которых обучались LLM, такие как GPT-4. Неудивительно, что практикующие LLM столкнулись с проблемами оценки приложений RAG во время разработки. Но благодаря исследованиям, проведенным RAGA, оценка общих характеристик генератора-извлекателя систем RAG в 2024 году является в некоторой степени решенной проблемой. Однако создание приложений RAG до сих пор остается проблемой — вы можете использовать неправильную модель встраивания, плохую стратегию фрагментации или выводить ответы в неправильном формате, что как раз и пытаются решить такие фреймворки, как LlamaIndex. Но теперь, по мере того как архитектуры RAG становятся все более сложными, а сотрудничество между специалистами LLM в этих проектах усиливается, возникновение критических изменений становится более частым, чем когда-либо.

    habr.com/ru/articles/865420/

    #RAG #LLM #RAGA #deepeval

  40. [Перевод] Оценка RAG: Полное руководство по модульному тестированию RAG в CI/CD

    Генерация дополненного извлечения (RAG) стала самым популярным способом предоставления LLM дополнительного контекста для создания адаптированных выходных данных. Это отлично подходит для приложений LLM, таких как чат-боты или агенты ИИ, поскольку RAG предоставляет пользователям гораздо более контекстуальный опыт, выходящий за рамки данных, на которых обучались LLM, такие как GPT-4. Неудивительно, что практикующие LLM столкнулись с проблемами оценки приложений RAG во время разработки. Но благодаря исследованиям, проведенным RAGA, оценка общих характеристик генератора-извлекателя систем RAG в 2024 году является в некоторой степени решенной проблемой. Однако создание приложений RAG до сих пор остается проблемой — вы можете использовать неправильную модель встраивания, плохую стратегию фрагментации или выводить ответы в неправильном формате, что как раз и пытаются решить такие фреймворки, как LlamaIndex. Но теперь, по мере того как архитектуры RAG становятся все более сложными, а сотрудничество между специалистами LLM в этих проектах усиливается, возникновение критических изменений становится более частым, чем когда-либо.

    habr.com/ru/articles/865420/

    #RAG #LLM #RAGA #deepeval

  41. [Перевод] Оценка RAG: Полное руководство по модульному тестированию RAG в CI/CD

    Генерация дополненного извлечения (RAG) стала самым популярным способом предоставления LLM дополнительного контекста для создания адаптированных выходных данных. Это отлично подходит для приложений LLM, таких как чат-боты или агенты ИИ, поскольку RAG предоставляет пользователям гораздо более контекстуальный опыт, выходящий за рамки данных, на которых обучались LLM, такие как GPT-4. Неудивительно, что практикующие LLM столкнулись с проблемами оценки приложений RAG во время разработки. Но благодаря исследованиям, проведенным RAGA, оценка общих характеристик генератора-извлекателя систем RAG в 2024 году является в некоторой степени решенной проблемой. Однако создание приложений RAG до сих пор остается проблемой — вы можете использовать неправильную модель встраивания, плохую стратегию фрагментации или выводить ответы в неправильном формате, что как раз и пытаются решить такие фреймворки, как LlamaIndex. Но теперь, по мере того как архитектуры RAG становятся все более сложными, а сотрудничество между специалистами LLM в этих проектах усиливается, возникновение критических изменений становится более частым, чем когда-либо.

    habr.com/ru/articles/865420/

    #RAG #LLM #RAGA #deepeval

  42. [Перевод] 5 лучших фреймворков с открытым исходным кодом для оценки больших языковых моделей (LLM) в 2024 году

    «У меня такое чувство, что решений для оценки LLM больше, чем проблем, связанных с их оценкой», — сказал Дилан, руководитель отдела ИИ в компании из списка Fortune 500. И я полностью согласен — кажется, что каждую неделю появляется новый репозиторий с открытым исходным кодом, пытающийся сделать то же самое, что и другие 30+ уже существующих фреймворков. В конце концов, чего действительно хочет Дилан, так это фреймворка, пакета, библиотеки, как угодно, который просто количественно оценил бы производительность LLM (приложения), которую он хочет запустить в продакшен. Итак, как человек, который когда-то был на месте Дилана, я составил список из 5 лучших фреймворков для оценки LLM, существующих в 2024 году :) 😌 Начнем!

    habr.com/ru/articles/865212/

    #deepeval #mlflow #rag #ragas #llm #arize_ai

  43. [Перевод] 5 лучших фреймворков с открытым исходным кодом для оценки больших языковых моделей (LLM) в 2024 году

    «У меня такое чувство, что решений для оценки LLM больше, чем проблем, связанных с их оценкой», — сказал Дилан, руководитель отдела ИИ в компании из списка Fortune 500. И я полностью согласен — кажется, что каждую неделю появляется новый репозиторий с открытым исходным кодом, пытающийся сделать то же самое, что и другие 30+ уже существующих фреймворков. В конце концов, чего действительно хочет Дилан, так это фреймворка, пакета, библиотеки, как угодно, который просто количественно оценил бы производительность LLM (приложения), которую он хочет запустить в продакшен. Итак, как человек, который когда-то был на месте Дилана, я составил список из 5 лучших фреймворков для оценки LLM, существующих в 2024 году :) 😌 Начнем!

    habr.com/ru/articles/865212/

    #deepeval #mlflow #rag #ragas #llm #arize_ai

  44. [Перевод] 5 лучших фреймворков с открытым исходным кодом для оценки больших языковых моделей (LLM) в 2024 году

    «У меня такое чувство, что решений для оценки LLM больше, чем проблем, связанных с их оценкой», — сказал Дилан, руководитель отдела ИИ в компании из списка Fortune 500. И я полностью согласен — кажется, что каждую неделю появляется новый репозиторий с открытым исходным кодом, пытающийся сделать то же самое, что и другие 30+ уже существующих фреймворков. В конце концов, чего действительно хочет Дилан, так это фреймворка, пакета, библиотеки, как угодно, который просто количественно оценил бы производительность LLM (приложения), которую он хочет запустить в продакшен. Итак, как человек, который когда-то был на месте Дилана, я составил список из 5 лучших фреймворков для оценки LLM, существующих в 2024 году :) 😌 Начнем!

    habr.com/ru/articles/865212/

    #deepeval #mlflow #rag #ragas #llm #arize_ai

  45. [Перевод] 5 лучших фреймворков с открытым исходным кодом для оценки больших языковых моделей (LLM) в 2024 году

    «У меня такое чувство, что решений для оценки LLM больше, чем проблем, связанных с их оценкой», — сказал Дилан, руководитель отдела ИИ в компании из списка Fortune 500. И я полностью согласен — кажется, что каждую неделю появляется новый репозиторий с открытым исходным кодом, пытающийся сделать то же самое, что и другие 30+ уже существующих фреймворков. В конце концов, чего действительно хочет Дилан, так это фреймворка, пакета, библиотеки, как угодно, который просто количественно оценил бы производительность LLM (приложения), которую он хочет запустить в продакшен. Итак, как человек, который когда-то был на месте Дилана, я составил список из 5 лучших фреймворков для оценки LLM, существующих в 2024 году :) 😌 Начнем!

    habr.com/ru/articles/865212/

    #deepeval #mlflow #rag #ragas #llm #arize_ai