home.social

#mmlu — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #mmlu, aggregated by home.social.

  1. [Перевод] Как оценить LLM модель

    В одном из прошлых блогов я представил концепцию тестирования крупных языковых моделей (LLM). Однако тестирование крупных языковых моделей (LLM) - достаточно сложная тема, которая требует дальнейшего изучения. Существует несколько соображений относительно тестирования моделей машинного обучения и, в частности, LLM, которые необходимо учитывать при разработке и развертывании вашего приложения. В этом блоге я предложу общую структуру, которая будет служить минимальной рекомендацией для тестирования приложений, использующих LLM, включая разговорные агенты, расширенную генерацию поиска и агентов и т. д.

    habr.com/ru/articles/853542/

    #LLM #оценка_систем_LLM #оценки_на_основе_правил #оценки_на_основе_моделей #mmlu #HellaSwag #GLUE #TruthfulQA

  2. [Перевод] Как оценить качество LLM модели

    Представьте модели LLM размером до более чем 100 миллиардов параметров, каждая из которых мощнее предыдущей. Среди них есть гиганты: Mistral (7 миллиардов), Mixtral (8x7 миллиардов), Llama (70 миллиардов) и колоссальная Falcon (180 миллиардов). Однако существуют и модели наподобие Phi1, Phi1.5 и Falcon 1B, стремящиеся к сравнимому уровню мощности, имея всего от 1 до 4 миллиардов параметров. У каждой модели, и большой, и маленькой, есть одна цель: стать мастером в искусстве языка, превосходно справляться с такими задачами, как резюмирование текстов, ответы на вопросы и распознавание именованных сущностей. Но во всех этих задачах у всех больших языковых моделей (Large Language Model, LLM) проявляются сильные изъяны: Некоторые промты заставляют LLM создавать мусорные результаты; они называются «промтами джейлбрейкинга». LLM не всегда правильно излагают факты; это явление называется «галлюцинациями». LLM могут вести себя неожиданно, из-за чего потребителям бывает небезопасно ими пользоваться. Очевидно, что простого обучения LLM недостаточно. Поэтому возникает вопрос: как нам обеспечить уверенность в том, что LLM А (с n параметров) лучше LLM Б (с m параметров)? Или сделать вывод, что LLM А надёжнее, чем LLM Б, на основании исчисляемых, обоснованных наблюдений? Необходим стандарт для бенчмаркинга LLM, гарантирующий их этическую надёжность и фактическую точность. Хотя было проведено множество исследований бенчмаркинга (например, MMLU, HellaSwag, BBH и так далее ), одних лишь исследований недостаточно для надёжного специализированного бенчмаркинга продакшен-систем.

    habr.com/ru/articles/846748/

    #Машинное_обучение #LLM #DeepEval #RAG #LMSys #LLMArena #PromptBench #llm_arena #HELM #MMLU #HellaSwag #BIGBench_Hard

  3. [Перевод] Как оценить качество LLM модели

    Представьте модели LLM размером до более чем 100 миллиардов параметров, каждая из которых мощнее предыдущей. Среди них есть гиганты: Mistral (7 миллиардов), Mixtral (8x7 миллиардов), Llama (70 миллиардов) и колоссальная Falcon (180 миллиардов). Однако существуют и модели наподобие Phi1, Phi1.5 и Falcon 1B, стремящиеся к сравнимому уровню мощности, имея всего от 1 до 4 миллиардов параметров. У каждой модели, и большой, и маленькой, есть одна цель: стать мастером в искусстве языка, превосходно справляться с такими задачами, как резюмирование текстов, ответы на вопросы и распознавание именованных сущностей. Но во всех этих задачах у всех больших языковых моделей (Large Language Model, LLM) проявляются сильные изъяны: Некоторые промты заставляют LLM создавать мусорные результаты; они называются «промтами джейлбрейкинга». LLM не всегда правильно излагают факты; это явление называется «галлюцинациями». LLM могут вести себя неожиданно, из-за чего потребителям бывает небезопасно ими пользоваться. Очевидно, что простого обучения LLM недостаточно. Поэтому возникает вопрос: как нам обеспечить уверенность в том, что LLM А (с n параметров) лучше LLM Б (с m параметров)? Или сделать вывод, что LLM А надёжнее, чем LLM Б, на основании исчисляемых, обоснованных наблюдений? Необходим стандарт для бенчмаркинга LLM, гарантирующий их этическую надёжность и фактическую точность. Хотя было проведено множество исследований бенчмаркинга (например, MMLU, HellaSwag, BBH и так далее ), одних лишь исследований недостаточно для надёжного специализированного бенчмаркинга продакшен-систем.

    habr.com/ru/articles/846748/

    #Машинное_обучение #LLM #DeepEval #RAG #LMSys #LLMArena #PromptBench #llm_arena #HELM #MMLU #HellaSwag #BIGBench_Hard

  4. [Перевод] Как оценить качество LLM модели

    Представьте модели LLM размером до более чем 100 миллиардов параметров, каждая из которых мощнее предыдущей. Среди них есть гиганты: Mistral (7 миллиардов), Mixtral (8x7 миллиардов), Llama (70 миллиардов) и колоссальная Falcon (180 миллиардов). Однако существуют и модели наподобие Phi1, Phi1.5 и Falcon 1B, стремящиеся к сравнимому уровню мощности, имея всего от 1 до 4 миллиардов параметров. У каждой модели, и большой, и маленькой, есть одна цель: стать мастером в искусстве языка, превосходно справляться с такими задачами, как резюмирование текстов, ответы на вопросы и распознавание именованных сущностей. Но во всех этих задачах у всех больших языковых моделей (Large Language Model, LLM) проявляются сильные изъяны: Некоторые промты заставляют LLM создавать мусорные результаты; они называются «промтами джейлбрейкинга». LLM не всегда правильно излагают факты; это явление называется «галлюцинациями». LLM могут вести себя неожиданно, из-за чего потребителям бывает небезопасно ими пользоваться. Очевидно, что простого обучения LLM недостаточно. Поэтому возникает вопрос: как нам обеспечить уверенность в том, что LLM А (с n параметров) лучше LLM Б (с m параметров)? Или сделать вывод, что LLM А надёжнее, чем LLM Б, на основании исчисляемых, обоснованных наблюдений? Необходим стандарт для бенчмаркинга LLM, гарантирующий их этическую надёжность и фактическую точность. Хотя было проведено множество исследований бенчмаркинга (например, MMLU, HellaSwag, BBH и так далее ), одних лишь исследований недостаточно для надёжного специализированного бенчмаркинга продакшен-систем.

    habr.com/ru/articles/846748/

    #Машинное_обучение #LLM #DeepEval #RAG #LMSys #LLMArena #PromptBench #llm_arena #HELM #MMLU #HellaSwag #BIGBench_Hard

  5. [Перевод] Самые популярные LLM бенчмарки

    Зачем использовать бенчмарки для оценки LLM? Бенчмарки LLM помогают оценивать точность больших языковых моделей, обеспечивая стандартизированную процедуру измерения метрик выполнения различных задач. Бенчмарки содержат все структуры и данные , необходимые для оценки LLM, в том числе: «Эталонные» датасеты (релевантные задачи/вопросы/промты с ожидаемыми ответами) Способы передачи входных промтов в LLM Способы интерпретации/сбора ответов Вычисляемые метрики и оценки (а также способы их вычисления) Всё вместе это позволяет согласованным образом сравнивать точность разных моделей. Но какой же бенчмарк LLM стоит использовать? В основном это зависит от сценария использования, то есть от того, для чего вы намереваетесь применять LLM. Давайте разбираться!

    habr.com/ru/articles/844974/

    #Бенчмарки #LLM #MathEval #GSM8K #MTBench #MMLU

  6. 🚀 #Qwen2.5: New #AI model family released by Qwen Team

    #LLM variants: 0.5B to 72B parameters, support 29+ languages including English, Chinese, French, Spanish
    Specialized models: #Qwen2.5Coder for coding, #Qwen2.5Math for mathematics
    128K token context length, can generate up to 8K tokens
    #OpenSource under Apache 2.0 license (except 3B and 72B variants)

    💡 Key improvements:

    Enhanced knowledge (85+ on #MMLU)
    Better coding skills (85+ on #HumanEval)
    Improved math capabilities (80+ on #MATH)
    Stronger instruction following and long text generation
    Better handling of structured data and outputs (e.g., #JSON)

    🔬 Performance highlights:

    #Qwen2572B competitive with leading models like #Llama3 and #MistralAI
    Smaller models (e.g., 3B) show impressive efficiency
    #QwenPlus API model competes with #GPT4 and #Claude on some benchmarks

    🛠️ Available via #HuggingFace, #vLLM, and other deployment options
    📊 Comprehensive benchmarks and comparisons provided in the blog post

    qwenlm.github.io/blog/qwen2.5/

  7. @bindureddy #AI #LLM Roadmap For 2024

    Well, technically, this is a wish list, but there is a good chance that a lot, if not all, of this will happen.

    Q1
    - gemini ultra finally launched. While it may not be as good as GPT-4 in some respects, it will blow GPT-4 out of the water when CoT prompting techniques are applied
    - a lot of pressure on OpenAI to release 4.5, but it may happen only in Q2
    - several open-source fine-tunes that improve reasoning and #MMLU.

  8. Meet #Gemini - the first model to outperform human experts on #MMLU (Massive Multitask Language Understanding), one of the most popular methods to test the performance of language models: bit.ly/3ReWtNO

    Explore more on #InfoQ!

    #AI #Google #DeepLearning #ML

  9. GigaChat Pro. Технические детали, сдача ЕГЭ и сравнение с конкурентами

    С момента запуска GigaChat прошло около полугода, и за это время у нас появилось более полутора миллионов пользователей. Они активно используют нейросетевые технологии как в работе, так и для развлечения. От пользователей поступают разнообразные запросы: от просьбы сделать краткую выжимку из текста письма до срочного написания поэмы на день рождения коллеги-тестировщика. Мы всегда учитываем обратную связь, которая помогает нам развиваться и внедрять новые идеи. За последнее время нами были выпущены новые модели и добавлены новые функциональные возможности в сервис. А теперь мы представляем новую нейросетевую модель, у которой более 29 миллиардов параметров. Она успешно прошла тест на ЕГЭ и показала отличные результаты в сравнении с другими системами. Если вы только начинаете интересоваться новыми технологиями в области искусственного интеллекта, то имейте в виду, именно они в ближайшие годы будут формировать наше с вами будущее и давать преимущество тем, кто ими владеет. Давайте познакомимся с ними поближе.

    habr.com/ru/companies/sberdevi

    #GigaChat #ChatGPT #sber #MMLU #егэ #ai #pretrain #предобучение

  10. GigaChat Pro. Технические детали, сдача ЕГЭ и сравнение с конкурентами

    С момента запуска GigaChat прошло около полугода, и за это время у нас появилось более полутора миллионов пользователей. Они активно используют нейросетевые технологии как в работе, так и для развлечения. От пользователей поступают разнообразные запросы: от просьбы сделать краткую выжимку из текста письма до срочного написания поэмы на день рождения коллеги-тестировщика. Мы всегда учитываем обратную связь, которая помогает нам развиваться и внедрять новые идеи. За последнее время нами были выпущены новые модели и добавлены новые функциональные возможности в сервис. А теперь мы представляем новую нейросетевую модель, у которой более 29 миллиардов параметров. Она успешно прошла тест на ЕГЭ и показала отличные результаты в сравнении с другими системами. Если вы только начинаете интересоваться новыми технологиями в области искусственного интеллекта, то имейте в виду, именно они в ближайшие годы будут формировать наше с вами будущее и давать преимущество тем, кто ими владеет. Давайте познакомимся с ними поближе.

    habr.com/ru/companies/sberdevi

    #GigaChat #ChatGPT #sber #MMLU #егэ #ai #pretrain #предобучение