#mmlu — Public Fediverse posts on home.social

Winbuzzer @[email protected] · 2025-03-23 · 12:43 UTC

Tencent Releases its Hunyuan T1 AI Reasoning Model, Beating DeepSeek R1, GPT-4.5, o1 Across Multiple Benchmarks

#AI #GenAI #TencentAI #HunyuanT1 #AIReasoning #EnterpriseAI #LLMbenchmarks #ChinaAI #MMLU #MathAI #AIModels #AIInference

https://winbuzzer.com/2025/03/23/tencents-releases-its-hunyuan-t1-reasoning-model-beating-deepseek-r1-gpt-4-5-o1-across-benchmarks-xcxwbn/

#ai #genai #tencentai #hunyuant1 #aireasoning #enterpriseai

Winbuzzer @[email protected] · 2025-03-23 · 12:43 UTC

Tencent Releases its Hunyuan T1 AI Reasoning Model, Beating DeepSeek R1, GPT-4.5, o1 Across Multiple Benchmarks

#AI #GenAI #TencentAI #HunyuanT1 #AIReasoning #EnterpriseAI #LLMbenchmarks #ChinaAI #MMLU #MathAI #AIModels #AIInference

https://winbuzzer.com/2025/03/23/tencents-releases-its-hunyuan-t1-reasoning-model-beating-deepseek-r1-gpt-4-5-o1-across-benchmarks-xcxwbn/

#ai #genai #tencentai #hunyuant1 #aireasoning #enterpriseai

Winbuzzer @[email protected] · 2025-03-23 · 12:43 UTC

Tencent Releases its Hunyuan T1 AI Reasoning Model, Beating DeepSeek R1, GPT-4.5, o1 Across Multiple Benchmarks

#AI #GenAI #TencentAI #HunyuanT1 #AIReasoning #EnterpriseAI #LLMbenchmarks #ChinaAI #MMLU #MathAI #AIModels #AIInference

https://winbuzzer.com/2025/03/23/tencents-releases-its-hunyuan-t1-reasoning-model-beating-deepseek-r1-gpt-4-5-o1-across-benchmarks-xcxwbn/

#ai #genai #tencentai #hunyuant1 #aireasoning #enterpriseai

Winbuzzer @[email protected] · 2025-03-23 · 12:43 UTC

Tencent Releases its Hunyuan T1 AI Reasoning Model, Beating DeepSeek R1, GPT-4.5, o1 Across Multiple Benchmarks

#AI #GenAI #TencentAI #HunyuanT1 #AIReasoning #EnterpriseAI #LLMbenchmarks #ChinaAI #MMLU #MathAI #AIModels #AIInference

https://winbuzzer.com/2025/03/23/tencents-releases-its-hunyuan-t1-reasoning-model-beating-deepseek-r1-gpt-4-5-o1-across-benchmarks-xcxwbn/

#aiinference #aimodels #mathai #mmlu #chinaai #llmbenchmarks

Winbuzzer @[email protected] · 2025-03-23 · 12:43 UTC

Tencent Releases its Hunyuan T1 AI Reasoning Model, Beating DeepSeek R1, GPT-4.5, o1 Across Multiple Benchmarks

#AI #GenAI #TencentAI #HunyuanT1 #AIReasoning #EnterpriseAI #LLMbenchmarks #ChinaAI #MMLU #MathAI #AIModels #AIInference

https://winbuzzer.com/2025/03/23/tencents-releases-its-hunyuan-t1-reasoning-model-beating-deepseek-r1-gpt-4-5-o1-across-benchmarks-xcxwbn/

#ai #genai #tencentai #hunyuant1 #aireasoning #enterpriseai

Habr @[email protected] · 2024-10-28 · 07:22 UTC

[Перевод] Как оценить LLM модель

В одном из прошлых блогов я представил концепцию тестирования крупных языковых моделей (LLM). Однако тестирование крупных языковых моделей (LLM) - достаточно сложная тема, которая требует дальнейшего изучения. Существует несколько соображений относительно тестирования моделей машинного обучения и, в частности, LLM, которые необходимо учитывать при разработке и развертывании вашего приложения. В этом блоге я предложу общую структуру, которая будет служить минимальной рекомендацией для тестирования приложений, использующих LLM, включая разговорные агенты, расширенную генерацию поиска и агентов и т. д.

https://habr.com/ru/articles/853542/

#LLM #оценка_систем_LLM #оценки_на_основе_правил #оценки_на_основе_моделей #mmlu #HellaSwag #GLUE #TruthfulQA

#llm #оценка_систем_llm #оценки_на_основе_правил #оценки_на_основе_моделей #mmlu #hellaswag

Habr @[email protected] · 2024-09-30 · 12:12 UTC

[Перевод] Как оценить качество LLM модели

Представьте модели LLM размером до более чем 100 миллиардов параметров, каждая из которых мощнее предыдущей. Среди них есть гиганты: Mistral (7 миллиардов), Mixtral (8x7 миллиардов), Llama (70 миллиардов) и колоссальная Falcon (180 миллиардов). Однако существуют и модели наподобие Phi1, Phi1.5 и Falcon 1B, стремящиеся к сравнимому уровню мощности, имея всего от 1 до 4 миллиардов параметров. У каждой модели, и большой, и маленькой, есть одна цель: стать мастером в искусстве языка, превосходно справляться с такими задачами, как резюмирование текстов, ответы на вопросы и распознавание именованных сущностей. Но во всех этих задачах у всех больших языковых моделей (Large Language Model, LLM) проявляются сильные изъяны: Некоторые промты заставляют LLM создавать мусорные результаты; они называются «промтами джейлбрейкинга». LLM не всегда правильно излагают факты; это явление называется «галлюцинациями». LLM могут вести себя неожиданно, из-за чего потребителям бывает небезопасно ими пользоваться. Очевидно, что простого обучения LLM недостаточно. Поэтому возникает вопрос: как нам обеспечить уверенность в том, что LLM А (с n параметров) лучше LLM Б (с m параметров)? Или сделать вывод, что LLM А надёжнее, чем LLM Б, на основании исчисляемых, обоснованных наблюдений? Необходим стандарт для бенчмаркинга LLM, гарантирующий их этическую надёжность и фактическую точность. Хотя было проведено множество исследований бенчмаркинга (например, MMLU, HellaSwag, BBH и так далее ), одних лишь исследований недостаточно для надёжного специализированного бенчмаркинга продакшен-систем.

https://habr.com/ru/articles/846748/

#Машинное_обучение #LLM #DeepEval #RAG #LMSys #LLMArena #PromptBench #llm_arena #HELM #MMLU #HellaSwag #BIGBench_Hard

#bigbench_hard #hellaswag #mmlu #helm #llm_arena #promptbench

Habr @[email protected] · 2024-09-30 · 12:12 UTC

[Перевод] Как оценить качество LLM модели

Представьте модели LLM размером до более чем 100 миллиардов параметров, каждая из которых мощнее предыдущей. Среди них есть гиганты: Mistral (7 миллиардов), Mixtral (8x7 миллиардов), Llama (70 миллиардов) и колоссальная Falcon (180 миллиардов). Однако существуют и модели наподобие Phi1, Phi1.5 и Falcon 1B, стремящиеся к сравнимому уровню мощности, имея всего от 1 до 4 миллиардов параметров. У каждой модели, и большой, и маленькой, есть одна цель: стать мастером в искусстве языка, превосходно справляться с такими задачами, как резюмирование текстов, ответы на вопросы и распознавание именованных сущностей. Но во всех этих задачах у всех больших языковых моделей (Large Language Model, LLM) проявляются сильные изъяны: Некоторые промты заставляют LLM создавать мусорные результаты; они называются «промтами джейлбрейкинга». LLM не всегда правильно излагают факты; это явление называется «галлюцинациями». LLM могут вести себя неожиданно, из-за чего потребителям бывает небезопасно ими пользоваться. Очевидно, что простого обучения LLM недостаточно. Поэтому возникает вопрос: как нам обеспечить уверенность в том, что LLM А (с n параметров) лучше LLM Б (с m параметров)? Или сделать вывод, что LLM А надёжнее, чем LLM Б, на основании исчисляемых, обоснованных наблюдений? Необходим стандарт для бенчмаркинга LLM, гарантирующий их этическую надёжность и фактическую точность. Хотя было проведено множество исследований бенчмаркинга (например, MMLU, HellaSwag, BBH и так далее ), одних лишь исследований недостаточно для надёжного специализированного бенчмаркинга продакшен-систем.

https://habr.com/ru/articles/846748/

#Машинное_обучение #LLM #DeepEval #RAG #LMSys #LLMArena #PromptBench #llm_arena #HELM #MMLU #HellaSwag #BIGBench_Hard

#bigbench_hard #hellaswag #mmlu #helm #llm_arena #promptbench

Habr @[email protected] · 2024-09-30 · 12:12 UTC

[Перевод] Как оценить качество LLM модели

Представьте модели LLM размером до более чем 100 миллиардов параметров, каждая из которых мощнее предыдущей. Среди них есть гиганты: Mistral (7 миллиардов), Mixtral (8x7 миллиардов), Llama (70 миллиардов) и колоссальная Falcon (180 миллиардов). Однако существуют и модели наподобие Phi1, Phi1.5 и Falcon 1B, стремящиеся к сравнимому уровню мощности, имея всего от 1 до 4 миллиардов параметров. У каждой модели, и большой, и маленькой, есть одна цель: стать мастером в искусстве языка, превосходно справляться с такими задачами, как резюмирование текстов, ответы на вопросы и распознавание именованных сущностей. Но во всех этих задачах у всех больших языковых моделей (Large Language Model, LLM) проявляются сильные изъяны: Некоторые промты заставляют LLM создавать мусорные результаты; они называются «промтами джейлбрейкинга». LLM не всегда правильно излагают факты; это явление называется «галлюцинациями». LLM могут вести себя неожиданно, из-за чего потребителям бывает небезопасно ими пользоваться. Очевидно, что простого обучения LLM недостаточно. Поэтому возникает вопрос: как нам обеспечить уверенность в том, что LLM А (с n параметров) лучше LLM Б (с m параметров)? Или сделать вывод, что LLM А надёжнее, чем LLM Б, на основании исчисляемых, обоснованных наблюдений? Необходим стандарт для бенчмаркинга LLM, гарантирующий их этическую надёжность и фактическую точность. Хотя было проведено множество исследований бенчмаркинга (например, MMLU, HellaSwag, BBH и так далее ), одних лишь исследований недостаточно для надёжного специализированного бенчмаркинга продакшен-систем.

https://habr.com/ru/articles/846748/

#Машинное_обучение #LLM #DeepEval #RAG #LMSys #LLMArena #PromptBench #llm_arena #HELM #MMLU #HellaSwag #BIGBench_Hard

#машинное_обучение #llm #deepeval #rag #lmsys #llmarena

Habr @[email protected] · 2024-09-23 · 08:12 UTC

[Перевод] Самые популярные LLM бенчмарки

Зачем использовать бенчмарки для оценки LLM? Бенчмарки LLM помогают оценивать точность больших языковых моделей, обеспечивая стандартизированную процедуру измерения метрик выполнения различных задач. Бенчмарки содержат все структуры и данные , необходимые для оценки LLM, в том числе: «Эталонные» датасеты (релевантные задачи/вопросы/промты с ожидаемыми ответами) Способы передачи входных промтов в LLM Способы интерпретации/сбора ответов Вычисляемые метрики и оценки (а также способы их вычисления) Всё вместе это позволяет согласованным образом сравнивать точность разных моделей. Но какой же бенчмарк LLM стоит использовать? В основном это зависит от сценария использования, то есть от того, для чего вы намереваетесь применять LLM. Давайте разбираться!

https://habr.com/ru/articles/844974/

#Бенчмарки #LLM #MathEval #GSM8K #MTBench #MMLU

#mmlu #mtbench #gsm8k #matheval #llm #бенчмарки

michabbb @[email protected] · 2024-09-19 · 16:47 UTC

🚀 #Qwen2.5: New #AI model family released by Qwen Team

#LLM variants: 0.5B to 72B parameters, support 29+ languages including English, Chinese, French, Spanish
Specialized models: #Qwen2.5Coder for coding, #Qwen2.5Math for mathematics
128K token context length, can generate up to 8K tokens
#OpenSource under Apache 2.0 license (except 3B and 72B variants)

💡 Key improvements:

Enhanced knowledge (85+ on #MMLU)
Better coding skills (85+ on #HumanEval)
Improved math capabilities (80+ on #MATH)
Stronger instruction following and long text generation
Better handling of structured data and outputs (e.g., #JSON)

🔬 Performance highlights:

#Qwen2572B competitive with leading models like #Llama3 and #MistralAI
Smaller models (e.g., 3B) show impressive efficiency
#QwenPlus API model competes with #GPT4 and #Claude on some benchmarks

🛠️ Available via #HuggingFace, #vLLM, and other deployment options
📊 Comprehensive benchmarks and comparisons provided in the blog post

https://qwenlm.github.io/blog/qwen2.5/

#qwen2 #ai #llm #opensource #mmlu #humaneval

Upstage AI @[email protected] · 2024-09-11 · 02:51 UTC

Get started here:
- @huggingface https://huggingface.co/upstage/solar-pro-preview-instruct

- Upstage Console: https://console.upstage.al/api-keys

- AWS marketplace: https://aws.amazon.com/marketplace/seller-profile?id=seller-56j52of2hnuzo

Visit our blog to learn more: https://www.upstage.ai/products/solar-pro-preview

#AI #machinelearning #GPU #MMLU #IFEVal #opensource

#ai #machinelearning #gpu #mmlu #ifeval #opensource

PKs Powerfromspace1 @[email protected] · 2024-01-02 · 01:26 UTC

@bindureddy #AI #LLM Roadmap For 2024

Well, technically, this is a wish list, but there is a good chance that a lot, if not all, of this will happen.

Q1
- gemini ultra finally launched. While it may not be as good as GPT-4 in some respects, it will blow GPT-4 out of the water when CoT prompting techniques are applied
- a lot of pressure on OpenAI to release 4.5, but it may happen only in Q2
- several open-source fine-tunes that improve reasoning and #MMLU.
…

#mmlu #llm #ai

InfoQ @[email protected] · 2023-12-14 · 12:36 UTC

Meet #Gemini - the first model to outperform human experts on #MMLU (Massive Multitask Language Understanding), one of the most popular methods to test the performance of language models: https://bit.ly/3ReWtNO

Explore more on #InfoQ!

#AI #Google #DeepLearning #ML

#gemini #mmlu #infoq #ai #google #deeplearning

Habr @[email protected] · 2023-12-13 · 10:12 UTC

GigaChat Pro. Технические детали, сдача ЕГЭ и сравнение с конкурентами

С момента запуска GigaChat прошло около полугода, и за это время у нас появилось более полутора миллионов пользователей. Они активно используют нейросетевые технологии как в работе, так и для развлечения. От пользователей поступают разнообразные запросы: от просьбы сделать краткую выжимку из текста письма до срочного написания поэмы на день рождения коллеги-тестировщика. Мы всегда учитываем обратную связь, которая помогает нам развиваться и внедрять новые идеи. За последнее время нами были выпущены новые модели и добавлены новые функциональные возможности в сервис. А теперь мы представляем новую нейросетевую модель, у которой более 29 миллиардов параметров. Она успешно прошла тест на ЕГЭ и показала отличные результаты в сравнении с другими системами. Если вы только начинаете интересоваться новыми технологиями в области искусственного интеллекта, то имейте в виду, именно они в ближайшие годы будут формировать наше с вами будущее и давать преимущество тем, кто ими владеет. Давайте познакомимся с ними поближе.

https://habr.com/ru/companies/sberdevices/articles/780334/

#GigaChat #ChatGPT #sber #MMLU #егэ #ai #pretrain #предобучение

#предобучение #pretrain #ai #егэ #mmlu #sber

Habr @[email protected] · 2023-12-13 · 10:12 UTC

GigaChat Pro. Технические детали, сдача ЕГЭ и сравнение с конкурентами

С момента запуска GigaChat прошло около полугода, и за это время у нас появилось более полутора миллионов пользователей. Они активно используют нейросетевые технологии как в работе, так и для развлечения. От пользователей поступают разнообразные запросы: от просьбы сделать краткую выжимку из текста письма до срочного написания поэмы на день рождения коллеги-тестировщика. Мы всегда учитываем обратную связь, которая помогает нам развиваться и внедрять новые идеи. За последнее время нами были выпущены новые модели и добавлены новые функциональные возможности в сервис. А теперь мы представляем новую нейросетевую модель, у которой более 29 миллиардов параметров. Она успешно прошла тест на ЕГЭ и показала отличные результаты в сравнении с другими системами. Если вы только начинаете интересоваться новыми технологиями в области искусственного интеллекта, то имейте в виду, именно они в ближайшие годы будут формировать наше с вами будущее и давать преимущество тем, кто ими владеет. Давайте познакомимся с ними поближе.

https://habr.com/ru/companies/sberdevices/articles/780334/

#GigaChat #ChatGPT #sber #MMLU #егэ #ai #pretrain #предобучение