#mmlu — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #mmlu, aggregated by home.social.
-
Tencent Releases its Hunyuan T1 AI Reasoning Model, Beating DeepSeek R1, GPT-4.5, o1 Across Multiple Benchmarks
#AI #GenAI #TencentAI #HunyuanT1 #AIReasoning #EnterpriseAI #LLMbenchmarks #ChinaAI #MMLU #MathAI #AIModels #AIInference
-
Tencent Releases its Hunyuan T1 AI Reasoning Model, Beating DeepSeek R1, GPT-4.5, o1 Across Multiple Benchmarks
#AI #GenAI #TencentAI #HunyuanT1 #AIReasoning #EnterpriseAI #LLMbenchmarks #ChinaAI #MMLU #MathAI #AIModels #AIInference
-
Tencent Releases its Hunyuan T1 AI Reasoning Model, Beating DeepSeek R1, GPT-4.5, o1 Across Multiple Benchmarks
#AI #GenAI #TencentAI #HunyuanT1 #AIReasoning #EnterpriseAI #LLMbenchmarks #ChinaAI #MMLU #MathAI #AIModels #AIInference
-
Tencent Releases its Hunyuan T1 AI Reasoning Model, Beating DeepSeek R1, GPT-4.5, o1 Across Multiple Benchmarks
#AI #GenAI #TencentAI #HunyuanT1 #AIReasoning #EnterpriseAI #LLMbenchmarks #ChinaAI #MMLU #MathAI #AIModels #AIInference
-
Tencent Releases its Hunyuan T1 AI Reasoning Model, Beating DeepSeek R1, GPT-4.5, o1 Across Multiple Benchmarks
#AI #GenAI #TencentAI #HunyuanT1 #AIReasoning #EnterpriseAI #LLMbenchmarks #ChinaAI #MMLU #MathAI #AIModels #AIInference
-
[Перевод] Как оценить LLM модель
В одном из прошлых блогов я представил концепцию тестирования крупных языковых моделей (LLM). Однако тестирование крупных языковых моделей (LLM) - достаточно сложная тема, которая требует дальнейшего изучения. Существует несколько соображений относительно тестирования моделей машинного обучения и, в частности, LLM, которые необходимо учитывать при разработке и развертывании вашего приложения. В этом блоге я предложу общую структуру, которая будет служить минимальной рекомендацией для тестирования приложений, использующих LLM, включая разговорные агенты, расширенную генерацию поиска и агентов и т. д.
https://habr.com/ru/articles/853542/
#LLM #оценка_систем_LLM #оценки_на_основе_правил #оценки_на_основе_моделей #mmlu #HellaSwag #GLUE #TruthfulQA
-
[Перевод] Как оценить качество LLM модели
Представьте модели LLM размером до более чем 100 миллиардов параметров, каждая из которых мощнее предыдущей. Среди них есть гиганты: Mistral (7 миллиардов), Mixtral (8x7 миллиардов), Llama (70 миллиардов) и колоссальная Falcon (180 миллиардов). Однако существуют и модели наподобие Phi1, Phi1.5 и Falcon 1B, стремящиеся к сравнимому уровню мощности, имея всего от 1 до 4 миллиардов параметров. У каждой модели, и большой, и маленькой, есть одна цель: стать мастером в искусстве языка, превосходно справляться с такими задачами, как резюмирование текстов, ответы на вопросы и распознавание именованных сущностей. Но во всех этих задачах у всех больших языковых моделей (Large Language Model, LLM) проявляются сильные изъяны: Некоторые промты заставляют LLM создавать мусорные результаты; они называются «промтами джейлбрейкинга». LLM не всегда правильно излагают факты; это явление называется «галлюцинациями». LLM могут вести себя неожиданно, из-за чего потребителям бывает небезопасно ими пользоваться. Очевидно, что простого обучения LLM недостаточно. Поэтому возникает вопрос: как нам обеспечить уверенность в том, что LLM А (с n параметров) лучше LLM Б (с m параметров)? Или сделать вывод, что LLM А надёжнее, чем LLM Б, на основании исчисляемых, обоснованных наблюдений? Необходим стандарт для бенчмаркинга LLM, гарантирующий их этическую надёжность и фактическую точность. Хотя было проведено множество исследований бенчмаркинга (например, MMLU, HellaSwag, BBH и так далее ), одних лишь исследований недостаточно для надёжного специализированного бенчмаркинга продакшен-систем.
https://habr.com/ru/articles/846748/
#Машинное_обучение #LLM #DeepEval #RAG #LMSys #LLMArena #PromptBench #llm_arena #HELM #MMLU #HellaSwag #BIGBench_Hard
-
[Перевод] Как оценить качество LLM модели
Представьте модели LLM размером до более чем 100 миллиардов параметров, каждая из которых мощнее предыдущей. Среди них есть гиганты: Mistral (7 миллиардов), Mixtral (8x7 миллиардов), Llama (70 миллиардов) и колоссальная Falcon (180 миллиардов). Однако существуют и модели наподобие Phi1, Phi1.5 и Falcon 1B, стремящиеся к сравнимому уровню мощности, имея всего от 1 до 4 миллиардов параметров. У каждой модели, и большой, и маленькой, есть одна цель: стать мастером в искусстве языка, превосходно справляться с такими задачами, как резюмирование текстов, ответы на вопросы и распознавание именованных сущностей. Но во всех этих задачах у всех больших языковых моделей (Large Language Model, LLM) проявляются сильные изъяны: Некоторые промты заставляют LLM создавать мусорные результаты; они называются «промтами джейлбрейкинга». LLM не всегда правильно излагают факты; это явление называется «галлюцинациями». LLM могут вести себя неожиданно, из-за чего потребителям бывает небезопасно ими пользоваться. Очевидно, что простого обучения LLM недостаточно. Поэтому возникает вопрос: как нам обеспечить уверенность в том, что LLM А (с n параметров) лучше LLM Б (с m параметров)? Или сделать вывод, что LLM А надёжнее, чем LLM Б, на основании исчисляемых, обоснованных наблюдений? Необходим стандарт для бенчмаркинга LLM, гарантирующий их этическую надёжность и фактическую точность. Хотя было проведено множество исследований бенчмаркинга (например, MMLU, HellaSwag, BBH и так далее ), одних лишь исследований недостаточно для надёжного специализированного бенчмаркинга продакшен-систем.
https://habr.com/ru/articles/846748/
#Машинное_обучение #LLM #DeepEval #RAG #LMSys #LLMArena #PromptBench #llm_arena #HELM #MMLU #HellaSwag #BIGBench_Hard
-
[Перевод] Как оценить качество LLM модели
Представьте модели LLM размером до более чем 100 миллиардов параметров, каждая из которых мощнее предыдущей. Среди них есть гиганты: Mistral (7 миллиардов), Mixtral (8x7 миллиардов), Llama (70 миллиардов) и колоссальная Falcon (180 миллиардов). Однако существуют и модели наподобие Phi1, Phi1.5 и Falcon 1B, стремящиеся к сравнимому уровню мощности, имея всего от 1 до 4 миллиардов параметров. У каждой модели, и большой, и маленькой, есть одна цель: стать мастером в искусстве языка, превосходно справляться с такими задачами, как резюмирование текстов, ответы на вопросы и распознавание именованных сущностей. Но во всех этих задачах у всех больших языковых моделей (Large Language Model, LLM) проявляются сильные изъяны: Некоторые промты заставляют LLM создавать мусорные результаты; они называются «промтами джейлбрейкинга». LLM не всегда правильно излагают факты; это явление называется «галлюцинациями». LLM могут вести себя неожиданно, из-за чего потребителям бывает небезопасно ими пользоваться. Очевидно, что простого обучения LLM недостаточно. Поэтому возникает вопрос: как нам обеспечить уверенность в том, что LLM А (с n параметров) лучше LLM Б (с m параметров)? Или сделать вывод, что LLM А надёжнее, чем LLM Б, на основании исчисляемых, обоснованных наблюдений? Необходим стандарт для бенчмаркинга LLM, гарантирующий их этическую надёжность и фактическую точность. Хотя было проведено множество исследований бенчмаркинга (например, MMLU, HellaSwag, BBH и так далее ), одних лишь исследований недостаточно для надёжного специализированного бенчмаркинга продакшен-систем.
https://habr.com/ru/articles/846748/
#Машинное_обучение #LLM #DeepEval #RAG #LMSys #LLMArena #PromptBench #llm_arena #HELM #MMLU #HellaSwag #BIGBench_Hard
-
[Перевод] Самые популярные LLM бенчмарки
Зачем использовать бенчмарки для оценки LLM? Бенчмарки LLM помогают оценивать точность больших языковых моделей, обеспечивая стандартизированную процедуру измерения метрик выполнения различных задач. Бенчмарки содержат все структуры и данные , необходимые для оценки LLM, в том числе: «Эталонные» датасеты (релевантные задачи/вопросы/промты с ожидаемыми ответами) Способы передачи входных промтов в LLM Способы интерпретации/сбора ответов Вычисляемые метрики и оценки (а также способы их вычисления) Всё вместе это позволяет согласованным образом сравнивать точность разных моделей. Но какой же бенчмарк LLM стоит использовать? В основном это зависит от сценария использования, то есть от того, для чего вы намереваетесь применять LLM. Давайте разбираться!
-
🚀 #Qwen2.5: New #AI model family released by Qwen Team
#LLM variants: 0.5B to 72B parameters, support 29+ languages including English, Chinese, French, Spanish
Specialized models: #Qwen2.5Coder for coding, #Qwen2.5Math for mathematics
128K token context length, can generate up to 8K tokens
#OpenSource under Apache 2.0 license (except 3B and 72B variants)💡 Key improvements:
Enhanced knowledge (85+ on #MMLU)
Better coding skills (85+ on #HumanEval)
Improved math capabilities (80+ on #MATH)
Stronger instruction following and long text generation
Better handling of structured data and outputs (e.g., #JSON)🔬 Performance highlights:
#Qwen2572B competitive with leading models like #Llama3 and #MistralAI
Smaller models (e.g., 3B) show impressive efficiency
#QwenPlus API model competes with #GPT4 and #Claude on some benchmarks🛠️ Available via #HuggingFace, #vLLM, and other deployment options
📊 Comprehensive benchmarks and comparisons provided in the blog post -
Get started here:
- @huggingface https://huggingface.co/upstage/solar-pro-preview-instruct- Upstage Console: https://console.upstage.al/api-keys
- AWS marketplace: https://aws.amazon.com/marketplace/seller-profile?id=seller-56j52of2hnuzo
Visit our blog to learn more: https://www.upstage.ai/products/solar-pro-preview
-
@bindureddy #AI #LLM Roadmap For 2024
Well, technically, this is a wish list, but there is a good chance that a lot, if not all, of this will happen.
Q1
- gemini ultra finally launched. While it may not be as good as GPT-4 in some respects, it will blow GPT-4 out of the water when CoT prompting techniques are applied
- a lot of pressure on OpenAI to release 4.5, but it may happen only in Q2
- several open-source fine-tunes that improve reasoning and #MMLU.
… -
Meet #Gemini - the first model to outperform human experts on #MMLU (Massive Multitask Language Understanding), one of the most popular methods to test the performance of language models: https://bit.ly/3ReWtNO
Explore more on #InfoQ!
-
GigaChat Pro. Технические детали, сдача ЕГЭ и сравнение с конкурентами
С момента запуска GigaChat прошло около полугода, и за это время у нас появилось более полутора миллионов пользователей. Они активно используют нейросетевые технологии как в работе, так и для развлечения. От пользователей поступают разнообразные запросы: от просьбы сделать краткую выжимку из текста письма до срочного написания поэмы на день рождения коллеги-тестировщика. Мы всегда учитываем обратную связь, которая помогает нам развиваться и внедрять новые идеи. За последнее время нами были выпущены новые модели и добавлены новые функциональные возможности в сервис. А теперь мы представляем новую нейросетевую модель, у которой более 29 миллиардов параметров. Она успешно прошла тест на ЕГЭ и показала отличные результаты в сравнении с другими системами. Если вы только начинаете интересоваться новыми технологиями в области искусственного интеллекта, то имейте в виду, именно они в ближайшие годы будут формировать наше с вами будущее и давать преимущество тем, кто ими владеет. Давайте познакомимся с ними поближе.
https://habr.com/ru/companies/sberdevices/articles/780334/
#GigaChat #ChatGPT #sber #MMLU #егэ #ai #pretrain #предобучение
-
GigaChat Pro. Технические детали, сдача ЕГЭ и сравнение с конкурентами
С момента запуска GigaChat прошло около полугода, и за это время у нас появилось более полутора миллионов пользователей. Они активно используют нейросетевые технологии как в работе, так и для развлечения. От пользователей поступают разнообразные запросы: от просьбы сделать краткую выжимку из текста письма до срочного написания поэмы на день рождения коллеги-тестировщика. Мы всегда учитываем обратную связь, которая помогает нам развиваться и внедрять новые идеи. За последнее время нами были выпущены новые модели и добавлены новые функциональные возможности в сервис. А теперь мы представляем новую нейросетевую модель, у которой более 29 миллиардов параметров. Она успешно прошла тест на ЕГЭ и показала отличные результаты в сравнении с другими системами. Если вы только начинаете интересоваться новыми технологиями в области искусственного интеллекта, то имейте в виду, именно они в ближайшие годы будут формировать наше с вами будущее и давать преимущество тем, кто ими владеет. Давайте познакомимся с ними поближе.
https://habr.com/ru/companies/sberdevices/articles/780334/
#GigaChat #ChatGPT #sber #MMLU #егэ #ai #pretrain #предобучение
-
This is really quite impressive.
Hands-on with #Gemini: Interacting with #Multimodal #AI
https://www.youtube.com/watch?v=UIZAiXYceBI
#ArtificialIntelligence #MultimodalAI #InteractiveAI #Multimedia #MMLU
-
#GPT4 is Smarter than You Think: Introducing #SmartGPT
-
#GPT4 is Smarter than You Think: Introducing #SmartGPT
-
#GPT4 is Smarter than You Think: Introducing #SmartGPT
-
#GPT4 is Smarter than You Think: Introducing #SmartGPT
-
#GPT4 is Smarter than You Think: Introducing #SmartGPT