home.social

#mixture-of-experts — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #mixture-of-experts, aggregated by home.social.

fetched live
  1. Nemotron 3 Super pushes the frontier with 40 M supervised & alignment samples, leveraging a Mamba‑Transformer backbone and Mixture‑of‑Experts scaling. The model shows stronger agent reasoning, RL‑based fine‑tuning, and tighter AI alignment. Dive into the details to see how this LLM reshapes open‑source AI. #Nemotron3 #MixtureOfExperts #AIAlignment #SupervisedFineTuning

    🔗 aidailypost.com/news/nemotron-

  2. Alibaba just released the Qwen‑3.5‑Medium model as open‑source, delivering Sonnet 4.5‑level performance on a single GPU. It uses a Mixture‑of‑Experts architecture and a new “Thinking Mode” to boost AI inference efficiency while staying lightweight. Dive into the details and see how this could reshape open‑source LLM development. #Qwen3_5 #OpenSourceLLM #MixtureOfExperts #ModelEfficiency

    🔗 aidailypost.com/news/alibaba-o

  3. NVIDIA’s new co‑design with Sarvam AI slashes time‑to‑first‑token to under a second for LLM inference. By marrying Mixture‑of‑Experts models with GPU acceleration, they boost throughput while trimming latency. This hardware‑software synergy could reshape how we deploy large language models at scale. Read more to see the numbers and tech behind the breakthrough. #NVIDIA #SarvamAI #MixtureOfExperts #TTFT

    🔗 aidailypost.com/news/nvidia-co

  4. Alibaba's new Qwen 3.5 397B-A17 outperforms even larger rivals by using multi-token prediction and a sparse mixture-of-experts architecture. It cuts inference cost while keeping top-tier performance, hinting at a new era for multimodal AI. Curious how 397 billion parameters can be cheaper? Read the full story. #Qwen3_5 #AlibabaAI #MixtureOfExperts #MultiTokenPrediction

    🔗 aidailypost.com/news/alibabas-

  5. MiniMax's new M2.5 model slashes costs to 1/20 of Claude Opus while handling 30% of HQ tasks. Built on a Mixture‑of‑Experts sparse architecture, it delivers strong code‑generation and LLM performance—all open‑source. Discover how this AI agent could boost productivity in your projects. #MiniMaxM2_5 #MixtureOfExperts #OpenSourceAI #AIProductivity

    🔗 aidailypost.com/news/minimaxs-

  6. Nvidia unveils an AI server running mixture-of-experts models up to 1,000x faster with 72 high-speed GPUs. As AI shifts to real-time, large-scale deployment, competitors like AMD and Chinese AI firms challenge its lead. Nvidia aims to stay ahead in hardware, scalability, and operational efficiency.

    #Nvidia #AIHardware #MixtureOfExperts #GPUs #HighPerformanceComputing

    Read Full Article:- techi.com/nvidia-boost-moonsho

  7. DeepSeek-Math-V2: Open-Source AI Earns IMO Gold, Tops Putnam Exam Chinese startup DeepSeek has released DeepSeek-Math-V2, an open-source AI model that solved five of six 2024 IMO problems, earning ...

    #ChinaRevolutionUpdate #GenAIPro #AI #mathematical #reasoning #DeepSeek-Math-V2 #International #Mathematical #Olympiad #mixture-of-experts #system

    Origin | Interest | Match
  8. 🔥 Alibaba Qwen3-Next: 10x effizienter, 90% weeniger Trainingskosten!

    ▶️ Entdecke Hybrid-MoE nun
    ▶️ Aktiviere 262K Kontext!
    ▶️ Starte SGLang Turbo nun

    #ai #ki #artificialintelligence #qwen3next #alibaba #largelanguagemodels #mixtureofexperts #linearattention

    🔥 Jetzt KLICKEN & KOMMENTIEREN! 💭

    kinews24.de/qwen3-next-alibaba

  9. Chiński Z.ai rzuca rękawicę gigantom. Nowy model AI GLM-4.5 ma być otwarty, tani i rekordowo wydajny

    I lepszy od modelu DeepSeek. Startup Z.ai zaprezentował nowe rozwiązanie – GLM-4.5. Jest to model AI udostępniony w formule open source, który ma być jeszcze tańszy, wydajniejszy i „bystrzejszy” od swojego głośnego, chińskiego poprzednika.

    Nowy model, GLM-4.5, wyróżnia się tak zwaną „agentową” architekturą, co oznacza, że potrafi automatycznie dzielić złożone zadania na mniejsze etapy, by wykonać je precyzyjniej. Co więcej, jest o połowę mniejszy od DeepSeeka i do działania potrzebuje podobno zaledwie ośmiu specjalistycznych chipów Nvidia H20, stworzonych na potrzeby chińskiego rynku z uwzględnieniem amerykańskich restrykcji eksportowych.

    Nowy model GLM-4.5 to dziś najbardziej zaawansowana (publicznie znana) chińska konstrukcja oparta na architekturze MoE (Mixture of Experts), dostępna w dwóch wariantach: flagowym z 355 miliardami parametrów oraz lżejszej wersji Air ze 106 miliardami parametrów. Architektura „agentowa” pozwala mu na autonomiczne planowanie i wykonywanie złożonych, wieloetapowych zadań. Według testów producenta, model Z.ai osiągnął trzeci wynik na świecie w branżowych benchmarkach, plasując się jednocześnie na pierwszym miejscu wśród wszystkich modeli typu open-source. Co niezwykle istotne, jego wysoka wydajność została osiągnięta przy relatywnie niskich wymaganiach sprzętowych.

    Z.ai pozycjonuje swój produkt jako „prawdziwie otwartą alternatywę” dla zamkniętych, autorskich systemów, które dominują na rynku. Model jest dostępny na otwartej licencji, co daje firmom większą kontrolę i transparentność. Jednak to właśnie koszty stanowią jego największą przewagę. Według oficjalnego cennika, koszt przetwarzania miliona tokenów (fragmentów słów) to zaledwie 11 centów za dane wejściowe i 28 centów za dane wyjściowe. Dla porównania, w przypadku konkurencyjnego modelu DeepSeek R1 koszt tokenów wyjściowych to 2,19 dolara, co pokazuje ogromny (wręcz niewiarygodny) skok w optymalizacji kosztowej.

    Dynamiczny rozwój chińskich firm AI ma coraz większe znaczenie geopolityczne. Gdy na początku roku DeepSeek zaprezentował swoją wydajność, wywołało to chwilowe załamanie kursów akcji amerykańskich gigantów technologicznych. Sukcesy Z.ai, firmy założonej w 2019 roku, która zebrała już ponad 1,5 mld dolarów od inwestorów takich jak Alibaba i Tencent, również nie pozostały niezauważone. Firma została wymieniona przez OpenAI jako jeden z nielicznych na świecie konkurentów zdolnych do budowy rywalizujących modeli, a także trafiła do prestiżowego raportu Stanford University „AI Index Report 2025”. Jednocześnie ten szybki postęp wzbudził niepokój w Waszyngtonie – startup Z.ai został wpisany na listę podmiotów objętych amerykańskimi restrykcjami handlowymi.

    Trening modelu DeepSeek nie kosztował 6 mln dolarów, lecz 1,3 miliarda dolarów – raport SemiAnalysis

    #AI #chiny #DeepSeek #geopolityka #GLM45 #MixtureOfExperts #modelJęzykowy #modeleJęzykowe #news #openSource #sztucznaInteligencja #technologia #usa #ZAi #Zhipu

  10. #Qwen3Coder: Most Agentic Code Model Released 🤖

    🎯 480B-parameter #MixtureOfExperts #LLM with 35B active parameters achieving #SOTA performance in agentic #coding
    📏 Native 256K context support, extendable to 1M
    tokens with #YaRN for repo-scale operations

    qwenlm.github.io/blog/qwen3-co

    🧵👇#AI

  11. MiniMax-M1: Разбираем архитектуру, ломающую законы масштабирования (и наш VRAM)

    В мире LLM доминирует квадратичная сложность, ограничивающая контекст. Но MiniMax-M1 бросает вызов: миллион токенов, низкие затраты. Разбираем гибридную архитектуру с Lightning Attention, новый алгоритм CISPO и инженерные прорывы, делающие эту модель уникальной.

    habr.com/ru/articles/923588/

    #minimaxm1 #LLM_архитектура #Lightning_Attention #mixtureofexperts #масштабирование_LLM

  12. DeepSeek R1: All you need to know 🐳

    The article covers various aspects of the model, from its architecture to training methodologies and practical applications. The explanations are mostly clear and detailed, making complex concepts like Mixture of Experts () and reinforcement learning easy to understand.

    fireworks.ai/blog/deepseek-r1-

  13. Brief analysis of DeepSeek R1 and its implications for Generative AI:
    ➡️ DeepSeek R1 exhibits powerful reasoning behaviors, achieved through scalable Group Relative Policy Optimization (GRPO).
    ➡️Emergent self-reflection and Chain-of-Thought (CoT) patterns improve reasoning performance.
    ➡️Distillation of larger models into smaller, efficient ones demonstrates significant performance improvements.

    arxiv.org/abs/2502.02523v2?for