home.social

#nvfp4 — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #nvfp4, aggregated by home.social.

  1. RT @Tono_Ken3: RTX PRO 2000 Blackwell ($1.000/Stk.) × 4 Stück für Qwen3.6-27B NVFP4 mit 256K-Kontextfenster und 24 parallelen Instanzen.

    mehr auf Arint.info

    #Blackwell #GPU #LLM #NVFP4 #Qwen3 #Robotik #arint_info

    https://x.com/Tono_Ken3/status/2058345423669182673#m

  2. RT @Tono_Ken3: RTX PRO 2000 Blackwell ($1.000/Stk.) × 4 Stück für Qwen3.6-27B NVFP4 mit 256K-Kontextfenster und 24 parallelen Instanzen.

    mehr auf Arint.info

    #Blackwell #GPU #LLM #NVFP4 #Qwen3 #Robotik #arint_info

    https://x.com/Tono_Ken3/status/2058345423669182673#m

  3. RT @Tono_Ken3: RTX PRO 2000 Blackwell ($1.000/Stk.) × 4 Stück für Qwen3.6-27B NVFP4 mit 256K-Kontextfenster und 24 parallelen Instanzen.

    mehr auf Arint.info

    #Blackwell #GPU #LLM #NVFP4 #Qwen3 #Robotik #arint_info

    https://x.com/Tono_Ken3/status/2058345423669182673#m

  4. RT @Tono_Ken3: RTX PRO 2000 Blackwell ($1.000/Stk.) × 4 Stück für Qwen3.6-27B NVFP4 mit 256K-Kontextfenster und 24 parallelen Instanzen.

    mehr auf Arint.info

    #Blackwell #GPU #LLM #NVFP4 #Qwen3 #Robotik #arint_info

    https://x.com/Tono_Ken3/status/2058345423669182673#m

  5. RT @Tono_Ken3: RTX PRO 2000 Blackwell ($1.000/Stk.) × 4 Stück für Qwen3.6-27B NVFP4 mit 256K-Kontextfenster und 24 parallelen Instanzen.

    mehr auf Arint.info

    #Blackwell #GPU #LLM #NVFP4 #Qwen3 #Robotik #arint_info

    https://x.com/Tono_Ken3/status/2058345423669182673#m

  6. RT @mr_r0b0t: Hier ist ein sehr beliebtes Modell, das wirklich vom richtigen Einsatz Ihrer @NVIDIAAI Blackwell GPU/GB10 mit NVFP4 und dem @AlibabaQwen 3.6-27B nativen MTP profitiert. Dies wurde auf einer einzelnen GB10 ausgeführt. Vollständige Benchmark-Ergebnisse und Methoden finden Sie unten ⏬

    mehr auf Arint.info

    #Benchmarking #BlackwellGPU #GB10 #NVFP4 #NVIDIAAI #Qwen3 #arint_info

    https://x.com/mr_r0b0t/status/2056953515092619474#m

  7. DGX Spark на 256K контексте: тестирую конфигурации vLLM, реальные замеры и почему NVFP4 в mainline сломан

    NVIDIA продаёт спарку с лозунгом «один петафлоп на FP4». Я купил коробку, поставил vLLM, запустил инференс и получил 40 токенов в секунду на 35B MoE‑модели. После маркетинговых слайдов цифра выглядит грустно. Объяснение простое. NVFP4 в основной ветке vLLM и FlashInfer физически сломан на SM_121 — варианте Blackwell, который установлен в GB10. Ядра собраны под compute_120f , а нативные NVFP4-инструкции есть только в compute_120a и compute_121a . На SM_121 распаковка квантованных весов идёт через программные битовые манипуляции в шейдере, без участия тензорных ядер. Сообщество вытащило стек руками: нашло обходные пути, собрало рабочие конфигурации. Я прогнал на своём Spark шесть разных конфигураций vLLM — от стокового BF16 до форка с DFlash speculative decoding — и замерил каждую одинаковым тестом. В этой статье разбираю, что в итоге работает и что выбирать под разные задачи.

    habr.com/ru/articles/1033342/

    #vllm #dgx_spark #gb10 #blackwell #nvfp4 #llm #инференс #локальный_ии

  8. DGX Spark на 256K контексте: тестирую конфигурации vLLM, реальные замеры и почему NVFP4 в mainline сломан

    NVIDIA продаёт спарку с лозунгом «один петафлоп на FP4». Я купил коробку, поставил vLLM, запустил инференс и получил 40 токенов в секунду на 35B MoE‑модели. После маркетинговых слайдов цифра выглядит грустно. Объяснение простое. NVFP4 в основной ветке vLLM и FlashInfer физически сломан на SM_121 — варианте Blackwell, который установлен в GB10. Ядра собраны под compute_120f , а нативные NVFP4-инструкции есть только в compute_120a и compute_121a . На SM_121 распаковка квантованных весов идёт через программные битовые манипуляции в шейдере, без участия тензорных ядер. Сообщество вытащило стек руками: нашло обходные пути, собрало рабочие конфигурации. Я прогнал на своём Spark шесть разных конфигураций vLLM — от стокового BF16 до форка с DFlash speculative decoding — и замерил каждую одинаковым тестом. В этой статье разбираю, что в итоге работает и что выбирать под разные задачи.

    habr.com/ru/articles/1033342/

    #vllm #dgx_spark #gb10 #blackwell #nvfp4 #llm #инференс #локальный_ии

  9. DGX Spark на 256K контексте: тестирую конфигурации vLLM, реальные замеры и почему NVFP4 в mainline сломан

    NVIDIA продаёт спарку с лозунгом «один петафлоп на FP4». Я купил коробку, поставил vLLM, запустил инференс и получил 40 токенов в секунду на 35B MoE‑модели. После маркетинговых слайдов цифра выглядит грустно. Объяснение простое. NVFP4 в основной ветке vLLM и FlashInfer физически сломан на SM_121 — варианте Blackwell, который установлен в GB10. Ядра собраны под compute_120f , а нативные NVFP4-инструкции есть только в compute_120a и compute_121a . На SM_121 распаковка квантованных весов идёт через программные битовые манипуляции в шейдере, без участия тензорных ядер. Сообщество вытащило стек руками: нашло обходные пути, собрало рабочие конфигурации. Я прогнал на своём Spark шесть разных конфигураций vLLM — от стокового BF16 до форка с DFlash speculative decoding — и замерил каждую одинаковым тестом. В этой статье разбираю, что в итоге работает и что выбирать под разные задачи.

    habr.com/ru/articles/1033342/

    #vllm #dgx_spark #gb10 #blackwell #nvfp4 #llm #инференс #локальный_ии

  10. DGX Spark на 256K контексте: тестирую конфигурации vLLM, реальные замеры и почему NVFP4 в mainline сломан

    NVIDIA продаёт спарку с лозунгом «один петафлоп на FP4». Я купил коробку, поставил vLLM, запустил инференс и получил 40 токенов в секунду на 35B MoE‑модели. После маркетинговых слайдов цифра выглядит грустно. Объяснение простое. NVFP4 в основной ветке vLLM и FlashInfer физически сломан на SM_121 — варианте Blackwell, который установлен в GB10. Ядра собраны под compute_120f , а нативные NVFP4-инструкции есть только в compute_120a и compute_121a . На SM_121 распаковка квантованных весов идёт через программные битовые манипуляции в шейдере, без участия тензорных ядер. Сообщество вытащило стек руками: нашло обходные пути, собрало рабочие конфигурации. Я прогнал на своём Spark шесть разных конфигураций vLLM — от стокового BF16 до форка с DFlash speculative decoding — и замерил каждую одинаковым тестом. В этой статье разбираю, что в итоге работает и что выбирать под разные задачи.

    habr.com/ru/articles/1033342/

    #vllm #dgx_spark #gb10 #blackwell #nvfp4 #llm #инференс #локальный_ии

  11. NVIDIA’s Nemotron 3 Super Tops The Open-Source AI Model Chart, Beating DeepSeek & GPT-OSS NVIDIA's Open-Source "Nemotron 3 Super" AI model has topped the EnterpriseOps-Gym leaderb...

    #Featured #News #Sticky #EnterpriseOps-Gym #Kimi-K2.5 #Mamba-Transformer #MoE #Neomotron #3 #Super #NVFP4

    Origin | Interest | Match
  12. 🚀 NVIDIA’s new NVFP4 training recipe slashes AI model training time and cost, powering Blackwell Ultra GPUs to set new MLPerf Training records on large language models like Llama 3.1. Discover how GPU acceleration is reshaping open‑source AI development. #NVFP4 #BlackwellUltra #MLPerf #Llama3_1

    🔗 aidailypost.com/news/nvidias-n

  13. 🚀 NVIDIA’s new NVFP4 training recipe slashes AI model training time and cost, powering Blackwell Ultra GPUs to set new MLPerf Training records on large language models like Llama 3.1. Discover how GPU acceleration is reshaping open‑source AI development. #NVFP4 #BlackwellUltra #MLPerf #Llama3_1

    🔗 aidailypost.com/news/nvidias-n

  14. 🚀 NVIDIA’s new NVFP4 training recipe slashes AI model training time and cost, powering Blackwell Ultra GPUs to set new MLPerf Training records on large language models like Llama 3.1. Discover how GPU acceleration is reshaping open‑source AI development. #NVFP4 #BlackwellUltra #MLPerf #Llama3_1

    🔗 aidailypost.com/news/nvidias-n

  15. Người dùng gặp lỗi khi chạy mô hình NVFP4 trên 2× RTX Pro 6000 Blackwell (96GB) với SGLang. Cần cưỡng bức quantization `modelopt_fp4` để khởi động thành công. Cảm báo DeepGemm & FP8-KV có thể ảnh hưởng độ chính xác. Cả 2 GPU hoạt động 100% ngay cả khi rỗi. VRAM sử dụng ~87–88GB. #GPU #AI #Blackwell #NVFP4 #SGLang #VấnNạnAI

    reddit.com/r/LocalLLaMA/commen

  16. Bài viết bạn cần mô tả thông tin về-search reciprack pretraining NVFP4/MXFP4 trên GPU Blackwell. Có từ ectopic hơn một người hỏi về công thức hoàn chỉnh, trong khi tài liệu chính thức và blog hiện tại thiếu chi tiết. Tags: #AI #NVIDIA #MXFP4 #NVFP4 #BlackwellGPU #Pretraining #MachineLearning #Tech

    reddit.com/r/LocalLLaMA/commen