#nvfp4 — Public Fediverse posts on home.social

Arint - SEO+KI @[email protected] · 2026-05-25 · 10:01 UTC

RT @Tono_Ken3: RTX PRO 2000 Blackwell ($1.000/Stk.) × 4 Stück für Qwen3.6-27B NVFP4 mit 256K-Kontextfenster und 24 parallelen Instanzen.

mehr auf Arint.info

#Blackwell #GPU #LLM #NVFP4 #Qwen3 #Robotik #arint_info

https://x.com/Tono_Ken3/status/2058345423669182673#m

#blackwell #gpu #llm #nvfp4 #qwen3 #robotik

Arint - SEO+KI @[email protected] · 2026-05-25 · 10:01 UTC

RT @Tono_Ken3: RTX PRO 2000 Blackwell ($1.000/Stk.) × 4 Stück für Qwen3.6-27B NVFP4 mit 256K-Kontextfenster und 24 parallelen Instanzen.

mehr auf Arint.info

#Blackwell #GPU #LLM #NVFP4 #Qwen3 #Robotik #arint_info

https://x.com/Tono_Ken3/status/2058345423669182673#m

#blackwell #gpu #llm #nvfp4 #qwen3 #robotik

Arint - SEO+KI @[email protected] · 2026-05-25 · 10:01 UTC

RT @Tono_Ken3: RTX PRO 2000 Blackwell ($1.000/Stk.) × 4 Stück für Qwen3.6-27B NVFP4 mit 256K-Kontextfenster und 24 parallelen Instanzen.

mehr auf Arint.info

#Blackwell #GPU #LLM #NVFP4 #Qwen3 #Robotik #arint_info

https://x.com/Tono_Ken3/status/2058345423669182673#m

#blackwell #gpu #llm #nvfp4 #qwen3 #robotik

Arint - SEO+KI @[email protected] · 2026-05-25 · 10:01 UTC

RT @Tono_Ken3: RTX PRO 2000 Blackwell ($1.000/Stk.) × 4 Stück für Qwen3.6-27B NVFP4 mit 256K-Kontextfenster und 24 parallelen Instanzen.

mehr auf Arint.info

#Blackwell #GPU #LLM #NVFP4 #Qwen3 #Robotik #arint_info

https://x.com/Tono_Ken3/status/2058345423669182673#m

#arint_info #robotik #qwen3 #nvfp4 #llm #gpu

Arint - SEO+KI @[email protected] · 2026-05-25 · 10:01 UTC

RT @Tono_Ken3: RTX PRO 2000 Blackwell ($1.000/Stk.) × 4 Stück für Qwen3.6-27B NVFP4 mit 256K-Kontextfenster und 24 parallelen Instanzen.

mehr auf Arint.info

#Blackwell #GPU #LLM #NVFP4 #Qwen3 #Robotik #arint_info

https://x.com/Tono_Ken3/status/2058345423669182673#m

#blackwell #gpu #llm #nvfp4 #qwen3 #robotik

Arint - SEO+KI @[email protected] · 2026-05-20 · 10:04 UTC

RT @mr_r0b0t: Hier ist ein sehr beliebtes Modell, das wirklich vom richtigen Einsatz Ihrer @NVIDIAAI Blackwell GPU/GB10 mit NVFP4 und dem @AlibabaQwen 3.6-27B nativen MTP profitiert. Dies wurde auf einer einzelnen GB10 ausgeführt. Vollständige Benchmark-Ergebnisse und Methoden finden Sie unten ⏬

mehr auf Arint.info

#Benchmarking #BlackwellGPU #GB10 #NVFP4 #NVIDIAAI #Qwen3 #arint_info

https://x.com/mr_r0b0t/status/2056953515092619474#m

#benchmarking #blackwellgpu #gb10 #nvfp4 #nvidiaai #qwen3

Habr @[email protected] · 2026-05-09 · 15:02 UTC

DGX Spark на 256K контексте: тестирую конфигурации vLLM, реальные замеры и почему NVFP4 в mainline сломан

NVIDIA продаёт спарку с лозунгом «один петафлоп на FP4». Я купил коробку, поставил vLLM, запустил инференс и получил 40 токенов в секунду на 35B MoE‑модели. После маркетинговых слайдов цифра выглядит грустно. Объяснение простое. NVFP4 в основной ветке vLLM и FlashInfer физически сломан на SM_121 — варианте Blackwell, который установлен в GB10. Ядра собраны под compute_120f , а нативные NVFP4-инструкции есть только в compute_120a и compute_121a . На SM_121 распаковка квантованных весов идёт через программные битовые манипуляции в шейдере, без участия тензорных ядер. Сообщество вытащило стек руками: нашло обходные пути, собрало рабочие конфигурации. Я прогнал на своём Spark шесть разных конфигураций vLLM — от стокового BF16 до форка с DFlash speculative decoding — и замерил каждую одинаковым тестом. В этой статье разбираю, что в итоге работает и что выбирать под разные задачи.

https://habr.com/ru/articles/1033342/

#vllm #dgx_spark #gb10 #blackwell #nvfp4 #llm #инференс #локальный_ии

#локальный_ии #инференс #llm #nvfp4 #blackwell #gb10

Habr @[email protected] · 2026-05-09 · 15:02 UTC

DGX Spark на 256K контексте: тестирую конфигурации vLLM, реальные замеры и почему NVFP4 в mainline сломан

NVIDIA продаёт спарку с лозунгом «один петафлоп на FP4». Я купил коробку, поставил vLLM, запустил инференс и получил 40 токенов в секунду на 35B MoE‑модели. После маркетинговых слайдов цифра выглядит грустно. Объяснение простое. NVFP4 в основной ветке vLLM и FlashInfer физически сломан на SM_121 — варианте Blackwell, который установлен в GB10. Ядра собраны под compute_120f , а нативные NVFP4-инструкции есть только в compute_120a и compute_121a . На SM_121 распаковка квантованных весов идёт через программные битовые манипуляции в шейдере, без участия тензорных ядер. Сообщество вытащило стек руками: нашло обходные пути, собрало рабочие конфигурации. Я прогнал на своём Spark шесть разных конфигураций vLLM — от стокового BF16 до форка с DFlash speculative decoding — и замерил каждую одинаковым тестом. В этой статье разбираю, что в итоге работает и что выбирать под разные задачи.

https://habr.com/ru/articles/1033342/

#vllm #dgx_spark #gb10 #blackwell #nvfp4 #llm #инференс #локальный_ии

#локальный_ии #инференс #llm #nvfp4 #blackwell #gb10

Habr @[email protected] · 2026-05-09 · 15:02 UTC

DGX Spark на 256K контексте: тестирую конфигурации vLLM, реальные замеры и почему NVFP4 в mainline сломан

NVIDIA продаёт спарку с лозунгом «один петафлоп на FP4». Я купил коробку, поставил vLLM, запустил инференс и получил 40 токенов в секунду на 35B MoE‑модели. После маркетинговых слайдов цифра выглядит грустно. Объяснение простое. NVFP4 в основной ветке vLLM и FlashInfer физически сломан на SM_121 — варианте Blackwell, который установлен в GB10. Ядра собраны под compute_120f , а нативные NVFP4-инструкции есть только в compute_120a и compute_121a . На SM_121 распаковка квантованных весов идёт через программные битовые манипуляции в шейдере, без участия тензорных ядер. Сообщество вытащило стек руками: нашло обходные пути, собрало рабочие конфигурации. Я прогнал на своём Spark шесть разных конфигураций vLLM — от стокового BF16 до форка с DFlash speculative decoding — и замерил каждую одинаковым тестом. В этой статье разбираю, что в итоге работает и что выбирать под разные задачи.

https://habr.com/ru/articles/1033342/

#vllm #dgx_spark #gb10 #blackwell #nvfp4 #llm #инференс #локальный_ии

#локальный_ии #инференс #llm #nvfp4 #blackwell #gb10

Habr @[email protected] · 2026-05-09 · 15:02 UTC

DGX Spark на 256K контексте: тестирую конфигурации vLLM, реальные замеры и почему NVFP4 в mainline сломан

NVIDIA продаёт спарку с лозунгом «один петафлоп на FP4». Я купил коробку, поставил vLLM, запустил инференс и получил 40 токенов в секунду на 35B MoE‑модели. После маркетинговых слайдов цифра выглядит грустно. Объяснение простое. NVFP4 в основной ветке vLLM и FlashInfer физически сломан на SM_121 — варианте Blackwell, который установлен в GB10. Ядра собраны под compute_120f , а нативные NVFP4-инструкции есть только в compute_120a и compute_121a . На SM_121 распаковка квантованных весов идёт через программные битовые манипуляции в шейдере, без участия тензорных ядер. Сообщество вытащило стек руками: нашло обходные пути, собрало рабочие конфигурации. Я прогнал на своём Spark шесть разных конфигураций vLLM — от стокового BF16 до форка с DFlash speculative decoding — и замерил каждую одинаковым тестом. В этой статье разбираю, что в итоге работает и что выбирать под разные задачи.

https://habr.com/ru/articles/1033342/

#vllm #dgx_spark #gb10 #blackwell #nvfp4 #llm #инференс #локальный_ии

#vllm #dgx_spark #gb10 #blackwell #nvfp4 #llm

deepseek @[email protected] · 2026-05-04 · 20:30 UTC

NVIDIA’s Nemotron 3 Super Tops The Open-Source AI Model Chart, Beating DeepSeek & GPT-OSS NVIDIA's Open-Source "Nemotron 3 Super" AI model has topped the EnterpriseOps-Gym leaderb...

#Featured #News #Sticky #EnterpriseOps-Gym #Kimi-K2.5 #Mamba-Transformer #MoE #Neomotron #3 #Super #NVFP4

Origin | Interest | Match

#featured #news #sticky #enterpriseopsgym #kimik25 #mambatransformer

AI Daily Post @[email protected] · 2026-02-06 · 16:12 UTC

🚀 NVIDIA’s new NVFP4 training recipe slashes AI model training time and cost, powering Blackwell Ultra GPUs to set new MLPerf Training records on large language models like Llama 3.1. Discover how GPU acceleration is reshaping open‑source AI development. #NVFP4 #BlackwellUltra #MLPerf #Llama3_1

🔗 https://aidailypost.com/news/nvidias-nvfp4-training-recipe-boosts-ai-speed-cuts-costs

#nvfp4 #blackwellultra #mlperf #llama3_1

AI Daily Post @[email protected] · 2026-02-06 · 16:12 UTC

🚀 NVIDIA’s new NVFP4 training recipe slashes AI model training time and cost, powering Blackwell Ultra GPUs to set new MLPerf Training records on large language models like Llama 3.1. Discover how GPU acceleration is reshaping open‑source AI development. #NVFP4 #BlackwellUltra #MLPerf #Llama3_1

🔗 https://aidailypost.com/news/nvidias-nvfp4-training-recipe-boosts-ai-speed-cuts-costs

#llama3_1 #mlperf #blackwellultra #nvfp4

AI Daily Post @[email protected] · 2026-02-06 · 16:12 UTC

🚀 NVIDIA’s new NVFP4 training recipe slashes AI model training time and cost, powering Blackwell Ultra GPUs to set new MLPerf Training records on large language models like Llama 3.1. Discover how GPU acceleration is reshaping open‑source AI development. #NVFP4 #BlackwellUltra #MLPerf #Llama3_1

🔗 https://aidailypost.com/news/nvidias-nvfp4-training-recipe-boosts-ai-speed-cuts-costs

#nvfp4 #blackwellultra #mlperf #llama3_1

Reddit Tech VN Bot @[email protected] · 2025-12-24 · 23:22 UTC

Người dùng gặp lỗi khi chạy mô hình NVFP4 trên 2× RTX Pro 6000 Blackwell (96GB) với SGLang. Cần cưỡng bức quantization `modelopt_fp4` để khởi động thành công. Cảm báo DeepGemm & FP8-KV có thể ảnh hưởng độ chính xác. Cả 2 GPU hoạt động 100% ngay cả khi rỗi. VRAM sử dụng ~87–88GB. #GPU #AI #Blackwell #NVFP4 #SGLang #VấnNạnAI

https://www.reddit.com/r/LocalLLaMA/comments/1puzsm5/2_rtx_pro_6000_blackwell_96gb_sglang_nvfp4_loads/

#gpu #ai #blackwell #nvfp4 #sglang #vấnnạnai

Reddit Tech VN Bot @[email protected] · 2025-10-22 · 20:17 UTC

Bài viết bạn cần mô tả thông tin về-search reciprack pretraining NVFP4/MXFP4 trên GPU Blackwell. Có từ ectopic hơn một người hỏi về công thức hoàn chỉnh, trong khi tài liệu chính thức và blog hiện tại thiếu chi tiết. Tags: #AI #NVIDIA #MXFP4 #NVFP4 #BlackwellGPU #Pretraining #MachineLearning #Tech

https://www.reddit.com/r/LocalLLaMA/comments/1odhz2s/looking_for_a_working_nvfp4mxfp4_pretraining/

#ai #nvidia #mxfp4 #nvfp4 #blackwellgpu #pretraining