home.social

#quantization — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #quantization, aggregated by home.social.

  1. 🚀🌐 Oh great, now #Google wants us to #turbocharge our #browsers with "vector quantization" mumbo-jumbo that requires versions of Chrome, Firefox, and Safari that don't even exist yet. 🤖 Because who doesn't want to compress their vectors in 3 bits/dim while their browsers and brains crash simultaneously. 🙄
    github.com/teamchong/turboquan #Vector #Quantization #Browser #Update #TechNews #HackerNews #ngated

  2. Authors: Federico Marcuzzi (INSAIT - Institute for Computer Science, Artificial Intelligence and Technology), Xuefei Ning (Tsinghua University), Roy Schwartz (The Hebrew University of Jerusalem), and Iryna Gurevych (UKP Lab, Technische Universität Darmstadt and ATHENE Center).

    See you at #EACL2026 in Rabat 🕌!

    #UKPLab #NLProc #ResponsibleAI #Quantization #MLSafety #Fairness #TrustworthyAI #ModelCompression #LLMSafety #EthicalAI #NLP #AIResearch

  3. Authors: Federico Marcuzzi (INSAIT - Institute for Computer Science, Artificial Intelligence and Technology), Xuefei Ning (Tsinghua University), Roy Schwartz (The Hebrew University of Jerusalem), and Iryna Gurevych (UKP Lab, Technische Universität Darmstadt and ATHENE Center).

    See you at #EACL2026 in Rabat 🕌!

    #UKPLab #NLProc #ResponsibleAI #Quantization #MLSafety #Fairness #TrustworthyAI #ModelCompression #LLMSafety #EthicalAI #NLP #AIResearch

  4. Authors: Federico Marcuzzi (INSAIT - Institute for Computer Science, Artificial Intelligence and Technology), Xuefei Ning (Tsinghua University), Roy Schwartz (The Hebrew University of Jerusalem), and Iryna Gurevych (UKP Lab, Technische Universität Darmstadt and ATHENE Center).

    See you at #EACL2026 in Rabat 🕌!

    #UKPLab #NLProc #ResponsibleAI #Quantization #MLSafety #Fairness #TrustworthyAI #ModelCompression #LLMSafety #EthicalAI #NLP #AIResearch

  5. Authors: Federico Marcuzzi (INSAIT - Institute for Computer Science, Artificial Intelligence and Technology), Xuefei Ning (Tsinghua University), Roy Schwartz (The Hebrew University of Jerusalem), and Iryna Gurevych (UKP Lab, Technische Universität Darmstadt and ATHENE Center).

    See you at #EACL2026 in Rabat 🕌!

    #UKPLab #NLProc #ResponsibleAI #Quantization #MLSafety #Fairness #TrustworthyAI #ModelCompression #LLMSafety #EthicalAI #NLP #AIResearch

  6. Authors: Federico Marcuzzi (INSAIT - Institute for Computer Science, Artificial Intelligence and Technology), Xuefei Ning (Tsinghua University), Roy Schwartz (The Hebrew University of Jerusalem), and Iryna Gurevych (UKP Lab, Technische Universität Darmstadt and ATHENE Center).

    See you at #EACL2026 in Rabat 🕌!

    #UKPLab #NLProc #ResponsibleAI #Quantization #MLSafety #Fairness #TrustworthyAI #ModelCompression #LLMSafety #EthicalAI #NLP #AIResearch

  7. 🎉 Wow, an article longer than the collective thoughts of its intended audience! Sam Rose seems to think we're all aspiring data scientists with infinite free time and an endless love for #quantization. 😂 6,658 words later, we're left with an 80 billion-parameter headache and absolutely zero desire to quantize anything ever again. 🚀🔢
    ngrok.com/blog/quantization #HackerNews #DataScience #LongRead #Humor #HackerNews #ngated

  8. Compare GGUF, GPTQ, and AWQ quantization formats for LLMs on consumer GPUs. Learn how to balance model quality, speed, and memory usage with Q4_K_M, IQ4_XS, and Q3_K_S variants for optimal inference performance.

    #GGUF #quantization #LLM inference #GPU optimization #model deployment

    dasroot.net/posts/2026/02/gguf

  9. 🧠 Tại sao định dạng NVFP8/MXFP8 không được quan tâm trong llama.cpp hay VLLM dù có độ chính xác cao hơn FP8 và được tối ưu trên kiến trúc Blackwell? Câu hỏi mở cho cộng đồng AI!
    #AI #MachineLearning #Quantization #ĐịnhDạng #TríTuệNhânTạo #HọcMáy

    reddit.com/r/LocalLLaMA/commen

  10. Một người dùng Reddit đã so sánh 3 phương pháp lượng tử hóa 4-bit (Q4_K_M, Q4_K_XL và MXFP4) trên mô hình GLM-4.7-Flash và Nemotron-3-nano. MXFP4 cho perplexity thấp hơn (10.72 PPL) và tải nhanh hơn so với Q4_K_M (16.17 PPL). Nó cũng tiết kiệm 17% VRAM và tăng tốc xử lý lên 5% so với Q4_K_XL. Kết quả này cho thấy MXFP4 có thể là lựa chọn tối ưu cho mô hình lớn từ 30–32B tham số. #AI #Quantization #MôHìnhĐịnhLượng #TríTuệNhânTạo #HọcMáy

    reddit.com/r/LocalLLaMA/commen

  11. So sánh quantization MXFP4 vs Q4_K_M/XL trên mô hình GLM-4.7-Flash:

    📉 Kết quả bất ngờ: MXFP4 có chỉ số Perplexity (PPL) thấp hơn (~10.72) so với Q4_K_XL (~15.73), dù kích thước file nhỏ hơn (15.79 GiB so với 16.31 GiB).
    🚀 Tốc độ: MXFP4 cho tốc độ xử lý nhanh hơn và tiết kiệm VRAM hơn.
    🤔 Câu hỏi đặt ra: Liệu PPL thấp hơn có đồng nghĩa với việc cải thiện khả năng gọi công cụ (tool-calling) và lập trình?

    #LLM #AI #Quantization #MXFP4 #MachineLearning #CongNghe #LocalLLM

    reddit.com

  12. Benchmark trên RTX 4070 Super (12 GB) cho thấy Qwen 2.5 Coder 7B (AWQ Int4) nhanh hơn 24 % (44.6 TPS) và dùng ít VRAM hơn (9.49 GB) so với Qwen 2.5 3B FP16 (35.9 TPS, 10 GB). Kết luận: mô hình lớn đã được định lượng đáp ứng tốt hơn trên GPU tiêu dùng. #AI #Quantization #Benchmark #RTX4070 #LLM #TríTuệNhânTạo #địnhlượng #đánhgiá

    reddit.com/r/LocalLLaMA/commen

  13. Tôi đang chạy mô hình QwQ 32B trên LM Studio với lượng hóa 4 bit, tối ưu K/V cache giúp tăng tốc độ xử lý lên 3 lần (40k context thay vì 10k), đồng thời giảm VRAM xuống 19GB/24GB. Tuy nhiên, việc giảm K/V cache xuống 4 bit có ảnh hưởng nhiều đến độ chính xác? Đây là cách tối ưu hiệu quả cho vai trò trò chuyện/role-play với LLM cục bộ. #AI #MáyHọc #LLM #TốiƯuHóa #Quantization #KVTuning

    reddit.com/r/ollama/comments/1

  14. Сколько VRAM нужно для нейросетей?

    Этот пост будет полезен людям, кто хочет разобраться в локальных моделях, особенно использующим их, как инструмент в создании контента, арта и дизайна (контекст нейросетей - image и video). Так же поговорим о выборе видеокарты и параметрах влияющих на генеративные workflow. Telegram

    habr.com/ru/articles/979092/

    #нейросеть_локально #нейросеть_для_генерации_изображений #видеокарты #quantization #comfyui #memory_bandwidth #vram #neural_networks #генеративные_модели

  15. Сколько VRAM нужно для нейросетей?

    Этот пост будет полезен людям, кто хочет разобраться в локальных моделях, особенно использующим их, как инструмент в создании контента, арта и дизайна (контекст нейросетей - image и video). Так же поговорим о выборе видеокарты и параметрах влияющих на генеративные workflow. Telegram

    habr.com/ru/articles/979092/

    #нейросеть_локально #нейросеть_для_генерации_изображений #видеокарты #quantization #comfyui #memory_bandwidth #vram #neural_networks #генеративные_модели

  16. Сколько VRAM нужно для нейросетей?

    Этот пост будет полезен людям, кто хочет разобраться в локальных моделях, особенно использующим их, как инструмент в создании контента, арта и дизайна (контекст нейросетей - image и video). Так же поговорим о выборе видеокарты и параметрах влияющих на генеративные workflow. Telegram

    habr.com/ru/articles/979092/

    #нейросеть_локально #нейросеть_для_генерации_изображений #видеокарты #quantization #comfyui #memory_bandwidth #vram #neural_networks #генеративные_модели

  17. Сколько VRAM нужно для нейросетей?

    Этот пост будет полезен людям, кто хочет разобраться в локальных моделях, особенно использующим их, как инструмент в создании контента, арта и дизайна (контекст нейросетей - image и video). Так же поговорим о выборе видеокарты и параметрах влияющих на генеративные workflow. Telegram

    habr.com/ru/articles/979092/

    #нейросеть_локально #нейросеть_для_генерации_изображений #видеокарты #quantization #comfyui #memory_bandwidth #vram #neural_networks #генеративные_модели

  18. NVIDIA unveils Broadened Reinforcement Learning, using massive rollout scaling to boost LLM reasoning with less compute and stable rewards.

    aistory.news/machine-learning/

  19. NVIDIA expands its training catalog with a new Graph Neural Networks course, plus fresh modules on adversarial ML, Earth-2, and Jetson.

    aistory.news/machine-learning/

  20. Limitless Pendant discontinued after Meta deal. Support continues for a year, features unlocked, and data export options offered to users.

    aistory.news/machine-learning/

  21. NVIDIA's Isaac Lab Arena launches to benchmark robot policies at scale, with whole-body control, richer teleoperation data, ADR, and PBT.

    aistory.news/machine-learning/

  22. Android 16 AI features add notification summaries, spam checks and Expressive Captions, rolling out to Pixel devices with privacy controls.

    aistory.news/machine-learning/

  23. Các phiên bản Qwen3-Next-80B-A3B GGUF mới đã có sẵn! Bao gồm lượng tử hóa imatrix và IQ, cùng với tối ưu hóa MoE, mang lại hiệu suất tốt hơn cho các mô hình LLM cục bộ.
    #Qwen3Next #GGUF #LLM #AI #Quantization
    #MôHìnhAI #LượngTửHóa #TríTuệNhânTạo

    reddit.com/r/LocalLLaMA/commen

  24. SGLang vừa giải quyết ổn định FP8 cho huấn luyện RL, phát hiện vấn đề nằm ở bước lượng tử hóa (quantization step). Đây là bước tiến lớn cho RLHF và tinh chỉnh RL cục bộ, giúp đơn giản hóa việc sử dụng độ chính xác hỗn hợp.
    #SGLang #FP8 #RLTraining #Quantization #AI #MachineLearning #HuấnLuyệnRL #TríTuệNhânTạo #HọcMáy

    reddit.com/r/LocalLLaMA/commen

  25. NVIDIA’s CUDA-X Data Science shows 3x–43x ML speedups and expands training, pointing to faster, simpler workflows for teams and researchers.

    aistory.news/machine-learning/