home.social

#llama_cpp — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #llama_cpp, aggregated by home.social.

  1. Bạn có thể để agent viết mã tự động benchmark llama.cpp và tìm cấu hình nhanh nhất cho mỗi model. Bằng cách liệt kê các flag (Flash Attention, KV cache, batch, offload…), chạy thử, ghi TPS và tạo script chạy tối ưu. Trên M1 Ultra đạt +8‑12% TPS, tốc độ nạp prompt nhanh hơn, không giảm chất lượng. Thử ngay! #llama_cpp #AI #benchmark #tuning #opensource #TríTuệNhânTạo

    reddit.com/r/LocalLLaMA/commen

  2. llama.cpp trên llama-server gặp vấn đề hiệu suất lớn khi dùng eGPU qua Thunderbolt 4. Tốc độ prefill (xử lý prompt) giảm từ ~2500 t/s (1 GPU) xuống ~150 t/s (2 GPU, 1 qua TB4). Có phải độ trễ của TB4 là thủ phạm chính? Liệu Oculink có tốt hơn?

    #llama_cpp #llama_server #eGPU #Thunderbolt4 #LLM #AIPerformance #GPUComputing #HiệuSuấtAI #TínhToánGPU #PhầnCứngAI #MôHìnhNgônNgữ

    reddit.com/r/LocalLLaMA/commen

  3. #MistralSmall24B-Instruct is a really nice model to run locally for Coding Advice, Summarizing or Creative Writing.

    With a recent #llama_cpp on a #GeForce #RTX4090 at Q8, the 24GB VRAM is tightly maxed out and I am seeing text generation at 7-9 token/s.

    huggingface.co/mistralai/Mistr

  4. Anyone happen to know the correct prompt format for 8x7b? I'm not having luck with the [INST] style in llama.cpp.

  5. Người dùng đang tìm cách chạy llama.cpp với Vulkan trên GPU Mali-G57 MC2 (Samsung A15, chip Helio G99) qua Termux. Mặc dù đã khắc phục lỗi và nhận diện được GPU, nhưng lại gặp lỗi "Segmentation fault" khi tải mô hình Qwen3-0.6B. Ai có kinh nghiệm với setup này không?
    #llama_cpp #Vulkan #MaliGPU #Termux #Android #AI #LLM #Troubleshooting
    #llama_cpp_vn #Vulkan_vn #MaliGPU_vn #Termux_vn #Android_vn #AI_vn #LLM_vn #KhacPhucSuCo

    reddit.com/r/LocalLLaMA/commen

  6. Mistral vừa công bố mô hình thử nghiệm Mistral Large 3 có hỗ trợ **EAGLE speculative decoding**, hứa hẹn tăng tốc 3x mà không giảm chất lượng. Trước đó, llama.cpp từng đóng topic đề xuất hỗ trợ EAGLE (trước đây vì thiếu hứng thú). Giới AI liệu có quay lại quan tâm đến tính năng này?
    #AI #Mistral #EAGLE #llama_cpp #ĐộVTính #MachineLearning #AIVietnamese

    reddit.com/r/LocalLLaMA/commen