home.social

#llama_server — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #llama_server, aggregated by home.social.

  1. llama.cpp trên llama-server gặp vấn đề hiệu suất lớn khi dùng eGPU qua Thunderbolt 4. Tốc độ prefill (xử lý prompt) giảm từ ~2500 t/s (1 GPU) xuống ~150 t/s (2 GPU, 1 qua TB4). Có phải độ trễ của TB4 là thủ phạm chính? Liệu Oculink có tốt hơn?

    #llama_cpp #llama_server #eGPU #Thunderbolt4 #LLM #AIPerformance #GPUComputing #HiệuSuấtAI #TínhToánGPU #PhầnCứngAI #MôHìnhNgônNgữ

    reddit.com/r/LocalLLaMA/commen

  2. Sự cố llama-server: Mỗi yêu cầu mới làm giảm tốc độ token generation. Người dùng báo cáo TPS giảm dần (12 → 8 → 5.7) dù máy chủ RX 580 8GB không ngừng chạy ngay cả khi dừng xử lý. Cấu hình: VM Debian trên Proxmox. #llama_server #AI #GPU #TechnicalIssue #Sự_cố_OLLAMA #Kỹ_thuật_AI

    reddit.com/r/LocalLLaMA/commen