#llama_cpp — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #llama_cpp, aggregated by home.social.
-
第905回 新年度特別企画 llama.cppでコマンドラインベースのローカルLLM入門[VRAM容量別編]
https://gihyo.jp/admin/serial/01/ubuntu-recipe/0905?utm_source=feed#gihyo #技術評論社 #gihyo_jp #技術動向 #技術解説 #業界動向 #OS #アプリケーション #ハードウェア製品 #Ubuntu #生成AI #llama_cpp #Intel_ARC_B580
-
第904回 ミドルレンジのグラフィックボードで生成AI入門[Intel編]
https://gihyo.jp/admin/serial/01/ubuntu-recipe/0904?utm_source=feed#gihyo #技術評論社 #gihyo_jp #技術動向 #技術解説 #業界動向 #OS #アプリケーション #お役立ち情報 #Ubuntu #生成AI #llama_cpp #Intel_ARC_B580
-
Bạn có thể để agent viết mã tự động benchmark llama.cpp và tìm cấu hình nhanh nhất cho mỗi model. Bằng cách liệt kê các flag (Flash Attention, KV cache, batch, offload…), chạy thử, ghi TPS và tạo script chạy tối ưu. Trên M1 Ultra đạt +8‑12% TPS, tốc độ nạp prompt nhanh hơn, không giảm chất lượng. Thử ngay! #llama_cpp #AI #benchmark #tuning #opensource #TríTuệNhânTạo
-
llama.cpp trên llama-server gặp vấn đề hiệu suất lớn khi dùng eGPU qua Thunderbolt 4. Tốc độ prefill (xử lý prompt) giảm từ ~2500 t/s (1 GPU) xuống ~150 t/s (2 GPU, 1 qua TB4). Có phải độ trễ của TB4 là thủ phạm chính? Liệu Oculink có tốt hơn?
#llama_cpp #llama_server #eGPU #Thunderbolt4 #LLM #AIPerformance #GPUComputing #HiệuSuấtAI #TínhToánGPU #PhầnCứngAI #MôHìnhNgônNgữ
-
Tối ưu hóa tốc độ Qwen3 Next được hợp nhập vào llama.cpp (#llama_cpp #TríTuệNhânTạo #AI). Cải thiện hiệu năng mô hình, PR #17996 đã được duyệt. #HocMay #MachineLearning #LMA #MôHìnhNhânTạo
https://www.reddit.com/r/LocalLLaMA/comments/1pnz9xu/qwen3_next_speed_optimization_has_been_merged/
-
#MistralSmall24B-Instruct is a really nice model to run locally for Coding Advice, Summarizing or Creative Writing.
With a recent #llama_cpp on a #GeForce #RTX4090 at Q8, the 24GB VRAM is tightly maxed out and I am seeing text generation at 7-9 token/s.
https://huggingface.co/mistralai/Mistral-Small-24B-Instruct-2501
-
Llama.cpp guide – Running LLMs locally on any hardware, from scratch
https://steelph0enix.github.io/posts/llama-cpp-guide/
#ycombinator #llama_cpp #llama #cpp #llm #building #running #guide #inference #local #scratch #hardware -
Anyone happen to know the correct prompt format for #mixtral 8x7b? I'm not having luck with the [INST] style in llama.cpp. #llm #llama_cpp #MistralAI #mistral
-
中古GPU(RTX 3060/12GB)でローカルLLM検証-2 ~ llama.cpp で TinyLlama 1.1B を試す
https://qiita.com/nabe2030/items/15e7b6cffd46fafb34d4?utm_campaign=popular_items&utm_medium=feed&utm_source=popular_items -
Người dùng đang tìm cách chạy llama.cpp với Vulkan trên GPU Mali-G57 MC2 (Samsung A15, chip Helio G99) qua Termux. Mặc dù đã khắc phục lỗi và nhận diện được GPU, nhưng lại gặp lỗi "Segmentation fault" khi tải mô hình Qwen3-0.6B. Ai có kinh nghiệm với setup này không?
#llama_cpp #Vulkan #MaliGPU #Termux #Android #AI #LLM #Troubleshooting
#llama_cpp_vn #Vulkan_vn #MaliGPU_vn #Termux_vn #Android_vn #AI_vn #LLM_vn #KhacPhucSuCohttps://www.reddit.com/r/LocalLLaMA/comments/1pe3sme/had_anyone_tried_t
-
Mistral vừa công bố mô hình thử nghiệm Mistral Large 3 có hỗ trợ **EAGLE speculative decoding**, hứa hẹn tăng tốc 3x mà không giảm chất lượng. Trước đó, llama.cpp từng đóng topic đề xuất hỗ trợ EAGLE (trước đây vì thiếu hứng thú). Giới AI liệu có quay lại quan tâm đến tính năng này?
#AI #Mistral #EAGLE #llama_cpp #ĐộVTính #MachineLearning #AIVietnamese