home.social

#gguf — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #gguf, aggregated by home.social.

  1. Behold, the riveting #exposé on #GGUF, the file format so revolutionary, it’s practically a single piece of digital art 🎨🤯. Witness as the author attempts to weave an epic tale out of a glorified zip file, while simultaneously acknowledging the sheer absence of anything remotely interesting. 🥱✨
    nobodywho.ooo/posts/whats-in-a #digitalart #storytelling #technews #zips #HackerNews #ngated

  2. Poważna podatność w platformie Ollama prowadzi do wycieku pamięci. A wszystko przez odpowiednio spreparowany plik GGUF (CVE-2026-5757)

    Badacz bezpieczeństwa Jeremy Brown, znany z odkrywania luk (memory corruption) w ogólnodostępnych narzędziach, po raz kolejny udowodnił, że innowacyjne metody oraz nieszablonowe działania pozwalają wychwycić błędy, które przez lata pozostawały niewidoczne. Korzystając ze wsparcia sztucznej inteligencji udało mu się wykryć poważną podatność w silniku Ollama, skutkującą możliwym wyciekiem danych z...

    #WBiegu #Ai #Cve #Gguf #Ollama #Oob

    sekurak.pl/powazna-podatnosc-w

  3. How to configure llama-server router mode for dynamic model loading and switching. Covers models.ini setup, systemd service, API usage, and honest comparison to Ollama and llama-swap.

    #Cheatsheet #GGUF #AI #LLM #DevOps #OpenAI #API #SelfHosting #llama.cpp

    glukhov.org/llm-hosting/llama-

  4. [Перевод] Локальный запуск GLM-5.1

    Перевод подготовил автор канала Друг Опенсурса , приятного прочтения, заранее благодарю за подписку В этой статье мы подробно разберем процесс развертывания GLM-5.1 с использованием llama.cpp и форматов GGUF. Узнаем о системных требованиях, сборке и настройках, оптимизации и практическом применении.

    habr.com/ru/articles/1022242/

    #glm51 #llm #Llamacpp #Unsloth #GGUF #Локальный_запуск #tool_calling #Zai #искусственный_интеллект

  5. [Перевод] Локальный запуск GLM-5.1

    Перевод подготовил автор канала Друг Опенсурса , приятного прочтения, заранее благодарю за подписку В этой статье мы подробно разберем процесс развертывания GLM-5.1 с использованием llama.cpp и форматов GGUF. Узнаем о системных требованиях, сборке и настройках, оптимизации и практическом применении.

    habr.com/ru/articles/1022242/

    #glm51 #llm #Llamacpp #Unsloth #GGUF #Локальный_запуск #tool_calling #Zai #искусственный_интеллект

  6. [Перевод] Локальный запуск GLM-5.1

    Перевод подготовил автор канала Друг Опенсурса , приятного прочтения, заранее благодарю за подписку В этой статье мы подробно разберем процесс развертывания GLM-5.1 с использованием llama.cpp и форматов GGUF. Узнаем о системных требованиях, сборке и настройках, оптимизации и практическом применении.

    habr.com/ru/articles/1022242/

    #glm51 #llm #Llamacpp #Unsloth #GGUF #Локальный_запуск #tool_calling #Zai #искусственный_интеллект

  7. [Перевод] Локальный запуск GLM-5.1

    Перевод подготовил автор канала Друг Опенсурса , приятного прочтения, заранее благодарю за подписку В этой статье мы подробно разберем процесс развертывания GLM-5.1 с использованием llama.cpp и форматов GGUF. Узнаем о системных требованиях, сборке и настройках, оптимизации и практическом применении.

    habr.com/ru/articles/1022242/

    #glm51 #llm #Llamacpp #Unsloth #GGUF #Локальный_запуск #tool_calling #Zai #искусственный_интеллект

  8. Реставрация ruGPT-3 XL или как я вернул к жизни забытую русскую языковую модель

    Несколько дней к ряду я занимался реставрацией легаси модели ai-forever/rugpt3xl , это классическая языковая модель от SberDevices на 1.3B параметров, крошка по современным меркам, на которой сберовцы обкатывали свои научные наработки аж в далёком 2021м году. Подробнее о ней можно почитать в статье “A family of pretrained transformer language models for Russian” на Google Scholar. Да, она foundation, то есть умеет только продолжать текст, не может выполнять инструкции или работать в режиме чата. Но обучена она на корпусе русского языка и этот самый русский генерит очень бодро. У неё есть две примечательные особенности: её обучали с нуля, архитектура представляет собой глубокую модификацию GPT-2.

    habr.com/ru/articles/1016148/

    #rugpt3 #реставрация #нейросеть #gguf #safetensors #python #ollama #huggingface #модель #llm

  9. Install llama.cpp, run GGUF models with llama-cli, and serve OpenAI-compatible APIs using llama-server. Key flags, examples, and tuning tips with a short commands cheatsheet

    #Cheatsheet #GGUF #AI #LLM #DevOps #OpenAI #API #SelfHosting #CUDA #Prometheus #llama.cpp

    glukhov.org/llm-hosting/llama-

  10. Compare GGUF, GPTQ, and AWQ quantization formats for LLMs on consumer GPUs. Learn how to balance model quality, speed, and memory usage with Q4_K_M, IQ4_XS, and Q3_K_S variants for optimal inference performance.

    #GGUF #quantization #LLM inference #GPU optimization #model deployment

    dasroot.net/posts/2026/02/gguf

  11. Fine-tuning Qwen-8B под проприетарный синтаксис (CADINP) на одной RTX 3090: опыт инженера-конструктора

    Возможно ли на одной домашней видеокарте (RTX 3090) создать AI-ассистента, который знает узкоспециализированный инженерный язык лучше, чем GPT-4? Я инженер-конструктор, и мне надоело писать рутинный код для SOFiSTiK руками. Поэтому я решил дообучить (fine-tune) модель Qwen 3 (8B) с дистилляцией логики DeepSeek под свои задачи. В статье подробный технический разбор: — Как собрать датасет с логикой Chain of Thought (CoT). — Как бороться с Out of Memory в 24 ГБ VRAM на Windows + WSL. — Рабочие конфиги Unsloth, параметры обучения и итоговая GGUF модель. Раскрыть

    habr.com/ru/articles/987240/

    #LLM #finetuning #локальные_нейросети #RTX_3090 #Unsloth #Qwen #DeepSeek #GGUF #SOFiSTiK #CADINP

  12. Fine-tuning Qwen-8B под проприетарный синтаксис (CADINP) на одной RTX 3090: опыт инженера-конструктора Возможно ли на одной ...

    #LLM #fine-tuning #локальные #нейросети #RTX #3090 #Unsloth #Qwen #DeepSeek #GGUF #SOFiSTiK

    Origin | Interest | Match
  13. Ускорение DeepSeek-R1 с подвохом: Когда токены в секунду врут о реальной скорости

    Токены летят быстрее, а результат — медленнее: парадокс квантизации DeepSeek-R1. Замеры 4 версий модели доказали: уменьшение размера ускоряет генерацию отдельных токенов, но что происходит с общим временем ответа?

    habr.com/ru/articles/919452/

    #deepseek #deepseek_r1 #deepseek_r10528 #ai #llm #llmмодели #gguf #кодогенерация #local_ai #llamacpp

  14. Локальный DeepSeek-R1: Когда скорость улитки – не приговор, а точка старта

    Локальный DeepSeek-R1-0528 на скромном железе? Реально. Со скоростью улитки? Первоначально – да. Но итог моего эксперимента: эту 'улитку' можно заставить работать вдвое быстрее.

    habr.com/ru/articles/916966/

    #deepseek #ai #llm #local_ai #epyc #deepseek_r1 #deepseek_v3 #llamacpp #huggingface #gguf

  15. Does anyone know a way to run a very large #GGUF or #MLX pre-trained #AI model using sharding if it won't fit into unified memory? Speed isn't the goal; just loading. I tried a 250GB model with 72GB VRAM + 24GB RAM using the llama.cpp Metal-enabled runtime, but it didn't work in #LM_Studio even with "keep model in memory" off and "try mmap()" on.

    Seems like swap or partial loading should be possible, esp. using #macOS dynamically-sized compressed swap. Thoughts?

  16. Как запустить Mixtral на своём компьютере

    Всякий раз, когда выходит новая хорошая ИИ модель, Хабр наполняется вопросами "Как нам её попробовать" и неправильными ответами, будто нужно платить за какие-то сервисы или иметь железа на сто лямов. Поэтому я вновь напишу инструкцию, как запустить новейший mixtral-8x7 на обычных средних компьютерах.

    habr.com/ru/articles/781702/

    #LLM #Mixtral #KoboldCPP #GGUF #18+