home.social

#kv_cache — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #kv_cache, aggregated by home.social.

  1. Калькулятор VRAM для локальных LLM: Какие модели ИИ запустятся у вас на компьютере?

    Когда я начал ковыряться с локальными LLM, главная боль была не в установке моделей, а в понимании, что вообще влезет в моё железо. Документация Hugging Face говорит “Llama 3.1 8B” — что это значит для моей видеокарты с 16 GB? А если хочу 32k контекст? А с Q4_K_M? Несколько недель назад мне попался open-source калькулятор whatmodelscanirun.ru. Прогнал его на трёх своих сетапах (4060 Ti, 3090, M2 Pro), сравнил предсказания с реальными запусками через llama.cpp и разобрался, как работает математика внутри. Спойлер: алгоритм правильный, но систематически переоценивает скорость на 15-25%.

    habr.com/ru/articles/1035862/

    #LLM #VRAM #llamacpp #локальные_модели #квантование #KV_cache #GQA #бенчмарк #GPU