#q4_0 — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #q4_0, aggregated by home.social.
-
Сравнение различных схем квантования для LLM
Как запустить локально LLM 70B параметров на 1 видеокарте с 24gb? Нужно квантование! Квантование - это процесс уменьшения битности вычислений в нейронной сети, используемых для представления весов, смещений и активаций. Путем снижения точности мы можем значительно сократить требования к памяти и вычислительной сложности модели.
https://habr.com/ru/articles/797443/
#llm #ai #nlp #chatgpt #gpt4 #квантование #llama #rag #benchmark #Q4_0