#bfloat16 — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #bfloat16, aggregated by home.social.
-
[Перевод] Квантизация с нуля: как запустить 160ГБ LLM на ноутбуке и не потерять в качестве
Qwen-3-Coder-Next — модель с 80 миллиардами параметров и весом 159,4 ГБ . Примерно столько RAM потребовалось бы для её запуска, и это ещё без учёта длинного контекстного окна. И эта модель не считается большой моделью! По слухам, у frontier-моделей более триллиона параметров, для которых понадобилось бы минимум 2 ТБ оперативной памяти. Последний раз я видел столько RAM в одной машине — никогда . Но что если я скажу, что можно сделать LLM в 4 раза меньше и в 2 раза быстрее — достаточно, чтобы запускать весьма мощные модели на ноутбуке, — при потере точности всего 5–10%? В этом и заключается магия квантизации. В этой статье вы узнаете: – Почему параметры модели делают её такой большой – Как работает точность чисел с плавающей точкой и чем жертвуют модели – Как сжимать числа с плавающей точкой с помощью квантизации – Как измерить потерю качества модели после квантизации
https://habr.com/ru/articles/1015510/
#квантизация #LLM #bfloat16 #llamacpp #веса_модели #числа_с_плавающей_точкой #posttraining_quantization #перплексия #KLдивергенция #локальный_запуск_моделей
-
[Перевод] Квантизация с нуля: как запустить 160ГБ LLM на ноутбуке и не потерять в качестве
Qwen-3-Coder-Next — модель с 80 миллиардами параметров и весом 159,4 ГБ . Примерно столько RAM потребовалось бы для её запуска, и это ещё без учёта длинного контекстного окна. И эта модель не считается большой моделью! По слухам, у frontier-моделей более триллиона параметров, для которых понадобилось бы минимум 2 ТБ оперативной памяти. Последний раз я видел столько RAM в одной машине — никогда . Но что если я скажу, что можно сделать LLM в 4 раза меньше и в 2 раза быстрее — достаточно, чтобы запускать весьма мощные модели на ноутбуке, — при потере точности всего 5–10%? В этом и заключается магия квантизации. В этой статье вы узнаете: – Почему параметры модели делают её такой большой – Как работает точность чисел с плавающей точкой и чем жертвуют модели – Как сжимать числа с плавающей точкой с помощью квантизации – Как измерить потерю качества модели после квантизации
https://habr.com/ru/articles/1015510/
#квантизация #LLM #bfloat16 #llamacpp #веса_модели #числа_с_плавающей_точкой #posttraining_quantization #перплексия #KLдивергенция #локальный_запуск_моделей
-
[Перевод] Квантизация с нуля: как запустить 160ГБ LLM на ноутбуке и не потерять в качестве
Qwen-3-Coder-Next — модель с 80 миллиардами параметров и весом 159,4 ГБ . Примерно столько RAM потребовалось бы для её запуска, и это ещё без учёта длинного контекстного окна. И эта модель не считается большой моделью! По слухам, у frontier-моделей более триллиона параметров, для которых понадобилось бы минимум 2 ТБ оперативной памяти. Последний раз я видел столько RAM в одной машине — никогда . Но что если я скажу, что можно сделать LLM в 4 раза меньше и в 2 раза быстрее — достаточно, чтобы запускать весьма мощные модели на ноутбуке, — при потере точности всего 5–10%? В этом и заключается магия квантизации. В этой статье вы узнаете: – Почему параметры модели делают её такой большой – Как работает точность чисел с плавающей точкой и чем жертвуют модели – Как сжимать числа с плавающей точкой с помощью квантизации – Как измерить потерю качества модели после квантизации
https://habr.com/ru/articles/1015510/
#квантизация #LLM #bfloat16 #llamacpp #веса_модели #числа_с_плавающей_точкой #posttraining_quantization #перплексия #KLдивергенция #локальный_запуск_моделей
-
[Перевод] Квантизация с нуля: как запустить 160ГБ LLM на ноутбуке и не потерять в качестве
Qwen-3-Coder-Next — модель с 80 миллиардами параметров и весом 159,4 ГБ . Примерно столько RAM потребовалось бы для её запуска, и это ещё без учёта длинного контекстного окна. И эта модель не считается большой моделью! По слухам, у frontier-моделей более триллиона параметров, для которых понадобилось бы минимум 2 ТБ оперативной памяти. Последний раз я видел столько RAM в одной машине — никогда . Но что если я скажу, что можно сделать LLM в 4 раза меньше и в 2 раза быстрее — достаточно, чтобы запускать весьма мощные модели на ноутбуке, — при потере точности всего 5–10%? В этом и заключается магия квантизации. В этой статье вы узнаете: – Почему параметры модели делают её такой большой – Как работает точность чисел с плавающей точкой и чем жертвуют модели – Как сжимать числа с плавающей точкой с помощью квантизации – Как измерить потерю качества модели после квантизации
https://habr.com/ru/articles/1015510/
#квантизация #LLM #bfloat16 #llamacpp #веса_модели #числа_с_плавающей_точкой #posttraining_quantization #перплексия #KLдивергенция #локальный_запуск_моделей
-
OK, a few weeks ago ROOL announced (and I read) that they updated the RISC OS assembler to support the new 16 bit floats in new ARM chips.
I've been thinking about this ever since, and it still doesn't make sense to me.
16 bit floats? in 2021? Really? Why?
And I'm not being sarcastic here, I really don't understand. What is the use case?