#перплексия — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #перплексия, aggregated by home.social.
-
[Перевод] Квантизация с нуля: как запустить 160ГБ LLM на ноутбуке и не потерять в качестве
Qwen-3-Coder-Next — модель с 80 миллиардами параметров и весом 159,4 ГБ . Примерно столько RAM потребовалось бы для её запуска, и это ещё без учёта длинного контекстного окна. И эта модель не считается большой моделью! По слухам, у frontier-моделей более триллиона параметров, для которых понадобилось бы минимум 2 ТБ оперативной памяти. Последний раз я видел столько RAM в одной машине — никогда . Но что если я скажу, что можно сделать LLM в 4 раза меньше и в 2 раза быстрее — достаточно, чтобы запускать весьма мощные модели на ноутбуке, — при потере точности всего 5–10%? В этом и заключается магия квантизации. В этой статье вы узнаете: – Почему параметры модели делают её такой большой – Как работает точность чисел с плавающей точкой и чем жертвуют модели – Как сжимать числа с плавающей точкой с помощью квантизации – Как измерить потерю качества модели после квантизации
https://habr.com/ru/articles/1015510/
#квантизация #LLM #bfloat16 #llamacpp #веса_модели #числа_с_плавающей_точкой #posttraining_quantization #перплексия #KLдивергенция #локальный_запуск_моделей
-
[Перевод] Квантизация с нуля: как запустить 160ГБ LLM на ноутбуке и не потерять в качестве
Qwen-3-Coder-Next — модель с 80 миллиардами параметров и весом 159,4 ГБ . Примерно столько RAM потребовалось бы для её запуска, и это ещё без учёта длинного контекстного окна. И эта модель не считается большой моделью! По слухам, у frontier-моделей более триллиона параметров, для которых понадобилось бы минимум 2 ТБ оперативной памяти. Последний раз я видел столько RAM в одной машине — никогда . Но что если я скажу, что можно сделать LLM в 4 раза меньше и в 2 раза быстрее — достаточно, чтобы запускать весьма мощные модели на ноутбуке, — при потере точности всего 5–10%? В этом и заключается магия квантизации. В этой статье вы узнаете: – Почему параметры модели делают её такой большой – Как работает точность чисел с плавающей точкой и чем жертвуют модели – Как сжимать числа с плавающей точкой с помощью квантизации – Как измерить потерю качества модели после квантизации
https://habr.com/ru/articles/1015510/
#квантизация #LLM #bfloat16 #llamacpp #веса_модели #числа_с_плавающей_точкой #posttraining_quantization #перплексия #KLдивергенция #локальный_запуск_моделей
-
[Перевод] Квантизация с нуля: как запустить 160ГБ LLM на ноутбуке и не потерять в качестве
Qwen-3-Coder-Next — модель с 80 миллиардами параметров и весом 159,4 ГБ . Примерно столько RAM потребовалось бы для её запуска, и это ещё без учёта длинного контекстного окна. И эта модель не считается большой моделью! По слухам, у frontier-моделей более триллиона параметров, для которых понадобилось бы минимум 2 ТБ оперативной памяти. Последний раз я видел столько RAM в одной машине — никогда . Но что если я скажу, что можно сделать LLM в 4 раза меньше и в 2 раза быстрее — достаточно, чтобы запускать весьма мощные модели на ноутбуке, — при потере точности всего 5–10%? В этом и заключается магия квантизации. В этой статье вы узнаете: – Почему параметры модели делают её такой большой – Как работает точность чисел с плавающей точкой и чем жертвуют модели – Как сжимать числа с плавающей точкой с помощью квантизации – Как измерить потерю качества модели после квантизации
https://habr.com/ru/articles/1015510/
#квантизация #LLM #bfloat16 #llamacpp #веса_модели #числа_с_плавающей_точкой #posttraining_quantization #перплексия #KLдивергенция #локальный_запуск_моделей
-
[Перевод] Квантизация с нуля: как запустить 160ГБ LLM на ноутбуке и не потерять в качестве
Qwen-3-Coder-Next — модель с 80 миллиардами параметров и весом 159,4 ГБ . Примерно столько RAM потребовалось бы для её запуска, и это ещё без учёта длинного контекстного окна. И эта модель не считается большой моделью! По слухам, у frontier-моделей более триллиона параметров, для которых понадобилось бы минимум 2 ТБ оперативной памяти. Последний раз я видел столько RAM в одной машине — никогда . Но что если я скажу, что можно сделать LLM в 4 раза меньше и в 2 раза быстрее — достаточно, чтобы запускать весьма мощные модели на ноутбуке, — при потере точности всего 5–10%? В этом и заключается магия квантизации. В этой статье вы узнаете: – Почему параметры модели делают её такой большой – Как работает точность чисел с плавающей точкой и чем жертвуют модели – Как сжимать числа с плавающей точкой с помощью квантизации – Как измерить потерю качества модели после квантизации
https://habr.com/ru/articles/1015510/
#квантизация #LLM #bfloat16 #llamacpp #веса_модели #числа_с_плавающей_точкой #posttraining_quantization #перплексия #KLдивергенция #локальный_запуск_моделей
-
Как сжимать языковые модели без дообучения
Привет, Хабр! Меня зовут Валентин Малых, я - и.о. руководителя направления фундаментальных исследований в MWS AI. Сегодня я расскажу об одном нашем исследовании по сжатию LLM. Если простыми словами, то это про то, как сделать большую модель чуть-чуть менее требовательной в плане памяти и времени выполнения. Для это придумано три базовых техники: квантизация (загрубление весов модели), дистилляция (обучение уменьшенной копии) и прунинг (удаление части сети). Этот пост как раз будет про третий способ, точнее – недавно разработанный нами в сотрудничестве с зарубежными коллегами метод структурного прунинга по глубине без дообучения, который мы назвали ReplaceMe. Например, модель LLaMA-2 после нашего сжатия на 25% сохраняет 92,5% качества. Ниже – о том, как это работает.
https://habr.com/ru/companies/ru_mts/articles/972368/
#llm #ии #сжатие #прунинг #перплексия #наука #научные_статьи #научные_расчёты #научные_публикации_по_ии
-
Как сжимать языковые модели без дообучения
Привет, Хабр! Меня зовут Валентин Малых, я - и.о. руководителя направления фундаментальных исследований в MWS AI. Сегодня я расскажу об одном нашем исследовании по сжатию LLM. Если простыми словами, то это про то, как сделать большую модель чуть-чуть менее требовательной в плане памяти и времени выполнения. Для это придумано три базовых техники: квантизация (загрубление весов модели), дистилляция (обучение уменьшенной копии) и прунинг (удаление части сети). Этот пост как раз будет про третий способ, точнее – недавно разработанный нами в сотрудничестве с зарубежными коллегами метод структурного прунинга по глубине без дообучения, который мы назвали ReplaceMe. Например, модель LLaMA-2 после нашего сжатия на 25% сохраняет 92,5% качества. Ниже – о том, как это работает.
https://habr.com/ru/companies/ru_mts/articles/972368/
#llm #ии #сжатие #прунинг #перплексия #наука #научные_статьи #научные_расчёты #научные_публикации_по_ии
-
Как сжимать языковые модели без дообучения
Привет, Хабр! Меня зовут Валентин Малых, я - и.о. руководителя направления фундаментальных исследований в MWS AI. Сегодня я расскажу об одном нашем исследовании по сжатию LLM. Если простыми словами, то это про то, как сделать большую модель чуть-чуть менее требовательной в плане памяти и времени выполнения. Для это придумано три базовых техники: квантизация (загрубление весов модели), дистилляция (обучение уменьшенной копии) и прунинг (удаление части сети). Этот пост как раз будет про третий способ, точнее – недавно разработанный нами в сотрудничестве с зарубежными коллегами метод структурного прунинга по глубине без дообучения, который мы назвали ReplaceMe. Например, модель LLaMA-2 после нашего сжатия на 25% сохраняет 92,5% качества. Ниже – о том, как это работает.
https://habr.com/ru/companies/ru_mts/articles/972368/
#llm #ии #сжатие #прунинг #перплексия #наука #научные_статьи #научные_расчёты #научные_публикации_по_ии
-
Как сжимать языковые модели без дообучения
Привет, Хабр! Меня зовут Валентин Малых, я - и.о. руководителя направления фундаментальных исследований в MWS AI. Сегодня я расскажу об одном нашем исследовании по сжатию LLM. Если простыми словами, то это про то, как сделать большую модель чуть-чуть менее требовательной в плане памяти и времени выполнения. Для это придумано три базовых техники: квантизация (загрубление весов модели), дистилляция (обучение уменьшенной копии) и прунинг (удаление части сети). Этот пост как раз будет про третий способ, точнее – недавно разработанный нами в сотрудничестве с зарубежными коллегами метод структурного прунинга по глубине без дообучения, который мы назвали ReplaceMe. Например, модель LLaMA-2 после нашего сжатия на 25% сохраняет 92,5% качества. Ниже – о том, как это работает.
https://habr.com/ru/companies/ru_mts/articles/972368/
#llm #ии #сжатие #прунинг #перплексия #наука #научные_статьи #научные_расчёты #научные_публикации_по_ии