#веса_модели — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #веса_модели, aggregated by home.social.
-
Вспомнить всё. Спектр весов нейросети
В данной публикации попробуем сформировать простейшую нейросеть. Будем использовать Colab. Данный выбор также хорош тем, что то, что позволено Ю py теру не позволено быку. Иметь локальные вычислительные мощности. В принципе довольно неплохая инфраструктура для проверки базовых алгоритмов налету. Если есть что то подобное на других платформах или можно сделать с использованием иных агентов, пожалуйста, прокомментируйте. Целью является демонстрация сохранения информации об обучении в спектре весов, при его фильтрации и постеризации происходит не полное стирание этих данных, что можно использовать для дообучения в качестве начальных условий. При этом, после постеризации, коэффициенты весов выраженные в спектральных составляющих занимают существенно меньшее место. Также этот эффект интересен с точки зрения проектирования ИНС. Вместо кода будут md-саммари по разделам, их можно использовать для генерации в качестве промптов для ИИ-агента. >>ЧТЕНИЕ>>
https://habr.com/ru/articles/1030520/
#веса_модели #нейронная_сеть #обучение_нейронных_сетей #постеризация #преобразование_фурье #спектрограмма #функция_потерь #точность_прогноза
-
Вспомнить всё. Спектр весов нейросети
В данной публикации попробуем сформировать простейшую нейросеть. Будем использовать Colab. Данный выбор также хорош тем, что то, что позволено Ю py теру не позволено быку. Иметь локальные вычислительные мощности. В принципе довольно неплохая инфраструктура для проверки базовых алгоритмов налету. Если есть что то подобное на других платформах или можно сделать с использованием иных агентов, пожалуйста, прокомментируйте. Целью является демонстрация сохранения информации об обучении в спектре весов, при его фильтрации и постеризации происходит не полное стирание этих данных, что можно использовать для дообучения в качестве начальных условий. При этом, после постеризации, коэффициенты весов выраженные в спектральных составляющих занимают существенно меньшее место. Также этот эффект интересен с точки зрения проектирования ИНС. Вместо кода будут md-саммари по разделам, их можно использовать для генерации в качестве промптов для ИИ-агента. >>ЧТЕНИЕ>>
https://habr.com/ru/articles/1030520/
#веса_модели #нейронная_сеть #обучение_нейронных_сетей #постеризация #преобразование_фурье #спектрограмма #функция_потерь #точность_прогноза
-
Вспомнить всё. Спектр весов нейросети
В данной публикации попробуем сформировать простейшую нейросеть. Будем использовать Colab. Данный выбор также хорош тем, что то, что позволено Ю py теру не позволено быку. Иметь локальные вычислительные мощности. В принципе довольно неплохая инфраструктура для проверки базовых алгоритмов налету. Если есть что то подобное на других платформах или можно сделать с использованием иных агентов, пожалуйста, прокомментируйте. Целью является демонстрация сохранения информации об обучении в спектре весов, при его фильтрации и постеризации происходит не полное стирание этих данных, что можно использовать для дообучения в качестве начальных условий. При этом, после постеризации, коэффициенты весов выраженные в спектральных составляющих занимают существенно меньшее место. Также этот эффект интересен с точки зрения проектирования ИНС. Вместо кода будут md-саммари по разделам, их можно использовать для генерации в качестве промптов для ИИ-агента. >>ЧТЕНИЕ>>
https://habr.com/ru/articles/1030520/
#веса_модели #нейронная_сеть #обучение_нейронных_сетей #постеризация #преобразование_фурье #спектрограмма #функция_потерь #точность_прогноза
-
Вспомнить всё. Спектр весов нейросети
В данной публикации попробуем сформировать простейшую нейросеть. Будем использовать Colab. Данный выбор также хорош тем, что то, что позволено Ю py теру не позволено быку. Иметь локальные вычислительные мощности. В принципе довольно неплохая инфраструктура для проверки базовых алгоритмов налету. Если есть что то подобное на других платформах или можно сделать с использованием иных агентов, пожалуйста, прокомментируйте. Целью является демонстрация сохранения информации об обучении в спектре весов, при его фильтрации и постеризации происходит не полное стирание этих данных, что можно использовать для дообучения в качестве начальных условий. При этом, после постеризации, коэффициенты весов выраженные в спектральных составляющих занимают существенно меньшее место. Также этот эффект интересен с точки зрения проектирования ИНС. Вместо кода будут md-саммари по разделам, их можно использовать для генерации в качестве промптов для ИИ-агента. >>ЧТЕНИЕ>>
https://habr.com/ru/articles/1030520/
#веса_модели #нейронная_сеть #обучение_нейронных_сетей #постеризация #преобразование_фурье #спектрограмма #функция_потерь #точность_прогноза
-
[Перевод] Квантизация с нуля: как запустить 160ГБ LLM на ноутбуке и не потерять в качестве
Qwen-3-Coder-Next — модель с 80 миллиардами параметров и весом 159,4 ГБ . Примерно столько RAM потребовалось бы для её запуска, и это ещё без учёта длинного контекстного окна. И эта модель не считается большой моделью! По слухам, у frontier-моделей более триллиона параметров, для которых понадобилось бы минимум 2 ТБ оперативной памяти. Последний раз я видел столько RAM в одной машине — никогда . Но что если я скажу, что можно сделать LLM в 4 раза меньше и в 2 раза быстрее — достаточно, чтобы запускать весьма мощные модели на ноутбуке, — при потере точности всего 5–10%? В этом и заключается магия квантизации. В этой статье вы узнаете: – Почему параметры модели делают её такой большой – Как работает точность чисел с плавающей точкой и чем жертвуют модели – Как сжимать числа с плавающей точкой с помощью квантизации – Как измерить потерю качества модели после квантизации
https://habr.com/ru/articles/1015510/
#квантизация #LLM #bfloat16 #llamacpp #веса_модели #числа_с_плавающей_точкой #posttraining_quantization #перплексия #KLдивергенция #локальный_запуск_моделей
-
[Перевод] Квантизация с нуля: как запустить 160ГБ LLM на ноутбуке и не потерять в качестве
Qwen-3-Coder-Next — модель с 80 миллиардами параметров и весом 159,4 ГБ . Примерно столько RAM потребовалось бы для её запуска, и это ещё без учёта длинного контекстного окна. И эта модель не считается большой моделью! По слухам, у frontier-моделей более триллиона параметров, для которых понадобилось бы минимум 2 ТБ оперативной памяти. Последний раз я видел столько RAM в одной машине — никогда . Но что если я скажу, что можно сделать LLM в 4 раза меньше и в 2 раза быстрее — достаточно, чтобы запускать весьма мощные модели на ноутбуке, — при потере точности всего 5–10%? В этом и заключается магия квантизации. В этой статье вы узнаете: – Почему параметры модели делают её такой большой – Как работает точность чисел с плавающей точкой и чем жертвуют модели – Как сжимать числа с плавающей точкой с помощью квантизации – Как измерить потерю качества модели после квантизации
https://habr.com/ru/articles/1015510/
#квантизация #LLM #bfloat16 #llamacpp #веса_модели #числа_с_плавающей_точкой #posttraining_quantization #перплексия #KLдивергенция #локальный_запуск_моделей
-
[Перевод] Квантизация с нуля: как запустить 160ГБ LLM на ноутбуке и не потерять в качестве
Qwen-3-Coder-Next — модель с 80 миллиардами параметров и весом 159,4 ГБ . Примерно столько RAM потребовалось бы для её запуска, и это ещё без учёта длинного контекстного окна. И эта модель не считается большой моделью! По слухам, у frontier-моделей более триллиона параметров, для которых понадобилось бы минимум 2 ТБ оперативной памяти. Последний раз я видел столько RAM в одной машине — никогда . Но что если я скажу, что можно сделать LLM в 4 раза меньше и в 2 раза быстрее — достаточно, чтобы запускать весьма мощные модели на ноутбуке, — при потере точности всего 5–10%? В этом и заключается магия квантизации. В этой статье вы узнаете: – Почему параметры модели делают её такой большой – Как работает точность чисел с плавающей точкой и чем жертвуют модели – Как сжимать числа с плавающей точкой с помощью квантизации – Как измерить потерю качества модели после квантизации
https://habr.com/ru/articles/1015510/
#квантизация #LLM #bfloat16 #llamacpp #веса_модели #числа_с_плавающей_точкой #posttraining_quantization #перплексия #KLдивергенция #локальный_запуск_моделей
-
[Перевод] Квантизация с нуля: как запустить 160ГБ LLM на ноутбуке и не потерять в качестве
Qwen-3-Coder-Next — модель с 80 миллиардами параметров и весом 159,4 ГБ . Примерно столько RAM потребовалось бы для её запуска, и это ещё без учёта длинного контекстного окна. И эта модель не считается большой моделью! По слухам, у frontier-моделей более триллиона параметров, для которых понадобилось бы минимум 2 ТБ оперативной памяти. Последний раз я видел столько RAM в одной машине — никогда . Но что если я скажу, что можно сделать LLM в 4 раза меньше и в 2 раза быстрее — достаточно, чтобы запускать весьма мощные модели на ноутбуке, — при потере точности всего 5–10%? В этом и заключается магия квантизации. В этой статье вы узнаете: – Почему параметры модели делают её такой большой – Как работает точность чисел с плавающей точкой и чем жертвуют модели – Как сжимать числа с плавающей точкой с помощью квантизации – Как измерить потерю качества модели после квантизации
https://habr.com/ru/articles/1015510/
#квантизация #LLM #bfloat16 #llamacpp #веса_модели #числа_с_плавающей_точкой #posttraining_quantization #перплексия #KLдивергенция #локальный_запуск_моделей