#оптимизация_моделей — Public Fediverse posts on home.social

Habr @[email protected] · 2026-05-15 · 13:02 UTC

[Перевод] Квантизация больших языковых моделей: FP32, BF16, INT8, NF4 и QLoRA

Большие языковые модели требуют огромных объёмов памяти. Например, модель с 8 миллиардами параметров в формате FP16 занимает 24–27 ГБ памяти только для инференса (веса, кэш ключей-значений, буферы). Для полного обучения той же модели нужно уже 84–128 ГБ памяти. Даже с такими методами, как checkpointing активаций или offloading на CPU, требования остаются высокими, особенно для моделей с 70 миллиардами параметров. Квантизация помогает снизить требования к памяти, уменьшая точность представления весов модели без значительной потери качества. В этой статье разберём основные форматы числовой точности, используемые в квантизации LLM, их особенности и ограничения. Также рассмотрим NF4 — ключевую инновацию из статьи про QLoRA, и разберём, зачем нужны такие методы, как блочная квантизация, двойная квантизация и квантизация по квантилям.

https://habr.com/ru/articles/1035626/

#llm #квантизация #NF4 #qlora #lora #оптимизация_моделей

#оптимизация_моделей #lora #qlora #nf4 #квантизация #llm

Habr @[email protected] · 2026-05-15 · 13:02 UTC

[Перевод] Квантизация больших языковых моделей: FP32, BF16, INT8, NF4 и QLoRA

Большие языковые модели требуют огромных объёмов памяти. Например, модель с 8 миллиардами параметров в формате FP16 занимает 24–27 ГБ памяти только для инференса (веса, кэш ключей-значений, буферы). Для полного обучения той же модели нужно уже 84–128 ГБ памяти. Даже с такими методами, как checkpointing активаций или offloading на CPU, требования остаются высокими, особенно для моделей с 70 миллиардами параметров. Квантизация помогает снизить требования к памяти, уменьшая точность представления весов модели без значительной потери качества. В этой статье разберём основные форматы числовой точности, используемые в квантизации LLM, их особенности и ограничения. Также рассмотрим NF4 — ключевую инновацию из статьи про QLoRA, и разберём, зачем нужны такие методы, как блочная квантизация, двойная квантизация и квантизация по квантилям.

https://habr.com/ru/articles/1035626/

#llm #квантизация #NF4 #qlora #lora #оптимизация_моделей

#оптимизация_моделей #lora #qlora #nf4 #квантизация #llm

Habr @[email protected] · 2026-05-15 · 13:02 UTC

[Перевод] Квантизация больших языковых моделей: FP32, BF16, INT8, NF4 и QLoRA

Большие языковые модели требуют огромных объёмов памяти. Например, модель с 8 миллиардами параметров в формате FP16 занимает 24–27 ГБ памяти только для инференса (веса, кэш ключей-значений, буферы). Для полного обучения той же модели нужно уже 84–128 ГБ памяти. Даже с такими методами, как checkpointing активаций или offloading на CPU, требования остаются высокими, особенно для моделей с 70 миллиардами параметров. Квантизация помогает снизить требования к памяти, уменьшая точность представления весов модели без значительной потери качества. В этой статье разберём основные форматы числовой точности, используемые в квантизации LLM, их особенности и ограничения. Также рассмотрим NF4 — ключевую инновацию из статьи про QLoRA, и разберём, зачем нужны такие методы, как блочная квантизация, двойная квантизация и квантизация по квантилям.

https://habr.com/ru/articles/1035626/

#llm #квантизация #NF4 #qlora #lora #оптимизация_моделей

#оптимизация_моделей #lora #qlora #nf4 #квантизация #llm

Habr @[email protected] · 2026-05-15 · 13:02 UTC

[Перевод] Квантизация больших языковых моделей: FP32, BF16, INT8, NF4 и QLoRA

Большие языковые модели требуют огромных объёмов памяти. Например, модель с 8 миллиардами параметров в формате FP16 занимает 24–27 ГБ памяти только для инференса (веса, кэш ключей-значений, буферы). Для полного обучения той же модели нужно уже 84–128 ГБ памяти. Даже с такими методами, как checkpointing активаций или offloading на CPU, требования остаются высокими, особенно для моделей с 70 миллиардами параметров. Квантизация помогает снизить требования к памяти, уменьшая точность представления весов модели без значительной потери качества. В этой статье разберём основные форматы числовой точности, используемые в квантизации LLM, их особенности и ограничения. Также рассмотрим NF4 — ключевую инновацию из статьи про QLoRA, и разберём, зачем нужны такие методы, как блочная квантизация, двойная квантизация и квантизация по квантилям.

https://habr.com/ru/articles/1035626/

#llm #квантизация #NF4 #qlora #lora #оптимизация_моделей

#llm #квантизация #nf4 #qlora #lora #оптимизация_моделей

Habr @[email protected] · 2025-12-18 · 12:12 UTC

GigaEvo — эволюционный фреймворк для автоматизации ML и LLM-ориентированных задач

Привет, Хабр! Этой осенью Google порадовали нас релизом AlphaEvolve — фреймворка, который комбинирует способности LLM к написанию кода с эволюционным подходом к вычислению. Новый метод доказал свою эффективность на сложных алгоритмических или математических задачах, но, как это часто бывает у таких компаний, технические детали AlphaEvolve остаются коммерческой тайной. Тогда мы в AIRI решили создать свой фреймворк. Так усилиями научной группы «Мультимодальные архитектуры ИИ» лаборатории «Сильный искусственный интеллект в медицине», научной группы «Генеративное проектирование» лаборатории FusionBrain, лаборатории «Доверенные и безопасные интеллектуальные системы» и отдела научно‑технической разработки увидел свет GigaEvo — эволюционный фреймворк для автоматизации ML и LLM‑ориентированных задач, который мы представили в ноябре на AIJ и чей код выложили на GitHub . Здесь хотелось бы рассказать о нём подробнее, описать его внутреннее устройство и дать рекомендации к использованию.

https://habr.com/ru/companies/airi/articles/967620/

#evolve #automl #автоматизации_ML #оптимизация_моделей #оптимизация_параметров #эволюционные_алгоритмы

#эволюционные_алгоритмы #оптимизация_параметров #оптимизация_моделей #автоматизации_ml #automl #evolve

Habr @[email protected] · 2025-12-18 · 12:12 UTC

GigaEvo — эволюционный фреймворк для автоматизации ML и LLM-ориентированных задач

Привет, Хабр! Этой осенью Google порадовали нас релизом AlphaEvolve — фреймворка, который комбинирует способности LLM к написанию кода с эволюционным подходом к вычислению. Новый метод доказал свою эффективность на сложных алгоритмических или математических задачах, но, как это часто бывает у таких компаний, технические детали AlphaEvolve остаются коммерческой тайной. Тогда мы в AIRI решили создать свой фреймворк. Так усилиями научной группы «Мультимодальные архитектуры ИИ» лаборатории «Сильный искусственный интеллект в медицине», научной группы «Генеративное проектирование» лаборатории FusionBrain, лаборатории «Доверенные и безопасные интеллектуальные системы» и отдела научно‑технической разработки увидел свет GigaEvo — эволюционный фреймворк для автоматизации ML и LLM‑ориентированных задач, который мы представили в ноябре на AIJ и чей код выложили на GitHub . Здесь хотелось бы рассказать о нём подробнее, описать его внутреннее устройство и дать рекомендации к использованию.

https://habr.com/ru/companies/airi/articles/967620/

#evolve #automl #автоматизации_ML #оптимизация_моделей #оптимизация_параметров #эволюционные_алгоритмы

#эволюционные_алгоритмы #оптимизация_параметров #оптимизация_моделей #автоматизации_ml #automl #evolve

Habr @[email protected] · 2025-12-18 · 12:12 UTC

GigaEvo — эволюционный фреймворк для автоматизации ML и LLM-ориентированных задач

Привет, Хабр! Этой осенью Google порадовали нас релизом AlphaEvolve — фреймворка, который комбинирует способности LLM к написанию кода с эволюционным подходом к вычислению. Новый метод доказал свою эффективность на сложных алгоритмических или математических задачах, но, как это часто бывает у таких компаний, технические детали AlphaEvolve остаются коммерческой тайной. Тогда мы в AIRI решили создать свой фреймворк. Так усилиями научной группы «Мультимодальные архитектуры ИИ» лаборатории «Сильный искусственный интеллект в медицине», научной группы «Генеративное проектирование» лаборатории FusionBrain, лаборатории «Доверенные и безопасные интеллектуальные системы» и отдела научно‑технической разработки увидел свет GigaEvo — эволюционный фреймворк для автоматизации ML и LLM‑ориентированных задач, который мы представили в ноябре на AIJ и чей код выложили на GitHub . Здесь хотелось бы рассказать о нём подробнее, описать его внутреннее устройство и дать рекомендации к использованию.

https://habr.com/ru/companies/airi/articles/967620/

#evolve #automl #автоматизации_ML #оптимизация_моделей #оптимизация_параметров #эволюционные_алгоритмы

#эволюционные_алгоритмы #оптимизация_параметров #оптимизация_моделей #автоматизации_ml #automl #evolve

Habr @[email protected] · 2025-12-18 · 12:12 UTC

GigaEvo — эволюционный фреймворк для автоматизации ML и LLM-ориентированных задач

Привет, Хабр! Этой осенью Google порадовали нас релизом AlphaEvolve — фреймворка, который комбинирует способности LLM к написанию кода с эволюционным подходом к вычислению. Новый метод доказал свою эффективность на сложных алгоритмических или математических задачах, но, как это часто бывает у таких компаний, технические детали AlphaEvolve остаются коммерческой тайной. Тогда мы в AIRI решили создать свой фреймворк. Так усилиями научной группы «Мультимодальные архитектуры ИИ» лаборатории «Сильный искусственный интеллект в медицине», научной группы «Генеративное проектирование» лаборатории FusionBrain, лаборатории «Доверенные и безопасные интеллектуальные системы» и отдела научно‑технической разработки увидел свет GigaEvo — эволюционный фреймворк для автоматизации ML и LLM‑ориентированных задач, который мы представили в ноябре на AIJ и чей код выложили на GitHub . Здесь хотелось бы рассказать о нём подробнее, описать его внутреннее устройство и дать рекомендации к использованию.

https://habr.com/ru/companies/airi/articles/967620/

#evolve #automl #автоматизации_ML #оптимизация_моделей #оптимизация_параметров #эволюционные_алгоритмы

#evolve #automl #автоматизации_ml #оптимизация_моделей #оптимизация_параметров #эволюционные_алгоритмы

Habr @[email protected] · 2025-09-03 · 12:22 UTC

Когда YOLO не спасает: как один параметр может испортить всё

История о том, почему в ML побеждают не те, у кого самая большая модель, а те, кто понимает, что они делают.

https://habr.com/ru/articles/943516/

#покер #онлайнпокер #карты #computer_vision #yolo #object_detection #детекция_объектов #разметка_данных #датасет #оптимизация_моделей

#оптимизация_моделей #датасет #разметка_данных #детекция_объектов #object_detection #yolo

Habr @[email protected] · 2025-09-03 · 12:22 UTC

Когда YOLO не спасает: как один параметр может испортить всё

История о том, почему в ML побеждают не те, у кого самая большая модель, а те, кто понимает, что они делают.

https://habr.com/ru/articles/943516/

#покер #онлайнпокер #карты #computer_vision #yolo #object_detection #детекция_объектов #разметка_данных #датасет #оптимизация_моделей

#оптимизация_моделей #датасет #разметка_данных #детекция_объектов #object_detection #yolo

Habr @[email protected] · 2025-09-03 · 12:22 UTC

Когда YOLO не спасает: как один параметр может испортить всё

История о том, почему в ML побеждают не те, у кого самая большая модель, а те, кто понимает, что они делают.

https://habr.com/ru/articles/943516/

#покер #онлайнпокер #карты #computer_vision #yolo #object_detection #детекция_объектов #разметка_данных #датасет #оптимизация_моделей

#оптимизация_моделей #датасет #разметка_данных #детекция_объектов #object_detection #yolo

Habr @[email protected] · 2025-09-03 · 12:22 UTC

Когда YOLO не спасает: как один параметр может испортить всё

История о том, почему в ML побеждают не те, у кого самая большая модель, а те, кто понимает, что они делают.

https://habr.com/ru/articles/943516/

#покер #онлайнпокер #карты #computer_vision #yolo #object_detection #детекция_объектов #разметка_данных #датасет #оптимизация_моделей

#покер #онлайнпокер #карты #computer_vision #yolo #object_detection

Habr @[email protected] · 2025-03-03 · 14:42 UTC

Квантизация

Если вы кликнули на данную статью, то скорее всего вы знаете, что в последнее время появляется огромное количество нейронных сетей. Они находят применение везде: и в задачах компьютерного зрения (Computer Vision, CV), и в обработке естественного языка (Natural Language Processing, NLP), распознавания и генерации речи (Speech-To-Text, STT; Text-To-Speech, TTS). Но есть что-то, что объединяет их все: у любой нейронной сети есть веса. И нам их, очевидно, нужно хранить и применять. Так как мы это делаем? Если вы хорошо слушали и не забыли школьную информатику, вы скажете: в битах! И будете абсолютно правы. А сколько бит надо на хранение? Если мы возьмем какую-то стандартную библиотеку для обучения нейронных сетей (например PyTorch) и будем обучать модель самым простым образом, мы будем использовать тип данных FP32, он же Single precision. На каждое число мы будем выделять 32 бита. Тем не менее, сейчас стремительно набрали популярность большие языковые модели (Large Language Model, LLM), и в них огромное количество параметров. Недавно вышедшая модель от DeepSeek содержит порядка 671 млрд параметров. Можно оценить количество памяти, которая нам понадобится, если хранить все эти числа в FP32:

https://habr.com/ru/articles/887466/

#квантизация #llm #llmмодели #llmархитектура #швм #школа_высшей_математики #оптимизация #оптимизация_моделей #ускорение_нейросетей

#квантизация #llm #llmмодели #llmархитектура #швм #школа_высшей_математики

Habr @[email protected] · 2024-02-23 · 09:22 UTC

Магическое ускорение работы моделей с помощью самогонного аппарата

Вы когда-нибудь задумывались о том, что у человеческого мозга есть ограниченная емкость и вы можете выучить этот чертов английский просто потому что в детстве запомнили слишком много покемонов? Или почему обучение с учителем гораздо эффективнее, чем самостоятельное? Эти вопросы вполне применимы и в области машинного обучения. Для обучения модели диффузии требуется много данных и вычислительной мощности, а затем для создания изображений требуется значительное количество вычислений и серьезное оборудование. Исследователи (у которых обычно нет денег и на доширкак) задали очень хороший вопрос - можно ли достичь тех же результатов с меньшими усилиями?

https://habr.com/ru/companies/raft/articles/795749/

#обработка_изображений #ai #ml #дистилляция #оптимизация_моделей #stablediffusion

#stablediffusion #оптимизация_моделей #дистилляция #ml #ai #обработка_изображений